A. 數據倉庫與數據挖掘技術—數據光滑
雜訊是被測量的變數的隨機誤差或方差。
數據光滑技術:
1、分箱:通過考察數據的近鄰(即周圍的值)來光滑有序數據的值。升轎睜有序值分布到一些「桶」或箱中,由於分箱方法考察近鄰的值,因此進行局部光滑。一般來說,寬度越大光滑效果越大。
2、回歸:可以用一個函數(如回歸函吵歲數)擬合數據來光滑數據。線性回歸涉及找出擬合兩個屬性的「最佳」線,使得一個屬性可以用來預測另一個。多元線性回歸是線性回歸的擴展,其中涉及的屬性有多個,並且數據擬合到一個多維曲面。
3、聚類:可以通過聚類檢測離群點,將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點。
4、人工檢測
數據集成合並多個數據源中的數據,存放在一致的數據存儲。在數據集成時,首先需要考慮的是模式集成和對象匹配問題。冗餘是在數據集成,是另一個需要考慮的重要問題。
有些冗餘可以被相關分析檢測到。相關並不意味因果關系,也就是說如果A和B是相關的並不意味,A導致B或B導致A。
數據變換把數據轉換成適於挖掘的形式。
1、光滑:去掉數據中的雜訊。這種技術包括分箱、回歸和聚類等
按箱平均值平滑分箱:箱中每個值都按箱中的平均值替換
按箱中值替換:箱中的每一個值,按箱中的中值替換
按箱邊界平滑:箱中的最大值和最小值被視為邊箱邊界。箱中的每一個值被最近帆喊的邊界替換
2、聚集。隊數據進行匯總或聚集
3、數據泛化:使用概念分層,用高層概念替換底層或「原始」數據。例如分類的屬性,如街道,可以泛化為較高層的概念。如城市或國家
4、規范化:把數據歸一化、指數化或標准化,把不同的屬性進行比例縮放,使它們的值落在大致相同的范圍內。常用的有三種:最小—最大規范化、z- score規范化和按小數定標規范化
5、屬性構造:由給定的屬性添加新的屬性
數據貴約技術可以用來得到數據集的歸約表示,它小的多,但仍接近保持原數據的完整性。對歸約後的數據集挖掘更有效。並產生幾乎相同的分析結果
數據立方體存儲多維聚集信息,每個單元存放一個聚集值,對應於多維空間的一個數據點,每個屬性可能存在概念分層,允許多個抽象層進行數據分析
數據立方體為在線分析處理的上鑽、下鑽等操作提供了可以快速訪問的匯總數據
數據立方體聚集的基礎是概念分層
B. 多維數據概念及模型解析-簡單
數據立方體(Cube)
維度(Dimension)
成員(Member),又稱維度成員(Dimension Member)
度量老燃櫻(Measure)
級別(Level)
維度(Dimension)
維度就是描述數據的業務角度,不同的分析場景會有若乾的維度。類似於一個坐標軸
體現在數據結構中,每個維度都應該會對應一張表,如果該維度存在多個等級,這張段慶表中的欄位應該可以體現出來
維度成員(Dimension Member)
若是維度相當於坐標軸,那麼維度成員就相當於坐標軸上的值。對應在workbench生成的schema裡面的Level
維度成員可以呈現成樹形結構,沒有子級成員的成為明細成員(Leaf Member)
數據立方體(Cube)
數據立方體表示由若干維度所描述的一個數據集合,每個維度各自表示一個可對此數據集合進行觀察和分析的業務角度
每個立方體的事實表應該具備多個維度對應表的關聯數據,是一張整合的復雜數據表
度量(Measure)
在一個數據立方體中,從每個維度上都選取一個確定的維度成員,這些維度成員組合所確定的一個點就是度量值
一般情況下,數據立方體中並不直接侍叢存儲非明細成員所描述的度量值,而是通過對其後代成員中的全部明細成員進行匯總計算而得出
級別(Level)
級別表示維度成員所描述業務角度的細節程度,也可理解為通過維度成員觀察數據的粒度。
即描述該維度的細節屬性。
模型說明(原帖):
https://blog.csdn.net/zzq900503/article/details/78490660
https://blog.csdn.net/zzq900503/article/details/78492505
C. 數據立方體的介紹
表示諸如計件銷售、店面銷售、區域銷售、銷售純利和完成訂單的平均時間等數據。有了這些數據,分析師能針對一個或明巧全部產品、客戶、銷售代理等,就這些數字中的一個或全部進行分析。這樣,在預測趨勢和分析業績時,數據立方激御鍵體就非常有用,拆虧而表格最適合報告標准化的運作情況。
D. 數據立方體的構建方法
關系 OLAP就利用了關系資料庫模型。ROLAP數據立方體是按關系表格的集合實現的(最多可達維度數目的兩倍),來代替多維陣列。其中的表格叫做立方單元,代表特定的視圖。
由於立方單元是一個常規的資料庫表格,所以我們能用傳統的 RDBMS技術(如索引和連接)來處理和查詢它們。這種形式對大量的數據集合可能是有效的,因為這些表格必須只能包含實際有數據的數據立方單元。
但是 ROLAP缺少了用MOLAP實現時所具有的內在索引功能。相反,給定表格中的每個記錄必須包括所皮緩有的屬性值而任何集合的或摘要的敏陵數據。這種額外的開銷可能會抵消掉一些節省出來的空間,而隱性索引的缺少意味著我們必須提供顯性的橋握戚索引。
從結構角度看,數據立方體由兩個單元構成:維度和測度。維度已經解釋過了,測度就是實際的數據值。
E. 什麼是"數據立方體"
數據立方體
定義:數據立方體是一類多維矩陣,讓用戶從多個角度探索和分析數據集,通常是一次同時考慮三個因素(維度)。
當我們試圖從一堆數據中提取信息時,我們需要工具來幫助我們找到那些有關聯的和重要的信息,以及探討不同的情景。一份報告,不管是印在紙上的還是出現在屏幕上,都是數據的二維表示,是行和列構成的表格。在我們只有兩個因素要考慮時,這就足矣,但在真實世界中我們需要更強的工具。
數據立方體是二維表格的多維擴展,如同幾何學中立方體是正方形的三維擴展一樣。 「立方體」這個詞讓我們想起三維的物體,我們也可以把三維的數據立方體看作是一組類似的互相疊加起來的二維表格。
但是數據立方體不局限於三個維度。大多數在線分析處理( OLAP)系統能用很多個維度構建數據立方體,例如,微軟的SQL Server 2000 Analysis Services工具允許維度數高達64個(雖然在空間或幾何范疇想像更高維度的實體還是個問題)。
在實際中,我們常常用很多個維度來構建數據立方體,但我們傾向於一次只看三個維度。數據立方體之所以有價值,是因為我們能在一個或多個維度上給立方體做索引。
關系的還是多維的?
由於數據立方體是一個非常有用的解釋工具,所以大多數 OLAP產品都圍繞著按多維陣列建立鏈輪含立方桐吵模型這樣一個結構編制。這些多維的OLAP產品,即MOLAP產品,運行速度通常比其他方法更快,這是因為能直接把索引做進數據立方的結構,方便收集數據子集。
然而,對於非常大的多維數據集, MOLAP方案並不總是有效的。隨著維度數目的增加,立方體變得更稀疏,即表示某些屬性組合的多個單元是空的,沒有集合的數據。相對於其他類型的稀疏資料庫,數據立方體往往會增加存儲需求,有時會達到不能接受的程度。壓縮技術能有些幫助,但利用這些技術往往會破壞MOLAP的自然索引。
數據立方體還可以用其他的方法構建。關系 OLAP就利用了關系資料庫模型。ROLAP數據立方體是按關系表格的集合實現的(最多可達維度數目的兩倍),來代替多維陣列。其中的表格叫做立方單元,代表特定的視圖。
由於立方單元是一個常規的資料庫表格,所以我們能用傳統的 RDBMS技術(如索引和連接)來處理和查詢它們。這種形式對大量的數據集合可能是有效的,因為這些表格必須只能包含實際有數據的數據立方單元。
但是 ROLAP缺少了用MOLAP實現時所具有的內在索引功能。相反,給定表格中的每個記錄必須包括所有的屬性值而任何集合的或摘要的數據。這種額外的開銷可能會抵消掉一些節省出來的空間,而隱性索引的缺少意味著我們必須提棚笑供顯性的索引。
從結構角度看,數據立方體由兩個單元構成:維度和測度。維度已經解釋過了,測度就是實際的數據值。
記住這點是很重要的:數據立方體中的數據是已經過處理並聚合成立方形式。因此,通常不需要在數據立方體中進行計算。這也意味著我們看到數據立方體中的數據並不是實時的、動態的數據。
立方體中的數據已經過摘要,表示諸如計件銷售、店面銷售、區域銷售、銷售純利和完成訂單的平均時間等數據。有了這些數據,分析師能針對一個或全部產品、客戶、銷售代理等,就這些數字中的一個或全部進行分析。這樣,在預測趨勢和分析業績時,數據立方體就非常有用,而表格最適合報告標准化的運作情況。
F. olap為什麼需要大量的聚集方體
為了滿足不同用戶的形形色色的猜滲需求。
聚集立方體,他是一種用於OLAP以及OLAP操作(如上卷、下鑽、切片和切塊)的多維數據模型。數據立方體存儲多為聚集信息。
在最低抽象層創建的立方體稱為基本方體。基本方體應當對應於感興趣的個搜氏體實體,如sales或customer。換言之,最低層應當是對於分析可用的或有用的。最高抽象的立方體稱為頂點方體。對世兆散不同層創建的數據立方體稱為方體,因此數據立方體可以看做方體的格。每個較高抽象將進一步減小結果數據的規模。當回答OLAP查詢或數據挖掘查詢時,應當使用給定任務相關的最小可用方體。
G. 用預處理後的數據訓練的模型測試新數據的時候怎麼辦
1)數據立方體聚集:聚集操作用於數據立方體結構中的數據。數據立方體存儲多維聚集信息。
2)屬性子集選擇,參見文本分類概述中特徵選擇演算法
3)維度歸約:使用數據編碼或變換,以便得到原數據的歸約或「壓縮」表示。歸約分為無損的和有損的。有效的有損維歸約方法為:小波變換和主成分分析
4)數值歸約:通過選擇替代的、『較小的』數據表示形式來減少數據量
5)離散化和概念分層產生