1. 詳解OLAP概念、基本內容、特點、分類
OLAP(On-Line Analysis Processing)在線分析處理是一種共享多維信息的快速分析技術;OLAP利用多維資料庫技術使用戶從不同角度觀察數據;OLAP用於支持復雜的分析操作,側重於對管理人員的決策支持,可以滿足分析人員快速、靈活地進行大數據復量的復雜查詢的要求,並且以一種直觀、易懂的形式呈現查詢結果,輔助決策。
(1)變數(度量)
變數是數據度量的指標,是數據的實際意義,即描述數據「是什麼」。像示例中的人數。
(2)維度
維度是描述與業務主題相關的一組屬性,單個屬性或屬性集合可以構成一個維。如示例中的學歷、民族、性別等都是維度。
(3)維的層次
一個維往往可以具有多個層次,例如時間維度分為年、季度、月和日等層次,地區維可以是國家、地區、省、市等層次。這里的層次表示數據細化程度,對應概念分層。後面介紹的上鑽操作就是由 低層 概念映射到高層概念。概念分層可除根據概念的全序和偏序關系確定外,還可以通過對數據進行離散化和分組實現。
(4)維的成員
若維是多層次的,則不同的層次的取值構成一個維成員。部分維層次同樣可以構成維成員,例如「某年某季度」、「某季某月」等都可以是時間維的成員。
(5)多維數組
多維數組用維和度量的組合表示。一個多維數組可以表示為(維1,維2,……,維n,變數),例如(部門,職系、民族、性別,人數)組成一個多維數組。
(6)數據單元(單元格)
多維數組的取值。當多維數組中每個維都有確定的取值時,就唯一確定一個變數的值。數據單元可以表示為(維1成員,維2成員,……,維N成員,變數的值),例如(人事教育部,技能,回族,男,1人)表示一個數據單元,表示人事教育部職系是技能的回族男性有1人。
(7)事實
事實是不同維度在某一取值下的度量,例如上述人事教育部職系是技能的回族男性有1人就表示在部門、職系、民族、性別四個維度上企業人數的事實度量,並且在為人數事實中包含部門維度人事教育部這一個維度層次,如果將人數事實的所有維度考慮在內,就構成有關人數的多維分析立方體。
電子數據表與OLAP相比,不具備OLAP的多維性、層次、維度計算以及結構與視圖分離等特點。
1. 快速。 終端用戶對於系統的快速響應有很高的要求。調查表明如果用戶在30秒內得不到回應,就會變得不耐煩。因此OLAP平台彩用了多種技術提高響應速度,例如專門的數據存儲格式、大量的預處理和特殊的硬體設計等,通過減小在線分析處理的動態計算,事先存儲OLAP所需粒度的數據等主要手段來獲得OLAP響應速度的提高,盡管如此,查詢反應慢仍然是OLAP產品中經常被提及的問題。
2. 可分析。 用戶可以應用OLAP平台分析數據,也可以使用其他外部分析工具,例如電子數據表,這些分析工具基本上都以直觀的方式為用戶提供了分析功能。
3. 共享。 由於人們認為OLAP是只讀的,僅需要簡單的安全管理,導致目前許多OLAP產品在安全共享方面還存在許多問題。因此當多個用戶訪問OLAP伺服器時,系統就在適當的粒度上加鎖。
4. 多維。 維是OLAP的核心概念,多維性是OLAP的關鍵屬性,這與數據倉庫的多維數據組織正好相互補充。為了使用戶能夠從多個維度、多個數據粒度查看數據,了解數據蘊含的信息,系統需要提供對數據的多維分析功能,包括切片、旋轉和鑽取等多種操作
按處理方式分類
按存儲方式分類
由於ROLAP是用關系表來模擬多維數據的,因此其存取較MOLAP復雜。而MOLAP可以利用多維查詢語言直接將用戶查詢轉為MDDB可以處理的形式,但是多維數據存儲大量數據時會由於數據稀疏而浪費大量存儲空間;因此,許多OLAP服務提供商都採用混合OLAP技術。
篇幅有限,關於OLAP方面的內容就介紹到這了,大家有興趣可以繼續深入了解下OLAP引擎Mondrian。後面會分享更多devops和DBA方面內容,感興趣的朋友可以關注下!
2. OLAP是什麼意思
OLAP(Online AnalyticalProcessing)是一種數據處理技術,專門設計用於支持復雜的分析操作,側重對決策人員和高層管理人員的決策支持,可以根據分析人員的要求快速、靈活地進行大數據量的復雜查詢處理,並且以一種直觀而易懂的形式將查詢結果提供給決策人員,以便他們准確掌握企業(公司)的經營狀況。
二十幾年前E.F. Codd提出OLAP時,也參照關系資料庫提出了12條規則,但後期沒有得到發展,其中有些規則在現在看來都已經不再完全適用,或者不是OLAP的特殊規則。因此我們從OLAP的本質定位上,重新確定三條原則,用以解析OLAP的歷史發展:
1、提供多維的業務視圖(「維」是OLAP存在和核心概念)
2、滿足靈活的交互分析(面向決策分析需要及時響應查詢需求的變更)
3、提供高速的檢索性能(沒有人希望查詢數據等待太長時間)
(2)開啟olap資料庫擴展閱讀
OLAP的技術派系
1、傳統OLAP
尊重傳統是技術領域最缺少的品德,傳統OLAP中尤其是Mondrian和SSAS還是有不少用戶群的(前者是開源軟體),反而選用Cognos、MSTR等的越來越少。
2、可視化OLAP
十幾年前,最火爆的BI產品是BO(2007年以68億美元被SAP收購)。BO里最早的核心技術叫做「動態微立方」,就是把基於語義模型查詢的結果集數據以MOLAP的方式存儲在內存中,以加快後期交互分析的效率。
現在同樣也有各種基於內存計算的軟體,但它們是以可視化為主,比如Tableau和Qlikview等
3、大數據OLAP
Hadoop的生態系統誕生於互聯網公司,從一開始就有開放的基因,這個OLAP派系最有意思的是Kylin,而且是咱中國人在Apache上的定級項目。