當前位置:首頁 » 服務存儲 » 數據倉庫底層存儲用什麼
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

數據倉庫底層存儲用什麼

發布時間: 2023-01-05 20:15:26

⑴ 數據挖掘 數據倉庫中數據存儲方式

數據倉庫是採用關系模型存儲的原始的數據信息,數據是按照一定的主題域進行組織的
而OLAP是由數據倉庫中的數據經過一定的模型抽取得到的,為數據分析提供支持的數據存儲,因此相對於底層日誌形式的數據倉庫,其存儲結構發生了變化。ROLAP伺服器中數據雖然以關系表存儲,但其關系結構可能與數據倉庫中不同,而MOLAP則採用了更加利於數據分析的數據立方結構存儲數據。

⑵ 大數據存儲與管理多採用什麼計算及存儲模式

大數據存儲與管理多採用雲計算以及倉庫存儲模式。

大數據似乎難以管理,就像一個永無休止統計數據的復雜的漩渦。因此,將信息精簡到單一的公司位置似乎是明智的,這是一個倉庫,其中所有的數據和伺服器都可以被充分地規劃指定。

大數據存儲方式:

存儲管理需要多種技術的協同工作,其中文件系統為其提供最底層存儲能力的支持。 分布式文件系統HDFS 是一個高度容錯性系統,被設計成適用於批量處理,能夠提供高吞吐量的的數據訪問。 分布式鍵值系統:分布式鍵值系統用於存儲關系簡單的半結構化數據。

⑶ 數據倉庫軟體hive的計算引擎採用的是什麼答案是什麼

Hive是搭建在Hadoop之上的一個sql引擎,它把SQL轉換成MapRece在Hadoop上執行,底層存儲採用HDFS,計算引擎當然是MapRece了。不過現在Hive也支持設置計算引擎為spark和tez。

⑷ 信息以文件形式存儲,文件用什麼分類分層存放

文件、塊和對象是三種以不同的方式來保存、整理和呈現數據的存儲格式。這些格式各有各的功能和限制。文件存儲會以文件和文件夾的層次結構來整理和呈現數據;塊存儲會將數據拆分到任意劃分且大小相同的卷中; 對象存儲會管理數據並將其鏈接至關聯的元數據。

塊存儲
塊存儲會將數據拆分成塊,並單獨存儲各個塊。每個數據塊都有一個唯一標識符,所以存儲系統能將較小的數據存放在最方便的位置。這意味著有些數據可以存儲在 Linux 環境中,有些則可以存儲在 Windows 單元中。

塊存儲通常會被配置為將數據與用戶環境分離,並會將數據分布到可以更好地為其提供服務的多個環境中。然後,當用戶請求數據時,底層存儲軟體會重新組裝來自這些環境的數據塊,並將它們呈現給用戶。它通常會部署在存儲區域網路 (SAN) 環境中,而且必須綁定到正常運行的伺服器。

由於塊存儲不依賴於單條數據路徑(和文件存儲一樣),因此可以實現快速檢索。每個塊都獨立存在,且可進行分區,因此可以通過不同的操作系統進行訪問,這使得用戶可以完全自由地配置數據。它是一種高效可靠的數據存儲方式,且易於使用和管理。它適用於要執行大型事務的企業和部署了大型資料庫的企業。這意味著,需要存儲的數據越多,就越適合使用塊存儲。

塊存儲有一些缺點。塊存儲的成本高昂。它處理元數據的能力有限。

操作對象:磁碟

存儲協議:SCSI、iSCSI、FC

介面命令:以SCSI為例,主要有Read/Write/Read Capacity

存儲架構:DAS、SAN

文件存儲
文件存儲也稱為文件級存儲或基於文件的存儲,數據會以單條信息的形式存儲在文件夾中。當需要訪問該數據時,計算機需要知道相應的查找路徑。存儲在文件中的數據會根據元數據來進行整理和檢索,這些元數據會告訴計算機文件所在的確切位置。

請試想一下塞滿文件櫃的儲藏室。每個文檔都會按照某種類型的邏輯層次結構來排放 ——按文件櫃、抽屜、文件夾,然後再是紙張。「分層存儲」這個術語就是這么來的,而這就是文件存儲。它是適用於直接和網路附加存儲(NAS)系統的最古老且運用最為廣泛的一種數據存儲系統;當訪問保存在個人計算機上的文件中的文檔,就是在使用文件存儲。文件存儲具有豐富多樣的功能,幾乎可以存儲任何內容。它非常適合用來存儲一系列復雜文件,並且有助於用戶快速導航。

問題是基於文件的存儲系統必須通過添置更多系統來進行橫向擴展,而不是通過增添更多容量來進行縱向擴展。

操作對象:文件和文件夾

存儲協議:NFS、SAMBA(SMB)、POSIX

介面命令:以NFS為例,文件相關的介面命令包括:READ/WRITE/CREATE/REMOVE/RENAME/LOOKUP/ACCESS 等;文件夾相關的介面命令包括:MKDIR/RMDIR/READDIR 等

存儲架構:NAS (【Linux】NAS存儲_Jacky_Feng的博客-CSDN博客)
對象存儲
對象存儲,也稱為基於對象的存儲,是一種扁平結構,其中的文件被拆分成多個部分並散布在多個硬體間。在對象存儲中,數據會被分解為稱為「對象」的離散單元,並保存在單個存儲庫中,而不是作為文件夾中的文件或伺服器上的塊來保存。

對象存儲卷會作為模塊化單元來工作:每個卷都是一個自包含式存儲庫,均含有數據、允許在分布式系統上找到對象的唯一標識符以及描述數據的元數據。元數據包括年齡、隱私/安全信息和訪問突發事件等詳細信息。為了檢索數據,存儲操作系統會使用元數據和標識符,這樣可以更好地分配負載,並允許管理員應用策略來執行更強大的搜索。

對象存儲需要一個簡單的 HTTP 應用編程介面 (API),以供大多數客戶端(各種語言)使用。對象存儲經濟高效:您只需為已用的內容付費。它可以輕松擴展,因而是公共雲存儲的理想之選。它是一個非常適用於靜態數據的存儲系統,其靈活性和扁平性意味著它可以通過擴展來存儲極大量的數據。對象具有足夠的信息供應用快速查找數據,並且擅長存儲非結構化數據。
它的缺點是無法修改對象 ,即必須一次性完整地寫入對象。對象存儲也不能很好地與傳統資料庫搭配使用,因為編寫對象是一個緩慢的過程,編寫應用以使用對象存儲 API 並不像使用文件存儲那麼簡單。

操作對象:對象(Object)

存儲協議:S3、Swift

介面命令:主要有PUT/GET/DELETE等

存儲架構:去中心化框架

對象存儲概念
對象存儲的數據組成

存儲桶(Bucket):存放對象的「容器」,且該「容器」無容量上限。對象以扁平化結構存放在存儲桶中,無文件夾和目錄的概念,用戶可選擇將對象存放到單個或多個存儲桶中。存儲桶的容量大小需要通過累加各個對象的大小得到。

每個存儲桶可容納任意數量的對象,但同一個主賬號下存儲桶數量最多僅能夠創建200個。(???)

對於存儲桶,應當以用途為粒度進行劃分,確保每個存儲桶的用途盡可能單一。例如,針對存放個人文件、發布靜態網站、存儲備份等用途都應該創建不同的存儲桶。此外,不同項目的數據、不同的網站,或者完全私人的文件與工作性質、需要分享的文件,也應該劃分不同的存儲桶。

對象存儲中也沒有「文件夾」的概念。對象存儲的管理平台為了模仿本地存儲的使用習慣,並與本地存儲系統互相兼容而模擬了目錄結構,背後的原理也僅僅是根據 / 這個字元對 key 進行分隔。為了表示空目錄,部分雲平台也提供「文件夾」對象,實際上只是 key 以 / 結尾的空存儲對象。

存儲桶所在地域(Regin)

指對象存儲的數據中心所在地域。對象存儲允許用戶在不同地域創建存儲桶,可以選擇在離業務最近的地域上創建存儲桶,以滿足低延遲、低成本以及合規性要求。

Bucket讀寫許可權

Bucket讀寫許可權包括:私有讀寫、公有讀私有寫和公有讀寫。

私有讀寫
只有該存儲桶的創建者及有授權的賬號才對該存儲桶中的對象有讀寫許可權,其他任何人對該存儲桶中的對象都沒有讀寫許可權。存儲桶訪問許可權默認為私有讀寫,推薦使用。
公有讀私有寫
任何人(包括匿名訪問者)都對該存儲桶中的對象有讀許可權,但只有存儲桶創建者及有授權的賬號才對該存儲桶中的對象有寫許可權。
公有讀寫
任何人(包括匿名訪問者)都對該存儲桶中的對象有讀許可權和寫許可權,不推薦使用。
對象(Object):對象存儲的基本單元,可理解為任何格式類型的數據,例如圖片、文檔和音視頻文件等。

每個對象都由對象鍵(Key)、對象值(Data)、和對象元數據(Metadata)組成。

對象鍵(Key):對象鍵是對象在存儲桶中的全局唯一標識(UID),可以理解為文件(名)路徑。
key用於檢索對象,文件對象的 key 與實際存儲路徑無關,伺服器和用戶不需要知道數據的物理地址,通過key就能找到對象。

對象值(Data):即存儲對象內容數據,可以理解為文件內容(Object Content)。
對象元數據(Metadata):是一組鍵值對,可以通俗的理解為文件的屬性,例如文件的修改時間、存儲類型等。(傳統的文件存儲,元數據屬於文件本身,和文件一起封裝存儲。而對象存儲,元數據獨立出來,並不在數據內部封裝。)
對象訪問地址

對象的訪問地址由存儲桶訪問地址和對象鍵組成,其結構形式為<存儲桶域名>/<對象鍵> 。

例如:上傳對象exampleobject.txt到廣州(華南)的存儲桶examplebucket-1250000000中,那麼exampleobject.txt的訪問地址是:examplebucket-1250000000.cos.ap-guangzhou.myqcloud.com/exampleobject.txt。其中examplebucket-1250000000.cos.ap-guangzhou.myqcloud.com為存儲桶域名,exampleobject.txt為對象鍵。

目錄和文件夾

對象存儲中本身是沒有文件夾和目錄的概念的,對象存儲不會因為上傳對象project/a.txt而創建一個project文件夾。為了滿足用戶使用習慣,對象存儲在控制台、COS browser 等圖形化工具中模擬了「文件夾」或「目錄」的展示方式,具體實現是通過創建一個鍵值為project/,內容為空的對象,展示方式上模擬了傳統文件夾。

對象操作

用戶通過控制台、工具、API、SDK等多種方式管理對象。

對象存儲架構
對象存儲設備(OSD)
OSD由存儲介質、處理器、內存以及網路系統等組成,負責管理本地的對象,是對象存儲系統的核心。和塊設備相比,它們的差異在於提供的訪問介面。OSD的主要功能是數據存儲和安全訪問。

數據存儲:OSD管理對象數據,並將它們放置在標準的磁碟系統上,OSD不提供塊介面訪問方式,Client請求數據時用對象ID、偏移進行數據讀寫。

智能分布:OSD用其自身的CPU和內存優化數據分布,並支持數據的預取。由於OSD可以智能地支持對象的預取,從而可以優化磁碟的性能。

對象元數據管理:OSD管理存儲的對象元數據與傳統的inode元數據相似,通常包括對象的數據塊和對象的長度。而在傳統的NAS系統中,這些元數據是由文件伺服器維護的,對象存儲架構將系統中主要的元數據管理工作由OSD來完成,降低了Client的開銷。

元數據伺服器(MDS)
MDS控制Client與OSD對象的交互,為客戶端提供元數據,主要是文件的邏輯視圖(文件與目錄的組織關系、每個文件所對應的OSD等)。主要功能如下:

對象存儲訪問:MDS構造和管理描述每個文件分布的邏輯視圖,允許Client直接訪問對象。MDS為Client提供訪問該文件所含對象的能力,OSD在接收到每個請求時將先驗證該能力,然後才可以訪問。

文件和目錄訪問管理:MDS在存儲系統上構建一個文件結構,包括限額控制、目錄和文件的創建和刪除、訪問控制等。

Client Cache一致性:為了提高Client性能,在對象存儲系統設計時通常支持Client方的Cache。由於引入Client方的Cache,帶來了Cache一致性問題,MDS支持基於Client的文件Cache,當Cache的文件發生改變時,將通知Client刷新Cache,從而防止Cache不一致引發的問題。

客戶端(Client)
對象存儲系統提供給用戶的也是標準的POSIX文件訪問介面。介面具有和通用文件系統相同的訪問方式,同時為了提高性能,也具有對數據的Cache功能和文件的條帶功能。同時,文件系統必須維護不同客戶端上Cache的一致性,保證文件系統的數據一致。

文件系統讀訪問流程:

① 客戶端應用發出讀請求;

② 文件系統向元數據伺服器發送請求,獲取要讀取的數據所在的OSD;

③ 直接向每個OSD發送數據讀取請求;

④ OSD得到請求以後,判斷要讀取的Object,並根據此Object要求的認證方式,對客戶端進行認證,如果此客戶端得到授權,則將Object的數據返回給客戶端;

⑤ 文件系統收到OSD返回的數據以後,讀操作完成。

對象存儲的優缺點
(1)優點:

容量大,高擴展性
對象存儲的容量是EB級以上,對象存儲的所有業務、存儲節點採用分布式集群方式工作,各功能節點、集群都可以獨立擴容。從理論上來說,某個對象存儲系統或單個桶(bucket),並沒有總數據容量和對象數量的限制,即服務商就可以不停地往架構里增加資源,這個存儲空間就是無限的,也是支持彈性伸縮的。

高安全性,可靠性
對象存儲採用了分布式架構,對數據進行多設備冗餘存儲(至少三個以上節點),實現異地容災和資源隔離。數據訪問方面,所有的桶和對象都有訪問控制策略,所有連接都支持SSL加密,訪問用戶進行身份許可權鑒定。

高性能,支持海量用戶的並發訪問
(2)缺點:

不支持直接在存儲上修改
對象存儲系統保存的Object不支持修改(追加寫Object需要調用特定的介面,生成的Object也和正常上傳的Object類型上有差別)。用戶哪怕是僅僅需要修改一個位元組也需要重新上傳整個Object。因此,它不適合存儲需要頻繁擦寫的數據。

參考鏈接:

對象存儲,為什麼那麼火? - 知乎 (hu.com)
對象存儲 存儲桶概述 - 開發者指南 - 文檔中心 - 騰訊雲 (tencent.com)
基本概念 (aliyun.com)
文件存儲、塊存儲還是對象存儲? (redhat.com)
linux
駐馬店市民請關注領取補貼!
巨魔-抽手機公告
廣告

對比塊存儲、文件存儲、對象存儲
1242閱讀·0評論·3點贊
2019年2月27日
ShapeFile的文件格式設計
90閱讀·0評論·0點贊
2009年3月20日
應用ceph對象存儲(ceph-13.2.10)
72閱讀·0評論·0點贊
2022年11月26日
三種存儲類型比較-文件、塊、對象存儲
4.8W閱讀·0評論·13點贊
2016年7月26日
常見圖片存儲格式文件簡介
4534閱讀·0評論·0點贊
2020年5月4日
s3cmd常用命令
781閱讀·0評論·0點贊
2022年11月17日
駐馬店發布,你有一台5G手機待領取

00:23
巨摩互動
廣告
常見的存儲格式
1083閱讀·0評論·0點贊
2022年2月15日
文件、對象、塊區別
1399閱讀·0評論·0點贊
2020年7月13日
對象存儲、文件存儲、塊存儲的區別和聯系
7330閱讀·2評論·5點贊
2021年10月16日
數據分析中常見的存儲方式
1537閱讀·0評論·0點贊
2021年11月16日
三種存儲類型:塊存儲、文件存儲、對象存儲
1.5W閱讀·3評論·55點贊
2020年11月2日
如何設計二進制文件格式
1940閱讀·0評論·1點贊
2020年3月6日
BMP文件存儲格式
472閱讀·0評論·2點贊
2021年8月2日
hive 的存儲格式
1765閱讀·0評論·1點贊
2022年6月18日
數據存儲格式
446閱讀·0評論·0點贊
2022年12月21日
總結:對象存儲、塊存儲、文件存儲的區別
6606閱讀·0評論·3點贊
2022年4月9日
c語言中文件rw,什麼是「塊文件」?
386閱讀·0評論·0點贊
2021年5月23日
【存儲】塊存儲、文件存儲和對象存儲的區別?
350閱讀·0評論·0點贊
2022年7月22日
塊存儲、文件存儲與對象存儲的區別與應用場景
1846閱讀·1評論·0點贊
2022年6月5日
數據在內存中的存儲方式
272閱讀·0評論·0點贊
2022年8月21日
去首頁
看看更多熱門內容

⑸ 14.數據倉庫常見的存儲優化方法有哪些

存儲優化管理的方式包括數據壓縮、數據重分布、存儲治理項優化、生命周期管理等方法。

  1. 數據壓縮
    在分布式文件系統中,會將數據存儲3份,這意味著存儲1TB的邏輯數據,實際上會佔用3TB的物理空間。使用盤古RAIDfile格式的文件,將存儲比從1:3提高至1:1.5。這樣做的缺點是數據塊損壞時的修復時間比原來更長,讀的性能也有損失。

  2. 數據重分布
    由於每個表的數據分布不同,插入順序不同,導致壓縮效果有很大的差異,通過修改表的數據重分布(distributeby,sortby欄位)進行數據重分布,能夠對表進行優化處理。

  3. 存儲治理項優化:
    存儲治理項優化是指在元數據的基礎上,診斷、加工成多個存儲治理優化項。目前已有的存儲治理優化項有未管理表、空表、最近62天未訪問表、數據無更新無任務表等。

  4. 生命周期管理策略
    根本目的:用最少的存儲成本滿足最大的業務需求,使數據價值最大化。
    a)周期性刪除策略:針對無效的歷史數據進行定期清理。
    b)徹底刪除策略:無用表數據或者ETL過程產生的臨時數據,以及不需要保留的數據,可以進行及時刪除,包括刪除元數據。
    c)永久保留策略:重要且不可恢復的底層數據和應用數據需要永久保留。
    d)極限存儲策略:超高壓縮重復鏡像數據。
    e)冷數據管理策略:永久保留策略的擴展。永久保留的數據需要遷移到冷數據中心進行永久保存。一般將重要且不可恢復的、佔用存儲空間大於100TB,且訪問頻次較低的數據進行冷備,例如3年以上的日誌數據。

⑹ 請問數據倉庫都用什麼建立

數據倉庫是為了管理數據,主要是思想。
具體實施的工具就是為了解決問題而選取了
比如異構/不同源數據的數據抽取問題,要用到etl,可能會用工具 或者自己寫程序,看情況而定『
數據倉庫的模型建設,要用到erwin等建模工具;
數據的存放一般是藉助關系資料庫來實現,那麼會用到oracle之類。不過現在已經開始慢慢摒棄傳統關系資料庫了,藉助一些No sql平台,比如hadoop上的hive之類。
不過無論用什麼工具,一定要記住,數據倉庫的思想是不變的,就是管理數據、把數據的價值通過有效地管理而展現出來,不經管理的數據就是一堆沒有提煉的金礦,看著很值錢,直接狗屁用沒有。

⑺ 在資料庫中存儲的是什麼

資料庫是「按照數據結構來組織、存儲和管理數據的倉庫」。是一個長期存儲在計算機內的、有組織的、可共享的、統一管理的大量數據的集合。

資料庫是一個按數據結構來存儲和管理數據的計算機軟體系統。資料庫的概念實際包括兩層意思:資料庫是一個實體,它是能夠合理保管數據的「倉庫」,用戶在該「倉庫」中存放要管理的事務數據,「數據」和「庫」兩個概念結合成為資料庫。

資料庫系統,是由資料庫及其管理軟體組成的系統。資料庫系統是為適應數據處理的需要而發展起來的一種較為理想的數據處理系統,也是一個為實際可運行的存儲、維護和應用系統提供數據的軟體系統,是存儲介質 、處理對象和管理系統的集合體。

⑻ 各位大神,數據倉庫分層 DWD DWB DWS 分別是什麼縮寫啊

DW :data warehouse 翻譯成數據倉庫

DW數據分層,由下到上為 DWD,DWB,DWS

DWD:data warehouse detail 細節數據層,有的也稱為 ODS層,是業務層與數據倉庫的隔離層。

DWB:data warehouse base 基礎數據層,存儲的是客觀數據,一般用作中間層,可以認為是大量指標的數據層。

DWS:data warehouse service 服務數據層,基於DWB上的基礎數據,整合匯總成分析某一個主題域的服務數據,一般是寬表。

(8)數據倉庫底層存儲用什麼擴展閱讀

數據倉庫分層的原因

1、通過數據預處理提高效率,因為預處理,所以會存在冗餘數據

2、如果不分層而業務系統的業務規則發生變化,就會影響整個數據清洗過程,工作量巨大

3、通過分層管理來實現分步完成工作,這樣每一層的處理邏輯就簡單了

標準的數據倉庫分層:ods(臨時存儲層),pdw(數據倉庫層),mid(數據集市層),app(應用層)

4、空間換時間。通過建設多層次的數據模型供用戶使用,避免用戶直接使用操作型數據,可以更高效的訪問數據。

5、把復雜問題簡單化。講一個復雜的任務分解成多個步驟來完成,每一層只處理單一的步驟,比較簡單和容易理解。而且便於維護數據的准確性,當數據出現問題之後,可以不用修復所有的數據,只需要從有問題的步驟開始修復。

6、便於處理業務的變化。隨著業務的變化,只需要調整底層的數據,對應用層對業務的調整零感知

⑼ 什麼是數據倉庫,數據倉庫如何分層

數據倉庫分層的原因
1通過數據預處理提高效率,因為預處理,所以會存在冗餘數據
2如果不分層而業務系統的業務規則發生變化,就會影響整個數據清洗過程,工作量巨大
3通過分層管理來實現分步完成工作,這樣每一層的處理邏輯就簡單了

標準的數據倉庫分層:ods(臨時存儲層),pdw(數據倉庫層),mid(數據集市層),app(應用層)
ods:歷史存儲層,它和源系統數據是同構的,而且這一層數據粒度是最細的,這層的表分為兩種,一種是存儲當前需要載入的數據,一種是用於存儲處理完後的數據。
pdw:數據倉庫層,它的數據是干凈的數據,是一致的准確的,也就是清洗後的數據,它的數據一般都遵循資料庫第三範式,數據粒度和ods的粒度相同,它會保存bi系統中所有歷史數據
mid:數據集市層,它是面向主題組織數據的,通常是星狀和雪花狀數據,從數據粒度將,它是輕度匯總級別的數據,已經不存在明細的數據了,從廣度來說,它包含了所有業務數量。從分析角度講,大概就是近幾年
app:應用層,數據粒度高度匯總,倒不一定涵蓋所有業務數據,只是mid層數據的一個子集。

數據倉庫的目的是構建面向分析的集成化數據環境,為企業提供決策支持。數據倉庫的context也可以理解為:數據源,數據倉庫,數據應用

數據倉庫可以理解為中間集成化數據管理的一個平台
etl(抽取extra,轉化transfer,裝載load)是數據倉庫的流水線,也可以認為是數據倉庫的血液。
數據倉庫的存儲並不需要存儲所有原始數據,因為比如你存儲冗長的文本數據完全沒必要,但需要存儲細節數據,因為需求是多變的,而且數據倉庫是導入數據必須經過整理和轉換使它面向主題,因為前台資料庫的數據是基於oltp操作組織優化的,這些可能不適合做分析,面向主題的組織形式才有利於分析。
多維數據模型就是說可以多維度交叉查詢和細分,應用一般都是基於聯機分析處理(online analytical process OLAP),面向特定需求群體的數據集市會基於多位數據模型構建
而報表展示就是將聚合數據和多維分析數據展示到報表,提供簡單和直觀的數據。
元數據,也叫解釋性數據,或者數據字典,會記錄數據倉庫中模型的定義,各層級之間的映射關系,監控數據倉庫的數據狀態和etl的任務運行狀態。一般通過元數據資料庫來統一存儲和管理元數據。

⑽ 數據倉庫系統有哪三個工具層

【數據倉庫系統的三個工具層】數據倉庫系統通常採用3層的體系結構,底層為數據倉庫伺服器,中間層為OLAP伺服器,頂層為前端工具。具體如下:
1、數據源和數據的存儲與管理部分可以統稱為數據倉庫伺服器。
(1)數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放於RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息,等等。
(2)數據的存儲與管理:是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別於傳統資料庫,同時也決定了其對外部數據的表現形式。要決定採用什麼產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,並有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。
2、OLAP伺服器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,並發現趨勢。其具體實現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放於多維資料庫中;HOLAP基本數據存放於RDBMS之中,聚合數據存放於多維資料庫中。
3、前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具,以及各種基於數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP伺服器,報表工具、數據挖掘工具主要針對數據倉庫。