當前位置:首頁 » 數據倉庫 » 列資料庫
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

列資料庫

發布時間: 2022-02-13 07:55:55

1. 為什麼列式資料庫適合在線分析處理

為什麼列式資料庫適合在線分析處理
列式資料庫是以列相關存儲架構進行數據存儲的資料庫,主要適合於批量數據處理和即時查詢。相對應的是行式資料庫,數據以行相關的存儲體系架構進行空間分配,

2. 列式資料庫的描述

資料庫以行、列的二維表的形式存儲數據,但是卻以一維字元串的方式存儲,例如以下的一個表: EmpId Lastname Firstname Salary 1 Smith Joe 40000 2 Jones Mary 50000 3 Johnson Cathy 44000 這個簡單的表包括員工代碼(EmpId), 姓名欄位(Lastname and Firstname)及工資(Salary).
這個表存儲在電腦的內存(RAM)和存儲(硬碟)中。雖然內存和硬碟在機制上不同,電腦的操作系統是以同樣的方式存儲的。資料庫必須把這個二維表存儲在一系列一維的「位元組」中,由操作系統寫到內存或硬碟中。
行式資料庫把一行中的數據值串在一起存儲起來,然後再存儲下一行的數據,以此類推。
1,Smith,Joe,40000;2,Jones,Mary,50000;3,Johnson,Cathy,44000;
列式資料庫把一列中的數據值串在一起存儲起來,然後再存儲下一列的數據,以此類推。
1,2,3;Smith,Jones,Johnson;Joe,Mary,Cathy;40000,50000,44000; 這是一個簡化的說法。
列式資料庫的代表包括:Sybase IQ,infobright、infiniDB、GBase 8a,ParAccel, Sand/DNA Analytics和 Vertica。
MPP的列存儲數據倉庫包括:Yonghong Z-DataMart

3. 什麼是列式存儲資料庫

列式資料庫是以列相關存儲架構進行數據存儲的資料庫,主要適合與批量數據處理和即席查詢。
GBase 8a 分析型資料庫的獨特列存儲格式,對每列數據再細分為「數據包」。這樣可以達到很高的可擴展性:無論一個表有多大,資料庫只操作相關的數據包,性能不會隨著數據量的增加而下降。通過以數據包為單位進行 I/O 操作提升數據吞吐量,從而進一步提高I/O效率。

由於採用列存儲技術,還可以實現高效的透明壓縮。

4. 列式資料庫的優缺點

優點:
極高的裝載速度
(最高可以等於所有硬碟IO
的總和,基本是極限了)
適合大量的數據而不是小數據
實時載入數據僅限於增加(刪除和更新需要解壓縮Block
然後計算然後重新壓縮儲存)
高效的壓縮率,不僅節省儲存空間也節省計算內存和CPU。
非常適合做聚合操作。
缺點:
不適合掃描小量數據
不適合隨機的更新
批量更新情況各異,有的優化的比較好的列式資料庫(比如Vertica)表現比較好,有些沒有針對更新的資料庫表現比較差。
不適合做含有刪除和更新的實時操作。

5. 列式資料庫的舉例

下面以GBase 8a分析型資料庫為例,描述列存儲對數據存儲與管理的作用。
面對海量數據分析的 I/O 瓶頸,GBase 8a 把表數據按列的方式存儲,其優勢體現在以下幾個方面。
不讀取無效數據:降低 I/O 開銷,同時提高每次 I/O 的效率,從而大大提高查詢性能。查詢語句只從磁碟上讀取所需要的列,其他列的數據是不需要讀取的。例如,有兩張表,每張表100GB 且有100 列,大多數查詢只關注幾個列,採用列存儲,不需要像行存資料庫一樣,將整行數據取出,只取出需要的列。磁碟 I/0 是行存儲的 1/10或更少,查詢響應時間提高 10 倍以上。
高壓縮比:壓縮比可以達到 5 ~ 20 倍以上,數據佔有空間降低到傳統資料庫的1/10 ,節省了存儲設備的開銷。
當資料庫的大小與資料庫伺服器內存大小之比達到或超過 2:1 (典型的大型系統配置值)時,列存的 I/O 優勢就顯得更加明顯;
GBase 8a 分析型資料庫的獨特列存儲格式,對每列數據再細分為「數據包」。這樣可以達到很高的可擴展性:無論一個表有多大,資料庫只操作相關的數據包,性能不會隨著數據量的增加而下降。通過以數據包為單位進行 I/O 操作提升數據吞吐量,從而進一步提高I/O效率。
由於採用列存儲技術,還可以實現高效的透明壓縮。
由於數據按列包存儲,每個數據包內都是同構數據,內容相關性很高,這使得GBase 8a 更易於實現壓縮,壓縮比通常能夠達到 1:10 甚至更優。這使得能夠同時在磁碟 I/O 和 Cache I/O 上都提升資料庫的性能,使 GBase 8a 在某些場景下的運算性能比傳統資料庫快 100 倍以上。
GBase 8a 允許用戶根據需要設置配置文件,選擇是否進行壓縮。在啟用壓縮的情況下GBase 8a 根據數據的不同特性以及不同的分布狀況,自動採用相應的壓縮演算法,如:
行程編碼(適用於大量連續重復的數據,特別是排序數據);
基於數據的差值編碼(適用於重復率低,但彼此差值較小的數據列);
基於位置的差值編碼(適用於重復率高,但分布比較隨機的數據列)。

6. 列式資料庫是怎麼在查詢一列數據的時候知道這個數據是哪個ID的

不知道你學的那本書,資料庫分成行式和列式?
主流的資料庫應該是關系型資料庫如:sql server,oracle,my sql
還有no sql文檔型資料庫,如 mongodb

7. 什麼是資料庫列存儲,原理是怎樣的

資料庫列存儲不同於傳統的關系型資料庫,其數據在表中是按行存儲的,列方式所帶來的重要好處之一就是,由於查詢中的選擇規則是通過列來定義的,因 此整個資料庫是自動索引化的。

按列存儲每個欄位的數據聚集存儲,在查詢只需要少數幾個欄位的時候,能大大減少讀取的數據量,一個欄位的數據聚集存儲,那就 更容易為這種聚集存儲設計更好的壓縮/解壓演算法。這張圖講述了傳統的行存儲和列存儲的區別:

8. Mysql是列式存儲嗎,或者說mysql支持列式存儲嗎

大數據(巨量數據集合(IT行業術語))
大數據(big data),指無法在可承受的時間范圍內用常規軟體工具進行捕捉、管理和處理的數據集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。

9. 列式資料庫有哪些

列式資料庫是以列相關存儲架構進行數據存儲的資料庫,主要適合與批量數據處理和即席查詢。相對應的是行式資料庫,數據以行相關的存儲體系架構進行空間分配,主要適合與小批量的數據處理,常用於聯機事務型數據處理。

不讀取無效數據:降低 I/O 開銷,同時提高每次 I/O 的效率,從而大大提高查詢性能。查詢語句只從磁碟上讀取所需要的列,其他列的數據是不需要讀取的。例如,有兩張表,每張表100GB 且有100 列,大多數查詢只關注幾個列,採用列存儲,不需要像行存資料庫一樣,將整行數據取出,只取出需要的列。磁碟 I/0 是行存儲的 1/10或更少,查詢響應時間提高 10 倍以上。

高壓縮比:壓縮比可以達到 5 ~ 20 倍以上,數據佔有空間降低到傳統資料庫的1/10 ,節省了存儲設備的開銷。

當資料庫的大小與資料庫伺服器內存大小之比達到或超過 2:1 (典型的大型系統配置值)時,列存的 I/O 優勢就顯得更加明顯;

GBase 8a 分析型資料庫的獨特列存儲格式,對每列數據再細分為「數據包」。這樣可以達到很高的可擴展性:無論一個表有多大,資料庫只操作相關的數據包,性能不會隨著數據量的增加而下降。通過以數據包為單位進行 I/O 操作提升數據吞吐量,從而進一步提高I/O效率。

由於採用列存儲技術,還可以實現高效的透明壓縮。

由於數據按列包存儲,每個數據包內都是同構數據,內容相關性很高,這使得GBase 8a 更易於實現壓縮,壓縮比通常能夠達到 1:10 甚至更優。這使得能夠同時在磁碟 I/O 和 Cache I/O 上都提升資料庫的性能,使 GBase 8a 在某些場景下的運算性能比傳統資料庫快 100 倍以上。

GBase 8a 允許用戶根據需要設置配置文件,選擇是否進行壓縮。在啟用壓縮的情況下GBase 8a 根據數據的不同特性以及不同的分布狀況,自動採用相應的壓縮演算法,如:

行程編碼(適用於大量連續重復的數據,特別是排序數據);

基於數據的差值編碼(適用於重復率低,但彼此差值較小的數據列);

基於位置的差值編碼(適用於重復率高,但分布比較隨機的數據列)。

10. 行式資料庫和列式資料庫的優缺點是什麼,行式資料庫和列式資料庫的執行效率比較一下

傳統的行式資料庫,是按照行存儲的,維護大量的索引和物化視圖無論是在時間(處理)還是空間(存儲)方面成本都很高。而列式資料庫恰恰相反,列式資料庫的數據是按照列存儲,每一列單獨存放,數據即是索引。只訪問查詢涉及的列,大大降低了系統I/O,每一列由一個線來處理,而且由於數據類型一致,數據特徵相似,極大方便壓縮。行式資料庫擅長隨機讀操作,列式資料庫則更擅長大批量數據量查詢