hive存儲組件_Hive元資料庫是用來做什麼的存儲哪些信息

『壹』程序中的Hive具體是干什麼用的呢

Hive是基於Hadoop平台的數倉工具，具有海量數據存儲、水平可擴展、離線批量處理的優點，解決了傳統關系型數倉不能支持海量數據存儲、水平可擴展性差等問題，但是由於Hive數據存儲和數據處理是依賴於HDFS和MapRece，因此在Hive進行數據離線批量處理時，需將查詢語言先轉換成MR任務，由MR批量處理返回結果，所以Hive沒法滿足數據實時查詢分析的需求。
Hive是由FaceBook研發並開源，當時FaceBook使用Oracle作為數倉，由於數據量越來越大，Oracle數倉性能越來越差，沒法實現海量數據的離線批量分析，因此基於Hadoop研發Hive，並開源給Apacha。
由於Hive不能實現數據實時查詢交互，Hbase可提供實時在線查詢能力，因此Hive和Hbase形成了良性互補。Hbase因為其海量數據存儲、水平擴展、批量數據處理等優點，也得到了廣泛應用。
Pig與HIVE工具類似，都可以用類sql語言對數據進行處理。但是他們應用場景有區別，Pig用於數據倉庫數據的ETL，HIVE用於數倉數據分析。
從架構圖當中，可看出Hive並沒有完成數據的存儲和處理，它是由HDFS完成數據存儲，MR完成數據處理，其只是提供了用戶查詢語言的能力。Hive支持類sql語言，這種SQL稱為Hivesql。用戶可用Hivesql語言查詢，其驅動可將Hivesql語言轉換成MR任務，完成數據處理。
【Hive的訪問介面】
CLI：是hive提供的命令行工具
HWI：是Hive的web訪問介面
JDBC/ODBC：是兩種的標準的應用程序編程訪問介面
Thrift Server：提供異構語言，進行遠程RPC調用Hive的能力。
因此Hiv具備豐富的訪問介面能力，幾乎能滿足各種開發應用場景需求。
【Driver】
是HIVE比較核心的驅動模塊，包含編譯器、優化器、執行器，職責為把用戶輸入的Hivesql轉換成MR數據處理任務
【Metastore】
是HIVE的元數據存儲模塊，數據的訪問和查找，必須要先訪問元數據。Hive中的元數據一般使用單獨的關系型資料庫存儲，常用的是Mysql，為了確保高可用，Mysql元資料庫還需主備部署。
架構圖上面Karmasphere、Hue、Qubole也是訪問HIVE的工具，其中Qubole可遠程訪問HIVE，相當於HIVE作為一種公有雲服務，用戶可通過互聯網訪問Hive服務。
Hive在使用過程中出現了一些不穩定問題，由此發展出了Hive HA機制，

『貳』怎麼獲取hive組件服務可用狀態

步驟
Hive提供了jdbc驅動，使得我們可以連接Hive並進行一些類關蔽叢系型資料庫的sql語句查詢等操作，首先我們宏巧櫻需要將這些驅動拷貝到報表工程下面，然後再建立連接，最後通過連接進行數據查詢。
拷貝jar包到FR工程
將hadoop里的hadoop-common.jar拷貝至報表工程appname/WEB-INF/lib下；
將hive里的hive-exec.jar、hive-jdbc.jar、寬閉hive-metastore.jar、hive-service.jar、libfb303.jar、log4j.jar、slf4j-api.jar、slf4j-log4j12.jar拷貝至報表工程appname/WEB-INF/lib下。
配置數據連接
啟動設計器，打開伺服器>定義數據連接，新建JDBC連接。

『叄』 Hive元資料庫是用來做什麼的，存儲哪些信息

本質上只是用來存儲hive中有哪些資料庫，哪些表，表的模式，目錄，分區，索引以及命名空間。為資料庫創建的目錄一般在hive數據倉庫目錄下。

『肆』「Hive進階篇」詳解存儲格式及壓縮方式

hive優化除了有hql語句邏輯優化，hql參數調優等等，還有一個不起眼的細節容易被忽視掉， 那便是hive數倉模型表的存儲格式和壓縮方式 ，hive底層數據是依託在hadoop，以HDFS文件存儲在集群上的， hive數倉模型表選擇一個合適的存儲格式和壓縮方式也是hive優化的一點 。
本篇就來聊一聊這塊知識點吧。😄

hive主要有textfile、sequencefile、orc、parquet 這四種存儲格式，其中sequencefile很少使用，常見的主要就是orc和parquet這兩種，往往也搭配著壓縮方式合理使用。

建表聲明語句是： stored as textfile/orc/parquet

行式存儲，這是hive表的默認存儲格式，默認不做數據壓縮，磁碟開銷大，數據解析開銷大，數據不支持分片（即代表著會帶來無法對數據進行並行操作）

行列式存儲，將數據按行分塊，每個塊按列存儲，其中每個塊都存儲著一個索引，支持none和zlib和snappy這3種壓縮方式，默認採用zlib壓縮方式，不支持切片，orc存儲格式能提高hive表的讀取寫入和處理的性能。

列式存儲，是一個面向列的二進制文件格式（不可直接讀取），文件中包含數據和元數據，所以該存儲格式是自解析的，在大型查詢時效率很快高效，parquet主要用在存儲多層嵌套式數據上提供良好的性能支持，默認採用uncompressed不壓縮方式。

行存儲引擎 ：同一條數據的不同欄位都在相鄰位置，所以當要查找某一條記錄所有數據時行存儲查詢速度比較快
列存儲引擎 ：以列來聚集數據，相同欄位的值聚集在一起，所以當查詢某一個指定列的所有數據時，列存儲查詢速度比較快

hive主要支持gzip、zlib、snappy、lzo 這四種壓縮方式。
壓縮不會改變元數據的分割性，即壓縮後原來的值不變。

建表聲明語句是： tblproperties("orc.compress"="SNAPPY")

壓縮方式的評判標准主要有以下幾點：

針對壓縮方式做一個小結對比：

hive存儲組件

與hive存儲組件相關的內容