① 試比較hadoop中的資料庫hbase和傳統關系資料庫的不同
答:主要體現在以下幾個方面:1.數據類型。關系資料庫採用關系模型,具有豐富的數據類型和儲存方式。HBase則採用了更加簡單的數據模型,它把數據儲存為未經解釋的字元串,用戶可以把不同格式的結構化數據和非結構化數據都序列化成字元串保存到HBase中,用戶需要自己編寫程序把字元串解析成不同的數據類型。
2.數據操作。關系資料庫中包含了豐富的操作,如插入、刪除、更新、查詢等,其中會涉及復雜的多表連接,通常是藉助多個表之間的主外鍵關聯來實現的。HBase操作則不存在復雜的表與表之間的關系,只有簡單的插入、查詢、刪除、清空等,因為HBase在設計上就避免了復雜的表與表之間的關系,通常只採用單表的主鍵查詢,所以它無法實現像關系資料庫中那樣的表與表之間的連接操作。
3.存儲模式。關系資料庫是基於行模式存儲的,元祖或行會被連續地存儲在磁碟頁中。在讀取數據時,需要順序掃描每個元組,然後從中篩選出查詢所需要的屬性。如果每個元組只有少量屬性的值對於查詢是有用的,那麼基於行模式存儲就會浪費許多磁碟空間和內存帶寬。HBase是基於列存儲的,每個列族都由幾個文件保存,不同列族的文件是分離的,它的優點是:可以降低I/O開銷,支持大量並發用戶查詢,因為僅需要處理可以回答這些查詢的列,而不是處理與查詢無關的大量數據行;同一個列族中的數據會被一起進行壓縮,由於同一列族內的數據相似度較高,因此可以獲得較高的數據壓縮比。
4.數據索引。關系資料庫通常可以針對不同列構建復雜的多個索引,以提高數據訪問性能。與關系資料庫不同的是,HBase只有一個索引——行鍵,通過巧妙的設計,HBase中所有訪問方法,或者通過行鍵訪問,或者通過行鍵掃描,從而使整個系統不會慢下來。由於HBase位於Hadoop框架之上,因此可以使用Hadoop MapRece來快速、高效地生成索引表。
6.數據維護。在關系資料庫中,更新操作會用最新的當前值去替換記錄中原來的舊值,舊值被覆蓋後就不會存在。而在HBase中執行更新操作時,並不會刪除數據舊的版本,而是生成一個新的版本,舊有的版本仍舊保留。
7.可伸縮性。關系資料庫很難實現橫向擴展,縱向擴展的空間也比較有限。相反,HBase和BigTable這些分布式資料庫就是為了實現靈活的水平擴展而開發的,因此能夠輕易地通過在集群中增加或者減少硬體數量來實現性能的伸縮。
但是,相對於關系資料庫來說,HBase也有自身的局限性,如HBase不支持事務,因此無法實現跨行的原子性。
註:本來也想來問這個問題,然後復制一下的。結果找不到,只好自己手打了,麻煩復制拿去用的同學點下贊唄。
2019.3.27-16:40
② oss作為kv資料庫
oss作為kv資料庫可以實現無限擴展。
OSS對象存儲採用KV的技術架構,可以實現無限擴展,是公認的數據湖存儲底座。用戶可以通過離線ETL和在線增量ETL將在線數據和實時增量數據,同步到碰銷OSS中,然後對數據做深度的計算和分析。
kv資料庫:LevelDB是google公司開發出來的一款超高性能kv存儲引擎,只是一個C/C++編程語言的庫,不包含網路服務封裝。LevelDB提供了Put,Delete和Get三個方法對資料庫進行修笑蘆游改和查詢,嘩棚比關系型資料庫簡單。
③ Hive是什麼,Hive與關系型資料庫的區別
全不同應用場景吧,HBase
速度比
Hive
快了不知道多少。HBase
是非關系型資料庫(KV型),
對
key
做索引,查詢速度非常快(相比較
Hive
),適合實時查詢;而Hive是關系型數據結構,適合做後期數據分析。和單機的MySQL,Oracle比較的話,Hive的優點是可以存儲海量數據,只是查詢速度比較慢。
④ 一般什麼產品或者系統或網站會使用K/V資料庫型資料庫呢
KV型存儲系統是最常用的NoSQL存儲系統之一。Memcached和Redis是其最具代表的兩個產品。本文將詳細介紹Memcached和Redis的常用場景及如何構建一個高可用和自動彈性伸縮的KV存儲系統。
Cache加DB是最常見的存儲層架構。時間局部性原理指出正在被訪問的數據很可能會在近期再次被訪問。根據這一原理應用程序將最近訪問過的數據保存在Cache中,每次讀取請求首先訪問Cache,若Cache中保存有該數據則直接獲取數據返回給前端。若Cache中該數據不存在則從DB獲取數據並將該數據保存到Cache;若數據被更新或刪除則將Cache中對應數據置為失效。使用Cache能夠很好地緩解DB的讀請求壓力。KV存儲系統既可以應用在Cache層也可以應用在DB層。
Memcached使用內存作為存儲介質,因為內存數據的易失性Memcached主要應用在Cache層。Memcached常見的應用場景是存儲一些讀取頻繁但更新較少的數據,如靜態網頁、系統配置及規則數據、活躍用戶的基本數據和個性化定製數據、准實時統計信息等。並不是所有場景都適合Memcached加DB的架構,在某些場景下這一架構存在一些局限。例如這一架構不能提升寫的性能,寫數據時還是數據直接存儲到DB,同時需要將Cache中數據置為失效,所以對以寫請求為主的應用使用Cache提升性能的效果並不是很明顯。如果應用的熱點數據或者活躍用戶分布較為分散也會降低Cache的命中率。如果遇到機器宕機,內存數據會丟失,那麼機器重啟後需要一段時間重新建立熱點數據,建立熱點數據的過程中會對DB會造成較大的壓力,嚴重時會導致系統雪崩。
相比Memcached,Redis做了一些優化。首先,Redis對數據做了持久化,支持AOF和RDB兩種持久化方式,機器重啟後能通過持久化數據自動重建內存。其次,Redis支持主從復制,主機會自動將數據同步到從機,可以進行讀寫分離,主機負責寫操作,從機負責讀操作。那樣既增加了系統的讀寫性能又提升了數據的可靠性。再次,Redis除了支持string類型的value外還支持string、hash、set、sorted set、list等類型的數據結構。因此,Redis既可以應用在Cache層,也可以替換或者部分替換DB存儲持久化數據。使用Redis作為Cache時機器宕機後熱點數據不會丟失,無須像Memcached一樣重建熱點數據。相比Cache加DB的架構方式,使用Redis存儲持久化數據不僅能夠提升讀性能,還能提升寫性能,而且不存在熱點數據分布是否集中而影響命中率的問題。Redis豐富的數據結構也使其擁有更加豐富的應用場景。Redis的命令都是原子性的,可以簡單地利用INCR和DECR實現計數功能。使用list可以實現獲取最近N個數的操作。sort set支持對數據排序,可以應用在排行榜中。set集合可以應用到數據排重。Redis還支持過期時間設置,可以應用到需要設定精確過期時間的應用。只要可以使用Redis支持的數據結構表示的場景,就可以使用Redis進行存儲。但Redis不是萬能的,它不支持關系型資料庫復雜的SQL操作。某些場景下,可結合Redis和關系型DB,將簡單查詢相關的數據保存在Redis中,復雜SQL操作由關系型DB完成。
雖然Redis集很多優點於一身,但在實際運營中也存在一些問題。首先,Redis不具備自動容錯和恢復功能,主機從機的宕機都會導致前端部分讀寫請求失敗,需要等待機器重啟或者手動切換前端的IP才能恢復。如果主機宕機,宕機前有部分數據未能及時同步到從機,切換IP後還會引入數據不一致的問題,降低了系統的可用性。其次,Redis的主從復制採用全量復制,復制過程中主機會fork出一個子進程對內存做一份快照,並將子進程的內存快照保持為文件發送給從機,這一過程需要確保主機有足夠多的空餘內存。若快照文件較大,對集群的服務能力會產生較大的影響,而且復制過程是在從機新加入集群或者從機和主機網路斷開重連時都會進行,也就是網路波動都會造成主機和從機間的一次全量的數據復制,這對實際的系統運營造成了不小的麻煩。最後,Redis較難支持在線擴容,在集群容量達到上限時在線擴容會變得很復雜。為避免這一問題,運維人員在系統上線時必須確保有足夠的空間,這對資源造成了很大的浪費。
⑤ 什麼是非關系型資料庫
1. 文檔資料庫,沒研究過定義,通常mongodb 就是文檔資料庫,特點就是數據定義比較靈活。
2. Kv資料庫,提供的是kv的數據表示模式。單機的rocksdb,分布式的tikv之類。
3. 圖資料庫。數據可以用圖來定義。
4. 列式資料庫。hbase之類,這里可能有爭議,很多人把hbase 定義為列存。