A. 為什麼說hbase是一個面向列的資料庫
在說HBase之前,我想再嘮叨幾句。做互聯網應用的哥們兒應該都清楚,互聯網應用這東西,你沒辦法預測你的系統什麼時候會被多少人訪問,你面臨的用戶到底有多少,說不定今天你的用戶還少,明天系統用戶就變多了,結果您的系統應付不過來了橡睜了,不幹了,這豈不是咱哥幾個的悲哀,說時髦點就叫「杯具啊」。x0dx0ax0dx0a其實說白了,這些就是事先沒有認清楚互聯網應用什麼才是最重要的。從系統架構的角度來說,互聯網應用更加看重系統性能以及伸縮性,而傳統企業級應用都是比較看重數據完整性和數據安全性。那麼我們就來說說互聯網應用伸縮性這事兒.對於伸縮性這事兒,哥們兒我也寫了幾篇博文,想看的兄弟可以參考我以前的博文,對於web server,app server的伸縮性,我在這里先不說了,因為這部分的伸縮性相對來說比較容易一點,我主要來回顧一些一個慢慢變大的互聯網應用如何應對資料庫這一層的伸縮。x0dx0ax0dx0a首先剛開始,人不多,壓力也不大,搞一台資料庫伺服器就搞定了,此時所有的東東都塞進一個Server里,包括web server,app server,db server,但是隨著人越來越多,系統壓力越來越多,這個時候可能你把web server,app server和db server分離了,好歹這樣可以應付一陣子,但是隨著用戶量的不斷增加,你會發現,資料庫這哥們不行了,速度老慢了,有時候還會宕掉,所以這個時候,你得給資料庫這哥們找幾個伴,這個時候Master-Salve就出現了,這個時候有一個Master Server專門負責接收寫操作,另外的幾個Salve Server專門進行讀取,這樣Master這哥們終於不抱怨了,總算讀寫分離了,壓力總算輕點了,這個時候其實主要是對讀取操作進行了水平擴張,通過增加多個Salve來克服查詢時CPU瓶頸。一般這樣下來,你的系統可以應付一定的壓力,但是隨著用戶數量的增多,壓力的不斷增加,你會發現Master server這哥們的寫壓力還是變的太大,沒辦法,這轎如悔個時候怎麼辦呢?你就得切分啊,俗話說「只有切分了,才會有伸縮性嘛」,所以啊,這個時候只能分庫了,這也是我們常說的資料庫「垂直切分」,比如將一些不關聯的數據存放到不同的庫中,分開部署,這樣終於可以帶走一部分的讀取和寫入壓力了,Master又可以輕松一點了,但是隨著數據的不斷增多,你的資料庫表中的數據又變的非常的大,這樣查詢效率非常低,這個時候就需要進行「水平分區」了,比如通過將User表中的數據按照10W來劃分,這樣每張表不會超過10W了。x0dx0ax0dx0a綜上所述,一般一個流行的web站點都會經歷一個從單台DB,到主從復制,到垂直分區再到水平分區的痛苦的過程。其實資料庫切分這事兒,看起來原理貌似很簡單,如果真正做起來,我想凡是sharding過資料庫的哥們兒都深受其苦啊。對於資料庫伸縮的文章,哥們兒可以看看後面的參考資料介紹。x0dx0ax0dx0a好了,從上面的那一堆廢話中,我們也發現資料庫存儲水平擴張scale out是多麼痛苦的一件事情,不過幸好技術在進步,業界的其它弟兄也在努力,09年這一年出現了非常多的Nosql資料庫,更准確的應該說是No relation資料庫,這些資料庫多數都會對非結構化的數據提供透明的水平擴張能力,大大減輕了哥們兒設計時候的壓力。下面我就拿Hbase這分布式列存儲系統來說說。x0dx0ax0dx0a一 Hbase是個啥東東? x0dx0a在說Hase是個啥傢伙之前,首先我們來看看兩個概念,面向行存儲和面向列存儲。面向行存儲,我相信大夥兒應該都清楚,我們閉正熟悉的RDBMS就是此種類型的,面向行存儲的資料庫主要適合於事務性要求嚴格場合,或者說面向行存儲的存儲系統適合OLTP,但是根據CAP理論,傳統的RDBMS,為了實現強一致性,通過嚴格的ACID事務來進行同步,這就造成了系統的可用性和伸縮性方面大大折扣,而目前的很多NoSQL產品,包括Hbase,它們都是一種最終一致性的系統,它們為了高的可用性犧牲了一部分的一致性。好像,我上面說了面向列存儲,那麼到底什麼是面向列存儲呢?Hbase,Casandra,Bigtable都屬於面向列存儲的分布式存儲系統。看到這里,如果您不明白Hbase是個啥東東,不要緊,我再總結一下下:x0dx0ax0dx0aHbase是一個面向列存儲的分布式存儲系統,它的優點在於可以實現高性能的並發讀寫操作,同時Hbase還會對數據進行透明的切分,這樣就使得存儲本身具有了水平伸縮性。x0dx0ax0dx0a二 Hbase數據模型 x0dx0aHBase,Cassandra的數據模型非常類似,他們的思想都是來源於Google的Bigtable,因此這三者的數據模型非常類似,唯一不同的就是Cassandra具有Super cloumn family的概念,而Hbase目前我沒發現。好了,廢話少說,我們來看看Hbase的數據模型到底是個啥東東。x0dx0ax0dx0a在Hbase裡面有以下兩個主要的概念,Row key,Column Family,我們首先來看看Column family,Column family中文又名「列族」,Column family是在系統啟動之前預先定義好的,每一個Column Family都可以根據「限定符」有多個column.下面我們來舉個例子就會非常的清晰了。x0dx0ax0dx0a假如系統中有一個User表,如果按照傳統的RDBMS的話,User表中的列是固定的,比如schema 定義了name,age,sex等屬性,User的屬性是不能動態增加的。但是如果採用列存儲系統,比如Hbase,那麼我們可以定義User表,然後定義info 列族,User的數據可以分為:info:name = zhangsan,info:age=30,info:sex=male等,如果後來你又想增加另外的屬性,這樣很方便只需要info:newProperty就可以了。x0dx0ax0dx0a也許前面的這個例子還不夠清晰,我們再舉個例子來解釋一下,熟悉SNS的朋友,應該都知道有好友Feed,一般設計Feed,我們都是按照「某人在某時做了標題為某某的事情」,但是同時一般我們也會預留一下關鍵字,比如有時候feed也許需要url,feed需要image屬性等,這樣來說,feed本身的屬性是不確定的,因此如果採用傳統的關系資料庫將非常麻煩,況且關系資料庫會造成一些為null的單元浪費,而列存儲就不會出現這個問題,在Hbase里,如果每一個column 單元沒有值,那麼是佔用空間的。下面我們通過兩張圖來形象的表示這種關系:x0dx0ax0dx0a上圖是傳統的RDBMS設計的Feed表,我們可以看出feed有多少列是固定的,不能增加,並且為null的列浪費了空間。但是我們再看看下圖,下圖為Hbase,Cassandra,Bigtable的數據模型圖,從下圖可以看出,Feed表的列可以動態的增加,並且為空的列是不存儲的,這就大大節約了空間,關鍵是Feed這東西隨著系統的運行,各種各樣的Feed會出現,我們事先沒辦法預測有多少種Feed,那麼我們也就沒有辦法確定Feed表有多少列,因此Hbase,Cassandra,Bigtable的基於列存儲的數據模型就非常適合此場景。說到這里,採用Hbase的這種方式,還有一個非常重要的好處就是Feed會自動切分,當Feed表中的數據超過某一個閥值以後,Hbase會自動為我們切分數據,這樣的話,查詢就具有了伸縮性,而再加上Hbase的弱事務性的特性,對Hbase的寫入操作也將變得非常快。x0dx0ax0dx0a上面說了Column family,那麼我之前說的Row key是啥東東,其實你可以理解row key為RDBMS中的某一個行的主鍵,但是因為Hbase不支持條件查詢以及Order by等查詢,因此Row key的設計就要根據你系統的查詢需求來設計了額。我還拿剛才那個Feed的列子來說,我們一般是查詢某個人最新的一些Feed,因此我們Feed的Row key可以有以下三個部分構成
B. 常見的資料庫有哪些
問題一:常用的資料庫軟體有哪些? SQL Server 是 Microsoft(微軟) 的數據產品,它的易用性強! Oracle 是 Oracle(甲骨文)公司的數據產品!號稱世界上最好的數據系統! DB2 是IBM公司的產品,在全球500強的企業中有80%是用DB2作為資料庫平台的
問題二:常用資料庫有哪些?他們有什麼區別 開源的Mysql頂;PostgreSQL即開放源碼的
商業的Oracle/SQL Server/DB2即收費的
問題三:什麼是常用的三個資料庫? 目前,資料庫管理系統關系型資料庫為主導產品的商品化,技術相對成熟。雖然面向對象的資料庫管理系統的先進技術,資料庫易於開發,維護,但尚未成熟的產品。國際和國內領先的關系資料庫管理系統,甲骨文,Sybase,Informix和INGRES。這些產品支持多種平台,如UNIX,VMS,Windows上,而不是同一級別的支持。和成熟的IBM的DB2關系資料庫。但是,DB2是內嵌於IBM的AS/400系列機,只支持OS/400操作系統。
?1.MySQL
?MySQL是最受歡迎的開源SQL資料庫管理系統,由MySQL AB公司,發布和支持。 MySQL AB是基於MySQL開發一個商業公司,它是利用與開源值相結合的一個成功的商業模式?和方法論的第二代開源公司。 MySQL是MySQL AB的注冊商標。
?MySQL是一個快速,多線程,多用戶和健壯的SQL資料庫伺服器。 MySQL伺服器支持關鍵任務,重負載生產系統的使用,它可以嵌入到一個大配置(大規模部署)軟體。
?的MySQL與其他資料庫管理系統相比,具有以下優點:
?(1)MySQL是一個關系資料庫管理系統。
?(2)MySQL是開源。
?(3)MySQL伺服器是一個快速,可靠和易於使用的資料庫伺服器。
?(4)在MySQL伺服器的客戶機/伺服器或嵌入式系統。
?(5)可以使用MySQL軟體。
2.SQL Server的嗎?
?SQL Server是由微軟開發的資料庫管理系統,是目前最流行的資料庫,用於存儲在網路上的數據,它已被廣泛用於電子商務,銀行,保險,電力和其他資料庫相關的產業。
?SQL Server 2005的最新版本,它只能在Windows作業系統的穩定運行是非常重要的資料庫。並行實施和共存模型並不成熟,這是很難對付越來越多的用戶和數據量是有限的,可擴展性。
?SQL Server提供了網路和電子商務功能,如豐富的XML和Internet標準的支持,輕松且安全地通過Web訪問的數據的范圍很廣,有一個強大,靈活和網路,基於安全和應用管理。此外,由於它的易用性和友好的用戶界面,通過廣大用戶的好評,。
?3.Oracle
?提出的資料庫,該公司首先想到的,通常是甲骨文(Oracle)。該公司成立於1977年,原是一個專門開發的資料庫公司。甲骨文一直在資料庫領域的領導者。 1984年,第一個關系資料庫轉移到一台台式電腦。然後,Oracle5率先推出的分布式資料庫,客戶機/伺服器體系結構的新概念。甲骨文公司的第一行鎖定模式和對稱多處理計算機的支持......最新的Oracle對象技術,成為關系 - 對象資料庫系統。目前,甲骨文的產品涵蓋了幾十個型號的大,中,小型機,Oracle資料庫已成為世界上使用最廣泛的關系數據。
Oracle資料庫產品具有以下優良特性。
?(一)兼容性
?Oracle產品使用標準的SQL,和美國國家標准技術局(NIST)測試後。兼容IBM的SQL / DS,DB2中,安格爾的IDMS / R。
?(2)可移植性
??甲骨文的產品,可以廣泛的硬體和操作系統平台上運行。可以安裝在超過70種大不同,VMS系統的DOS,UNIX上,Windows和其他操作系統,小型機;
?(3)協會
甲骨文與各種通信網路連接,支持各種協議(TCP / IP協議說,DECnet,LU6.2工作等)。?
?(4)高生產率
?Oracle提供了多種開發......>>
問題四:現在一般常用的資料庫有哪幾種啊 ? MSSQL和MySQL兩種 sqlserver即是常說的MSSQL, 是微軟公司的產品,而MySQL不是,MySQL是一家叫MySQL AB的公司的開源產品,它是免費的,而且可以跨平台使用. MSSQL比較昂貴,一般只在Windows下使用.
問題五:常用大型資料庫有哪些 FOXBASE
MYSQL
這倆可算不上大型資料庫管理系統
PB 是資料庫應用程序開發用的ide,根本就不是資料庫管理系統
Foxbase是dos時代的產品了,進入windows時代改叫foxpro,屬於桌面單機級別的小型資料庫系統,mysql是個中輕量級的,但是開源,大量使用於小型網站,真正重量級的是Oracle和DB2,銀行之類的關鍵行業用的多是這兩個,微軟的MS SQLServer相對DB2和Oracle規模小一些,多見於中小型企業單位使用,Sybase可以說是日薄西山,不行了
問題六:常見的資料庫文件格式有哪些? dbf dbase文件,一種由ashton-tate創建的格式,可以被act!、lipper、foxpro、arago、wordtech、xbase和類似資料庫或與資料庫有關產品識別,可用數據文件(能被excel 97打開),oracle 8.1.x表格空間文件;dba是access文件;nsf lotus notes資料庫;mdf和ldf是sql server文件;2.另外你還有不少是軟體開發者自己定義的資料庫文件,大多採用dat,或者把dba轉換為dat,由程序文件名轉換處理。3.odb++是一種可擴展的ascii格式,它可在單個資料庫中保存pcb製造和裝配所必需的全部工程數據。是能把多種數據格式資料庫連接起來的橋梁,是一種雙向格式,允許數據上行和下傳。
問題七:常見的資料庫應用系統有哪些? 現在極大多的企業級軟體都是基於資料庫的。
比如:
ERP: 企業資源管理計劃
CRM: 客戶關系管理
OA: 辦公自動化。
12306鐵道部的網上訂票系統。
。。。
問題八:常用的資料庫軟體有哪些 1)MYSQL:
MySQL是由MySQL AB開發、發布和支持,是一個快速的、多線程、多用戶和健壯的SQL資料庫伺服器,是目前最受歡迎的開源SQL資料庫管理系統。MySQL
AB是一家基於MySQL開發人員的商業公司,它是一家使用了一種成功的商業模式來結合開源價值和方法論的第二代開源公司。MySQL是MySQL
AB的注冊商標。MySQLMySQL伺服器支持關鍵任務、重負載生產系統的使用,也可以將它嵌入到一個大配置(mass-
deployed)的軟體中去。
2)ACCESS:
ACCESS是系統自帶的一種關系式資料庫,與空間共存不需要單獨開設。關系式資料庫由一系列表組成,表又由一系列行和列組成,每一行是一個記錄,每一列是一個欄位,每個欄位有一個欄位名,欄位名在一個表中不能重復。Access資料庫以文件形式保存,文件的擴展名是MDB,作為開發網站常用的資料庫,Access資料庫一般搭配ASP程序使用。當資料庫過大的時候可以轉換為MSSQL資料庫使用,二者可以進行轉換。
3)MSSQL:
SQL Server也是微軟公司出品的,它是一個資料庫平台,提供資料庫的從伺服器到終端的完整的解決方案,其中資料庫伺服器部分,是一個資料庫管理系統,用於建立、使用和維護資料庫。
MSSQL特點:數據承載量比較大,存儲數據速度快,穩定性強,適用於中小型企業開發網站和辦公系統常用的資料庫。
4)Oracle:
Oracle公司是全球最大的信息管理軟體及服務供應商,成立於1977年,總部位於美國加州 Redwood
shore。Oracle的軟體可運行在PC、工作站、小型機、主機、大規模的並行計算機,以及PDA等各種計算設備上,隨著越來越多的企業將自己轉向電子商務,Oracle的具有強大的電子商務能力的解決方案,為企業提供高效率的擴展市場的手段,並提高工作效率和吸引更多的客戶。Oracle提供的完整的電子商務產品和服務包括:用於建立和交付基於Web的Internet平台;
綜合、全面的具有Internet能力的商業應用;強大的專業服務,幫助用戶實施電子商務戰略,以及設計、定製和實施各種電子商務解決方案。
問題九:常見的資料庫管理系統有哪些?它們各自有什麼特點? 1. IBM 的DB2作為關系資料庫領域的開拓者和領航人,IBM在1977年完成了System R系統的原型,1980年開始提供集成的資料庫伺服器―― System/38,隨後是SQL/DSforVSE和VM,其初始版本與SystemR研究原型密切相關。DB2 forMVSV1 在1983年推出。該版本的目標是提供這一新方案所承諾的簡單性,數據不相關性和用戶生產率。1988年DB2 for MVS 提供了強大的在線事務處理(OLTP)支持,1989 年和1993 年分別以遠程工作單元和分布式工作單元實現了分布式資料庫支持。最近推出的DB2 Universal Database 6.1則是通用資料庫的典範,是第一個具備網上功能的多媒體關系資料庫管理系統,支持包括Linux在內的一系列平台。2. OracleOracle 前身叫SDL,由Larry Ellison 和另兩個編程人員在1977創辦,他們開發了自己的拳頭產品,在市場上大量銷售,1979 年,Oracle公司引入了第一個商用SQL 關系資料庫管理系統。Oracle公司是最早開發關系資料庫的廠商之一,其產品支持最廣泛的操作系統平台。目前Oracle關系資料庫產品的市場佔有率名列前茅。3. InformixInformix在1980年成立,目的是為Unix等開放操作系統提供專業的關系型資料庫產品。公司的名稱Informix便是取自Information 和Unix的結合。Informix第一個真正支持SQL語言的關系資料庫產品是Informix SE(StandardEngine)。InformixSE是在當時的微機Unix環境下主要的資料庫產品。它也是第一個被移植到Linux上的商業資料庫產品。4. SybaseSybase公司成立於1984年,公司名稱「Sybase」取自「system」和「database」 相結合的含義。Sybase公司的創始人之一Bob Epstein 是Ingres 大學版(與System/R同時期的關系資料庫模型產品)的主要設計人員。公司的第一個關系資料庫產品是1987年5月推出的Sybase SQLServer1.0。Sybase首先提出Client/Server 資料庫體系結構的思想,並率先在Sybase SQLServer 中實現。5. SQL Server1987 年,微軟和IBM合作開發完成OS/2,IBM 在其銷售的OS/2 ExtendedEdition 系統中綁定了OS/2Database Manager,而微軟產品線中尚缺少資料庫產品。為此,微軟將目光投向Sybase,同Sybase 簽訂了合作協議,使用Sybase的技術開發基於OS/2平台的關系型資料庫。1989年,微軟發布了SQL Server 1.0 版。6. PostgreSQLPostgreSQL 是一種特性非常齊全的自由軟體的對象――關系性資料庫管理系統(ORDBMS),它的很多特性是當今許多商業資料庫的前身。PostgreSQL最早開始於BSD的Ingres項目。PostgreSQL 的特性覆蓋了SQL-2/SQL-92和SQL-3。首先,它包括了可以說是目前世界上最豐富的數據類型的支持;其次,目前PostgreSQL 是唯一支持事務、子查詢、多版本並行控制系統、數據完整性檢查等特性的唯一的一種自由軟體的資料庫管理系統.7.mySQLmySQL是一個小型關系型......>>
問題十:常用的資料庫安全技術有哪些 資料庫的安全性是指保護資料庫以防止不合法的使用所造成的數據泄露、更改或破壞。
安全性問題不是資料庫系統所獨有的,所有計算機系統都有這個問題。只是在資料庫系統中大量數據集中存放,而且為許多最終用戶直接共享,從而使安全性問題更為突出。 系統安全保護措施是否有效是資料庫系統的主要指標之一。 資料庫的安全性和計算機系統的安全性,包括操作系統、網路系統的安全性是緊密聯系、相互支持的。
實現資料庫安全性控制的常用方法和技術有:
(1)用戶標識和鑒別:該方法由系統提供一定的方式讓用戶標識自己咱勺名字或身份。每次用戶要求進入系統時,由系統進行核對,通過鑒定後才提供系統的使用權。
(2)存取控制:通過用戶許可權定義和合法權檢查確保只有合法許可權的用戶訪問資料庫,所有未被授權的人員無法存取數據。例如C2級中的自主存取控制(I)AC),Bl級中的強制存取控制(M.AC)。
(3)視圖機制:為不同的用戶定義視圖,通過視圖機制把要保密的數據對無權存取的用戶隱藏起來,從而自動地對數據提供一定程度的安全保護。
(4)審計:建立審計日誌,把用戶對資料庫的所有操作自動記錄下來放人審計日誌中,DBA可以利用審計跟蹤的信息,重現導致資料庫現有狀況的一系列事件,找出非法存取數據的人、時間和內容等。
(5)數據加密:對存儲和傳輸的數據進行加密處理,從而使得不知道解密演算法的人無法獲知數據的內容。
C. 面向對象資料庫有哪些
面向對象的資料庫是一種資料庫的模式
資料庫中的表,欄位和內容都當成對象來處理
換言之,可以使用對象的屬性和方法
以paradox為例
如果sql語句為select
*
from
a
where
b=:b
那麼在delphi中可以操作參數b
即
paramaters.paramvalue['b']:=x;
此時就相當於使用了對象
現在比較流行的面向對象的資料庫是oracle
D. 什麼是游標使用游標的基本步驟是什麼
游標(cursor)是系統為用戶開設的一個數據緩沖區,存放SQL語句的執行結果。每個游標區都有一個名字,用戶可以用SQL語句逐一從游標中獲取記錄,並賦給主變數,交由主語言進一步處理。游標提供了一敬攔種對從表中檢索出的數據進行操作的靈活手段。x0dx0a使用游標的基本步驟: x0dx0a1、聲明游標。把游標與T-SQL語句的結果集聯系起來。 x0dx0a2、打開游標。 x0dx0a3、使用游標操作數據。 x0dx0a4、關閉游標。x0dx0a功能:x0dx0a1、游標提供了一種對從表中檢索出的數據進行操作的靈活手段,就本質而言,游標實際上是一種能從包括多條數據記錄的結果集中每次提取一條記錄的機制。x0dx0a2、游標能夠實現按與傳統程序讀取平面文件類似的方式處理來自基礎表的結果集,從而把表亮察胡中數據以平面文件的形式呈現給程序。x0dx0a3、游標把作為面向集合的資料庫管理系統和面向行的程序設計兩者聯系起來,使兩個數據處理方式能夠進行溝通。x0dx0a種類:x0dx0a1、Transact_SQL游標x0dx0aTransact_SQL游標是由DECLARECURSOR語法定義、主要用在Transact_SQL腳本、存儲過程和觸發器中。Transact_SQL游標主要用在伺服器上,由從客戶沒高端發送給伺服器的Transact_SQL語句或是批處理、存儲過程、觸發器中的Transact_SQL進行管理。Transact_SQL游標不支持提取數據塊或多行數據。x0dx0a2、API游標x0dx0aAPI游標支持在OLEDB,ODBC以及DB_library中使用游標函數,主要用在伺服器上。每一次客戶端應用程序調用API游標函數,MSSQLSEVER的OLEDB提供者、ODBC驅動器或DB_library的動態鏈接庫(DLL)都會將這些客戶請求傳送給伺服器以對API游標進行處理。x0dx0a3、客戶游標x0dx0a客戶游標主要是當在客戶機上緩存結果集時才使用。在客戶游標中,有一個預設的結果集被用來在客戶機上緩存整個結果集。客戶游標僅支持靜態游標而非動態游標。由於伺服器游標並不支持所有的Transact-SQL語句或批處理,所以客戶游標常常僅被用作伺服器游標的輔助。因為在一般情況下,伺服器游標能支持絕大多數的游標操作。由於API游標和Transact-SQL游標使用在伺服器端,所以被稱為伺服器游標,也被稱為後台游標,而客戶端游標被稱為前台游標。
E. 面向對象資料庫有哪些
面向對象是一種認識方法學,也是一種新的程序設計方法學。
目前,商品化的資料庫管理系統以關系型資料庫為主導產品,技術比較成熟。
面向對象的資料庫管理系統雖然技術先進,資料庫易於開發、維護,但尚未有成熟的產品。咐笑拍國際國內的主導關系型資料庫管理系統有ORACLE、SYBASE、INFORMIX和INGRES。這些產品都支持多平台,如UNIX、VMS、WINDOWS,但支持的程度不一樣。在下面的分析中會比較他們的平台支持能力。IBM 的DB2也是成熟的關系型資料庫。
但是,DB2是內嵌於IBM的衡羨 AS/升昌400系列機中,只支持OS/400操作系統。
F. 2019數據架構選型必讀:1月資料庫產品技術解析
本期目錄
DB-Engines資料庫排行榜
新聞快訊
一、RDBMS家族
二、NoSQL家族
三、NewSQL家族
四、時間序列
五、大數據生態圈
六、國產資料庫概覽
七、雲資料庫
八、推出dbaplus Newsletter的想法
九、感謝名單
為方便閱讀、重點呈現,本期Newsletter(2019年1月)將對各個板塊的內容進行精簡。需要閱讀全文的同學可點擊文末 【閱讀原文】 或登錄https://pan..com/s/13BgipbaHeMfvm0YPtiYviA
DB-Engines資料庫排行榜
以下取自2019年1月的數據,具體信息可以參考http://db-engines.com/en/ranking/,數據僅供參考。
DB-Engines排名的數據依據5個不同的因素:
新聞快訊
1、2018年9月24日,微軟公布了SQL Server2019預覽版,SQL Server 2019將結合Spark創建統一數據平台。
2、2018年10月5日,ElasticSearch在美國紐約證券交易所上市。
3、亞馬遜放棄甲骨文資料庫軟體,導致最大倉庫之一在黃金時段宕機。受此消息影響,亞馬遜盤前股價小幅跳水,跌超2%。
4、2018年10月31日,Percona發布了Percona Server 8.0 RC版本,發布對MongoDB 4.0的支持,發布對XtraBackup測試第二個版本。
5、2018年10月31日,Gartner陸續發布了2018年的資料庫系列報告,包括《資料庫魔力象限》、《資料庫核心能力》以及《資料庫推薦報告》。
今年的總上榜資料庫產品達到了5家,分別來自:阿里雲,華為,巨杉資料庫,騰訊雲,星環 科技 。其中阿里雲和巨杉資料庫已經連續兩年入選。
6、2018年11月初,Neo4j宣布完成E輪8000萬美元融資。11月15日,Neo4j宣布企業版徹底閉源:
7、2019年1月8日,阿里巴巴以1.033億美元(9000萬歐元)的價格收購了Apache Flink商業公司DataArtisans。
8、2019年1月11日早間消息,亞馬遜宣布推出雲資料庫軟體,亞馬遜和MongoDB將會直接競爭。
RDBMS家族
Oracle 發布18.3版本
2018年7月,Oracle Database 18.3通用版開始提供下載。我們可以將Oracle Database 18c視為採用之前發布模式的Oracle Database 12c第2版的第一個補丁集。未來,客戶將不再需要等待多年才能用上最新版Oracle資料庫,而是每年都可以期待新資料庫特性和增強。Database 19c將於2019年Q1率先在Oracle cloud上發布雲版本。
Oracle Database 18c及19c部分關鍵功能:
1、性能
2、多租戶,大量功能增強及改進,大幅節省成本和提高敏捷性
3、高可用
4、數據倉庫和大數據
MySQL發布8.0.13版本
1、賬戶管理
經過配置,修改密碼時,必須帶上原密碼。在之前的版本,用戶登錄之後,就可以修改自己的密碼。這種方式存在一定安全風險。比如用戶登錄上資料庫後,中途離開一段時間,那麼非法用戶可能會修改密碼。由參數password_require_current控制。
2、配置
Innodb表必須有主鍵。在用戶沒有指定主鍵時,系統會生成一個默認的主鍵。但是在主從復制的場景下,默認的主鍵,會對叢庫應用速度帶來致命的影響。如果設置sql_require_primary_key,那麼資料庫會強制用戶在創建表、修改表時,加上主鍵。
3、欄位默認值
BLOB、TEXT、GEOMETRY和JSON欄位可以指定默認值了。
4、優化器
1)Skip Scan
非前綴索引也可以用了。
之前的版本,任何沒有帶上f1欄位的查詢,都沒法使用索引。在新的版本中,它可以忽略前面的欄位,讓這個查詢使用到索引。其實現原理就是把(f1 = 1 AND f2 > 40) 和(f1 = 2 AND f2 > 40)的查詢結果合並。
2)函數索引
之前版本只能基於某個列或者多個列加索引,但是不允許在上面做計算,如今這個限制消除了。
5、SQL語法
GROUP BY ASC和GROUP BY DESC語法已經被廢棄,要想達到類似的效果,請使用GROUP BY ORDER BY ASC和GROUP BY ORDER BY DESC。
6、功能變化
1)設置用戶變數,請使用SET語句
如下類型語句將要被廢棄SELECT @var, @var:=@var+1。
2)新增innodb_fsync_threshold
該變數是控制文件刷新到磁碟的速率,防止磁碟在短時間內飽和。
3)新增會話級臨時表空間
在以往的版本中,當執行SQL時,產生的臨時表都在全局表空間ibtmp1中,及時執行結束,臨時表被釋放,空間不會被回收。新版本中,會為session從臨時表空間池中分配一個臨時表空間,當連接斷開時,臨時表空間的磁碟空間被回收。
4)在線切換Group Replication的狀態
5)新增了group_replication_member_expel_timeout
之前,如果某個節點被懷疑有問題,在5秒檢測期結束之後,那麼就直接被驅逐出這個集群。即使該節點恢復正常時,也不會再被加入集群。那麼,瞬時的故障,會把某些節點驅逐出集群。
group_replication_member_expel_timeout讓管理員能更好的依據自身的場景,做出最合適的配置(建議配置時間小於一個小時)。
MariaDB 10.3版本功能展示
1、MariaDB 10.3支持update多表ORDER BY and LIMIT
1)update連表更新,limit語句
update t1 join t2 on t1.id=t2.id set t1.name='hechunyang' limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
2)update連表更新,ORDER BY and LIMIT語句
update t1 join t2 on t1.id=t2.id set t1.name='HEchunyang' order by t1.id DESC limit 3;
MySQL 8.0直接報錯
MariaDB 10.3更新成功
參考:
https://jira.mariadb.org/browse/MDEV-13911
2、MariaDB10.3增補AliSQL補丁——安全執行Online DDL
Online DDL從名字上看很容易誤導新手,以為不論什麼情況,修改表結構都不會鎖表,理想很豐滿,現實很骨感,注意這個坑!
有以下兩種情況執行DDL操作會鎖表的,Waiting for table metadata lock(元數據表鎖):
針對第二種情況,MariaDB10.3增補AliSQL補丁-DDL FAST FAIL,讓其DDL操作快速失敗。
例:
如果線上有某個慢SQL對該表進行操作,可以使用WAIT n(以秒為單位設置等待)或NOWAIT在語句中顯式設置鎖等待超時,在這種情況下,如果無法獲取鎖,語句將立即失敗。 WAIT 0相當於NOWAIT。
參考:
https://jira.mariadb.org/browse/MDEV-11388
3、MariaDB Window Functions窗口函數分組取TOP N記錄
窗口函數在MariaDB10.2版本里實現,其簡化了復雜SQL的撰寫,提高了可讀性。
參考:
https://mariadb.com/kb/en/library/window-functions-overview/
Percona Server發布8.0 GA版本
2018年12月21日,Percona發布了Percona Server 8.0 GA版本。
在支持MySQL8.0社區的基礎版上,Percona Server for MySQL 8.0版本中帶來了許多新功能:
1、安全性和合規性
2、性能和可擴展性
3、可觀察性和可用性
Percona Server for MySQL 8.0中將要被廢用功能:
Percona Server for MySQL 8.0中刪除的功能:
RocksDB發布V5.17.2版本
2018年10月24日,RocksDB發布V5.17.2版本。
RocksDB是Facebook在LevelDB基礎上用C++寫的高效內嵌式K/V存儲引擎。相比LevelDB,RocksDB提供了Column-Family,TTL,Transaction,Merge等方面的支持。目前MyRocks,TiKV等底層的存儲都是基於RocksDB來構建。
PostgreSQL發布11版本
2018年10月18日,PostgreSQL 11發布。
1、PostgreSQL 11的重大增強
2、PostgreSQL 插件動態
1)分布式插件citus發布 8.1
citus是PostgreSQL的一款sharding插件,目前國內蘇寧、鐵總、探探有較大量使用案例。
https://github.com/citusdata/citus
2)地理信息插件postgis發布2.5.1
PostGIS是專業的時空資料庫插件,在測繪、航天、氣象、地震、國土資源、地圖等時空專業領域應用廣泛。同時在互聯網行業也得到了對GIS有性能、功能深度要求的客戶青睞,比如共享出行、外賣等客戶。
http://postgis.net/
3)時序插件timescale發布1.1.1
timescale是PostgreSQL的一款時序資料庫插件,在IoT行業中有非常好的應用。github star數目前有5000多,是一個非常火爆的插件。
https://github.com/timescale/timescaledb
4)流計算插件 pipelinedb 正式插件化
Pipelinedb是PostgreSQL的一款流計算插件,使用這個創建可以對高速寫入的數據進行實時根據定義的聚合規則進行聚合(支持概率計算),實時根據定義的規則觸發事件(支持事件處理函數的自定義)。可用於IoT,監控,FEED實時計算等場景。
https://github.com/pipelinedb/pipelinedb
3、PostgreSQL衍生開源產品動態
1)agensgraph發布 2.0.0版本
agensgraph是兼容PostgreSQL、opencypher的專業圖資料庫,適合圖式關系的管理。
https://github.com/bitnine-oss/agensgraph
2)gpdb發布5.15
gpdb是兼容PostgreSQL的mpp資料庫,適合OLAP場景。近兩年,gpdb一直在追趕PostgreSQL的社區版本,預計很快會追上10的PostgreSQL,在TP方面的性能也會得到顯著提升。
https://github.com/greenplum-db/gpdb
3)antdb發布3.2
antdb是以Postgres-XC為基礎開發的一款PostgreSQL sharding資料庫,亞信主導開發,開源,目前主要服務於亞信自有客戶。
https://github.com/ADBSQL/AntDB
4)遷移工具MTK發布52版本
MTK是EDB提供的可以將Oracle、PostgreSQL、MySQL、MSSQL、Sybase資料庫遷移到PostgreSQL, PPAS的產品,遷移速度可以達到100萬行/s以上。
https://github.com/digoal/blog/blob/master/201812/20181226_01.md
DB2發布 11.1.4.4版本
DB2最新發布Mod Pack 4 and Fix Pack 4,包含以下幾方面的改動及增強:
1、性能
2、高可用
3、管理視圖
4、應用開發方面
5、聯邦功能
6、pureScale
NoSQL家族
Redis發布5.0.3版本
MongoDB升級更新MongoDB Mobile和MongoDB Stitch
2018年11月21日,MongoDB升級更新MongoDB Mobile和MongoDB Stitch,助力開發人員提升工作效率。
MongoDB 公司日前發布了多項新產品功能,旨在更好地幫助開發人員在世界各地管理數據。通過利用存儲在移動設備和後台資料庫的數據之間的實時、自動的同步特性,MongoDB Mobile通用版本助力開發人員構建更快捷、反應更迅速的應用程序。此前,這只能通過在移動應用內部安裝一個可供選擇或限定功能的資料庫來實現。
MongoDB Mobile在為客戶提供隨處運行的自由度方面更進了一步。用戶在iOS和安卓終端設備上可擁有MongoDB所有功能,將網路邊界擴展到其物聯網資產范疇。應用系統還可以使用MongoDB Stitch的軟體開發包訪問移動客戶端或後台數據,幫助開發人員通過他們希望的任意方式查詢移動終端數據和物聯網數據,包括本地讀寫、本地JSON存儲、索引和聚合。通過Stitch移動同步功能(現可提供beta版),用戶可以自動對保存在本地的數據以及後台資料庫的數據進行同步。
本期新秀:Cassandra發布3.11.3版本
2018年8月11日,Cassandra發布正式版3.11.3。
Apache Cassandra是一款開源分布式NoSQL資料庫系統,使用了基於Google BigTable的數據模型,與面向行(row)的傳統關系型資料庫或鍵值存儲key-value資料庫不同,Cassandra使用的是寬列存儲模型(Wide Column Stores)。與BigTable和其模仿者HBase不同,數據並不存儲在分布式文件系統如GFS或HDFS中,而是直接存於本地。
Cassandra的系統架構與Amazon DynamoDB類似,是基於一致性哈希的完全P2P架構,每行數據通過哈希來決定應該存在哪個或哪些節點中。集群沒有master的概念,所有節點都是同樣的角色,徹底避免了整個系統的單點問題導致的不穩定性,集群間的狀態同步通過Gossip協議來進行P2P的通信。
3.11.3版本的一些bug fix和改進:
NewSQL家族
TiDB 發布2.1.2版本
2018 年 12 月 22 日,TiDB 發布 2.1.2 版,TiDB-Ansible 相應發布 2.1.2 版本。該版本在 2.1.1 版的基礎上,對系統兼容性、穩定性做出了改進。
TiDB 是一款定位於在線事務處理/在線分析處理( HTAP: Hybrid Transactional/Analytical Processing)的融合型資料庫產品。除了底層的 RocksDB 存儲引擎之外,分布式SQL層、分布式KV存儲引擎(TiKV)完全自主設計和研發。
TiDB 完全開源,兼容MySQL協議和語法,可以簡單理解為一個可以無限水平擴展的MySQL,並且提供分布式事務、跨節點 JOIN、吞吐和存儲容量水平擴展、故障自恢復、高可用等優異的特性;對業務沒有任何侵入性,簡化開發,利於維護和平滑遷移。
TiDB:
PD:
TiKV:
Tools:
1)TiDB-Lightning
2)TiDB-Binlog
EsgynDB發布R2.5版本
2018年12月22日,EsgynDB R2.5版本正式發布。
作為企業級產品,EsgynDB 2.5向前邁進了一大步,它擁有以下功能和改進:
CockroachDB發布2.1版本
2018年10月30日,CockroachDB正式發布2.1版本,其新增特性如下:
新增企業級特性:
新增SQL特性:
新增內核特性:
Admin UI增強:
時間序列
本期新秀:TimescaleDB發布1.0版本
10月底,TimescaleDB 1.0宣布正式推出,官方表示該版本已可用於生產環境,支持完整SQL和擴展。
TimescaleDB是基於PostgreSQL資料庫開發的一款時序資料庫,以插件化的形式打包提供,隨著PostgreSQL的版本升級而升級,不會因為另立分支帶來麻煩。
TimescaleDB架構:
數據自動按時間和空間分片(chunk)
更新亮點:
https://github.com/timescale/timescaledb/releases/tag/1.0.0
大數據生態圈
Hadoop發布2.9.2版本
2018年11月中旬,Hadoop在2.9分支上發布了新的2.9.2版本,該版本進行了204個大大小小的變更,主要變更如下:
Greenplum 發布5.15版本
Greenplum最新的5.15版本中發布了流式數據載入工具。
該版本中的Greenplum Streem Server組件已經集成了Kafka流式載入功能,並通過了Confluent官方的集成認證,其支持的主要功能如下:
國產資料庫概覽
K-DB發布資料庫一體機版
2018年11月7日,K-DB發布了資料庫一體機版。該版本更新情況如下:
OceanBase遷移服務發布1.0版本
1月4日,OceanBase 正式發布OMS遷移服務1.0版本。
以下內容包含 OceanBase 遷移服務的重要特性和功能:
SequoiaDB發布3.0.1新版本
1、架構
1)完整計算存儲分離架構,兼容MySQL協議、語法
計算存儲分離體系以松耦合的方式將計算與存儲層分別部署,通過標准介面或插件對各個模塊和組件進行無縫替換,在計算層與存儲層均可實現自由的彈性伸縮。
SequoiaDB巨杉資料庫「計算-存儲分離」架構詳細示意
用戶可以根據自身業務特徵選擇面向交易的SQL解析器(例如MySQL或PGSQL)或面向統計分析的執行引擎(例如SparkSQL)。眾所周知,使用不同的SQL優化與執行方式,資料庫的訪問性能可能會存在上千上萬倍的差距。計算存儲分離的核心思想便是在數據存儲層面進行一體化存儲,在計算層面則利用每種執行引擎的特點針對不同業務場景進行選擇和優化,用戶可以在存儲層進行邏輯與物理的隔離,將面向高頻交易的前端業務與面向高吞吐量的統計分析使用不同的硬體進行存儲,確保在多類型數據訪問時互不幹擾,以真正達到生產環境可用的多租戶與HTAP能力。
2、其他更新信息
1)介面變更:
2)主要特性:
雲資料庫
本期新秀:騰訊發布資料庫CynosDB,開啟公測
1、News
1)騰訊雲資料庫MySQL2018年重大更新:
2)騰訊雲資料庫MongoDB2018年重大更新:
3)騰訊雲資料庫Redis/CKV+2018年重大更新:
4)騰訊雲資料庫CTSDB2018年重大更新:
2、Redis 4.0集群版商業化上線
2018年10月,騰訊雲資料庫Redis 4.0集群版完成邀測、公測、商業化三個迭代,在廣州、上海、北京正式全量商業化上線。
產品特性:
使用場景:
官網文檔:
https://cloud.tencent.com/document/proct/239/18336
3、騰訊自研資料庫CynosDB發布,開啟公測
2018年11月22日,騰訊雲召開新一代自研資料庫CynosDB發布會,業界第一款全面兼容市面上兩大最主流的開源資料庫MySQL和PostgreSQL的高性能企業級分布式雲資料庫。
本期新秀:京東雲DRDS發布1.0版本
12月24日,京東雲分布式關系型資料庫DRDS正式發布1.0版本。
DRDS是京東雲精心自研的資料庫中間件產品,獲得了2018年 」可信雲技術創新獎」。DRDS可實現海量數據下的自動分庫分表,具有高性能,分布式,彈性升級,兼容MySQL等優點,適用於高並發、大規模數據的在線交易, 歷史 數據查詢,自動數據分片等業務場景,歷經多次618,雙十一的考驗,已經在京東集團內大規模使用。
京東雲DRDS產品有以下主要特性
1)自動分庫分表
通過簡單的定義即可自動實現分庫分表,將數據實際存放在多個MySQL實例的資料庫中,但呈現給應用程序的依舊是一張表,對業務透明,應用程序幾乎無需改動,實現了對資料庫存儲和處理能力的水平擴展。
2)分布式架構
基於分布式架構的集群方案,多個對等節點同時對外提供服務,不但可有效規避服務的單點故障,而且更加容易擴展。
3)超強性能
具有極高的處理能力,雙節點即可支持數萬QPS,滿足用戶超大規模處理能力的需求。
4)兼容MySQL
兼容絕大部分MySQL語法,包括MySQL語法、數據類型、索引、常用函數、排序、關聯等DDL,DML語句,使用成本低。
參考鏈接:
https://www.jdcloud.com/cn/procts/drds
RadonDB發布1.0.3版本
2018年12月26日,MyNewSQL領域的RadonDB雲資料庫發布1.0.3版本。
推出dbaplus Newsletter的想法
dbaplus Newsletter旨在向廣大技術愛好者提供資料庫行業的最新技術發展趨勢,為社區的技術發展提供一個統一的發聲平台。為此,我們策劃了RDBMS、NoSQL、NewSQL、時間序列、大數據生態圈、國產資料庫、雲資料庫等幾個版塊。
我們不以商業宣傳為目的,不接受任何商業廣告宣傳,嚴格審查信息源的可信度和准確性,力爭為大家提供一個純凈的技術學習環境,歡迎大家監督指正。
至於Newsletter發布的周期,目前計劃是每三個月左右會做一次跟進, 下期計劃時間是2019年4月14日~4月25日, 如果有相關的信息提供請發送至郵箱:[email protected]
感謝名單
最後要感謝那些提供寶貴信息和建議的專家朋友,排名不分先後。
往期回顧:
↓↓別忘了點這里下載 2019年1月 完整版Newsletter 哦~
G. nosql資料庫是什麼 具有代表性以key-value的形式存儲的
什麼是NoSQL
大家有沒有聽說過「NoSQL」呢?近年,這個詞極受關注。看到「NoSQL」這個詞,大家可能會誤以為是「No!SQL」的縮寫,並深感憤怒:「SQL怎麼會沒有必要了呢?」但實際上,它是「Not Only SQL」的縮寫。它的意義是:適用關系型資料庫的時候就使用關系型資料庫,不適用的時候也沒有必要非使用關系型資料庫不可,可以考慮使用更加合適的數據存儲。
為彌補關系型資料庫的不足,各種各樣的NoSQL資料庫應運而生。
為了更好地了解本書所介紹的NoSQL資料庫,對關系型資料庫的理解是必不可少的。那麼,就讓我們先來看一看關系型資料庫的歷史、分類和特徵吧。
關系型資料庫簡史
1969年,埃德加?6?1弗蘭克?6?1科德(Edgar Frank Codd)發表了劃時代的論文,首次提出了關系數據模型的概念。但可惜的是,刊登論文的《IBM Research Report》只是IBM公司的內部刊物,因此論文反響平平。1970年,他再次在刊物《Communication of the ACM》上發表了題為「A Relational Model of Data for Large Shared Data banks」(大型共享資料庫的關系模型)的論文,終於引起了大家的關注。
科德所提出的關系數據模型的概念成為了現今關系型資料庫的基礎。當時的關系型資料庫由於硬體性能低劣、處理速度過慢而遲遲沒有得到實際應用。但之後隨著硬體性能的提升,加之使用簡單、性能優越等優點,關系型資料庫得到了廣泛的應用。
通用性及高性能
雖然本書是講解NoSQL資料庫的,但有一個重要的大前提,請大家一定不要誤解。這個大前提就是「關系型資料庫的性能絕對不低,它具有非常好的通用性和非常高的性能」。毫無疑問,對於絕大多數的應用來說它都是最有效的解決方案。
突出的優勢
關系型資料庫作為應用廣泛的通用型資料庫,它的突出優勢主要有以下幾點:
保持數據的一致性(事務處理)
由於以標准化為前提,數據更新的開銷很小(相同的欄位基本上都只有一處)
可以進行JOIN等復雜查詢
存在很多實際成果和專業技術信息(成熟的技術)
這其中,能夠保持數據的一致性是關系型資料庫的最大優勢。在需要嚴格保證數據一致性和處理完整性的情況下,用關系型資料庫是肯定沒有錯的。但是有些情況不需要JOIN,對上述關系型資料庫的優點也沒有什麼特別需要,這時似乎也就沒有必要拘泥於關系型資料庫了。
關系型資料庫的不足
不擅長的處理
就像之前提到的那樣,關系型資料庫的性能非常高。但是它畢竟是一個通用型的資料庫,並不能完全適應所有的用途。具體來說它並不擅長以下處理:
大量數據的寫入處理
為有數據更新的表做索引或表結構(schema)變更
欄位不固定時應用
對簡單查詢需要快速返回結果的處理
。。。。。。
NoSQL資料庫
為了彌補關系型資料庫的不足(特別是最近幾年),NoSQL資料庫出現了。關系型資料庫應用廣泛,能進行事務處理和JOIN等復雜處理。相對地,NoSQL資料庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型資料庫的不足之處。
易於數據的分散
如前所述,關系型資料庫並不擅長大量數據的寫入處理。原本關系型資料庫就是以JOIN為前提的,就是說,各個數據之間存在關聯是關系型資料庫得名的主要原因。為了進行JOIN處理,關系型資料庫不得不把數據存儲在同一個伺服器內,這不利於數據的分散。相反,NoSQL資料庫原本就不支持JOIN處理,各個數據都是獨立設計的,很容易把數據分散到多個伺服器上。由於數據被分散到了多個伺服器上,減少了每個伺服器上的數據量,即使要進行大量數據的寫入操作,處理起來也更加容易。同理,數據的讀入操作當然也同樣容易。
提升性能和增大規模
下面說一點題外話,如果想要使伺服器能夠輕松地處理更大量的數據,那麼只有兩個選擇:一是提升性能,二是增大規模。下面我們來整理一下這兩者的不同。
首先,提升性能指的就是通過提升現行伺服器自身的性能來提高處理能力。這是非常簡單的方法,程序方面也不需要進行變更,但需要一些費用。若要購買性能翻倍的伺服器,需要花費的資金往往不只是原來的2倍,可能需要多達5到10倍。這種方法雖然簡單,但是成本較高。
另一方面,增大規模指的是使用多台廉價的伺服器來提高處理能力。它需要對程序進行變更,但由於使用廉價的伺服器,可以控製成本。另外,以後只要依葫蘆畫瓢增加廉價伺服器的數量就可以了。
不對大量數據進行處理的話就沒有使用的必要嗎?
NoSQL資料庫基本上來說為了「使大量數據的寫入處理更加容易(讓增加伺服器數量更容易)」而設計的。但如果不是對大量數據進行操作的話,NoSQL資料庫的應用就沒有意義嗎?
答案是否定的。的確,它在處理大量數據方面很有優勢。但實際上NoSQL資料庫還有各種各樣的特點,如果能夠恰當地利用這些特點將會是非常有幫助。具體的例子將會在第2章和第3章進行介紹,這些用途將會讓你感受到利用NoSQL的好處。
希望順暢地對數據進行緩存(Cache)處理
希望對數組類型的數據進行高速處理
希望進行全部保存
多樣的NoSQL資料庫
NoSQL資料庫存在著「key-value存儲」、「文檔型資料庫」、「列存儲資料庫」等各種各樣的種類,每種資料庫又包含各自的特點。下一節讓我們一起來了解一下NoSQL資料庫的種類和特點。
NoSQL資料庫是什麼
NoSQL說起來簡單,但實際上到底有多少種呢?我在提筆的時候,到NoSQL的官方網站上確認了一下,竟然已經有122種了。另外官方網站上也介紹了本書沒有涉及到的圖形資料庫和對象資料庫等各個類別。不知不覺間,原來已經出現了這么多的NoSQL資料庫啊。
本節將為大家介紹具有代表性的NoSQL資料庫。
key-value存儲
這是最常見的NoSQL資料庫,它的數據是以key-value的形式存儲的。雖然它的處理速度非常快,但是基本上只能通過key的完全一致查詢獲取數據。根據數據的保存方式可以分為臨時性、永久性和兩者兼具三種。
臨時性
memcached屬於這種類型。所謂臨時性就是 「數據有可能丟失」的意思。memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止的時候,數據就不存在了。由於數據保存在內存中,所以無法操作超出內存容量的數據(舊數據會丟失)。
在內存中保存數據
可以進行非常快速的保存和讀取處理
數據有可能丟失
永久性
Tokyo Tyrant、Flare、ROMA等屬於這種類型。和臨時性相反,所謂永久性就是「數據不會丟失」的意思。這里的key-value存儲不像memcached那樣在內存中保存數據,而是把數據保存在硬碟上。與memcached在內存中處理數據比起來,由於必然要發生對硬碟的IO操作,所以性能上還是有差距的。但數據不會丟失是它最大的優勢。
在硬碟上保存數據
可以進行非常快速的保存和讀取處理(但無法與memcached相比)
數據不會丟失
兩者兼具
Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具,且集合了臨時性key-value存儲和永久性key-value存儲的優點。Redis首先把數據保存到內存中,在滿足特定條件(默認是15分鍾一次以上,5分鍾內10個以上,1分鍾內10000個以上的key發生變更)的時候將數據寫入到硬碟中。這樣既確保了內存中數據的處理速度,又可以通過寫入硬碟來保證數據的永久性。這種類型的資料庫特別適合於處理數組類型的數據。
同時在內存和硬碟上保存數據
可以進行非常快速的保存和讀取處理
保存在硬碟上的數據不會消失(可以恢復)
適合於處理數組類型的數據
面向文檔的資料庫
MongoDB、CouchDB屬於這種類型。它們屬於NoSQL資料庫,但與key-value存儲相異。
不定義表結構
面向文檔的資料庫具有以下特徵:即使不定義表結構,也可以像定義了表結構一樣使用。關系型資料庫在變更表結構時比較費事,而且為了保持一致性還需修改程序。然而NoSQL資料庫則可省去這些麻煩(通常程序都是正確的),確實是方便快捷。
可以使用復雜的查詢條件
跟key-value存儲不同的是,面向文檔的資料庫可以通過復雜的查詢條件來獲取數據。雖然不具備事務處理和JOIN這些關系型資料庫所具有的處理能力,但除此以外的其他處理基本上都能實現。這是非常容易使用的NoSQL資料庫。
不需要定義表結構
可以利用復雜的查詢條件
面向列的資料庫
Cassandra、Hbase、HyperTable屬於這種類型。由於近年來數據量出現爆發性增長,這種類型的NoSQL資料庫尤其引人注目。
面向行的資料庫和面向列的資料庫
普通的關系型資料庫都是以行為單位來存儲數據的,擅長進行以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型資料庫也被稱為面向行的資料庫。相反,面向列的資料庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。
高擴展性
面向列的資料庫具有高擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用於需要處理大量數據的情況。另外,利用面向列的資料庫的優勢,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由於面向列的資料庫跟現行資料庫存儲的思維方式有很大不同,應用起來十分困難。
高擴展性(特別是寫入處理)
應用十分困難
最近,像Twitter和Facebook這樣需要對大量數據進行更新和查詢的網路服務不斷增加,面向列的資料庫的優勢對其中一些服務是非常有用的,但是由於這與本書所要介紹的內容關系不大,就不進行詳細介紹了。
總結:
NoSQL並不是No-SQL,而是指Not Only SQL。
NoSQL的出現是為了彌補SQL資料庫因為事務等機制帶來的對海量數據、高並發請求的處理的性能上的欠缺。
NoSQL不是為了替代SQL而出現的,它是一種替補方案,而不是解決方案的首選。
絕大多數的NoSQL產品都是基於大內存和高性能隨機讀寫的(比如具有更高性能的固態硬碟陣列),一般的小型企業在選擇NoSQL時一定要慎重!不要為了NoSQL而NoSQL,可能會導致花了冤枉錢又耽擱了項目進程。
NoSQL不是萬能的,但在大型項目中,你往往需要它!
H. 為什麼海量數據場景中NoSQL越來越重要
本質是因為:隨著互聯網的進一步發展與各行業信息化建設進程加快、參與者的增多,人們對軟體有了更多更新的要求,需要軟體不僅能實現功能,而且要求保證許多人可以共同參與使用,因而軟體所需承載的數據量和吞吐量必須達到相應的需求。而目前的關系型資料庫在某些方面有一些缺點,導致不能滿足需要。
具體則需要對比關系型資料庫與Nosql之間的區別可以得出
關系型資料庫
關系型資料庫把所有的數據都通過行和列的二元表現形式表示出來。
關系型資料庫的優勢:
1.保持數據的一致性(事務處理)
2.由於以標准化為前提,數據更新的開銷很小(相同的欄位基本上都只有一處)
3.可以進行Join等復雜查詢
其中能夠保持數據的一致性是關系型資料庫的最大優勢。
關系型資料庫的不足:
不擅長的處理
1.大量數據的寫入處理(這點尤為重要)
2.為有數據更新的表做索引或表結構(schema)變更
3.欄位不固定時應用
4.對簡單查詢需要快速返回結果的處理
--大量數據的寫入處理
讀寫集中在一個資料庫上讓資料庫不堪重負,大部分網站已使用主從復制技術實現讀寫分離,以提高讀寫性能和讀庫的可擴展性。
所以在進行大量數據操作時,會使用資料庫主從模式。數據的寫入由主資料庫負責,數據的讀入由從資料庫負責,可以比較簡單地通過增加從資料庫來實現規模化,但是數據的寫入卻完全沒有簡單的方法來解決規模化問題。
第一,要想將數據的寫入規模化,可以考慮把主資料庫從一台增加到兩台,作為互相關聯復制的二元主資料庫使用,確實這樣可以把每台主資料庫的負荷減少一半,但是更新處理會發生沖突,可能會造成數據的不一致,為了避免這樣的問題,需要把對每個表的請求分別分配給合適的主資料庫來處理。
第二,可以考慮把資料庫分割開來,分別放在不同的資料庫伺服器上,比如將不同的表放在不同的資料庫伺服器上,資料庫分割可以減少每台資料庫伺服器上的數據量,以便減少硬碟IO的輸入、輸出處理,實現內存上的高速處理。但是由於分別存儲字不同伺服器上的表之間無法進行Join處理,資料庫分割的時候就需要預先考慮這些問題,資料庫分割之後,如果一定要進行Join處理,就必須要在程序中進行關聯,這是非常困難的。
--為有數據更新的表做索引或表結構變更
在使用關系型資料庫時,為了加快查詢速度需要創建索引,為了增加必要的欄位就一定要改變表結構,為了進行這些處理,需要對表進行共享鎖定,這期間數據變更、更新、插入、刪除等都是無法進行的。如果需要進行一些耗時操作,例如為數據量比較大的表創建索引或是變更其表結構,就需要特別注意,長時間內數據可能無法進行更新。
--欄位不固定時的應用
如果欄位不固定,利用關系型資料庫也是比較困難的,有人會說,需要的時候加個欄位就可以了,這樣的方法也不是不可以,但在實際運用中每次都進行反復的表結構變更是非常痛苦的。你也可以預先設定大量的預備欄位,但這樣的話,時間一長很容易弄不清除欄位和數據的對應狀態,即哪個欄位保存有哪些數據。
--對簡單查詢需要快速返回結果的處理 (這里的「簡單」指的是沒有復雜的查詢條件)
這一點稱不上是缺點,但不管怎樣,關系型資料庫並不擅長對簡單的查詢快速返回結果,因為關系型資料庫是使用專門的sql語言進行數據讀取的,它需要對sql與越南進行解析,同時還有對表的鎖定和解鎖等這樣的額外開銷,這里並不是說關系型資料庫的速度太慢,而只是想告訴大家若希望對簡單查詢進行高速處理,則沒有必要非使用關系型資料庫不可。
NoSQL資料庫
關系型資料庫應用廣泛,能進行事務處理和表連接等復雜查詢。相對地,NoSQL資料庫只應用在特定領域,基本上不進行復雜的處理,但它恰恰彌補了之前所列舉的關系型資料庫的不足之處。
優點:
易於數據的分散
各個數據之間存在關聯是關系型資料庫得名的主要原因,為了進行join處理,關系型資料庫不得不把數據存儲在同一個伺服器內,這不利於數據的分散,這也是關系型資料庫並不擅長大數據量的寫入處理的原因。相反NoSQL資料庫原本就不支持Join處理,各個數據都是獨立設計的,很容易把數據分散在多個伺服器上,故減少了每個伺服器上的數據量,即使要處理大量數據的寫入,也變得更加容易,數據的讀入操作當然也同樣容易。
典型的NoSQL資料庫
臨時性鍵值存儲(memcached、Redis)、永久性鍵值存儲(ROMA、Redis)、面向文檔的資料庫(MongoDB、CouchDB)、面向列的資料庫(Cassandra、HBase)
一、 鍵值存儲
它的數據是以鍵值的形式存儲的,雖然它的速度非常快,但基本上只能通過鍵的完全一致查詢獲取數據,根據數據的保存方式可以分為臨時性、永久性和兩者兼具 三種。
(1)臨時性
所謂臨時性就是數據有可能丟失,memcached把所有數據都保存在內存中,這樣保存和讀取的速度非常快,但是當memcached停止時,數據就不存在了。由於數據保存在內存中,所以無法操作超出內存容量的數據,舊數據會丟失。總結來說:
。在內存中保存數據
。可以進行非常快速的保存和讀取處理
。數據有可能丟失
(2)永久性
所謂永久性就是數據不會丟失,這里的鍵值存儲是把數據保存在硬碟上,與臨時性比起來,由於必然要發生對硬碟的IO操作,所以性能上還是有差距的,但數據不會丟失是它最大的優勢。總結來說:
。在硬碟上保存數據
。可以進行非常快速的保存和讀取處理(但無法與memcached相比)
。數據不會丟失
(3) 兩者兼備
Redis屬於這種類型。Redis有些特殊,臨時性和永久性兼具。Redis首先把數據保存在內存中,在滿足特定條件(默認是15分鍾一次以上,5分鍾內10個以上,1分鍾內10000個以上的鍵發生變更)的時候將數據寫入到硬碟中,這樣既確保了內存中數據的處理速度,又可以通過寫入硬碟來保證數據的永久性,這種類型的資料庫特別適合處理數組類型的數據。總結來說:
。同時在內存和硬碟上保存數據
。可以進行非常快速的保存和讀取處理
。保存在硬碟上的數據不會消失(可以恢復)
。適合於處理數組類型的數據
二、面向文檔的資料庫
MongoDB、CouchDB屬於這種類型,它們屬於NoSQL資料庫,但與鍵值存儲相異。
(1)不定義表結構
即使不定義表結構,也可以像定義了表結構一樣使用,還省去了變更表結構的麻煩。
(2)可以使用復雜的查詢條件
跟鍵值存儲不同的是,面向文檔的資料庫可以通過復雜的查詢條件來獲取數據,雖然不具備事務處理和Join這些關系型資料庫所具有的處理能力,但初次以外的其他處理基本上都能實現。
三、面向列的資料庫
Cassandra、HBae、HyperTable屬於這種類型,由於近年來數據量出現爆發性增長,這種類型的NoSQL資料庫尤其引入注目。
普通的關系型資料庫都是以行為單位來存儲數據的,擅長以行為單位的讀入處理,比如特定條件數據的獲取。因此,關系型資料庫也被成為面向行的資料庫。相反,面向列的資料庫是以列為單位來存儲數據的,擅長以列為單位讀入數據。
面向列的資料庫具有搞擴展性,即使數據增加也不會降低相應的處理速度(特別是寫入速度),所以它主要應用於需要處理大量數據的情況。另外,把它作為批處理程序的存儲器來對大量數據進行更新也是非常有用的。但由於面向列的資料庫跟現行資料庫存儲的思維方式有很大不同,故應用起來十分困難。
總結:關系型資料庫與NoSQL資料庫並非對立而是互補的關系,即通常情況下使用關系型資料庫,在適合使用NoSQL的時候使用NoSQL資料庫,讓NoSQL資料庫對關系型資料庫的不足進行彌補。
I. 四大行、城商行等銀行都在使用什麼資料庫
使用的資料庫類型較多,既有傳統的商用資料庫,包括 DB2、Oracle 、SQL Server 等,又有開源資料庫如 MySQL 等 ; 既有關系型資料庫,又有非結構化的比如 Hadoop、Spark 平台,還有基於 Redis 的分布式緩存平台用於關系型資料庫補充。
J. 什麼叫做「面向對象」資料庫
面向對象的資料庫是一種資料庫的模式
資料庫中的表,欄位和內容都當成對象來處理
換言之,可以使用對象的屬性和方法。
相當於 把資料庫的裡面的欄位值 在java中採用啦po的值去表示。