1. ceph:rados淺析
在傳統分布式存儲架構中,存儲節點往往僅作為被動查詢對象來使用,隨著存儲規模的增加,數據一致性的管理會出現很多問題。
而新型的存儲架構傾向於將基本的塊分配決策和安全保證等操作交給存儲節點來做,然後通過提倡客戶端和存儲節點直接交互來簡化數據布局並減小io瓶頸。
RADOS就是這樣一個可用於PB級規模數據存儲集群的可伸縮的、可靠的對象存儲服務。它包含兩類節點:存儲節點、管理節點。它通過利用存儲設備的智能性,將諸如一致性數據訪問、冗餘存儲、錯誤檢測、錯誤恢復分布到包含了上千存儲節點的集群中,而不是僅僅依靠少數管理節點來處理。
RADOS中的存儲節點被稱為OSD(object storage device),它可以僅由很普通的組件來構成,只需要包含CPU、網卡、本地緩存和一個磁碟或者RAID,並將傳統的塊存儲方式替換成面向對象的存儲。
在PB級的存儲規模下,存儲系統一定是動態的:系統會隨著新設備的部署和舊設備的淘汰而增長或收縮,系統內的設備會持續地崩潰和恢復,大量的數據被創建或者刪除。RADOS通過 cluster map來實現這些,cluster map會被復制到集群中的所有部分(存儲節點、控制節點,甚至是客戶端),並且通過怠惰地傳播小增量更新而更新。cluster map中存儲了整個集群的數據的分布以及成員。
通過在每個存儲節點存儲完整的cluster map,存儲設備可以表現的半自動化,通過peer-to-peer的方式(比如定義協議)來進行數據備份、更新,錯誤檢測、數據遷移等等操作。這無疑減輕了佔少數的monitor cluster(管理節點組成的集群)的負擔。
一個RADOS系統包含大量的OSDs 和 很少的用於管理OSD集群成員的monitors。OSD的組成如簡介所說。而monitor是一些獨立的進程,以及少量的本地存儲,monitor之間通過一致性演算法保證數據的一致性。
存儲節點集群通過monitor集群操作cluster map來實現成員的管理。cluster map 描述了哪些OSD被包含進存儲集群以及所有數據在存儲集群中的分布。
cluster map不僅存儲在monitor節點,它被復制到集群中的每一個存儲節點,以及和集群交互的client。
當因為一些原因,比如設備崩潰、數據遷移等,cluster map的內容需要改變時,cluster map的版本號被增加,map的版本號可以使通信的雙方確認自己的map是否是最新的,版本舊的一方會先將map更新成對方的map,然後才會進行後續操作。
首先,如下圖,總體說下RADOS的存儲層次,RADOS中基本的存儲單位是對象,一般為2MB或4MB,當一個文件要存入RADOS時,首先會被切分成大小固定的對象(最後一個對象大小可能不同),然後將對象分配到一個PG(Placement Group)中,然後PG會復制幾份,偽隨機地派給不同的存儲節點。當新的存儲節點被加入集群,會在已有數據中隨機抽取一部分數據遷移到新節點。這種概率平衡的分布方式可以保證設備在潛在的高負載下正常工作。更重要的是,數據的分布過程僅需要做幾次隨機映射,不需要大型的集中式分配表。
對於每個層次的詳細說明:
2.Object—— RADOS的基本存儲單元。Object與上面提到的file的區別是,object的最大size由RADOS限定(通常為2MB或4MB),以便實現底層存儲的組織管理。因此,當上層應用向RADOS存入size很大的file時,需要將file切分成統一大小的一系列object(最後一個的大小可以不同)進行存儲。
各層次之間的映射關系:
前面的介紹中已經提到,由若干個monitor共同負責整個RADOS集群中所有OSD狀態的發現與記錄,並且共同形成cluster map的master版本,然後擴散至全體OSD以及client。OSD使用cluster map進行數據的維護,而client使用cluster map進行數據的定址。
monitor並不主動輪詢各個OSD的當前狀態。相反,OSD需要向monitor上報狀態信息。常見的上報有兩種情況:一是新的OSD被加入集群,二是某個OSD發現自身或者其他OSD發生異常。在收到這些上報信息後,monitor將更新cluster map信息並加以擴散。其細節將在下文中加以介紹。
Cluster map的實際內容包括:
(1) Epoch,即版本號。cluster map的epoch是一個單調遞增序列。epoch越大,則cluster map版本越新。因此,持有不同版本cluster map的OSD或client可以簡單地通過比較epoch決定應該遵從誰手中的版本。而monitor手中必定有epoch最大、版本最新的cluster map。當任意兩方在通信時發現彼此epoch值不同時,將默認先將cluster map同步至高版本一方的狀態,再進行後續操作。
(2)各個OSD的網路地址。
(3)各個OSD的狀態。OSD狀態的描述分為兩個維度:up或者down(表明OSD是否正常工作),in或者out(表明OSD是否在至少一個PG中)。因此,對於任意一個OSD,共有四種可能的狀態:
(4)CRUSH演算法配置參數。表明了Ceph集群的物理層級關系(cluster hierarchy),位置映射規則(placement rules)。
根據cluster map的定義可以看出,其版本變化通常只會由(3)和(4)兩項信息的變化觸發。而這兩者相比,(3)發生變化的概率更高一些。這可以通過下面對OSD工作狀態變化過程的介紹加以反映。
一個新的OSD上線後,首先根據配置信息與monitor通信。Monitor將其加入cluster map,並設置為up且out狀態,再將最新版本的cluster map發給這個新OSD。
收到monitor發來的cluster map之後,這個新OSD計算出自己所承載的PG(為簡化討論,此處我們假定這個新的OSD開始只承載一個PG),以及和自己承載同一個PG的其他OSD。然後,新OSD將與這些OSD取得聯系。如果這個PG目前處於降級狀態(即承載該PG的OSD個數少於正常值,如正常應該是3個,此時只有2個或1個。這種情況通常是OSD故障所致),則其他OSD將把這個PG內的所有對象和元數據復制給新OSD。數據復制完成後,新OSD被置為up且in狀態。而cluster map內容也將據此更新。這事實上是一個自動化的failure recovery過程。當然,即便沒有新的OSD加入,降級的PG也將計算出其他OSD實現failure recovery。
如果該PG目前一切正常,則這個新OSD將替換掉現有OSD中的一個(PG內將重新選出Primary OSD),並承擔其數據。在數據復制完成後,新OSD被置為up且in狀態,而被替換的OSD將退出該PG(但狀態通常仍然為up且in,因為還要承載其他PG)。而cluster map內容也將據此更新。這事實上是一個自動化的數據re-balancing過程。
如果一個OSD發現和自己共同承載一個PG的另一個OSD無法聯通,則會將這一情況上報monitor。此外,如果一個OSD deamon發現自身工作狀態異常,也將把異常情況主動上報給monitor。在上述情況下,monitor將把出現問題的OSD的狀態設為down且in。如果超過某一預訂時間期限,該OSD仍然無法恢復正常,則其狀態將被設置為down且out。反之,如果該OSD能夠恢復正常,則其狀態會恢復為up且in。在上述這些狀態變化發生之後,monitor都將更新cluster map並進行擴散。這事實上是自動化的failure detection過程。
對於一個RADOS集群而言,即便由數千個甚至更多OSD組成,cluster map的數據結構大小也並不驚人。同時,cluster map的狀態更新並不會頻繁發生。即便如此,Ceph依然對cluster map信息的擴散機制進行了優化,以便減輕相關計算和通信壓力:
基於上述機制,Ceph避免了由於cluster map版本更新而引起的廣播風暴。這雖然是一種非同步且lazy的機制,但根據論文中的結論,對於一個由n個OSD組成的Ceph集群,任何一次版本更新能夠在O(log(n))時間復雜度內擴散到集群中的任何一個OSD上。
一個可能被問到的問題是:既然這是一種非同步和lazy的擴散機制,則在版本擴散過程中,系統必定出現各個OSD看到的cluster map不一致的情況,這是否會導致問題?答案是:不會。事實上,如果一個client和它要訪問的PG內部的各個OSD看到的cluster map狀態一致,則訪問操作就可以正確進行。而如果這個client或者PG中的某個OSD和其他幾方的cluster map不一致,則根據Ceph的機制設計,這幾方將首先同步cluster map至最新狀態,並進行必要的數據re-balancing操作,然後即可繼續正常訪問。
2. 存儲虛擬化是什麼集群存儲又是什麼
存儲虛擬化廣義上來說,就是通過映射或抽象的方式屏蔽物理設備復雜性,增加一個管理層面,激活一種資源並使之更易於透明控制。
存儲虛擬化(Storage Virtualization)最通俗的理解就是對存儲硬體資源進行抽象化表現。通過將一個(或多個)目標(Target)服務或功能與其它附加的功能集成,統一提供有用的全面功能服務。
集群存儲是指:由若干個「通用存儲設備」組成的用於存儲的集群,組成集群存儲的每個存儲系統的性能和容量均可通過「集群」的方式得以疊加和擴展。
3. 雲存儲是什麼
雲存儲是指通過集群應用、網格技術或分布式文件系統等功能,將網路中大量各種不同類型的存儲設備通過應用軟體集合起來協同工作,共同對外提供數據存儲和業務訪問功能的一個系統。
在雲計算的基礎上發展出了雲存儲,雲存儲實際上是雲計算中有關數據存儲、歸檔、備份的一個部分,是一種創新服務。
在雲存儲服務構建方面,它是通過分布式、虛擬化、智能配置等技術,實現海量、可彈性擴展、低成本、低能耗的共享存儲資源。
雲存儲的特點
1、超大規模,支持海量數據存儲;
2、高可擴展性,能夠隨時在線升級雲存儲空間容量;
3、高可用性和可靠性,當出現數據丟失時,能夠通過副本快速恢復;
4、安全,雲存儲通過用戶鑒權、訪問許可權控制等方式保障數據安全;
5、透明服務,擁有統一的介面,當節點發生變化時,用戶能夠隨時了解情況;
6、自動容錯,能夠自動處理節點故障,保障長時間正常運作;
7、低成本,使用雲存儲能夠減少電源消耗,從而有效降低能源成本。
4. isilon 集群存儲採用什麼文件系統
集群文件系統的選擇有很多種,但是要想把每種系統的優劣性能都弄清楚,是需要花費不少時間和精力的。我們在此為大家介紹一些常用的集群文件系統,讓讀者朋友對此有一個了解,在選擇上有一個參考。 集群文件系統基礎架構有些讀者也許希望裝配一組可以並行訪問同一個文件系統的伺服器,而另一些讀者可能想復制存儲器並提供並行訪問和冗餘。有兩種方法可以實現多伺服器訪問同一個磁碟,一種方法是讓那些伺服器都可以看到那個磁碟,另一種方法則是通過復制。 共享磁碟結構在光纖通道SAN和iSCSI領域是最常見的結構。配置存儲系統相當簡單,這樣多個伺服器就可以看到同一個邏輯塊設備或LUN,但是如果沒有群集文件系統,那麼當多個伺服器同時想使用那個邏輯塊設備時就會出現混亂。 這個問題與使用群集文件系統有關,我們將在下文中詳細介紹。 一般而言,共享磁碟系統有個弱點,那就是存儲系統。但是情況也並非總是如此,因為利用現在的技術是很難理解共享盤的概念的。 SAN、NAS設備和基於Linux系統的商品硬體可以將所有的基礎磁碟實時復制到另一個存儲節點,從而提供一個模擬共享盤環境。基礎模塊設備被復制之後,那些節點就可以訪問相同的數據,也可以運行同一個群集文件系統了,但是這種復制超出了傳統共享盤的定義。 相反,不共享才是共享盤的問題所在。連接著不同存儲設備的節點會在每個模塊被寫入數據時將變化通知給主伺服器。 現在,不共享架構仍存在於Hadoop那樣的文件系統之中,那些文件系統可以在許多節點故意建立多個數據副本,從而提高性能和冗餘。而且,在不同存儲設備或節點之間利用自己的存儲設備進行復制的群集也可以做到不共享。 集群文件系統設計選擇正如我們所說的,你不能通過多個伺服器訪問同一個模塊設備。你聽說過文件系統鎖定,因此普通的文件系統並不能實現這一點就有些奇怪了。 在文件系統級別上,文件系統本身會將文件鎖定以保證數據不會出錯。但是在操作系統級別上,文件系統啟動程序完全可以訪問基礎模塊設備,它們可以在基層模塊設備之間自由的漫遊。大部分文件系統都會認為它們被分配了一個模塊設備,而且那個模塊設備也只是它們自己所有。 為了解決這個問題,集群文件系統採用了一種並行控制機制。有些集群文件系統將把元數據保存在共享設備的一個分區里,另一些集群文件系統則會使用集中式元數據伺服器來保存元數據。 不管採用哪種方案,集群中的所有節點都可以看到文件系統的狀態,從而保證安全的並行訪問。然而,如果你想保證系統的高利用率和消除單點故障問題,那麼採用集中式元數據伺服器的解決方案就要略遜一籌了。 另一個注意事項:集群文件系統要求在節點發生故障時迅速做出反應。如果某個節點寫入錯誤數據或由於某種原因停止關於元數據變化的通信,其他節點必須能夠將它隔離出去。隔離可以通過多種方式來實現,最常用的方法是利用斷電管理來實現。健康的節點可以在發現問題時第一時間關閉另一個節點電源(STONITH)以保全數據。集群文件系統詞典GFS:全局文件系統 GFS是應用最廣泛的集群文件系統。它是由紅帽公司開發出來的,允許所有集群節點並行訪問。元數據通常會保存在共享存儲設備或復制存儲設備的一個分區里。 OCFS:甲骨文集群文件系統 從概念上來說,OCFS與GFS非常相似,現在OCFS 2已經被應用於Linux系統之中。 VMFS:VMware的虛擬計算機文件系統 VMFS是ESX伺服器用來允許多個伺服器訪問同一個共享存儲設備的集群文件系統。這樣就可以實現虛擬機在不同伺服器之間的無縫遷移,因為源伺服器和目標伺服器都可以訪問同一個存儲設備。日誌是分布式的,ESX伺服器之間也不會出現單節點故障。 Lustre:Sun的集群分布式文件系統。 Lustre是專門用於包含數千個節點的大型集群的分布式文件系統。Lustre已經支持Linux系統,但是高速計算環境之外的應用程序是有限的。 Hadoop:一個象谷歌那樣使用的分布式文件系統。 這不是一個集群文件系統,但是卻是一個分布式文件系統。我們將Hadoop收錄進來是因為它的應用越來越廣泛,而且利用Hadoop的存儲架構設計決策的組合很多。但是默認配置下,你會在3個不同的節點上擁有3個數據副本。一旦數據發生變化,每個數據副本都會更新,因此,從某種意義上來說,它也可以被看做是集群文件系統。然而,Hadoop存在一個故障點隱患,即跟蹤記錄所有文件系統級數據的命名節點。 做出最好選擇有太多選擇並不是壞事。你可以根據執行目標選擇使用合適的集群文件系統以及存儲架構。 只要有計劃地使用,所有這些文件系統都可以發揮出應有的作用。
,
5. 什麼是集群存儲
雲存儲是在雲計算(cloud computing)概念上延伸和發展出來的一個新的概念,是指通過集
群應用、網格技術或分布式文機房集中監控系統件系統等功能,將網路中大量各種不同類
型的存儲設備通過應用軟體集合起來協同工作,共同對外提供數據存儲和業務訪問功能的
一個系統。當雲計算系統運算和處理的核心是大量數據的存儲和管理時,雲計算系統中就
需要配置大量的存儲設備,那麼雲計算系統就轉變成為一個雲存儲系統,所以雲存儲是一
個以數據存儲和管理為核心的雲計算系統。他們基於虛擬化技術和集群架構,具有強大的
橫向擴展能力。雲存儲設備橫向擴展的方式讓存儲系統具有了無限擴展的能力,它能夠實
現控制器與硬碟的同時擴展,也就是性能與容量可以同時實現線性擴展。
集群存儲是通過將數據分布到集群中各節點的存儲方式,提供單一的使用介面與界面,使
用戶可以方便地對所有數據進行統一使用與管理。集群中所有磁碟設備整合到單一的共享
存儲池中提供給前端的應用伺服器,極大提高了磁碟利用率,可以為非結構化數據提供具
備極高IO帶寬和靈活可擴展性的存儲解決方案。
6. 快速了解集群和雙機熱備相關知識
簡單的說,集群(cluster)就是一組計算機,它們作為一個整體向用戶提供一組網路資源。這些單個的計算機系統就是集群的節點(node)。一個理想的集群是,用戶從來不會意識到集群系統底層的節點,在他/她們看來,集群是一個系統,而非多個計算機系統。並且集群系統的管理員可以隨意增加和刪改集群系統的節點。 高可用集群不是用來保護業務數據的,保護的是用戶的業務程序對外不間斷提供服務,把因軟體/硬體/人為造成的故障對業務的影響降低到最小程度。 什麼是雙機熱備 所謂雙機熱備,其實可以認為是集群的最小組成單位,就是將中心伺服器安裝成互為備份的兩台伺服器,並且在同一時間內只有一台伺服器運行。當其中運行著的一台伺服器出現故障無法啟動時,另一台備份伺服器會迅速的自動啟動並運行(一般為 為數分鍾左右),從而保證整個網路系統的正常運行!雙機熱備的工作機制實際上是為整個網路系統的中心伺服器提供了一種故障自動恢復能力。 您為什麼需要集群 隨著全球經濟的增長,世界各地各種各樣的組織對IT系統的依賴都在不斷增加,電子貿易使得商務一周七天24小時不間斷的進行成為了可能。新的強大的應用程序使得商業和社會機構對日常操作的計算機化要求達到了空前的程度,趨勢非常明顯,我們無時無刻不依賴於穩定的計算機系統。 這種需求極速的增長,使得對系統可用性的要求變得非常重要,許多公司和組織的業務在很大程度上都依賴於計算機系統,任何的宕機都會造成嚴重的損失,關鍵IT系統的故障可能很快造成整個商業運作的癱瘓,每一分鍾的宕機都意味著收入、生產和利潤的損失,甚至於市場地位的削弱。高可用集群的實現模式 集群中節點可以以不同的方式來運行,這要看它們是如何設置的。在一個理想的兩個節點的集群中,兩個伺服器都同時處於活動狀態,也就是在兩個節點上同時運行應用程序,當一個節點出現故障時,運行在出故障的節點上的應用程序就會轉移到另外的沒有出現故障的伺服器上,這樣一來,由於兩個節點的工作現在由一個伺服器來承擔,自然會影響伺服器的性能。 針對這種情況的解決方案是,在正常操作時,另一個節點處於備用狀態,只有當活動的節點出現故障時該備用節點才會接管工作,但這並不是一個很經濟的方案,因為你不得不買兩個伺服器來做一個伺服器的工作。雖然當出現故障時不會對性能產生任何影響,但是在正常運行時的性能價格比並不太好。 從上面的工作方式出發,我們可以把集群分為下面幾種(特別是兩節點的集群) 主/主 (Active/active) 這是最常用的集群模型,它提供了高可用性,並且在只有一個節點在線時提供可以接受的性能,該模型允許最大程度的利用硬體資源。每個節點都通過網路對客戶機提供資源,每個節點的容量被定義好,使得性能達到最優,並且每個節點都可以在故障轉移時臨時接管另一個節點的工作。所有的服務在故障轉移後仍保持可用,但是性能通常都會下降。 主/從(Active/passive) 為了提供最大的可用性,以及對性能最小的影響,Active/passive模型需要一個在正常工作時處於備用狀態,主節點處理客戶機的請求,而備用節點處於空閑狀態,當主節點出現故障時,備用節點會接管主節點的工作,繼續為客戶機提供服務,並且不會有任何性能上影響。 混合型(Hybrid) 混合是上面兩種模型的結合,只針對關鍵應用進行故障轉移,這樣可以對這些應用實現可用性的同時讓非關鍵的應用在正常運作時也可以在伺服器上運行。當出現故障時,出現故障的伺服器上的不太關鍵的應用就不可用了,但是那些關鍵應用會轉移到另一個可用的節點上,從而達到性能和容錯兩方面的平衡。 傳統雙機熱備的發展方向 由於用戶核心業務越來越多,有不停機需求的應用也越來越密集,用戶的網路及存儲環境從普通的電纜及直聯式存儲升級到光纖及SAN或ISCSI環境,使得原本可以使用雙機熱備方案滿足的高可用應用開始力不從心, 用戶紛紛尋求新的解決方案,能夠兼容原有雙機熱備系統,又有很強大擴展能力的高可用集群方案逐漸成為了用戶的首選,集群系統可以利用最新的SAN及ISCSI鏈路,形成多個可用點的核心系統,而且可以方便的增減節點,帶來很強的擴展性。用戶對核心系統的調配更加靈活,統一管理,減少投資,而且可以使用更多的策略保障最為關鍵的應用,甚至可以實現遠距離的集群系統,令整個關鍵系統具有很強的容災能力。因此,多節點高可用集群將成為雙機熱備用戶的未來潛在選擇。 它們都是為實現系統的高可用性服務的,都解決了一台伺服器出現故障時,由其他伺服器接管應用,從而持續可靠地提供服務的問題。 它們都是通過心跳技術在進行系統檢測,一些比較高端的集群軟體擁有多種檢測鏈路,如比較高端的MLDC集群檢測系統。 但是,雙機軟體只能支持兩台伺服器以主從方式或互備方式工作。而集群軟體除了支持雙機工作外,還可以支持多台伺服器(Multi Node)工作,同時部署多個應用,並在多個伺服器間靈活地設置接管策略。 在兩種情況下需要使用集群軟體:一是有超過兩個應用,本身就需要部署三台或更多的伺服器。二是只有兩個應用,但每個應用的負載均較大,不宜採用雙機互備的方式,而是需要由第三台伺服器來作為這兩個應用的備機。 一般地講,集群軟體具有更多的技術含量,具備更高的可靠性。同時,往往價格(平均到每台伺服器)也高於雙機軟體。 在選擇產品時,應根據應用的實際情況來確定。最理想的方式,則是在應用數量少、負載不是很大時先使用雙機軟體,然後在應用數量增多、負載增大時平滑過渡到集群軟體。 集群軟體一定需要配合磁碟陣列櫃才能正常運行嗎 並非所有集群都需要使用共享的存儲系統(如陣列櫃),純軟技術(鏡像技術)的出現和發展,使得集群系統必須擁有一致的數據源的問題有了另外一種實現方式。 目前聯鼎集群系統擁有有兩種典型的運行方式,一種是比較標準的,數台伺服器通過一個共享的存儲設備(一般是共享的磁碟陣列或存儲區域網SAN),並且安裝集群軟體,實現高可用集群,稱為共享方式。另一種方式是通過純軟體(如聯鼎LanderSync軟體)的方式,一般稱為純軟體方式或鏡像方式(Mirror)。 對於共享方式,資料庫放在共享的存儲設備上。當一台伺服器提供服務時,直接在存儲設備上進行讀寫。而當系統切換後,另一台伺服器也同樣讀取該存儲設備上的數據,這種方式由於數據的一致性由共享存儲設備來保障,不佔用系統資源,而且沒有數據傳輸的延遲,因此是中高端用戶,及擁有大量關鍵數據的用戶的首選方案。 對於純軟體的方式,通過鏡像軟體,將數據可以實時復制到另一台伺服器上,這樣同樣的數據就在兩台伺服器上各存在一份,如果一台伺服器出現故障,可以及時切換到另一台伺服器。 由於可以節省共享存儲硬體部分的大量投資,純軟體方式可以在一定程度上降低成本,並且由於在多個地方擁有數據的副本,數據的可靠性反而有所加強,另外由於脫離了直聯存儲的模式而使用TCP/IP協議,使得純軟雙機在理論上能夠實現遠程容災。 但是純軟方式也有一些不足: 1.需要佔用部分系統資源,需要佔用部分網路資源。 2.大數據量環境初始鏡像時間較長,對於較大的並且變化頻繁的數據,可能會存在傳輸延遲現象 因此,在選擇使用何種集群方式之前,需要對用戶的應用進行一定的評估,選擇最理想的解決方案。
7. 什麼是雲存儲你如何看待雲存儲
雲存儲的幾十年發展歷程,其計算架構模型,也從Scale Up走向Scale Out。但是展望未來數字世界的海量需求,目前流行的模型還能夠持續滿足嗎?本文通過對雲存儲 歷史 的回顧,及對Scale Up和Scale Out兩種擴展模型的詮釋,來揭開雲存儲的未來模式。
1. 雲存儲及其 歷史
簡而言之,雲存儲(cloud storage)就是將數字內容安全的存儲在伺服器上,從而任何連接互聯網的設備可以方便的獲取。首先讓我們簡單回顧一下雲存儲的 歷史 。
雲存儲的早期雛形要回溯到上個世紀的90年代,也就是互聯網泡沫時期(dot-com boom),當時有許多家公司,例如EVault, NetMass, Arkeia和CommVault等等[1]均提供在線數據備份服務,當然它們絕大部分也隨著互聯網泡沫的破碎而煙消雲散了。少數倖存下來的有一家叫Veritas NetBackup最後也被Symantec收購,現在依舊提供Symantec NetBackup的在線存儲服務。
而真正讓大家耳熟能詳的雲存儲是2006年由Amazon提供的AWS S3雲存儲服務,其最具有革命意義的變革是,提出了即買即用(pay-per-use)的價格模型,使得雲存儲的使用像水電一樣可計算衡量。從此雲存儲以S3為標准一路絕塵,我們所熟悉的大廠,比如Netflix, Pinterest, Dropbox也是S3的顧客。尾隨的Microsoft和Google也於2010年分別發布了類似的Azure Blob Storage和Google Storage的存儲服務。
雲存儲真正發展的十幾年中,見證了移動互聯網的崛起,大數據的生機勃發,人工智慧的再次復興,並能夠展望到未來物聯網,無人駕駛及各類機器人自動化的世界。海量數據的產生,存儲,分析,預測及應用,快速以正反饋循環方式,推進著人類 社會 向數字世界大步邁進。所以,為了適應數據存儲新的需求,各家雲存儲產品的應用場景及價格模型,已從單一向多元發展,比如AWS S3就有Standard,Intelligent-Tiering, Standard-IA,One Zone-IA,Glacier和Glacier Deep Archive六類存儲產品來滿足各類使用場景,我會在未來的文章里針對性的細講一下。而本文重點所探討的是,目前雲存儲的基礎架構體系是否能夠適應未來數據存儲的要求和挑戰?為了回答這個問題,讓我們先簡單回顧一下計算機體系架構里的Scale Up和Scale Out擴展模型。
2. Scale Up和Scale Out?
Scale Up又稱為垂直擴展(scale vertically)[2],意為在單節點上添加資源,如CPU,內存和存儲,在縱向上擴展從而獲得更多計算或存儲能力;Scale Up初期能夠快速達到升級目的,操作起來相對比較簡單,但隨著計算或存儲的要求越來越高,硬體資源的添加可能已經達到極限,不僅單節點的造價非常昂貴,維護成本很高,而且更容易留下單點故障的隱患。傳統的RAID(Rendant Array of Inexpensive Disks)存儲就是此種模式。
Scale Out又稱為水平擴展(scale horizontally)[2],意為在分布式環境下,通過添加節點計算或存儲資源,在橫向上滿足更多的計算存儲需求;隨著計算和存儲單位價格的降低和效率的提升,使用低端的商用(commodity)系統,利用分布式技術可以搭建起「超級計算」中心,以及後來衍生出來的私有或公有雲平台解決方案。雖然分布式系統會帶來一定程度上的軟體復雜度和管理困難,但由軟體定義的計算和存儲解決方案,能夠以較低的價格和較高的魯棒性,優雅的解決了海量增長的計算存儲需求,也是目前雲平台的主流技術。但它就一定能夠承載未來的更加海量的需求嗎?雲存儲的未來是什麼?方向是向左還是向右?
3. 未來向左還是向右?
話說天下大勢, 分久必合, 合久必分,事物發展的規律似乎從來就沒有什麼絕對。當下,雲平台內部似乎已完全是Scale Out模式了,但當我們把鏡頭再拉遠一點,從雲平台在全球部署的每一個可用區來看,整體上它又是一個Scale Up模型,不是嗎?單點投入巨大,耗費能源,使用成本高昂。而相反,隨著強大的計算,存儲和帶寬能力能夠進入尋常家庭、工作和生活等邊緣節點,資源閑置或者不均衡使用也變得越來越明顯。
那麼,是否能夠將這些邊緣節點的計算存儲能力結合起來,組成一個真正意義上的Scale Out平台,提供人們日益增長的計算存儲需求?
可否將浪費或者不對等的資源重新組合,提供一個更加節能環保的綠色Scale Out平台?
可否摒棄中心化的單點故障和數據安全隱患,真正做到廉價高效,零數據泄露的Scale Out平台?
答案是應該可以而且必須可以!
縱觀雲存儲平台的發展 歷史 ,從單節點的Scale Up模式走向可用區內部的Scale Out模式,又從內部的Scale Out模式走向整體上相對的Scale Up模式。而未來數字世界的海量計算和存儲需求的滿足,一定需要真正意義上的全球Scale Out模型,那就是把邊緣節點和半中心化節點高效且系統的組織起來,減少浪費,提高效率,節省成本,去除中心。將天空中幾塊為數不多的白雲,變成漫天遍布的朵朵白雲,讓人們自由定價、自由選擇、自由組合。
挑戰雖然巨大,但未來很美好,讓我們一起努力迎接雲存儲的明天!
[1]: History of Online Storage
[2]: Wiki Scalability
文章作者:Bruce Lee(http://PP.IO總架構師)
轉載請註明出處
如果有關於PPIO的交流,可以通過下面的方式聯系我:
加我微信,注意備注來源
wechat:omnigeeker
雲存儲服務平台,很精練吧
網路解釋:雲存儲是在雲計算(cloud computing)概念上延伸和發展出來的一個新的概念,是一種新興的網路存儲技術,是指通過集群應用、網路技術或分布式文件系統等功能,將網路中大量各種不同類型的存儲設備通過應用軟體集合起來協同工作,共同對外提供數據存儲和業務訪問功能的系統。
雲存儲可以簡單的理解為將數據保存在一個第三方空間,隨時取用和處理。雲存儲也可以說是一個以數據存儲和管理為核心的雲計算系統。雲存儲對用戶來講,不只是一個簡單的設備,而是整個雲存儲系統的一種數據訪問服務。
通過集群應用,網路技術等功能把網路中不同類型的存儲設備通過應用軟體集合起來工作。
雲儲存就是企業的公用空間(伺服器),定期有人維護不用自己操心不怕數據丟失,但是數據都會在企業無保密可言,
就是網上的存儲空間,不佔自身內存,要用時聯網下載
雲存儲是指通過集群應用、網格技術或分布式文件系統或類似網格計算等功能聯合起來協同工作,並通過一定的應用軟體或應用介面,對用戶提供一定類型的存儲服務和訪問服務。
雲存儲的優勢樓主有需要的話可以了解一下企業共享辦公系統,可支持手機端、雲端、公司伺服器存儲、為企業獨立搭建維護企業網盤,從而實現文件歸檔存儲、文檔管理、協同辦公等功能。
雲存儲就是將文件內存存儲在雲端的一種方式,不佔用自己本身電腦或者手機的內存,海量存儲輕松搞定,解決了很多的存儲難與存儲傳輸難的問題。
使用呆貓雲盤的幾大好處,企業存儲資產更安全:1、使用呆貓遠程桌面時可直接掛載雲盤,輕松上傳下載文件,支持在線修改文件。
2、項目資源統一集中管理,釋放本地存儲空間;支持彈性擴容,按需使用,降低本地硬體使用成本;
3、呆貓同一賬號內存儲互通,資源可異地共享,減少傳輸成本。
4、呆貓雲盤與渲雲網盤存儲互通,使用渲雲提交渲染任務時,內網同步,文件秒傳,節省傳輸時間。
5、支持高並發讀取資產文件,可同一賬號最多可支持上千台機器同時讀取雲盤文件,提高工作效率。
6、高性能存儲,百萬級IOPS,超高算力助力設計行業發展。
7、雲盤基於域控的安全策略,免受病毒攻擊;提供多副本可靠性機制,即使機器出現故障,也不會引起數據丟失。
把你需要存儲的數據放到網上,不佔用你自己設備的內存,當你需要使用時從網上下載。這之間會產生數據流量。
雲存儲其實我們都經歷過,2013年-2016年蓬勃發展,而後被玩壞的雲盤,就是典型代表,雖然我們控制權益不多,只能上傳下載,離線,共享,基本當作網路硬碟和交流工具使用,但卻解決了人們的燃眉之急。我們現在部分手機上還有雲端保存照片的功能。
實際的雲存儲並不是這么簡單,引用一下網路:
雲存儲是建立在雲計算的基礎上,為雲計算服務。對於我們似乎太深奧,但又息息相關,我們只需要知道它是好東西就行了。不單單能當作個人網路上的儲存空間。
8. 兩台windows2008 共同使用一個存儲,兩台windows2008同時使用一個各存儲設備 互相都可以使用 如何集群
數據塊級存儲一個邏輯卷同時只能給一台伺服器操作,不可能多伺服器同時進行數據塊級寫操作.所以理論上來說真正的雙機雙工是不可能實現的.現在很多集群軟體廠商提供的雙機雙工軟體只不過是用集群中的1台伺服器作為寫操作主伺服器,所有集群中伺服器想往存儲中寫數據表面上是直接寫入存儲,實際上是集中到那台主伺服器上,由主伺服器來完成的.這種雙機雙工有一定的優點,缺點同樣明顯.
如果需要這種雙機雙工,去找專業軟體廠商,可以咨詢一下Veritas經銷商,Rose和Lifekeeper應該是實現不了的,操作系統自帶的集群軟體你就別想了,沒法兒實現.
9. 大數據時代下的三種存儲架構
大數據時代下的三種存儲架構_數據分析師考試
大數據時代,移動互聯、社交網路、數據分析、雲服務等應用的迅速普及,對數據中心提出革命性的需求,存儲基礎架構已經成為IT核心之一。政府、軍隊軍工、科研院所、航空航天、大型商業連鎖、醫療、金融、新媒體、廣電等各個領域新興應用層出不窮。數據的價值日益凸顯,數據已經成為不可或缺的資產。作為數據載體和驅動力量,存儲系統成為大數據基礎架構中最為關鍵的核心。
傳統的數據中心無論是在性能、效率,還是在投資收益、安全,已經遠遠不能滿足新興應用的需求,數據中心業務急需新型大數據處理中心來支撐。除了傳統的高可靠、高冗餘、綠色節能之外,新型的大數據中心還需具備虛擬化、模塊化、彈性擴展、自動化等一系列特徵,才能滿足具備大數據特徵的應用需求。這些史無前例的需求,讓存儲系統的架構和功能都發生了前所未有的變化。
基於大數據應用需求,「應用定義存儲」概念被提出。存儲系統作為數據中心最核心的數據基礎,不再僅是傳統分散的、單一的底層設備。除了要具備高性能、高安全、高可靠等特徵之外,還要有虛擬化、並行分布、自動分層、彈性擴展、異構資源整合、全局緩存加速等多方面的特點,才能滿足具備大數據特徵的業務應用需求。
尤其在雲安防概念被熱炒的時代,隨著高清技術的普及,720P、1080P隨處可見,智能和高清的雙向需求、動輒500W、800W甚至上千萬更高解析度的攝像機面市,大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
目前市場上的存儲架構如下:
(1)基於嵌入式架構的存儲系統
節點NVR架構主要面向小型高清監控系統,高清前端數量一般在幾十路以內。系統建設中沒有大型的存儲監控中心機房,存儲容量相對較小,用戶體驗度、系統功能集成度要求較高。在市場應用層面,超市、店鋪、小型企業、政法行業中基本管理單元等應用較為廣泛。
(2)基於X86架構的存儲系統
平台SAN架構主要面向中大型高清監控系統,前端路數成百上千甚至上萬。一般多採用IPSAN或FCSAN搭建高清視頻存儲系統。作為監控平台的重要組成部分,前端監控數據通過錄像存儲管理模塊存儲到SAN中。
此種架構接入高清前端路數相對節點NVR有了較高提升,具備快捷便利的可擴展性,技術成熟。對於IPSAN而言,雖然在ISCSI環節數據並發讀寫傳輸速率有所消耗,但其憑借擴展性良好、硬體平台通用、海量數據可充分共享等優點,仍然得到很多客戶的青睞。FCSAN在行業用戶、封閉存儲系統中應用較多,比如縣級或地級市高清監控項目,大數據量的並發讀寫對千兆網路交換提出了較大的挑戰,但應用FCSAN構建相對獨立的存儲子系統,可以有效解決上述問題。
面對視頻監控系統大文件、隨機讀寫的特點,平台SAN架構系統不同存儲單元之間的數據共享冗餘方面還有待提高;從高性能伺服器轉發視頻數據到存儲空間的策略,從系統架構而言也增加了隱患故障點、ISCSI帶寬瓶頸導致無法充分利用硬體數據並發性能、接入前端數據較少。上述問題催生了平台NVR架構解決方案。
該方案在系統架構上省去了存儲伺服器,消除了上文提到的性能瓶頸和單點故障隱患。大幅度提高存儲系統的寫入和檢索速度;同時也徹底消除了傳統文件系統由於供電和網路的不穩定帶來的文件系統損壞等問題。
平台NVR中存儲的數據可同時供多個客戶端隨時查詢,點播,當用戶需要查看多個已保存的視頻監控數據時,可通過授權的視頻監控客戶端直接查詢並點播相應位置的視頻監控數據進行歷史圖像的查看。由於數據管理伺服器具有監控系統所有監控點的錄像文件的索引,因此通過平台CMS授權,視頻監控客戶端可以查詢並點播整個監控系統上所有監控點的數據,這個過程對用戶而言也是透明的。
(3)基於雲技術的存儲方案
當前,安防行業可謂「雲」山「物」罩。隨著視頻監控的高清化和網路化,存儲和管理的視頻數據量已有海量之勢,雲存儲技術是突破IP高清監控存儲瓶頸的重要手段。雲存儲作為一種服務,在未來安防監控行業有著客觀的應用前景。
與傳統存儲設備不同,雲存儲不僅是一個硬體,而是一個由網路設備、存儲設備、伺服器、軟體、接入網路、用戶訪問介面以及客戶端程序等多個部分構成的復雜系統。該系統以存儲設備為核心,通過應用層軟體對外提供數據存儲和業務服務。
一般分為存儲層、基礎管理層、應用介面層以及訪問層。存儲層是雲存儲系統的基礎,由存儲設備(滿足FC協議、iSCSI協議、NAS協議等)構成。基礎管理層是雲存儲系統的核心,其擔負著存儲設備間協同工作,數據加密,分發以及容災備份等工作。應用介面層是系統中根據用戶需求來開發的部分,根據不同的業務類型,可以開發出不同的應用服務介面。訪問層指授權用戶通過應用介面來登錄、享受雲服務。其主要優勢在於:硬體冗餘、節能環保、系統升級不會影響存儲服務、海量並行擴容、強大的負載均衡功能、統一管理、統一向外提供服務,管理效率高,雲存儲系統從系統架構、文件結構、高速緩存等方面入手,針對監控應用進行了優化設計。數據傳輸可採用流方式,底層採用突破傳統文件系統限制的流媒體數據結構,大幅提高了系統性能。
高清監控存儲是一種大碼流多並發寫為主的存儲應用,對性能、並發性和穩定性等方面有很高的要求。該存儲解決方案採用獨特的大緩存順序化演算法,把多路隨機並發訪問變為順序訪問,解決了硬碟磁頭因頻繁尋道而導致的性能迅速下降和硬碟壽命縮短的問題。
針對系統中會產生PB級海量監控數據,存儲設備的數量達數十台上百台,因此管理方式的科學高效顯得十分重要。雲存儲可提供基於集群管理技術的多設備集中管理工具,具有設備集中監控、集群管理、系統軟硬體運行狀態的監控、主動報警,圖像化系統檢測等功能。在海量視頻存儲檢索應用中,檢索性能尤為重要。傳統文件系統中,文件檢索採用的是「目錄-》子目錄-》文件-》定位」的檢索步驟,在海量數據的高清視頻監控,目錄和文件數量十分可觀,這種檢索模式的效率就會大打折扣。採用序號文件定位可以有效解決該問題。
雲存儲可以提供非常高的的系統冗餘和安全性。當在線存儲系統出現故障後,熱備機可以立即接替服務,當故障恢復時,服務和數據回遷;若故障機數據需要調用,可以將故障機的磁碟插入到冷備機中,實現所有數據的立即可用。
對於高清監控系統,隨著監控前端的增加和存儲時間的延長,擴展能力十分重要。市場中已有友商可提供單純針對容量的擴展櫃擴展模式和性能容量同步線性擴展的堆疊擴展模式。
雲存儲系統除上述優點之外,在平台對接整合、業務流程梳理、視頻數據智能分析深度挖掘及成本方面都將面臨挑戰。承建大型系統、構建雲存儲的商業模式也亟待創新。受限於寬頻網路、web2.0技術、應用存儲技術、文件系統、P2P、數據壓縮、CDN技術、虛擬化技術等的發展,未來雲存儲還有很長的路要走。
以上是小編為大家分享的關於大數據時代下的三種存儲架構的相關內容,更多信息可以關注環球青藤分享更多干貨
10. 伺服器集群算是雲存儲么
不算,伺服器集群是算本地資源。雲存儲是簡單的來說是由運營商交付的。是你看不到但是可以使用的。