當前位置:首頁 » 服務存儲 » 分布式存儲鏈路自適應
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

分布式存儲鏈路自適應

發布時間: 2022-11-26 02:42:55

『壹』 分布式儲能技術優勢是什麼

分布式存儲,無疑是雲計算時代最受關注的一門技術。

到底什麼是分布式存儲?

簡單來說,人多力量大,利用多個存儲伺服器構建存儲池,滿足互聯網時代越來越多的存儲需求。

互聯網行業的發展,數據成指數級增長,人們對存儲的需求越來越大,採用集中式的存儲成為數據中心系統的瓶頸,不能滿足大規模存儲應用的需要。

受益於伺服器技術的發展和成熟,與標准伺服器的分布式存儲開始出現,分布式存儲開始被廣泛的應用起來。

分布式存儲就是將數據分散存儲到多個存儲伺服器上,並將這些分散的存儲資源構成一個虛擬的存儲設備,實際上數據分散的存儲在企業的各個角落。分布式存儲的好處是提高了系統的可靠性、可用性和存取效率,還易於擴展。

1、易於擴展

得益於合理的分布式架構,分布式存儲可預估並且彈性擴展計算、存儲容量和性能。

2、高性能

一個具有高性能的分布式存儲通常能夠高效地管理讀緩存和寫緩存,並且支持自動的分級存儲。

3、支持分級存儲

由於通過網路進行松耦合鏈接,分布式存儲允許高速存儲和低速存儲分開部署,或者任意比例混布。

4、多副本一致性

與傳統的存儲架構使用RAID模式來保證數據的可靠性不同,分布式存儲採用了多副本備份機制,最小化對業務的影響。

5、存儲系統標准化

隨著分布式存儲的發展,存儲行業的標准化進程也不斷推進,分布式存儲優先採用行業標准介面(SMI-S或OpenStackCinder)進行存儲接入,用戶可以實現跨不同品牌、介質地實現容災,從側面降低了存儲采購和管理成本。

▉最後總結

分布式存儲是一個大的概念,其包含的種類繁多,除了傳統意義上的分布式文件系統、分布式塊存儲和分布式對象存儲外,還包括分布式資料庫和分布式緩存等。

『貳』 2、路由選擇演算法主要分哪幾類分布式自適應演算法的基本思想是什麼

路由選擇演算法主要分兩類:靜態路由選擇演算法和動態路由選擇演算法
分布自適應路由選擇演算法的網路,所有節點定其地與其每個相鄰節點交換路由選擇信息。每個節點均存儲一張以網路中其它每個節點為索引的路由選擇表,網路中每個節點佔用表中一項,每一項又分為兩個部分,即所希望使用的到目的節點的輸出線路和估計到目的節點所需要的延遲或距離。度量標准可以是毫秒或鏈路段數、等待的分組數、剩餘的線路和容量等。對於延遲,節點可以直接發送一個特殊的稱作「回聲」(echo)的分組,接收該分組的節點將其加上時間標記後盡快送回,這樣便可測出延遲。有了以上信息,節點可由此確定路由選擇。

『叄』 分布式存儲技術有哪些

中央存儲技術現已發展非常成熟。但是同時,新的問題也出現了,中心化的網路很容易擁擠,數據很容易被濫用。傳統的數據傳輸方式是由客戶端向雲伺服器傳輸,由伺服器向客戶端下載。而分布式存儲系統QKFile是從客戶端傳送到 N個節點,然後從這些節點就近下載到客戶端內部,因此傳輸速度非常快。對比中心協議的特點是上傳、下載速度快,能夠有效地聚集空閑存儲資源,並能大大降低存儲成本。

在節點數量不斷增加的情況下,QKFile市場趨勢開始突出,未來用戶數量將呈指數增長。分布式存儲在未來會有很多應用場景,如數據存儲,文件傳輸,網路視頻,社會媒體和去中心化交易等。網際網路的控制權越來越集中在少數幾個大型技術公司的手中,它的網路被去中心化,就像分布式存儲一樣,總是以社區為中心,面向用戶,而分布式存儲就是實現信息技術和未來網際網路功能的遠景。有了分布式存儲,我們可以創造出更加自由、創新和民主的網路體驗。是時候把網際網路推向新階段了。

作為今年非常受歡迎的明星項目,關於QKFile的未來發展會推動互聯網的進步,給整個市場帶來巨大好處。分布式存儲是基於網際網路的基礎結構產生的,區塊鏈分布式存儲與人工智慧、大數據等有疊加作用。對今天的中心存儲是一個巨大的補充,分布式時代的到來並不是要取代現在的中心互聯網,而是要使未來的數據存儲發展得更好,給整個市場生態帶來不可想像的活力。先看共識,後看應用,QKFile創建了一個基礎設施平台,就像阿里雲,阿里雲上面是做游戲的做電商的視頻網站,這就叫應用層,現階段,在性能上,坦白說,與傳統的雲存儲相比,沒有什麼競爭力。不過另一方面來說,一個新型的去中心化存儲的信任環境式非常重要的,在此環境下,自然可以衍生出許多相關應用,市場潛力非常大。

雖然QKFile離真正的商用還有很大的距離,首先QKFile的經濟模型還沒有定論,其次QKFile需要集中精力發展分布式存儲、商業邏輯和 web3.0,只有打通分布式存儲賽道,才有實力引領整個行業發展,人們認識到了中心化存儲的弊端,還有許多企業開始接受分布式存儲模式,即分布式存儲 DAPP應用觸達用戶。所以QKFile將來肯定會有更多的商業應用。創建超本地高效存儲方式的能力。當用戶希望將數據存儲在QKFile網路上時,他們就可以擺脫巨大的集中存儲和地理位置的限制,用戶可以看到在線存儲的礦工及其市場價格,礦工之間相互競爭以贏得存儲合約。使用者挑選有競爭力的礦工,交易完成,用戶發送數據,然後礦工存儲數據,礦工必須證明數據的正確存儲才能得到QKFile獎勵。在網路中,通過密碼證明來驗證數據的存儲安全性。采礦者通過新區塊鏈向網路提交其儲存證明。通過網路發布的新區塊鏈驗證,只有正確的區塊鏈才能被接受,經過一段時間,礦工們就可以獲得交易存儲費用,並有機會得到區塊鏈獎勵。數據就在更需要它的地方傳播了,旋轉數據就在地球范圍內流動了,數據的獲取就不斷優化了,從小的礦機到大的數據中心,所有人都可以通過共同努力,為人類信息社會的建設奠定新的基礎,並從中獲益。

『肆』 浪潮伺服器存儲的分布式存儲有哪幾種每款特點是什麼

浪潮伺服器的分布式存儲有分布式存儲AS13000G5-M、分布式存儲AS13000G5-C、分布式存儲AS13000G5-P和分布式存儲AS13000G5-CG共四種產品。分布式存儲AS13000G5-M是面向新興海量數據處理應用的企業級全對稱分布式存儲平台,分布式存儲AS13000G5-C、AS13000G5-P和AS13000G5-CG的容量可以根據實際需求進行擴展、性能可以做到按需共計。服務可以做到按需定義,是一種個性化調整的分布式存儲系統。
無論是哪一款分布式存儲,都能夠持續進行數據報告,保證存儲業務順暢。而且每一款伺服器都有專門的人工智慧進行加持,AI能夠進行精準的伺服器故障預測,保證伺服器能夠正常使用。

『伍』 什麼是分布式數據存儲

什麼是分布式存儲

分布式存儲是一種數據存儲技術,它通過網路使用企業中每台機器上的磁碟空間,這些分散的存儲資源構成了虛擬存儲設備,數據分布存儲在企業的各個角落。

分布式存儲系統,可在多個獨立設備上分發數據。傳統的網路存儲系統使用集中存儲伺服器來存儲所有數據。存儲伺服器成為系統性能的瓶頸,也是可靠性和安全性的焦點,無法滿足大規模存儲應用的需求。分布式網路存儲系統採用可擴展的系統結構,使用多個存儲伺服器共享存儲負載,利用位置伺服器定位存儲信息,不僅提高了系統的可靠性,可用性和訪問效率,而且易於擴展。

『陸』 Ceph分布式存儲是怎麼防止腦裂的

解決腦裂問題,通常採用隔離(Fencing)機制,包括三個方面:

共享存儲fencing:確保只有一個Master往共享存儲中寫數據。

客戶端fencing:確保只有一個Master可以響應客戶端的請求。

Slave fencing:確保只有一個Master可以向Slave下發命令。

Hadoop公共庫中對外提供了兩種fenching實現,分別是sshfence和shellfence(預設實現),其中sshfence是指通過ssh登陸目標Master節點上,使用命令fuser將進程殺死(通過tcp埠號定位進程pid,該方法比jps命令更准確),shellfence是指執行一個用戶事先定義的shell命令(腳本)完成隔離。

切換對外透明:為了保證整個切換是對外透明的,Hadoop應保證所有客戶端和Slave能自動重定向到新的active master上,這通常是通過若干次嘗試連接舊master不成功後,再重新嘗試鏈接新master完成的,整個過程有一定延遲。在新版本的Hadoop RPC中,用戶可自行設置RPC客戶端嘗試機制、嘗試次數和嘗試超時時間等參數。

在「雙機熱備」高可用(HA)系統中,當聯系2個節點的「心跳線」斷開時,本來為一整體、動作協調的HA系統,就分裂成為2個獨立的個體。由於相互失去了聯系,都以為是對方出了故障,2個節點上的HA軟體像「裂腦人」一樣,「本能」地爭搶「共享資源」、爭起「應用服務」,就會發生嚴重後果:或者共享資源被瓜分、2邊「服務」都起不來了;或者2邊「服務」都起來了,但同時讀寫「共享存儲」,導致數據損壞(常見如資料庫輪詢著的聯機日誌出錯)。
運行於備用主機上的Heartbeat可以通過乙太網連接檢測主伺服器的運行狀態,一旦其無法檢測到主伺服器的「心跳」則自動接管主伺服器的資源。通常情況下,主、備伺服器間的心跳連接是一個獨立的物理連接,這個連接可以是串列線纜、一個由「交叉線」實現的乙太網連接。Heartbeat甚至可同時通過多個物理連接檢測主伺服器的工作狀態,而其只要能通過其中一個連接收到主伺服器處於活動狀態的信息,就會認為主伺服器處於正常狀態。從實踐經驗的角度來說,建議為Heartbeat配置多條獨立的物理連接,以避免Heartbeat通信線路本身存在單點故障。
1、串列電纜:被認為是比乙太網連接安全性稍好些的連接方式,因為hacker無法通過串列連接運行諸如telnet、ssh或rsh類的程序,從而可以降低其通過已劫持的伺服器再次侵入備份伺服器的幾率。但串列線纜受限於可用長度,因此主、備伺服器的距離必須非常短。
2、乙太網連接:使用此方式可以消除串列線纜的在長度方面限制,並且可以通過此連接在主備伺服器間同步文件系統,從而減少了從正常通信連接帶寬的佔用。
基於冗餘的角度考慮,應該在主、備伺服器使用兩個物理連接傳輸heartbeat的控制信息;這樣可以避免在一個網路或線纜故障時導致兩個節點同時認為自已是唯一處於活動狀態的伺服器從而出現爭用資源的情況,這種爭用資源的場景即是所謂的「腦裂」(split-brain)或「partitioned cluster」。在兩個節點共享同一個物理設備資源的情況下,腦裂會產生相當可怕的後果。
為了避免出現腦裂,可採用下面的預防措施:
添加冗餘的心跳線,例如雙線條線。盡量減少「裂腦」發生機會。
啟用磁碟鎖。正在服務一方鎖住共享磁碟,「裂腦」發生時,讓對方完全「搶不走」共享磁碟資源。但使用鎖磁碟也會有一個不小的問題,如果佔用共享盤的一方不主動「解鎖」,另一方就永遠得不到共享磁碟。現實中假如服務節點突然死機或崩潰,就不可能執行解鎖命令。後備節點也就接管不了共享資源和應用服務。於是有人在HA中設計了「智能」鎖。即,正在服務的一方只在發現心跳線全部斷開(察覺不到對端)時才啟用磁碟鎖。平時就不上鎖了。
設置仲裁機制。例如設置參考IP(如網關IP),當心跳線完全斷開時,2個節點都各自ping一下 參考IP,不通則表明斷點就出在本端,不僅「心跳」、還兼對外「服務」的本端網路鏈路斷了,即使啟動(或繼續)應用服務也沒有用了,那就主動放棄競爭,讓能夠ping通參考IP的一端去起服務。更保險一些,ping不通參考IP的一方乾脆就自我重啟,以徹底釋放有可能還佔用著的那些共享資源。

『柒』 什麼是分布式存儲

分布式存儲簡單的來說,就是將數據分散存儲到多個存儲伺服器上,並將這些分散的存儲資源構成一個虛擬的存儲設備,實際上數據分散的存儲在企業的各個角落。

還可以這樣理解:

利用分布式技術將標准X86伺服器的本地HDD、SSD等存儲介質組織成一個大規模存儲資源池,同時,對上層的應用和虛擬機提供工業界標準的SCSI、iSCSI和對象訪問介面,進而打造一個虛擬的分布式統一存儲產品。

『捌』 區塊鏈分布式存儲:生態大數據的存儲新模式

區塊鏈,當之無愧的2019最靚的詞,在 科技 領域閃閃發亮,在實體行業星光熠熠。

2019年的1024講話,讓區塊鏈這個詞煥然一新,以前它總是和傳銷和詐騙聯系在一起,「區塊鏈」這個詞總是蒙上一層灰色。但是如今,區塊鏈則是和實體經濟融合緊密相連,成為國家的戰略技術, 這個詞瞬間閃耀著熱情的紅色和生意盎然的綠色

「產業區塊鏈」在這個時代背景下應運而生, 是繼「互聯網」後的又一大熱門詞彙,核心就是區塊鏈必須和實體產業融合,脫虛向實,讓區塊鏈技術找到更多業務場景才是正道。

區塊鏈的本質就是一個資料庫,而且是採用的分布式存儲的方式。作為一名區塊鏈從業者,今天就來講講 區塊鏈的分布式存儲和生態大數據 結合後,碰撞產生的火花。

當前的存儲大多為中心化存儲,存儲在傳統的中心化伺服器。如果伺服器出現宕機或者故障,或者伺服器停止運營,則很多數據就會丟失。

比如我們在微信朋友圈發的圖片,在抖音上傳的視頻等等,都是中心化存儲。很多朋友會把東西存儲在網上,但是某天打開後,網頁呈現404,則表示存儲的東西已經不見了。

區塊鏈,作為一個分布式的資料庫,則能很好解決這方面的問題。這是由區塊鏈的技術特徵決定了的。 區塊鏈上的數字記錄,不可篡改、不可偽造,智能合約讓大家更高效地協同起來,從而建立可信的數字經濟秩序,能夠提高數據流轉效率,打破數據孤島,打造全新的存儲模式。

生態大數據,其實和我們每天的生活息息相關,比如每天的天氣預報,所吃的農產品的溯源數據等等,都是生態大數據的一部分。要來談這個結合,首先咱們來看看生態大數據存儲的特點。

伴隨著互聯網的發展,當前,生態大數據在存儲方面有具有如下特點:

從數據規模來看,生態數據體量很大,數據已經從TB級躍升到了PB級別。

隨著各類感測器技術、衛星遙感、雷達和視頻感知等技術的發展,數據不僅來源於傳統人工監測數據,還包括航空、航天和地面數據,他們一起產生了海量生態環境數據。近10年以來,生態數據以每年數百個TB的數據在增長。

生態環境大數據需要動態新數據和 歷史 數據相結合來處理,實時連續觀測尤為重要。只有實時處理分析這些動態新數據,並與已有 歷史 數據結合起來分析,才能挖掘出有用信息,為解決有關生態環境問題提供科學決策。

比如在當前城市建設中,提倡的生態環境修復、生態模型建設中,需要大量調用生態大數據進行分析、建模和制定方案。但是目前很多 歷史 數據因為存儲不當而消失,造成了數據的價值的流失。

既然生態大數據有這些特點,那麼它有哪些存儲需求呢?

當前,生態大數據面臨嚴重安全隱患,強安全的存儲對於生態大數據而言勢在必行。

大數據的安全主要包括大數據自身安全和大數據技術安全,比如在大數據的數據存儲中,由於黑客外部網路攻擊和人為操作不當造成數據信息泄露。外部攻擊包括對靜態數據和動態數據的數據傳輸攻擊、數據內容攻擊、數據管理和網路物理攻擊等。

例如,很多野外生態環境監測的海量數據需要網路傳輸,這就加大了網路攻擊的風險。如果涉及到軍用的一些生態環境數據,如果被黑客獲得這些數據,就可能推測到我國軍方的一些信息,或者獲取敏感的生態環境數據,後果不堪設想。

生態大數據的商業化應用需要整合集成政府、企業、科研院所等 社會 多來源的數據。只有不同類型的生態環境大數據相互連接、碰撞和共享,才能釋放生態環境大數據的價值。

以當前的智慧城市建設為例,很多城市都在全方位、多維度建立知識產權、種質資源、農資、農產品、病蟲害疫情等農業信息大數據中心,為農業產供銷提供全程信息服務。建設此類大數據中心,離不開各部門生態大數據的共享。

但是,生態大數據共享面臨著巨大挑戰。首先,我國生態環境大數據包括氣象、水利、生態、國土、農業、林業、交通、 社會 經濟等其他部門的大數據,涉及多領域多部門和多源數據。雖然目前這些部門已經建立了自己的數據平台,但這些平台之間互不連通,只是一個個的數據孤島。

其次,相關部門因為無法追蹤數據的軌跡,擔心數據的利益歸屬問題,便無法實現數據的共享。因此,要想挖掘隱藏在生態大數據背後的潛在價值,實現安全的數據共享是關鍵,也是生態大數據產生價值的前提和基礎。

生態大數據來之不易,是研究院所、企業、個人等 社會 來源的集體智慧。

其中,很多生態大數據涉及到了知識產權的保護。但是目前的中心化存儲無法保證知識產權的保護,無法對數據的使用進行溯源管理,容易造成知識產權的侵犯和隱私數據的泄露。

這些就是生態大數據在存儲方面的需求。在當前產業區塊鏈快速發展的今天,區塊鏈的分布式存儲是可以為生態大數據存儲提供全新的存儲方式的。 這個核心前提就是區塊鏈的分布式存儲、不可篡改和數據追蹤特性

把區塊鏈作為底層技術,搭建此類平台,專門存儲生態大數據,可以設置節點管理、存儲管理、用戶管理、許可管理、業務通道管理等。針對上層業務應用提供高可用和動態擴展的區塊鏈網路底層服務的實現。在這個平台的應用層,可以搭建API介面,讓整個平台的使用靈活可擴展。區塊鏈分布式存儲有如下特點:

利用區塊鏈的分布式存儲,能夠實現真正的生態大數據安全存儲。

首先,數據永不丟失。這點對於生態大數據的 歷史 數據特別友好,方便新老數據的調用和對比。

其次,數據不易被泄露或者攻擊。因為數據採取的是分布式存儲,如果遭遇攻擊,也只能得到存儲在部分節點里的數據碎片,無法完全獲得完整的數據信息或者數據段。

區塊鏈能夠實現生態數據的存儲即確權,這樣就能夠避免知識產權被侵害,實現安全共享。畢竟生態大數據的獲取,是需要生態工作者常年在野外駐守,提取數據的。

生態大數據來之不易,是很多生態工作者的工作心血和結晶,需要得到產權的保護,讓數據體現出應用價值和商業價值,保護生態工作者的工作動力,讓他們能夠深入一線,採集出更多優質的大數據。

同時,利用區塊鏈的數據安全共享機制,也能夠打破氣象、林業、濕地等部門的數據壁壘,構建安全可靠的數據共享機制,讓數據流轉更具價值。

現在有部分生態工作者,為了牟取私利,會將生態數據篡改。如果利用區塊鏈技術,則沒有那麼容易了。

利用加密技術,把存儲的數據放在分布式存儲平台進行加密處理。如果生態大數據發生變更,平台就可以記錄其不同版本,便於事後追溯和核查。

這個保護機制主要是利用了數據的不可篡改,滿足在使用生態大數據的各類業務過程中對數據的安全性的要求。

區塊鏈能夠對數據提供安全監控,記錄應用系統的操作日誌、資料庫的操作日誌數據,並加密存儲在系統上,提供日誌預警功能,對於異常情況通過區塊鏈瀏覽器展示出來,便於及時發現違規的操作和提供證據。

以上就是區塊鏈的分布式存儲能夠在生態大數據方面所起的作用。未來,肯定會出現很多針對生態大數據存儲的平台誕生。

生態大數據是智慧城市建設的重要基礎資料 ,引用區塊鏈技術,打造相關的生態大數據存儲和管理平台,能夠保證生態大數據的安全存儲和有效共享,為智慧城市建設添磚加瓦,推動產業區塊鏈的發展。

作者:Justina,微信公眾號:妙譯生花,從事於區塊鏈運營,擅長內容運營、海外媒體運營。

題圖來自Unsplash, 基於CC0協議。

『玖』 分布式存儲和超融合區別及優勢

分布式存儲是什麼

關於分布式存儲實際上並沒有一個明確的定義,甚至名稱上也沒有一個統一的說法,大多數情況下稱作 Distributed Data Store 或者 Distributed Storage System。

其中維基網路中給 Distributed data store 的定義是:分布式存儲是一種計算機網路,它通常以數據復制的方式將信息存儲在多個節點中。

在網路中給出的定義是:分布式存儲系統,是將數據分散存儲在多台獨立的設備上。分布式網路存儲系統採用可擴展的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易於擴展。

盡管各方對分布式存儲的定義並不完全相同,但有一點是統一的,就是分布式存儲將數據分散放置在多個節點中,節點通過網路互連提供存儲服務。這一點與傳統集中式存儲將數據集中放置的方式有著明顯的區分。

超融合是什麼

參考維基網路中的超融合定義:

超融合基礎架構(hyper-converged infrastructure)是一個軟體定義的 IT 基礎架構,它可虛擬化常見「硬體定義」系統的所有元素。HCI 包含的最小集合是:虛擬化計算(hypervisor),虛擬存儲(SDS)和虛擬網路。HCI 通常運行在標准商用伺服器之上。

超融合基礎架構(hyper-converged infrastructure)與 融合基礎架構(converged infrastructure)最大的區別在於,在 HCI 裡面,無論是存儲底層抽象還是存儲網路都是在軟體層面實現的(或者通過 hypervisor 層面實現),而不是基於物理硬體實現的。由於所有軟體定義的元素都圍繞 hypervisor 實現,因此在超融合基礎架構上的所有實例可以聯合共享所有受管理的資源。

分布式存儲和超融合區別及優勢?

分布式存儲,它的最大特點是多節點部署, 數據通過網路分散放置。分布式存儲的特點是擴展性強,通過多節點平衡負載,提高存儲系統的可靠性與可用性。

超融合基礎架構從定義中明確提出包含軟體定義存儲(SDS),具備硬體解耦的能力,可運行在通用伺服器之上。超融合基礎架構與 Server SAN 提倡的理念類似,計算與存儲融合,通過全分布式的架構,有效提升系統可靠性與可用性,並具備易於擴展的特性。

SMTX ZBS 分布式塊存儲架構

除此之外,超融合基礎架構有更進一步的擴展,它強調以虛擬化計算(hypervisor)為核心,以軟體定義的方式整合包括虛擬化計算, 軟體定義存儲以及虛擬網路資源。從筆者來看超融合基礎架構未來的可能性更多,可促進計算,存儲,網路,安全,容災等等 IT 服務大融合,降低IT 基礎架構的復雜性,重新塑造」軟體定義的數據中心」。

『拾』 什麼是靈動的分布式存儲系統

什麼是分布式系統

分布式系統是由一組通過網路進行通信、為了完成共同的任務而協調工作的計算機節點組成的系統。

分布式系統的出現是為了用廉價的、普通的機器完成單個計算機無法完成的計算、存儲任務。其目的是利用更多的機器,處理更多的數據。

首先需要明確的是,只有當單個節點的處理能力無法滿足日益增長的計算、存儲任務的時候,且硬體的提升(加內存、加磁碟、使用更好的CPU)高昂到得不償失的時候,應用程序也不能進一步優化的時候,我們才需要考慮分布式系統。

因為,分布式系統要解決的問題本身就是和單機系統一樣的,而由於分布式系統多節點、通過網路通信的拓撲結構,會引入很多單機系統沒有的問題,為了解決這些問題又會引入更多的機制、協議,帶來更多的問題。

在很多文章中,主要講分布式系統分為分布式計算(computation)與分布式存儲(storage)。

計算與存儲是相輔相成的,計算需要數據,要麼來自實時數據(流數據),要麼來自存儲的數據;而計算的結果也是需要存儲的。

在操作系統中,對計算與存儲有非常詳盡的討論,分布式系統只不過將這些理論推廣到多個節點罷了。

那麼分布式系統怎麼將任務分發到這些計算機節點呢,很簡單的思想,分而治之,即分片(partition)。

對於計算,那麼就是對計算任務進行切換,每個節點算一些,最終匯總就行了,這就是MapRece的思想;對於存儲,更好理解一下,每個節點存一部分數據就行了。當數據規模變大的時候,Partition是唯一的選擇,同時也會帶來一些好處:

(1)提升性能和並發,操作被分發到不同的分片,相互獨立

(2)提升系統的可用性,即使部分分片不能用,其他分片不會受到影響

理想的情況下,有分片就行了,但事實的情況卻不大理想。原因在於,分布式系統中有大量的節點,且通過網路通信。

單個節點的故障(進程crash、斷電、磁碟損壞)是個小概率事件,但整個系統的故障率會隨節點的增加而指數級增加,網路通信也可能出現斷網、高延遲的情況。

在這種一定會出現的「異常」情況下,分布式系統還是需要繼續穩定的對外提供服務,即需要較強的容錯性。