『壹』 可以靈活擴容的分布式文件存儲軟體有嗎
XSKY 星辰天合的XEDP平台擴展彈性就很高的,在我們使用中發現,它可以實現從單資源池數台到數百台的不停機水平擴展。
『貳』 分布式存儲都有哪些,基本實現原理是什麼
vCluster分布式存儲是國內性能最佳、功能最全的分布式存儲產品,比當前流行的某開源分布式軟體功能多出100餘項,功能優化30餘項。vCluster分布式存儲系列採用先進的分布式架構,將一個任務分給多個存儲節點並行處理,大大提高了存儲效率。其堆棧性和模塊化設計提高了存儲的健碩型和擴展性,完全符合企業存儲從現在到未來的IT架構發展趨勢。
『叄』 Lustre的Lustre 優缺點
Lustre 採用分布式的鎖管理機制來實現並發控制,元數據和文件數據的通訊鏈路分開管理。與 PVFS 相比,Lustre 雖然在性能,可用行和擴展性上略勝一躊,但它需要特殊設備的支持,而且分布式的元數據伺服器管理還沒有實現。
註:PVFS: Clemson 大學的並行虛擬文件系統(PVFS) 項目用來為運行 Linux 操作系統的 PC 群集創建一個開放源碼的並行文件系統。PVFS 已被廣泛地用作臨時存儲的高性能的大型文件系統和並行 I/O研究的基礎架構。 作為一個並行文件系統,PVFS 將數據存儲到多個群集節點的已有的文件系統中,多個客戶端可以同時訪問這些數據。
『肆』 什麼是靈動的分布式存儲系統
什麼是分布式系統
分布式系統是由一組通過網路進行通信、為了完成共同的任務而協調工作的計算機節點組成的系統。
分布式系統的出現是為了用廉價的、普通的機器完成單個計算機無法完成的計算、存儲任務。其目的是利用更多的機器,處理更多的數據。
首先需要明確的是,只有當單個節點的處理能力無法滿足日益增長的計算、存儲任務的時候,且硬體的提升(加內存、加磁碟、使用更好的CPU)高昂到得不償失的時候,應用程序也不能進一步優化的時候,我們才需要考慮分布式系統。
因為,分布式系統要解決的問題本身就是和單機系統一樣的,而由於分布式系統多節點、通過網路通信的拓撲結構,會引入很多單機系統沒有的問題,為了解決這些問題又會引入更多的機制、協議,帶來更多的問題。
在很多文章中,主要講分布式系統分為分布式計算(computation)與分布式存儲(storage)。
計算與存儲是相輔相成的,計算需要數據,要麼來自實時數據(流數據),要麼來自存儲的數據;而計算的結果也是需要存儲的。
在操作系統中,對計算與存儲有非常詳盡的討論,分布式系統只不過將這些理論推廣到多個節點罷了。
那麼分布式系統怎麼將任務分發到這些計算機節點呢,很簡單的思想,分而治之,即分片(partition)。
對於計算,那麼就是對計算任務進行切換,每個節點算一些,最終匯總就行了,這就是MapRece的思想;對於存儲,更好理解一下,每個節點存一部分數據就行了。當數據規模變大的時候,Partition是唯一的選擇,同時也會帶來一些好處:
(1)提升性能和並發,操作被分發到不同的分片,相互獨立
(2)提升系統的可用性,即使部分分片不能用,其他分片不會受到影響
理想的情況下,有分片就行了,但事實的情況卻不大理想。原因在於,分布式系統中有大量的節點,且通過網路通信。
單個節點的故障(進程crash、斷電、磁碟損壞)是個小概率事件,但整個系統的故障率會隨節點的增加而指數級增加,網路通信也可能出現斷網、高延遲的情況。
在這種一定會出現的「異常」情況下,分布式系統還是需要繼續穩定的對外提供服務,即需要較強的容錯性。
『伍』 當前主流的分布式文件系統有哪些
目前幾個主流的分布式文件系統除gpfs外,還有pvfs、lustre、panfs、googlefs等。
1.pvfs(parallel
virtual
file
system)項目是clemson大學為了運行linux集群而創建的一個開源項目,目前pvfs還存在以下不足:
1)單一管理節點:只有一個管理節點來管理元數據,當集群系統達到一定的規模之後,管理節點將可能出現過度繁忙的情況,這時管理節點將成為系統瓶頸;
2)對數據的存儲缺乏容錯機制:當某一i/o節點無法工作時,數據將出現不可用的情況;
3)靜態配置:對pvfs的配置只能在啟動前進行,一旦系統運行則不可再更改原先的配置。
2.lustre文件系統是一個基於對象存儲的分布式文件系統,此項目於1999年在carnegie
mellon
university啟動,lustre也是一個開源項目。它只有兩個元數據管理節點,同pvfs類似,當系統達到一定的規模之後,管理節點會成為lustre系統中的瓶頸。
3.panfs(panasas
file
system)是panasas公司用於管理自己的集群存儲系統的分布式文件系統。
4.googlefs(google
file
system)是google公司為了滿足公司內部的數據處理需要而設計的一套分布式文件系統。
5.相對其它的文件系統,gpfs的主要優點有以下三點:
1)使用分布式鎖管理和大數據塊策略支持更大規模的集群系統,文件系統的令牌管理器為塊、inode、屬性和目錄項建立細粒度的鎖,第一個獲得鎖的客戶將負責維護相應共享對象的一致性管理,這減少了元數據伺服器的負擔;
2)擁有多個元數據伺服器,元數據也是分布式,使得元數據的管理不再是系統瓶頸;
3)令牌管理以位元組作為鎖的最小單位,也就是說除非兩個請求訪問的是同一文件的同一位元組數據,對於數據的訪問請求永遠不會沖突.
『陸』 基於mogileFS搭建分布式文件系統--海量小文件的存儲利器
1.簡介
分布式文件系統(Distributed File System)是指文件系統管理的物理存儲資源不一定直接連接在本地節點上,而是通過計算機網路與節點相連。分布式文件系統的設計基於客戶機/伺服器模式。一個典型的網路可能包括多個供多用戶訪問的伺服器。另外,對等特性允許一些系統扮演客戶機和伺服器的雙重角色。例如,用戶可以「發表」一個允許其他客戶機訪問的目錄,一旦被訪問,這個目錄對客戶機來說就像使用本地驅動器一樣。
當下我們處在一個互聯網飛速發展的信息 社會 ,在海量並發連接的驅動下每天所產生的數據量必然以幾何方式增長,隨著信息連接方式日益多樣化,數據存儲的結構也隨著發生了變化。在這樣的壓力下使得人們不得不重新審視大量數據的存儲所帶來的挑戰,例如:數據採集、數據存儲、數據搜索、數據共享、數據傳輸、數據分析、數據可視化等一系列問題。
傳統存儲在面對海量數據存儲表現出的力不從心已經是不爭的事實,例如:縱向擴展受陣列空間限制、橫向擴展受交換設備限制、節點受文件系統限制。
然而分布式存儲的出現在一定程度上有效的緩解了這一問題,之所以稱之為緩解是因為分布式存儲在面對海量數據存儲時也並非十全十美毫無壓力,依然存在的難點與挑戰例如:節點間通信、數據存儲、數據空間平衡、容錯、文件系統支持等一系列問題仍處在不斷摸索和完善中。
2.分布式文件系統的一些解決方案
Google Filesystem適合存儲海量大個文件,元數據存儲與內存中
HDFS(Hadoop Filesystem)GFS的山寨版,適合存儲大量大個文件
TFS(Taobao Filesystem)淘寶的文件系統,在名稱節點上將元數據存儲與關系資料庫中,文件數量不在受限於名稱節點的內容空間,可以存儲海量小文件LustreOracle開發的企業級分布式系統,較重量級MooseFS基於FUSE的格式,可以進行掛載使用MogileFS
擅長存儲海量的小數據,元數據存儲與關系型資料庫中
1.簡介
MogileFS是一個開源的分布式文件系統,用於組建分布式文件集群,由LiveJournal旗下DangaInteractive公司開發,Danga團隊開發了包括 Memcached、MogileFS、Perlbal等不錯的開源項目:(註:Perlbal是一個強大的Perl寫的反向代理伺服器)。MogileFS是一個開源的分布式文件系統。
目前使用 MogileFS 的公司非常多,比如國外的一些公司,日本前幾名的公司基本都在使用這個.
國內所知道的使用 MogileFS 的公司有圖片託管網站 yupoo又拍,digg, 土豆, 豆瓣,1 號店, 大眾點評,搜狗,安居客等等網站.基本很多網站容量,圖片都超過 30T 以上。
2.MogileFS特性
1) 應用層提供服務,不需要使用核心組件
2)無單點失敗,主要有三個組件組成,分為tracker(跟蹤節點)、mogstore(存儲節點)、database(資料庫節點)
3)自動復制文件,復制文件的最小單位不是文件,而是class
4)傳輸中立,無特殊協議,可以通過NFS或HTTP實現通信
5)簡單的命名空間:沒有目錄,直接存在與存儲空間上,通過域來實現
6)不用共享任何數據
3.MogileFS的組成
1)Tracker--跟蹤器,調度器
MogileFS的核心,是一個調度器,mogilefsd進程就是trackers進程程序,trackers的主要職責有:刪除數據、復制數據、監控、查詢等等.這個是基於事件的( event-based ) 父進程/消息匯流排來管理所有來之於客戶端應用的交互(requesting operations to be performed), 包括將請求負載平衡到多個"query workers"中,然後讓 mogilefs的子進程去處理.
mogadm,mogtool的所有操作都要跟trackers打交道,Client的一些操作也需要定義好trackers,因此最好同時運行多個trackers來做負載均衡.trackers也可以只運行在一台機器上,使用負載均衡時可以使用搞一些簡單的負載均衡解決方案,如haproxy,lvs,nginx等,
tarcker的配置文件為/etc/mogilefs/mogilefsd.conf,監聽在TCP的7001埠
2)Database--資料庫部分
主要用來存儲mogilefs的元數據,所有的元數據都存儲在資料庫中,因此,這個數據相當重要,如果資料庫掛掉,所有的數據都不能用於訪問,因此,建議應該對資料庫做高可用
3)mogstored--存儲節點
數據存儲的位置,通常是一個HTTP(webDAV)伺服器,用來做數據的創建、刪除、獲取,任何 WebDAV 伺服器都可以, 不過推薦使用 mogstored . mogilefsd可以配置到兩個機器上使用不同埠… mogstored 來進行所有的 DAV 操作和流量,IO監測, 並且你自己選擇的HTTP伺服器(默認為 perlbal)用來做 GET 操作給客戶端提供文件.
典型的應用是一個掛載點有一個大容量的SATA磁碟. 只要配置完配置文件後mogstored程序的啟動將會使本機成為一個存儲節點.當然還需要mogadm這個工具增加這台機器到Cluster中.
配置文件為/etc/mogilefs/mogstored.conf,監聽在TCP的7500埠
4.基本工作流程
應用程序請求打開一個文件 (通過RPC 通知到 tracker, 找到一個可用的機器). 做一個 「create_open」 請求.
tracker 做一些負載均衡(load balancing)處理,決定應該去哪兒,然後給應用程序一些可能用的位置。
應用程序寫到其中的一個位置去 (如果寫失敗,他會重新嘗試並寫到另外一個位置去).
應用程序 (client) 通過」create_close」 告訴tracker文件寫到哪裡去了.
tracker 將該名稱和域命的名空間關聯 (通過資料庫來做的)
tracker, 在後台, 開始復制文件,知道他滿足該文件類別設定的復制規則
然後,應用程序通過 「get_paths」 請求 domain+key (key == 「filename」) 文件, tracker基於每一位置的I/O繁忙情況回復(在內部經過 database/memcache/etc 等的一些抉擇處理), 該文件可用的完整 URLs地址列表.
應用程序然後按順序嘗試這些URL地址. (tracker』持續監測主機和設備的狀態,因此不會返回死連接,默認情況下他對返回列表中的第一個元素做雙重檢查,除非你不要他這么做..)
1.拓撲圖
說明:1.用戶通過URL訪問前端的nginx
2.nginx根據特定的挑選演算法,挑選出後端一台tracker來響應nginx請求
3.tracker通過查找database資料庫,獲取到要訪問的URL的值,並返回給nginx
4.nginx通過返回的值及某種挑選演算法挑選一台mogstored發起請求
5.mogstored將結果返回給nginx
6.nginx構建響應報文返回給客戶端
2.ip規劃
角色運行軟體ip地址反向代理nginx192.168.1.201存儲節點與調度節點1
mogilefs192.168.1.202存儲節點與調度節點2
mogilefs192.168.1.203資料庫節點
MariaDB192.168.1.204
3.資料庫的安裝操作並為授權
關於資料庫的編譯安裝,請參照本人相關博文http://wangfeng7399.blog.51cto.com/3518031/1393146,本處將不再累贅,本處使用的為yum源的安裝方式安裝mysql
4.安裝mogilefs. 安裝mogilefs,可以使用yum安裝,也可以使用編譯安裝,本處通過yum安裝
5.初始化資料庫
可以看到在資料庫中創建了一些表
6.修改配置文件,啟動服務
7.配置mogilefs
添加存儲主機
添加存儲設備
添加域
添加class
8.配置192.168.1.203的mogilefs 。切記不要初始化資料庫,配置應該與192.168.1.202一樣
9.嘗試上傳數據,獲取數據,客戶端讀取數據
上傳數據,在任何一個節點上傳都可以
獲取數據
客戶端查看數據
我們可以通過任何一個節點查看到數據
要想nginx能夠實現對後端trucker的反向代理,必須結合第三方模塊來實現
1.編譯安裝nginx
2.准備啟動腳本
3.nginx與mofilefs互聯
查看效果
5.配置後端truckers的集群
查看效果
大功告成了,後續思路,前段的nginx和資料庫都存在單點故障,可以實現高可用集群
『柒』 分布式文件/對象存儲系統
分布式存儲系統面向海量數據的存儲訪問與共享需求,提供基於多存儲節點的高性能,高可靠和可伸縮性的數據存儲和訪問能力,實現分布式存儲節點上多用戶的訪問共享。 目前業界比較流行的分布式存儲系統如下:HDFS、OpenStack Swift、Ceph、GlusterFS、Lustre、AFS、OSS。
『捌』 linux下常用的分布式文件系統有哪些
Lustre是HP,Intel,Cluster File System公司聯合美國能源部開發的Linux集群並行文件系統,名稱來源於Linux和Clusters。同時Lustre也是一個遵循GPL許可協議的開源軟體,Lustre也被稱為平行分布式文件系統,常用於大型計算機集群和超級電腦中。
Lustre的主要組建包括:元數據伺服器(Metadataservers, MDSs)、對象存儲伺服器(objectstorage servers, OSSs)和客戶端。其中MDSs提供元數據服務,MGS管理伺服器提供Lustre文件系統配置信息,OSS對象存儲伺服器expose塊設備提供數據。
Lustre文件系統針對大文件讀寫進行了優化,能夠提高性能的IO能力;在源數據獨立存儲、服務和網路失效的快速恢復、基於意圖的分布式鎖管理和系統可快速配置方面優異。
分布式存儲的關鍵技術主要包括:全局名字空間、緩存一致性、安全性、可用性和可擴展性。從數據形態來劃分,主要有:結構化數據、非機構化數據和半結構化數據。
Linux是一套免費使用和自由傳播的類Unix操作系統,是一個基於POSIX和UNIX的多用戶、多任務、支持多線程和多CPU的操作系統。它能運行主要的UNIX工具軟體、應用程序和網路協議。它支持32位和64位硬體。Linux繼承了Unix以網路為核心的設計思想,是一個性能穩定的多用戶網路操作系統。
Linux操作系統誕生於1991 年10 月5 日(這是第一次正式向外公布時間)。Linux存在著許多不同的Linux版本,但它們都使用了Linux內核。Linux可安裝在各種計算機硬體設備中,比如手機、平板電腦、路由器、視頻游戲控制台、台式計算機、大型機和超級計算機。
『玖』 分布式存儲是什麼
分布式存儲系統,是將數據分散存儲在多台獨立的設備上。傳統的網路存儲系統採用集中的存儲伺服器存放所有數據,存儲伺服器成為系統性能的瓶頸,也是可靠性和安全性的焦點,不能滿足大規模存儲應用的需要。分布式網路存儲系統採用可擴展的系統結構,利用多台存儲伺服器分擔存儲負荷,利用位置伺服器定位存儲信息,它不但提高了系統的可靠性、可用性和存取效率,還易於擴展。
分布式和集中式存儲
集中存儲的優缺點是,物理介質集中布放;視頻流上傳到中心對機房環境要求高,要求機房空間大,承重、空調等都是需要考慮的問題。
分布存儲,集中管理的優缺點是,物理介質分布到不同的地理位置;視頻流就近上傳,對骨幹網帶寬沒有什麼要求;可採用多套低端的小容量的存儲設備分布部署,設備價格和維護成本較低;小容量設備分布部署,對機房環境要求低。
鏈喬教育在線旗下學碩創新區塊鏈技術工作站是中國教育部學校規劃建設發展中心開展的「智慧學習工場2020-學碩創新工作站 」唯一獲準的「區塊鏈技術專業」試點工作站。專業站立足為學生提供多樣化成長路徑,推進專業學位研究生產學研結合培養模式改革,構建應用型、復合型人才培養體系。
『拾』 簡述這三種分布式系統中計算和數據的協作機制的有什麼共同點和不同點
主流的3種分布式存儲文件系統存儲架構分兩種,一種是傳統存儲陣列架構,另一種就是分布式存儲架構。
一、當前市場上,比較主流的3種分布式存儲文件系統,分別有AFS、GFS、Lustre。它們基本都有一個共通點——全局名字空間、緩存一致性、安全性、可用性和可擴展性。
二、3種分布式存儲文件系統的各自特點 1.AFS 由卡內基美隆大學最初設計開發的AFS,目前已經相當成熟,用於研究和部分大型網路中。AFS是AndrewFileSystem的簡稱,它的主要組建包括Cells、AFSclients、基本存儲單元Volumes、AFSservers和Volumereplication。 擁有良好可擴展性的AFS,能夠為客戶端帶來性能的提升和可用性的提高。AFS將文件系統的可擴展性放在了設計和實踐的首要位置,因此AFS擁有很好的擴展性,能夠輕松支持數百個節點,甚至數千個節點的分布式環境。它實現的是模塊化的,所以並不要求在每台伺服器上運行所有伺服器進程。 但值得一提的是,AFS的缺點在於管理員界面友好性不足,需要更多的專業知識來支持。
2.GFS 被稱為文件系統的GFS(GoogleFileSystem),是用以實現非結構化數據的主要技術和文件系統。它的性能、可擴展性、可靠性和可用性都受到了肯定。它主要運行在大量運行Linux系統的普通機器上,能大大降低它的硬體成本。 文件的大小,一直是文件系統要考慮的問題。對於任何一種文件系統,成千上萬的幾KB的系統很容易壓死內存。所以,對於大型的文件,管理要高效,對於小型的文件,也需要支持,但是並沒有進行優化。在GFS中,chunkserver的大小被固定為64MB,這樣的塊規模比一般的文件系統的塊規模要大得多,可以減少元數據metadata的開銷,減少Master的交互。但是,太大的塊規模也會產生內部碎片,或者同一個chunk中存在多個小文件可能會產生訪問熱點。 3.QKFile qkf是qkfile項目的燃料,qkfile項目是一個全球性的公共分布式文件系統,可以給網盤、雲存儲、短視頻、圖片、cdn等領域提供可靠的文件存儲分發服務。