首個大數據存儲中心_大數據中心是什麼中國最大的大數據中心在哪裡

㈠蘋果為什麼把數據中心建設在貴州

我覺得蘋果這么做有以下幾個原因

法律規定

最直接的原因就是去年6月1日頒布的《網路安全法》，對在中國境內經營的國外公司做出了新規定，為了最大程度上維護消費者權益，必須將敏感數據存儲在國內的伺服器中。而且該法律明確規定：所有與寬泛定義的國家安全問題有關的中國公民或地區數據都是敏感數據，而且雲服務的運營方必須為本地企業。

訪問速度上升

先前國內用戶訪問icloud時捉急的速度讓人心累，而此次，我親測，訪問icloud的速度大大提升，同時服務會更加的穩定，這對於依賴蘋果icloud服務的用戶，尤其對於mac用戶十分友好。

溫度適宜，電價便宜

對於為什麼建設在貴州，我覺得和貴州獨天得厚的天氣有關，資料庫對於溫度的要求較高，理想的溫度可以有效的減少資料庫的電力供應，貴陽天氣涼爽，周邊年平均氣溫 15.1 ，夏無酷暑，冬無嚴寒。同時貴州地區水電資源豐富，所以可以提供穩定的電力來源。

在 iCloud 服務轉由國內運營之際，聊聊蘋果數據中心落地貴州的前因後果。

近日，有媒體報道，蘋果國內首個數據中心即將正式啟用，並將從今年 2 月 28 日起，由蘋果合作夥伴雲上貴州公司負責運營中國內地的 iCloud 服務，而在此之前，包括富士康、中國移動、聯通、電信、思科、華為、騰訊、阿里巴巴等企業都集中在貴州設立數據中心。

蘋果為什麼突然要在國內建立數據中心？對消費者而言又有什麼好處？為什麼會有那麼多企業青睞在貴州設立數據中心？

2016 年 11 月，中國公布了於 2017 年 6 月 1 日正式施行的《網路安全法》，對在中國境內經營的國外公司做出了新規定，為了保障網路安全，維護網路空間主權和國家安全、社會公共利益，保護公民、法人和其他組織的合法權益，必須將個人信息和重要數據存儲在國內的伺服器中，而且要求雲服務的運營方必須為本地企業。

而這便是蘋果投入 10 億美金在貴州建設數據中心，並獨家授權雲上貴州運營內地的 iCloud 服務最重要的原因。目前，包括微軟、IBM 和亞馬遜等不少美國科技集團，都已經通過本地合作夥伴在中國地區提供雲基礎設施服務。

而這也令人想起了近來比較熱的 360 從美股退市並回歸 A 股的故事，周鴻禕表示，曾不斷有國家有關部門負責人找他談話，希望 360 能夠回歸中國。當時，政府認為沒有網路安全就沒有國家安全。360 是一個安全公司，上百家企業單位使用著 360 的軟體，而 360 也為包括政府部門、外交單位以及國防科研院等政府機構，甚至為敏感單位提供安全防護的軟體和解決方案，服務對象數量龐大。但 360 卻是一個外資企業，雖然是由中國人掌控。

當然，遇見類似問題的還有華為在美國的業務，華為之所以在美國業務受阻，本質上也是出於國家安全考慮。

據《金融時報》報道，對於中國在內的世界各國執法部門提出的合法數據獲取需求，蘋果都已經同意了。但《金融時報》也指出，據美國法律規定，如果外國政府想獲取儲存在美國伺服器上的該國公民數據，走完流程時間或將長達數年。而將國內用戶數據遷到貴州數據中心，則會讓法律程序走得更快更方便。蘋果強調，他們會並僅會響應符合法律程序的數據要求，而受到密鑰保護的設備，蘋果無法進行解鎖。

因此，蘋果在貴州建設數據中心，並獨家授權貴州省級別政府督辦的雲上貴州運營，便是為了滿足政府對國家安全方面的需求。按照某些媒體的報道，獨家授權給雲上貴州運營內地的 iCloud 服務之後，蘋果的數據便再也不只是蘋果一家外資企業了，甚至雲上貴州將反而能更加方便地接觸到這些數據。

當然，除了國防安全方面的好處以外，蘋果自己也多次稱在內地建設數據中心將改善中國用戶使用 iCloud 的體驗。

此前蘋果一直利用海外（主要是美國）的數據中心為國內 iCloud 用戶提供服務，眾所周知，中國的出口帶寬很窄，本地用戶訪問 iCloud 文件時會時常遭遇到超時、進度緩慢等問題。數據中心落戶貴州後，服務會更穩定，對 iPhone 、iPad、Mac 用戶來說，這將是件喜訊。

蘋果在國內建立數據中心，這其實並不難理解，但真正讓人看不懂的，就是蘋果為什麼選在經濟相對落後的貴陽？貴州，GDP 並不像東南沿海省市那麼耀眼，也不像東北三省那麼滿是槽點，這曾是一個在中國經濟、科技版圖上中庸到幾乎令所有人都會遺忘的中西部大省，然而，高大上的雲計算與大數據為什麼沒有跟經濟、科技方面更加發達北上廣深搭上親，反而跟貴州這個落後地區成了親家？

天時，適宜的氣象條件：

據了解，溫度控制問題一直是數據中心面臨的一個挑戰，而其中冷卻設備仍然是其基礎設施的重要組成部分。確保數據中心的最佳冷卻不僅能夠延長 IT 硬體的使用壽命，提高了電力使用效率（PUE），並降低了伺服器故障的風險，而且還可以降低數據中心運營成本。據估計，數據中心最大特點是高耗能，電力成本占整個支出成本的 50%-70%，而其中製冷過程消耗的電能又占數據中心所有功耗的 40％！

因此，根據 2017 年早些時候的報道，Facebook 公司計劃在北極圈內創建一個大規模的數據中心，這個區域具有理想的溫度和濕度來保持伺服器的冷卻。同時，微軟公司一直在試驗可能既經濟又環保的水下數據中心。當然，這並不意味著數據中心就一定要建在北極或水下。

據了解，數據中心對於氣候來說，不允許酷熱和潮濕條件重合，因此意味著濕球溫度不應超過 23 攝氏度。而貴陽市氣候涼爽，周邊年平均氣溫 15.1 ，夏無酷暑，冬無嚴寒。這樣的溫度差很容易形成溫度差，形成自然風來為數據中心降溫。因此，以 2014 年 6 月底建成的處於埡口之間的富士康綠色隧道數據中心舉例，其四季風速為每秒 2 至 3 米，全年採用自然冷卻，每年可節約 900 萬度電。

另外，數據中心內的精密設備對於環境的要求較高，灰塵等都不利於設備的保護和長期使用。而貴州森林覆蓋率 49%，空氣清新，達到世界衛生組織設立的清新空氣負氧離子標準的上限，是數據中心運營的佳地。

地利，安全穩定，距離適中：

數據中心一個重要要素就是要安全，首先，貴州不在主要地震帶上，破壞性地震風險極低。其次，貴州也少有洪水。而且還無台風、颶風、龍卷風、暴雪等威脅。

另外，貴州省水資源豐富，貴州水電裝機量排在全國第四位，而且電力水火並濟，電力充沛，能源富足，貴州也一直號稱南方電網的電池，是「西電東送」的起源。對於像數據中心這種電力消耗比較大的業務，放在電力資源豐富的貴州，容易獲得更為低廉的電價。

人和，政策支持，人力互補：

當然，符合上述條件的地方還有很多，比如中國最大的比特幣礦場所在地的四川等。但為什麼偏偏是貴州、是貴陽搶到了包括蘋果等企業？

其實，關鍵或許還是政府的支持。據中國網報道，2013 年被稱為中國「大數據元年」，當年起，幾乎所有世界級的互聯網企業，都將業務觸角延伸至大數據產業，次年 3 月，貴州便在北京舉辦了一場「貴州省大數據產業推介會」，而當時大部分城市都處於觀望狀態。

而貴州地方政府也敢為人先，貴州省政府專門做出規定，除有特殊需求外，貴州省所有省級政務部門將不再自建機房，為政府各部門之間數據的流通創造了條件。貴州也由此建成了全國第一家省級政務雲平台「雲上貴州」。逐漸地，貴州成功從昔日工業時代的跟隨者，悄然變成大數據時代的同行者，甚至領跑者。

另外，在人才方面，相對北上廣深來說，貴州在尖端人才上雖然沒什麼優勢，但數據中心的建設、運營和維護人才還是有的，而且數據中心本身也並不是勞動密集型產業，所需員工其實並不多。

值得一提的是，因為數據中心基本上只是機房而已，需要的運營員工並不是太多，因此，包括貴陽本地的很多人都認為大數據跟他們的生活並沒有什麼關系，並不會帶來太多的就業。但貨車幫方面認為，這應該是一個潛移默化的過程，先引進這些可能不需要太多人的大數據產業，再在此基礎上做更多的產業擴展，這是一個必須經歷的過程。

據了解，蘋果選擇在貴州建設數據中心，必然會帶動更多企業在貴州建設數據中心，現在的問題就是何時從量變到質變了。

據Data Center Knowledge網站北京時間7月12日報道，蘋果公司今天宣布，將在貴州省建立在中國的第一個數據中心。歷史上，貴州是中國最貧窮的省份之一。但是現在，貴州已經逐步發展成了中國大數據中心。

在中國，發達工業城市一片繁華。但是與此同時，崎嶇、落後的地區則相當貧窮。

大數據中心

作為最偏遠、歷史上最貧窮的中國西南部省份之一，貴州在短時間內突飛猛進，很有希望成為中國向大數據領域推進的中心。10年前還像郊區的地方現在已經成為了新的市區，建成了摩天大樓、會展中心和數據中心等配套設施。

高鐵、大橋、隧道以及增加的國際航班把貴州與國內外城市連接在一起，幫助其擺脫了隔離，擁抱世界。

按照GDP衡量，貴州在中國31個省份中排名第25位。貴州已經連續三年舉辦為期四天的中國國際大數據產業博覽會。2017年大數據博覽會在5月底結束，參展公司簽署了價值24億美元的合同。

許多科技巨頭不遠萬里來參加博覽會，包括蘋果、Facebook、微軟公司、谷歌公司、亞馬遜公司、英特爾公司、IBM以及戴爾公司。斯坦福大學人工智慧和倫理學教授傑瑞·卡普蘭(Jerry Kaplan)、創業公司創業者周嵐(Adelyn Zhou)、矽谷知名孵化器Founder Space創始人史蒂夫·霍夫曼(Steve Hoffman)、谷歌開發者關系地區負責人丹·菲爾德(Dan Feld)等矽谷精英也參加了今年的博覽會。

氣候適宜

貴州的常年平均氣溫保持在59華氏度(約合15攝氏度)，非常適合數據中心的運營。在吸引公司前來投資方面，政府也做出了出色的工作，推出了試點工程，並為水電的使用提供優惠。

除了代工iPhone、Kindle以及PlayStation 游戲機等設備外，富士康也生產伺服器。富士康在貴州建立了一個綠色隧道數據中心，裡面有6000台伺服器，距離貴陽市有一個小時的車程。

和許多內地公司一樣，富士康也希望藉助雲計算、網路化機器以及人工智慧的應用，讓其製造過程更為高效。所有這些都需要存儲和分析海量數據。

其實主要有這些原因：

1、大數據需要大型數據中心承載，大型數據中心需要建在氣候涼爽、能源充沛、地質穩定的地方，貴州正是天然之選。工信部評估報告顯示，貴州是中國南方最適合建設大型綠色數據中心的地區。

2、早在2015年數博會期間，蘋果公司副總裁麗莎·傑克遜當天在貴陽考察時即表態，蘋果公司將進一步密切與貴州的溝通交流，與貴州省和富士康科技集團一道，共同推動蘋果公司亞太數據中心落戶貴州。

3、雲上貴州大數據產業發展有限公司背景。其由貴州省大數據發展管理局履行出資人職責，貴州省國有企業監事會進行監管。政府支持。各類人才雲集，已經擁有數十個控股和參股公司，業務涉及大數據產業和大數據金融等多個領域。

對我們有什麼影響？

得益於貴州當地政府的重視，過去幾年來，以貴陽國際大數據博覽會（簡稱「數博會」）為代表，貴州已吸引了三大運營商，它們都選址國家級新區貴安新區建設數據中心，總投資規模高達 150 億人民幣。蘋果的合作夥伴、代工巨頭富士康也在此建設了一個擁有 6000 台伺服器的綠色隧道數據中心。

除了貴州以外，蘋果日前還宣布將投資 9.21 億美元在丹麥境內建設一個新的數據中心，位置在丹麥和德國的邊境地區，這是蘋果在丹麥建設的第二個數據中心，第一個仍在建設中，預計年底將可以投入使用。之所以選址丹麥是因為數據中心集合了大量的伺服器，運行起來產生的熱量驚人，建在北歐較為寒冷的地區，一方面可以降低電力消耗，另一方面還可以為當地居民供暖，可謂是雙贏之舉了。

貴州在大家的映象中是比較窮的省份，不但經濟落後，除了茅台也少有知名的企業，可大家不了解的是貴州的發展速度，近幾年的貴州的經濟增長一直排名全國前三，是旅遊人數最多的省份之一，也是世界的橋梁之都，高速公路里程全國第四，綜合密度全國第一。

貴州的自然條件優越，自然災害少，很少有地震，數據機房的安全得到保證，空氣清新，污染少，滿足了機房對空氣潔凈的要求，本來貴州就冬無嚴寒夏無酷暑，再加之貴州有豐富的清潔能源，電費較為便宜，能大大降低運行成本，還有就是政府對大數據企業在土地稅收等的優惠扶持，綜合多方面的因素，最適合建大數據中心，貴州大數據是首個國家大數據中心。

除了蘋果把數據中心放在貴州，富士康、阿里巴巴、騰訊、華為以及三大運營商都把數據中心建在貴州。還是那句廣告語說得好:走遍大地神州，醉美多彩貴州。

蘋果資料庫建立貴州：1因為全球最大的也就是那個大鍋在貴州，也就是說貴州已成為信息網、2 不僅是蘋果公司，還有華為、騰訊、富士康、阿里巴巴等等，貴州將成為網路系統集成地！3不是你們那些無知說什麼貴州窮，地便宜什麼的，你去貴州就知道了，現貴州縣縣通高速，在過幾年縣縣通城際、未來的貴州將成為全國人民所期待之處。其實消費一點不便宜，貴陽打 10元起步！

其實不止是蘋果，華為和騰訊等大企業也紛紛在貴州建立數據中心。而貴州更是被稱為中國的大數據「矽谷」。那麼為什麼三大運營商、華為、騰訊、蘋果等科技巨頭都選擇在貴州建立數據中心呢？

首先就是節省電費這個先天優勢。要知道，數據中心最大的特點就是「高能耗」。電力成本是整個支出成本的50%~70%，其中一半來自於伺服器等設備的供電，另一半來自於機器設備散熱的「空調費」。

而從氣溫和能源來說，貴州是公認的中國南方最適合建立數據中心的地方。貴州常年氣溫保持在14 到16 ，即便最炎熱7月份，平均氣溫也只有23.7 ，是伺服器等設備運行最合適的溫度。

而根據華為的說法「大數據基地建在北京需要1塊錢1度電，貴陽只需要4毛。我們不需要什麼優惠政策，放在貴州，建成運行後一年可以節約上億的電費」。

其次就是政策優勢所導致的「彎道超車」。2013年是中國「大數據元年」，大數據的到來，貴州和北上廣的等一線發達地區站在同一起跑線上。

貴州專門頒布了一系列政策，用於支持貴州大數據的發展。2014年開始，貴州鼓勵獎政府部分的數據遷移到雲端，即「雲上貴州」，除了特殊需求，不再自建機房，這個在全國范圍內都是超前的。

總之，貴州發展大數據產業占據了天時地利人和的優勢，貴州獨特的自然環境和精準有利的政策支持是貴州大數據產業發展的兩大法寶。

不僅僅是蘋果，現在華為，騰訊，京東很多互聯網企業都把數據中心建在了貴州，所以我們要分析一下貴州有哪些優勢。

一是貴州的氣候宜人，夏季平均氣溫在22—25攝氏度，相比於其他各省，可以有效的降低高溫帶來的能耗。二是貴州電力資源豐富，電價低。貴州是西電東送的主力，水利發電量居全國第四，豐富的電力資源給數據中心帶來了低成本的電價。三是貴州交通便利。貴州省是我國西部首先縣縣通高速的省份，高速公路總里程7600公里，總里程全國第四，公路網密度居全國第一。其次是貴州高速鐵路發達，現有成貴高鐵、渝貴高鐵、滬昆高鐵、貴廣高鐵等，高鐵里程截止2019年1340公里，居全國15位，未來2021年貴州將完成市市通高鐵目標。四是貴州地理位置優越。貴州處於地震帶之外，地殼穩定，據統計貴州境內沒出現過6級以上地震，所以安全性是值得肯定的。五是貴州政府政策扶持。大數據中心的建立，對於貴州來說經濟發展可以搭上信息科技的快速通道，所以政府在企業發展上提供了很大的便利，主要是企業服務綠色通道，人才培養，金融服務，企業上市等等，將大數據作為貴州的發展戰略。

最近這些年，貴州作為大數據中心的確很火熱的，不止是蘋果，連華為、騰訊，還有三大運營商（移動、聯通、電信）的數據中心，都建設在貴州的，其實，原因都各自有各自的考慮，但分析起來，無外乎主要就是下面的幾點吧：

1、自然條件上，貴州深處內陸，地質結構比較穩定， 很少有地震、洪澇等地質災害 ，數據存儲方面，很安全妥當，而且 夏季氣溫比較低 ，特別是省會，更是夏天的度假勝地，有「爽爽的貴陽」的說法，這樣一來，可以為很多儲存數據的機房， 節省不小的散熱成本， 要知道，在貴州很多普通人家，夏天很多人連空調都沒裝的，因為真的很涼爽。

2、社會經濟方面，貴州，特別是大數據比較集中的區域，也就是現在的貴安新區， 現在是一個才起步的國家級新區，規格高 ，現在整體來說， 地塊以及各方面的成本，還沒有那麼高 ，對於一些科技巨頭來說，如果能夠在早期布局，有一定的成本優勢，因為大數據中心佔地面積大，科技巨頭又和房企不一樣，房企佔了地可以賣房子，但是科技巨頭用作數據中心，回款模式就不同於房地產開發商。

3、 zc方面的扶持和引導 吧，對於貴州搞大數據，是「有道理」的，雖然貴州整體來說，科技和人才這些軟實力方面，和沿海發達城市和地區有不小的差距，但是 硬體先上 ，後期只要薪酬報酬給得高，不愁吸引不來人才，所謂的「築巢引鳳」就是這個道理。

4、可能是因為貴州屬於後發崛起的地區吧，和沿海那些地方的「精明」不一樣，這些年，接觸下來的貴州人，不管男的女的， 大部分都相對比較朴實、淳樸，很有道德觀念， 所以，有時候 對於金錢的誘惑，他們還是有一定的「抵抗力」的 ，並不純粹全部是「唯利是圖」的那種， 有的為人處世還比較傳統，循規蹈矩的那種 ，所以數據中心放在貴州，還是比較放心的，至少能夠少一些「為了利益出賣數據」的擔憂。

總的來說，存在即合理，蘋果公司不是一般的公司，他們對於數據存儲地和運營商的選擇，都是很專業的人才和工程師經過深思熟慮的，一定有他們的道理，而且， 每個企業、每個人和個體，都是自己利益的最佳判斷者 ，全中國那麼多地方，他們選擇了貴州，那肯定是有他們自己的利弊考量的，所以，我們作為貴州本地人，當然是非常歡迎這些科技巨頭來黔布局的，不僅能帶動經濟，還能增加就業機會。

蘋果把數據中心建設在貴州，主要有以下幾個原因：

1、根據網路安全法規定，蘋果只能將國內蘋果用戶的數據存儲在中國，由於針對國內用戶比如Icloud的隱私以及安全性，維護蘋果用戶的隱私與安全，蘋果只能在國內選擇某地作為數據中心。

2、貴州作為全國最大的數據服務中心，世界五百強企業包括中國移動、聯通、電信、騰訊以及阿里巴巴等都將伺服器坐落在貴州，貴州擁有良好的自然環境，常年溫度適宜在15-20攝氏度左右，緩解了了伺服器高速運轉發熱的現象，節約了伺服器維護的一部分成本；同時貴州省本地對伺服器建設有很多利好，無論是地價還是電費對於伺服器的建設都有很大的優惠，因此不少大型公司都將伺服器選址坐落在貴州省。

據不完全統計，貴州所擁有的大數據企業，自從2013年開始，從最初的不到1000家增長到目前的8000家左右並且這一數字還在不斷增長，其中不乏許多世界五百強企業。整個貴州省大數據產業規模實現超過1100億元的收入，其中在2017年，貴州數字經濟增速為37.2%，位列中國第一。

貴州省獨特的地理氣候、國家賦予的准確的定位加上當地良好的引導以及政策的優惠，使得不少企業都在貴州省開始建設數據中心，而蘋果也正是看準了這一點，這是其他省份所不具備的優勢！

㈡ HDFS 為何在大數據領域經久不衰

大數據中最寶貴、最難以代替的就是數據，一切都圍繞數據。

HDFS是最早的大數據存儲系統，存儲著寶貴的數據資產，各種新演算法、框架要想得到廣泛使用，必須支持HDFS，才能獲取已存儲在裡面的數據。所以大數據技術越發展，新技術越多，HDFS得到的支持越多，越離不開HDFS。 HDFS也許不是最好的大數據存儲技術，但依然是最重要的大數據存儲技術 。

HDFS是如何實現大數據高速、可靠的存儲和訪問的呢？

Hadoop分布式文件系統HDFS的設計目標是管理數以千計的伺服器、數以萬計的磁碟，將大規模的伺服器計算資源當作一個單一存儲系統進行管理，對應用程序提供數以PB計的存儲容量，讓應用程序像使用普通文件系統一樣存儲大規模的文件數據。

文件以多副本的方式進行存儲：

缺點：

優點：

HDFS的大容量存儲和高速訪問的實現。

RAID將數據分片後，在多塊磁碟上並發進行讀寫訪問，提高了存儲容量、加快了訪問速度，並通過數據冗餘校驗提高了數據可靠性，即使某塊磁碟損壞也不會丟數據。將RAID的設計理念擴大到整個分布式伺服器集群，就產生了分布式文件系統，這便是Hadoop分布式文件系統的核心原理。

和RAID在多個磁碟上進行文件存儲及並行讀寫的思路一樣，HDFS是在一個大規模分布式伺服器集群上，對數據分片後進行並行讀寫及冗餘存儲。因為HDFS可部署在一個大的伺服器集群，集群中所有服務褲汪裂器的磁碟都可供HDFS使用，所以整個HDFS的存儲空間可以達到PB級。

HDFS是主從架構。一個HDFS集群會有一個NameNode（命名節點，簡稱NN），作為主伺服器（master server）。

HDFS公開了文件系統名稱空間，允許用戶將數據存儲在文件中，就好比我們平時使用os中的文件系統一樣，用戶無需關心底層是如何存儲數據的。在底層，一個文件會被分成一或多個數據塊，這些資料庫塊會被存儲在一組數據節點中。在CDH中數據塊的默認128M。在NameNode，可執行文件系統的命名空間操作，如打開，關閉，重命名文件等。這也決定了數據塊到數據節點的映射。

HDFS被設計為可運行在普通的廉價機器上，而這些機器通常運行著一個Linux操作系統。一個典型的HDFS集群部署會有一個專門的機器只能運行 NameNode ，而其他集群中的機器各自運行一個 DataNode 實例。雖然一台機器上也可以運行多個節點，但不推薦。

負責文件數據的存儲和讀寫操作，HDFS將文件數據分割成若干數據塊（Block），每個DataNode存儲一部分Block，這樣文件就分布存儲在整個HDFS伺服器集群中。

應用程序客戶端（Client）可並行訪問這些Block，從而使得HDFS可以在伺服器集群規模上實現數據並行訪問，極大提高訪問速度胡閉。

HDFS集群的DataNode伺服器會有很多台，一般在幾百台到幾千台，每台伺服器配有數塊磁碟，整個集群的存儲容量大概在幾PB~數百PB。

負責整個分布式文件系統的元數據（MetaData）管理，即文件路徑名、數據塊的ID以及存儲位置等信息，類似os中的文件分配表（FAT）。

HDFS為保證數據高可用，會將一個Block復制為多份（默認3份），並將多份相同的Block存儲在不同伺服器，甚至不同機架。當有磁碟損壞或某個DataNode伺服器宕機，甚至某個交換機宕機，導致其存儲的數據塊不能訪問時，客戶端會查找其備份Block訪問。

HDFS中，一個文件會被拆分為一個或多個數據塊。默認每個數據塊有三個副本，每個副本都存放在不同機器，而且每一個副本都有自己唯一的編號：

文件/users/sameerp/data/part-0的復制備份數設為2，存儲的BlockID分別為1、3：

上述任一台伺服器宕機後，每個數據塊都至少還有一個備份存在，不會影響對文件/users/sameerp/data/part-0的訪問。

和RAID一樣，數據分成若干Block後，存儲到不同伺服器，實現數據大容量存儲，並且不同分片的數據能並行進行讀/寫操作，實現數據的高速訪問。

副本陵鎮存放：NameNode節點選擇一個DataNode節點去存儲block副本的過程，該過程的策略是在可靠性和讀寫帶寬間權衡。

《Hadoop權威指南》中的默認方式：

Google大數據「三駕馬車」的第一駕是GFS（Google 文件系統），而Hadoop的第一個產品是HDFS，分布式文件存儲是分布式計算的基礎。

這些年來，各種計算框架、各種演算法、各種應用場景不斷推陳出新，但大數據存儲的王者依然是HDFS。

磁碟介質在存儲過程中受環境或者老化影響，其存儲的數據可能會出現錯亂。

HDFS對存儲在DataNode上的數據塊，計算並存儲校驗和（CheckSum）。在讀數據時，重新計算讀取出來的數據的校驗和，校驗不正確就拋異常，應用程序捕獲異常後就到其他DataNode上讀取備份數據。

DataNode監測到本機的某塊磁碟損壞，就將該塊磁碟上存儲的所有BlockID報告給NameNode，NameNode檢查這些數據塊還在哪些DataNode上有備份，通知相應的DataNode伺服器將對應的數據塊復制到其他伺服器上，以保證數據塊的備份數滿足要求。

DataNode會通過心跳和NameNode保持通信，如果DataNode超時未發送心跳，NameNode就會認為這個DataNode已經宕機失效，立即查找這個DataNode上存儲的數據塊有哪些，以及這些數據塊還存儲在哪些伺服器上，隨後通知這些伺服器再復制一份數據塊到其他伺服器上，保證HDFS存儲的數據塊備份數符合用戶設置的數目，即使再出現伺服器宕機，也不會丟失數據。

NameNode是整個HDFS的核心，記錄著HDFS文件分配表信息，所有的文件路徑和數據塊存儲信息都保存在NameNode，如果NameNode故障，整個HDFS系統集群都無法使用；如果NameNode上記錄的數據丟失，整個集群所有DataNode存儲的數據也就沒用了。

所以，NameNode高可用容錯能力非常重要。NameNode採用主從熱備的方式提供高可用服務：

集群部署兩台NameNode伺服器：

兩台伺服器通過Zk選舉，主要是通過爭奪znode鎖資源，決定誰是主伺服器。而DataNode則會向兩個NameNode同時發送心跳數據，但是只有主NameNode才能向DataNode返回控制信息。

正常運行期，主從NameNode之間通過一個共享存儲系統shared edits來同步文件系統的元數據信息。當主NameNode伺服器宕機，從NameNode會通過ZooKeeper升級成為主伺服器，並保證HDFS集群的元數據信息，也就是文件分配表信息完整一致。

軟體系統，性能差點，用戶也許可接受；使用體驗差，也許也能忍受。但若可用性差，經常出故障不可用，就麻煩了；如果出現重要數據丟失，那開發攤上大事。

而分布式系統可能出故障地方又非常多，內存、CPU、主板、磁碟會損壞，伺服器會宕機，網路會中斷，機房會停電，所有這些都可能會引起軟體系統的不可用，甚至數據永久丟失。

所以在設計分布式系統的時候，軟體工程師一定要綳緊可用性這根弦，思考在各種可能的故障情況下，如何保證整個軟體系統依然是可用的。

## 6 保證系統可用性的策略

任何程序、任何數據，都至少要有一個備份，也就是說程序至少要部署到兩台伺服器，數據至少要備份到另一台伺服器上。此外，稍有規模的互聯網企業都會建設多個數據中心，數據中心之間互相進行備份，用戶請求可能會被分發到任何一個數據中心，即所謂的異地多活，在遭遇地域性的重大故障和自然災害的時候，依然保證應用的高可用。

當要訪問的程序或者數據無法訪問時，需要將訪問請求轉移到備份的程序或者數據所在的伺服器上，這也就是 失效轉移 。失效轉移你應該注意的是失效的鑒定，像NameNode這樣主從伺服器管理同一份數據的場景，如果從伺服器錯誤地以為主伺服器宕機而接管集群管理，會出現主從伺服器一起對DataNode發送指令，進而導致集群混亂，也就是所謂的「腦裂」。這也是這類場景選舉主伺服器時，引入ZooKeeper的原因。ZooKeeper的工作原理，我將會在後面專門分析。

當大量的用戶請求或者數據處理請求到達的時候，由於計算資源有限，可能無法處理如此大量的請求，進而導致資源耗盡，系統崩潰。這種情況下，可以拒絕部分請求，即進行限流；也可以關閉部分功能，降低資源消耗，即進行降級。限流是互聯網應用的常備功能，因為超出負載能力的訪問流量在何時會突然到來，你根本無法預料，所以必須提前做好准備，當遇到突發高峰流量時，就可以立即啟動限流。而降級通常是為可預知的場景准備的，比如電商的「雙十一」促銷，為了保障促銷活動期間應用的核心功能能夠正常運行，比如下單功能，可以對系統進行降級處理，關閉部分非重要功能，比如商品評價功能。

HDFS是如何通過大規模分布式伺服器集群實現數據的大容量、高速、可靠存儲、訪問的。

1.文件數據以數據塊的方式進行切分，數據塊可以存儲在集群任意DataNode伺服器上，所以HDFS存儲的文件可以非常大，一個文件理論上可以占據整個HDFS伺服器集群上的所有磁碟，實現了大容量存儲。

2.HDFS一般的訪問模式是通過MapRece程序在計算時讀取，MapRece對輸入數據進行分片讀取，通常一個分片就是一個數據塊，每個數據塊分配一個計算進程，這樣就可以同時啟動很多進程對一個HDFS文件的多個數據塊進行並發訪問，從而實現數據的高速訪問。關於MapRece的具體處理過程，我們會在專欄後面詳細討論。

3.DataNode存儲的數據塊會進行復制，使每個數據塊在集群里有多個備份，保證了數據的可靠性，並通過一系列的故障容錯手段實現HDFS系統中主要組件的高可用，進而保證數據和整個系統的高可用。

㈢開展微型數據存儲技術創新研發搶占未來大數據存儲技術高地的建議

我國數據存儲核心技術長期落後，大數據中心按照傳統的科技房地產的思路將面臨資源約束。為了防止我國存儲技術「卡脖子」，節省未來海量數據存儲佔地空間，系統化整合資源解決當前中國大數據存儲技術產品的容量問題，建議國家立項 開展微型數據存儲技術創新研發 。

我國數據儲存的現狀和面臨的問題

計算機數據存儲技術是信息技術應用的核心。一切計算機應用數據都需要由物理設備來存儲，以便計算機系統進行讀寫等處理，數據應用與數據存儲恰似樹干與樹根的密切關系。伴隨著信息技術應用的持續高速發展，可以預見未來的數據量必將呈現爆炸式增長，隨之而來的海量數據存儲瓶頸問題必然日趨嚴重，加劇著數據存儲領域長期面臨的容量、安全、性能、擴充、維護、災備、監管等諸多挑戰。其中，容量困境，首當其沖。

當前痛點。 為了滿足數據存儲容量日益增長的需求，大數據存儲中心建設必不可少。放眼當下全國各地的大數據存儲中心建設，由於數據存儲基礎核心技術缺位，流行的模式是不可持續的「科技房地產」，即單純拓展佔地面積蓋樓建設數據中心，進而耗費寶貴自然資源。目前我國城市監控視頻圖像數據受限於數據中心存儲容量空間，一般只能保留一個月左右，相關的數據應用嚴重受制。

應用基石。 底層數據存儲是信息產業發展的基石，數據存儲技術產品是信息應用系統的架構基礎，也是我國的關鍵行業技術短板。有效的數據存儲技術產品涉及到所有信息技術應用場景：人工智慧，信息安全，智慧城市，大數據，雲計算，區塊鏈，城市大腦，雪亮工程，城市管理視頻監控，醫學影像識別，等等。

嚴峻局面。 追溯信息技術百年來的發展軌跡，中國在數據存儲基礎技術領域的貢獻幾乎為零。國內數據存儲行業主要擅長於市場側的商業應用創新，數據存儲底層管理的核心技術研發嚴重依賴國外的開源開放。缺乏基礎研發梯隊，沒有關鍵理論探索；沿襲陳舊的發展思路，習於外購器件設備；底層技術積累短缺，核心創新能力薄弱；嚴峻的局面至今沒有重大改變。

危情險勢。 中國在核心存儲產品、底層支撐技術、商業應用理念上長期跟跑，遭受外部勢力釜底抽薪式的「存儲底層關鍵核心技術精準打擊」的隱患和風險極大。面對復雜多變的國際環境，一旦遭遇卡脖子，如外購存儲產品斷貨或核心技術交流封鎖，舉國上下所有涉及信息技術應用的行業領域都必然窒息。從而直接降低相關產業迭代發展速度，掣肘社會前進步伐，削弱國家治理能力，進而危及影響到國家的政治和社會穩定。

時不我待。 我們需要立即行動起來，通過立項開展微型數據存儲技術創新研發，凝聚國內外數據存儲領域資源力量，構建數據存儲專業核心技術團隊；從研發軟體定義的存儲（數據去重）技術產品入手，填補國內技術產品領域空白；啟動研發微型化（原子級）數據存儲設備，搶占未來數據存儲領域的制高點。這項舉措也是解除我國數據存儲技術產品創新研發「卡脖子」危機的最佳途徑。

開展微型數據存儲技術創新研發的思路

我國應抓住當前數據應用驅動信息技術升級換代的大數據發展歷史契機，凝聚國內外資源力量，構建中國數據存儲專業核心技術團隊。近期：研發部署模塊化數據去重技術產品，壓縮海量數據存儲空間需求，填補國內底層數據存儲管理技術空白。遠期：啟動研發微型數據存儲設備，搶占未來數據存儲技術領域的制高點。

從開展微型數據存儲技術創新研發入手，聚焦國際存儲技術領域的戰略性前沿技術趨勢；聯手科研院所、高等院校、生產企業、大型用戶的資源，建設國家級核心技術團隊；積極引進/培養數據存儲技術人才，研發自主可控系列產品。

1.近期跟蹤行業動態

對標國際頂級數據存儲技術產品，砥礪學習底層模塊級數據存儲去重技術，壓縮海量數據存儲空間需求，實現自主可控國產數據存儲技術管理軟體產品的商務應用。基本原理是首先識別出重復的數據模塊，然後優化存儲多個重復數據模塊中的單一模塊，以及同其它重復模塊的鏈接關系。進而減少企業級客戶存儲數據所需的物理空間佔有量，降低采購部署數據存儲設備的增量。

2.遠期重點突出推進

探索下一代數據存儲技術，整合跨學科資源啟動開展研發微型存儲器，力圖將現有基於磁碟/光碟/磁帶的計算機數據存儲器，轉化為未來基於原子/電子運動狀態的微型化數字信息採集與存取機制。其原理是將現在耗費數百萬個原子的材料介質所表徵的一位「0」或「1」二進制計算機數據，試圖由單個原子狀態變化來表徵。於是，可以將現有數據存儲設備體積縮小數十萬乃至百萬倍，最終將佔地約足球場面積的大數據存儲倉庫縮小為攜帶型器件。

3.研發工作開展建議

開展微型數據存儲技術創新研發應該建設成為國內領先、國際一流的數據存儲技術研究機構、產業孵化溫室、以及人才培養基地。

延攬數據存儲技術專家領銜擔綱咨詢顧問。全球招聘在世界頂級數據存儲公司工作多年的業界精英加盟指導。

構建中國數據存儲技術研發團隊。採用引進師資/開設培訓課程等有效方式，積累培育國內數據存儲技術力量。

結盟矽谷存儲技術研究院。依託美國矽谷地區的數據存儲實體公司，共享數據存儲底層技術知識。

注冊成立企業運營機構。開發軟體定義存儲（數據去重）技術產品，服務數據用戶市場，遵循商務運作規律。

融資涵蓋多種基金渠道。申報獲取國家重大專項基礎項目研發資金，吸引專業投資基金加盟。首期投資約需10億元人民幣（參考國際相關工程估值：美國IBM公司同類項目投資約600億美元/10年）。

推動微型數據存儲技術創新研發的建議

我國在開展新型基礎設施建設的同時，應當抓住當前數據計算應用驅動信息技術升級換代的大數據發展歷史契機，建立數據存儲技術的自主知識產權體系，填補國內空白，保障數字中國建設長遠規劃實施，推進國產數據存儲產品崛起，為相關產業發展鋪路。

2.建議遠期緊跟世界主流研發創新步伐，聚焦研發原子級微型化數據存儲技術產品（2020-2040年），在2040年前研發出原子級大數據存儲技術，並逐步實現產業化。

3.建議將微型化數據存儲技術創新作為國家戰略。搭建政產學研用共建共治共享的中國數據存儲技術聯合創新平台，建設國家級重點實驗室。依託科研院所/高等院校/相關企業，奠定從微型數據存儲理論、硬體設計、軟體開發、結構設計、系統集成等一整套原子級微型數據存儲技術研發工作的基礎。

4.建議國家相關部委給予配套資金支持。加快推進原子級大數據存儲技術研發和產業化轉化。支持申報重大科技項目和專項扶持資金。

5.建議形成能夠長期從事數據存儲技術創新的人才隊伍。借鑒全球數據存儲技術創新研發經驗，引進海內外數據存儲技術領域頂尖科學家和工程師。在高等院校與科研院所開設數據存儲技術專業課程，搭建完善的國內人才培養體系。

6.建議立項過程不宜採用常規項目申報、審批流程，亟需特事特辦予以批准。主要是有鑒於本項目相關的科研生產領域中，國內現有技術力量薄弱分散，評估體系資源匱乏。

7.建議項目推進應當低調快速務實：不重造勢，不揚虛名，不謀近利。主要是基於當前復雜敏感的國際政治經濟形勢，預計本項目勢將關聯國家核心產業戰略布局，影響未來數十年中國數字經濟命脈與發展。

作者：中央財經大學中國互聯網經濟研究院研究員歐陽日輝

通訊員：李翀

戰略性新興產業專題報道辦事，「刷臉」就行

張家口敢闖敢試、先行先試，積極探索氫能產業創新發展的有益路徑

「東數西算」正式啟動，樞紐網路如何建設？

「十四五」浪潮下如何構建城市數據中心網路？

「我為群眾辦實事」北京市發展改革委發布第三批政策工具應用指南

大美密雲助推新興產業發展

東方測控：打造智能製造示範工廠，引領礦山行業新未來

㈣你覺得貴州成為大數據中心的原因是什麼

貴州，作為中國內陸腹地的一個省份，成為了全國首個國家級大數據綜合試驗區。在互聯網高度發達的今天，貴州憑借著大數據中心，在全國乃至全世界的前沿科技領域占據了一席之地，貴州的快速發展，與大數據密不可分。中國地大物博，在眾多的省市中，貴州能夠脫穎而出，成為中國大數據中心，必定有其獨到之處，從我的視角來看，我認為貴州憑藉以下幾點原因成為了大數據中心：

貴州，作為中國寶貴的大數據中心，相信在未來會給中國帶來更加精彩的表現，會為中國數字經濟的發展做出巨大的貢獻！

㈤中國的大數據存儲中心有那幾個

網路是一個，而且網路的雲存儲基地佔地非常大好像上次我去，大概有七個龐然大物呢！

㈥貴州的大數據基地主要在哪

貴安新區
1、華為七星湖數據存儲中心（貴州）
2、騰訊貴安七星綠色數據中心（貴州）
3、蘋果亞洲最大數據中心貴安開建，（貴州）
4、螞蜂窩自由行大數據聯合實驗室落地貴州
5、貴陽成為阿里雲的全球備案中心和技術支持中心。（貴州）

㈦大數據中心是什麼中國最大的大數據中心在哪裡

按理說，對於一個問題，其分析的數據量越多，得出的結果就會越准確。這就是大數據的高性能分析魅力十足的原因。對於一家公司來說，理論上它可以用充足的時間去收集大量數據，然後進行分析，從中得到一些獨特的見解，從而做出企業的最優決策。但是通常情況下，這種理想情況在現實生活中是不會發生的。

大數據分析包含巨大的潛力，但如果分析的不準確，它就會轉變成阻礙。由於技術限制和其他商業因素的考慮，數據分析公司解析數據得出的結果可能並不能反映實際情況。如果企業想要確保通過大數據分析得出的結論是他們想要的結果，他們就需要提高大數據分析的准確性。

在
理想的世界裡，企業會收集大量的數據，分析它，並生成到他們要面對的問題的解決方案。但我們都知道，我們並沒有生活在一個理想的世界。大數據分析結果往往
要在短時間內獲得，一個企業可能沒有足夠先進的技術快速處理這么多的數據信息。這些限制導致許多企業對數據進行抽樣分析。換句話說，他們不看所有的數據，
而是分析小部分的數據樣品。盡管這可能是很多企業的戰略，但這些分析結果非常可能是不準確的。

從上面的例子可以看出，大數據的中心就是保證大數據的准確性！！！

首個大數據存儲中心

與首個大數據存儲中心相關的內容