㈠ 大數據未來的發展前景怎麼樣
產業發展現狀
1、行業整體情況:大數據產業規模維持高速增長 主要應用於互聯網與政務領域
——大數據產業規模:2020年超過6000億元,未來將保持高速增長
中國大數據產業聯盟發布的《2021中國大數據產業發展地圖暨中國大數據產業發展白皮書》指出,2018年以來,大數據技術的快速發展,以及大數據與人工智慧、VR、5G、區塊鏈、邊緣智能等新技術的交匯融合,持續加速技術創新。與此同時,伴隨新型智慧城市和數字城市建設熱潮,各地與大數據相關的園區加速落地,大數據產業持續增長。
白皮書中賽迪顧問的數據顯示,2020年中國大數據產業規模達6388億元,同比增長18.6%,預計未來三年保持15%以上的年均增速,到2023年產業規模超過10000億元。
㈡ 大數據市場有多大 怎麼利用大數據賺錢
大數據市場有多大 怎麼利用大數據賺錢
「大數據的市場規模沒有天花板。」國務院發展研究中心信息中心研究處處長李廣乾認為。不過細想,這正是目前各大企業和資本瘋狂追逐大數據產業的重要原因。
「單獨討論大數據意義不大,它是依附於具體業務,和各個行業密切相關的。」李廣乾認為,大數據產業規模和兩大因素相關:一是經濟發展水平,需要大數據的業務越多,市場體量就越大;二是信息化發展水平,能夠產生數據的終端越多,數據就會越聚越多,而數據的生產是沒有上限的。目前,大數據的金礦還僅是開挖了「冰山一角」。全球來看,Gartner2016年最新的技術成熟度曲線顯示,大數據作為新興領域,已經進入應用發展階段,基礎設施建設帶來的規模性高速增長出現逐步放緩的趨勢,技術創新和商業模式創新推動各行業應用逐步成熟,應用創造的價值在市場規模中的比重日益增大,並成為新的增長動力。從總體規模看,2016年,全球大數據市場規模實現16.5%的增長,預計將連續3年保持增速在15%左右。同時,大數據成為全球IT支出新的增長點,2016年,有近40%的企業正在實施和擴大大數據技術的應用,另有30%計劃在未來12個月內應用大數據。「說大數據產業是一張畫得很大的餅顯然是片面的。」工信部賽迪研究院軟體所所長潘文預測,包括大數據硬體、大數據軟體、大數據服務等在內的大數據核心產業環節,2016年達到3100億元,將在2020年超過1萬億元;大數據關聯產業規模2016年超過5萬億元,將在2020年超過10萬億元;大數據融合產業規模2016年達到3.5萬億元,將在2020年超過20萬億元。「從大數據核心產業結構看,基於大數據的服務是大數據核心產業的主體,其規模約佔大數據核心產業規模的90%,未來,服務也將是大數據產業的最核心部分。」潘文說。做數據「搬運工」目前國內大數據公司分為兩類:一類是已有獲取大數據能力的公司,如網路、騰訊、阿里巴巴等互聯網巨頭及華為、浪潮、中興等企業,涵蓋了數據採集、數據存儲、數據分析、數據可視化及數據安全等領域;另一類則是初創大數據公司,依靠大數據工具,針對市場需求,為市場帶來創新方案並推動技術發展。不同的大數據公司,盈利模式也不相同。如果把大數據產業比作房地產開發,那麼海量數據就是地產開發時的土地資源,數據挖掘開發就是地產搭建蓋樓。大數據主要的盈利模式也是圍繞這兩方面展開,一是通過直接「搬運」數據賺錢,二是通過數據加工分析盈利。「我們就像一個自來水廠一樣,用戶要你提供干凈的自來水,對方可能是酒廠、飯店、飲料廠,他把你的水做成飲料或酒。」聚合數據就是一家主要依靠為客戶提供數據盈利的公司,公司創始人左磊對其商業模式作了一個形象的比喻。在開發APP應用過程中,左磊發現客戶對於數據的需求非常大,但他們本身卻沒有能力去做這些事情。聚合數據的主營業務,就是整合市面上有價值的數據源,從車輛違章信息、航班火車查詢、全國加油站實時油價,到在線試題、電影、股票,做成標准化的API(應用程序編程介面),開放給開發者、企業及微信公眾號用戶等使用,為他們免除數據收集、維護等環節。簡言之,聚合數據是一家數據源公司,充當的是數據「搬運工」的角色。在變現模式上,針對一些本身成本不高的服務,聚合數據會對用戶實行免費,而對一些成本相對高的服務,會按照每個介面或服務的成本收取不同的費用。2016年,聚合數據光API介面一項營收就超過1000萬元。聚合數據的盈利模式是數據買賣市場一個有代表性的類型。另一個代表性類型是,國內乃至全球第一家大數據交易所——貴陽大數據交易所,自2015年4月正式掛牌運營以來,僅用兩年多時間,就實現了可交易數據總量超過150PB,內容涵蓋政府、金融、交通等30大類領域,並於今年上半年實現正現金流,預計今年底累計交易流水將突破2億元人民幣。數據的「消化」和「利用」如果說搬運數據是秀肌肉的「體力活」,那麼分析數據並提供解決方案就是拼智商的「腦力活」,相當於把收集來的數據「消化」「利用」好。直接售賣數據是比較底層的盈利方式,而對數據進行處理加工則在商業模式上具備更多的想像空間。數據分析可大致分為直接提供數據分析工具和輸出解決方案兩種模式。潘文說,數據分析工具通常可以實現情報挖掘、輿情分析、銷售追蹤、精準營銷、個性化推薦、網站/APP分析等功能,收費方式採取按需購買,部分功能服務免費,部分功能服務收費。阿里雲的「數加」平台就是典型的數據工具盈利模式。阿里雲大數據事業部總監徐常亮表示,阿里雲「數加」平台,承載著阿里巴巴集團、螞蟻金服的數據,可提供一站式的數據計算、加工、處理等服務,用戶不用自建計算平台。此外,基於「數加」平台,阿里雲還提供數十款應用工具,覆蓋數據採集、計算引擎、數據加工、數據分析、機器學習、數據應用等數據生產全鏈條。計算引擎之上,「數加」平台提供了最豐富的雲端數據開發套件,包括數據集成、數據開發、調度系統、數據管理、運維視屏、數據質量、任務監控。在數據分析方面,通過移動數據分析產品,開發者可快速搭建日誌採集、分析系統;通過「數加」平台BI報表產品,3分鍾即可完成海量數據的分析報告。在機器學習方面,「數加」平台發布的機器學習工具,可基於海量數據實現對用戶行為、行業走勢、天氣、交通等的預測。大數據公司百分點的展廳內有一面弧形牆,可以24小時實時更新數據資料和圖譜。這面牆上有全網當日產品銷售統計和熱銷產品榜單,每一個產品都有詳情介紹。百分點研發總監蘇海波介紹,5.5億用戶的「畫像」匯總於此,包括購物偏好、網購金額變化趨勢、閱讀興趣等。用戶的任何網上行為都會成為大數據的一部分,經過篩選加入到用戶的數據中。通過與百分點合作,商戶可以根據用戶消費偏好,定向推送商品;旅行社可以定向推送旅遊行程信息和報價;新聞資訊APP則可以推送用戶感興趣的信息。在輸出解決方案上,大數據還可以應用到醫療、教育、零售、通信等傳統行業。通過大數據產生更多收益,節約成本,優化原有行業,衍生出新的商業模式。
㈢ 大數據爆發性增長 存儲技術面臨難題
大數據爆發性增長 存儲技術面臨難題
隨著大數據應用的爆發性增長,大數據已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的。大數據本身意味著非常多需要使用標准存儲技術來處理的數據。大數據可能由TB級(或者甚至PB級)信息組成,既包括結構化數據(資料庫、日誌、SQL等)以及非結構化數據(社交媒體帖子、感測器、多媒體數據)。此外,大部分這些數據缺乏索引或者其他組織結構,可能由很多不同文件類型組成。從目前技術發展的情況來看,大數據存儲技術的發展正面臨著以下幾個難題:
1、容量問題
這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。
「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。
2、延遲問題
「大數據」應用還存在實時性的問題。有很多「大數據」應用環境需要較高的IOPS性能,比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。
3、並發訪問
一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。
4、安全問題
某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。
5、成本問題
成本問題「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。
對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。
6、數據的積累
許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。
7、數據的靈活性
大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。
存儲介質正在改變,雲計算倍受青睞
存儲之於安防的地位,其已經不僅是一個設備而已,而是已經升華到了一個解決方案平台的地步。作為圖像數據和報警事件記錄的載體,存儲的重要性是不言而喻的。
安防監控應用對存儲的需求是什麼?首先,海量存儲的需求。其次,性能的要求。第三,價格的敏感度。第四,集中管理的要求。第五,網路化要求。安防監控技術發展到今天經歷了三個階段,即:模擬化、數字化、網路化。與之相適應,監控數據存儲也經歷了多個階段,即:VCR模擬數據存儲、DVR數字數據存儲,到現在的集中網路存儲,以及發展到雲存儲階段,正是在一步步迎合這種市場需求。在未來,安防監控隨著高清化,網路化,智能化的不斷發展,將對現有存儲方案帶來不斷挑戰,包括容量、帶寬的擴展問題和管理問題。那麼,基於大數據戰略的海量存儲系統--雲存儲就倍受青睞了。
基於大數據戰略的安防存儲優勢明顯
當前社會對於數據的依賴是前所未有的,數據已變成與硬資產和人同等重要的重要資料。如何存好、保護好、使用好這些海量的大數據,是安防行業面臨的重要問題之一。那麼基於大數據戰略的安防存儲其優勢何在?
目前的存儲市場上,原有的視頻監控方案容量、帶寬難以擴展。客戶往往需要采購更多更高端的設備來擴充容量,提高性能,隨之帶來的是成本的急劇增長以及系統復雜性的激增。同時,傳統的存儲模式很難在完全沒有業務停頓的情況下進行升級,擴容會對業務帶來巨大影響。其次,傳統的視頻監控方案難於管理。由於視頻監控系統一般規模較大,分布特徵明顯,大多獨立管理,這樣就把整個系統分割成了多個管理孤島,相互之間通信困難,難以協調工作,以提高整體性能。除此之外,綠色、安全等也是傳統視頻監控方案所面臨的突出問題。
基於大數據戰略的雲存儲技術與生俱來的高擴展、易管理、高安全等特性為傳統存儲面臨的問題帶來了解決的契機。利用雲存儲,用戶可以方便的進行容量、帶寬擴展,而不必停止業務,或改變系統架構。同時,雲存儲還具有高安全、低成本、綠色節能等特點。基於雲存儲的視頻監控解決方案是客戶應對挑戰很好的選擇。王宇說,進入二十一世紀,雲存儲作為一種新的存儲架構,已逐步走入應用階段,雲存儲不僅輕松突破了SAN的性能瓶頸,而且可以實現性能與容量的線性擴展,這對於擁有大量數據的安防監控用戶來說是一個新選擇。
以英特爾推出的Hadoop分布式文件系統(HDFS)為例,其提供了一個高度容錯性和高吞吐量的海量數據存儲解決方案。目前已經在各種大型在線服務和大型存儲系統中得到廣泛應用,已經成為海量數據存儲的事實標准。
隨著信息系統的快速發展,海量的信息需要可靠存儲的同時,還能被大量的使用者快速地訪問。傳統的存儲方案已經從構架上越來越難以適應近幾年來的信息系統業務的飛速發展,成為了業務發展的瓶頸和障礙。HDFS通過一個高效的分布式演算法,將數據的訪問和存儲分布在大量伺服器之中,在可靠地多備份存儲的同時還能將訪問分布在集群中的各個伺服器之上,是傳統存儲構架的一個顛覆性的發展。最重要的是,其可以滿足以下特性:可自我修復的分布式文件存儲系統,高可擴展性,無需停機動態擴容,高可靠性,數據自動檢測和復制,高吞吐量訪問,消除訪問瓶頸,使用低成本存儲和伺服器構建。
以上是小編為大家分享的關於大數據爆發性增長 存儲技術面臨難題的相關內容,更多信息可以關注環球青藤分享更多干貨
㈣ 2021年值得關注的存儲和磁碟陣列
【51CTO.com快譯】 眾所周知,存儲陣列需要巨大的存儲容量和高速的網路連接,並在數據中心中扮演著重要的角色。盡管雲存儲越來越受歡迎,但存儲陣列(尤其是全快閃記憶體陣列)是許多企業存儲基礎設施的重要組成部分。而頂級的存儲陣列可以提供廣泛的數據存儲,並允許用戶將關鍵業務工作負載存儲到更能支持他們開展業務的位置。
存儲陣列可以在兩個或多個存儲設備上保存塊存儲、文件存儲或對象存儲數據。這些設備還可以連接到網路,而存儲陣列由控制器管理。
存儲區域網路(SAN)連接數據中心或其他本地區域中的多個存儲設備,其中包括存儲陣列。存儲區域網路(SAN)陣列在存儲行業中的地位仍在上升,尤其是那些具有高速連接(例如光纖通道)並支持NVMe的陣列。存儲區域網路(SAN)可以滿足低延遲連接數據中心的需求,並在互聯網中連接數據存儲。
獨立磁碟冗餘陣列(RAID)是一種用於HDD磁碟和SSD磁碟的冗餘和備份技術。RAID使用幾種不同的方法來復制或保留數據,其中包括鏡像(將數據准確復制到存儲陣列中的下一個磁碟驅動器)和奇偶校驗(重新計算丟失數據的一種數學方法)。
最常見的RAID級別是:
一些存儲專業人士不再將RAID視為一種可靠的備份或保護技術,因為它容錯率低,尤其是在具有更多磁碟的陣列中。RAID 5和RAID 6是具有最佳保護的級別,無法滿足當前數據中心環境中理想的備份需求。
NVMe(非易失性存儲器快速)是一種SSD技術,它創建與計算機中央處理單元的直接連接。通過繞過SATA使用的控制器並連接到PCIe匯流排,可以更快、更高效地處理數據。NVMe的速度遠遠超過其他SSD技術(例如SATA)。
用於數據中心的NVMe-oF使存儲的數據可以應用在網路,而不是只在一台計算機或伺服器上可用。這對於需要在數據中心內部提供存儲數據而不是只是某個硬體上使用的企業來說特別有用。提供NVMe-oF技術的存儲陣列仍然很少見;NVMe-oF技術更大程度地利用了NVMe更高的數據處理速率。
數據存儲陣列在大小、硬碟驅動器支持以及專業化方面各不相同。有一些支持HDD磁碟,而另一些只支持快閃記憶體。以下的大多數存儲陣列都將採用快閃記憶體存儲,這突出了快閃記憶體在未來關鍵工作負載的數據存儲中的重要性。
在企業選擇存儲陣列時,需要考慮以下問題:
以下一些存儲陣列是來自五個供應商的存儲解決方案。這些包括NAS、全快閃記憶體和非結構化數據的首選方案。這個列表中的某些條目涵蓋來自同一供應商的多個類似解決方案。
FlashArray適用於需要最佳速度和最高質量的企業。
FlashArray包括用於關鍵企業工作負載的FlashArray//X和用於非密集型工作負載的FlashArray//C,它提供了令人難以置信的性能,並與其他主要的供應商競爭(該產品2011年推出)。用戶可以通過託管目錄監控快閃記憶體陣列性能,可以選擇單個文件系統根目錄、每個用戶的目錄或每個業務部門的目錄。
FlashArray為資料庫提供快速備份和操作,為具有大量SQL和Oracle資料庫需求的企業提供支持。其升級通常不會導致停機,更新也不需要Pure Storage用戶進行大量IT管理。而用戶也對Pure Storage團隊的支持感到滿意。雖然FlashArray並不是Hyper-V環境的一個完美解決方案,但很多用戶發現在他們的虛擬機上表現良好。
Pure Storage公司在存儲行業意識到全快閃記憶體系統的重要性之前就推出了全快閃記憶體系統,現在他們從中受益匪淺。FlashArray是存儲市場上的頂級陣列之一,在存儲速度和用戶支持方面領先於其他供應商的產品。
由於其極快的速度,FlashArray並不是冷數據或存檔數據的理想選擇,而是需要極低延遲的工作負載的理想選擇。快速訪問存儲通常比歸檔存儲的成本要昂貴得多,而FlashArray作為冷存儲解決方案將會浪費企業的預算。
NetApp AFF適用於需要同時存儲冷熱數據的用戶。
NetApp All-Flash FAS是用於關鍵工作負載的全快閃記憶體存儲區域網路(AFF)。AFF相對容易實現,可以處理多個大型工作負載,尤其是資料庫、高性能應用程序和虛擬機,同時保持高速存儲。
NetApp AFF支持iSCSI和光纖通道網路以及通過光纖通道連接的NVMe。AFF可以為數據備份創建快照。Snap Mirror是一種數據復制和災難恢復技術,可在災難破壞初始副本的時候創建數據的異地復制。
AFF的主要優勢之一是其使用Fabric Pool技術,NetApp陣列會自動將非活動數據發送到成本較低的對象存儲。分層取決於數據的狀態(冷數據或熱數據)。如果不需要定期的低延遲訪問,Fabric Pool可以通過將數據傳輸到成本更低的存儲平台來節省成本。Fabric Pool支持Microsoft Azure Blob、阿里雲和IBMCloud等對象存儲平台。
HPE Nimble適用於需要內置智能的企業。
HPE公司的全快閃記憶體陣列是在2017年HPE公司收購存儲提供商Nimble公司時收購的,可以提供可擴展的混合雲存儲。Nimble公司使用HPE公司的dHCI(分解的超融合基礎設施)。dHCI並不是一種完全融合或超融合的基礎設施,它允許用戶在需要時擴展他們想要的資源(例如存儲、計算或網路)。
用戶還可以利用智能預測平台HPE InfoSight,該平台會在出現問題、應用程序出現故障或陣列需要擴展以滿足需求時通知用戶。HPE InfoSight直接連接到dHCI堆棧。
Nimble提供災難恢復復制快照,包括針對Hyper-V虛擬機的快照。而復制快照可以擴展到其他物理位置的存儲陣列。
盡管與Nimble公司相比,一些用戶對HPE公司的支持可用性有所不滿,但表示HPE公司可以為新用戶提供培訓和支持。
FlashSystem是IBM公司的全快閃記憶體陣列,通過Red Hat和Kubernetes容器存儲介面支持容器環境。如果初始硬體出現故障,FlashSystem用戶可以使用IBM HyperSwap進行故障轉移。
FlashSystem 5200是最新的存儲陣列之一,提供NVMe全快閃記憶體和超過PB的可用存儲容量。FlashSystem還包括IBM公司的新CloudSatellite,它允許用戶靈活地管理和部署雲計算環境以用於他們的存儲。CloudSatellite還兼容各種供應商提供的雲平台,以便用戶可以選擇他們需要的公有雲、私有雲、內部部署或混合部署環境。
IBM公司提供了有關性能和容量的Storage Insights,用戶可以通過管理平台進行管理。Storage Insights還提供智能分析,可以確定問題和優化領域。
FlashSystem最有前途的一個功能可能是其利用NVMe over Fabrics的能力。雖然是一項新的數據中心技術,但NVMe-oF非常具有前途:它將NVMe快閃記憶體速度(當今可用的最高持久內存速度)擴展到整個數據中心。這些存儲不僅限於一台計算機或設備使用,還可以通過光纖通道或InfiniBand等技術跨整個網路訪問。包括NVMe-oF功能是主要存儲陣列供應商的一個具有先見之明的決定,它是FlashSystem的突出元素之一。
Synology DiskStation和FlashStation適用於大量使用NAS的企業。
Synology公司是網路附加存儲領域的佼佼者。對於小型企業來說,DiskStation系列NAS設備提供可靠性、容量和DiskStation Manager軟體,該軟體為所有SynologyDS設備提供一種操作系統。許多DiskStation設備還具有NVMe埠,但並非所有企業級NAS硬體都有這樣的埠。RX、RS和DX系列也面向中小型企業。
Synology FlashStation(FS)專供企業使用,擁有全快閃記憶體的24托盤陣列。Synology還提供擴展單元,例如24托盤Fx2421可以用於通過FlashStation擴展存儲。
FlashStation FS6400是Synology公司推出的最新陣列之一,其備份和數據保護功能尤其引人注目。DiskStation Manager提供了對虛擬化的支持,提供用於運行虛擬機和創建備份快照的虛擬機管理器。
FS6400運行iSCSI協議,還支持虛擬環境,如VMWareVSphere和MicrosoftHyper-V。雖然它不提供用於速度更快SSD連接的NVME埠,但它確實有兩個千兆乙太網埠。對於仍然依賴網路附加存儲和SATASSD(仍然是一種低成本、低延遲的選擇)的中型企業和企業來說,Synology FlashStation是一種理想的選擇。
Dell EMC PowerScale適用於希望將非結構化數據存儲在網路附加存儲(NAS)中的企業。
PowerScale是戴爾公司最新推出的網路附加存儲(NAS)解決方案之一。該陣列將數據存儲在一個巨大的數據湖中,旨在通過將所有數據分組到一個地方來減少或消除企業的數據孤島。
非結構化數據(尤其是對象存儲數據)的數量和流行度都在飆升,PowerScale為正在成為大多數業務數據的數據提供存儲。用戶可以通過簡單地添加更多節點來擴展,這樣不會降低速度或性能。PowerScale適用於雲平台和內部部署設施運行的工作負載。
PowerScale的成本很高昂,就像這一列表中的許多其他解決方案一樣,並不是塊存儲的理想選擇。然而,在需要時輕松擴展的能力使其成為需要靈活NAS和增長空間的企業的解決方案。
由於可以容納大量的非結構化數據,PowerScale是存儲大型媒體文件的合適選擇。
Pure Storage FlashBlade 適用於具有最高速度和勒索軟體保護的本地存儲。
Pure Storage公司再次出現的理由很充分:其相對較早的全快閃記憶體數據中心存儲方法產生了多種出色的產品。FlashBlade與FlashArray的方法不同,它是一種存儲解決方案,旨在將公共雲級別的功能引入本地存儲。FlashBlade可創建易於擴展的存儲(如果想要增加存儲容量,用戶只需添加更多FlashBlade即可)。
FlashBlade旨在存儲文件和對象數據,這是數據中心優先考慮對象存儲數據的重要一步。對象存儲為構成企業數據的很大一部分的非結構化數據提供了無限的存儲空間。通過提供對象存儲陣列解決方案,Pure Storage公司改進了其產品。
FlashBlade提供文件和對象復制以及快速恢復,這是一個與數據保護供應商集成的程序。用戶可以在FlashBlade中獲取數據快照,並使用快照執行備份,這是一種旨在防止勒索軟體攻擊的策略(網路攻擊者不能使用快照來索要贖金)。
原文標題:Best Storage and Disk Arrays 2021,作者:Jenna Phipps
【51CTO譯稿,合作站點轉載請註明原文譯者和出處為51CTO.com】
㈤ 大數據發展前景怎麼樣 這個行業有前途嗎
大數據技術是一種新一代技術和構架,它以成本較低、以快速的採集、處理和分析技術,從各種超大規模的數據中提取價值。大數據技術不斷涌現和發展,讓我們處理海量數據更加容易、更加便宜和迅速,成為利用數據的好助手,甚至可以改變許多行業的商業模式。
大數據(big data)是這樣的數據集合:數據量增長速度極快,用常規的數據工具無法在一定的時間內進行採集、處理、存儲和計算的數據集合。
大數據產業蓬勃發展
2015 年,全球大數據產業市場規模為1403 億美元,預計到2020 年將達到10270 億美元,2014-2020 年間CAGR 高達49%;
2015 年,我國大數據產業市場規模為1692 億元,預計到2020 年將達到13626 億元,2014-2020 年間CAGR
高達53%。大數據行業的高速發展引起的巨大的數據存儲需求,將給傳統IT基礎設施架構帶來巨大壓力,為超融合帶來發展良機。
企業數據規模
從數據規模的角度來說,近55.03%的企業數據規模已經超過1TB,超過樣本總量的一半。其中34%的企業數據規模在1TB-10TB,11.19%的企業數據規模在10TB-50TB,9.9%的企業數據規模在50TB以上,而剩餘的44.97%的企業數據規模也在500GB-1TB之間。這其中,隨著大量的中小型企業快速擴張,也會有越來越多的企業數據量將邁入TB時代。
大數據細分市場份額
前瞻產業研究院據數據統計,目前全球大數據市場中,行業解決方案、計算分析服務、存儲服務、資料庫服務和大數據應用為市場份額排名最靠前的細分市場,分別占據35.40%、17.30%、14.70%、12.50%和7.90%的市場份額。
大數據產業發展趨勢
開源成為技術創新主要模式
經過多年來的高速發展,大數據相關的數據採集、存儲、分析、可視化等多個基礎性技術領域已經取得較大的突破,形成了實用性強、穩定度高的技術能力,大數據整體技術體系已初步構建完成,未來大數據技術的發展方向將主要集中在非結構化數據的價值提取方面。
從大數據技術的發展歷程上可以看出,大數據核心技術如分布式存儲、雲端分布式及網格計算均是依賴於開源模式,即通過開放式的平台,吸引全球開發者通過開源社區來進行代碼的開發、維護和完善,從而集全球智慧推動大數據技術的不斷進步,當前全球各大企業加大了對開源社區的贊助和智力投入,開源社區在大數據技術進步中將占據核心地位,開源模式將成為大數據技術創新的主要途徑。
同時,大數據的技術發展與物聯網、雲計算、人工智慧等新技術領域的聯系將更加緊密,物聯網的發展將極大提高數據的獲取能力,雲計算與人工智慧將深刻地融入數據分析體系,開源模式在新技術的發展中舉足輕重。
大數據細分市場規模進一步增大
大數據相關技術的發展,將會創造出一些新的細分市場。例如,以數據分析和處理為主的高級數據服務、基於社交網路的社交大數據分析等。
大數據分析的革命性方法出現
今年,大數據分析將出現革命性的新方法,從前的很多演算法和基礎理論可能會產生理論級別的突破。機器學習繼續成為大數據智能分析的核心技術;人工智慧和腦科學相結合,成為大數據分析領域的熱點。金融、互聯網電子商務、健康醫療、城鎮化智慧城市領域的應用令人矚目。
大數據與雲計算將深度融合
雲計算為大數據提供彈性可擴展的基礎設施支撐環境以及數據服務的高效模式,大數據則為雲計算提供新的商業價值,大數據技術與雲計算技術必有更完美的結合。阿里雲計算有限公司總裁胡曉明表示,2018年將是雲計算與產業深度結合的元年。人們將看到各國的基礎設施越來越緊密地和雲計算結合起來,更多的製造企業和金融機構開始用「雲」,雲計算將促進科技金融提高效益。
㈥ 數據挖掘中數據存儲的重要性
隨著互聯網的蓬勃興起,物聯網,雲計算,大數據,人工智慧在大眾視野出現的越來越頻繁了。
雲計算相當於人的大腦,是物聯網的神經中樞。雲計算是基於互聯網的相關服務的增加、使用和交付模式,通常涉及通過互聯網來提供動態易擴展且經常是虛擬化的資源。
大數據相當於人的大腦從小學到大學記憶和存儲的海量知識,這些知識只有通過消化,吸收、再造才能創造出更大的價值。
人工智慧打個比喻為一個人吸收了人類大量的知識(數據),不斷的深度學習、進化成為一方高人。人工智慧離不開大數據,更是基於雲計算平台完成深度學習進化。
而物聯網是互聯網的應用拓展,類似以前的「互聯網+」,也就是結合互聯網的業務和應用,核心是以用戶體驗為核心的應用創新。
我們主要講一下其中的「大數據」。
大數據的定義
在 2001 年左右,Gartner 就大數據提出了如下定義(目前仍是關於大數據的權威解釋):大數據指高速 (Velocity) 涌現的大量 (Volume) 的多樣化 (Variety) 數據。這一定義表明大數據具有 3V 特性。
簡而言之,大數據指越來越龐大、越來越復雜的數據集,特別是來自全新數據源的數據集,其規模之大令傳統數據處理軟體束手無策,卻能幫助我們解決以往非常棘手的業務難題。
大數據的價值和真實性
在過去幾年裡,大數據的定義又新增加了兩個 "V":價值 (Value) 和 真實性 (Veracity)。
首先,數據固然蘊含著價值,但是如果不通過適當方法將其價值挖掘出來,數據就毫無用處。其次,只有真實、可靠的數據才有意義。
如今,大數據已成為一種資本,全球各個大型技術公司無不基於大數據工作原理,在各種大數據用例中通過持續分析數據提高運營效率,促進新產品研發,他們所創造的大部分價值無不來自於他們掌握的數據。
目前,眾多前沿技術突破令數據存儲和計算成本呈指數級下降。相比過去,企業能夠以更低的經濟投入更輕松地存儲更多數據,而憑借經濟、易於訪問的海量大數據,您可以輕松做出更准確、更精準的業務決策。
然而,從大數據工作原理角度來講,大數據價值挖掘是一個完整的探索過程而不僅僅是數據分析,它需要富有洞察力的分析師、業務用戶和管理人員在大數據用例中有針對性地提出有效問題、識別數據模式、提出合理假設並准確開展行為預測。
大數據的歷史
雖然大數據這個概念是最近才提出的,但大型數據集的起源卻可追溯至 1960 - 70 年代。當時數據世界正處於萌芽階段,全球第一批數據中心和首個關系資料庫便是在那個時代出現的。
2005 年左右,人們開始意識到用戶在使用 Facebook、YouTube 以及其他在線服務時生成了海量數據。同一年,專為存儲和分析大型數據集而開發的開源框架 Hadoop 問世,NoSQL 也在同一時期開始慢慢普及開來。
Hadoop 及後來 Spark 等開源框架的問世對於大數據的發展具有重要意義,正是它們降低了數據存儲成本,讓大數據更易於使用。在隨後幾年裡,大數據數量進一步呈爆炸式增長。時至今日,全世界的「用戶」— 不僅有人,還有機器 — 仍在持續生成海量數據。
隨著物聯網 (IoT) 的興起,如今越來越多的設備接入了互聯網,它們大量收集客戶的使用模式和產品性能數據,而機器學習的出現也進一步加速了數據量的增長。
然而,盡管已經出現了很長一段時間,人們對大數據的利用才剛剛開始。今天,雲計算進一步釋放了大數據的潛力,通過提供真正的彈性 / 可擴展性,它讓開發人員能夠輕松啟動 Ad Hoc 集群來測試數據子集。
大數據和數據分析的優勢:
1.大數據意味著更多信息,可為您提供更全面的洞察。
2.更全面的洞察意味著更高的可靠性,有助於您開發全新解決方案。
其次,大數據還具有大量、高速、多樣化、密度低四大特性。
大量性:大數據與傳統數據最大的差異在於資料量,資料量遠大於傳統數據,例如抖音數據流、網路點擊流,面對的是海量低密度的數據,大數據的數據量通常高達數十PB。也因為資料量大,無法以傳統的方式儲存處理,因此衍生出大數據這一新興科學。
高速性:大數據與傳統數據最大的不同點,就是生成速度快。由於網際網路興起與資訊設備普及,以用戶突破20億人的臉書為例,如果每個用戶每天發一條消息,就會有20億筆資料。每一個人隨時隨地都可以創造數據,數據生成的速度已非過去可比擬。
多樣性:多樣化是指可用的數據類型眾多,隨著大數據的興起,文本、音頻和視頻等數據類型不斷涌現,它們需要經過額外的預處理操作才能真正提供洞察和支持性元數據。由於形式多元復雜,大數據儲存也需要不同於傳統數據的儲存技術。
密度低:數據價值密度相對較低,隨著互聯網以及物聯網的廣泛應用,信息感知無處不在,信息海量,但價值密度較低。以視頻為例,一小時的視頻,在不間斷的監控過程中,可能有用的數據僅僅只有一兩秒。
大數據的挑戰
1.安全挑戰
盡管大數據由於應用范圍廣泛,已成為各領域的發展趨勢,但數據的公布有時會伴隨使用者隱私的曝光,比如FaceBook資料外泄、Google+個人外泄風波等因數據外泄而引發隱私問題的事件層出不窮。用戶的哪些數據是可以獲取、哪些是不允許讀取,始終存在侵犯用戶隱私的法律風險。
2..技術創新
大數據需要從底層晶元到基礎軟體再到應用分析軟體等信息產業全產業鏈的支撐,無論是新型計算平台、分布式計算架構,還是大數據處理、分析和呈現方面與國外均存在較大差距,對開源技術和相關生態系統的影響力仍然較弱,總體上難以滿足各行各業大數據應用需求。
3.成本過高
運營商需要處理的數據量巨大,基本都是以PB為單位,處理這些數據需要巨大的投入。
4.實時性
具有實時性的數據才有價值,存儲的數據數據時間越長,數據的價值就越低。在如今這個快節奏的社會,每一天的市場都瞬息萬變,品牌商通過大數據分析用戶的需求,如果得到的用戶數據太過陳舊,參考這些數據來規劃產品的方向,可能會對企業的發展造成毀滅性的打擊。
無論哪個行業,想要在當今的形勢下取得成功,都必須能夠不斷地從數據中挖掘業務價值,因此數據的保護離不開存儲器,當下市面上用於大數據的存儲器主要有固態硬碟,混合硬碟,傳統硬碟。
固態硬碟(SSD),由控制單元和存儲單元,組成。固態硬碟的介面規格、定義、功能和用途與普通硬碟相同,形狀和尺寸也與普通硬碟相同。廣泛應用於軍事、車輛、工業控制、視頻監控、網路監控、網路終端、電力、醫療、航空、導航設備等領域。
優點:讀寫速度快;震動;低功耗。無噪音;工作溫度范圍廣;缺點:容量小;壽命有限;價格高。
混合硬碟是一種由傳統硬碟和快閃記憶體模塊組成的大容量存儲設備。快閃記憶體處理存儲器中最常寫入或恢復的數據。許多公司都在提供不同的技術,他們希望這些技術能在高端系統中流行起來,特別是筆記本電腦和掌上電腦。
與傳統硬碟相比,混合硬碟具有許多優勢:更快的數據存儲和恢復應用程序,如文字處理器;縮短系統啟動時間;降低功耗;減少熱量產生;延長硬碟壽命;筆記本電腦和筆記本電腦電池壽命;降低噪音水平:
傳統硬碟指的是機械硬碟(HDD),電腦最基本的內存,我們常說電腦硬碟C盤,D盤是磁碟分區,屬於硬碟。目前普通硬碟的容量有80G、128g、160g、256g、320g、500g、750g、1TB、2TB等,按容量可分為3.5英寸、2.5英寸、1.8英寸、5400rpm/7200rpm/10000rpm等。
通過物聯網產生、收集海量的數據存儲於雲平台,再通過大數據分析,甚至更高形式的人工智慧為人類的生產活動,生活所需提供更好的服務,這一切所產生的數據承載者——存儲器,在第四次工業革命進化的方向中,存儲行業也將是一顆亮眼的星。
㈦ 小企業如何選購自己需要的數據存儲設備
隨著數據量的幾何級數增長以及信息化的深入,小企業和小型組織購買專用數據存儲設備的需求越來越迫切。例如:剛剛開始創業的小公司,大企業的分支機構或一個大量產生數據並需要長期保存的公司(如設計公司,軟體公司等);還有政府機關的處室,大學的教研室,研究所的研究室以及這些單位的財務或後勤部門等。大多數小企業已經認識到日常的工作數據的共享和合作越來越重要,而把本小企業或本部門的數據隨時備份起來已經是不得不擁有的一個信息化基本功能。盡管數據存儲設備價格不斷走低,但面對錯綜復雜的存儲市場,小企業該如何選擇呢?最好像家電一樣簡單易用數據存儲設備的使用越來越復雜,存儲應用需求也不斷提高,這已經成為小企業使用存儲的一個門檻。另外,如何有效利用存儲軟體資源,象數據存儲設備管理和數據存儲設備資源共享等對一個小企業或小組織幾乎是一個復雜的技術問題。通常,小企業或組織既不可能擁有自己的專職信息化工作人員,也不可能使用非常復雜的信息化設備(如伺服器等)。大多說情況下,只是通過一台ADSL接入寬頻,外接一台交換機連接到所有桌面電腦,即構成了小企業網路。簡單易行、即插即用和便於企業負責人(小企業的經理,政府的處長或大學的教授)直接使用和管理,是小企業的典型需求。所以,小企業需要的是一個入門級網路數據存儲設備。尤其在亞洲,小型辦公環境、網吧、多媒體教室等只有幾十個人使用的一個小型區域網環境下,是一個使用廉價高效的共享存儲的擁護環境。業界曾有公司指出:「許多在歐美家用產品的IT設備,在亞洲往往被作為中小企業辦公設備使用;而在歐美當做中小企業辦公設備的產品,在亞洲卻往往因為價格和使用復雜度等因素被棄用。」。因此,象家用設備那樣簡單的數據存儲設備在亞太地區是有一個相當的市場容量的。網路存儲是首選根據Gartner Inc.公司的副總裁Craig Stanley的研究,平均起來,一個公司每兩年的存儲需求將增加一倍。而當擁有了廉價易用的小型存儲後,需要存儲和備份的數據就會成幾何級數的增長。由於小型企業或組織擁有良好的本地網路環境,而伺服器需要有懂IT的員工去安裝,調試,維護和升級換代,移動硬碟又很難做到共享和給組織內提供備份功能,所以,小企業和小組織正在日益轉向使用網路存儲,以幫助他們更好的管理猛烈的存儲需求。網路存儲(NAS)無疑是小企業存儲最簡單的數據存儲設備,因為每個小企業和組織不可能沒有自己的區域網系統,所以網路存儲是小企業使用存儲的首選。數據共享和備份小企業對存儲的最基本要求就是能夠讓每個員工有一個更大的存儲空間去共享和備份數據。所以小企業或小組織的負責人需要做的無非是在該數據存儲設備上給每個部門和員工設置使用許可權,以向本組織的所有工作人員提供訪問存儲的用戶空間。有了自己的存儲空間後,每個員工就可以把自己台式機或便攜機的數據按文件方式,系統方式或增量方式等備份在數據存儲設備中。共享是小企業和組織另外一個經常用到的功能。每個部門無疑在該部門的員工之間一定要有共享空間,以分享該部門需要的資料、信息和各種數據(如試驗數據,市場調研數據等)。除此之外,每個企業和組織都需要建立組織臨時的跨部門機構以協力完成一個工作任務。如,景觀設計公司承接一個用戶項目,它需要設計師,工程部和預算部等的員工組成一個小組完成該項目的設計工作。而政府部門的任務,如質監局質量處解決一個品牌商品的質量問題,也需要該處室幾個公務員協同調查,分析取證等。這也需要在該組公務員中建立共享區以利於大家協同工作和未來的分析報告。大學的一個科研項目則更需要建立共享去以便在教授(學術帶頭人),教師,研究生,本科生和實驗室工作人員中為該項目建立一個共享區,共同完成科研項目。小企業和組織另外一個需要簡單存儲的領域是數據備份。當今,人類已經離不開計算機去完成日常工作,但計算機被病毒侵蝕,被丟失和偷盜,被損壞已經是家常便飯了。既然如此,數據備份就成為各種組織所不得不採取的防範措施。對於小企業和組織,簡單的數據備份就能使他保證該組織工作的連續性。無論是前述例子中的公司的設計人物、政府的調查分析取證和報告還是高校的科研項目,一旦數據丟失,哪怕只是參加該工作的一個成員都會對該任務的進程帶來不可估量的影響。尤其是如果這些工作帶有設計的創意性,或數據的採集分析結果,或科研的實驗室試驗數據,甚至是不可恢復的。所以數據備份就成為該小企業或組織的必須。既然小企業和組織的小型存儲是必須的數據存儲設備,磁碟備份就是他不得不考慮的一個功能。即存在小型存儲器的數據,如果該存儲器的硬碟出現故障應該如何處理。磁碟備份就是小企業和組織所可以選用的功能。在一個有四個盤位的小型存儲器中,可以將它設置成能夠磁碟備份的模式。
㈧ 數字經濟時代,高性能數據分析存儲迎來新機遇
數字經濟時代,數據已成為新的核心生產要素,其重要戰略資源地位和核心科學決策作用已日漸凸顯。數據潛能的激發,有賴於數據的採集、存儲、計算、管理和應用,其中,作為數據採集後進行處理的第一道關口,數據存儲無疑是數字經濟最重要的「底盤」。
海量數據爆發,數據存儲成關鍵
當前,數據呈現指數級增長,數據規模已經從之前的GB、TB、PB,上升到EB級、甚至ZB級。據Hyperion預測,到2025年,全球數據空間將增長到163ZB,這是2011年HPC產生數據16.1ZB的10倍。爆炸式增長的數據,哺育了數字技術發展和應用,但是同時也對計算和存儲提出了更高的要求。
在高性能計算(HPDA)中,計算、存儲、網路三大部件缺一不可。以前,產業創新的焦點都在追求更高的算力。而隨著大數據、多樣性算力等相關技術的快速發展,高性能計算的重心開始從以計算為核心,向以數據為中心的計算演進;傳統HPC開始向高性能數據分析(HPDA)方向演進。據IDC統計,全球67%的高性能計算中心(HPC)已經在使用AI、大數據相關技術,HPC與AI、大數據加速融合,走向以數據密集型為典型特徵的高性能數據分析HPDA時代。
HPDA時代下,各行業數據量迎來了井噴式增長。地震勘探從二維向三維的演進中,數據量增加了10-20倍;電影渲染從2K升級到8K的革命中,數據量增長16倍;衛星測繪領域,探測精準度由20米縮小到2米,數據量同比增長近70倍。
數據規模激增之外,業務模型復雜以及分析效率較低等挑戰,也都在呼喚著更高效率的存儲。
存儲作為數據的承載者,逐步成為推動HPC產業發展的新動能。然而,傳統的HPC存儲在混合負載性能、成本、跨協議訪問等多方面存在壁壘,無法匹配HPDA場景的需求。如何打破存儲性能、成本、效率的限制,充分釋放數據潛能,成為制約HPC產業升級換代的掣肘。
高性能數據分析存儲,加速HPC產業發展
當前,作為數據應用和數據分析的支撐平台,以及 科技 強國的關鍵基礎設施,數據存儲已成為國之重器,在金融核心交易、新型油氣勘探、基因測序、自動駕駛、氣象預測、宇宙 探索 等領域發揮重要作用。數據的存儲與處理能力已經成為提升政府管理水平、提高企業經營效率、增強企業發展韌性的關鍵,數據存儲正成為加速數字化轉型的堅實底座。
新的產業變化以及數據存儲的重要地位,對高端存儲提出了新的挑戰,同時也在加速存儲技術的革新——從HPC部分場景向HPC/HPDA全場景擴展,存儲開始承擔起加速產業向「數據密集型」轉型的重任。根據國際權威分析師機構Hyperion Research 2020年針對HPC市場空間的數據顯示,數據存儲的增速第一,遠高於整體市場平均增速。
高性能數據分析(HPDA)存儲,能夠匹配各HPDA場景的高端存儲,可以讓基因測序、氣象海洋、超算中心、能源勘探、科研與工業創新、智能醫療、深度學習、人臉識別等數據密集型HPDA應用場景,在效率、品質、性價比等方面實現飛躍式提升。
值得注意的是,華為OceanStor Pacific系列下一代高性能數據分析(HPDA)存儲,可以高效應對超高密設計、混合負載設計以及多協議互通上的關鍵挑戰,推動HPC產業向數據密集型升級。目前已經成功應用於自動駕駛、基因測序、氣象預測、衛星遙感等眾多國內外高性能計算場景企業及機構。
存儲作為高性能數據分析的重要引擎,正全面釋放HPC的應用價值,驅動著HPC產業不斷進步,跨越「計算密集型」到「數據密集型」的鴻溝,持續推動人類 社會 繁榮 健康 發展。
㈨ 開展微型數據存儲技術創新研發搶占未來大數據存儲技術高地的建議
我國數據存儲核心技術長期落後,大數據中心按照傳統的 科技 房地產的思路將面臨資源約束。為了防止我國存儲技術「卡脖子」,節省未來海量數據存儲佔地空間,系統化整合資源解決當前中國大數據存儲技術產品的容量問題,建議國家立項 開展微型數據存儲技術創新研發 。
我國數據儲存的現狀和面臨的問題
計算機數據存儲技術是信息技術應用的核心。一切計算機應用數據都需要由物理設備來存儲,以便計算機系統進行讀寫等處理,數據應用與數據存儲恰似樹干與樹根的密切關系。伴隨著信息技術應用的持續高速發展,可以預見未來的數據量必將呈現爆炸式增長,隨之而來的海量數據存儲瓶頸問題必然日趨嚴重,加劇著數據存儲領域長期面臨的容量、安全、性能、擴充、維護、災備、監管等諸多挑戰。其中,容量困境,首當其沖。
當前痛點。 為了滿足數據存儲容量日益增長的需求,大數據存儲中心建設必不可少。放眼當下全國各地的大數據存儲中心建設,由於數據存儲基礎核心技術缺位,流行的模式是不可持續的「 科技 房地產」,即單純拓展佔地面積蓋樓建設數據中心,進而耗費寶貴自然資源。目前我國城市監控視頻圖像數據受限於數據中心存儲容量空間,一般只能保留一個月左右,相關的數據應用嚴重受制。
應用基石。 底層數據存儲是信息產業發展的基石,數據存儲技術產品是信息應用系統的架構基礎,也是我國的關鍵行業技術短板。有效的數據存儲技術產品涉及到所有信息技術應用場景:人工智慧,信息安全,智慧城市,大數據,雲計算,區塊鏈,城市大腦,雪亮工程,城市管理視頻監控,醫學影像識別,等等。
嚴峻局面。 追溯信息技術百年來的發展軌跡,中國在數據存儲基礎技術領域的貢獻幾乎為零。國內數據存儲行業主要擅長於市場側的商業應用創新,數據存儲底層管理的核心技術研發嚴重依賴國外的開源開放。缺乏基礎研發梯隊,沒有關鍵理論 探索 ;沿襲陳舊的發展思路,習於外購器件設備;底層技術積累短缺,核心創新能力薄弱;嚴峻的局面至今沒有重大改變。
危情險勢。 中國在核心存儲產品、底層支撐技術、商業應用理念上長期跟跑,遭受外部勢力釜底抽薪式的「存儲底層關鍵核心技術精準打擊」的隱患和風險極大。面對復雜多變的國際環境,一旦遭遇卡脖子,如外購存儲產品斷貨或核心技術交流封鎖,舉國上下所有涉及信息技術應用的行業領域都必然窒息。從而直接降低相關產業迭代發展速度,掣肘 社會 前進步伐,削弱國家治理能力,進而危及影響到國家的政治和 社會 穩定。
時不我待。 我們需要立即行動起來,通過立項開展微型數據存儲技術創新研發,凝聚國內外數據存儲領域資源力量,構建數據存儲專業核心技術團隊;從研發軟體定義的存儲(數據去重)技術產品入手,填補國內技術產品領域空白;啟動研發微型化(原子級)數據存儲設備,搶占未來數據存儲領域的制高點。這項舉措也是解除我國數據存儲技術產品創新研發「卡脖子」危機的最佳途徑。
開展微型數據存儲技術創新研發的思路
我國應抓住當前數據應用驅動信息技術升級換代的大數據發展 歷史 契機,凝聚國內外資源力量,構建中國數據存儲專業核心技術團隊。近期:研發部署模塊化數據去重技術產品,壓縮海量數據存儲空間需求,填補國內底層數據存儲管理技術空白。遠期:啟動研發微型數據存儲設備,搶占未來數據存儲技術領域的制高點。
從開展微型數據存儲技術創新研發入手,聚焦國際存儲技術領域的戰略性前沿技術趨勢;聯手科研院所、高等院校、生產企業、大型用戶的資源,建設國家級核心技術團隊;積極引進/培養數據存儲技術人才,研發自主可控系列產品。
1.近期跟蹤行業動態
對標國際頂級數據存儲技術產品,砥礪學習底層模塊級數據存儲去重技術,壓縮海量數據存儲空間需求,實現自主可控國產數據存儲技術管理軟體產品的商務應用。基本原理是首先識別出重復的數據模塊,然後優化存儲多個重復數據模塊中的單一模塊,以及同其它重復模塊的鏈接關系。進而減少企業級客戶存儲數據所需的物理空間佔有量,降低采購部署數據存儲設備的增量。
2.遠期重點突出推進
探索 下一代數據存儲技術,整合跨學科資源啟動開展研發微型存儲器,力圖將現有基於磁碟/光碟/磁帶的計算機數據存儲器,轉化為未來基於原子/電子運動狀態的微型化數字信息採集與存取機制。其原理是將現在耗費數百萬個原子的材料介質所表徵的一位「0」或「1」二進制計算機數據,試圖由單個原子狀態變化來表徵。於是,可以將現有數據存儲設備體積縮小數十萬乃至百萬倍,最終將佔地約足球場面積的大數據存儲倉庫縮小為攜帶型器件。
3.研發工作開展建議
開展微型數據存儲技術創新研發應該建設成為國內領先、國際一流的數據存儲技術研究機構、產業孵化溫室、以及人才培養基地。
延攬數據存儲技術專家領銜擔綱咨詢顧問。全球招聘在世界頂級數據存儲公司工作多年的業界精英加盟指導。
構建中國數據存儲技術研發團隊。採用引進師資/開設培訓課程等有效方式,積累培育國內數據存儲技術力量。
結盟矽谷存儲技術研究院。依託美國矽谷地區的數據存儲實體公司,共享數據存儲底層技術知識。
注冊成立企業運營機構。開發軟體定義存儲(數據去重)技術產品,服務數據用戶市場,遵循商務運作規律。
融資涵蓋多種基金渠道。申報獲取國家重大專項基礎項目研發資金,吸引專業投資基金加盟。首期投資約需10億元人民幣(參考國際相關工程估值:美國IBM公司同類項目投資約600億美元/10年)。
推動微型數據存儲技術創新研發的建議
我國在開展新型基礎設施建設的同時,應當抓住當前數據計算應用驅動信息技術升級換代的大數據發展 歷史 契機,建立數據存儲技術的自主知識產權體系,填補國內空白,保障數字中國建設長遠規劃實施,推進國產數據存儲產品崛起,為相關產業發展鋪路。
2.建議遠期緊跟世界主流研發創新步伐,聚焦研發原子級微型化數據存儲技術產品(2020-2040年),在2040年前研發出原子級大數據存儲技術,並逐步實現產業化。
3.建議將微型化數據存儲技術創新作為國家戰略。搭建政產學研用共建共治共享的中國數據存儲技術聯合創新平台,建設國家級重點實驗室。依託科研院所/高等院校/相關企業,奠定從微型數據存儲理論、硬體設計、軟體開發、結構設計、系統集成等一整套原子級微型數據存儲技術研發工作的基礎。
4.建議國家相關部委給予配套資金支持。加快推進原子級大數據存儲技術研發和產業化轉化。支持申報重大 科技 項目和專項扶持資金。
5.建議形成能夠長期從事數據存儲技術創新的人才隊伍。借鑒全球數據存儲技術創新研發經驗,引進海內外數據存儲技術領域頂尖科學家和工程師。在高等院校與科研院所開設數據存儲技術專業課程,搭建完善的國內人才培養體系。
6.建議立項過程不宜採用常規項目申報、審批流程,亟需特事特辦予以批准。主要是有鑒於本項目相關的科研生產領域中,國內現有技術力量薄弱分散,評估體系資源匱乏。
7.建議項目推進應當低調快速務實:不重造勢,不揚虛名,不謀近利。主要是基於當前復雜敏感的國際政治經濟形勢,預計本項目勢將關聯國家核心產業戰略布局,影響未來數十年中國數字經濟命脈與發展。
作 者:中央 財經 大學中國互聯網經濟研究院研究員 歐陽日輝
通訊員:李 翀
戰略性新興產業專題報道 辦事,「刷臉」就行
張家口敢闖敢試、先行先試,積極 探索 氫能產業創新發展的有益路徑
「東數西算」正式啟動,樞紐網路如何建設?
「十四五」浪潮下如何構建城市數據中心網路?
「我為群眾辦實事」北京市發展改革委發布第三批政策工具應用指南
大美密雲 助推新興產業發展
東方測控:打造智能製造示範工廠,引領礦山行業新未來
㈩ 大數據時代,我國數據量究竟有多大
從2013年初開始,對於大數據爆發的焦慮感,緊迫感,不由自主地被捲入的甚至無力的感覺,驅動眾多行業、企業和團體去關注和開始接觸和了解大 數據,自覺或不自覺的,主動或不得已地去融入這波洪流。但是,真的說到大數據,我們中國到底有多少數據量,它們都分布在哪些行業,哪些數據是目 前可用的,哪些行業已經在使用數據,進入產業互聯網和數據引導的變革了?
可能看到的版圖依舊模糊。因此,我們懷抱很好的希望,以第一個吃螃蟹並期待來自行業的矯正和拍磚的態度,首先嘗試對於國內各個領域,行業以 及機構的數據擁有情況,使用情況以及未來路徑做一個粗獷地調研、梳理和判斷,對大數據時代我國各個領域數據資產的擁有和使用情況,也就是我們數 據資產的家底做個盤點,也對各個行業、系統進軍大數據,以及擁抱產業互聯網的進度和未來做個簡單判斷。事實上,大數據之題無疑繁若星辰,然而只 有在相對完整的視圖下,繁星若塵,我們才可得以一窺天機。
從我們手頭掌握的數據來看,2013年度,中國存儲市場出貨容量超過1個EB(1EB=多少),存儲總量而IDC曾經發布的預測表明在未來的3-4年,中國存儲總 容量可能達到18個EB。從數據存儲市場的需求來看,互聯網、醫療健康、通信、公共安全以及軍工等行業的需求是主要的,且上升態勢明顯。
鑒於存儲和伺服器的緊密相關,我們從已經獲得的資料可以知道,目前全球運行的伺服器總量超過5000萬台,美國國內運行的伺服器總體容量接近 1000萬台。從各種市場公開數據來看,2013年中國內地伺服器銷售總數接近為100萬台。大體估算,截止到2013年底,中國內地整體在運行的伺服器總數 量在300萬台以上。
從現有存儲容量看,中國目前可存儲數據容量大約在8EB-10EB左右,現有的可以保存下來的數據容量大約在5EB左右,且每兩年左右會翻上一倍。這些 被存儲數據的大體分布為:媒體/互聯網占據現有容量的1/3,政府部門/電信企業占據1/3,其他的金融、教育、製造、服務業各部分佔據剩餘1/3數據量 。
公開數據顯示,互聯網搜索巨頭網路2013年擁有數據量接近EB級別、阿里、騰訊聲明自己存儲的數據總量都達到了百PB以上。此外,電信、醫療、金 融、公共安全、交通、氣象等各個方面保存的數據量也都達到數十或者上百PB級別。
在目前被廣泛引用的IDC和EMC聯合發布的「2020年的數字宇宙」報告 預測到2020年,全球數字宇宙將會膨脹到40ZB,均攤每個人身上是5200GB以上,這個量將會如何被有效存儲和應用,我們眼下還很難想像。然而我們 看到該報告指出,從現在起到2020年,全球數字宇宙的膨脹率大約為每兩年翻一番。事實上,根據上述調查結論和伺服器容量調查,我們也能做出個相對 合理的推斷:目前,全球產生的數據量中僅有1%左右的數據能夠被保存下來,也就是說今天全球能夠被保存下來的數據也就是在50EB左右,而其中被標記 並用於分析的數據更是不到10%。
作為全球人口和計算設備保有量的大國,我國每年所能產生的數據量也極為龐大,有數據說2014年甚至可能達到ZB級別,但是真正被有效存儲下來的 數據僅僅是其中極微少部分,中國保存下來數據佔全球數據的比例大約在10%左右,也就是上面說的5EB。這些數據中,目前已被標記並用於分析的數據僅 達到500PB左右,也是接近10%的一個比例。
伴隨著雲計算迅速普及和各行業,各企業和部門對於數據資產保存和利用意識的增強,以及通過互聯網、大數據對產業進行變革的意願,未來2-3年一 定會有越來越多的行業、大企業步入到PB、百PB、甚至EB級別數據俱樂部,未來3-3年中國的數據總量也將呈翻倍上升態勢,我們預測2015年中國就可能 突破10EB數據保有量,被標簽和分析利用數據量也將上升到EB級別,這些數據增長中互聯網、政務、醫療、教育、安全等行業和領域所做貢獻最大,而相 對傳統的物流、生產製造、甚至農業等領域數據擁有量的增長將更加明顯。