當前位置:首頁 » 服務存儲 » 大數據存儲和計算部署要求
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

大數據存儲和計算部署要求

發布時間: 2023-08-29 12:13:20

1. 微服務容器平檯面對大數據存儲是怎麼做的

整體而言,大數據平台從平台部署和數據分析過程可分為如下幾步:
1、linux系統安裝
一般使用開源版的Redhat系統--CentOS作為底層平台。為了提供穩定的硬體基礎,在給硬碟做RAID和掛載數據存儲節點的時,需要按情況配置。例如,可以選擇給HDFS的namenode做RAID2以提高其穩定性,將數據存儲與操作系統分別放置在不同硬碟上,以確保操作系統的正常運行。

2、分布式計算平台/組件安裝
目前國內外的分布式系統的大多使用的是Hadoop系列開源系統。Hadoop的核心是HDFS,一個分布式的文件系統。在其基礎上常用的組件有Yarn、Zookeeper、Hive、Hbase、Sqoop、Impala、ElasticSearch、Spark等。
先說下使用開源組件的優點:1)使用者眾多,很多bug可以在網上找的答案(這往往是開發中最耗時的地方)。2)開源組件一般免費,學習和維護相對方便。3)開源組件一般會持續更新,提供必要的更新服務『當然還需要手動做更新操作』。4)因為代碼開源,若出bug可自由對源碼作修改維護。
再簡略講講各組件的功能。分布式集群的資源管理器一般用Yarn,『全名是Yet Another Resource Negotiator』。常用的分布式數據數據『倉』庫有Hive、Hbase。Hive可以用SQL查詢『但效率略低』,Hbase可以快速『近實時』讀取行。外部資料庫導入導出需要用到Sqoop。Sqoop將數據從Oracle、MySQL等傳統資料庫導入Hive或Hbase。Zookeeper是提供數據同步服務,Yarn和Hbase需要它的支持。Impala是對hive的一個補充,可以實現高效的SQL查詢。ElasticSearch是一個分布式的搜索引擎。針對分析,目前最火的是Spark『此處忽略其他,如基礎的MapRece 和 Flink』。Spark在core上面有ML lib,Spark Streaming、Spark QL和GraphX等庫,可以滿足幾乎所有常見數據分析需求。
值得一提的是,上面提到的組件,如何將其有機結合起來,完成某個任務,不是一個簡單的工作,可能會非常耗時。

3、數據導入
前面提到,數據導入的工具是Sqoop。用它可以將數據從文件或者傳統資料庫導入到分布式平台『一般主要導入到Hive,也可將數據導入到Hbase』。

4、數據分析
數據分析一般包括兩個階段:數據預處理和數據建模分析。
數據預處理是為後面的建模分析做准備,主要工作時從海量數據中提取可用特徵,建立大寬表。這個過程可能會用到Hive SQL,Spark QL和Impala。
數據建模分析是針對預處理提取的特徵/數據建模,得到想要的結果。如前面所提到的,這一塊最好用的是Spark。常用的機器學習演算法,如樸素貝葉斯、邏輯回歸、決策樹、神經網路、TFIDF、協同過濾等,都已經在ML lib裡面,調用比較方便。

5、結果可視化及輸出API
可視化一般式對結果或部分原始數據做展示。一般有兩種情況,行熟悉展示,和列查找展示。在這里,要基於大數據平台做展示,會需要用到ElasticSearch和Hbase。Hbase提供快速『ms級別』的行查找。 ElasticSearch可以實現列索引,提供快速列查找。

平台搭建主要問題:
1、穩定性 Stability
理論上來說,穩定性是分布式系統最大的優勢,因為它可以通過多台機器做數據及程序運行備份以確保系統穩定。但也由於大數據平台部署於多台機器上,配置不合適,也可能成為最大的問題。 曾經遇到的一個問題是Hbase經常掛掉,主要原因是采購的硬碟質量較差。硬碟損壞有時會到導致Hbase同步出現問題,因而導致Hbase服務停止。由於硬碟質量較差,隔三差五會出現服務停止現象,耗費大量時間。結論:大數據平台相對於超算確實廉價,但是配置還是必須高於家用電腦的。

2、可擴展性 Scalability
如何快速擴展已有大數據平台,在其基礎上擴充新的機器是雲計算等領域應用的關鍵問題。在實際2B的應用中,有時需要增減機器來滿足新的需求。如何在保留原有功能的情況下,快速擴充平台是實際應用中的常見問題。

上述是自己項目實踐的總結。整個平台搭建過程耗時耗力,非一兩個人可以完成。一個小團隊要真正做到這些也需要耗費很長時間。

目前國內和國際上已有多家公司提供大數據平台搭建服務,國外有名的公司有Cloudera,Hortonworks,MapR等,國內也有華為、明略數據、星環等。另外有些公司如明略數據等還提供一體化的解決方案,尋求這些公司合作對 於入門級的大數據企業或沒有大數據分析能力的企業來說是最好的解決途徑。

對於一些本身體量較小或者目前數據量積累較少的公司,個人認為沒有必要搭建這一套系統,暫時先租用AWS和阿里雲就夠了。對於數據量大,但數據分析需求較簡單的公司,可以直接買Tableau,Splunk,HP Vertica,或者IBM DB2等軟體或服務即可。
-

2. 大數據、高性能環境對存儲的需求

大數據、高性能環境對存儲的需求
一直以來,高性能計算的主要目的就是提高運算速度,來解決大規模科學計算和海量數據的處理問題。高性能計算每秒萬億次級的強大計算能力,使其成為石油、生物勘探、氣象預測、生命科學研究等領域的重要技術選擇。但是隨著數據量以及數據價值的不斷增長,金融、電信、互聯網等領域對高性能計算的需求不斷加大。隨著技術的發展,高性能計算系統的處理能力越來越強,任務的計算時間越來越短,對業務的價值不斷提高。但是,要想實現快速的任務計算處理,高性能計算系統的存儲能力是關鍵。因為在計算開始,要從存儲系統中讀取數據;計算結束時,要向存儲系統中寫入計算後的結果。如果這之間的讀取和寫入速度不匹配,不僅會拖延高性能項目的完成周期,低延遲還會嚴重影響高性能創造價值的能力。通常,高性能計算要求存儲系統能夠滿足性能、可擴展性要求,保護投資回報:吞吐量達到幾個甚至幾十個GB/s,容量能擴展至PB級;透明的訪問和數據共享;集中式的智能化管理,高性價比;可按需獨立擴展容量和性能等。中橋分析師在深圳華大基因研究院實地測試了EMC Isilon 產品在其HPC 環境下的運行情況,並記錄下其結果。
背景
高性能計算(High Performance Computing—HPC )指通常使用很多處理器(作為單個機器的一部分)或者某一集群組織中幾台計算機(作為單個計算資源操作)的計算系統和環境。長期以來,高性能計算應用的主要領域是科學與工程計算,諸如高能物理、核爆炸模擬、氣象預報、石油勘探、地震預報、地球模擬、葯品研製、CAD 設計中的模擬與建模、流體力學的計算等。如今,像金融證券、政府信息化、電信行業、教育、企業、網路游戲等領域對HPC的需求也在迅猛增長。
高性能計算的應用
高性能計算有著廣泛的行業應用基礎,下面列舉幾個行業對高性能計算的應用需求:
1. 航空航天行業
在航空航天行業,隨著中國航空航天事業的快速發展,尤其是載人航天技術的巨大成功,我國科技人員對空氣動力學的數值模擬研究提出了越來越多的需求,常規的計算能力遠遠無法滿足復雜的大型飛行器設計所帶來的巨大需求。在航空航天企業的設計過程中,研究人員往往需要把飛機表面分成幾百萬甚至幾千萬個離散型的網格點,然後通過高性能計算平台求解方程,得出每個網格點的溫度、速度、摩擦力等各種參數,並模擬出連續型的曲線,進而為飛機設計提供寶貴的參考資料。對這類計算來說,網格點分割得越細密,計算結果的精確度也就越好。但是這些大規模設計計算問題不但單個作業計算量龐大,且需不斷調整、重復計算,因此高性能在航天航空行業中占據著舉足輕重的地位。
2. 能源行業
石油能源作為國家戰略資源,對於國家經濟、安全、軍事等各方面都具有非常重要的戰略意義。石油勘探承擔著尋找儲油構造、確定井位的重要任務。目前的主流做法就是人為的製造相應規模的地震(視勘探地區面積與深度不同),同時在相應的地層遍布若干震波收集點。由於不同材料的地質環境對地震波的影響是有規可循的,所以藉助這一點,通過相關的演算法,即可以通過對地震波的傳遞演算來「計算出」地質結構,從而找出我們所需要的能源位置。這種計算量無疑是異常龐大的,由於地震波法勘探收集的數據通常都以TB計,近年來海洋油氣勘探所採集的數據甚至開始向PB規模發展。為此,只有藉助高性能計算,才能在最短的時間內處理這些海量數據。
3. 生命科學
在現代生命科學領域,以數據為驅動力的改變正引發著巨大的變革。海量生物數據的分析將會增強疾病的實時監控能力和對潛在流行病做出反應的能力,但海量數據的挖掘、處理、存儲卻面臨著前所未有的挑戰。特別是隨著新一代測序技術的迅猛發展,基因組學研究產生的海量數據正以每12- 18個月10倍的速度增長,已遠超越著名的摩爾定律,這使得眾多生物企業和科研機構面臨強大的數據分析和存儲需求。
在國內,生物基因行業的發展勢頭也不可小覷。2011年1 月30日,國家發改委已批復同意深圳依託華大基因研究院組建國家基因庫,這是中國首次建立國家級基因庫,首期投資為1500萬元。深圳國家基因庫是一個服務於國家戰略需求的國家級公益性創新科研及產業基礎設施建設項目,是目前我國唯一一個獲批籌建的國家級基因庫,是全球僅次美國、日本和歐洲三個國家級基因庫之後的世界第四個國家級基因庫。現在,該國家基因庫已經收集了100萬GB的生物數據,包含基因組、轉錄組、蛋白質組、代謝組及表型的數據,同時也積累了約四十萬份生物樣本。預計該基因庫最終將達到10億GB級別的數據容量。深圳國家基因庫和國際上已有的基因庫相比,它的特點是既有「濕庫」也有「干庫」:前者把千萬種實體的動植物、微生物和人類組織細胞等資源和樣本納入網路;後者匯集巨量的核酸、基因表達、蛋白、表型等多類數據信息,成為「大數據」生物學時代研究生物生長發育、疾病、衰老、死亡以及向產業化推廣的利器。
4. 金融行業
金融說到底就是數據。在金融市場中,擁有速度就意味著更高的生產力和更多的市場份額。金融計算模型相當復雜,數據收集越多,計算結果越精確。金融分析師都迫切地需要一個能模擬復雜現實環境,並進行精確處理的金融計算程序,以便對每個投資產品及時地評估投資收益,衡量投資風險,以期獲得更好的投資回報。也正因此,高性能計算已經越來越多地應用到全球資本市場,以期在最短時間內實現對市場的動態響應與轉換。
5. 氣象預報
世紀二十年代初,天氣預報方程已基本建立。但只有在計算機出現以後,數值天氣預報才成為可能。而在使用並行計算機系統之前,由於受處理能力的限制,只能做到24小時天氣預報。高性能計算是解決數值預報中大規模科學計算必要手段。採用高性能計算技術,可以從提高解析度來提高預報精度。
6. 游戲動漫和影視產業
隨著3D、4D電影的興起和高清動漫趨熱,由高性能計算(HPC )集群構成的「渲染農場」已經成為三維動畫、影視特效公司不可或缺的生產工具。動漫渲染基於一套完整的程序進行計算,從而通過模型、光線、材質、陰影等元素的組合設定,將動漫設計轉化為具體圖像。以《玩具總動員》為例,如果僅使用單台工作站(單一處理器)進行動畫渲染,這部長達77分鍾的影片的渲染時間將會是43年,而採用集群渲染系統,只需約80天。

3. 大數據採集與存儲的基本步驟有哪些

數據抽取



針對大數據分析平台需要採集的各類數據,分別有針對性地研製適配介面。對於已有的信息系統,研發對應的介面模塊與各信息系統對接,不能實現數據共享介面的系統通過ETL工具進行數據採集,支持多種類型資料庫,按照相應規范對數據進行清洗轉換,從而實現數據的統一存儲管理。



數據預處理



為使大數據分析平台能更方便對數據進行處理,同時為了使得數據的存儲機制擴展性、容錯性更好,需要把數據按照相應關聯性進行組合,並將數據轉化為文本格式,作為文件存儲下來。



數據存儲



除了Hadoop中已廣泛應用於數據存儲的HDFS,常用的還有分布式、面向列的開源資料庫Hbase,HBase是一種key/value系統,部署在HDFS上,與Hadoop一樣,HBase的目標主要是依賴橫向擴展,通過不斷的增加廉價的商用伺服器,增加計算和存儲能力。



關於大數據採集與存儲的基本步驟有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。

4. 大數據存儲與應用特點及技術路線分析

大數據存儲與應用特點及技術路線分析

大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。

大數據存儲與應用的特點分析

「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。

大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。

(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。

相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。

(2)大數據由於其來源的不同,具有數據多樣性的特點。

所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。

大數據存儲技術路線最典型的共有三種:

第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。

這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。

第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。

第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。

以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨

5. 大數據時代需要什麼樣的存儲

眾多專家認為,大數據時代的存儲,應當是分布式的存儲,並呈現出與計算融合的趨勢。當然,不同專家對融合的理解也有所區別。 SNIA-China技術委員會主席雷濤表示,在當前的大數據時代,由於數據量TB、PB級的急劇膨脹,傳統的數據搬移工作已經不現實,因而存儲伺服器出現新的融合趨勢。在這樣的架構中,數據不再移動,寫入以後分散在STORAGE,它的計算節點融合在數據旁邊的CPU,數據越來越貼近計算。 雷濤補充說,大數據只談商業分析的數據支持,這是小數據思維,從金融、運營商、政府行業我們做的項目裡面發現,大數據是嵌入到整個行業裡面,替換以前的存儲和計算的系統架構的過程。 華為存儲產品線Marketing部長經寧認為,大數據帶來的三大變化,包括從集中式走向分布式,從水平走向縱向,從計算為中心轉向以數據為中心,總結一句話,即在大數據下架構方向走向分布式存儲的架構。 2013年,華為存儲產品線把理念進行升級,變成「存以致用,融以致遠」。經寧表示,融合架構是我們面對大數據挑戰一個很好的選擇。華為更多的希望把數據智能用起來產生價值,通過融合架構實現計算存儲融合,可以帶來更高的管理效率更高效能,大大降低我們管理上的開銷。 中橋國際調研咨詢公司首席分析師王叢女士則從虛擬化、雲計算數據保護和融合架構三個維度談了中國數據中心的發展變化。她表示,具有高可移動性的虛擬機用於生產,掉了鏈子就很難判斷是哪個物理環境,這就驅動了融合架構。融合架構避免了整合的時間和網路問題判斷的時間,能夠實現統一集中透明管理,可以根據工作負載去實時動態配置資源,也可以實時監控哪裡出了問題,怎麼解決問題。 王叢還指出,融合架構有不同的形態,其中一種是在原來硬體基礎上用一個軟體罩上,然後形成融合架構,實現目的是可以在線擴展,所有動態可以負載均衡,在最大限度提高部署效率前提下,又能夠降低因為硬體問題而導致的應用性能降低和應用的不穩定。 老牌存儲廠商NetApp同樣對存儲架構很有體會。NetApp公司北方區及電信事業部技術總監劉煒表示,在今天把數據存起來不是很難的問題,買一個移動硬碟就可以存儲數據,但是在上面存儲享受的服務級別不同的,不同於放在數據中心和網路雲上面的服務級別的。 為了不讓數據成為整個企業發展的負擔,而是成為真正的價值點,從資料變成資產,基礎架構需要快速、安全地支持一些新的技術手段。劉煒認為,應用級別和服務級別怎麼定義需要有很好存儲架構。NetApp集群存儲系統,並不是簡單地迎合新概念,而是面向實際的應用設計。NetApp做了很多IT架構的設計,滿足應用分級、資源分層的需求,你可以用虛擬化,也可以不用。 Fusion-io大中國區技術總監Tonny Ai與英特爾公司通信和存儲基礎架構事業部存儲部市場總監 Christine M Rice女士談到了SSD在大數據時代數據中心的應用。Tonny Ai表示,讓包括非結構化數據的大量數據快速變成信息,不僅僅是伺服器要快,存儲速度也要跟上CPU的速度,快閃記憶體正是針對當前網路存儲速度落後的解決方案,能夠有效提高存儲的性能。 同時,Tonny Ai認為,在雲計算、大數據時代,集中式存儲需要的管理和維護非常困難,分布式存儲模型是大勢所趨。在這其中,Fusion-io提供了PCIe快閃記憶體卡、全快閃記憶體陣列以及SDK工具,支持提升各種應用的性能。 Christine M Rice女士指出,SSD不只是讓數據變快。她認為,通過SSD在數據中心的使用,能夠幫助節約成本,降低延遲,加快訪問數據的速度,同時還能夠提供非常高的可靠性和管理級別,結合了DRM的使用進行軟體分層管理。 戴爾亞太存儲技術總監許良謀則強調了SSD的利用要在成本和性能之間的平衡,如何更好地應對大數據——快閃記憶體的成本和壽命讓很多企業對它愛恨交加。許良謀認為,大數據需要一個高容量高速度的共享存儲,戴爾的流動數據架構就是一個讓數據平滑遷移的平台。 戴爾實現了一個新的技術突破,即快速SLC和eMLC大容量盤可以用到流動架構裡面,再加上普通的大容量盤,兩級固態盤優化和流動數據架構的配合,這種方案可以比普通純快閃記憶體的方式實現75%以上的成本節約。 許良謀介紹到,戴爾一直通過收購、合作等方式,在自身產品線中不斷引入新的存儲技術,力圖把最好的存儲產品以最經濟的方式提供給用戶。

6. 大數據對存儲平台有哪些特殊要求

伴隨著安防大數據時代的來臨,安防行業原有的存儲技術已經無法滿足行業發展新需求,尤其是公共安全視頻監控建設聯網應用工作對數據聯網共享提出了更高的要求,同時以「實戰」為根本的公安業務中,大數據深度挖掘極度依賴數據存儲系統對非結構化數據分析再處理。雲存儲技術的出現,在安防行業大數據發展時代無異於革命性的應用,不斷地解決了安防存儲難題,同時也為視頻監控的深度應用與發展提供強大的驅動力。

當今世界,每個人的一言一行都在產生著數據,並且被記錄著。各行各業爆炸式增長的數據,正推動人類進入大數據時代。根據相關統計,2017年全球的數據總量為21.6ZB,目前全球數據的增長速度在每年40%左右,預計到2020年全球的數據總量將達到40ZB。數據增長在安防行業表現得尤為明顯,在近兩年「平安城市」、「 智能交通」、「 雪亮工程」等不斷開展和深入的過程中,以視頻監控為核心代表的行業發展正朝著超高清、智能化和融合應用的方向邁進,系統性工程中現有視頻監控系統數據採集量正在呈線性增長。海量數據的出現對高效、及時的存儲和處理的要求不斷提升。  

從目前行業來看,大數據時代的到來,系統性工程中視頻監控系統對存儲主要有以下幾方面的需求:  

一是海量數據及時高效存儲,根據現行的技防法規及標准,一般應用領域視頻監控系統數據採集是7x24小時不間斷的,系統採集的音視頻信息資料留存時限不得少於30日,針對案(事)件信息以及一些特殊應用領域視音頻資料存放時間更長,甚至長期保留,數據量隨時間增加呈線性增長。  

二是監控數據存儲系統需要具備可擴展性,不但滿足海量數據持續增加,還需要滿足採集更高解析度或更多採集點的數據需要。  

三是對存儲系統的性能要求高。與其他領域不同,視頻監控主要是視頻碼流的存儲,在多路並發存儲的情況下,對帶寬、數據能力、緩存等都有很高的要求,需要有專門針對視頻性能的優化處理。  

四是大數據應用需要數據存儲的集中管理分析。但現實情況卻恰恰相反,一方面是系統性工程在分期建設的過程中,采購的設備並不能保證為同一品牌,實際項目中多種品牌、多種型號比比皆是,給視頻監控的存儲集中管理帶來很大難度。同時,在一些大型的項目中,例如特大城市「天網工程」,高速公路中道路監控所跨區域較大,集中存儲較為困難。另外,受網路帶寬及老舊設備影響,系統難以形成統一存儲、統一監控的中心體系架構,導致數據在應用中調取不及時。  

總體來看,隨著系統性安防項目的深入開展以及物聯網建設初露崢嶸,大規模聯網監控的建設和高清監控的逐步普及,海量視頻數據已經呈現井噴式地增長,並沖擊著傳統的存儲系統,遺憾的是原有的存儲系統無法滿足大數據時代提出的新要求,亟需新的存儲技術支撐現有業務模式,同時為人工智慧技術在安防領域施展拳腳拓展新的空間。