A. 大數據存儲與應用特點及技術路線分析
大數據存儲與應用特點及技術路線分析
大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
大數據存儲與應用的特點分析
「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。
大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。
(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。
相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。
(2)大數據由於其來源的不同,具有數據多樣性的特點。
所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。
大數據存儲技術路線最典型的共有三種:
第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。
這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。
第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。
第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。
以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨
B. 大數據和傳統數據存儲的區別
沒什麼關聯性 大數據是海量數據、是一種現狀、一種解決問題的手段 傳統數據存儲是存儲的問題
C. 大數據時代的安防數據存儲安全
大數據時代的安防數據存儲安全
近幾年隨著平安城市、智能交通、智能樓宇等行業的快速發展,大集成、大聯網推動安防行業進入了大數據時代。安防行業大數據的存在已經被越來越多的人熟知,特別是安防行業海量的非結構化視頻數據,以及飛速增長的特徵數據(卡口過車數據、人像抓拍數據、異常行為數據等),帶動了大數據的數據安全一系列問題,吸引著行業的關注。
大數據引發監控數據安全性問題突出
大數據的本質是系統通過處理採集到的所有數據,去提取其特徵和共性的信息。通過大數據的處理使得所有的數據都有價值。通過大數據的處理,把傳統認為沒有價值的信息也能夠產生非常有價值的信息,這就叫做數據挖掘。同樣的數據擺在我們面前不同的挖掘方法,不同的挖掘目標可以為各種各樣的業務的應用產生有價值的信息。對於安防行業,監控技術如今正面臨日新月異的變革,模擬視頻監控正在向IP網路監控轉變,巨大轉變的同時對安全性也提出了更高的要求。我們探討數據安全,包括產品本身的物理安全和產生數據的安全。所以,大數據時代引發監控數據安全性問題有以下幾點:
1、基礎設備的風險:包括監控中心的存儲設備、伺服器和前端節點設備的安全性、網路設備的安全性、傳輸線纜的安全性等。設備的安全可靠是整個大數據安防系統安全運行的基礎。
2、信息存取的風險:包括用戶非法訪問、數據丟失、數據被篡改等。系統信息的安全,主要運用各種加密技術、存儲技術、及備份方案來達到系統信息的安全。
3、信息在網路上傳輸的風險:包括視頻信息、錄像數據信息、用戶信息等在傳輸過程中保密性、完整性的保障以及傳輸鏈路上的節點設備的安全。另外還包括前端採集設備、社會監控資源接入公安監控專網的安全。
4、系統運行的風險:包括接入設備的識別和認證、設備運行故障、軟體病毒、惡意代碼、以及設備控制的優先順序調度等。系統運行時的風險控制主要依靠視頻監控軟體平台來保障,該軟體平台可以完成設備管理、故障監控、訪問控制、用戶管理、鑒權機制等一系列的功能來保障整個系統的安全運行。
基於以上4點,從存儲設備的角度我們主要談及前面兩點。
大數據也催生監控存儲方式變革
在一個時代下,必然會發生諸多變革。
視頻監控的存儲技術和介質從VCR模擬存儲、DVR數字存儲,逐漸向NVR、NAS、SAN等網路存儲發展。而在存儲方式上,主要有集中式存儲和分布式存儲兩種。大數據意味著海量的數據,也意味著更復雜、更敏感的數據,這些數據會吸引更多的潛在攻擊者。為此,我們關注點是,大數據下的信息安全問題將衍生新的機遇,提升安防的價值。
隨著安防形勢的復雜多變和大數據時代的來臨,對視頻錄像文件分析的需求越來越多。視頻監控系統中也越來越多的使用了高級的數據存儲設備和系統,例如專業的磁碟陣列系統等等。同理,安防行業使用這些專業存儲設備時,需要充分了解這些軟硬體的特性,而不要僅僅把它們當作超級外接大硬碟來使用。在系統設計和實施過程中可以充分利用這些設備中自帶的一些數據保護軟體來保護自己的數據。常用和流行的數據安全保護技術主要有以下七種:
磁碟陣列:磁碟陣列是指把多個類型、容量、介面甚至品牌一致的專用磁碟或普通硬碟連成一個陣列,使其以更快的速度、准確、安全的方式讀寫磁碟數據,從而加快數據讀取速度、提高數據保存的安全性。
SAN:SAN允許伺服器在共享存儲裝置的同時仍能高速傳送數據。這一方案具有帶寬高、可用性高、容錯能力強的優點,而且它可以輕松升級,容易管理,有助於改善整個系統的總體成本狀況。我們推薦FCSAN方案,它能為大數據時代的視頻監控,相較於IPSAN方案,大幅減少存儲設備台數,從而大幅降低成本,在數據安全方面由於自身設備超高的穩定性和性能來得以保障。
數據備份:備份管理包括數據備份的計劃,自動操作,備份日誌的保存。
雙機容錯:雙機容錯的目的在於保證系統數據和服務的在線性,即當某一系統發生故障時,仍然能夠正常的向網路系統提供數據和服務,使得系統不至於停頓,雙機容錯的目的在於保證數據不丟失和系統不停機。
NAS解決方案通常配置為作為文件服務的設備,由工作站或伺服器通過網路協議和應用程序來進行文件訪問,大多數NAS鏈接在工作站客戶機和NAS文件共享設備之間進行。這些鏈接依賴於企業的網路基礎設施來正常運行;NAS提供視頻監控系統後期視頻文件批量處理分析的基本可能。
數據遷移:由在線存儲設備和離線存儲設備共同構成一個協調工作的存儲系統,該系統在在線存儲和離線存儲設備間動態的管理數據,使得訪問頻率高的數據存放於性能較高的在線存儲設備中,而訪問頻率低的數據存放於較為廉價的離線存儲設備中;視頻錄像的歸檔可以充分利用高級存儲設備的數據遷移手段;分層存儲有效降低存儲系統的整體成本。
異地容災:以異地實時備份為基礎的、高效的、可靠的遠程數據存儲,在各單位的IT系統中,必然有核心部分,通常稱之為生產中心。往往給生產中心配備一個備份中心,改備份中心是遠程的,並且在生產中心的內部已經實施了各種各樣的數據保護。不管怎麼保護,當火災、地震這種災難發生時,一旦生產中心癱瘓了,備份中心會接管生產,繼續提供服務;視頻監控的多中心配置越來越多,各個中心的系統和數據容災應該借鑒IT的容災技術考慮。
結束語
大數據是繼雲計算、物聯網之後信息產業當前科技創新、產業政策及國家安全領域的又一次知識新增長點。在大數據的背景下信息安全面臨著很多的挑戰,特別是現階段視頻監控已有的信息安全手段已經不能滿足大數據時代的信息安全的實際要求,因此研究大數據時代視頻監控所面臨的信息安全問題具有重要意義。
以上是小編為大家分享的關於大數據時代的安防數據存儲安全的相關內容,更多信息可以關注環球青藤分享更多干貨
D. 大數據、雲計算有什麼關系
大數據,通常情況下,既指數據本身,也指實現大數據處理的技術;而雲計算,則可以理解為硬體資源的虛擬化,大數據由於規模大,必然無法用單台的計算機進行處理,而這時候就需要依託雲計算的分布式處理、分布式資料庫和雲存儲、虛擬化技術。
大數據與雲計算的關系,本質上講,雲計算強調的是計算能力;而大數據強調的是處理、計算的對象。二者並不是孤立存在的,而是相互關聯的。
雲計算中的重要組成部分既是基礎設施還是存儲設備;大數據提供給用戶的服務需要對數據進行處理,主要落腳在對數據的加工上。因此,雲計算與大數據兩者密不可分。
雲計算的存儲和計算能力以及分布式結構,都為大數據的商業模式提供了實現的可能。「大數據」要求能夠處理幾乎所有類型的海量數據,例如文檔、圖片、視頻、音頻、微博、電子郵件等,而且要求處理的速度非常高,幾乎實時。因為這些大量數據的計算需要面向最普通的用戶,所以必須是廉價的,因此其所應用的基礎硬體設施都要求低成本。
而雲計算提供了這些價格低廉的基礎設施,使用戶能夠按照需求獲得相應的服務,雲計算的分配機制滿足了大數據系統中海量、多種類型數據的存儲和計算要求,使大數據的實現成為可能。
E. 大數據對於數據中心基礎設施有何意義
大數據對於數據中心基礎設施有何意義
今天,我們可以從各種各樣的渠道來源收集和存儲數據,如網上交易、社交媒體活動、移動設備和自動化感測器等等。而軟體的發展始終為新硬體的改進鋪平了道路。在這種情況下,大數據的計算和存儲需求無疑正推動著存儲硬體、網路基礎設施和不斷增長的新的計算需求處理方式的發展。對於大數據分析而言,最重要的基礎設施莫過於存儲設備了。
容量能力
那些超過PB級規模的數據即可被認為是大數據。隨著數據量的飛速增長,企業的存儲設備也必須是高度可擴展的、且靈活的,以保證整個系統不會被打亂,進而重新增加存儲。大數據轉化為大量的元數據,所以傳統的文件系統無法支持。為了減少可擴展性,面向對象的文件系統應該是靈活的。
關於延遲性
大數據分析涉及到對社交媒體和交易數據的跟蹤,這需要利用實時的戰術決策。因此,大數據存儲不能出現延遲狀況或過時數據的狀況。有些應用程序可能需要實時數據的以便進行實時的決策。存儲系統必須能夠在不犧牲性能的情況下向外擴展,這可以通過實施一個基於快閃記憶體的存儲系統來實現。
保證正常訪問
由於大數據分析是用於跨多個平台和主機系統,需要有一個更大的交叉引用數據,並將所有這些結合在一起,以便提供一個形象圖。因此,存儲設備必須能夠在同一時間處理來自不同源系統中的數據。
安全性
由於交叉引用數據處於一個新的水平,會產生更大的形象圖,新數據級別的安全注意事項可能需要考慮現有IT場景。存儲設備應該能夠在不犧牲可擴展性或延遲性能的前提下處理這些類型的數據級別的安全需求。
成本因素
大數據項目也會涉及到大的成本。大數據分析所需的最昂貴的組件是存儲設備。某些技術像重復數據刪除可以使用磁帶備份、數據冗餘和構建定製的硬體,而不是使用市場上可以買到的任何可用的存儲設備,這樣可以幫助企業顯著降低成本。
靈活性
大數據通常採用商業智能應用程序,這需要數據集成和遷移。然而,考慮到大數據的規模,存儲系統需要修復而不能涉及任何數據的遷移需求,同時需要有足夠的靈活性以適應不同類型的數據源,再次,也不能以犧牲性能或延遲性為代價。企業應謹慎考慮所有當前和未來可能的使用情況和場景,以進行存儲系統的規劃和設計。
F. 大數據、雲存儲的時代已經來臨
大數據、雲存儲的時代已經來臨
在文章中,筆者簡單闡述了兩種監控攝像目前的市場狀況,也談到了高清監控設備產生的海量數據,對存儲設備的沖擊。在流量較少的區域,採用支持移動偵測的監控攝像機,確實能為後端存儲設備減輕壓力,但對於要求7*24小時工作的監控攝像機來說,壓力似乎還是存在的,如何緩解並有效的管理這些數據,成了目前安防企業需要考慮的問題。
口號OR行動
雲計算、大數據、雲存儲等概念相繼提出,立刻成為時下的熱點話題,幾乎各行各業都對它未來的發展,提出了美好的設想。
確實如此,大數據、雲存儲的深入發展,確實給高清監控設備產生的大量數據帶來了福音,不僅有效的存儲及管理數據,而且這些海量數據不再是孤立的,所有安防數據可以實現資源共享,為後期大量的分析提供數據支撐。
對於安防企業的影響
對於安防企業,首先在營銷模式上會發生變化,企業不再單一的為用戶提供設備,可以由服務著手。安防廠商可以為用戶設計方案並提供設備,用戶只需按期向安防企業繳納服務費,相當於把企業的安防部分託管給安防廠商,企業本身也不必再為這些復雜而專業的問題苦惱。對於安防企業,用戶增加了對自己的依賴,為後期的二次營銷帶來可能。
對於託管服務,早已不是什麼新鮮事,眾多企業都將人力、IT服務外包給專業公司,由他們幫忙打理這些瑣碎的雜事,而企業自身只會專注屬於自已的領域。
對各行業的影響
對於道路交通。
智能交通概念的提出,不僅僅是道路的監控,其涉及的是人、車、路三者的關系,如何有效的管理他們的關系,成為城市發展的重要因素。
眾所周知,城市化道路壓力日益嚴重,道路擁堵不堪,智能化交通勢在必行。但海量的交通數據對於監管部門來說,壓力不是一般的大,大數據、雲存儲的應用,對於智能交通的數據共享提供了可能,通過智能分析功能,監管部門可以清楚哪條道路在什麼時間段內擁堵最為嚴重,哪段道路多出現交通事故,對於針對性的監管提供了數據支持,可以在事故多發路段假設警示牌等。
對於醫療行業。
智慧醫療概念的提出,立刻引起軒然大波,最近網上有關醫療安防的信息非常多,如何有效的處理醫患之間的關系,也是智慧醫療重點的研究問題。
針對掛號難這一問題,各大醫院已經紛紛出台網上掛號平台,大大減輕了掛號窗口的壓力,在掛號大廳,醫院也設立的多台掛號機,也緩解大量就醫人員的掛號問題。
掛號平台、掛號機的應用,是向智慧醫療平台的過度階段,相信不久的將來,醫療行業會融入更多高新技術,使醫療服務更智能化。大數據的應用,對於醫療行業也有很大的幫助,能有效的分析目前醫療技術的走勢、哪種疾病在什麼季節多發等等。
對於學校。
學校的安全問題,一直以來是監管部門管理的重點,學校暴力事件時有發生,青少年叛逆思想嚴重,如何有效的管理校園安全,也是當下亟待解決的問題。
除了保護學生安全,對於校內盜竊案件的發生也有很大幫助。大數據、雲計算的深入應用,幫助學校分析校園安全,青少年暴力事件發生頻率及階段,都有極大的借鑒意義。
對於公安系統。
社會的安全穩定,可以為人們提供一個良好的居住環境,但犯罪事件時有發生 ,犯罪形式更是多種多樣,如何行之有效的管理及監控不法分子,是相關管理人員考慮的頭等大事。
在重點路段、街道部署監控攝像機,對刑事案件的偵破提供了更多依據,能夠有效的減少犯罪事件的發生。大數據、雲計算的應用,針對海量監控資料進行智能分析,有效的分析犯罪事件的多發地點、多發時間,彌補監控系統的空白區域,爭取做到零死角監控,減少犯罪事件的發生,保障大家的安全。
大數據、雲存儲的相繼應用,對於安防監控行業發展意義重大,雲存儲不僅可以有效的存儲大量數據,還能通過智能化分析,為各行各業提供數據支撐。在未來,大數據、雲存儲在智慧城市、物聯網、智慧醫療、智能交通領域,一定會大放異彩。大數據、雲存儲的時代已經來臨,雲安防還會遠么?
G. 大數據的快速發展離不開存儲技術,CPU處理能力的提升,各種終端設備可以隨時隨
大數據時代,大數據分析與應用大肆盛行。越來越多的大公司大企業大集團,都越來越重視大數據的影響和作用。可以說,誰想搶得大數據的一手可靠資料,誰就在未來的業務發展和拓寬中占據優勢,誰就會在相關領域首先拔得頭籌。但是,大數據發展前景現在到底如何,大數據的可靠性由誰說了算,大數據的真實性有誰可以保證?甚至還可以再倒退一點點來問問,如今的大數據究竟發展到了什麼階段?
我想,應該很少人能夠清楚地知道這一點吧!畢竟在大數據分析與應用火爆的年代,一般人都只是了解大數據的皮毛和表面,而對於大數據發展前景、大數據背後的來源及處理分析等等精密的工作程序,肯定不了解,也不會感興趣。而且對於一般人,也不可能會去真正弄明白大數據分析與應用背後蘊藏的種種可靠性、客觀性、真實性的來源支撐與科學手段處理。下面,小編就用大白話的方式來跟大家講講,如今的大數據究竟發展到了什麼階段,由此來窺探一下大數據發展前景到底是怎麼個情況。
在日新月異且喜新厭舊的技術初創企業界,已有3年歷史的 「大數據」 聽起來似乎已經有點過氣。雖然 Hadoop 在 2006年 已經出來,但 「大數據」 這個概念大概是在 2012 到 2015年左右才真正火起來的。也就是在這段時間里,至少是在媒體或者專家眼裡,「大數據」 才開始慢慢成為了新的 「金子」 或者 「石油」。然而,至少在我跟業界人士交談中,大家越來越感覺到這項技術已經在某種程度上陷入了停滯或迷惑期。2017年可能是數據領域的那些酷小子轉移興趣,開始沉迷於 AI 以及機器智能、深度學習等許多相關概念的年份。
拋開不可避免的炒作周期曲線態勢不管,我們的 「大數據版圖」 已經進入第 4 個年頭了,趁這個時候退一步來反思一下去年發生了什麼,思考一下這個行業的未來會怎樣是很有意義的,看看如今的大數據到底發展到了什麼階段。那麼 2019年大數據到底還有多大的發展和進步空間呢?我們不妨探討一下。
企業技術=艱苦工作
大數據有趣的一點在於,它不再像當初經歷過那樣有可能成為炒作的題材了。
經過炒作周期後仍能引起廣泛興趣的產品和服務往往那些大家能夠接觸、可以感知,或者與大眾相關聯的:比如移動應用、社交網路、可穿戴、虛擬現實等。
但大數據基本上就是管道設施的一種。當然,大數據為許多消費者或商業用戶體驗提供了動力,但它的核心是企業技術:資料庫、分析等,這些東西都是在後端運行的,沒幾個人能看得見。就像在那個世界工作的任何人都知道那樣,用一個晚上的時間就想適應企業端的新技術是不可能的。
H. 大數據中,大數據存儲和大數據分析技術這兩者的關系是怎樣的
大數據存儲的目的是支撐大數據分析。到目前為止,這兩種技術還是兩種截然不同的計算機技術領域:大數據存儲致力於研發可以擴展至PB甚至EB級別的數據存儲平台;大數據分析關注的是在最短時間內處理大量不同類型的數據集。
I. 分布式存儲和大數據有什麼關系
當數據越來越大的時候,就設計到存儲了。像hadoop就提供了分布式存儲技術HDFS,還有Ceph。Ceph目前在國內剛興起,前景很大,很多大公l司像阿里,元核雲,騰訊都在做。
J. 大數據時代下存儲新價值
大數據時代下存儲新價值
大數據正在成為眾多企業單位的重要的工具,而隨著數據本身的加速增長,用戶們所部屬的存儲變得越來越重要。而由於用戶面臨的各種挑戰,比如實施分析工具和掌控大型數據文件等,用戶首先需要了解大數據與存儲的關系。
惠普亞太和日本地區存儲產品部某專家為記者分析了二者之間的關系,主要包括兩個方面:第一是對象存儲這個全新的概念,主要涉及到社交媒體以及設備相關的存儲方式;第二是大數據最重要的問題-搜索和發現數據,如果你無法高效地搜索到數據,存儲的價值也盪然無存。
大數據激發「對象存儲」潛能
而談到大數據中重要的非結構化數據,其表示,這需要具體區分為半結構化數據和非結構化數據,這些都直接影響到了用戶數據的存儲方式和架構。
這就需要提到「對象存儲」,解釋了「對象存儲」對大數據的意義,非結構化數據特別是基於雲服務數據的屬性大部分是靜態的,生成之後很長一段時間不會發生變化。但經常讀取大量靜態數據對存儲需求變革的發展帶來很多的影響,這就產生了「對象存儲」的概念。「對象存儲」是一種傳統的文件格式,但不斷地適應目前對象性的數據的變化。對象性的數據可以幫助我們克服過去文件系統技術的局限。我們看到大數據很多產生於各種各樣的社交媒體以及數字感測器,也就是終端設備,包括智能手機、平板電腦以及監控攝像頭等,這些設備都帶來了大數據的增長,也催生了「對象存儲」的巨大需求,所以「對象存儲」對大數據的影響很大。
他最後表示,要讓大數據真正實現價值,必須提高搜索和發現能力。即通過搜索相關的索引或者元數據的標簽這樣的工具來發現和搜索數據。用一個小故事來說明,人們原來花65000秒在草堆裡面找到了一根銀針(代指數據的價值),類似於中國的「大海撈針」,而現在通過大數據的分析能力,能在幾秒,甚至不到一秒鍾內快速地發現數據並獲得價值。