『壹』 海量信息存儲的發展歷程
我也是她班的~~~~檔案的。。。。
在各種應用系統的存儲設備上,信息正以數據存儲的方式高速增長著,不斷推進著全球信息化的進程。隨之而來的是海量信息存儲的需求不斷增加。雖然文件伺服器和資料庫伺服器的存儲容量在不斷擴充,可還是會碰到空間在成倍增長,用戶仍會抱怨容量不足的情況,也正是用戶對存儲空間需求的不斷增加,推動海量信息存儲技術的不斷變化。
海量信息存儲早期採用大型伺服器存儲,基本都是以伺服器為中心的處理模式,使用直連存儲(Direct Attached Storage),存儲設備(包括磁碟陣列,磁帶庫,光碟庫等)作為伺服器的外設使用。隨著網路技術的發展,伺服器之間交換數據或向磁碟庫等存儲設備備份時,都是通過區域網進行,這是主要應用網路附加存儲(Network Attached Storage)技術來實現網路存儲,但這將佔用大量的網路開銷,嚴重影響網路的整體性能。為了能夠共享打容量,高速度存儲設備,並且不佔用區域網資源的海量信息傳輸和備份,就需要專用存儲網路來實現。
『貳』 計算機存儲系統發展的研究方向有哪些
1)內存儲器與外存儲器(或主存儲器與輔助存儲器):
2)cpu——cache
存儲層次:由於主存儲器的讀寫速度低於cpu的速度,而cpu每執行一條指令都要訪問內存儲器,所以cpu總是處於等待狀態,嚴重降低了系統的效率。引入cache後,在cache內保存著主存儲器內容的部分副本,cpu在讀寫數據時首先訪問cache。由於cache的速度與cpu相同,因此cpu就能在零等待狀態下迅速地完成數據的讀寫。
3)、cache——內存儲器存儲層次:當cache中不含有cpu所需的數據時,cpu才去訪問內存儲器。此時用一個存儲器讀取周期的時間從內存中讀出這個數據後送到cpu,並且,把含有這個數據的整個數據塊從內存送到cache中。
4)、內存儲器——外存儲器存儲層次:當一個程序需要執行時,計算機必須將其程序通過一定的調度演算法從外存調入內存。cache-
>內存儲器-
>外存儲器:其容量越來越大,但讀寫速度越來越低。
『叄』 油氣田地震勘探資料存儲的實踐與應用
李紅霞1 符京生1 張永勝2 惠玉鳳2
(1.中石油長慶油田公司檔案館;2.中石油東方公司研究院長慶分院)
摘要 為搶救和保護地震勘探數據磁帶檔案,改變長期以來地震磁帶容量利用率低,保管成本高的現狀,長慶油田應用地震資料全容量存儲技術,完成了地震勘探數據載體的轉換,實現了地震磁帶全容量存儲,有效解決地震勘探數據保存和再組織問題,效果顯著。本文介紹了長慶油田地震資料全容量存儲技術開發的背景、研究成果及應用實施情況。
關鍵詞 地震勘探數據 磁帶存儲 容量利用率 測線標簽 磁帶操作程序
地震勘探數據磁帶是油氣勘探的重要資料,是地震勘探工程施工成果的載體,是物探科技工作者智慧的結晶,是企業的寶貴財富。石油天然氣行業標准亦規定磁帶為地震勘探數據成果長期和永久保存介質,這一管理形式在油田企業一直沿用至今。近年來,隨著地震勘探技術水平的發展,施工設備的更新換代,存儲技術的不斷發展,傳統的保管利用模式已無法適應現代化辦公條件下生產科研工作的需求,加之所保存的地震勘探資料時空跨度大,嚴重製約著磁帶檔案的規范化、標准化、現代化管理水平的發展,潛藏著因歷史資料載體到期老化等因素致使數據無法正常讀取和使用的巨大風險。基於此,長慶油田開展了將庫存地震勘探數據由低密度磁帶向新型高密度磁帶的數據轉儲工作,探索出地震勘探數據磁帶全容量存儲技術,從根本上解決了地震勘探數據磁帶檔案管理中的諸多問題。
1 長慶油田地震勘探數據磁帶管理現狀
長慶油田檔案館保存著迄今為止30多年來在鄂爾多斯盆地及其周邊地區採集的全部地震勘探原始及成果數據磁帶,是長慶油田唯一的地震勘探檔案集中保管地,庫存各類地震磁帶9萬多盤。近年來,隨著檔案管理系統的推廣應用,狠抓了地震勘探數據磁帶檔案基礎業務,實現了磁帶檔案目錄的電子化,其中成果磁帶採取了案卷級和文件級相結合的編目規則,利用效率得以有效提升。然而磁帶這一載體的特殊性,影響著磁帶的安全管理,制約著磁帶管理水平的進一步提高,主要表現在以下幾個方面:
一是磁帶數量大、型號繁雜,部分已到保管期限。現庫存磁帶包括3480、3490、3590、3592及九軌半英寸磁帶共5種,其中3480、3490、九軌半英寸磁帶占庫存總量的97.45%,庫存一半的磁帶已到規定的保管期限,加之磁帶機對不同型號磁帶的互不兼容性,導致部分陳舊磁帶數據隨著相應磁帶機生產下線而無法正常讀取使用。
二是數據格式多樣,不便利用和管理。其中大部分為SEG-D格式,部分是TIPEX、TAR格式,現階段已無與之匹配的操作系統,數據無法讀取,這種多格式共存給地震勘探數據的標准化、規范化管理也帶來不便。
三是磁帶容量利用率低,增加了保管成本。傳統磁帶管理因受磁帶物理標簽及現場施工方式的影響,通常磁帶容量利用率僅有21%,容量空置率高,造成磁帶數量的無謂增加和成本的極大浪費。
四是利用效率低。一直以來,長慶油田採用磁帶對磁帶一對一拷貝,通過復制歸檔磁帶數據開展對外提供利用工作,這一管理方式在確保管理安全方面效果顯著,但利用效率卻大受影響,在面對利用量小且任務較分散的利用工作時,這一方式基本能夠滿足,也未突顯明顯矛盾,然而面對近幾年油田勘探生產任務的大量攀升,經常面臨集中大量的數據利用工作,即使工作人員24小時不停歇加班加點,但因這種傳統數據拷貝速度受限於設備數量、設備運轉情況的影響,常常很難滿足實際工作的需要。所以對地震勘探數據開展搶救式介質轉換、升級,探索改進地震勘探數據磁帶檔案管理已迫在眉睫。
2 地震資料全容量存儲的目的
1)搶救和保護油田勘探資料,確保資料信息隨時代發展、軟硬體條件進步,能得到完整保護。
2)採用國際國內通用格式形式加以轉錄、存儲,使不同設備不同時期地震勘探資料得以通用性識別。
3)大容量存儲的應用,保證地震資料信息完整,今後復制、搶救數據更加高效,便於長期安全性保存。
4)便於高效服務油田勘探開發,由於油田勘探程度愈來愈高,隱蔽性、小型性、復雜性油氣藏也成為勘探的主要目標,對地震資料的進一步應用也愈來愈多。
3 地震資料全容量存儲技術
3.1 地震資料全容量存儲技術概述
地震資料全容量存儲是採取標準的SEGY磁帶格式,將包含地震測線的關鍵標識性信息(包括測線名稱、地區等)和檔案管理重要元素(包括全宗、目錄號、保管號等)組成的具有重要識別性質的簡單的測線編碼電子標簽,記錄在SEGY卷頭未定義區域,通過地震數據磁帶操作程序,獨立完成地震測線數據的卸帶和磁帶檢索。將測線數據及相應的電子標簽一同寫入直至記滿一盤3592磁帶為止。
地震資料全容量存儲理論上是對歷史地震勘探數據載體的升級轉換,是對數據格式和載體型號的統一規范;這一技術的核心是使得地震勘探數據存儲不再受限於磁帶物理標簽限制,而是取決於磁帶本身的存儲量,可將傳統磁帶容量提高至98%左右,這對於磁帶檔案保管的集中地——檔案部門來說,將有效減少磁帶數量,降低管理成本,緩解庫存壓力;同時這一技術符合地震磁帶標准格式,形成的存儲磁帶能夠在GeoEAST、CGG等處理系統中直接讀出,便於利用和管理。
3.2 測線標簽和磁帶標簽目錄
測線標簽和磁帶標簽目錄是一行限長EBCDIC碼字元串,包含卷盤號、卷內序號、測線名、成果類型、隊號、數據范圍、工區、生產年度、數據來源等測線標示信息(表1),與測線SEGY數據文件一一對應。將一盤地震SEGY磁帶的測線標簽順序存放,形成磁帶標簽目錄文本文件。
表1 測線數據文件與測線數據標簽
3.3 地震資料全容量存儲操作程序
地震數據的SEGY格式,實際上是一種特殊的加密格式,通常只能由理解SEGY格式的軟體來讀取,如GeoEAST、PROMAX、CGG等,且須有地震資料數據處理背景的人員操作完成。在Linux系統下,使用C語言編制一組SEGY格式磁帶專用程序,根據磁帶標簽目錄,脫離通用處理系統直接驅動磁帶機,完成標准地震SEGY格式磁帶的寫入、讀出和磁帶掃描。
3.3.1 磁帶機工作特點
與磁碟直接訪問不同,磁帶是一種流式數據設備,只能順序訪問。磁帶基本讀寫單位為塊(BLOCK),塊與塊間有一物理間隙(GAP),用於磁頭定位。SEGY磁帶數據文件有若干塊組成,文件尾有一特殊數據標志EOF標示文件結束,而雙EOF通常表示磁帶數據結束。程序設計中,通過系統調用磁帶設備數據結構,完成磁帶的尋塊和讀寫EOF等控制操作。
3.3.2 寫磁帶
程序功能是將磁帶標簽目錄文件所列的測線SEGY磁碟文件及其測線標簽,順序寫入一盤磁帶(圖1)。寫帶前應先用tpsize命令估算寫帶容量,以確保磁帶全容量存儲。有記帶日誌幫助確定寫帶正確。實際應用中,譬如在提供磁帶拷貝記帶時,測線標簽可以選擇空白。
3.3.3 讀磁帶
程序功能是從一盤磁帶中順序卸出全部或指定序號的SEGY文件到磁碟(圖2)。查詢標簽目錄獲得卸帶文件號。有讀帶日誌幫助確定讀帶正確。
圖1 寫磁帶流程
圖2 讀磁帶流程
3.3.4 磁帶掃描
程序功能是掃描一盤地震成果磁帶,列出全部SEGY文件標簽和卷頭及道頭信息,檢查SEGY數據磁帶或SEGY數據文件的合規性。
4 地震資料全容量存儲的應用
4.1 應用方案
1)將多格式數據向SEGY格式轉換。
2)轉儲數據編目規則,採用檔案著錄規則與物探技術規則相結合,包含卷盤號、卷內序號、測線名、成果類型、隊號、數據范圍、工區、生產年度、數據來源等信息內容。
3)數據採用磁帶加磁碟雙模式存儲,其中磁帶採用近年通用、普通的350 GB容量的3592磁帶,這種新型的高密度磁帶可大幅度減少磁帶數量,便於保管和保護;磁碟採用RAID6冗餘技術方式,便於日常頻繁大量的數據利用。
4.2 應用實例
長慶油田利用上述技術歷時兩年半完成了1980~2010年共9萬多盤各類地震勘探數據(包含原始與成果)的轉儲,共形成轉儲磁帶90多盤,存儲量40TB。特別是檔案目錄中的原始測線,全部得到樣本保存,實現並保證了長慶油田地震歷史成果的永久保存。
4.3 應用效果
4.3.1 磁帶數量大幅減少,有效緩解了庫存壓力
轉儲前,9萬多盤不同種類不同型號磁帶共佔用兩個庫房320平方米存放空間,轉儲後,同樣的數據量只形成了90多盤3592磁帶(350GB),僅用了一個資料櫃的1/3。
4.3.2 搶救保護了地震勘探數據,保證資料持續可用
通過轉儲,搶救恢復了無法讀取的TIPX格式和掉粉損壞磁帶的地震勘探數據,保證了所有地震數據的有效性,同時也為下一步確定4萬多盤已到保管期限的九軌半英寸磁帶鑒定處置方案提供了可靠依據。
4.3.3 實現了標准化、規范化,便於管理和利用
通過地震資料全容量轉儲,長慶油田所有不同歷史時期不同格式地震勘探數據全部實現了以國際通用的3592高密度數字磁帶為載體,數據格式為SEG-Y的標准存儲模式,便於硬體設施的配備及日常維護工作的開展,使管理更加便捷,利用更加順暢。
4.3.4 提高檢索效率,全面提升了地震勘探數據的利用服務水平
檢索效率大幅提升。通過集中統一更改、補充、完善,規范和豐富了長慶油田30多年來的地震勘探數據及目錄信息,提高了檢索的准確性;完善了地震勘探磁帶管理信息電子編碼技術規則,制定了由卷盤號、卷內順序號、測線名、隊號、工區等10個信息因素組成的具有地震測線和檔案目錄獨特識別信息的地震勘探磁帶測線信息電子編碼和檔案編目、著錄規則,用以地震勘探資料庫的檢索;形成了以檔案目錄號、保管號為內容的互見目錄,可實現磁帶測線信息電子編碼標簽與檔案測線目錄的雙向信息查詢,提高了檢索效率。
利用服務方式有了突破性發展。本次轉儲除採用傳統的磁帶存儲外,開創了磁碟陣列備份存儲的新模式,實現了地震勘探磁帶數據的數字化管理,實現了從目錄檢索到數據直接拷貝的系統管理操作,改變了傳統通過目錄檢索獲得實物檔號,取出實體採取磁帶對磁帶的一對一拷貝的半信息化操作,在提高利用效率的同時,也為快速高效地開展地震勘探數據的再組織奠定了基礎,開啟了地震數據管理利用新篇章。
4.3.5 提高了工作效率,降低了勞動強度
以3490磁帶為例,一天按8小時工作時間計算,在機器運轉良好,工作人員不間斷工作的情況下,每天一台3490磁帶機最多能完成30多盤磁帶數據的拷貝,若一條測線原始數據磁帶350盤左右,存儲量約150GB,採用傳統地震數據磁帶拷貝,用一台機器拷貝最快10天,而通過磁碟陣列數據拷貝僅用2個多小時即可完成。據初步測試,完成1TB數據量拷貝需18個小時左右。經轉儲整理後,在實現高效率數據拷貝和再組織的同時,大大降低了勞動強度,解放了人力。也符合大數據時代快速、高效生產科研工作的需要。
4.3.6 兩種存儲互為補充,提升了地震勘探數據的安全有效性
採取磁帶和磁碟陣列兩種方式存儲,可根據實際需要相互轉換,互為補充,降低了保管風險,最大限度地維護了企業的利益;降低了對磁帶數據的重復利用次數,有效地保護了存儲介質及地震勘探數據;歷史數據載體的升級轉換,是一次全面地毯式的核查,是對過去收集檢驗工作的又一次復核、鞏固和補充,是對存放多年數據有效性的全面檢驗,是做好數據檔案保護工作的又一舉措,對於檔案保管部門意義重大。
5 結束語
地震資料全容量存儲成果在實際工作中的應用證明,其提高磁帶容量,減少庫藏量,降低管理成本效果顯著,規范標准化程度高,適合地震勘探數據信息化數字化管理;磁帶及磁碟陣列雙模式存儲在有效降低保管風險,實現方便靈活利用及數據再組織等功能方面,得到相關科研生產部門的一致認同。地震資料全容量存儲技術適合地震勘探數據磁帶檔案管理或地震勘探數據信息的集中管理部門,且數據量越大,效果也越明顯。該技術不僅解決了傳統地震勘探數據磁帶檔案管理中的諸多問題,而且使地震勘探數據磁帶檔案邁上數字化管理新台階,將更好地服務於油氣田的勘探開發與科研工作。
『肆』 簡要介紹下計算機存儲器的發展
計算機怎麼是這樣一個驚人的小配件? 對許多人他們可以 t是,因此驚奇關於怎樣計算機改變了我們居住的方式。 計算機在許多大小和形狀可能現在被發現。 幾乎每家電似乎有他們被找出的自己的微型計算機某處。 從汽車到大廈對幾乎每個小配件有,每一個大多時間有計算機工作做他們跑和改變我們居住生活的方式。
首要,計算機的最重要的組分是它的處理器。 它被認為做所有計算和處理計算機的心臟。 但與所有處理的那計算和,計算機贏取了 t是這樣一個卓越的小配件如果不為它驚人的記憶。 計算機存儲器使成為可能保留重要信息關於計算機。 可以再次使用這樣數據和被檢索當有些存儲的數據是需要的時。 不用計算機存儲器,處理器在哪裡不會有設施存放它的,從而使他們的重要演算和過程無用。
有分配的計算機存儲器的不同的類型存放數據的不同的類型。 當它來到存放必要的數據在計算機裡面時,他們也有不同的能力和專業。 最響譽的計算機存儲器是RAM,否則通認作為隨機存取存儲器。 它稱隨機存取,因為所有存儲的數據可以直接地訪問,如果您知道相交某一存儲單元的確切的列和專欄。 在計算機存儲器的這個類型,數據可以按任何順序訪問。 RAM s確切在對面稱SAM或串列存取記憶,存放數據參加一系列存儲單元可能按順序只訪問。 它經營很象盒式磁帶,您必須審閱其他存儲單元在訪問您尋找的數據之前。
計算機存儲器的其他類型包括ROM或只讀存儲器。 ROM是集成電路已經編程以不可能修改或改變的具體數據,因此僅命名讀的。 也有計算機存儲器叫的虛擬內存的另一個類型。 記憶的這個類型是一個共同的組分在多數操作系統和桌面。 它幫助計算機RAM釋放以未使用的應用做方式為裝載使用的當前應用。 它在計算機 s硬碟簡單地運作在檢查在RAM存放的數據旁邊最近不使用並且安排它被存放,從而釋放可貴的空間在RAM為裝載其他應用。 一個虛擬內存將做一台計算機認為它有幾乎無限的RAM在它裡面。
的計算機存儲器的另一個類型使計算機處理任務更加快速是什麼稱高速緩沖存儲器。 高速緩沖存儲器簡單地運作在有旁邊當前應用、在它的記憶存放的演算和過程而不是直接地到主要儲藏區域。 當某一過程是需要早先半新的數據,它首先將設法訪問高速緩沖存儲器,如果這樣數據在訪問中央記憶貯存區之前被存放那裡。 這從尋找數據在一個更大和更大的記憶貯存區釋放計算機並且使數據提取更加快速。 計算機存儲器在發展一個恆定的狀態,當技術越來越被開發。 誰知道,計算機存儲器也許為人的消耗量也在不久將來可能適合。
『伍』 存儲伺服器的應用包括哪些
應用一、存儲和調用數據兼重的應用 如視頻伺服器,用戶資料庫伺服器,社交網路伺服器,簡訊和聊天伺服器,網游伺服器等等。存儲伺服器DIY組裝時,考慮到應用的不同,需要採用不同的伺服器架構,以方便將來的實際工作,切不可組裝時省錢應用起來耗時耗功。中高端存儲伺服器一般採用主流的雙路伺服器主板,配合RAID磁碟備份,軟體系統盡可能精減,並安裝思創科達SDBS8.0等數據備份軟體,以方便網路管理人員的操作管理。
應用二、以單純存儲數據為主的應用 偶爾有數據查詢和調用的,這多用低端伺服器配合海量硬碟,如單路伺服器和大量硬碟,比如安全視頻監控所用伺服器,企業生產數據備份伺服器等等。這類單路存儲伺服器可以使用英特爾單路伺服器主板,並配合Xeon3400/3200系列多核處理器,並配合RAID使用,主板如Intel S3420GPLC/Intel S3200SH等都是不錯的選擇。當然有人使用高端台式機主板,這並不是一個負責任的選擇,試想萬一主板損壞,一二天不能做數據備份損失並不是一塊主板的錢可以彌補的。
『陸』 大數據存儲技術都有哪些
1. 數據採集:在大數據的生命周期中,數據採集是第一個環節。按照MapRece應用系統的分類,大數據採集主要來自四個來源:管理信息系統、web信息系統、物理信息系統和科學實驗系統。
2. 數據訪問:大數據的存儲和刪除採用不同的技術路線,大致可分為三類。第一類主要面向大規模結構化數據。第二類主要面向半結構化和非結構化數據。第三類是面對結構化和非結構化的混合大數據,
3。基礎設施:雲存儲、分布式文件存儲等。數據處理:對於收集到的不同數據集,可能會有不同的結構和模式,如文件、XML樹、關系表等,表現出數據的異構性。對於多個異構數據集,需要進行進一步的集成或集成處理。在對不同數據集的數據進行收集、排序、清理和轉換後,生成一個新的數據集,為後續的查詢和分析處理提供統一的數據視圖。
5. 統計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、t檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測、殘差分析,嶺回歸、logistic回歸、曲線估計、因子分析、聚類分析、主成分分析等方法介紹了聚類分析、因子分析、快速聚類與聚類、判別分析、對應分析等方法,多元對應分析(最優尺度分析)、bootstrap技術等。
6. 數據挖掘:目前需要改進現有的數據挖掘和機器學習技術;開發數據網路挖掘、特殊群挖掘、圖挖掘等新的數據挖掘技術;突破基於對象的數據連接、相似性連接等大數據融合技術;突破面向領域的大數據挖掘技術如用戶興趣分析、網路行為分析、情感語義分析等挖掘技術。
7. 模型預測:預測模型、機器學習、建模與模擬。
8. 結果:雲計算、標簽雲、關系圖等。
關於大數據存儲技術都有哪些,青藤小編就和您分享到這里了。如果您對大數據工程有濃厚的興趣,希望這篇文章可以為您提供幫助。如果您還想了解更多關於數據分析師、大數據工程師的技巧及素材等內容,可以點擊本站的其他文章進行學習。
『柒』 大數據存儲與應用特點及技術路線分析
大數據存儲與應用特點及技術路線分析
大數據時代,數據呈爆炸式增長。從存儲服務的發展趨勢來看,一方面,對數據的存儲量的需求越來越大;另一方面,對數據的有效管理提出了更高的要求。大數據對存儲設備的容量、讀寫性能、可靠性、擴展性等都提出了更高的要求,需要充分考慮功能集成度、數據安全性、數據穩定性,系統可擴展性、性能及成本各方面因素。
大數據存儲與應用的特點分析
「大數據」是由數量巨大、結構復雜、類型眾多數據構成的數據集合,是基於雲計算的數據處理與應用模式,通過數據的整合共享,交叉復用形成的智力資源和知識服務能力。其常見特點可以概括為3V:Volume、Velocity、Variety(規模大、速度快、多樣性)。
大數據具有數據規模大(Volume)且增長速度快的特性,其數據規模已經從PB級別增長到EB級別,並且仍在不斷地根據實際應用的需求和企業的再發展繼續擴容,飛速向著ZB(ZETA-BYTE)的規模進軍。以國內最大的電子商務企業淘寶為例,根據淘寶網的數據顯示,至2011年底,淘寶網最高單日獨立用戶訪問量超過1.2億人,比2010年同期增長120%,注冊用戶數量超過4億,在線商品數量達到8億,頁面瀏覽量達到20億規模,淘寶網每天產生4億條產品信息,每天活躍數據量已經超過50TB.所以大數據的存儲或者處理系統不僅能夠滿足當前數據規模需求,更需要有很強的可擴展性以滿足快速增長的需求。
(1)大數據的存儲及處理不僅在於規模之大,更加要求其傳輸及處理的響應速度快(Velocity)。
相對於以往較小規模的數據處理,在數據中心處理大規模數據時,需要服務集群有很高的吞吐量才能夠讓巨量的數據在應用開發人員「可接受」的時間內完成任務。這不僅是對於各種應用層面的計算性能要求,更加是對大數據存儲管理系統的讀寫吞吐量的要求。例如個人用戶在網站選購自己感興趣的貨物,網站則根據用戶的購買或者瀏覽網頁行為實時進行相關廣告的推薦,這需要應用的實時反饋;又例如電子商務網站的數據分析師根據購物者在當季搜索較為熱門的關鍵詞,為商家提供推薦的貨物關鍵字,面對每日上億的訪問記錄要求機器學習演算法在幾天內給出較為准確的推薦,否則就丟失了其失效性;更或者是計程車行駛在城市的道路上,通過GPS反饋的信息及監控設備實時路況信息,大數據處理系統需要不斷地給出較為便捷路徑的選擇。這些都要求大數據的應用層可以最快的速度,最高的帶寬從存儲介質中獲得相關海量的數據。另外一方面,海量數據存儲管理系統與傳統的資料庫管理系統,或者基於磁帶的備份系統之間也在發生數據交換,雖然這種交換實時性不高可以離線完成,但是由於數據規模的龐大,較低的數據傳輸帶寬也會降低數據傳輸的效率,而造成數據遷移瓶頸。因此大數據的存儲與處理的速度或是帶寬是其性能上的重要指標。
(2)大數據由於其來源的不同,具有數據多樣性的特點。
所謂多樣性,一是指數據結構化程度,二是指存儲格式,三是存儲介質多樣性。對於傳統的資料庫,其存儲的數據都是結構化數據,格式規整,相反大數據來源於日誌、歷史數據、用戶行為記錄等等,有的是結構化數據,而更多的是半結構化或者非結構化數據,這也正是傳統資料庫存儲技術無法適應大數據存儲的重要原因之一。所謂存儲格式,也正是由於其數據來源不同,應用演算法繁多,數據結構化程度不同,其格式也多種多樣。例如有的是以文本文件格式存儲,有的則是網頁文件,有的是一些被序列化後的比特流文件等等。所謂存儲介質多樣性是指硬體的兼容,大數據應用需要滿足不同的響應速度需求,因此其數據管理提倡分層管理機制,例如較為實時或者流數據的響應可以直接從內存或者Flash(SSD)中存取,而離線的批處理可以建立在帶有多塊磁碟的存儲伺服器上,有的可以存放在傳統的SAN或者NAS網路存儲設備上,而備份數據甚至可以存放在磁帶機上。因而大數據的存儲或者處理系統必須對多種數據及軟硬體平台有較好的兼容性來適應各種應用演算法或者數據提取轉換與載入(ETL)。
大數據存儲技術路線最典型的共有三種:
第一種是採用MPP架構的新型資料庫集群,重點面向行業大數據,採用Shared Nothing架構,通過列存儲、粗粒度索引等多項大數據處理技術,再結合MPP架構高效的分布式計算模式,完成對分析類應用的支撐,運行環境多為低成本 PC Server,具有高性能和高擴展性的特點,在企業分析類應用領域獲得極其廣泛的應用。
這類MPP產品可以有效支撐PB級別的結構化數據分析,這是傳統資料庫技術無法勝任的。對於企業新一代的數據倉庫和結構化數據分析,目前最佳選擇是MPP資料庫。
第二種是基於Hadoop的技術擴展和封裝,圍繞Hadoop衍生出相關的大數據技術,應對傳統關系型資料庫較難處理的數據和場景,例如針對非結構化數據的存儲和計算等,充分利用Hadoop開源的優勢,伴隨相關技術的不斷進步,其應用場景也將逐步擴大,目前最為典型的應用場景就是通過擴展和封裝 Hadoop來實現對互聯網大數據存儲、分析的支撐。這裡面有幾十種NoSQL技術,也在進一步的細分。對於非結構、半結構化數據處理、復雜的ETL流程、復雜的數據挖掘和計算模型,Hadoop平台更擅長。
第三種是大數據一體機,這是一種專為大數據的分析處理而設計的軟、硬體結合的產品,由一組集成的伺服器、存儲設備、操作系統、資料庫管理系統以及為數據查詢、處理、分析用途而特別預先安裝及優化的軟體組成,高性能大數據一體機具有良好的穩定性和縱向擴展性。
以上是小編為大家分享的關於大數據存儲與應用特點及技術路線分析的相關內容,更多信息可以關注環球青藤分享更多干貨
『捌』 信息存儲技術的背景 應用 發展以及趨勢
信息存儲技術作為信息技術的核心之一,一直伴隨著、同時推動著IT業各方面技術的協同發展,是當今IT領域中少數發展最為迅速的熱點之一。紙的發明記載了人類的歷史和文明,現代信息存儲技術則大大超越了紙張記錄的含義。21世紀是數字化和多媒體化的信息時代,現代信息社會和經濟的發展,所產生的信息量每年以指數方式上升,出現了信息爆炸的態勢。據UC Berkley 2001年公布的數據顯示,未來3年內所產生的數據將超過過去4萬年中產生數據的總和,而且93%的新生成的信息為數字形式。當上世紀50年代計算機技術初現時,存儲容量還只是以千位位元組計…http://www.cnki.com.cn/Article/CJFD2006-CXJL200605012.htm
『玖』 存儲器的發展史
存儲器設備發展
1.存儲器設備發展之汞延遲線
汞延遲線是基於汞在室溫時是液體,同時又是導體,每比特數據用機械波的波峰(1)和波谷(0)表示。機械波從汞柱的一端開始,一定厚度的熔融態金屬汞通過一振動膜片沿著縱向從一端傳到另一端,這樣就得名「汞延遲線」。在管的另一端,一感測器得到每一比特的信息,並反饋到起點。設想是汞獲取並延遲這些數據,這樣它們便能存儲了。這個過程是機械和電子的奇妙結合。缺點是由於環境條件的限制,這種存儲器方式會受各種環境因素影響而不精確。
1950年,世界上第一台具有存儲程序功能的計算機EDVAC由馮.諾依曼博士領導設計。它的主要特點是採用二進制,使用汞延遲線作存儲器,指令和程序可存入計算機中。
1951年3月,由ENIAC的主要設計者莫克利和埃克特設計的第一台通用自動計算機UNIVAC-I交付使用。它不僅能作科學計算,而且能作數據處理。
2.存儲器設備發展之磁帶
UNIVAC-I第一次採用磁帶機作外存儲器,首先用奇偶校驗方法和雙重運算線路來提高系統的可靠性,並最先進行了自動編程的試驗。
磁帶是所有存儲器設備發展中單位存儲信息成本最低、容量最大、標准化程度最高的常用存儲介質之一。它互換性好、易於保存,近年來,由於採用了具有高糾錯能力的編碼技術和即寫即讀的通道技術,大大提高了磁帶存儲的可靠性和讀寫速度。根據讀寫磁帶的工作原理可分為螺旋掃描技術、線性記錄(數據流)技術、DLT技術以及比較先進的LTO技術。
根據讀寫磁帶的工作原理,磁帶機可以分為六種規格。其中兩種採用螺旋掃描讀寫方式的是面向工作組級的DAT(4mm)磁帶機和面向部門級的8mm磁帶機,另外四種則是選用數據流存儲技術設計的設備,它們分別是採用單磁頭讀寫方式、磁帶寬度為1/4英寸、面向低端應用的Travan和DC系列,以及採用多磁頭讀寫方式、磁帶寬度均為1/2英寸、面向高端應用的DLT和IBM的3480/3490/3590系列等。
磁帶庫是基於磁帶的備份系統,它能夠提供同樣的基本自動備份和數據恢復功能,但同時具有更先進的技術特點。它的存儲容量可達到數百PB,可以實現連續備份、自動搜索磁帶,也可以在驅動管理軟體控制下實現智能恢復、實時監控和統計,整個數據存儲備份過程完全擺脫了人工干涉。
磁帶庫不僅數據存儲量大得多,而且在備份效率和人工佔用方面擁有無可比擬的優勢。在網路系統中,磁帶庫通過SAN(Storage Area Network,存儲區域網路)系統可形成網路存儲系統,為企業存儲提供有力保障,很容易完成遠程數據訪問、數據存儲備份或通過磁帶鏡像技術實現多磁帶庫備份,無疑是數據倉庫、ERP等大型網路應用的良好存儲設備。
3.存儲器設備發展之磁鼓
1953年,隨著存儲器設備發展,第一台磁鼓應用於IBM 701,它是作為內存儲器使用的。磁鼓是利用鋁鼓筒表面塗覆的磁性材料來存儲數據的。鼓筒旋轉速度很高,因此存取速度快。它採用飽和磁記錄,從固定式磁頭發展到浮動式磁頭,從採用磁膠發展到採用電鍍的連續磁介質。這些都為後來的磁碟存儲器打下了基礎。
磁鼓最大的缺點是利用率不高, 一個大圓柱體只有表面一層用於存儲,而磁碟的兩面都利用來存儲,顯然利用率要高得多。 因此,當磁碟出現後,磁鼓就被淘汰了。
4.存儲器設備發展之磁芯
美國物理學家王安1950年提出了利用磁性材料製造存儲器的思想。福雷斯特則將這一思想變成了現實。
為了實現磁芯存儲,福雷斯特需要一種物質,這種物質應該有一個非常明確的磁化閾值。他找到在新澤西生產電視機用鐵氧體變換器的一家公司的德國老陶瓷專家,利用熔化鐵礦和氧化物獲取了特定的磁性質。
對磁化有明確閾值是設計的關鍵。這種電線的網格和芯子織在電線網上,被人稱為芯子存儲,它的有關專利對發展計算機非常關鍵。這個方案可靠並且穩定。磁化相對來說是永久的,所以在系統的電源關閉後,存儲的數據仍然保留著。既然磁場能以電子的速度來閱讀,這使互動式計算有了可能。更進一步,因為是電線網格,存儲陣列的任何部分都能訪問,也就是說,不同的數據可以存儲在電線網的不同位置,並且閱讀所在位置的一束比特就能立即存取。這稱為隨機存取存儲器(RAM),在存儲器設備發展歷程中它是互動式計算的革新概念。福雷斯特把這些專利轉讓給麻省理工學院,學院每年靠這些專利收到1500萬~2000萬美元。
最先獲得這些專利許可證的是IBM,IBM最終獲得了在北美防衛軍事基地安裝「旋風」的商業合同。更重要的是,自20世紀50年代以來,所有大型和中型計算機也採用了這一系統。磁芯存儲從20世紀50年代、60年代,直至70年代初,一直是計算機主存的標准方式。
5.存儲器設備發展之磁碟
世界第一台硬碟存儲器是由IBM公司在1956年發明的,其型號為IBM 350 RAMAC(Random Access Method of Accounting and Control)。這套系統的總容量只有5MB,共使用了50個直徑為24英寸的磁碟。1968年,IBM公司提出「溫徹斯特/Winchester」技術,其要點是將高速旋轉的磁碟、磁頭及其尋道機構等全部密封在一個無塵的封閉體中,形成一個頭盤組合件(HDA),與外界環境隔絕,避免了灰塵的污染,並採用小型化輕浮力的磁頭浮動塊,碟片表面塗潤滑劑,實行接觸起停,這是現代絕大多數硬碟的原型。1979年,IBM發明了薄膜磁頭,進一步減輕了磁頭重量,使更快的存取速度、更高的存儲密度成為可能。20世紀80年代末期,IBM公司又對存儲器設備發展作出一項重大貢獻,發明了MR(Magneto Resistive)磁阻磁頭,這種磁頭在讀取數據時對信號變化相當敏感,使得碟片的存儲密度比以往提高了數十倍。1991年,IBM生產的3.5英寸硬碟使用了MR磁頭,使硬碟的容量首次達到了1GB,從此,硬碟容量開始進入了GB數量級。IBM還發明了PRML(Partial Response Maximum Likelihood)的信號讀取技術,使信號檢測的靈敏度大幅度提高,從而可以大幅度提高記錄密度。
目前,硬碟的面密度已經達到每平方英寸100Gb以上,是容量、性價比最大的一種存儲設備。因而,在計算機的外存儲設備中,還沒有一種其他的存儲設備能夠在最近幾年中對其統治地位產生挑戰。硬碟不僅用於各種計算機和伺服器中,在磁碟陣列和各種網路存儲系統中,它也是基本的存儲單元。值得注意的是,近年來微硬碟的出現和快速發展為移動存儲提供了一種較為理想的存儲介質。在快閃記憶體晶元難以承擔的大容量移動存儲領域,微硬碟可大顯身手。目前尺寸為1英寸的硬碟,存儲容量已達4GB,10GB容量的1英寸硬碟不久也會面世。微硬碟廣泛應用於數碼相機、MP3設備和各種手持電子類設備。
另一種磁碟存儲設備是軟盤,從早期的8英寸軟盤、5.25英寸軟盤到3.5英寸軟盤,主要為數據交換和小容量備份之用。其中,3.5英寸1.44MB軟盤占據計算機的標准配置地位近20年之久,之後出現過24MB、100MB、200MB的高密度過渡性軟盤和軟碟機產品。然而,由於USB介面的快閃記憶體出現,軟盤作為數據交換和小容量備份的統治地位已經動搖,不久會退出存儲器設備發展歷史舞台。
6. 存儲器設備發展之光碟
光碟主要分為只讀型光碟和讀寫型光碟。只讀型指光碟上的內容是固定的,不能寫入、修改,只能讀取其中的內容。讀寫型則允許人們對光碟內容進行修改,可以抹去原來的內容,寫入新的內容。用於微型計算機的光碟主要有CD-ROM、CD-R/W和DVD-ROM等幾種。
上世紀60年代,荷蘭飛利浦公司的研究人員開始使用激光光束進行記錄和重放信息的研究。1972年,他們的研究獲得了成功,1978年投放市場。最初的產品就是大家所熟知的激光視盤(LD,Laser Vision Disc)系統。
從LD的誕生至計算機用的CD-ROM,經歷了三個階段,即LD-激光視盤、CD-DA激光唱盤、CD-ROM。下面簡單介紹這三個存儲器設備發展階段性的產品特點。
LD-激光視盤,就是通常所說的LCD,直徑較大,為12英寸,兩面都可以記錄信息,但是它記錄的信號是模擬信號。模擬信號的處理機制是指,模擬的電視圖像信號和模擬的聲音信號都要經過FM(Frequency Molation)頻率調制、線性疊加,然後進行限幅放大。限幅後的信號以0.5微米寬的凹坑長短來表示。
CD-DA激光唱盤 LD雖然取得了成功,但由於事先沒有制定統一的標准,使它的開發和製作一開始就陷入昂貴的資金投入中。1982年,由飛利浦公司和索尼公司制定了CD-DA激光唱盤的紅皮書(Red Book)標准。由此,一種新型的激光唱盤誕生了。CD-DA激光唱盤記錄音響的方法與LD系統不同,CD-DA激光唱盤系統首先把模擬的音響信號進行PCM(脈沖編碼調制)數字化處理,再經過EMF(8~14位調制)編碼之後記錄到盤上。數字記錄代替模擬記錄的好處是,對干擾和雜訊不敏感,由於盤本身的缺陷、劃傷或沾污而引起的錯誤可以校正。
CD-DA系統取得成功以後,使飛利浦公司和索尼公司很自然地想到利用CD-DA作為計算機的大容量只讀存儲器。但要把CD-DA作為計算機的存儲器,還必須解決兩個重要問題,即建立適合於計算機讀寫的盤的數據結構,以及CD-DA誤碼率必須從現有的10-9降低到10-12以下,由此就產生了CD-ROM的黃皮書(Yellow Book)標准。這個標準的核心思想是,盤上的數據以數據塊的形式來組織,每塊都要有地址,這樣一來,盤上的數據就能從幾百兆位元組的存儲空間上被迅速找到。為了降低誤碼率,採用增加一種錯誤檢測和錯誤校正的方案。錯誤檢測採用了循環冗餘檢測碼,即所謂CRC,錯誤校正採用里德-索洛蒙(Reed Solomon)碼。黃皮書確立了CD-ROM的物理結構,而為了使其能在計算機上完全兼容,後來又制定了CD-ROM的文件系統標准,即ISO 9660。
在上世紀80年代中期,光碟存儲器設備發展速度非常快,先後推出了WORM光碟、磁光碟(MO)、相變光碟(Phase Change Disk,PCD)等新品種。20世紀90年代,DVD-ROM、CD-R、CD-R/W等開始出現和普及,目前已成為計算機的標准存儲設備。
光碟技術進一步向高密度發展,藍光光碟是不久將推出的下一代高密度光碟。多層多階光碟和全息存儲光碟正在實驗室研究之中,可望在5年之內推向市場。
7.存儲器設備發展之納米存儲
納米是一種長度單位,符號為nm。1納米=1毫微米,約為10個原子的長度。假設一根頭發的直徑為0.05毫米,把它徑向平均剖成5萬根,每根的厚度即約為1納米。與納米存儲有關的主要進展有如下內容。
1998年,美國明尼蘇達大學和普林斯頓大學制備成功量子磁碟,這種磁碟是由磁性納米棒組成的納米陣列體系。一個量子磁碟相當於我們現在的10萬~100萬個磁碟,而能源消耗卻降低了1萬倍。
1988年,法國人首先發現了巨磁電阻效應,到1997年,採用巨磁電阻原理的納米結構器件已在美國問世,它在磁存儲、磁記憶和計算機讀寫磁頭等方面均有廣闊的應用前景。
2002年9月,美國威斯康星州大學的科研小組宣布,他們在室溫條件下通過操縱單個原子,研製出原子級的硅記憶材料,其存儲信息的密度是目前光碟的100萬倍。這是納米存儲材料技術研究的一大進展。該小組發表在《納米技術》雜志上的研究報告稱,新的記憶材料構建在硅材料表面上。研究人員首先使金元素在硅材料表面升華,形成精確的原子軌道;然後再使硅元素升華,使其按上述原子軌道進行排列;最後,藉助於掃瞄隧道顯微鏡的探針,從這些排列整齊的硅原子中間隔抽出硅原子,被抽空的部分代表「0」,餘下的硅原子則代表「1」,這就形成了相當於計算機晶體管功能的原子級記憶材料。整個試驗研究在室溫條件下進行。研究小組負責人赫姆薩爾教授說,在室溫條件下,一次操縱一批原子進行排列並不容易。更為重要的是,記憶材料中硅原子排列線內的間隔是一個原子大小。這保證了記憶材料的原子級水平。赫姆薩爾教授說,新的硅記憶材料與目前硅存儲材料存儲功能相同,而不同之處在於,前者為原子級體積,利用其製造的計算機存儲材料體積更小、密度更大。這可使未來計算機微型化,且存儲信息的功能更為強大。
以上就是本文向大家介紹的存儲器設備發展歷程的7個關鍵時期