1. 什麼是結構化數據,非結構化數據和半結構化數據
結構化數據也稱為行數據,是由二維表結構來邏輯表達和實現的數據,嚴格地遵循數據格式與長度規范,主要通過關系型資料庫進行存儲和管理。結構化數據標記是能讓網站以更好的姿態展示在搜索結果當中的方式。做了結構化數據標記,便能使網站在搜索結果中良好地展示豐富網頁摘要。
非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。非結構化數據其格式非常多樣,標准也是多樣性的,而且在技術上非結構化信息比結構化信息更難標准化和理解。
半結構化數據具有一定的結構性,是一種適於資料庫集成的數據模型。也就是說,適於描述包含在兩個或多個資料庫(這些資料庫含有不同模式的相似數據)中的數據。它也是一種標記服務的基礎模型,用於Web上共享信息。
(1)非結構化文檔數據存儲擴展閱讀:
結構化數據的標記方式
1、使用HTML代碼標記
HTML代碼標記的方式主要有3種:微數據、微格式和RDFa。但對於一些外貿站站來說,標記是以微數據為主,少許時候也會用到微格式,視不用的頁面類型而定。
2、使用微數據標記
使用微數據標記的話,主流是使用schema進行標記。但由於頁面上有些項, schema並沒推出相應的標記代碼,從而也得仍舊使用data-vocabulary來標記, 這樣的話頁面代碼上就會出現新舊代碼並存的情況。
2. 油田地質檔案中非結構化數據管理模式探索
李燕
(中國石油化工股份有限公司西南油氣分公司信息中心檔案館)
摘要 本文針對非結構化數據管理中存在的問題,分析了西南油氣田地質檔案非結構化數據管理特點,提出了數據採集、數據存儲、數據管理與數據利用的技術架構,並對非結構化數據的管理、應用進行了深刻剖析,總結出了以技術解決方案、行政管理模式和數據服務三位一體的管理模式,為油田地質檔案中非結構化數據的管理與應用探索出了一個有效的模式。
關鍵詞 非結構化 數據存儲 地質檔案 應用 管理
0 引言
隨著我國經濟建設的不斷發展,信息資源越來越成為企業或者組織的核心和命脈。對於信息密集型的石油行業來說尤其如此。在多年的生產實踐中,國內的石油行業已經發展出了針對大部分信息的數據綜合管理、數據應用、企業標准和行業標准等技術和成果,極大地支撐了石油勘探開發的各個過程。然而,和國外的石油公司相比,在信息資源的協同、分析、挖掘、共享、決策支持、集群計算上還存在一定的差距,這其中的核心要點就是如何對非結構化數據進行有效的存儲和利用。
對於典型的石油工業企業來說,信息資源存在於各種載體中,例如紙質的書籍或者論文、PDF文檔、圖形圖像文件、掃描件、電子書、光碟等,這些信息最終都可以轉化為非結構化數據。而對非結構化信息的管理需要面對如下問題:
高容量:非結構化數據通常是一個或多個文檔、圖件、多媒體等,容量在百兆、千兆級的比比皆是。
異構化:非結構化數據的來源、格式、載體都各不相同,難以進行統一的管理和檢索。
復雜性:非結構化數據因其高容量、異構的特點,在存儲、檢索、過濾、提取、分析和挖掘方面非常復雜。
再處理:非結構化數據在定製、交換、加密方面存在大量的個性化需求,格式的差異和多樣性也導致了對這些數據的再處理非常困難。
本文即是對這些問題進行詳細的討論和研究,結合油氣田地質檔案非構化數據的存儲與利用,探討一種可行的方法和合理的解決方案。
1 非結構化數據管理的技術架構
非結構化數據與結構化數據相對,系指不方便用資料庫二維邏輯表來表現的數據即稱為非結構化數據,包括所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音/視頻信息等。
西南油氣田通過配置和集成軟硬體產品,設計並實施了適合非結構化數據存儲與利用的技術架構,由低到高分別是數據採集(預處理)、數據存儲、數據管理、數據使用(圖1)。
圖1 非結構化數據存儲與利用的技術架構圖
數據採集是非結構化數據管理最基礎的過程,是把原始的或者第一手的資料轉化成可供處理的數字化信息的關鍵步驟。
非結構化數據存儲是把勘探科研、生產、管理中產生的文檔、圖件、專著存放在資料庫或者文件伺服器上。一般採用兩種方式:一是把非結構化數據轉換成二進制流,存放在關系型資料庫中,同時一並記錄相關的輔助信息(可自定義);二是把非結構化數據保存到目錄伺服器上,在關系資料庫中只記錄目錄伺服器上的索引信息和輔助信息(可自定義)。圖2示意了這兩種方式。
圖2 非結構化數據存儲示意圖
數據管理是對已經存儲成功並且經過了結構化的信息進行再處理,包括數據的分類、檢索、元數據化、標准化、統計和歸並。
數據使用是非結構化數據管理的最終目的,信息如果不能交流、共享,那麼一個組織產生的信息再多,也不免成為信息孤島。採用基於.net和Web Service體系架構,為信息的共享和協同提供了技術上的保障。
2 非結構化數據管理應用解析
西南油氣田按非結構化數據管理的技術架構開發並組建了西南油氣田地質資料管理平台體系,對非結構化數據的管理實現了6大功能:非結構化數據的整理、元數據、基於索引伺服器的全文檢索、索引編制、任務管理、知識管理(表1)。
表1 中石化西南油氣田非結構化數據管理功能統計表
2.1 非結構化數據管理的功能架構
西南油氣田地質資料管理平台是一個完全的B/S模式資料管理系統和信息發布系統,其中,地質資料管理系統包括用戶管理、機構管理、許可權管理、日誌管理、數據管理、資料上傳、資料整理、資料審核、元數據、資料檢索。信息發布系統包括資料借閱、資料上傳、在線瀏覽、資料檢索、下載。
除了能夠完成資料管理和信息發布的功能外,還依據自身的工作方式,在平台中加入了本企業元素,如:資料屬性的自定義、用戶功能選擇、借閱流程與歸檔著錄一體化流程的植入、上傳和下載的壓縮與加密、用戶與安全方案的自動綁定,新到資料的查詢、個性化報表的查詢和列印、催還信息的發布等。主要功能架構如圖3。
圖3 功能架構圖
2.2 西南油氣田地質資料非結構化數據管理的主要特點
2.2.1 地質資料及文檔的包裝和結構化
在數據存儲方面,採用了基於Web Service數據訪問層組件,通過修改設置可以分別連接Oracle 9 i資料庫、SQL Server 2000資料庫等多種資料庫,用戶可以根據需要選擇。地質資料及文檔的包裝和結構化是指在數據採集和存儲方面採用了「資料體-文件體」的二元封包方式。對所有類型的文件或者文件集合都可以定義為資料體,同時採用元數據對資料體進行描述;從邏輯上來說,資料體是一個或者多個文件實體的集合,通過這種方式,就統一了各類非結構化數據的表現形式、外觀和行為,有利於將來的數據交換和協同。圖4描述了這種二元關系。
圖4 非結構化數據的二元封包方式
2.2.2 任務管理
文檔資料被採集並提交,資料體和元數據信息就會被寫入關系資料庫中(目前支持Oracle),而文件體會通過任務自動上傳到專門的文件伺服器中,同時由索引服務自動為這個文件體創建索引。入庫文檔資料的默認存儲方式是通過磁碟文件來存放的,如果需要把入庫文檔資料以二進制流的形式保存到關系資料庫中,則需要部署和配置數據持久化服務。圖5對文檔資料採集和存儲的過程進行了直觀的描述。
圖5 文檔資料採集和存儲的任務管理流程
任務管理是對上傳下載過程的任務化。為了應對文檔資料的採集要求,使用上傳任務來管理上傳過程,整個過程可以通過服務在後台依次自動完成,對用戶的操作不造成任何影響,避免了傳統的文件採集過程中用戶需要耗費大量的時間來等待上傳;為了確保數據的完整性,上傳過程支持斷點續傳。直觀的上傳任務管理器把需要上傳的文檔存放在任務隊列中,用戶可以隨時停止或者啟動上傳任務,最大程度的減少因為網路狀況或者容量問題帶來的不便。
2.2.3 元數據的定義和描述
在數據採集的過程中可以對文件定義元數據,文件的元數據繼承自所屬的案卷屬性,這樣一旦將文件歸入某一個資料類別,那麼就可以設置這個文件的擴展信息;另一方面,分類的元數據格式能夠成為這一類文件的元數據模板,同類文件的元數據格式都是相同的,便於進行同類資料的數據交換。圖6說明了案卷(資料類型)、文件和元數據的關系。
元數據作為非結構化數據的標簽,其意義是非常重要的,系統的檢索功能的查全和查准率主要是基於元數據的定義是否合理和准確,因此系統必須要提供元數據信息的修改和動態擴展功能,只有提供了上述功能,系統的信息描述才可能准確和豐富,這也是很多類似的信息系統所缺乏的。
圖6 案卷、文件和元數據的關系
依據中石化企業標准《Q/SH0167—2008石油天然氣勘探與開發地質資料立卷歸檔規則》,根據地質資料管理的特點,結合西南油氣田的實際情況,需求分析,明確各種(系統管理、資料載入和在線瀏覽、資料查詢、資料借閱和下載、資料銷毀、資料壓縮加密、資料審核、資料接收和分發)功能,對地質資料的文件元數據、檔案元數據、企業擴展元數據進行了充分研究與定義,實現了不同類別的地質資料定義不同屬性,方便查詢與借閱。例如表2。
表2 地質資料元數據屬性表
2.2.4 基於文件索引伺服器的全文檢索
對非結構化數據的檢索採用了兩種方式:基於屬性、關鍵字的精確檢索和基於內容的全文檢索。全文檢索過程採取了提交—建索引—查找—組織結果—返回的過程來完成。非結構化數據被提交到了文件伺服器,索引服務程序就創建或者更新索引文件(自動過程),當用戶發出檢索請求時,通過搜索引擎,獲取包含請求內容的結果並返回給請求者。索引服務程序能夠從入庫的文檔資料中自動抽取文本內容(圖7)。
索引服務程序的工作包括:偵測文件目錄的變化,文件被上傳、移動、修改或者刪除,就更新對應的索引;定期對文件目錄的整個范圍進行索引優化,保障索引在全局上的有效性和效率,這個工作可以自動完成,也可以由用戶手動完成。
西南油氣田基於此提供多種邏輯查詢,如模糊查詢、全文查詢、精確查詢,以及目錄瀏覽和全文瀏覽。如圖8。
圖7 全文檢索工作過程
圖8 查詢檢索截圖
2.3 西南油氣田非結構化管理應用效果
西南油氣田從2005年開始全面啟動地質資料非結構化數據建設,經過多年的共同努力,全面完成了地質資料的非結構化目錄資料庫建設,共計入庫地質資料條目125萬條,完成了不同類別地質資料的元素據設計並進行了全面屬性提取,提取的內容包括了文件元數據、檔案元數據以及企業擴展元數據三大類,為地質資料網路化管理與利用提供了強有力的搜索引擎包。
同時,按照非結構化數據建設理論,西南油氣田積極開展了成果地質資料全文資料庫與地質圖形庫的建設,通過歷史文檔與圖形的掃描整理,共計入庫電子文檔24萬個,總容量2.9 T。與油田氣地質資料目錄資料庫相結合,通過地質資料管理系統,實現了地質資料非結構化數據網路完整發布與全面應用。
經統計分析,在實現非結構化數據的網路化管理與應用以後,西南油氣田近5年地質資料年平均利用率高達11萬件次/年,是建成前的4.5 倍,有效提高了地質檔案資料的管理、使用水平,節約了成本,取得了良好的經濟效益。
3 非結構化數據的管理模式探索
作為企業信息資源的表現形式,非結構化數據的管理不單單是一個技術體系或者一個系統,而應該是一個龐大的系統工程。筆者根據西南油氣田地質檔案多年的信息化建設經驗和非結構化數據管理經驗,認為「技術解決方案、行政管理模式和數據服務」三位一體的管理模式是油氣田非結構化數據管理的有效模式(如圖9 所示)。
圖9 非結構化數據管理模式圖
首先,行政管理模式是整個非結構化數據管理的組織保障,由穩定的管理團隊、完備的可行性研究、明確的管理需求、充分的風險評估以及務實的組織實施組成。良好的行政管理模式能夠確保一個組織上下一心,共同推進信息體系建設,可以說它決定整個體系建設的成敗。
數據服務是非結構化數據信息管理的基礎。是指對非結構化數據進行採集、創建、加工、傳遞、組織、整理與規范的過程。同時也是用戶和開發者之間的潤滑劑,首先它能夠按照用戶的需求為用戶處理大量枯燥的數據整理和規范工作,其次從用戶的角度,指出軟體的缺陷,並敦促開發者進行修改。通過數據服務,可以有效地保障用戶業務的高效運轉、技術體系的不斷完善,發揮信息體系建設的最大效能。
技術解決方案從產品層面為非結構化數據的管理提供了軟硬體平台,是從數據採集到應用的完整的技術體系。包括:基於多種大型關系資料庫的信息存儲體系、基於內容的非結構化數據的文件伺服器、提供全文檢索、關聯檢索的索引伺服器、基於元數據的靈活的文件交換格式和個性化定製、靈活的許可權策略和強大的安全策略;技術解決方案是非結構化數據存儲與利用的核心。
4 結束語
非結構化數據存儲和應用是各油田分公司勘探決策支持系統的重要組成部分,這一部分研發成功後,能夠為決策支持所需要的信息資源提供基礎的平台。同時,基於這個平台之上的非結構化數據的應用能夠直接為決策支持系統服務,通過信息協同、文件檢索、數據挖掘和知識管理等技術和概念的應用,能夠使油氣田信息化建設上縮短甚至達到國際先進水平,向著勘探數字化、數據資產化、工作協同化和決策科學化方向邁進一大步,從而帶來巨大的經濟效益和社會效益。
參考文獻
[1]張志剛,姚瑋.海量非結構化數據存儲問題初探[J].中國檔案,2009(8).
[2]吳廣君,王樹鵬,陳明,李超.海量構化數據存儲檢索系統[J].計算機研究與發展,2011(7).
3. 「數據倉庫之父」談如何處理非結構化數據
毫無疑問,這是一個信息爆炸的時代。你的伺服器上充滿了各種各樣的數據。問題就提出來了,你如何處理那些非結構化數據?在本文中,讓「數據倉庫之父」 W.H.Inmon談談他自己的獨到見解。
雖說非結構化數據很難處理,但是它已經存在很久了,肯定比計算機的歷史還要久遠。不信的話,想想聖經,埃及象形文字,和卡馬河佛經這些骨灰級的東西,它們都是非結構化數據,它們的歷史可想而知了。這些非結構化數據絕對比那些矽片的出現的要早。搜索引擎雖然出現了一段時間,但也絕沒有印刷時代歷史悠久。即便現在的搜索引擎已經很完善了,但想隨心所欲的處理包含非結構化數據信息的時代還沒有到來,至少目前是這樣的。這是什麼原因造成的呢?
1、無用輸入,無用輸出 :
只有實現非結構化數據到數據倉庫的抽取,搜索引擎才會釋放出非結構化數據的真正價值。實現非結構化數據的整合存在著困難,想想那些很早就提出來的信息技術難題:無用信息輸入,無用信息輸出(GIGO),就會知道即使功能再強大的搜索引擎,用來處理那些實質上未經提煉和整和的數據會得到什麼結果?搜索引擎的結果會告訴我們答案,返回給用戶的也將會是一些沒有提煉,無用的信息。
因此,在搜索之前,那些非結構化的文本數據需要被提煉整合。如果這個工作完成的話,就不會有無用信息的輸入,那麼將不會產生無用的輸出信息。
2、Internet數據和公司數據的差異 :
通過搜索Internet來提煉數據收效甚微。通過Internet提煉和整合數據是白費力氣。試圖在Internet整合數據好比愚公移山,大海撈針。
但是公司數據就是另外一回事了,有以下兩個原因。第一,當提到公司數據,它的總量和類型是有限的,而Internet上的數據正好相反,無窮無盡。第二,不像Internet數據,公司數據幾乎和公司的事務相關。我可以很肯定的說,Internet上的數據上只有小部分的數據和公司的事務相關。
因此,整合公司文本數據,或者為了研究或者分析的目的而去整合,是非常可行的。
3、什麼樣的公司數據需要整合:
因此什麼樣的公司數據需要被整合呢?很明顯,有這么些類型的公司數據應該被整合,包括:
1.客戶數據——那些與客戶信息相關的數據
2.安全性數據——如意外事件,審查,修理,特約條款等等這些重要的事件
3.合同數據——與公司合同相關的數據
4.發現數據(Discovery data)——訴訟過程中的數據
5.順應性數據(Compliance data)——針對公司敏感事件和事務的描述
由此看出,公司數據限制很少,或者從理論上說,是沒有限制的。
4、數據整合的優勢:
整合公司文本數據的重大優點之一,就是一旦整合,它們就可以輸入到數據倉庫中,並且能重用。也就是說,公司文本數據只需要整合一次。整合之後,只要你願意,你可以多次研究和分析這些數據,可謂一勞永逸。
值得一提的是,在這公司文本數據整合後,就可以放入到數據倉庫中。一旦進入了數據倉庫,這些數據就能與結構數據結合到一起。
5、客戶信息分析 :
舉個例子,如針對公司的客戶信息管理系統,就要分析客戶信息。通常會從客戶那裡收到e-mail。但是,一旦那些e-mail閱讀之後,通常就被放在一邊了。這些讀過的郵件將會存放到一個文件夾里,從此這些郵件就在那裡擱置著,與另外上千的e-mail堆放在一起。
問題是,當公司需要這些信息的時候,這些信息卻很難找到。當一些e-mail涉及到潛在的未來信息,就顯得更加重要了。
客戶瓊斯夫人案例分析
為了證明以上觀點,讓我們看看一個案例,這個案例的主角是一位叫瓊斯夫人的客戶。假設她上個月寫了一個e-mail來嚴厲批評公司的銷售人員,因為她的一個訂單被延誤了。而正好這個月,公司的另外銷售人員准備打電話給瓊斯夫人,請求下更多的訂單。這是時候,對於那個銷售人員來說,上個月的來自瓊斯夫人的e-mail重不重要呢?
答案當然是非常重要的。如果我們想給瓊斯夫人推銷更多的新產品,這個時候關於客戶最近的任何信息都是非常重要的,無論正面了解的信息,還是從瓊斯夫人那裡反饋的信息。因此,擺在我們公司面前的問題就是如何找到那些與客戶相關的e-mail?如何過濾掉那些不相關的e-mail?
這里說的例子,只是其中的一個,許多的例子都需要用到非結構文本數據,如果為公司文本數據設計一個專門的整合過程,將這些公司文本數據能存儲到一個數據倉庫里,查找、過濾信息就好辦多了。
註:數據無非包括結構化數據和非結構化數據。結構化數據可以很輕松的被導入到數據倉庫中,因為不管是3NF還是星型模型,它們在結構上都屬於結構化數據。而非結構化數據包括音頻、圖像、e-mail、電子表格、txt文本、文檔、報告等。
作者簡介
比爾•恩門(Bill Inmon),被稱為數據倉庫之父,最早的數據倉庫概念提出者,在資料庫技術管理與資料庫設計方面,擁有逾35年的經驗。他是「企業信息工廠」的合作創始人與「政府信息工廠」的創始人。
4. MongoDB挑戰傳統資料庫:非結構化資料庫的迭新不容小覷
相比甲骨文中國在中國市場的裁員風波,同為資料庫服務的MongoDB顯得更為樂觀。「MongoDB是中國開發者最喜歡用的一個資料庫。」MongoDB全球渠道及亞太區銷售高級副總裁Alan Chhabra帶著一點自信和驕傲在媒體面前宣稱。
中國企業的數字化轉型正進入關鍵期,在打造開放、高效、靈活、共享的雲計算基礎設施的同時,資料庫的更新換代也被提上了日程。
日前,非結構化資料庫平台提供商MongoDB在上海舉辦用戶大會,MongoDB全球渠道及亞太區銷售高級副總裁Alan Chhabra接受了億歐企業服務頻道的采訪, 並針對去年修改開源協議,在SSPL的不同許可機制下授權伺服器軟體的爭議以及其他疑問作出回應。
資料庫的本質是解決數據的存儲和管理問題。 Alan Chhabra表示,對企業發展具有戰略意義的資料庫正在催生巨大的市場。
在這些潛力頗大的資料庫中,市場上目前存在著的是關系型的傳統資料庫和以Mongo DB為代表的非關聯式新型資料庫。傳統資料庫比較典型的是甲骨文旗下的Oracle資料庫、IBM推出的大數據平台Hadoop和Stream Computing、微軟的SQL Server、SAP以及EMC Greenplum。 他們的主要差別在於資料庫的結構化和非結構化。
結構化的數據是指可以使用關系型資料庫表示和存儲,表現為二維形式的數據,存儲和排列很有規律,這對查詢和修改等操作很有幫助,但擴展性和靈活性欠佳。 非結構化資料庫就是各種文檔、圖片、視頻/音頻等沒有固定結構的數據,一般直接整體進行存儲為二進制的數據格式。 目前涵蓋分布式資料庫、圖資料庫、流資料庫、時空資料庫和眾包資料庫等多個領域。
MongoDB是文檔型的非結構化新型資料庫,Alan Chhabra表示, 與傳統資料庫相比,更能滿足用戶數據存儲量大、計算靈活的需求。「在某些客戶某些案例上,我們已經取代了傳統資料庫,比如甲骨文。」
當前, 軟體對於商業模式的改變、開發人員地位的提高,以及企業向雲端遷移的趨勢 都讓數據服務公司的發展得到了助力。但從畢馬威會計事務所對首席信息官的調查結果來看, 88%的首席信息官認為他們未能從數字化戰略中充分獲益;82%的首席信息官認為其所在機構在利用技術推動業務發展方面並非「卓有成效」。 也就是說, 大多數公司的數字化戰略是以失敗告終的。
在此背景下,更加靈活、性能更加強大的新型資料庫在一些領域獲得了試驗田豐收,並且可以看到,隨著客戶數據需求的繁雜程度的日益增加,傳統資料庫也在自我革新,以迎頭趕上數據浪潮的大變革。
MongoDB成立於2007年,2017年在納斯達克上市。最初,MongoDB是一項面向技術愛好者的技術,如今已成為一項企業級的業務關鍵技術。通過不斷開發資料庫即服務(Database-as-a-Service)產品,積極擁抱雲計算,MongoDB在過去十年裡,為開發人員提供了處理數據的方法。正因如此,它也成了企業數字化轉型戰略的一個關鍵部分。
MongoDB提供的產品主要包括MongoDB雲服務MongoDB Atlas、MongoDB Mobile、MongoDB企業版和MongoDB Stitch等十餘個相關產品。Alan Chhabra表示,產品包括了 開源版、付費版和雲版。
2018 年 10 月,MongoDB宣布其開源許可證將從GNU AGPLv3切換到SSPL,新許可證將適用於新版本的MongoDB Community Server以及打過補丁的舊版本,這一舉動引發了行業熱議。基於GNU AGPLv3協議,企業可以將MongoDB作為公共服務但這需要企業開源自己的軟體或是獲得MongoDB的商業授權,事實卻是MongoDB發現許多企業正在違反協議「瘋狂試探」甚至已經違反協議。 SSPL( Server Side Public License)顧名思義,要求使用者必須得到伺服器端公共許可證,這一協議會進一步約束商業公司使用MongoDB服務。
Alan Chhabra向億歐解釋, SSPL 針對的是提供MongoDB託管服務的雲服務廠商。 也就是說,如果不是雲服務廠商,沒有公然售賣MongoDB產品,而只是作為應用後台資料庫來使用的話,那麼無論你是電商、物聯網、金融、社交、 游戲 、移動應用等等,一概都不會有任何影響。 「MongoDB的宗旨還是為了始終支持並保護創新開放。」
但此開源協議的修改明顯帶來了市場用戶的「掉粉」,比如Linux 社區的接連「棄用」,以及AWS 、IBM、微軟推出了兼容MongoDB的相關產品來服務用戶。
資料庫開源的商業變現與創新形成的矛盾,目前似乎還尚未找到解決方案。
Alan Chhabra在大會上也透露了MongoDB的未來計劃, 即將基於智能運營數據平台和下一代基礎架構、文化、方法論和安全,推動原有系統的現代化、數據即服務、雲數據策略、業務敏捷性,進而幫助客戶實現以數據驅動的數字化轉型。
針對MongoDB在中國的發展情況, Alan Chhabra表示,公司將以創新立足,持續引領資料庫技術發展潮流,與合作夥伴攜手助力中國企業的數字化轉型。
MongoDB北亞區副總裁蘇玉龍認為:「中國是數據大國,而數據就是未來的石油。如何利用好數據,讓數據石油助力中國企業騰飛是MongoDB希望在中國達成的事情。隨著中國企業數字化轉型逐漸走向深入,MongoDB資料庫的價值得到不斷釋放。」
本文作者龔晨霞,微信Gcx847076575,歡迎關注企業服務和產業互聯網的朋友加微信交流。
5. 請教:關於結構化和非結構化數據存儲
(1)結構化數據,簡單來說就是資料庫。結合到典型場景中更容易理解,比如企業ERP、財務系統;醫療HIS資料庫;政府行政審批;其他核心資料庫等。這些應用需要哪些存儲方案呢?基本包括高速存儲應用需求、數據備份需求、數據共享需求以及數據容災需求。
(2)非結構化資料庫是指其欄位長度可變,並且每個欄位的記錄又可以由可重復或不可重復的子欄位構成的資料庫,用它不僅可以處理結構化數據(如數字、符號等信息)而且更適合處理非結構化數據(全文文本、圖像、聲音、影視、超媒體等信息)。
面對海量非結構數據存儲,杉岩海量對象存儲MOS,提供完整解決方案,採用去中心化、分布式技術架構,支持百億級文件及EB級容量存儲,具備高效的數據檢索、智能化標簽和分析能力,輕松應對大數據和雲時代的存儲挑戰,為企業發展提供智能決策。
6. 什麼是結構化數據和非結構化數據
非結構化數據是數據結構不規則或不完整,沒有預定義的數據模型,不方便用資料庫二維邏輯表來表現的數據。包括所有格式的辦公文檔、文本、圖片、XML, HTML、各類報表、圖像和音頻/視頻信息等等。
計算機信息化系統中的數據分為結構化數據和非結構化數據。非結構化數據其格式非常多樣,標准也是多樣性的,而且在技術上非結構化信息比結構化信息更難標准化和理解。
非結構化數據的特點:
分析數據不需要一個專業性很強的數學家或數據科學團隊,公司也不需要專門聘請IT精英去做。真正的分析發生在用戶決策階段,即管理一個特殊產品細分市場的部門經理,可能是負責尋找最優活動方案的市場營銷者,也可能是負責預測客戶群體需求的總經理。
終端用戶有能力、也有權利和動機去改善商業實踐,並且視覺文本分析工具可以幫助他們快速識別最相關的問題,及時採取行動,而這都不需要依靠數據科學家。
以上內容參考:
網路-非結構化數據
7. 企業非結構化數據存儲用哪家的比較好要國內的廠商
杉岩、星辰天合、元核雲等,這些國內的存儲廠商都做得挺好的,也能滿足你問題中的需求。