當前位置:首頁 » 數據倉庫 » 資料庫元數據管理
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

資料庫元數據管理

發布時間: 2023-06-12 05:24:50

1. 什麼是元數據(MetaData)及元數據的用途

元數據(Meta Data)是關於數據的數據,當人們描述現實世界的現象時,就會產生抽象信息,這些抽象信息便可以看作是元數據,元數據主要用來描述數據的上下文信息。

通俗的來講,假若圖書館的每本書中的內容是數據的話,那麼找到每本書的索引則是元數據,元數據之所以有其它方法無法比擬的優勢,就在於它可以幫助人們更好的理解數據。

發現和描述數據的來龍去脈,特別是那些即將要從OLTP系統上升到DW/BI體系建設的企業,元數據可以幫他們形成清晰直觀的數據流圖,元數據是數據管控的基本手段。

元數據是為了提升共享、重新獲取和理解企業信息資產的水平,元數據是企業信息管理的潤滑劑,不對元數據進行管理或管理不得當。

信息將被丟失或處於隱匿狀態而難以被用戶使用,數據集成將十分昂貴,不能對業務進行有效支撐。終端用戶要識別相關的信息將十分困難,最終用戶將失去對數據的信任。

(1)資料庫元數據管理擴展閱讀

元數據分類

元數據管理的范圍將涵括數據產生、數據存儲、數據加工和展現等各個環節的數據描述信息,幫助用戶理解數據來龍去脈、關系及相關屬性。按其描述對象的不同可以劃分為三類元數據:技術元數據、業務元數據和管理元數據。這三種元數據的具體描述如下:

1、技術元數據 技術元數據是描述數據系統中技術領域相關概念、關系和規則的數據,主要包括對數據結構、數據處理方面的特徵描述,覆蓋數據源介面、數據倉庫與數據集市存儲、ETL、OLAP、數據封裝和前端展現等全部數據處理環節;

2、業務元數據 業務元數據是描述數據系統中業務領域相關概念、關系和規則的數據,主要包括業務術語、信息分類、指標定義和業務規則等信息;

3、管理元數據 管理元數據是描述數據系統中管理領域相關概念、關系和規則的數據,主要包括人員角色、崗位職責和管理流程等信息。

2. 如何有效的進行數據治理和數據管控

從技術實施角度看,主要包含「理」「采」「存」「管」「用」這五個,即業務和數據資源梳理、數據採集清洗、資料庫設計和存儲、數據管理、數據使用。

數據資源梳理:數據治理的第一個步驟是從業務的視角釐清組織的數據資源環境和數據資源清單,包含組織機構、業務事項、信息系統,以及以資料庫、網頁、文件和 API 介面形式存在的數據項資源,本步驟的輸出物為分門別類的數據資源清單。

數據採集清洗:通過可視化的 ETL 工具(例如阿里的 DataX,Pentaho Data Integration)將數據從來源端經過抽取 (extract)、轉換 (transform)、載入 (load) 至目的端的過程,目的是將散落和零亂的數據集中存儲起來。

基礎庫主題庫建設:一般情況下,可以將數據分為基礎數據、業務主題數據和分析數據。基礎數據一般指的是核心實體數據,或稱主數據,例如智慧城市中的人口、法人、地理信息、信用、電子證照等數據。主題數據一般指的是某個業務主題數據,例如市場監督管理局的食品監管、質量監督檢查、企業綜合監管等數據。而分析數據指的是基於業務主題數據綜合分析而得的分析結果數據,例如市場監督管理局的企業綜合評價、產業區域分布、高危企業分布等。那麼基礎庫和主題庫的建設就是在對業務理解的基礎上,基於易存儲、易管理、易使用的原則抽像數據存儲結構,說白了,就是基於一定的原則設計資料庫表結構,然後再根據數據資源清單設計數據採集清洗流程,將整潔干凈的數據存儲到資料庫或數據倉庫中。

元數據管理:元數據管理是對基礎庫和主題庫中的數據項屬性的管理,同時,將數據項的業務含義與數據項進行了關聯,便於業務人員也能夠理解資料庫中的數據欄位含義,並且,元數據是後面提到的自動化數據共享、數據交換和商業智能(BI)的基礎。需要注意的是,元數據管理一般是對基礎庫和主題庫中(即核心數據資產)的數據項屬性的管理,而數據資源清單是對各類數據來源的數據項的管理。

血緣追蹤:數據被業務場景使用時,發現數據錯誤,數據治理團隊需要快速定位數據來源,修復數據錯誤。那麼數據治理團隊需要知道業務團隊的數據來自於哪個核心庫,核心庫的數據又來自於哪個數據源頭。我們的實踐是在元數據和數據資源清單之間建立關聯關系,且業務團隊使用的數據項由元數據組合配置而來,這樣,就建立了數據使用場景與數據源頭之間的血緣關系。 數據資源目錄:數據資源目錄一般應用於數據共享的場景,例如政府部門之間的數據共享,數據資源目錄是基於業務場景和行業規范而創建,同時依託於元數據和基礎庫主題而實現自動化的數據申請和使用。

質量管理:數據價值的成功發掘必須依託於高質量的數據,唯有準確、完整、一致的數據才有使用價值。因此,需要從多維度來分析數據的質量,例如:偏移量、非空檢查、值域檢查、規范性檢查、重復性檢查、關聯關系檢查、離群值檢查、波動檢查等等。需要注意的是,優秀的數據質量模型的設計必須依賴於對業務的深刻理解,在技術上也推薦使用大數據相關技術來保障檢測性能和降低對業務系統的性能影響,例如 Hadoop,MapRece,HBase 等。

商業智能(BI):數據治理的目的是使用,對於一個大型的數據倉庫來說,數據使用的場景和需求是多變的,那麼可以使用 BI 類的產品快速獲取需要的數據,並分析形成報表,像派可數據就屬於專業的BI廠商。

數據共享交換:數據共享包括組織內部和組織之間的數據共享,共享方式也分為庫表、文件和 API 介面三種共享方式,庫表共享比較直接粗暴,文件共享方式通過 ETL 工具做一個反向的數據交換也就可以實現。我們比較推薦的是 API 介面共享方式,在這種方式下,能夠讓中心數據倉庫保留數據所有權,把數據使用權通過 API 介面的形式進行了轉移。API 介面共享可以使用 API 網關實現,常見的功能是自動化的介面生成、申請審核、限流、限並發、多用戶隔離、調用統計、調用審計、黑白名單、調用監控、質量監控等等。

3. 元資料庫

元數據是「關於數據的數據」,存在於電子信息環境中,用於描述資源的屬性,呈現其關系,支持資源發現、管理與有效利用(徐筱紅,2006),是對所採集到的數據的說明。一般來說,它有兩方面的用途:首先,元數據能提供基於用戶的信息,如記錄數據項的業務描述信息的元數據能幫助用戶使用數據;其次,元數據能支持系統對數據的管理和維護,如關於數據項存儲方法的元數據能支持系統以最有效的方式訪問數據。具體來說,在塔里木河流域生態環境動態監測及輔助決策支持系統綜合資料庫系統中,元數據機制主要支持以下幾類系統管理功能:①描述哪些數據在綜合資料庫中;②定義要進入資料庫中的數據和從資料庫中產生的數據;③記錄並檢測系統數據一致性的要求和執行情況;④衡量數據質量。

(一)元數據分級與特徵

1.元數據分級

基本元數據:提供地理數據源基本文檔所需要的最少的元數據元素集。

完全元數據:提供完整的地理數據源(單獨的數據集、數據集系列、各種地理要素)文檔所需要的必選的和可選的元數據元素集。它完整地定義全部元數據,以便標識、評價、摘錄、使用和管理地理信息。

2.元數據特徵

(1)名稱:賦給元數據實體或元素的標記。

(2)標識碼:計算機中使用的定義每個元數據實體和元素的唯一代碼。代碼結構為:XXXXXX

前2位為元數據子集,2位數字碼;中間2位為元數據實體/獨立元素,2位數字碼;後2位為元數據實體包含的元素,2位數字碼。

(3)定義:對元數據實體和元素的說明。

(4)性質:說明元數據實體或元素是否總是出現,或有時出現的描述符。描述符分別為:M-必選;C-一定條件下必選;O-可選。

(5)條件:說明何種條件下元數據子集、實體或元素是必選的。如果對所說明的條件成立,那麼該子集、實體或元素就是必選的。

(6)最大出現次數:指定元數據實體或元素在實際使用時,可能重復出現的最大次數。只出現一次的表示為「1」,重復出現的表示為「N」。

(7)數據類型:表示元數據元素的一組不同的值,例如,「文本」、「整型」、「短語」、「坐標串」、「實型」和「日期」。

(8)值域:指定每個元數據元素的取值范圍。「任意長文本」表示所述內容不受限制,實型數和基於代碼的整型數等只能使用一個限定的(閉合的)值域內的值。

(二)元資料庫主要內容

塔里木河流域生態環境動態監測系統的元數據包括數字影像圖、數字柵格圖、數字高程模型、數字線劃圖等。大部分數據都有相應的國家或行業元數據標准規范,有國家或行業標準的按照標准規范採集;沒有規范的,按照元數據的分級特徵進行定義。主要包括有關數據源、數據分層、成果歸屬、空間參照系、數據質量(包含數據精度和數據評價)、數據更新、圖幅接邊等方面的信息(周騁等,2006)。其主要內容描述如下:

(1)標識信息:是唯一標識數據集的元數據信息。包括數據集名稱、發布時間、版本、語種、摘要、現狀、空間范圍(地理范圍、時間范圍)、表示方式、空間解析度、信息類別。

(2)數據質量信息:是數據集質量的總體評價。包括數據集內容完整性說明、數據集在概念、值域、格式和拓撲關系等方面的一致性程度、位置精度(空間位置絕對精度和相對精度)、時間精度(表示時間的精確程度、現勢性、有效性)、屬性精度(數據集屬性分類正確性、屬性值的精度和正確性)、數據質量保證措施。

(3)數據字典信息:包含數據集應用、數據源及生產數據集時所用工藝方法等信息。

(4)空間參照系信息:數據集使用的空間參照系統的說明。包括基於地理標識的空間參照系統、基於坐標的空間參照系統。

(5)內容信息:描述數據集的主要內容。包括主要要素類型名稱及相應的屬性名稱、影像數據集內容概述(波長、波段、灰階等級、合成處理方式)、柵格數據集內容概述(格網尺寸、格網尺寸單位、格網行列數、格網起始點坐標)。

(6)元數據參考信息:包括元數據發布或更新的時間,以及建立元數據單位的聯系信息。

以上6類由兩個公共數據類型聯系,公共數據類型包括:

(1)覆蓋范圍信息:數據集的空間范圍(經緯度坐標、地理標識符)、時間范圍(起始時間、終止時間)、垂向范圍(最小垂向坐標值、最大垂向坐標值、計量單位)。

(2)負責單位聯系信息:與數據集有關的單位標識(負責單位名稱、聯系人、職責)和聯系信息(電話、傳真、通信地址、郵政編碼、電子信箱地址、網址)。

(三)元數據入庫

元數據信息是一個純文本文件,在生產時採集了多項數據,它是與圖形數據、屬性數據緊密聯系在一起的,按照每幅圖一個文本文件存儲。為了實現資料庫系統中元數據與數據體的集成化管理,以及元數據與數據體的一體化相互檢索查詢,需將元數據信息空間化。採取的技術方法就是將元數據文件與圖幅結合表聯系起來,將每一幅圖形的區域作為一個目標對象,所採集的多項元數據信息作為其屬性項,構成一個以圖幅結合表為基礎的矢量格式元數據集。同圖形數據坐標系統一樣,元數據採用地理坐標系統,整個流域則以Coverage格式整體存儲,數據處理完成後全部導入到Oracle9i資料庫中。