當前位置:首頁 » 數據倉庫 » 資料庫行業標准
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

資料庫行業標准

發布時間: 2022-05-12 21:57:50

資料庫查找的原理是什麼

關系型資料庫採用結構化查詢語言(即sql)來對資料庫進行查詢,SQL早已獲得了各個資料庫廠商的支持,成為資料庫行業的標准。它能夠支持資料庫的CRUD(增加、查詢、更新、刪除)操作,具有非常強大的功能,SQL可以採用類似索引的方法來加快查詢操作。

NoSQL資料庫使用的是非結構化查詢語言(UnQL),它以數據集(像文檔)為單位來管理和操作數據。由於它沒有一個統一的標准,所以每個資料庫廠商提供產品標準是不一樣的,NoSQL中的文檔Id與關系型表中主鍵的概念類似,NoSQL資料庫採用的數據訪問模式相對SQL更簡單而精確。

(1)資料庫行業標准擴展閱讀

擴展方式——

當前社會和科學飛速發展,要支持日益增長的資料庫存儲需求,當然要求資料庫有良好的擴展性能,並且要求資料庫支持更多數據並發量,擴展方式是NoSQL資料庫與關系型資料庫差別最大的地方。

NoSQL資料庫由於使用的是數據集的存儲方式,它的存儲方式一定是分布式的,它可以採用橫向的方式來開展資料庫,也就是可以添加更多資料庫伺服器到資源池,然後由這些增加的伺服器來負擔數據量增加的開銷。

② 衡量資料庫性能的重要指標

具體來說,本文包括以下內容:

  • 事務

  • 查詢性能

  • 用戶和查詢沖突

  • 容量

  • 配置

  • NoSQL 資料庫

  • 事務

    事務可以觀察真實用戶的行為:能夠在應用交互時捕獲實時性能。眾所周知,測量事務的性能包括獲取整個事務的響應時間和組成事務的各個部分的響應時間。通常我們可以用這些響應時間與滿足事務需求的基線對比,來確定當前事務是否處於正常狀態。

    如果你只想衡量應用的某個方面,那麼可以評估事務的行為。所以,盡管容器指標能夠提供更豐富的信息,並且幫助你決定何時對當前環境進行自動測量,但你的事務就足以確定應用性能。無需向應用程序伺服器獲取 CPU 的使用情況,你更應該關心用戶是否完成了事務,以及該事務是否得到了優化。

    補充一個小知識點,事務是由入口點決定的,通過該入口點可以啟動事務與應用進行交互。

    一旦定義了事務,會在整個應用生態系統中對其性能進行測量,並將每個事務與基線進行比對。例如,我們可能會決定當事務的響應時間與基線相比,一旦慢於平均響應時間的兩個標准差是否就應該判定為異常,如圖1所示。

  • 圖1-基於基線評估當前事務響應時間
  • 用於評估事務的基線與正在進行的事務活動在時間上是一致的,但事務會由每個事務執行來完善。例如,當你選定一個基線,在當前事務結束之後,將事務與平均響應時間按每天的小時數和每周的天數進行對比,所有在那段時間內執行的事務都將會被納入下周的基線中。通過這種機制,應用程序可以隨時間而變化,而無需每次都重建原始基線;你可以將其看作是一個隨時間移動的窗口。

    總之,事務最能反映用戶體驗的測量方法,所以也是衡量性能狀況最重要的指標。

    查詢性能
    最容易檢測到查詢性能是否正常的指標就是查詢本身。由查詢引起的問題可能會導致時間太長而無法識別所需數據或返回數據。所以不妨在查詢中排查以下問題。

    1. 選擇過多冗餘數據

    編寫查詢語句來返回適當的數據是遠遠不夠的,很可能你的查詢語句會返回太多列,從而導致選擇行和檢索數據變得異常緩慢。所以,最好是列出所需的列,而不是直接用 SELECT*。當需要在特定欄位中查詢時,該計劃可能會確定一個覆蓋索引從而加快結果返回。覆蓋索引通常會包含查詢中使用的所有欄位。這意味著資料庫可以僅從索引中產生結果,而不需要通過底層表來構建。

    另外,列出結果中所需的列不僅可以減少傳輸的數據,還能進一步提高性能。

    2. 表之間的低效聯接

    聯接會導致資料庫將多組數據帶到內存中進行比較,這會產生多個資料庫讀取和大量 CPU。根據表的索引,聯接還可能需要掃描兩個表的所有行。如果寫不好兩個大型表之間的聯接,就需要對每個表進行完整掃描,這樣的計算量將會非常大。其他會拖慢聯接的因素包括聯接列之間存在不同的數據類型、需要轉換或加入包含 LIKE 的條件,這樣就會阻止使用索引。另外,還需注意避免使用全外聯接;在恰當的時候使用內部聯接只返回所需數據。

    3. 索引過多或過少

    如果查詢優化沒有可用的索引時,資料庫會重新掃描表來產生查詢結果,這個過程會生成大量的磁碟輸入/輸出(I/O)。適當的索引可以減少排序結果的需要。雖然非唯一值的索引在生成結果時,不能像唯一索引那樣方便。如果鍵越大,索引也會變大,並通過它們創建更多的磁碟 I/O。大多數索引是為了提高數據檢索的性能,但也需要明白索引本身也會影響數據的插入和更新,因為所有相關聯的指標都必須更新。

    4. 太多的SQL導致爭用解析資源

    任何 SQL 查詢在執行之前都必須被解析,在生成執行計劃之前需要對語法和許可權進行檢查。由於解析非常耗時,資料庫會保存已解析的 SQL 來重復利用,從而減少解析的耗時。因為 WHERE 語句不同,所以使用文本值的查詢語句不能被共享。這將導致每個查詢都會被解析並添加到共享池中,由於池的空間有限,一些已保存的查詢會被舍棄。當這些查詢再次出現時,則需要重新解析。

    用戶和查詢沖突
    資料庫支持多用戶,但多用戶活動也可能造成沖突。

    1. 由慢查詢導致的頁/行鎖定

    為了確保查詢產生精確的結果,資料庫必須鎖定表以防止在運行讀取查詢時再發生其他的插入和更新行為。如果報告或查詢相當緩慢,需要修改值的用戶可能需要等待至更新完成。鎖提示能幫助資料庫使用最小破壞性的鎖。從事務資料庫中分離報表也是一種可靠的解決方法。

    2. 事務鎖和死鎖

    當兩個事務被阻塞時會出現死鎖,因為每一個都需要使用被另一個佔用的資源。當出現一個普通鎖時,事務會被阻塞直到資源被釋放。但卻沒有解決死鎖的方案。資料庫會監控死鎖並選擇終止其中一個事務,釋放資源並允許該事務繼續進行,而另一個事務則回滾。

    3. 批處理操作造成資源爭奪

    批處理過程通常會執行批量操作,如大量的數據載入或生成復雜的分析報告。這些操作是資源密集型的,但可能影響在線用戶的訪問應用的性能。針對此問題最好的解決辦法是確保批處理在系統使用率較低時運行,比如晚上,或用單獨的資料庫進行事務處理和分析報告。

    容量
    並不是所有的資料庫性能問題都是資料庫問題。有些問題也是硬體不合適造成的。

    1. CPU 不足或 CPU 速度太慢

    更多 CPU 可以分擔伺服器負載,進一步提高性能。資料庫的性能不僅是資料庫的原因,還受到伺服器上運行其他進程的影響。因此,對資料庫負載及使用進行審查也是必不可少的。由於 CPU 的利用率時時在變,在低使用率、平均使用率和峰值使用率的時間段分別檢查該指標可以更好地評估增加額外的 CPU 資源是否有益。

    2. IOPS 不足的慢磁碟

    磁碟性能通常以每秒輸入/輸出操作(IOPS)來計。結合 I/O 大小,該指標可以衡量每秒的磁碟吞吐量是多少兆。同時,吞吐量也受磁碟的延遲影響,比如需要多久才能完成請求,這些指標主要是針對磁碟存儲技術而言。傳統的硬碟驅動器(HDD)有一個旋轉磁碟,通常比固態硬碟(SSD)或快閃記憶體更慢。直到近期,SSD 雖然仍比 HDD 貴,但成本已經降了下來,所以在市場上也更具競爭力。

    3. 全部或錯誤配置的磁碟

    眾所周知,資料庫會被大量磁碟訪問,所以不正確配置的磁碟可能帶來嚴重的性能缺陷。磁碟應該適當分區,將系統數據目錄和用戶數據日誌分開。高度活躍的表應該區分以避免爭用,通過在不同磁碟上存放資料庫和索引增加並行放置,但不要將操作系統和資料庫交換空間放置在同一磁碟上。

    4. 內存不足

    有限或不恰當的物理內存分配會影響資料庫性能。通常我們認為可用的內存更多,性能就越好。監控分頁和交換,在多個非繁忙磁碟中建立多頁面空間,進一步確保分頁空間分配足夠滿足資料庫要求;每個資料庫供應商也可以在這個問題上提供指導。

    5. 網速慢

    網路速度會影響到如何快速檢索數據並返回給終端用戶或調用過程。使用寬頻連接到遠程資料庫。在某些情況下,選擇 TCP/IP 協議而不是命名管道可顯著提高資料庫性能。

    配置

    每個資料庫都需設置大量的配置項。通常情況下,默認值可能不足以滿足資料庫所需的性能。所以,檢查所有的參數設置,包括以下問題。

    1. 緩沖區緩存太小

    通過將數據存儲在內核內存,緩沖區緩存可以進一步提高性能同時減少磁碟 I/O。當緩存太小時,緩存中的數據會更頻繁地刷新。如果它再次被請求,就必須從磁碟重讀。除了磁碟讀取緩慢之外,還給 I/O 設備增添了負擔從而成為瓶頸。除了給緩沖區緩存分配足夠的空間,調優 SQL 查詢可以幫助其更有效地利用緩沖區緩存。

    2. 沒有查詢緩存

    查詢緩存會存儲資料庫查詢和結果集。當執行相同的查詢時,數據會在緩存中被迅速檢索,而不需要再次執行查詢。數據會更新失效結果,所以查詢緩存是唯一有效的靜態數據。但在某些情況下,查詢緩存卻可能成為性能瓶頸。比如當鎖定為更新時,巨大的緩存可能導致爭用沖突。

    3. 磁碟上臨時表創建導致的 I/O 爭用

    在執行特定的查詢操作時,資料庫需要創建臨時表,如執行一個 GROUP BY 子句。如果可能,在內存中創建臨時表。但是,在某些情況下,在內存中創建臨時表並不可行,比如當數據包含 BLOB 或 TEXT 對象時。在這些情況下,會在磁碟上創建臨時表。大量的磁碟 I / O 都需要創建臨時表、填充記錄、從表中選擇所需數據並在查詢完成後舍棄。為了避免影響性能,臨時資料庫應該從主資料庫中分離出來。重寫查詢還可以通過創建派生表來減少對臨時表的需求。使用派生表直接從另一個 SELECT 語句的結果中選擇,允許將數據加到內存中而不是當前磁碟上。

    NoSQL 資料庫

    NoSQL 的優勢在於它處理大數據的能力非常迅速。但是在實際使用中,也應該綜合參考 NoSQL 的缺點,從而決定是否適合你的用例場景。這就是為什麼NoSQL通常被理解為 「不僅僅是 SQL」,說明了 NoSQL 並不總是正確的解決方案,也沒必要完全取代 SQL,以下分別列舉出五大主要原因。

    1. 挑剔事務

    難以保持 NoSQL 條目的一致性。當訪問結構化數據時,它並不能完全確保同一時間對不同表的更改都生效。如果某個過程發生崩潰,表可能會不一致。一致事務的典型代表是復式記賬法。相應的信貸必須平衡每個借方,反之亦然。如果雙方數據不一致則不能輸入。NoSQL 則可能無法保證「收支平衡」。

    2. 復雜資料庫

    NoSQL 的支持者往往以高效代碼、簡單性和 NoSQL 的速度為傲。當資料庫任務很簡單時,所有這些因素都是優勢。但當資料庫變得復雜,NoSQL 會開始分解。此時,SQL 則比 NoSQL 更好地處理復雜需求,因為 SQL 已經成熟,有符合行業標準的介面。而每個 NoSQL 設置都有一個唯一的介面。

    3. 一致聯接

    當執行 SQL 的聯接時,由於系統必須從不同的表中提取數據進行鍵對齊,所以有一個巨大的開銷。而 NoSQL 似乎是一個空想,因為缺乏聯接功能。所有的數據都在同一個表的一個地方。當檢索數據時,它會同時提取所有的鍵值對。問題在於這會創建同一數據的多個副本。這些副本也必須更新,而這種情況下,NoSQL 沒有功能來確保更新。

    4. Schema設計的靈活性

    由於 NoSQL 不需要 schema,所以在某些情況下也是獨一無二的。在以前的資料庫模型中,程序員必須考慮所有需要的列能夠擴展,能夠適應每行的數據條目。在 NoSQL 下,條目可以有多種字元串或者完全沒有。這種靈活性允許程序員迅速增加數據。但是,也可能存在問題,比如當有多個團體在同一項目上工作時,或者新的開發團隊接手一個項目時。開發人員能夠自由地修改資料庫,也可能會不斷實現各種各樣的密鑰對。

    5. 資源密集型

    NoSQL 資料庫通常比關系資料庫更加資源密集。他們需要更多的 CPU 儲備和 RAM 分配。出於這個原因,大多數共享主機公司都不提供 NoSQL。你必須注冊一個 VPS 或運行自己的專用伺服器。另一方面,SQL 主要是在伺服器上運行。初期的工作都很順利,但隨著資料庫需求的增加,硬體必須擴大。單個大型伺服器比多個小型伺服器昂貴得多,價格呈指數增長。所以在這種企業計算場景下,使用 NoSQL 更為劃算,例如那些由谷歌和 Facebook 使用的伺服器。

③ 資料庫對一個國家的經濟文化科技國家安全等有何影響

隨著數據安全法、個人信息保護法的頒布實施,數據安全成為各行業數字化轉型的重要一環,通過資料庫技術創新助力數據安全成為業內熱點。
記者調研采訪發現,面對數據安全合規以及新應用新場景下的安全防護要求,傳統資料庫安全防護理念和技術已經開始轉變。在大數據環境下進行頂層設計、標准制訂,對各大數據組件進行安全審計、訪問控制與風險識別,針對結構化與非結構化數據的安全脫敏、加密安全與隱私防護等,都是當前資料庫安全防護新趨勢的重要問題。
多因素驅動資料庫安全發展
近年來,我國數字經濟蓬勃發展。最新發布的《中國互聯網發展報告2021》顯示,2020年我國數字經濟規模達到39.2萬億元,佔GDP比重達38.6%。
「只有保障數據安全,才能築牢數字經濟發展的底線。」達夢資料庫高級副總經理付銓表示,數據是數字經濟的重要生產資料,是國家核心戰略資源和社會重要財富。同時,數據安全問題是關乎數字經濟健康有序可持續發展的重大問題。
綠盟科技集團副總裁李晨認為,資料庫安全發展主要有兩個驅動因素,一是資料庫本身的發展促使資料庫安全技術發展,二是數據安全相關法律法規和標准規范對資料庫安全防護提出新的需求。從技術發展看,大規模的數據存儲和處理需求,使得大數據、數據倉庫、數據湖以及數據中台得到推廣,並應用於分布式資料庫、雲端資料庫等很多場景。從數據安全法律法規看,繼等級保護2.0系列標准提出大數據應用場景的安全防護參考後,數據安全法和個人信息保護法又相繼頒布實施,將數據安全要求提高到法律的高度。
在中國信通院資料庫應用創新實驗室、中國通信標准化協會大數據技術標准推進委員會近日舉辦的「資料庫安全防護新趨勢」沙龍上,清華大學計算機系長聘教授李國良表示,標准有助於落實產業政策,促進企業發展。希望更多企業重視相關工作,共同為資料庫安全的發展做出貢獻。
據中國信通院雲大所工程師劉思源介紹,中國信通院深耕資料庫領域標准研製、產業研究、政策支撐、評測評估等,依託中國通信標准化協會大數據技術標准推進委員會,已牽頭編制近10項資料庫領域行業標准和若干團體標准,累計發布資料庫白皮書和研究報告近10本,並定期發布評測評估觀察,為遴選優質標的提供重要依據。
資料庫安全保障網路安全
資料庫安全防護是數據安全治理體系的一部分。李晨表示,綠盟科技從數據安全建設頂層設計出發,提出「一個中心,四個領域,五個階段」的數據安全體系建設思路。以數據安全防護為中心,在組織建設、制度流程、技術工具和人員能力四個領域同時開展建設工作,通過「知、識、控、察、行」五個步驟進行數據安全落地建設。僅就資料庫安全技術而言,綠盟科技有數據分類分級、審計與訪問控制、脫敏、水印、脫敏後風險評估、數據防護與態勢感知和隱私計算相關技術等。
付銓表示,在信息技術快速發展的背景下,需要在網路信息安全關鍵技術上有更大突破,前提是獨立研發,掌握核心技術。在安全問題上,只有資料庫沒有安全問題,數據才不會泄露或丟失,信息安全才能得到保障。可以說,只有底層的資料庫安全了,網路安全才有保障。
據介紹,達夢資料庫研發的數據共享集群實現了國產資料庫在共享存儲集群方面的突破,在性能上與國際同類產品持平。公司產品廣泛應用於金融、能源、電信等50多個重要領域。
構築多維度立體化安全防線
「隨著數據價值重要性的凸顯以及未來開放性環境下的安全風險日益突出,資料庫需要圍繞系統整體韌性能力和數據端到端全生命周期安全構建系統整體外部感知能力和機密計算能力,並完善內核審計追溯能力。」華為技術有限公司資料庫技術專家朱金偉說。
勒索病毒是當前受到關注的網路安全風險。美創科技產品和解決方案中心總監胡大海表示,為有效抵禦勒索病毒威脅,美創科技從防範實踐出發,以「零信任」安全理念為基礎,推出「勒索防禦產品+安全保險+容災備份」三位一體的勒索病毒風險解決方案,為機構數據安全構築起多維度、立體化的安全防線。完善的數據容災備份建設可以在攻擊發生前對數據進行備份,在攻擊發生後對數據進行恢復,最大程度降低由勒索病毒加密、竊取數據造成的數據丟失乃至業務中斷等影響。
據騰訊雲計算技術有限公司資料庫高級產品經理程昌明介紹,目前騰訊雲資料庫已經能夠從數據沉澱、業務學習、特徵總結、風險模型、人為中心以及行為分析等方面,基於大數據分析進行安全治理。

④ 資料庫系統建設需要依據哪些行業和國家標准或規范

你要是數據中心機房建設請參照一下標准:

1<<電子信息系統機房設計規范>>GB 50174-2008
2<<電子信息系統機房施工及驗收規范>>GB 50462-2008
3<<電子計算機場地通用規范>>GB/T 2887-2000
4<<防靜電活動地板通用規范>>SJ/T10796-2001
5<<通風與空調工程質量驗收規范>>GB 50243-2002
6<<火災自動報警系統設計規范>>GB 50116-2008
7<<火災自動報警系統施工及驗收規范>>GB 50166-2007
8<<供配電系統設計規范>>GB 50052-2009
9<<建築電氣工程施工質量驗收規范>>GB 50303-2002
10<<建築物電子信息系統防雷技術規范>>GB 50343-2004
11<<建築物防雷設計規范>>GB 50057-2010
12<<綜合布線系統工程設計規范>>GB/T50311-2007
13<<綜合布線系統工程驗收規范>>GB/T50312-2007
註: 數據中心建設不牽扯民用標准。。DXJS 標準是電信標准,看你是什麼行業,金融數據中心有自己的標准, 電力數據中心有自己的標准。

⑤ 這次被美國「科技霸凌」的中國資料庫《SQL9075 2018 流資料庫》國際技術標准究竟強在哪裡

長期以來,中國一直被三大「卡脖子」技術束縛——「晶元、操作系統、資料庫」。
晶元,自不用說,華為的苦我們都懂的;操作系統,我們剛剛實現了從0到1的過程,路漫漫其修遠;而資料庫作大眾看不見摸不到的技術支撐,很多人不太理解其重要性。在這里,簡單科普一下:資料庫是上述三大核心技術的核心基礎中台、基礎核心軟體,被稱為軟體的靈魂、是關鍵技術皇冠上的明珠,但中國恰恰在該領域的對外技術依賴性最高,這對於大國崛起就很尷尬了,相當於,打開緊箍咒的經我們不會念…
因此,中國在資料庫技術領域已經蓄力已久,五年前我們開始了國際標準的研發工作,經過中國專家組五年來的潛心精研、砥礪攻堅,終於在2019年基本明確了在資料庫技術標准上已取得突破性進展:由中國主導形成標準的《SQL9075 2018 流數據》在2020年只要順利通過審議,便可在全球發布、推廣及適用。同時,《AI-in-Database 庫內人工智慧》提案確認由中國主導形成國際標准,正式進入國際標準的撰寫及確定階段。

⑥ 什麼叫關系型資料庫

關系型資料庫,是指採用了關系模型來組織數據的資料庫,其以行和列的形式存儲數據,以便於用戶理解,關系型資料庫這一系列的行和列被稱為表,一組表組成了資料庫。

用戶通過查詢來檢索資料庫中的數據,而查詢是一個用於限定資料庫中某些區域的執行代碼。

關系模型可以簡單理解為二維表格模型,而一個關系型資料庫就是由二維表及其之間的關系組成的一個數據組織。

(6)資料庫行業標准擴展閱讀:

關系型資料庫特點:

1、存儲方式:傳統的關系型資料庫採用表格的儲存方式,數據以行和列的方式進行存儲,要讀取和查詢都十分方便。

2、存儲結構:關系型資料庫按照結構化的方法存儲數據,每個數據表都必須對各個欄位定義好,再根據表的結構存入數據,這樣做的好處就是由於數據的形式和內容在存入數據之前就已經定義好了,所以整個數據表的可靠性和穩定性都比較高。

3、存儲規范:關系型資料庫為了避免重復、規范化數據以及充分利用好存儲空間,把數據按照最小關系表的形式進行存儲,這樣數據管理的就可以變得很清晰、一目瞭然,當然這主要是一張數據表的情況。

4、擴展方式:由於關系型資料庫將數據存儲在數據表中,數據操作的瓶頸出現在多張數據表的操作中,而且數據表越多這個問題越嚴重,如果要緩解這個問題,只能提高處理能力,也就是選擇速度更快性能更高的計算機。

5、查詢方式:關系型資料庫採用結構化查詢語言來對資料庫進行查詢,SQL早已獲得了各個資料庫廠商的支持,成為資料庫行業的標准,它能夠支持資料庫的CRUD操作,具有非常強大的功能,SQL可以採用類似索引的方法來加快查詢操作。

6、規范化:在資料庫的設計開發過程中開發人員通常會面對同時需要對一個或者多個數據實體進行操作,這樣在關系型資料庫中,一個數據實體一般首先要分割成多個部分,然後再對分割的部分進行規范化,規范化以後再分別存入到多張關系型數據表中,這是一個復雜的過程。

7、事務性:關系型資料庫強調ACID規則(原子性(Atomicity)、一致性(Consistency)、隔離性(Isolation)、持久性(Durability)),可以滿足對事務性要求較高或者需要進行復雜數據查詢的數據操作,而且可以充分滿足資料庫操作的高性能和操作穩定性的要求。

8、讀寫性能:關系型資料庫十分強調數據的一致性,並為此降低讀寫性能付出了巨大的代價,雖然關系型資料庫存儲數據和處理數據的可靠性很不錯,但一旦面對海量數據的處理的時候效率就會變得很差,特別是遇到高並發讀寫的時候性能就會下降的非常厲害。

9、授權方式:關系型資料庫常見的有 Oracle,SQLServer,DB2,Mysql,除了Mysql大多數的關系型資料庫如果要使用都需要支付一筆價格高昂的費用,即使是免費的Mysql性能也受到了諸多的限制。

⑦ CEIC資料庫里行業分類標準是什麼

您好,希望以下回答能幫助您
是China entrepreneur Investment Club中國企業家投融資俱樂部的英文簡稱

如您還有疑問可繼續追問。

⑧ 資料庫結構

新一輪油氣資源評價資料庫是建立在國家層面上的資料庫,資料庫設計首先立足於國家能源政策和戰略制定的宏觀要求,還要結合油氣資源評價的工作特徵和各個評價項目及資源的具體情況。使用當前最流行和最成熟的資料庫技術進行資料庫的總體結構設計。

資料庫的設計以《石油工業資料庫設計規范》為指導標准,以《石油勘探開發數據》為設計基礎,借鑒前人的優秀設計理念和思路,參考國內外優秀的資源評價資料庫和油氣資源資料庫的設計技術優勢,結合本輪資源評價的具體特點,按照面向對象的設計和面向過程的設計相結合的設計方法,進行資料庫的數據劃分設計。

油氣資源評價資料庫要滿足新一輪全國油氣資源評價工作的常規油氣資源評價、煤層氣資源評價、油砂資源評價、油頁岩資源評價四個油氣資源評價的數據需求。進行資料庫具體數據內容設計。

並且,資料庫的設計要為油氣資源評價的快速、動態評價和遠程評價工作的需求保留足夠數據擴展介面,資料庫具有良好開放性、兼容性和可擴充性。

(一)數據劃分

資料庫內存放的數據將支持資源評價的整個過程。為了能更好地管理庫中數據,需要對整個過程中將用到的數據進行分類管理。具體分類方式如下(圖4-11):

圖4-11 數據分類示意圖

1.按照應用類型劃分

按照數據在資源評價過程中的應用類型劃分,可以劃分為基礎數據、參數數據和評價結果數據。

基礎數據是指從勘探生產活動及認識中直接獲取的原始數據,這些數據一般沒有經過復雜的處理和計算過程。如分析化驗數據、鑽井地質數據、盆地基礎數據等。這些數據是整個評價工作的基礎。

參數數據是指在評價過程中各種評價方法和軟體直接使用的參數數據。

評價結果數據是指資源評價中產生的各種評價結果數據,如資源量結果數據、地質評價結果數據等。

2.按照評價對象劃分

本次評價共分為大區、評價單元、計算單元三個層次,在研究中又使用了盆地、一級構造單元,在評價對象總體考慮中按照評價對象將數據劃分為大區、評價單元、計算單元等類型。

3.按照獲取方式劃分

按照獲取方式可以將數據分為直接獲取、研究獲取、間接獲取幾類。

4.按照存儲類型劃分

按照存儲類型可以將數據劃分為結構化數據和非結構化數據。

結構化數據是指能夠用現有的關系資料庫系統直接管理的數據,進一步又可以分為定量數據和定性數據兩類。

非結構化數據是指不能用現有的關系資料庫系統直接管理和操作的數據,它必須藉助於另外的工具管理和操作。如圖件數據、文檔數據等。

庫中數據類型的劃分共分六個層次逐次劃分,包括:數據存儲類型→資源類型→評價對象→應用→獲取方式→數據特徵。

對於結構化存儲的數據在應用層分為三類:基礎數據、中間數據和結果數據,基礎數據中包含用於類比的基礎數據、用於統計分析的基礎數據和直接用於公式運算的基礎數據;結構化存儲的數據在獲取方式上可以繼續劃分,其中,用於公式運算的數據可以細化為專家直接錄入、由地質類比獲取、通過生產過程獲取、通過地質研究過程獲取及其他方式。中間數據可以從以下方式獲取:標准、統計、類比、參數的關聯。結果數據的獲取有兩種方式:公式運算結果和通過鑽井、地質、綜合研究等提交的文字報告。

對於非結構化存儲的數據在應用層分為兩類:圖形數據和文檔數據。

圖形數據在獲取方式上可以繼續劃分成四種方式:通過工程測量數據獲取(如地理圖件、井位坐標數據等)、通過地質研究過程獲取(如沉積相圖、構造區劃圖等)、由綜合研究獲取(如綜合評價圖等)、其他方式。

圖形數據在表現方式上又可以進一步分為有坐標意義的圖形(如構造單元劃分圖、地理圖、井點陣圖等)、數值圖(如產烴率曲線圖、酐洛根熱降解圖等)和無坐標含義圖(如剖面圖)等。

文檔數據是指評價過程中產生的各種報告、項目運行記錄等。

(二)資料庫結構

從業務需求上,根據數據用途、數據類型和數據來源,可將本次的油氣資源評價資料庫分為三級:基礎庫、參數庫、成果庫(圖4-12)。其結構如下:

圖4-12 資料庫結構示意圖

1.基礎庫

基礎庫是油氣資源評價工作的最基礎的原始數據,有實測數據(物探數據、測井數據、鑽井數據、開發數據等)、實驗數據和經驗數據等。

確定基礎數據實際上是一項涉及油田勘探、開發等領域的多學科的復雜工作,是油氣資源評價工作的研究過程和研究成果在資料庫中的具體表現方式。在設計資料庫的過程中,需要與參數研究專家經過多次反復,才能最終確定基礎資料庫,確保基礎資料庫能滿足目前所有評價工作中計算的需要。

2.參數庫

參數庫用於存儲油氣資源評價工作所用到的參數數據,評價軟體,直接從參數庫中提取參數數據,用於計算。參數數據由基礎數據匯總而來,也可以由專家根據經驗直接得到。

本次評價中所涉及的參數大致可以分為以下幾類:①直接應用的參數;②通過標准或類比借用的參數;③通過研究過程或復雜的預處理得到的參數。

3.成果庫

成果庫用於存儲資源評價結果,包括各種計算結果、各種文檔、電子表格、圖片、圖冊等數據。

資料庫的體系結構採用分布式多層資料庫結構,包括三個組成部分:應用服務層、應用邏輯層和數據服務層。

資料庫體系結構如圖4-13所示。

圖4-13 體系結構結構圖

(1)應用服務層:應用服務層包含復雜的事務處理邏輯,應用服務層主要由中間件組件構成。中間件是位於上層應用和下層服務之間的一個軟體層,提供更簡單、可靠和增值服務。並且能夠實現跨庫檢索的關鍵技術。它能夠使應用軟體相對獨立於計算機硬體和操作系統平台,把分散的資料庫系統有機地組合在一起,為應用軟體系統的集成提供技術基礎,中間件具有標准程序介面和協議,可以實現不同硬體和操作系統平台上的數據共享和應用互操作。而在具體實現上,中間件是一個用API定義的分布式軟體管理框架,具有潛在的通信能力和良好的可擴展性能。中間件包含系統功能處理邏輯,位於應用伺服器端。它的任務是接受用戶的請求,以特定的方式向應用伺服器提出數據處理申請,通過執行相應的擴展應用程序與應用服務層進行連接,當得到應用伺服器返回的處理結果後提交給應用伺服器,再由應用伺服器傳送回客戶端。根據國內各大石油公司具體的需求開發相應的地質、油藏、生產等應用軟體功能程序模塊和各種演算法模塊。

(2)應用邏輯層:邏輯數據層是擴展數據服務層邏輯處理層,針對當前的底層資料庫的數據結構,根據具體的需求,應用各種資料庫技術,包括臨時表、視圖、存儲過程、游標、復制和快照等技術手段從底層資料庫中提取相關的數據,構建面向具體應用的邏輯資料庫或者形成一個虛擬的資料庫平台。邏輯數據層包含底層資料庫的部分或全部數據處理邏輯,並處理來自應用服務層的數據請求和訪問,將處理結果返回給邏輯數據層。

形成一個虛擬的資料庫平台我們可以應用資料庫系統中的多個技術來實現。如果系統中的一個節點中的場地或分片數據能夠滿足當前虛擬資料庫,可以在應用服務層中使用大量的查詢,生成一個以數據集結果為主的虛擬資料庫平台,並且由數據集附帶部分資料庫的管理應用策略。或者對節點上的資料庫進行復制方法進行虛擬資料庫的建立。對與需要對多個節點上的資料庫進行綜合篩選,則要對各個節點上的資料庫進行復制,合並各個復制形成一個應用邏輯層,從而建立一個虛擬數據平台。

(3)數據服務層:即資料庫伺服器層,其中包含系統的數據處理邏輯,位於不同的操作系統平台上,不同資料庫平台(異構資料庫),具體完成數據的存儲、數據的完整性約束。也可以直接處理來自應用服務層的數據請求和訪問,將處理結果返回給邏輯數據層或根據邏輯數據層通過提交的請求,返回數據信息和數據處理邏輯方法。

(三)數據建設標准

1.評價數據標准

系統資料庫中的數據格式、大小、類型遵從國家及行業標准,參考的標准如表4-23。

表4-23 資料庫設計參考標准

續表

系統中數據的格式及單位參考《常規油氣資源評價實施方案》、《煤層氣資源評價實施方案》、《油砂資源評價實施方案》、《油頁岩資源評價實施方案》及數據字典。

2.圖形圖件標准

對於地質研究來說,地質類圖件是比較重要的。各種地質評價圖形遵循以下標准(表4-24)。

表4-24 系統圖形遵循的相關標准

系統對圖形的要求為必須為帶有地理坐標意義的、滿足上述標准體系要求的矢量圖形,且採用統一的地理底圖。圖形格式採用:MapGIS圖形交換格式、GeoInfo圖形格式、ArcInfo圖形交換格式、MapInfo圖形交換格式和GeoMap圖形交換格式。

圖件的比例尺要求:

全國性圖件:1∶400萬或1:600萬

大區圖件:1:200萬

盆地圖件:1:40萬或1:50萬

評價單元圖件:1:10萬或1:20萬

圖件的內容要求符合《常規油氣資源評價實施方案》、《煤層氣資源評價實施方案》、《油砂資源評價實施方案》和《油頁岩資源評價實施方案》的規定。

(四)數據內容

資料庫中存儲的數據包括常規油氣相關數據、煤層氣相關數據、油砂相關數據和油頁岩相關數據;還有可采系數研究涉及的數據,包括研究所需基礎數據和研究成果數據;以及趨勢預測相關數據。

⑨ csmar資料庫中的行業如何劃分為十三個行業

「CSMAR財經資料庫」是由深圳市國泰安信息技術有限公司開發。CSMAR系列研究資料庫是國泰安公司根據國際資料庫標准(CRSP和COMPUSTAT)開發的專門針對中國金融、經濟領域的研究型精準資料庫,包括股票市場、公司研究、基金市場、債券市場、衍生市場、經濟研究、行業研究、海外研究和專題研究等11大系列,75個資料庫。
是全面涵蓋中國經濟、金融主要領域的高精準研究型資料庫,能滿足不同研究者的需求,幫助研究者最快和最方便的構建研究模型。