1. 說明在創建資料庫時如何合理規劃資料庫的物理存儲結構和邏輯存儲結構
Oracle資料庫的邏輯結構和物理結構
Oracle 資料庫的邏輯結構是由一些資料庫對象組成,如資料庫表空間、表、索引、段、視圖、存儲過程、觸發器等。資料庫的邏輯存儲結構(表空間等)決定了資料庫的物理空間是如何被使用的,資料庫對象如表、索引等分布在各個表空間中。
Oracle 資料庫的物理結構從操作系統一級查看,是由一個個的文件組成,從物理上可劃分為:數據文件、日誌文件、控制文件和參數文件。數據文件中存放了所有的數據信息;日誌文件存放資料庫運行期間產生的日誌信息,它被重復覆蓋使用,若不採用歸檔方式的話,已被覆蓋的日誌信息將無法恢復;控制文件記錄了整個資料庫的關鍵結構信息,它若被破壞,整個資料庫將無法工作和恢復;參數文件中設置了很多Oracle 資料庫的配置參數,當資料庫啟動時,會讀取這些信息。
邏輯結構的優化
邏輯結構優化用通俗的話來說就是通過增加、減少或調整邏輯結構來提高應用的效率,下面通過對基本表的設計及索引、聚簇的討論來分析ORACLE邏輯結構的優化。
1、基本表擴展
資料庫性能包括存儲空間需求量的大小和查詢響應時間的長短兩個方面。為了優化資料庫性能,需要對資料庫中的表進行規范化。一般來說,邏輯資料庫設計滿足第三範式的表結構容易維護且基本滿足實際應用的要求。所以,實際應用中一般都按照第三範式的標准進行規范化,從而保證了資料庫的一致性和完整性,設計人員往往會設計過多的表間關聯,以盡可能地降低數據冗餘。但在實際應用中這種做法有時不利於系統運行性能的優化:如過程從多表獲取數據時引發大量的連接操作,在需要部分數據時要掃描整個表等,這都消耗了磁碟的I/O 和CPU 時間。
為解決這一問題,在設計表時應同時考慮對某些表進行反規范化,方法有以下幾種:一是分割表。分割表可分為水平分割表和垂直分割表兩種:水平分割是按照行將一個表分割為多個表,這可以提高每個表的查詢速度,但查詢、更新時要選擇不同的表,統計時要匯總多個表,因此應用程序會更復雜。垂直分割是對於一個列很多的表,若某些列的訪問頻率遠遠高於其它列,就可以將主鍵和這些列作為一個表,將主鍵和其它列作為另外一個表。通過減少列的寬度,增加了每個數據頁的行數,一次I/O就可以掃描更多的行,從而提高了訪問每一個表的速度。但是由於造成了多表連接,所以應該在同時查詢或更新不同分割表中的列的情況比較少的情況下使用。二是保留冗餘列。當兩個或多個表在查詢中經常需要連接時,可以在其中一個表上增加若干冗餘的列,以避免表之間的連接過於頻繁,一般在冗餘列的數據不經常變動的情況下使用。三是增加派生列。派生列是由表中的其它多個列的計算所得,增加派生列可以減少統計運算,在數據匯總時可以大大縮短運算時間。
因此,在資料庫的設計中,數據應當按兩種類別進行組織:頻繁訪問的數據和頻繁修改的數據。對於頻繁訪問但是不頻繁修改的數據,內部設計應當物理不規范化。對於頻繁修改但並不頻繁訪問的數據,內部設計應當物理規范化。有時還需將規范化的表作為邏輯資料庫設計的基礎,然後再根據整個應用系統的需要,物理地非規范化數據。規范與反規范都是建立在實際的操作基礎之上的約束,脫離了實際兩者都沒有意義。只有把兩者合理地結合在一起,才能相互補充,發揮各自的優點。
2、索引和聚簇
創建索引是提高檢索效率最有效的方法之一,索引把表中的邏輯值映射到安全的RowID,能快速定位數據的物理地址,可以大大加快資料庫的查詢速度,一個建有合理索引的資料庫應用系統可能比一個沒有建立索引的資料庫應用系統效率高幾十倍,但並不是索引越多越好,在那些經常需要修改的數據列上建立索引,將導致索引B*樹的不斷重組,造成系統性能的下降和存儲空間的浪費。對於一個大型表建立的索引,有時並不能改善數據查詢速度,反而會影響整個資料庫的性能。這主要是和SGA的數據管理方式有關,Oracle在進行數據塊高速緩存管理時,索引數據比普通數據具有更高的駐留許可權,在進行空間競爭時,Oracle會先移出普通數據,對建有索引的大型表進行數據查詢時,索引數據可能會用完所有的數據塊緩存空間,Oracle不得不頻繁地進行磁碟讀寫來獲取數據,所以,在對一個大型表進行分區之後,可以根據相應的分區建立分區索引。
Oracle提供了另一種方法來提高查詢速度,就是聚簇(Cluster)。所謂聚簇,簡單地說就是把幾個表放在一起,按一定公共屬性混合存放。聚簇根據共同碼值將多個表的數據存儲在同一個Oracle塊中,這時檢索一組Oracle塊就同時得到兩個表的數據,這樣就可以減少需要存儲的Oracle塊,從而提高應用程序的性能。
對於邏輯結構的優化,還應將表數據和索引數據分開表空間存儲,分別使用獨立的表空間。因為如果將表數據和索引數據放在一起,表數據的I/O操作和索引的I/O操作將產生影響系統性能的I/O競爭,降低系統的響應效率。將表數據和索引數據存放在不同的表空間中,並在物理層面將這兩個表空間的數據文件放在不同的物理磁碟上,就可以避免這種競爭了。
物理結構的優化
資料庫的數據最終是存儲在物理磁碟上的,對數據進行訪問就是對這些物理磁碟進行讀寫,因此對於這些物理存儲的優化是系統優化的一個重要部分。對於物理存儲結構優化,主要是合理地分配邏輯結構的物理存儲地址,這樣雖不能減少對物理存儲的讀寫次數,但卻可以使這些讀寫盡量並行,減少磁碟讀寫競爭,從而提高效率,也可以通過對物理存儲進行精密的計算減少不必要的物理存儲結構擴充,從而提高系統利用率。
1、磁碟讀寫並行優化
對於資料庫的物理讀寫,Oracle系統本身會進行盡可能的並行優化,例如在一個最簡單的表檢索操作中,如果表結構和檢索域上的索引不在一個物理結構上,那麼在檢索的過程中,對索引的檢索和對表的檢索就是並行進行的。
2、操作並行優化
操作並行的優化是基於操作語句的統計結果,首先是統計各個表的訪問頻率,表之間的連接頻率,根據這些數據按如下原則分配表空間和物理磁碟,減少系統進程和用戶進程的磁碟I/O競爭;把需要連接的表格在表空間/物理磁碟上分開;把高頻訪問的表格在表空間/物理磁碟上分開;把經常需要進行檢索的表格的表結構和索引在表空間/物理磁碟上分開。
3、減少存儲結構擴展
如果應用系統的資料庫比較脆弱,並在不斷地增長或縮小,這樣的系統在非動態變化周期內效率合理,但是當在動態變化周期內的時候,性能卻很差,這是由於Oracle的動態擴展造成的。在動態擴張的過程中,Oracle必須根據存儲的要求,在創建行、行變化獲取預設值時,擴展和分配新的存儲空間,而且表格的擴展往往並不是事情的終結,還可能導致數據文件、表空間的增長,這些擴展會導致在線系統反應緩慢。對於這樣的系統,最好的辦法就是在建立的時候預先分配足夠的大小和合適的增長幅度。在一個對象建立的時候要根據應用充分地計算他們的大小,然後再根據這些數據來定義對象Initial、Next和Minextents的值,使資料庫在物理存儲上和動態增長次數上達到一個比較好的平衡點,使這些對象既不經常發生增長,也不過多地佔用資料庫。
2. 資料庫物理模型
資料庫物理模型設計的目標是根據選定的Oracle資料庫系統特點和航空物探數據管理與服務的業務處理需求,確定航空物探資料庫最優的物理環境、存取方法和存儲結構。即通過資料庫物理設計,以便達到物理資料庫結構的優化,使得在資料庫上運行的各種事務響應時間少、存儲空間利用率高、事務吞吐率大。
一、資料庫布局
航空物探信息系統的維護數據(部門、崗位、人員、人員許可權、數據入庫檢查規則及數據字典等)相對比較穩定。入庫前數據需經過各種檢查校對,確認數據正確後才能歸檔,存入航空物探資料資料庫,所以存入資料庫前的數據可能經常需要修改和刪除,相對變化較大;而存入資料資料庫中的數據一般不允許修改和刪除,以免誤操作破壞資料庫數據造成損失。
圖2-12 航空物探資料庫邏輯模型
圖2-13 航空物探資料庫布局與數據採集流程圖
據此,我們採用圖2-13所示的資料庫數據採集流程,並將航空物探資料庫分為資料採集資料庫、資料資料庫、系統維護資料庫分別進行存儲和管理,實現數據的統一管理和統一使用,便於數據入庫和易於維護等。
航空物探資料資料庫是航空物探所有數據最終存儲的場所。資料採集資料庫是數據歸檔存入資料資料庫前的臨時「集散地」,在此接收各項檢查,在確認數據無誤後歸檔到資料資料庫,然後刪除資料採集資料庫中已歸檔的數據。此外,資料採集資料庫中還保存數據入庫、維護、檢查日誌及歸檔記錄。
系統維護資料庫,存儲系統維護信息(如系統功能、資料庫表清單等)、安全信息(如信息系統用戶的角色、許可權、授權的系統功能等),數據字典、入庫數據檢查規則等。將其與航空物探數據分開,有利於系統維護和管理。
二、資料庫空間設置
資料庫空間設置包括磁碟空間設置、應用系統表空間設置、撤銷表空間、臨時表空間、日誌空間和索引空間設置。
(一)磁碟空間設置
磁碟空間設置的目標:磁碟性能不能阻礙實現資料庫性能,資料庫磁碟必須專用於資料庫文件,否則非資料庫將會影響到資料庫性能,且磁碟空間必須滿足恢復和性能的要求。
航空物探資料庫伺服器為IBM P620小型機,8塊硬碟,每塊硬碟36GB空間,每塊物理磁碟建立一個文件系統。為了提高磁碟的反應時間和尋道時間,提高I/O的存取效率,除了一塊硬碟用於UNIX操作系統外,其餘7塊磁碟分別存放資料採集資料庫、系統維護資料庫-日誌文件,資料資料庫及資料資料庫的大欄位數據、索引、回滾段和數據日誌文件。
(二)應用系統表空間設置
信息系統數據採集過程對數據的事務操作比較頻繁,經常進行數據插入(新數據入庫)、修改(入庫數據有誤)和刪除操作(數據重新導入或歸檔入庫),因此航空物探資料採集資料庫所在的表空間會很活躍。為了不影響其他I/O的競爭,同時也可以提高數據入庫的操作效率(50多年的歷史數據需要集中入庫),分配一個磁碟空間(36GB)為採集庫的表空間。由於採集數據歸檔入資料庫後被刪除,同時進行數據入庫的項目也不是很多,雖仍保留所有的採集日誌數據,一個磁碟空間也足夠使用。
航空物探資料資料庫的二維表和Oracle大欄位(BLOB)分別存放在不同的物理磁碟(每個磁碟36GB)上,對同時存在有表格數據和大欄位數據的資料庫表(如航跡線數據)時,可以提高磁碟I/O效率。隨著數據入庫的項目越來越多,需要增加相應的物理磁碟或磁碟陣列。
系統維護資料庫相對穩定,佔用磁碟空間約500 M左右。由於系統磁碟有限,把日誌文件存放該磁碟中。
(三)撤銷表和臨時表空間的設置
在Oracle資料庫中,撤銷的目的是確保事務的回退和恢復。撤銷參數有UNDO_MANAGEMENT、UNDO_TABLESPACE和UNDO_RETENTION。
UNDO_MANAGEMENT參數用於資料庫中管理撤銷數據的方式,航空物探資料庫設置為自動模式(auto)。
UNDO_TABLESPACE參數用於指定資料庫中保存撤銷數據的撤銷表空間名稱,航空物探資料庫撤銷表空間名稱為UNDO_ARGS_TBSPACE,空間大小設置為20GB,以確保在保留時間內進行恢復。
UNDO_RETENTION參數用於指定已經提交事務的撤銷數據在能夠覆蓋之前應該保留多長時間,本資料庫系統設置為60 min。
臨時表空間是用以存儲大量的排序,與撤銷表空間存放在一個物理磁碟上,本資料庫系統臨時表空間設置為500 M。
(四)日誌空間設置
日誌的主要功能是記錄對資料庫已做過的全部操作。在系統出現故障時,如果不能將修改數據永久地寫入數據文件,則可利用日誌得到該修改,所以不會丟失已有操作結果。
日誌文件主要是保護資料庫以防止故障。為了防止日誌文件本身的故障,航空物探資料庫系統分別在一個獨立磁碟和系統維護庫磁碟中存放日誌文件。若系統出現故障,在下次打開資料庫時Oracle資料庫系統自動用日誌文件中的信息來恢復資料庫文件。
根據航空物探資料庫信息系統同時登錄的用戶數及使用的功能,將日誌文件大小設置為10GB。
(五)索引表空間設置
為了提高航空物探信息系統的查詢和統計速度,把所有索引空間與應用表空間完全分開,從而提高I/O存取效率。航空物探索引表空間大小設置為10GB。
聚集是表的一種存儲方法,一般每個基本表是單獨組織的,但對邏輯上經常在一起查詢的表,在物理上也鄰近存放,這樣可減少數據的搜索時間,提高性能。
當幾個關系(表)以聚集方式組織時,是通過公共屬性的值為表聚集的依據。航空物探資料庫系統是以項目標識(PROJ_ID)建立聚集的,所有涉及項目標識的資料庫表直接引用項目標識聚集。航空物探聚集表空間與索引表空間相同。
三、資料庫參數設置
在資料庫創建前需要對如下資料庫參數進行設置,航空物探參數文件名為Initoraargs.ora,各種參數設置如下:
航空物探信息系統建設
四、內存設置
航空物探資料庫伺服器物理內存為4GB,除部分用於系統開銷外,其餘全部用於資料庫。
Oracle使用共享系統全局區(System Global Area,SGA)內存來管理內存和文件結構,包含DB_block_Buffers、DB_cache_size、Shared_pool_size、Log_Buffer參數。航空物探資料庫系統的全局區內存參數設置如下。
DB_block_Buffers參數為SGA中存儲區高速緩存的緩沖區數目,每個緩沖區的大小等於參數DB_block_size的大小,DB_block_Buffers=19200(約300 MB)。
Shared_pool_size參數為分配給共享SQL區的位元組數,是SGA大小的主要影響者,Shared_pool_size=1228800000(1.2GB)。
DB_cache_size參數是SGA大小和資料庫性能的最重要的決定因素。該值較高,可以提高系統的命中率,減少I/O,DB_cache_size=1024000000(1GB)。
Log_Buffer參數為重做日誌高速緩存大小,主要進行插入、刪除和修改回退操作,Log_buffer=5120000(5MB)。
五、優化設置
由於航空物探信息系統的採集軟體和應用軟體是採用MS.NET C#進行開發的,應用程序與資料庫之間的連接有傳統的ODBC和OLE DB兩種方式。為了支持ODBC在OLE DB技術上建立了相應的OLE DB到ODBC的調用轉換,而使用直接的OLE DB方式則不需轉換,從而提高處理速度。
在建立資料庫表時,參數Pctfree和Pctused設置不正確可能會導致數據出現行鏈接和行遷移現象,即同一行的數據被保存在不同的數據塊中。在進行數據查詢時,為了讀出這些數據,磁頭必須重新定位,這樣勢必會大大降低資料庫的執行速度。因此,在創建表時應充分估計到將來可能出現的數據變化,正確地設置這兩個參數,盡量減少資料庫中出現的行鏈接和行遷移現象。
航空物探資料採集資料庫表的插入、修改和刪除的頻率較高,Pctfree設置為20,Pctused設置為40;系統維護資料庫表相對穩定,Pctfree設置為10,Pctused設置為15;資料資料庫表除了增加數據外基本不進行修改和刪除操作,Pctfree設置為10,Pctused設置為5。
六、擴展性設置
多CPU和並行查詢PQO(Parallel Query Option)方式的利用:CPU的快速發展使得Oracle越來越重視對多CPU的並行技術的應用,一個資料庫的訪問工作可以用多個CPU相互配合來完成。對於多CPU系統盡量採用並行查詢選項方式進行資料庫操作。航空物探資料庫伺服器為2個CPU,在程序查詢中採用了並行查詢的方式。
在航空物探工作量統計、飛行小時統計、測量面積統計和岩石物性統計中,為了加快統計效率,在相應的查詢語句中增加了並行查詢語句。
隨著航空物探高精度測量程度的不斷提高,測量數據將越來越大。為了滿足航空物探查詢效率及發展,將航磁測量數據與校正後航磁測量數據按比例尺分1∶20 萬以下、20萬~50萬、1∶50萬以上分別存放3張不同的資料庫表。
七、創建資料庫
在完成資料庫布局、空間設置、內存設置、資料庫參數設置、擴展性設置和優化設置後,進行航空物探資料庫物理模型設計,即航空物探資料庫實體創建。由於航空物探空間資料庫邏輯模型是採用ESRI提供的ArcGIS UML構建的Geodatabase模型,因此,使用ESRI公司提供的CaseTools將航空物探數據UML模型圖轉成空間資料庫(Geodatabase)實體(圖2-14)。
航空物探屬性資料庫表(二維表)是採用Power Designer資料庫設計平台直接把資料庫關系模型生成資料庫腳本來創建的。
經過資料庫的概念設計、邏輯設計和物理設計,最終生成航空物探資料庫。
圖2-14 航空物探資料庫物理模型實現
八、空間數據的索引機制
對於海量的空間資料庫而言,資料庫的操作效率是關繫到資料庫成敗的關鍵問題。為了提高數據的訪問、檢索和顯示速度,數據在載入到資料庫時,要素類數據建立了空間索引,柵格數據構建了金字塔結構,對象類數據採用與資料庫直接聯接的訪問機制。
(一)空間索引
為了提高要素類數據的查詢性能,在建立航空物探空間資料庫時,創建了空間索引機制。常用的空間索引有格網索引、R樹索引、四叉樹索引等。Geodatabase採用格網索引方式。所謂格網索引是將空間區域劃分成適合大小的正方形格網,記錄每一個格網內所包含的空間實體(對象)以及每一個實體的封裝邊界范圍,即包圍空間實體的左下角和右上角坐標。當用戶進行空間查詢時,首先計算出用戶查詢對象所在格網,然後通過格網編號,就可以快速檢索到所需的空間實體。
確定適合的格網級數、單元大小是建立空間格網索引的關鍵。格網太大,在一個格網內有多個空間實體,查詢檢索的准確度降低。格網太小,則索引數據量成倍增長和冗餘,檢索的速度和效率較低。資料庫的每一數據層採用不同大小、不同級數的空間索引格網單元,但每層最多級數不能超過三級。格網單元的大小不是一個確定性的值,需要根據對象的大小確定。空間索引格網的大小與檢索准確度之間的關系如圖2-15所示。
選擇格網單元的大小遵循下列基本原則:
1)對於簡單要素的數據層,盡可能選擇單級索引格網。減少RDBMS搜索格網單元索引的級數,縮短空間索引搜索的過程,例如航跡線要素類。
圖2-15 索引格網大小與檢索准確度的關系
2)如果數據層中的要素封裝邊界大小變化比較大,應選擇2或3級索引格網。Geodatabase最多提供三級格網單元。每一要素封裝邊界在適合的級內,減少了每一封裝邊界有多個格網的可能性。在空間索引搜索過程中,RDBMS則必須搜索所有3個格網單元級,這將消耗大量的時間。
3)若用戶經常對圖層執行相同的查詢,最佳格網的大小應是平均查尋空間范圍的1.5倍。
4)格網的大小不能小於要素封裝邊界的平均大小,為了減少每個格網單元有多個要素封裝邊界的可能性,格網單元的大小應取平均格網單元的3倍。最佳格網單元的大小可能受圖層平均查詢的影響。
空間域是按照要素數據集定義的,空間索引格網是按照要素類設置的。它們都是在創建Geodatabase資料庫時設置,並一經設置,中間不許改變;所以一定要在充分分析數據的情況下確定它們的值。航空物探數據主要是簡單要素類,空間跨度為70°。根據上述原則,航空物探數據選擇單級索引格網,格網大小為20°。
(二)金字塔結構
金字塔結構的核心是將柵格數據逐級進行抽稀,形成多級解析度的重采樣數據,並將其分割成塊,按一定的文件格式(金字塔文件格式)存儲成磁碟文件;在以後進行圖像顯示處理時,只需將要顯示的部分所覆蓋的塊從磁碟文件直接讀進內存緩沖區顯示即可。從金字塔的所有層中尋找與所要求顯示的比例相近或匹配的一層,並將該層的從某一點起的一定范圍的圖像所覆蓋的所有塊載入到內存緩沖區,提取所需部分並形成圖像。
金字塔演算法(圖2-16)是通過獲取顯示時所需要的一定解析度的數據來提高顯示速度。使用金字塔數據格式後,在顯示全圖時僅需要顯示一個較低解析度的數據,這樣既能加快顯示速度,又不會影響顯示效果。放大圖像,盡管顯示圖像解析度提高,由於顯示區域減小,所以顯示速度不會下降。如果沒有為柵格數據建立金字塔數據,則每次顯示都會讀取整個數據,然後進行重采樣得到顯示所需要的解析度,明顯地降低了顯示速度。
圖2-16 金字塔壓縮示意圖
金字塔數據重采樣方式有:最近鄰法、雙線性內插和立方卷積。其中最近鄰法適用於離散數據,而雙線性內插法和立方卷積法適合於連續數據。
在ArcGIS Engine中提供了IRasterPyramid和IRasterPyramid2介面來實現金字塔數據的建立,而建立的數據保存在*.rrd格式的文件中。
(三)空間域定義
空間域是指數據的有效空間范圍,即Geodatabase資料庫的最大等效坐標的值域范圍,其定義主要是指比例系數和Min X、Min Y的計算。
因為使用整數比浮點數有更高的壓縮率,並且對整數進行二進制搜索比較快,所以多用戶Geodatabase以4位元組正整數存儲坐標,其最大值為32位正整數所能表示的范圍是21.4億(2147483647),整數的范圍稱為空間域。在創建Geodatabase資料庫時需要定義合適的比例系數。大的整數值將消耗大量的計算機物理內存,所以選定的比例系數最好不要大於必須的比例系數。空間域隨坐標系的單位變化而變化。
比例系數和空間域之間成反比例關系,比例系數越大(存儲單位越小),表達的空間域也越小。為了使目標數據都存儲在系統中,需要謹慎地設置比例系數。將目標數據的寬度和高度較適中的數值乘以比例系數,如果結果小於21.4億,則比例系數是合適的。
航空物探數據模型是為我國的航空物探行業數據建庫設計的,它支持的空間數據的坐標范圍為我國領土覆蓋的海陸空間,最低緯度為赤道。根據概念設計的分析,航空物探數據模型採用的是地理坐標系,坐標系單位是度,基準是Beijing_1954,要求存儲的坐標數據精度達到0.01 m。在赤道處,赤道圓周長為40075694.6 m,則每度弧長=40075694.6×100/360 cm=11132137.389 cm,即1 cm對應8.983000883E-8°。所以,航空物探數據模型的比例系數取為8.98E-8,即存儲單位為8.98E-8°,可滿足1 cm精度要求。
將空間域移動到目標數據范圍之前,首先找到空間域在存儲單位的中心位置,目的是在必要時向各個方向擴展。4位元組正整數可表示的坐標范圍:2147483647×8.98E-8=192.84°。我國的領土范圍是東經70°~140°,北緯0°~60°。所以,選取的比例系數是合適的。把空間域坐標系中心定為90°,然後,計算空間域的Min X、Min Y。
航空物探信息系統建設
航空物探信息系統建設
所以坐標的存儲數據是:
航空物探信息系統建設
航空物探信息系統建設
3. 什麼是資料庫的概念設計,邏輯設計,物理設計,以及
資料庫設計過程包括:
現實世界→需求分析→概念設計→邏輯設計→物理設計
概念設計——利用數據模型進行概念資料庫的模式設計。它不依賴任何DBMS(資料庫管理系統)常用的數據模型為ERM(實體聯系模型),用到的術語有:實體、屬性、聯系、鍵。
邏輯設計——把概念設計得到的概念資料庫模式變為邏輯數據模式,它依賴於DBMS。用到的術語有:函數依賴、範式、關系分解。
物理結構設計——指的是根據資料庫的邏輯結構來選定RDBMS(如Oracle、Sybase等),並設計和實施資料庫的存儲結構、存取方式等。
確定資料庫的物理結構包含下面四方面的內容:
1、確定數據的存儲結構;
2、設計數據的存取路徑;
3、確定數據的存放位置;
4、確定系統配置。
資料庫物理設計過程中需要對時間效率、空間效率、維護代價和各種用戶要求進行權衡,選擇一個優化方案作為資料庫物理結構。在資料庫物理設計中,最有效的方式是集中地存儲和檢索對象。
4. 資料庫設計
根據以上數據內容分析,當前遙感綜合調查基礎資料庫主要由各個專題資料庫(以矢量數據為主)、公共資料庫(既有矢量數據又有柵格數據,前者如1∶25萬基礎地理數據,後者如1∶25萬DEM資料庫和1∶25萬ETM+遙感影像)等構成,同時整個系統還必須具備自身的擴展機制,隨著用戶和應用的不斷變化,資料庫的內容也必將隨之變化。因此,遙感綜合調查基礎資料庫設計的主導思想是,利用ArcSDE技術提供的Multiuser Geodatabase模型組織復雜的空間數據,建立一個開放的、靈活的空間資料庫。
Geodatabase由矢量要素數據集、柵格數據集、TIN數據集、空間域、規則等部件構成。它對通常所要處理和表達的地理空間要素,如矢量、柵格、三維表面、網路、地址等進行了統一的描述,並引入了這些地理空間要素的行為、規則和關系(ESRI,2001)。而遙感綜合調查基礎資料庫只存儲其中的矢量要素數據集、柵格數據集等幾種類型。基於Geodatabase的遙感綜合調查數據模型如圖11.4所示。
設計Geodatabase與設計普通的資料庫是相同的,也分成兩個基本步驟——邏輯數據模型的表達和資料庫模型的物理實施,即邏輯設計和物理設計。邏輯設計是空間數據在用戶或應用中的表現形式,物理設計主要是空間數據在存儲介質里的具體儲存方式。邏輯數據模型是對所要研究的現實世界的有關數據而建立的一個抽象的關聯結構,以描述這些數據之間的邏輯關系。它完全獨立於具體系統實現和處理過程,區別於物理數據模型,即它不是一個在資料庫管理系統中的表結構,不化解或消除實體間的多對多關系,更接近於現實世界,是一個訪問數據的基本視圖。可以說邏輯層是物理層的表現,而物理層是邏輯層的基礎。
圖11.4基於GeoDatabase的遙感綜合調查數據模型
圖11.5邏輯層與物理層的聯系
從邏輯設計的角度來看,本系統基礎資料庫的設計思路是:資料庫→子庫→圖層→空間實體,庫可以包含多個子庫,子庫用來存放不同比例尺或不同用途的空間數據,再根據項目設計書的要求對每一個子庫做大類和圖層的劃分。從物理設計的角度來看,最終反映在ArcSDE的物理資料庫模型則是GEODATABASE→FEATUREDATASET→FEATURECLASS→FEATURE(如圖11.5)所示。
5. 空間資料庫的空間資料庫的設計
資料庫因不同的應用要求會有各種各樣的組織形式。資料庫的設計就是根據不同的應用目的和用戶要求,在一個給定的應用環境中,確定最優的數據模型、處理模式、存貯結構、存取方法,建立能反映現實世界的地理實體間信息之間的聯系,滿足用戶要求,又能被一定的DBMS接受,同時能實現系統目標並有效地存取、管理數據的資料庫。簡言之,資料庫設計就是把現實世界中一定范圍內存在著的應用數據抽象成一個資料庫的具體結構的過程。
空間資料庫的設計是指在現在資料庫管理系統的基礎上建立空間資料庫的整個過程。主要包括需求分析、結構設計、和數據層設計三部分。
1、需求分析
需求分析是整個空間資料庫設計與建立的基礎,主要進行以下工作:
1)調查用戶需求:
了解用戶特點和要求,取得設計者與用戶對需求的一致看法。
2)需求數據的收集和分析:
包括信息需求(信息內容、特徵、需要存儲的數據)、信息加工處理要求(如響應時間)、完整性與安全性要求等。
3)編制用戶需求說明書:
包括需求分析的目標、任務、具體需求說明、系統功能與性能、運行環境等,是需求分析的最終成果。
需求分析是一項技術性很強的工作,應該由有經驗的專業技術人員完成,同時用戶的積極參與也是十分重要的。
在需求分析階段完成數據源的選擇和對各種數據集的評價
2、結構設計
指空間數據結構設計,結果是得到一個合理的空間數據模型,是空間資料庫設計的關鍵。空間數據模型越能反映現實世界,在此基礎上生成的應用系統就越能較好地滿足用戶對數據處理的要求。
空間資料庫設計的實質是將地理空間實體以一定的組織形式在資料庫系統中加以表達的過程,也就是地理信息系統中空間實體的模型化問題。
1)概念設計
概念設計是通過對錯綜復雜的現實世界的認識與抽象,最終形成空間資料庫系統及其應用系統所需的模型。
具體是對需求分析階段所收集的信息和數據進行分析、整理,確定地理實體、屬性及它們之間的聯系,將各用戶的局部視圖合並成一個總的全局視圖,形成獨立於計算機的反映用戶觀點的概念模式。概念模式與具體的DBMS無關,結構穩定,能較好地反映用戶的信息需求。
表示概念模型最有力的工具是E-R模型,即實體-聯系模型,包括實體、聯系和屬性三個基本成分。用它來描述現實地理世界,不必考慮信息的存儲結構、存取路徑及存取效率等與計算機有關的問題,比一般的數據模型更接近於現實地理世界,具有直觀、自然、語義較豐富等特點,在地理資料庫設計中得到了廣泛應用。
2)邏輯設計
在概念設計的基礎上,按照不同的轉換規則將概念模型轉換為具體DBMS支持的數據模型的過程,即導出具體DBMS可處理的地理資料庫的邏輯結構(或外模式),包括確定數據項、記錄及記錄間的聯系、安全性、完整性和一致性約束等。導出的邏輯結構是否與概念模式一致,能否滿足用戶要求,還要對其功能和性能進行評價,並予以優化。
從E—R模型向關系模型轉換的主要過程為:
①確定各實體的主關鍵字;
②確定並寫出實體內部屬性之間的數據關系表達式,即某一數據項決定另外的數據項;
③把經過消冗處理的數據關系表達式中的實體作為相應的主關鍵字
④根據②、③形成新的關系。
⑤完成轉換後,進行分析、評價和優化。
3)物理設計
物理設計是指有效地將空間資料庫的邏輯結構在物理存儲器上實現,確定數據在介質上的物理存儲結構,其結果是導出地理資料庫的存儲模式(內模式)。主要內容包括確定記錄存儲格式,選擇文件存儲結構,決定存取路徑,分配存儲空間。
物理設計的好壞將對地理資料庫的性能影響很大,一個好的物理存儲結構必須滿足兩個條件:一是地理數據佔有較小的存儲空間;二是對資料庫的操作具有盡可能高的處理速度。在完成物理設計後,要進行性能分析和測試。
數據的物理表示分兩類:數值數據和字元數據。數值數據可用十進制或二進制形式表示。通常二進制形式所佔用的存貯空間較少。字元數據可以用字元串的方式表示,有時也可利用代碼值的存貯代替字元串的存儲。為了節約存貯空間,常常採用數據壓縮技術。
物理設計在很大程度上與選用的資料庫管理系統有關。設計中應根據需要,選用系統所提供的功能。
4)數據層設計
大多數GIS都將數據按邏輯類型分成不同的數據層進行組織。數據層是GIS中的一個重要概念。GIS的數據可以按照空間數據的邏輯關系或專業屬性分為各種邏輯數據層或專業數據層,原理上類似於圖片的疊置。例如,地形圖數據可分為地貌、水系、道路、植被、控制點、居民地等諸層分別存貯。將各層疊加起來就合成了地形圖的數據。在進行空間分析、數據處理、圖形顯示時,往往只需要若干相應圖層的數據。
數據層的設計一般是按照數據的專業內容和類型進行的。數據的專業內容的類型通常是數據分層的主要依據,同時也要考慮數據之間的關系。如需考慮兩類物體共享邊界(道路與行政邊界重合、河流與地塊邊界的重合)等,這些數據間的關系在數據分層設計時應體現出來。
不同類型的數據由於其應用功能相同,在分析和應用時往往會同時用到,因此在設計時應反映出這樣的需求,即可將這些數據作為一層。例如,多邊形的湖泊、水庫,線狀的河流、溝渠,點狀的井、泉等,在GIS的運用中往往同時用到,因此,可作為一個數據層。
5)數據字典設計
數據字典用於描述資料庫的整體結構、數據內容和定義等。 數據字典的內容包括: 1)資料庫的總體組織結構、 資料庫總體設計的框架 。 2)各數據層詳細內容的定義及結構、 數據命名的定義 。 3)元數據(有關數據的數據,是對一個數據集的內容、質量條件及操作過程等的描述) 。
6. 在網路環境中資料庫的物理結構設計要考慮什麼問題
物理結構設計
資料庫的物理設計通常分為兩步:
確定資料庫的物理結構
對物理結構進行評價,評價的重點是時間和空間效率
1.確定資料庫的物理結構
(1)確定數據的存儲結構
確定資料庫存儲結構時要綜合考慮存取時間、存儲空間利用率和維護代價三方面的因素.這三個方面常常是相互矛盾的,例如消除一切冗餘數據雖然能夠節約存儲空間,但往往會導致檢索代價的增加,因此必須進行權衡,選擇一個折中方案.
(2)設計數據的存取路徑
在關系資料庫中,選擇存取路徑主要是指確定如何建立索引.例如,應把哪些域作為次碼建立次索引,建立單碼索引還是組合索引,建立多少個為合適,是否建立聚集索引等.
(3)確定數據的存放位置
為了提高系統性能,數據應該根據應用情況將易變部分與穩定部分、經常存取部分和存取頻率較低部分分開存放.
(4)確定系統配置
DBMS產品一般都提供了一些存儲分配參數,供設計人員和DBA對資料庫進行物理優化.初始情況下,系統都為這些變數賦予了合理的預設值.但是這些值不一定適合每一種應用環境,在進行物理設計時,需要重新對這些變數賦值以改善系統的性能.
2.評價物理結構
資料庫物理設計過程中需要對時間效率、空間效率、維護代價和各種用戶要求進行權衡,其結果可以產生多種方案,資料庫設計人員必須對這些方案進行細致的評價,從中選擇一個較優的方案作為資料庫的物理結構.
評價物理資料庫的方法完全依賴於所選用的DBMS,主要是從定量估算各種方案的存儲空間、存取時間和維護代價入手,對估算結果進行權衡、比較,選擇出一個較優的合理的物理結構.如果該結構不符合用戶需求,則需要修改設計.
7. 資料庫邏輯設計和物理設計包含哪些內容
1.概念設計;對用戶要求描述的現實世界(可能是一個工廠、一個商場或者一個學校等),通過對其中住處的分類、聚集和概括,建立抽象的概念數據模型。這個概念模型應反映現實世界各部門的信息結構、信息流動情況、信息間的互相制約關系以及各部門對信息儲存、查詢和加工的要求等。所建立的模型應避開資料庫在計算機上的具體實現細節,用一種抽象的形式表示出來。以擴充的實體—(E-R模型)聯系模型方法為例,第一步先明確現實世界各部門所含的各種實體及其屬性、實體間的聯系以及對信息的制約條件等,從而給出各部門內所用信息的局部描述(在資料庫中稱為用戶的局部視圖)。第二步再將前面得到的多個用戶的局部視圖集成為一個全局視圖,即用戶要描述的現實世界的概念數據模型。
2.邏輯設計;主要工作是將現實世界的概念數據模型設計成資料庫的一種邏輯模式,即適應於某種特定資料庫管理系統所支持的邏輯數據模式。與此同時,可能還需為各種數據處理應用領域產生相應的邏輯子模式。這一步設計的結果就是所謂「邏輯資料庫」。
8. 資料庫的物理結構設計指的是什麼
Log File物理結構
log block結構分為日誌頭段、日誌記錄、日誌尾部
Block Header,佔用12位元組
Data部分
Block tailer,佔用4位元組
Block Header
這個部分是每個Block的頭部,主要記錄的塊的信息
Block Number,表示這是第幾個block,佔用4位元組,是通過LSN計算得來的,佔用4位元組
Block data len,表示該block中有多少位元組已經被使用了,佔用2位元組
First Rec offet,表示該block中作為第一個新的mtr開始的偏移量,佔用2位元組
Checkpoint number,表示該log block最後被寫入時的檢查點的值,佔用4位元組