❶ 關系資料庫規范化理論的基礎和內容
一個關系資料庫模式由一組關系模式組成,一個關系模式由一組屬性名組成。關系資料庫設計,就是如何把已給定的相互關聯的一組屬性名分組,並把每一組屬性名組成關系的問題。然而,屬性的分組不是唯一的,不同的分組對應著不同的資料庫應用系統,它們的效率往往相差很遠。
為了使資料庫設計合理可靠,簡單實用,長期以來,形成了關系資料庫設計的理論——規范化理論。
6.1 關系規范化的作用
規范化,就是用形式更為簡潔,結構更加規范的關系模式取代原有關系模式的過程。
如果將兩個或兩個以上實體的數據存放在一個表裡,就會出現下列三個問題:
Ø 數據冗餘度大
Ø 插入異常
Ø 刪除異常
所謂數據冗餘,就是相同數據在資料庫中多次重復存放的現象。數據冗餘不僅會浪費存儲空間,而且可能造成數據的不一致性。
插入異常是指,當在不規范的數據表中插入數據時,由於實體完整性約束要求主碼不能為空的限制,而使有用數據無法插入的情況。
刪除異常是指,當不規范的數據表中某條需要刪除的元組中包含有一部分有用數據時,就會出現刪除困難。
(以P98工資表為例)
解決上述三個問題的方法,就是將不規范的關系分解成為多個關系,使得每個關系中只包含一個實體的數據。
(講例子解)
當然,改進後的關系模式也存在另一問題,當查詢職工工資時需要將兩個關系連接後方能查詢,而關系連接的代價也是很大的。
那麼,什麼樣的關系需要分解?分解關系模式的理論依據又是什麼?分解完後能否完全消除上述三個問題?回答這些問題需要理論指導。下面,將加以討論:
6.2 函數依賴
6.2.1屬性間關系
實體間的聯系有兩類:一類是實體與實體之間聯系;另一類是實體內部各屬性間的聯系。資料庫建模一章中討論的是前一類,在這里我們將學習第二類。
和第一類一樣,實體內部各屬性間的聯系也分為1:1、1:n和m:n三類:
例:職工(職工號,姓名,身份證號碼,職稱,部門)
1、 一對一關系(1:1)
設X、Y是關系R的兩個屬性(集)。如果對於X中的任一具體值,Y中至多有一個值與之對應,反之,對於Y中的任一具體值,X中也至多有一個值與之對應,則稱X、Y兩屬性間是一對一關系。
如本例職工關系中職工號與身份證號碼之間就是一對一關系。
2、一對多關系(1:n)
設X、Y是關系R的兩個屬性(集)。如果對於X中的任一具體值,Y中可以找到多個值與之對應,而對於Y中的任一具體值,X中至多隻有一個值與之對應,則稱屬性X對Y是一對多關系。
如職工關系中職工號與職稱之間就是一對多的關系。
3、多對多關系(m:n)
設X、Y是關系R的兩個屬性(集)。如果對於X中的任一具體值,Y中有n個值與之對應,而對於Y中的任一具體值,X中也有m個值與之對應,則稱屬性X對Y是一對多(m:n)關系。
例如,職工關系中,職稱與部門之間就是多對多的關系。
上述屬性間的三種關系,實際上是屬性值之間相互依賴與相互制約的反映,因而稱之為屬性間的數據依賴。
數據依賴共有三種:
Ø 函數依賴(Functional Dependency,FD)
Ø 多值依賴(Multivalued Dependency,MVD)
Ø 連接依賴(Join Dependency,JD)
其中最重要的是函數依賴和多值依賴。
6.2.2 函數依賴
函數依賴,是屬性之間的一種聯系。在關系R中,X、Y為R的兩個屬性或屬性組,如果對於R的所有關系r 都存在:對於X的每一個具體值,Y都只有一個具體值與之對應,則稱屬性Y函數依賴於屬性X。或者說,屬性X函數決定屬性Y,記作X→Y。其中X叫作決定因素,Y叫作被決定因素。
上述定義,可簡言之:如果屬性X的值決定屬性Y的值,那麼屬性Y函數依賴於屬性X。換一種說法:如果知道X的值,就可以獲得Y的值,則可以說X決定Y。
若Y函數不依賴於X,記作:X→Y。
X Y
若X→Y,Y→X,記作:
前面學習的屬性間的三種關系,並不是每種關系中都存在著函數依賴。
u 如果X、Y間是1:1關系,則存在函數依賴 X←→Y
u 如果X、Y間是1:n關系,則存在函數依賴: X→Y或Y→X(多方為決定因素)
u 如果X、Y間是m:n關系,則不存在函數依賴。
注意,屬性間的函數依賴不是指R的某個或某些關系子集滿足上述限定條件,而是指R的一切關系子集都要滿足定義中的限定。只要有一個具體的關系r(R的一個關系子集)不滿足定義中的條件,就破壞了函數依賴,使函數依賴不成立。
這里的關系子集,指的是R的某一部分元組的集合,例如:地測學院的學生關系中只包含了地測學院學生的數據,所以它是長安大學學生關系的一個子集。
6.2.3 碼的定義
前面,我們對碼進行了直觀化的定義,下面用函數依賴的概念對碼作出較為精確的形式化的定義:
設K是關系模式R(U,F)中的屬性或屬性組,K』是K的任一子集。若K→U,而不存在K』→U,則K為R的候選碼(Candidate Key)
Ø 若候選碼多於一個,則選其中的一個為主碼(Primary Key);
Ø 包含在任一候選碼中的屬性,叫做主屬性(Primary Attribute);
Ø 不包含在任何碼中的屬性稱為非主屬性(Nonprime Attribute)或非碼屬性(Nonkey Attribute)
Ø 關系模式中,最簡單的情況是單個屬性是碼,稱為單碼(Single Key);最極端的情況是整個屬性組是碼,稱為全碼(All-Key)。
前面已多次遇到單碼的情況,下面是一個全碼的例子:
簽約(演員名,製片公司,電影名)
外碼:設有兩個關系R和S,X是R的屬性或屬性組,並且X不是R的碼,但X是S的碼(或與S的碼意義相同),則稱X是R的外部碼(Foreign Key),簡稱外碼或外鍵。
如:職工(職工號,姓名,性別,職稱,部門號)
部門(部門號,部門名,電話,負責人)
其中職工關系中的「部門號」就是職工關系的一個外碼。
在此需要注意,在定義中說X不是R的碼,並不是說X不是R的主屬性,X不是碼,但可以是碼的組成屬性,或者是任一候選碼中的一個主屬性。
如:學生(學生號,姓名,性別,年齡…)
課程(課程號,課程名,任課老師…)
選課(學生號,課程號,成績)
在選課關系中,(學生號,課程號)是該關系的碼,學生號、課程號又分別是組成主碼的屬性(但單獨不是碼),它們分別是學生關系和課程關系的主碼,所以是選課關系的兩個外碼。
關系間的聯系,可以通過同時存在於兩個或多個關系中的主碼和外碼的取值來建立。如要查詢某個職工所在部門的情況,只需查詢部門表中的部門號與該職工部門號相同的記錄即可。所以,主碼和外碼提供了一個表示關系間聯系的途徑。
6.2.4 函數依賴和碼的唯一性
由上述碼的形式化定義,我們可以說:碼是由一個或多個屬性組成的,可唯一標識元組的最小屬性組。
碼在關系中總是唯一的,即一個碼函數唯一地決定一行。如果碼的值重復,則整個元組都會重復。否則,違反了實體完整性規則。而元組的重復則表示存在兩個完全相同的實體,這顯然是不可能的,所以碼是不允許重復取值的。
所以,只有當某個屬性或屬性組能夠函數決定關系中的每一個其它的屬性,且該屬性組的任何一個真子集都做不到這一點時,該屬性或屬性組才是該關系的碼。
函數依賴是一個與數據有關的事物規則的概念。如果屬性B函數依賴於屬性A,那麼若知道了A的值,則完全可以找到B的值。這並非是可以由A的值計算出B的值,而是邏輯上只能存在一個B的值。
6.3 關系模式的規范化
一、非規范化的關系
當一個表中存在還可以再分的數據項時,這個表就是非規范化的表。非規范化表存在兩種情況:
Ø 表中具有組合數據項(P102表6-4)
Ø 表中具有多值數據項(P103表6-5)
例:
職工號
姓名
工資
基本工資
職務工資
工齡工資
1002
張三
1000
800
200
職工號
姓名
職稱
系名
系辦地址
學歷
畢業年份
001
張三
教授
計算機
1305
大學
研究生
1963
1982
那麼什麼是規范化關系呢?
當一個關系中的所有分量都是不可再分的數據項時,該關系是規范化的。即當表中不存在組合數據項和多值數據項,只存在不可分的數據項時,這個表是規范化的。
二維表按其規范化程度從低到高可分為5級範式(Normal Form),分別稱為1NF、2NF、3NF(BCNF)、4NF、5NF。規范化程度較高者必是較低者的子集,即:
1NF 2NF 3NF BCNF 4NF 5NF
二、第一範式(1NF)
定義1:如果關系模式R中不包含多值屬性,則R滿足第一範式(First Normal Form),記作:
R∈1NF
1NF是對關系的最低要求,不滿足1NF的關系是非規范化的關系。
非規范化關系轉化為規范化關系1NF方法很簡單,只要上表分別從橫向、縱向展開即可。如下表:
職工號
姓名
基本工資
職務工資
工齡工資
1002
張三
1000
800
200
1005
李四
1200
900
150
職工號
姓名
職稱
系名
系辦地址
學歷
畢業年份
1002
張三
教授
計算機
1305
大學
1963
1002
張三
教授
計算機
1305
研究生
1982
1005
李四
講師
信電
2206
大學
1989
上表雖然符合1NF,但仍是有問題的關系,表中存在大量的數據冗餘和潛在的數據更新異常。原因是(職工號,學歷)是右表的碼,但姓名、職稱、系名、系辦地址卻與學歷無關,只與碼的一部分有關。所以上表還需進一步地規范化。
三、第二範式(2NF)
定義1:設X、Y是關系R的兩個不同的屬性或屬性組,且X → Y。如果存在X的某一個真子集X』,使X』 → Y成立,則稱Y部分函數依賴於X,記作:X P→ Y(Partial)。反之,則稱Y完全函數依賴於X,記作:X F→ Y (Full)
定義2:如果一個關系 R∈1NF,且它的所有非主屬性都完全函數依賴於R的任一候選碼,則R屬於第二範式,記作:R∈2NF。
說明:上述定義中所謂的候選碼也包括主碼,因為碼首先應是候選碼,才可以被指定為碼。
例如關系模式:
職工(職工號,姓名,職稱,項目號,項目名稱,項目角色)中
(職工號,項目號)是該關系的碼,而職工號→姓名、職工號→職稱、項目號→項目名稱…
所以(職工號,項目號)P→ 職稱、(職工號,項目號)P→ 項目名稱
故上述職工關系不符合第二範式要求。它存在三個問題:插入異常、刪除異常和修改異常。
其中修改異常是這樣的,當職工關系中項目名稱發生變化時,由於參與該項目的人員很多,每人一條記錄,要修改項目信息,就得對每一個參加該項目的人員信息進行修改,加大了工作量,還有可能發生遺漏,存在著數據一致性被破壞的可能。
可把上述職工關系分解成如下三個關系:
職工(職工號,姓名,職稱)
參與項目(職工號,項目號,項目角色)
項目(項目號,項目名稱)
上述三個關系都符合定義2的要求,所以都符合2NF
推論:如果關系模式R∈1NF,且它的每一個候選碼都是單碼,則R∈2NF
符合第二範式的關系模式仍可能存在數據冗餘、更新異常等問題。如關系
職工信息(職工號,姓名,職稱,系名,系辦地址)
雖然也符合2NF,但當某個系中有100名職工時,元組中的系辦地址就要重復100次,存在著較高的數據冗餘。原因是關系中,系辦地址不是直接函數依賴於職工號,而是因為職工號函數決定系名,而系名函數決定系辦地址,才使得系辦地址函數依賴於職工號,這種依賴是一個傳遞依賴的過程。
所以,上述職工信息的關系模式還需要進一步的規范化。
四、第三範式(3NF)
定義1:在關系R中,X、Y、Z是R的三個不同的屬性或屬性組,如果X→Y,Y→Z, 但Y→X,且Y不是X的子集,則稱Z傳遞函數依賴於X。
定義2:如果關系模式R∈2NF,且它的每一個非主屬性都不傳遞依賴於任何候選碼,則稱R是第三範式,記作:R∈3NF
推論1:如果關系模式R∈1NF,且它的每一個非主屬性既不部分依賴、也不傳遞依賴於任何候選碼,則R∈3NF
推論2:不存非主屬性的關系模式一定為3NF
五、改進的3NF——BCNF(Boyee-Codd Normal Form)
定義:設關系模式R(U,F)∈1NF,若F的任一函數依賴X→Y(Y X)中X都包含了R的一個碼,則稱R∈BCNF。
換言之,在關系模式R中,如果每一個函數依賴的決定因素都包含碼,則R∈BCNF
推論:如果R∈BCNF,則:
Ø R中所有非主屬性對每一個碼都是完全函數依賴;
Ø R中所有主屬性對每一個不包含它的碼,都是完全函數依賴;
Ø R中沒有任何屬性完全函數依賴於非碼的任何一組屬性。
定理:如果R∈BCNF,則R∈3NF一定成立。
證明:(結合傳遞依賴的定義,用反證法)
注意:當R∈3NF時,R未必屬於BCNF。因為3NF比BCNF放寬了一個限制,它允許決定因素不包含碼。例如:
通訊(城市名,街道名,郵政編碼)中:
F={(城市名,街道名)→郵政編碼,郵政編碼→城市名}
非主屬性郵政編碼完全函數依賴於碼,且無傳遞依賴,故屬於3NF,但郵政編碼也是一個決定因素,而且它沒有包含碼,所以該關系不屬於BCNF。
又如:
Teaching(Student,Teacher,Course) 簡記為Teaching(S,T,C)
規定:一個教師只能教一門課,每門課程可由多個教師講授;學生一旦選定某門課程,教師就相應地固定。
F={T→C,(S,C)→T,(S,T) →C}
該關系的候選碼是(S,C)和(S,T),因此,三個屬性都是主屬性,由於不存在非主屬性,該關系一定是3NF。但由於決定因素T沒包含碼,故它不是BCNF。
關系模式Teaching仍然存在著數據冗餘問題,因為存在著主屬性對碼的部分函數依賴問題。
確切地表示:F={T→C,(S,C)P→T,(S,T) P→C}
所以Teaching關系可以分解為以下兩個BCNF關系模式:
Teacher(Teacher,Course) Student(Student,Teacher)
3NF的「不徹底」性,表現在可能存在主屬性對碼的部分依賴和傳遞依賴。
一個關系模式如果達到了BCNF,那麼,在函數依賴范圍內,它就已經實現了徹底的分離,消除了數據冗餘、插入和刪除異常。
6.4 多值依賴和第四範式
一、多值依賴(Multivalued Dependency)
課程C
教員T
參考書B
物理
李勇
普通物理學
物理
李勇
光學原理
物理
李勇
物理習題集
物理
王軍
普通物理學
物理
王軍
光學原理
物理
王軍
物理習題集
數學
李勇
數學分析
數學
李勇
微分方程
數學
李勇
高等代數
數學
張平
數學分析
數學
張平
微分方程
數學
張平
高等代數
計算數學
張平
數學分析
計算數學
張平
計算數學
計算數學
周峰
數學分析
計算數學
周峰
計算數學
課程C
教員T
參考書B
物理
李勇
王軍
普通物理學
光學原理
物理習題集
數學
李勇
張平
數學分析
微分方程
高等代數
計算數學
張平
周峰
數學分析
計算數學
例:學校中某一門課程由多個教員講授,他們使用相同的一套參考書,每個教員可以講授多門課程,每種參考書可以供多門課程使用。下列是用一個非規范化的表來表示教員T,課程C和參考書B之間的關系。
把上表變換成一張規范化的二維表Teaching,如右表
關系模式Teaching(C,T,B)的碼是(C,T,B),即All-Key。因而Teaching∈BCNF。按照上述語義規定,當某門課程增加一名講課教員時,就要向Teaching表中增加與相應參考書等數目的元組。同樣,某門課程要去掉一本參考書時,則必須刪除相應數目的元組。
對數據的增、刪、改很不方便,數據的冗餘也十分明顯。如果仔細考察這類關系模式,會發現它具有一種稱之為多值依賴的數據依賴關系。
定義:設R(U)是屬性集U上的一個關系模式,X,Y,Z是U的子集,且Z=U-X-Y。如果對R(U)的任一關系r,給定一對(x,z)值,都有一組y值與之對應,這組y值僅僅決定於x值而與z值無關。則稱Y多值依賴於X,或X多值決定Y,記作:X→→Y。――
例如,在關系模式Teaching中,對於一個(C,B)值(物理,普通物理學),有一組T值{李勇,王軍},而這組值僅僅決定於課程C上的值(物理)。即對於另一個(物理,光學原理),它對應的T值仍然是{李勇,王軍},所以T的值與B的值無關,僅決定於C的值,即C→→T 。
多值依賴的另一個等價的形式化定義為:
設關系模式R(U),X、Y、Z是U的子集,Z=U-X-Y,r是R的任意一個關系,t1、t2是r的任意兩個元組。如果t1[X]=t2[X],並在r中存在兩個元組t3、t4,使得:
t3[X]=t4[X]=t1[X]
t3[Y]=t1[Y],t3[Z]=t2[Z],
t4[Y]=t2[Y],t4[Z]=t1[Z]
成立,則X→→Y。
換句話說:如果X→→Y在R(U)中成立,則只要在R的任一關系r中存在兩個元組t1、t2在X屬性上的值相等,則交換這兩個元組在Y(或Z)上的值後得到的兩個新元組t3、t4也必是關系r中的元組。
定義中如果Z=Ф(空集),則稱X→→Y為平凡的多值依賴,否則為非平凡的多值依賴。
多值依賴具有如下性質:
1. 對稱性:若X→→Y,則X→→Z,其中Z=U-X-Y
2. 傳遞性:若X→→Y,Y→→Z,則X→→Z-Y
3. 若X→→Y,X→→Z,則X→→YZ
4. 若X→→Y,X→→Z,則X→→Y∩Z
5. 若X→→Y,X→→Z,則X→→Y-Z,X→→Z-Y
多值依賴與函數依賴相比,具有下面兩個基本區別:
(1)多值依賴的有效性與屬性集的范圍有關
若X→→Y在U上成立,則在V(XY V U)上一定成立;反之則不然,即X→→Y在V(V U)上成立,在U上並不一定成立。這是因為多值依賴的定義中不僅涉及屬性組X、Y,而且涉及U中的其餘屬性Z(Z=U-X-Y)。
一般地說,在R(U)上若有X→→Y在V(V U)上成立,則稱X→→Y為R(U)的嵌入型多值依賴。
而在關系模式R(U)中函數依賴X→Y的有效性,僅決定於X和Y這兩個屬性集的值。只要在R(U)的任何一個關系r中,元組在X和Y上的值使得X→Y成立,則X→Y在任何屬性集V(XY V U)上也成立。
(2)若函數依賴X→Y在R(U)上成立,則對於任何Y』 Y 均有X→Y』 成立。而多值依賴X→→Y若在R(U)上成立,卻不能斷言對於任何Y』 Y有X→→Y』 成立。
多值依賴的約束規則:在具有多值依賴的關系中,如果隨便刪去一個元組,就會破壞其對稱性,那麼,為了保持多值依賴關系中的「多值依賴」性,就必須刪去另外的相關元組以維持其對稱性。這就是多值依賴的約束規則。目前的RDBMS尚不具有維護這種約束的能力,需要程序員在編程中實現。
函數依賴可看成是多值依賴的特例,即函數依賴一定是多值依賴。而多值依賴則不一定就有函數依賴。
二、第四範式(4NF)
定義:如果關系模式R∈1NF,對於R的每個非平凡的多值依賴X→→Y(Y X),X含有碼,則稱R是第四範式,即R∈4NF
課程C
教員T
參考書B
物理
李勇
普通物理學
物理
李勇
光學原理
物理
李勇
物理習題集
物理
王軍
普通物理學
物理
王軍
光學原理
物理
王軍
物理習題集
數學
李勇
數學分析
數學
李勇
微分方程
數學
李勇
高等代數
數學
張平
數學分析
數學
張平
微分方程
數學
張平
高等代數
計算數學
張平
數學分析
計算數學
張平
計算數學
計算數學
周峰
數學分析
計算數學
周峰
計算數學
Teaching關系
關系模式R∈4NF時,R中所有的非平凡多值依賴實際上就是函數依賴。因為每一個決定因素中都含有碼,所以R一定屬於BCNF。
4NF實際上就是限制關系模式的屬性間不允許有非平凡,而且非函數依賴的多值依賴存在。反過來說,4NF所允許的非平凡多值依賴實際上是函數依賴。
例題中的Teaching關系屬於BCNF,但它不屬於4NF。因為它的碼是(C,T,B),關系中存在非平凡多值依賴C→→T ,C→→B,但C不包含碼,而只是碼的一部分。
課程C
參考書B
物理
普通物理學
物理
光學原理
物理
物理習題集
數學
數學分析
數學
微分方程
數學
高等代數
計算數學
數學分析
計算數學
計算數學
CB關系
課程C
教員T
物理
李勇
物理
王軍
數學
李勇
數學
張平
計算數學
張平
計算數學
周峰
CT關系
要使Teaching關系符合4NF,必須將其分解為CT(C,T)和CB(C,B)兩個關系模式。如右表:
從表中顯而易見,符合BCNF的關系Teaching仍然存在著數據冗餘,而分解後的關系CT和CB中只有平凡多值依賴,所以符合4NF,它們已經消除了數據冗餘。可以說:BCNF是在只有函數依賴的關系模式中,規范化程度最高的範式,而4NF是在有多值依賴的關系模式中,規范化程度最高的範式。
如果關系模式中存在連接依賴,即便它符合4NF,仍有可能遇到數據冗餘及更新異常等問題。所以對於達到4NF的關系模式,還需要消除其中可能存在的連接依賴,才可以進一步達到5NF的關系模式。
關於連接依賴和5NF的內容,已超出了本課程教學大綱的要求,在此不再介紹。
❷ 集成式資料庫系統在土地資源管理中的應用
劉玲玲
(長安大學資源學院,西安,710054)
摘要:土地資源管理主要是土地信息的管理。由於土地信息屬於空間信息,其位置的識別是與數據聯系在一起的。土地信息系統主要管理涉及土地所有、使用、市場價值等相關海量數據。這些數據對於社會經濟發展有重要意義。在很多國家,和土地有關的數據都是由相關不同部門來管理。如何使各種利益攸關者獲得良好的服務是各個國家努力實現的一項主要任務。本文在對集成式資料庫(FDB),集成數據模型(FDM)研究基礎上,分析FDB在德國、埃及土地管理中的應用,結合我國土地管理工作的現狀,提出FDB在我國土地管理中的應用價值。
關鍵詞:集成數據模型;集成式資料庫系統;土地管理;ALKIS
近年來,各國以實現一站式電子政務為目標,努力做到准確、快捷地為需要相關信息的利益攸關者提供綜合信息。土地信息作為空間信息的一種,其位置的識別與數據緊密聯系在一起。但是由於土地信息及與土地相關的信息一般由不同的部門來管理,因此土地管理工作符合集成式資料庫系統的應用范圍。通過集成數據模型可以看到集成式資料庫在土地管理工作中應用的實際意義。
1 集成式資料庫系統
在空間數據基礎設施(SDI)下,很多數據分布於數個機構和組織。一個集成式資料庫系統(Federated Database System,簡稱FDS)包含一系列在應用網路中相互連接的站點,而這些站點都是在各自的資料庫管理系統中獨立運行的。局部應用程序在內部資料庫中運行,與此同時,廣域應用程序在部分或者全部在集成式資料庫中的各個站點運行。
1.1 集成式資料庫系統的定義
FDS是物理上分布而邏輯上集中的資料庫系統。物理上分布是指分布式資料庫系統中的數據分布在由網路連接起來的、地理位置分散的不同站點上;邏輯上集中是指各資料庫站點之間在邏輯上是一個整體,並由統一的資料庫管理系統進行管理,同時各站點又具有管理本地數據的能力。集成式資料庫系統可看成是計算機網路與資料庫系統的有機結合。
集成式資料庫系統有兩個重要的組成部分:集成式資料庫(Federated Database,簡稱FDB)和集成式資料庫管理系統(Federated Database Management System,簡稱FDMS)。
1.2 集成式資料庫系統的特點
根據集成式資料庫系統的定義,可以知道集成式資料庫系統有四個基本特點。
圖1 集成式資料庫結構
1.2.1 物理分布性
數據不是存在一個站點上,而是存儲在計算機網路的多個站點上。由於數據的分布性特點,數據獲取的有效性、安全性和獲取速度大大提高。數據的分部性一般取決於在集成式資料庫管理系統建立之前的各個資料庫系統的建立。
1.2.2 異質性
由於技術的不同,存在很多異質性問題。例如,硬體、系統軟體和互動式系統的差別。在資料庫中,一般來講,主要存在兩種,一是不同的數據管理系統的差別;二是語義差別。語義差別指引用某些相關或相同數據時在不同資料庫中不同的定義、解釋方法。
1.2.3 自治性
各站點上的數據由本地的分布式資料庫管理系統管理,具有自治處理能力,完成本場地的應用(局部應用)。
1.2.4 協作性
各站點雖然具有高度的自治性,但是又相互合作構成一個整體。對全局用戶來說,使用分布式資料庫系統如同集中式資料庫系統一樣,用戶可以在任何一個站點執行全局應用。
2 集成數據模型 (FDM)
集成數據模型(Federated Data Model,簡稱FDM)在使用時位於分布在不同站點的各種資料庫的上一層。例如,在土地管理領域中,地籍資料庫在不同的單位和組織,根據其使用目的的不同,其設計和實施也不盡相同。因此,這些資料庫通過不同的數據模型來定義不同的語義以期描述現實世界中的物體。例如,土地所有權資料庫一般是根據其記錄土地交易的目的而設計的,而地籍資料庫主要通過確定宗地邊界和宗地面積來支持稅收和記錄土地資源。
土地管理工作中應用最廣泛的是三層結構集成數據模型。此結構是基於傳統的三層次資料庫設計,外部視圖層為第三層,即所需要的各種信息根據利益攸關者的需求而呈現的不同表示;概念集成圖式為第二層,即利益攸關者需要的信息;第一層是內部圖式層,即實際上是融合了各自獨立的資料庫的集合,它通過使用轉換器將內部各個資料庫中數據消除數據沖突後傳遞給第二層。此模型結構圖如圖2所示。
圖2 集成數據模型結構
3 德國、埃及兩國的 FDM 在 FDS 中的應用和特點
目前國際土地管理中,集成式管理越來越多的國家所採納,近年來,德國和埃及兩國的FDM在FDS中的應用取得了一定的成績。
3.1 德國
德國土地管理工作中地籍部分已經超過150年的歷史。根據德國聯邦法律委員會規定,國傢具有地籍登記的合法效益。但是德國16個州先後通過了統一的聯邦測量法案,即各種土地相關測量任務不是由國家測繪局來完成而是由各個州的測繪與制圖管理局來完成。國家測量局(State Survey Offices)和勞動委員會共同商討和制定基本的技術規范。盡管16個州負責德國地籍資料庫,資料庫一致性較強,但是有時還是難免出現一些例外情況不便於全國范圍內解決。同時,德國的宗地具有法律效應的幾何描述全部存儲於自動化地籍圖(Automated Cadastral Map)中,而文字性記錄則存儲於自動所有權登記(Automated Property Register)系統中。只有兩個資料庫合在一起才可以查閱到一個合法土地權利全面的情況。兩個資料庫必須同時加以維護並確保二者高度的一致性。
在20世紀後30年內德國地圖索引及存檔已經完全數字化。數字地籍圖和數字文檔記錄保存在上述兩種不同的資料庫系統中。從1997年開始,聯邦德國測繪局(AdV)組織了一個工作組致力於研究一個集成辦公地籍信息系統的模型,此模型被稱為:ALKIS。此系統是第一個世界范圍內使用 ISO 標准下的統一建模語言 UML (Unified Modeling Language)來設計的。ALKIS運用國際技術規范描述了地籍模型,此模型促進了德國地籍信息系統作為21世紀信息社會基礎信息系統的重要地位的形成。此地籍信息系統中部分是根據國際測量連邦委員會FIG (International Federation of Surveys)頒發的文件——2014地籍(Cadastre 2014)來設計的。
在ALKIS中,用於地圖和數據描述規則的集成式數據模型被定義且此模型記錄了屬性數據和關系數據。集成數據模型的空間和非空間基本物體是被已定義的屬性關系中的最小單位。例如,具有幾何拓撲關系的宗地、房屋等被定義為幾何元素,而非空間物體(土地所有權等),雖然沒有空間拓撲關系,但是可以根據其相關的空間物體連接其關系。
3.2 埃及
在埃及,土地登記和地籍管理目前由兩個不同的部門來執行。埃及司法部(Ministry of Justice)負責私有土地合法交易。隸屬於司法部的不動產司執行日常土地交易及維護土地所有權記錄。隸屬於埃及公共建設與灌溉部(Ministry of Public Work and Irrigation)的國家測繪局(Egyptian Survey Authority)負責地籍測量、地圖制圖及維護宗地空間信息記錄。兩個部門根據114/1946法案履行各自的職責。國家測繪局需要提供信息地籍信息給財政部(Ministry of Finance)以實現其稅收的主要職責。
為繁榮經濟,建立新型的房地產市場,埃及政府近期成立了國有土地事務局(State Owned Land Office)。局內設置多個部門,各部門分別負責一種專題資料庫。這些不同的資料庫作為集成式資料庫的主要組成,類似於集成數據模型結構中的內部圖式層存儲於不同的單位。通過媒介轉換成用戶可以理解的概念式信息,最後通過外部視圖服務於不同的利益攸關者。集成式資料庫的應用,其集成過程非但不影響各個部門專題資料庫的運行和服務,而且集成後的數據可以服務更為廣泛的利益攸關者。
3.3 特點
通過以上兩國應用集成式資料庫及集成式數據模型的介紹,可知集成式資料庫最大的優點就是在保持各自資料庫最基本的功能實現的情況下,通過集成其他資料庫以實現更大范圍的多種功能,以服務其他用戶。這樣資料庫利於管理與維護,提高效率,降低成本,公平公正,提升了政府形象。
4 結語
隨著數字化、網路化信息的生產速度不斷加快,信息資源總量的急劇膨脹,我國的電子政務建設,正在由網路硬體建設向法規化、標准化、電子工作模式的軟環境建設方向發展,由各部門獨立發布網路信息方式向利用網路和信息資源實現信息的整合、共享、深度利用的方式發展。面對大量且分散的信息資源,建設基於網路的、以跨部門的信息整合為特徵的、可供政府和社會快速定位和檢索的信息庫,使各級信息的使用者在各自的許可權內獲取全面、准確的信息,是電子政務深化發展的重要內容。
土地信息,尤其是和土地相關的地上建築物等信息目前日益受到廣泛關注。我國土地信息是由國土資源部門來管理,而地上建築物,例如房屋信息則是由建設部門來管理。在某些情況下,如果用戶同時需要兩方面的信息,獲取時會有一定的不便;而土地與房屋數據作為空間數據基礎設施的主要數據組成部分,在必要的時候可以與其他數據或者二者本身進行集成。空間數據基礎設施,為數據用戶和提供者提供了空間數據的採集、評估和實施的平台。
通過以上集成式資料庫、集成式數據模型以及目前應用實例的介紹,結合我國現狀,以期能夠對我國原資料庫管理部門不變更的情況下,應用集成式資料庫管理土地、房屋數據,以對各種用戶實現多種服務,即實現集成式的綜合服務,從而使一站式電子服務真正地服務於社會大眾。
參考文獻
ArbindManTuladhar,FederatedDataModel to ImproveAccessibility of Distributed Cadastral Database in Land Administration,2005,P8
Dr.-Ing.Winfried HAVERK,ALKIS-GERMANY'S WAY INTO A CADASTRE FOR THE 21ST CENTURY,P2,P6
DENNIS HEIMBIGNER,A Federated Architecture For Information Management,ACM Vol.3,No.3,Ju-ly1985,P258
Fouzia Benchikha,Integration of the Viewpoint Mechanism in Federated Databases,SAC 2001 Las Vegas,NV,P282
Richard Groot and John McLaughlin,Geospatial data infrastructure,P128,P137,P163
郭玉梅,政務信息資源目錄體系建設的基本框架,2005.5,中國計算機報