当前位置:首页 » 数据仓库 » 长安大学数据库
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

长安大学数据库

发布时间: 2023-03-08 01:38:10

❶ 关系数据库规范化理论的基础和内容

一个关系数据库模式由一组关系模式组成,一个关系模式由一组属性名组成。关系数据库设计,就是如何把已给定的相互关联的一组属性名分组,并把每一组属性名组成关系的问题。然而,属性的分组不是唯一的,不同的分组对应着不同的数据库应用系统,它们的效率往往相差很远。
为了使数据库设计合理可靠,简单实用,长期以来,形成了关系数据库设计的理论——规范化理论。
6.1 关系规范化的作用
规范化,就是用形式更为简洁,结构更加规范的关系模式取代原有关系模式的过程。
如果将两个或两个以上实体的数据存放在一个表里,就会出现下列三个问题:
Ø 数据冗余度大
Ø 插入异常
Ø 删除异常
所谓数据冗余,就是相同数据在数据库中多次重复存放的现象。数据冗余不仅会浪费存储空间,而且可能造成数据的不一致性。
插入异常是指,当在不规范的数据表中插入数据时,由于实体完整性约束要求主码不能为空的限制,而使有用数据无法插入的情况。
删除异常是指,当不规范的数据表中某条需要删除的元组中包含有一部分有用数据时,就会出现删除困难。
(以P98工资表为例)
解决上述三个问题的方法,就是将不规范的关系分解成为多个关系,使得每个关系中只包含一个实体的数据。
(讲例子解)
当然,改进后的关系模式也存在另一问题,当查询职工工资时需要将两个关系连接后方能查询,而关系连接的代价也是很大的。
那么,什么样的关系需要分解?分解关系模式的理论依据又是什么?分解完后能否完全消除上述三个问题?回答这些问题需要理论指导。下面,将加以讨论:

6.2 函数依赖

6.2.1属性间关系

实体间的联系有两类:一类是实体与实体之间联系;另一类是实体内部各属性间的联系。数据库建模一章中讨论的是前一类,在这里我们将学习第二类。

和第一类一样,实体内部各属性间的联系也分为1:1、1:n和m:n三类:

例:职工(职工号,姓名,身份证号码,职称,部门)

1、 一对一关系(1:1)

设X、Y是关系R的两个属性(集)。如果对于X中的任一具体值,Y中至多有一个值与之对应,反之,对于Y中的任一具体值,X中也至多有一个值与之对应,则称X、Y两属性间是一对一关系。

如本例职工关系中职工号与身份证号码之间就是一对一关系。

2、一对多关系(1:n)

设X、Y是关系R的两个属性(集)。如果对于X中的任一具体值,Y中可以找到多个值与之对应,而对于Y中的任一具体值,X中至多只有一个值与之对应,则称属性X对Y是一对多关系。

如职工关系中职工号与职称之间就是一对多的关系。

3、多对多关系(m:n)

设X、Y是关系R的两个属性(集)。如果对于X中的任一具体值,Y中有n个值与之对应,而对于Y中的任一具体值,X中也有m个值与之对应,则称属性X对Y是一对多(m:n)关系。

例如,职工关系中,职称与部门之间就是多对多的关系。

上述属性间的三种关系,实际上是属性值之间相互依赖与相互制约的反映,因而称之为属性间的数据依赖。

数据依赖共有三种:

Ø 函数依赖(Functional Dependency,FD)

Ø 多值依赖(Multivalued Dependency,MVD)

Ø 连接依赖(Join Dependency,JD)

其中最重要的是函数依赖和多值依赖。

6.2.2 函数依赖

函数依赖,是属性之间的一种联系。在关系R中,X、Y为R的两个属性或属性组,如果对于R的所有关系r 都存在:对于X的每一个具体值,Y都只有一个具体值与之对应,则称属性Y函数依赖于属性X。或者说,属性X函数决定属性Y,记作X→Y。其中X叫作决定因素,Y叫作被决定因素。

上述定义,可简言之:如果属性X的值决定属性Y的值,那么属性Y函数依赖于属性X。换一种说法:如果知道X的值,就可以获得Y的值,则可以说X决定Y。

若Y函数不依赖于X,记作:X→Y。

X Y

若X→Y,Y→X,记作:

前面学习的属性间的三种关系,并不是每种关系中都存在着函数依赖。

u 如果X、Y间是1:1关系,则存在函数依赖 X←→Y

u 如果X、Y间是1:n关系,则存在函数依赖: X→Y或Y→X(多方为决定因素)

u 如果X、Y间是m:n关系,则不存在函数依赖。

注意,属性间的函数依赖不是指R的某个或某些关系子集满足上述限定条件,而是指R的一切关系子集都要满足定义中的限定。只要有一个具体的关系r(R的一个关系子集)不满足定义中的条件,就破坏了函数依赖,使函数依赖不成立。

这里的关系子集,指的是R的某一部分元组的集合,例如:地测学院的学生关系中只包含了地测学院学生的数据,所以它是长安大学学生关系的一个子集。

6.2.3 码的定义

前面,我们对码进行了直观化的定义,下面用函数依赖的概念对码作出较为精确的形式化的定义:

设K是关系模式R(U,F)中的属性或属性组,K’是K的任一子集。若K→U,而不存在K’→U,则K为R的候选码(Candidate Key)

Ø 若候选码多于一个,则选其中的一个为主码(Primary Key);

Ø 包含在任一候选码中的属性,叫做主属性(Primary Attribute);

Ø 不包含在任何码中的属性称为非主属性(Nonprime Attribute)或非码属性(Nonkey Attribute)

Ø 关系模式中,最简单的情况是单个属性是码,称为单码(Single Key);最极端的情况是整个属性组是码,称为全码(All-Key)。

前面已多次遇到单码的情况,下面是一个全码的例子:

签约(演员名,制片公司,电影名)

外码:设有两个关系R和S,X是R的属性或属性组,并且X不是R的码,但X是S的码(或与S的码意义相同),则称X是R的外部码(Foreign Key),简称外码或外键。

如:职工(职工号,姓名,性别,职称,部门号)

部门(部门号,部门名,电话,负责人)

其中职工关系中的“部门号”就是职工关系的一个外码。

在此需要注意,在定义中说X不是R的码,并不是说X不是R的主属性,X不是码,但可以是码的组成属性,或者是任一候选码中的一个主属性。

如:学生(学生号,姓名,性别,年龄…)

课程(课程号,课程名,任课老师…)

选课(学生号,课程号,成绩)

在选课关系中,(学生号,课程号)是该关系的码,学生号、课程号又分别是组成主码的属性(但单独不是码),它们分别是学生关系和课程关系的主码,所以是选课关系的两个外码。

关系间的联系,可以通过同时存在于两个或多个关系中的主码和外码的取值来建立。如要查询某个职工所在部门的情况,只需查询部门表中的部门号与该职工部门号相同的记录即可。所以,主码和外码提供了一个表示关系间联系的途径。

6.2.4 函数依赖和码的唯一性

由上述码的形式化定义,我们可以说:码是由一个或多个属性组成的,可唯一标识元组的最小属性组。

码在关系中总是唯一的,即一个码函数唯一地决定一行。如果码的值重复,则整个元组都会重复。否则,违反了实体完整性规则。而元组的重复则表示存在两个完全相同的实体,这显然是不可能的,所以码是不允许重复取值的。

所以,只有当某个属性或属性组能够函数决定关系中的每一个其它的属性,且该属性组的任何一个真子集都做不到这一点时,该属性或属性组才是该关系的码。

函数依赖是一个与数据有关的事物规则的概念。如果属性B函数依赖于属性A,那么若知道了A的值,则完全可以找到B的值。这并非是可以由A的值计算出B的值,而是逻辑上只能存在一个B的值。

6.3 关系模式的规范化

一、非规范化的关系

当一个表中存在还可以再分的数据项时,这个表就是非规范化的表。非规范化表存在两种情况:

Ø 表中具有组合数据项(P102表6-4)

Ø 表中具有多值数据项(P103表6-5)

例:

职工号
姓名
工资

基本工资
职务工资
工龄工资

1002
张三
1000
800
200

职工号
姓名
职称
系名
系办地址
学历
毕业年份

001
张三
教授
计算机
1305
大学

研究生
1963

1982

那么什么是规范化关系呢?

当一个关系中的所有分量都是不可再分的数据项时,该关系是规范化的。即当表中不存在组合数据项和多值数据项,只存在不可分的数据项时,这个表是规范化的。

二维表按其规范化程度从低到高可分为5级范式(Normal Form),分别称为1NF、2NF、3NF(BCNF)、4NF、5NF。规范化程度较高者必是较低者的子集,即:

1NF 2NF 3NF BCNF 4NF 5NF

二、第一范式(1NF)

定义1:如果关系模式R中不包含多值属性,则R满足第一范式(First Normal Form),记作:

R∈1NF

1NF是对关系的最低要求,不满足1NF的关系是非规范化的关系。

非规范化关系转化为规范化关系1NF方法很简单,只要上表分别从横向、纵向展开即可。如下表:

职工号
姓名
基本工资
职务工资
工龄工资

1002
张三
1000
800
200

1005
李四
1200
900
150

职工号
姓名
职称
系名
系办地址
学历
毕业年份

1002
张三
教授
计算机
1305
大学
1963

1002
张三
教授
计算机
1305
研究生
1982

1005
李四
讲师
信电
2206
大学
1989

上表虽然符合1NF,但仍是有问题的关系,表中存在大量的数据冗余和潜在的数据更新异常。原因是(职工号,学历)是右表的码,但姓名、职称、系名、系办地址却与学历无关,只与码的一部分有关。所以上表还需进一步地规范化。

三、第二范式(2NF)

定义1:设X、Y是关系R的两个不同的属性或属性组,且X → Y。如果存在X的某一个真子集X’,使X’ → Y成立,则称Y部分函数依赖于X,记作:X P→ Y(Partial)。反之,则称Y完全函数依赖于X,记作:X F→ Y (Full)

定义2:如果一个关系 R∈1NF,且它的所有非主属性都完全函数依赖于R的任一候选码,则R属于第二范式,记作:R∈2NF。

说明:上述定义中所谓的候选码也包括主码,因为码首先应是候选码,才可以被指定为码。

例如关系模式:

职工(职工号,姓名,职称,项目号,项目名称,项目角色)中

(职工号,项目号)是该关系的码,而职工号→姓名、职工号→职称、项目号→项目名称…

所以(职工号,项目号)P→ 职称、(职工号,项目号)P→ 项目名称

故上述职工关系不符合第二范式要求。它存在三个问题:插入异常、删除异常和修改异常。

其中修改异常是这样的,当职工关系中项目名称发生变化时,由于参与该项目的人员很多,每人一条记录,要修改项目信息,就得对每一个参加该项目的人员信息进行修改,加大了工作量,还有可能发生遗漏,存在着数据一致性被破坏的可能。

可把上述职工关系分解成如下三个关系:

职工(职工号,姓名,职称)

参与项目(职工号,项目号,项目角色)

项目(项目号,项目名称)

上述三个关系都符合定义2的要求,所以都符合2NF

推论:如果关系模式R∈1NF,且它的每一个候选码都是单码,则R∈2NF

符合第二范式的关系模式仍可能存在数据冗余、更新异常等问题。如关系

职工信息(职工号,姓名,职称,系名,系办地址)

虽然也符合2NF,但当某个系中有100名职工时,元组中的系办地址就要重复100次,存在着较高的数据冗余。原因是关系中,系办地址不是直接函数依赖于职工号,而是因为职工号函数决定系名,而系名函数决定系办地址,才使得系办地址函数依赖于职工号,这种依赖是一个传递依赖的过程。

所以,上述职工信息的关系模式还需要进一步的规范化。

四、第三范式(3NF)

定义1:在关系R中,X、Y、Z是R的三个不同的属性或属性组,如果X→Y,Y→Z, 但Y→X,且Y不是X的子集,则称Z传递函数依赖于X。

定义2:如果关系模式R∈2NF,且它的每一个非主属性都不传递依赖于任何候选码,则称R是第三范式,记作:R∈3NF

推论1:如果关系模式R∈1NF,且它的每一个非主属性既不部分依赖、也不传递依赖于任何候选码,则R∈3NF

推论2:不存非主属性的关系模式一定为3NF

五、改进的3NF——BCNF(Boyee-Codd Normal Form)

定义:设关系模式R(U,F)∈1NF,若F的任一函数依赖X→Y(Y X)中X都包含了R的一个码,则称R∈BCNF。

换言之,在关系模式R中,如果每一个函数依赖的决定因素都包含码,则R∈BCNF

推论:如果R∈BCNF,则:

Ø R中所有非主属性对每一个码都是完全函数依赖;

Ø R中所有主属性对每一个不包含它的码,都是完全函数依赖;

Ø R中没有任何属性完全函数依赖于非码的任何一组属性。

定理:如果R∈BCNF,则R∈3NF一定成立。

证明:(结合传递依赖的定义,用反证法)

注意:当R∈3NF时,R未必属于BCNF。因为3NF比BCNF放宽了一个限制,它允许决定因素不包含码。例如:

通讯(城市名,街道名,邮政编码)中:

F={(城市名,街道名)→邮政编码,邮政编码→城市名}

非主属性邮政编码完全函数依赖于码,且无传递依赖,故属于3NF,但邮政编码也是一个决定因素,而且它没有包含码,所以该关系不属于BCNF。

又如:

Teaching(Student,Teacher,Course) 简记为Teaching(S,T,C)

规定:一个教师只能教一门课,每门课程可由多个教师讲授;学生一旦选定某门课程,教师就相应地固定。

F={T→C,(S,C)→T,(S,T) →C}

该关系的候选码是(S,C)和(S,T),因此,三个属性都是主属性,由于不存在非主属性,该关系一定是3NF。但由于决定因素T没包含码,故它不是BCNF。

关系模式Teaching仍然存在着数据冗余问题,因为存在着主属性对码的部分函数依赖问题。

确切地表示:F={T→C,(S,C)P→T,(S,T) P→C}

所以Teaching关系可以分解为以下两个BCNF关系模式:

Teacher(Teacher,Course) Student(Student,Teacher)

3NF的“不彻底”性,表现在可能存在主属性对码的部分依赖和传递依赖。

一个关系模式如果达到了BCNF,那么,在函数依赖范围内,它就已经实现了彻底的分离,消除了数据冗余、插入和删除异常。
6.4 多值依赖和第四范式

一、多值依赖(Multivalued Dependency)

课程C
教员T
参考书B

物理
李勇
普通物理学

物理
李勇
光学原理

物理
李勇
物理习题集

物理
王军
普通物理学

物理
王军
光学原理

物理
王军
物理习题集

数学
李勇
数学分析

数学
李勇
微分方程

数学
李勇
高等代数

数学
张平
数学分析

数学
张平
微分方程

数学
张平
高等代数

计算数学
张平
数学分析

计算数学
张平
计算数学

计算数学
周峰
数学分析

计算数学
周峰
计算数学

课程C
教员T
参考书B

物理
李勇

王军
普通物理学

光学原理

物理习题集

数学
李勇

张平
数学分析

微分方程

高等代数

计算数学
张平

周峰
数学分析

计算数学

例:学校中某一门课程由多个教员讲授,他们使用相同的一套参考书,每个教员可以讲授多门课程,每种参考书可以供多门课程使用。下列是用一个非规范化的表来表示教员T,课程C和参考书B之间的关系。

把上表变换成一张规范化的二维表Teaching,如右表

关系模式Teaching(C,T,B)的码是(C,T,B),即All-Key。因而Teaching∈BCNF。按照上述语义规定,当某门课程增加一名讲课教员时,就要向Teaching表中增加与相应参考书等数目的元组。同样,某门课程要去掉一本参考书时,则必须删除相应数目的元组。

对数据的增、删、改很不方便,数据的冗余也十分明显。如果仔细考察这类关系模式,会发现它具有一种称之为多值依赖的数据依赖关系。

定义:设R(U)是属性集U上的一个关系模式,X,Y,Z是U的子集,且Z=U-X-Y。如果对R(U)的任一关系r,给定一对(x,z)值,都有一组y值与之对应,这组y值仅仅决定于x值而与z值无关。则称Y多值依赖于X,或X多值决定Y,记作:X→→Y。――

例如,在关系模式Teaching中,对于一个(C,B)值(物理,普通物理学),有一组T值{李勇,王军},而这组值仅仅决定于课程C上的值(物理)。即对于另一个(物理,光学原理),它对应的T值仍然是{李勇,王军},所以T的值与B的值无关,仅决定于C的值,即C→→T 。

多值依赖的另一个等价的形式化定义为:

设关系模式R(U),X、Y、Z是U的子集,Z=U-X-Y,r是R的任意一个关系,t1、t2是r的任意两个元组。如果t1[X]=t2[X],并在r中存在两个元组t3、t4,使得:

t3[X]=t4[X]=t1[X]

t3[Y]=t1[Y],t3[Z]=t2[Z],

t4[Y]=t2[Y],t4[Z]=t1[Z]

成立,则X→→Y。

换句话说:如果X→→Y在R(U)中成立,则只要在R的任一关系r中存在两个元组t1、t2在X属性上的值相等,则交换这两个元组在Y(或Z)上的值后得到的两个新元组t3、t4也必是关系r中的元组。

定义中如果Z=Ф(空集),则称X→→Y为平凡的多值依赖,否则为非平凡的多值依赖。

多值依赖具有如下性质:

1. 对称性:若X→→Y,则X→→Z,其中Z=U-X-Y

2. 传递性:若X→→Y,Y→→Z,则X→→Z-Y

3. 若X→→Y,X→→Z,则X→→YZ

4. 若X→→Y,X→→Z,则X→→Y∩Z

5. 若X→→Y,X→→Z,则X→→Y-Z,X→→Z-Y

多值依赖与函数依赖相比,具有下面两个基本区别:

(1)多值依赖的有效性与属性集的范围有关

若X→→Y在U上成立,则在V(XY V U)上一定成立;反之则不然,即X→→Y在V(V U)上成立,在U上并不一定成立。这是因为多值依赖的定义中不仅涉及属性组X、Y,而且涉及U中的其余属性Z(Z=U-X-Y)。

一般地说,在R(U)上若有X→→Y在V(V U)上成立,则称X→→Y为R(U)的嵌入型多值依赖。

而在关系模式R(U)中函数依赖X→Y的有效性,仅决定于X和Y这两个属性集的值。只要在R(U)的任何一个关系r中,元组在X和Y上的值使得X→Y成立,则X→Y在任何属性集V(XY V U)上也成立。

(2)若函数依赖X→Y在R(U)上成立,则对于任何Y’ Y 均有X→Y’ 成立。而多值依赖X→→Y若在R(U)上成立,却不能断言对于任何Y’ Y有X→→Y’ 成立。

多值依赖的约束规则:在具有多值依赖的关系中,如果随便删去一个元组,就会破坏其对称性,那么,为了保持多值依赖关系中的“多值依赖”性,就必须删去另外的相关元组以维持其对称性。这就是多值依赖的约束规则。目前的RDBMS尚不具有维护这种约束的能力,需要程序员在编程中实现。

函数依赖可看成是多值依赖的特例,即函数依赖一定是多值依赖。而多值依赖则不一定就有函数依赖。

二、第四范式(4NF)

定义:如果关系模式R∈1NF,对于R的每个非平凡的多值依赖X→→Y(Y X),X含有码,则称R是第四范式,即R∈4NF

课程C
教员T
参考书B

物理
李勇
普通物理学

物理
李勇
光学原理

物理
李勇
物理习题集

物理
王军
普通物理学

物理
王军
光学原理

物理
王军
物理习题集

数学
李勇
数学分析

数学
李勇
微分方程

数学
李勇
高等代数

数学
张平
数学分析

数学
张平
微分方程

数学
张平
高等代数

计算数学
张平
数学分析

计算数学
张平
计算数学

计算数学
周峰
数学分析

计算数学
周峰
计算数学

Teaching关系

关系模式R∈4NF时,R中所有的非平凡多值依赖实际上就是函数依赖。因为每一个决定因素中都含有码,所以R一定属于BCNF。

4NF实际上就是限制关系模式的属性间不允许有非平凡,而且非函数依赖的多值依赖存在。反过来说,4NF所允许的非平凡多值依赖实际上是函数依赖。

例题中的Teaching关系属于BCNF,但它不属于4NF。因为它的码是(C,T,B),关系中存在非平凡多值依赖C→→T ,C→→B,但C不包含码,而只是码的一部分。

课程C
参考书B

物理
普通物理学

物理
光学原理

物理
物理习题集

数学
数学分析

数学
微分方程

数学
高等代数

计算数学
数学分析

计算数学
计算数学

CB关系

课程C
教员T

物理
李勇

物理
王军

数学
李勇

数学
张平

计算数学
张平

计算数学
周峰

CT关系

要使Teaching关系符合4NF,必须将其分解为CT(C,T)和CB(C,B)两个关系模式。如右表:

从表中显而易见,符合BCNF的关系Teaching仍然存在着数据冗余,而分解后的关系CT和CB中只有平凡多值依赖,所以符合4NF,它们已经消除了数据冗余。可以说:BCNF是在只有函数依赖的关系模式中,规范化程度最高的范式,而4NF是在有多值依赖的关系模式中,规范化程度最高的范式。

如果关系模式中存在连接依赖,即便它符合4NF,仍有可能遇到数据冗余及更新异常等问题。所以对于达到4NF的关系模式,还需要消除其中可能存在的连接依赖,才可以进一步达到5NF的关系模式。

关于连接依赖和5NF的内容,已超出了本课程教学大纲的要求,在此不再介绍。

❷ 集成式数据库系统在土地资源管理中的应用

刘玲玲

(长安大学资源学院,西安,710054)

摘要:土地资源管理主要是土地信息的管理。由于土地信息属于空间信息,其位置的识别是与数据联系在一起的。土地信息系统主要管理涉及土地所有、使用、市场价值等相关海量数据。这些数据对于社会经济发展有重要意义。在很多国家,和土地有关的数据都是由相关不同部门来管理。如何使各种利益攸关者获得良好的服务是各个国家努力实现的一项主要任务。本文在对集成式数据库(FDB),集成数据模型(FDM)研究基础上,分析FDB在德国、埃及土地管理中的应用,结合我国土地管理工作的现状,提出FDB在我国土地管理中的应用价值。

关键词:集成数据模型;集成式数据库系统;土地管理;ALKIS

近年来,各国以实现一站式电子政务为目标,努力做到准确、快捷地为需要相关信息的利益攸关者提供综合信息。土地信息作为空间信息的一种,其位置的识别与数据紧密联系在一起。但是由于土地信息及与土地相关的信息一般由不同的部门来管理,因此土地管理工作符合集成式数据库系统的应用范围。通过集成数据模型可以看到集成式数据库在土地管理工作中应用的实际意义。

1 集成式数据库系统

在空间数据基础设施(SDI)下,很多数据分布于数个机构和组织。一个集成式数据库系统(Federated Database System,简称FDS)包含一系列在应用网络中相互连接的站点,而这些站点都是在各自的数据库管理系统中独立运行的。局部应用程序在内部数据库中运行,与此同时,广域应用程序在部分或者全部在集成式数据库中的各个站点运行。

1.1 集成式数据库系统的定义

FDS是物理上分布而逻辑上集中的数据库系统。物理上分布是指分布式数据库系统中的数据分布在由网络连接起来的、地理位置分散的不同站点上;逻辑上集中是指各数据库站点之间在逻辑上是一个整体,并由统一的数据库管理系统进行管理,同时各站点又具有管理本地数据的能力。集成式数据库系统可看成是计算机网络与数据库系统的有机结合。

集成式数据库系统有两个重要的组成部分:集成式数据库(Federated Database,简称FDB)和集成式数据库管理系统(Federated Database Management System,简称FDMS)。

1.2 集成式数据库系统的特点

根据集成式数据库系统的定义,可以知道集成式数据库系统有四个基本特点。

图1 集成式数据库结构

1.2.1 物理分布性

数据不是存在一个站点上,而是存储在计算机网络的多个站点上。由于数据的分布性特点,数据获取的有效性、安全性和获取速度大大提高。数据的分部性一般取决于在集成式数据库管理系统建立之前的各个数据库系统的建立。

1.2.2 异质性

由于技术的不同,存在很多异质性问题。例如,硬件、系统软件和交互式系统的差别。在数据库中,一般来讲,主要存在两种,一是不同的数据管理系统的差别;二是语义差别。语义差别指引用某些相关或相同数据时在不同数据库中不同的定义、解释方法。

1.2.3 自治性

各站点上的数据由本地的分布式数据库管理系统管理,具有自治处理能力,完成本场地的应用(局部应用)。

1.2.4 协作性

各站点虽然具有高度的自治性,但是又相互合作构成一个整体。对全局用户来说,使用分布式数据库系统如同集中式数据库系统一样,用户可以在任何一个站点执行全局应用。

2 集成数据模型 (FDM)

集成数据模型(Federated Data Model,简称FDM)在使用时位于分布在不同站点的各种数据库的上一层。例如,在土地管理领域中,地籍数据库在不同的单位和组织,根据其使用目的的不同,其设计和实施也不尽相同。因此,这些数据库通过不同的数据模型来定义不同的语义以期描述现实世界中的物体。例如,土地所有权数据库一般是根据其记录土地交易的目的而设计的,而地籍数据库主要通过确定宗地边界和宗地面积来支持税收和记录土地资源。

土地管理工作中应用最广泛的是三层结构集成数据模型。此结构是基于传统的三层次数据库设计,外部视图层为第三层,即所需要的各种信息根据利益攸关者的需求而呈现的不同表示;概念集成图式为第二层,即利益攸关者需要的信息;第一层是内部图式层,即实际上是融合了各自独立的数据库的集合,它通过使用转换器将内部各个数据库中数据消除数据冲突后传递给第二层。此模型结构图如图2所示。

图2 集成数据模型结构

3 德国、埃及两国的 FDM 在 FDS 中的应用和特点

目前国际土地管理中,集成式管理越来越多的国家所采纳,近年来,德国和埃及两国的FDM在FDS中的应用取得了一定的成绩。

3.1 德国

德国土地管理工作中地籍部分已经超过150年的历史。根据德国联邦法律委员会规定,国家具有地籍登记的合法效益。但是德国16个州先后通过了统一的联邦测量法案,即各种土地相关测量任务不是由国家测绘局来完成而是由各个州的测绘与制图管理局来完成。国家测量局(State Survey Offices)和劳动委员会共同商讨和制定基本的技术规范。尽管16个州负责德国地籍数据库,数据库一致性较强,但是有时还是难免出现一些例外情况不便于全国范围内解决。同时,德国的宗地具有法律效应的几何描述全部存储于自动化地籍图(Automated Cadastral Map)中,而文字性记录则存储于自动所有权登记(Automated Property Register)系统中。只有两个数据库合在一起才可以查阅到一个合法土地权利全面的情况。两个数据库必须同时加以维护并确保二者高度的一致性。

在20世纪后30年内德国地图索引及存档已经完全数字化。数字地籍图和数字文档记录保存在上述两种不同的数据库系统中。从1997年开始,联邦德国测绘局(AdV)组织了一个工作组致力于研究一个集成办公地籍信息系统的模型,此模型被称为:ALKIS。此系统是第一个世界范围内使用 ISO 标准下的统一建模语言 UML (Unified Modeling Language)来设计的。ALKIS运用国际技术规范描述了地籍模型,此模型促进了德国地籍信息系统作为21世纪信息社会基础信息系统的重要地位的形成。此地籍信息系统中部分是根据国际测量连邦委员会FIG (International Federation of Surveys)颁发的文件——2014地籍(Cadastre 2014)来设计的。

在ALKIS中,用于地图和数据描述规则的集成式数据模型被定义且此模型记录了属性数据和关系数据。集成数据模型的空间和非空间基本物体是被已定义的属性关系中的最小单位。例如,具有几何拓扑关系的宗地、房屋等被定义为几何元素,而非空间物体(土地所有权等),虽然没有空间拓扑关系,但是可以根据其相关的空间物体连接其关系。

3.2 埃及

在埃及,土地登记和地籍管理目前由两个不同的部门来执行。埃及司法部(Ministry of Justice)负责私有土地合法交易。隶属于司法部的不动产司执行日常土地交易及维护土地所有权记录。隶属于埃及公共建设与灌溉部(Ministry of Public Work and Irrigation)的国家测绘局(Egyptian Survey Authority)负责地籍测量、地图制图及维护宗地空间信息记录。两个部门根据114/1946法案履行各自的职责。国家测绘局需要提供信息地籍信息给财政部(Ministry of Finance)以实现其税收的主要职责。

为繁荣经济,建立新型的房地产市场,埃及政府近期成立了国有土地事务局(State Owned Land Office)。局内设置多个部门,各部门分别负责一种专题数据库。这些不同的数据库作为集成式数据库的主要组成,类似于集成数据模型结构中的内部图式层存储于不同的单位。通过媒介转换成用户可以理解的概念式信息,最后通过外部视图服务于不同的利益攸关者。集成式数据库的应用,其集成过程非但不影响各个部门专题数据库的运行和服务,而且集成后的数据可以服务更为广泛的利益攸关者。

3.3 特点

通过以上两国应用集成式数据库及集成式数据模型的介绍,可知集成式数据库最大的优点就是在保持各自数据库最基本的功能实现的情况下,通过集成其他数据库以实现更大范围的多种功能,以服务其他用户。这样数据库利于管理与维护,提高效率,降低成本,公平公正,提升了政府形象。

4 结语

随着数字化、网络化信息的生产速度不断加快,信息资源总量的急剧膨胀,我国的电子政务建设,正在由网络硬件建设向法规化、标准化、电子工作模式的软环境建设方向发展,由各部门独立发布网络信息方式向利用网络和信息资源实现信息的整合、共享、深度利用的方式发展。面对大量且分散的信息资源,建设基于网络的、以跨部门的信息整合为特征的、可供政府和社会快速定位和检索的信息库,使各级信息的使用者在各自的权限内获取全面、准确的信息,是电子政务深化发展的重要内容。

土地信息,尤其是和土地相关的地上建筑物等信息目前日益受到广泛关注。我国土地信息是由国土资源部门来管理,而地上建筑物,例如房屋信息则是由建设部门来管理。在某些情况下,如果用户同时需要两方面的信息,获取时会有一定的不便;而土地与房屋数据作为空间数据基础设施的主要数据组成部分,在必要的时候可以与其他数据或者二者本身进行集成。空间数据基础设施,为数据用户和提供者提供了空间数据的采集、评估和实施的平台。

通过以上集成式数据库、集成式数据模型以及目前应用实例的介绍,结合我国现状,以期能够对我国原数据库管理部门不变更的情况下,应用集成式数据库管理土地、房屋数据,以对各种用户实现多种服务,即实现集成式的综合服务,从而使一站式电子服务真正地服务于社会大众。

参考文献

ArbindManTuladhar,FederatedDataModel to ImproveAccessibility of Distributed Cadastral Database in Land Administration,2005,P8

Dr.-Ing.Winfried HAVERK,ALKIS-GERMANY'S WAY INTO A CADASTRE FOR THE 21ST CENTURY,P2,P6

DENNIS HEIMBIGNER,A Federated Architecture For Information Management,ACM Vol.3,No.3,Ju-ly1985,P258

Fouzia Benchikha,Integration of the Viewpoint Mechanism in Federated Databases,SAC 2001 Las Vegas,NV,P282

Richard Groot and John McLaughlin,Geospatial data infrastructure,P128,P137,P163

郭玉梅,政务信息资源目录体系建设的基本框架,2005.5,中国计算机报