‘壹’ erp一般采用什么数据库系统
sql2000,比较好维护,安全、稳定、性能好。
‘贰’ 基础数据库
(一)数据内容
基础数据库包括系统运行前所采集到的所有支撑数据,数据的具体内容在数据分类与数据源章节中已描述,概括可分为以下几类。
(1)遥感影像数据:包括历史图像数据,以及按照一定监测周期更新的遥感图像数据。
(2)数字线划图数据:矢量数据(现状专题图和历史专题图数据)、栅格数据、元数据等。入库前数据以ArcInfoCoverage格式分幅或整体存储,采用地理坐标系统。
(3)数字栅格图数据:包括1∶5万和1∶10万基础地理图形数据的扫描栅格数据。
(4)数字高程模型数据:塔里木河干流河道1∶1万和“四源一干”区域1∶10万数字高程模型。
(5)多媒体数据:考察照片、录像、录音和虚拟演示成果等多媒体资料。
(6)属性数据:社会经济与水资源数据、水利工程数据、生态环境数据等。
(二)数据存储结构
1.栅格数据
栅格数据包括遥感影像、数字栅格图、数字正射影像图、数字高程模型等,这些数据的存储结构基本类似,因此可进行统一设计。遥感图像数据库与普通的图像数据库在存储上有些差别,遥感图像作为传感器对地理、空间环境在不同条件下的测量结果(如光谱辐射特性、微波辐射特性),必须结合同时得到的几个图像才可以认为是对环境在一定的时间条件下的完整的描述,也即是说,可能需要一个图像集合才能构成一个图像的完整的概念,并使之与语义信息产生联系(罗睿等,2000)。因此,遥感图像数据存储结构模型必须能够描述几个图像(波段)之间的逻辑关系。利用ArcSDE进行数据入库时,系统可自动建立各图像(波段)之间的关系,并按一定规则存储在数据库系统中。
对栅格数据在后台将采用Oracle数据库管理系统进行存储。Oracle系统可直接存储影像信息,并具有较强的数据管理能力,可以实现栅格数据信息的快速检索和提取。数据引擎采用ArcSDE,实现各类影像数据的入库。数据存储的关键是建立图幅索引,本系统数据的存储按图幅号、图名、采集时间等内容建立索引。
栅格数据依据图形属性一体化的存储思想,采用大二进制格式直接存储数据,这种方式的存储可实现内容的快速检索查询,按索引表检索出相关项后可直接打开栅格数据,提高栅格数据的管理效率。
2.矢量数据
本系统采用图属一体化思想即将空间数据和属性数据合二为一,全部存在一个记录集中的思想存储空间数据,是目前GIS数据非常流行的存储方法。考虑到数据的具体情况,决定采用数据库存储空间数据和属性数据,部分具有少量、定型几何信息的地理要素如水文测站、河流、湖泊等,采用图属一体化思想存储其信息,而与其有关联关系的大量、多边化的属性信息如水文信息,则存储在属性数据表中,利用唯一标识符信息建立两表的关联。
针对本系统空间数据的特点,系统按照“数据库—子库—专题(基础数据)—层—要素—属性”的层次框架来构筑空间数据库,按照统一的地理坐标系统来存储空间数据,以实现对地理实体/专题要素进行分层叠加显示。
3.多媒体数据
Oracle系统可直接存储图片和视频信息,并具有较强的数据管理能力,可以实现多媒体信息的快速检索和提取。多媒体数据存储的关键是建立索引表,本系统多媒体数据的存储按类型、时间、内容等项目建立索引,直接存储于Oracle数据库中。
多媒体数据存储时,可以将多媒体内容与索引表结构合为一体,采用大二进制格式直接存储,这种存储方式可实现内容的快速检索和查询,按索引表检索出相关项后可直接打开多媒体内容,而且多媒体数据库也便于维护管理。
(三)空间索引设计
1.矢量空间索引
确定合适的格网级数、单元大小是建立空间格网索引的关键。格网太大,在一个格网内有多个空间实体,查询检索的准确度就低。格网太小,则索引数据量成倍增长和冗余,检索的速度和效率低。每一个数据层可采用不同大小、不同级别的空间索引格网单元,但每层级数最多不能超过三级。索引方式设置遵循以下基本原则:
(1)对于简单要素的数据层,尽可能选择单级索引格网,减少RDBMS搜索格网单元索引的级数,缩短空间索引搜索的过程;
(2)如果数据层中的要素封装边界大小变化比较大,应选择2或3级索引格网;
(3)如果用户经常对图层执行相同的查询,最佳格网的大小应是平均查询范围的1.5倍;
(4)格网的大小不能小于要素封装边界的平均大小。为了减少每个格网单元有多个要素封装边界的可能性,格网单元的大小应取要素封装边界平均大小的3倍;
(5)格网单元的大小不是一个确定性的问题,需要多次尝试和努力才会得到好的结果。有一些确定格网初始值的原则,用它们可以进一步确定最佳的格网大小。
SDE(Spatial Data Engine,即空间数据引擎),从空间管理的角度看,是一个连续的空间数据模型,可将地理特征的空间数据和属性数据统一集成在关系型数据库管理系统中。关系型数据库系统支持对海量数据的存储,从而也可实现对空间数据的海量存储。空间数据可通过层来进行数据的划分,将具有共同属性的一类要素放到一层中,每个数据库记录对应一层中一个实际要素,这样避免了检索整个数据表,减少了检索的数据记录数量,从而减少磁盘输入/输出的操作,加快了对空间数据查询的速度。
ArcSDE采用格网索引方式,将空间区域划分成合适大小的正方形格网,记录每一个格网内所包含的空间实体(对象),以及每一个实体的封装边界范围,即包围空间实体的左下角和右上角坐标。当用户进行空间查询时,首先计算出用户查询对象所在格网,然后通过格网号,就可以快速检索到所需的空间实体。因此确定合适的格网级数、单元大小是建立空间格网索引的关键,太大或太小均不合适,这就需要进行多次尝试,确定合适的网格大小,以保证各单元能均匀落在网格内。利用ArcSDE的索引表创建功能,记录每一网格单元的实体分布情况,形成图层空间索引表。根据空间索引表,ArcSDE实现了对空间数据的快速查询。
2.栅格数据空间索引
栅格数据的空间索引通过建立多级金字塔结构来实现。以高分辨率栅格数据为底层,逐级抽取数据,建立不同分辨率的数据金字塔结构,逐级形成较低分辨率的栅格数据。该方法通常会增加20%左右的存储空间,但却可以提高栅格数据的显示速度。在数据库查询检索时,调用合适级别的栅格数据,可提高浏览和显示速度。
(四)入库数据校验
入库数据的质量关系到系统评价分析结果的准确性。数据在生产中就需要严格进行质量控制。依据数据生产流程,将数据质量控制分成生产过程控制和结果控制。生产过程控制包括数据生产前期的质量控制、数据生产过程中的实时质量控制,结果质量控制为数据生产完成后的质量控制(裴亚波等,2003)。对入库数据的校验主要是进行数据生产完成后的质量控制和检查。
1.规范化检查
(1)代码规范化:所有地理代码尽量采用国家标准和行业标准,例如,行政代码采用中华人民共和国行政区划代码国标。
(2)数据格式规范化:所有数据采用标准交换数据格式,例如,矢量数据采用标准输出Coverage格式和E00格式。
(3)属性数据和关系数据字段规范化:所有属性数据和关系数据提前分门别类地设计字段的内容、长短和格式,操作过程中严格执行。
(4)坐标系统规范化:本系统所有与空间有关的数据采用统一的空间坐标系统,即地理坐标系统。
(5)精度规范化:所有数据按照数据精度与质量控制中所要求的精度进行采集和处理。
(6)命名规范化:所有数据按照命名要求统一命名,便于系统的查询。
(7)元数据规范化:依照元数据标准要求,进行元数据检查。
2.质量控制
数据质量是GIS成败的关键。对于关系型数据库设计,只要能保证表的实体完整性和参照完整性,并使之符合关系数据库的三个范式即可。对于空间数据库设计,则不仅要考虑数据采样、数据处理流程、空间配准、投影变换等问题,还应对数据质量做出定量分析。
数据质量一般可以通过以下几个方面来描述(吴芳华等,2001):
(1)准确度(Accuracy):即测量值与真值之间的接近程度,可用误差来衡量;
(2)精度(Precision):即对现象描述得详细程度;
(3)不确定性(Uncertainty):指某现象不能精确测得,当真值不可测或无法知道时,就无法确定误差,因而用不确定性取代误差;
(4)相容性(Compatibility):指两个来源不同的数据在同一个应用中使用的难易程度;
(5)一致性(Consistency):指对同一现象或同类现象表达的一致程度;
(6)完整性(Completeness):指具有同一准确度和精度的数据在类型上和特定空间范围内完整的程度;
(7)可得性(Accessibility):指获取或使用数据的容易程度;
(8)现势性(Timeliness):指数据反映客观现象目前状况的程度。
塔里木河流域生态环境动态监测系统的所有数据在数据质量评价后,还需要从数据格式、坐标一致性等方面进行入库质量检验,只有通过质量检验的数据才可以入库。
3.数据检验
空间数据质量检验包括以下步骤:
(1)数据命名是否规范,是否按设计要求命名;
(2)数据是否能够正常打开;
(3)投影方式是否正确;
(4)坐标系统是否正确;
(5)改错是否完成,拓扑关系是否建立;
(6)属性数据是否正确,包括字段设置是否依据设计进行、是否有空属性记录、是否有属性错误记录等。
关系数据质量检验包括以下步骤:
(1)数据命名是否规范,是否按设计要求命名;
(2)数据是否能够正常打开;
(3)数据字段是否按设计要求设置;
(4)是否有空属性记录;
(5)是否有属性错误记录。
属性数据的校验,主要采用以下三种方式:
(1)两次录入校验:对一些相互之间毫无关联的数据,进行两次的录入,编写程序对两次录入的结果进行比较,找出两次录入结果不一样的数据,查看正确值,进行改正。
(2)折线图检验:对一些相互之间有关联的序列数据,如人口统计数据,对这一类数据,编写程序把数据以折线图的形式显示在显示器上,数据的序列一般都有一定规律,如果出现较大的波动,则需对此点的数据进行检查修改。
(3)计算校验:对一些按一定公式计算后所得结果与其他数据有关联的数据,如某些数据的合计等于另一数据,编写程序对这类数据进行计算,计算结果与有关联的数据进行比较,找出结果不一样的数据,查看正确值,进行改正。
图形数据的校验,主要包括以下步骤(陈俊杰等,2005):
(1)图层校验:图形要素的放置图层是唯一的。对于入库的Coverage数据,系统将根据图层代码进行检查,确保图形要素对层入座。
(2)代码检查:图形要素的代码是唯一的。对于入库的Coverage数据,系统将根据入库要素代码与特征表中的代码进行比较,确保入库数据代码存在,杜绝非法代码入库。
(3)类型检查:对入库的数据,检查该要素的类型与特征表中的类型是否一致,确保图形要素对表入座。如点要素、线要素、面要素仅能赋相应的点、线、面代码,且该代码必须与特征表中的数据类型代码相同。
(4)范围检查:根据入库的数据,确定该类要素的大体范围(如X、Y坐标等),在数据入库前,比较入库数据与范围数据的大小,若入库数据在该范围内,则入库,否则给出提示检查信息。
(五)数据入库
1.遥感影像数据
利用空间数据引擎———ArcSDE可实现遥感影像数据在Oracle数据库中的存储和管理,在影像数据进行入库时,应加入相应的索引和影像描述字段。
遥感影像入库步骤:
(1)影像数据预处理:要将塔里木河遥感影像数据库建成一个多分辨率无缝影像数据库系统,客观上要求数据库中的影像数据在几何空间、灰度空间连续一致。因此,在数据采集阶段就需要对影像数据进行预处理,包括图像几何校正、灰度拼接(无缝镶嵌)、正射处理、投影变换等。
几何校正的目的是使校正后的图像重新定位到某种地图投影方式,以适用于各种定位、量测、多源影像的复合及与矢量地图、DTM等的套合显示与处理。几何校正多采用二次多项式算法和图像双线性内插重采样法进行图像校正。将纠正后具有规定地理编码的图像按多边形圈定需要拼接的子区,逐一镶嵌到指定模版,同时进行必要的色彩匹配,使整体图像色调一致,完成图像的几何拼接,再采用金字塔影像数据结构和“从粗到精”的分层控制策略实现逐级拼接。
数字正射影像具有统一的大地坐标系、丰富的信息量和真实的景观表达,易于制作具有“独立于比例尺”的多级金字塔结构影像。可以采用DTM和外方位元素经过数字微分纠正方法,获得数字正射影像,它的基本参数包括原始影像与正射影像的比例尺、采样分辨率等(方涛等,1997)。
投影变换需根据数据库系统定义的标准转换到统一的投影体系下。
(2)影像数据压缩:随着传感器空间分辨率的提高和对遥感信息需求的日益增长,获取的影像数据量成几何级数增大,如此庞大的数据将占用较大的存储空间,给影像的存储和传输带来不便(葛咏等,2000)。目前,系统处理的遥感影像数据已达数百千兆,单个文件的影像数据最大达到了2G,这样的数据量在调用显示时速度很慢,对影像数据进行压缩存储,将大大提高影像访问效率。本系统采用ArcSDE软件提供的无损压缩模式对入库影像进行压缩。
(3)影像导入:遥感影像的入库可通过ArcSDE或入库程序进行导入,并填写相关的索引信息,在入库时对大型的遥感影像数据进行自动分割,分为若干的块(tiles)进行存储。
(4)图像金字塔构建:采用ArcSDE提供的金字塔构建工具在入库时自动生成图像金字塔,用户只需要选择相应的参数设置即可。图像金字塔及其层级图像按分辨率分级存储与管理。最底层的分辨率最高,并且数据量最大,分辨率越低,其数据量越小,这样,不同的分辨率遥感图像形成了塔式结构。采用这种图像金字塔结构建立的遥感影像数据库,便于组织、存储与管理多尺度、多数据源遥感影像数据,实现了跨分辨率的索引与浏览,极大地提高了影像数据的浏览显示速度。
2.数字线划图
对纸图数字化、配准、校正、分层及拼接等处理后,生成标准分幅和拼接存储的数字矢量图,就可以进行图形数据入库。
(1)分幅矢量图形数据、图幅接合表:按图形比例尺、图幅号、制作时间、图层等方式,通过入库程序导入到数据库中,同时导入与该地理信息相对应的属性信息,建立空间信息与属性信息的关联。
(2)拼接矢量图形数据:按图形比例尺、制作时间、图层等方式,通过入库程序导入到数据库中,同时导入与该地理信息相对应的属性信息,建立空间信息与属性信息的关联。
3.栅格数据
对纸图数字化、配准、校正、分层及拼接等处理后,生成标准分幅和整体存储的数字栅格图,然后进行图形数据入库。
(1)分幅栅格图形数据、图幅接合表:按图形比例尺、图幅号、制作时间等方式,通过入库程序导入到数据库中。
(2)整幅栅格图形数据:按比例尺、制作时间等方式,通过入库程序导入到数据库中。
4.数字高程模型
(1)分幅数字高程模型数据、图幅接合表:按图形比例尺、图幅号、制作时间等方式,通过入库程序导入到数据库中。
(2)拼接数字高程模型数据:按比例尺、制作时间等方式通过入库程序导入到数据库中。
5.多媒体数据
多媒体数据入库可根据多媒体数据库内容的需要对入库数据进行预处理,包括音频、视频信息录制剪接、文字编辑、色彩选配等。对多媒体信息的加工处理需要使用特定的工具软件进行编辑。由于音频信息和视频信息数据量巨大,因此,对多媒体数据存储时需采用数据压缩技术,现在的许多商用软件已能够直接存储或播放压缩后的多媒体数据文件,这里主要考虑根据数据显示质量要求选择采用不同的存储格式。图4-2为各类多媒体数据的加工处理流程。
图4-2 多媒体数据加工处理流程图
6.属性数据
将收集的社会经济、水利工程、生态环境等属性资料,进行分析整理,输入计算机,最后经过程序的计算处理,存储到数据库中,具体流程如图4-3所示。
图4-3 属性数据入库流程图
‘叁’ 基于多媒体GIS技术标准样地管理系统的设计与实现
刘耀林 刘洋 刘敏 兰泽英
(武汉大学资源环境科学学院,武汉,430072)
摘要:通过对多媒体技术和GIS的结合进行简介,主要阐述了基于多媒体GIS技术的标准样地管理系统的设计与实现,主要包括数据模型设计,数据的组织和管理,系统功能设计和物理实现。
关键词:多媒体;GIS;标准样地
1 引言
1.1 标准地块概述
标准地块是指在农用地分等定级对象所在区域内,在一定的栽培管理技术条件下,该区域内农作物产量水平最高的若干个农用地分等定级单元。标准地块所处位置的气候、地形、土壤、灌溉排水、土地利用等条件最优,农业生产条件最好。
设立标准样地具有十分重要的作用和意义,是农用地分等定级工作中必不可少的环节。通过设立标准样地可以直观地获得农用地质量等级信息,并对农用地分等定级成果进行评价、控制和校订;通过对标准地块的监测与管理,间接地对农用地质量等级变化进行动态监测与管理。
标准地块分国家级、省级和县级分别设置。标准地块的设置遵循3个原则,即分层设置原则,生产条件最好的原则,永久性标志的原则。
标准样地信息十分丰富,包括样地的空间数据、属性数据及其多媒体数据。其中空间数据是指标准样地的坐标及其拓扑关系;属性数据主要有样地编号、级别、二级区名称、实地位置、平面坐标、规划用途、气候、土壤、地形、农田基本建设情况、产量、土地利用和土地经济等方面的内容;多媒体数据则包括了样地的景观图片和剖面图片,以及介绍当地人文风貌、风土人情的文档、音频、视频数据。
1.2 采用多媒体GIS 技术管理标准样地信息的必要性
传统的地理信息系统主要研究空间数据的管理和分析,这些信息主要是以字母和数字的形式进行表达,手段单一而呆板。在GIS中采用多媒体数据,可将图形图像的直观性、数字的准确性、音频视频的引导性和亲切感相结合,充分调动用户的多种感官,增强GIS的信息处理和传输的效果。将空间数据库和多媒体数据库相结合,采用两者的数据存储与处理方法,以空间对象为主框架,将多媒体数据附着于对象上,可以解决多媒体数据与空间数据之间的整合关系。由于标准样地的数据具有多样性和复杂性,它不仅包括一般地理目标的空间数据和属性数据,还包括了大量与之相关的多媒体数据。为了对这些庞杂的数据进行高效的管理,方便查询和实时的更新,基于多媒体GIS技术开发了标准样地管理系统。
2 多媒体技术与 GIS 的结合
多媒体空间数据是以数值、文字、图形、图像和声音等多媒体形式表示的GPS数据、RS影像数据、GIS数据、视频数据、声音及其他属性数据。
多媒体空间数据库系统是多媒体GIS的核心,它将多媒体空间数据有机地集成于一体,不仅提供空间数据的存储与操作,还提供相应多媒体数据的存储与操作。多媒体空间数据库结合空间数据库和多媒体数据库的特点,采用两者的数据存储与处理方法,以空间对象为主框架,将多媒体数据附着于对象上,解决多媒体数据与空间数据之间的无缝整合关系,为多媒体地理信息系统提供数据管理基础。
多媒体空间数据库系统主要包括3个部分:关系数据库,多媒体对象数据库和空间数据库。关系数据库与空间数据库的作用分别是管理属性数据和空间数据,多媒体数据库是用来管理多媒体数据。如图1所示。
图1 多媒体空间数据库系统的结构
3 标准样地管理系统的设计与实现
3.1 标准样地管理系统的配置环境
标准样地管理系统的设计与开发是2004年国土资源部试点项目“湖北省农用地分等成果汇总”工作的一部分。为了科学有效地管理省级标准样地数据,并以视觉、听觉等形式直观、形象、生动地表达样地信息,为用户提供一个友好活泼的界面环境。开发采用当前流行的组件式GIS技术和多媒体技术标准样地管理系统。系统的配置主要有:PC机,Windows2000 操作系统,VC + + 开发平台,MapObjects 控件,Access 数据库。
3.2 标准样地管理系统的数据模型
由于大多数数据模型不支持复杂对象(影像和声音),而面向对象的数据结构支持定义复杂的数据结构,并且面向对象的数据模型具有以下的特点:
(1)多媒体GIS系统中定义的空间信息,如点、线、面和非空间信息,如多媒体数据,每一个数据不再是分散的,而是集成为统一的实体。
(2)用户可以根据需要定义自身系统的数据类型,编写相关的输入、输出和执行函数。
(3)具有类的继承性。
因此,标准样地管理系统采用了面向对象的技术,每个标准地块都是一个对象实体,有一个唯一的对象标识并包含有属性数据、空间图形数据、静态图像数据、视频数据和声音数据等,如图2。
图2 标准样地对象模型
定义 1:一个标准样地实体对象是一个7元组:[Oid,Aid,Gid,Wid,Pid,Mid,Sid],其中,Oid为该样地对象的对象标识;Aid是属性数据标识;Gid是空间数据标识;Wid是文档数据标识;Pid是静态图像数据标识;Mid是视频数据标识;Sid是声音数据标识。
3.3 标准样地管理系统的数据组织和管理
3.3.1 空间属性数据的组织和管理
空间数据是标准样地管理系统的核心,是整个系统的主体。基本空间数据类型有点、线和面。在矢量格式中点目标用一个坐标对(X1,Y1)表示,线目标用一串坐标对(X1,Y1) (X2,Y2)……(Xm,Ym)表示,面目标则用首尾相接的一串坐标对(X1,Y1) (X2,Y2)……(Xn,Yn) (X1,Y1)来表示。标准样地的属性数据是指其非空间、非多媒体数据,如样地编号、级别、二级区名称、实地位置等,属性数据由多个属性数据项组成,如图3所示。在标准样地管理系统中,采用MapObjects控件默认的shape文件格式来组织空间数据,而属性数据则由shape文件对应的dbf文件来组织。
图3 标准样地的属性数据列表
3.3.2 多媒体数据的组织和管理
多媒体数据的管理方式一般有两种。一是采用统一的数据库,把所有的多媒体数据以BLOB对象纳入其中进行统一的管理。其优点是便于数据的集中管理,但是数据库会显得过于庞大,且访问数据的速度较慢。二是将多媒体的源数据和描述性信息分开存放。在硬盘中,每一个媒体数据以单个文件的形式存放,并将这些文件存放在一个特定的目录下,形成一个媒体数据库。在关系数据库中储存数据的描述性信息如数据的编号、名称、路径、格式、容量、默认表达方式等。通过建立空间目标与数据的描述性信息的联系,来间接访问多媒体数据文件,如图4所示。其缺点一是数据的主体信息和描述性信息分开存放不便于统一管理,二是需要常用媒体软件的支持;但是这种方式实现起来十分简单,响应速度较快。本系统将采用第二种方式对多媒体数据进行管理。
图4 多媒体数据的管理
3.3.3 系统的数据库设计
本系统的数据库分为两个部分,即描述性信息数据库和主体数据库。前者以Access关系数据库管理着图件数据的描述性信息表和多媒体数据的信息表。后者又分为空间数据库和多媒体数据库。其中空间数据库管理着所有的空间数据和属性数据,它是硬盘中一特定目录下shape文件、dbf文件及shx文件的集合;而多媒体数据库管理着标准样地的所有多媒体数据,它是硬盘中一特定目录下各类多媒体数据文件的集合。系统以描述性信息数据库为媒介访问主体数据库,如图6中所示。
图5 图件数据的描述性信息表结构
图6 多媒体数据的描述性信息表结构
3.4 标准样地管理系统的功能模块设计
标准样地管理系统是目标管理系统的一种,它是多媒体技术和传统地理信息系统结合的产物。系统主要对基础数据、底图数据和标准样地数据进行了管理。基础数据主要是道路图层、水系图层、注记图层等辅助性数据;底图数据采用了1∶50万的湖北省农用地分等单元图,它是各分等单元(面状目标)空间数据和属性数据的集合;标准样地数据则包括了省级样地(点状目标)的空间数据,属性数据及其多媒体数据。
针对以上的数据,系统主要提供了图层管理、图形编辑、统计分析、目标查询和多媒体数据处理五个功能模块。图层管理模块是对基础图层、分等单元图和标准样地图层进行显示、添加、删除和移动等操作的方法的集合;图形编辑模块则提供了对点目标、线目标及面目标进行编辑的功能;统计分析模块主要针对分等单元图层数据,提供了各县市各等别面积统计和各地类各等别面积统计两个基本功能;目标查询模块和多媒体数据处理模块是系统的核心,其中查询模块提供了空间点击查询、空间分析查询和组合条件查询3种查询方式;而多媒体数据处理模块则用来存取和表达多媒体数据。运用系统提供的查询功能和多媒体数据处理功能,用户可以快速地捕捉标准样地目标并对其属性数据和多媒体数据进行详细的浏览。系统功能模块设计如图7所示:
图7 系统的功能设计
3.5 标准样地管理系统的功能模块的物理实现
标准样地管理系统在实现的过程中主要采用了组件式GIS技术和多媒体技术。其中组件式GIS技术实现系统中所有与空间数据和属性数据有关的功能,而多媒体技术和数据库技术则实现与多媒体数据有关的功能。
MapObjects控件提供CMoMapLayer,CMoPoint,CMoLine,CMoPolygon 等类接口中的属性和方法可以用来实现空间数据的操作。属性数据的操作则依靠 MO 控件提供的CMoRecordset类接口中的属性和方法来实现。
多媒体数据的表达则视数据的类型而定。对于标准样地景观图片和土壤剖面图片数据,可以视其为栅格图层数据,采用MO控件提供的CMoImageLayer类接口中的属性和方法来实现;样地文档数据、音频和视频数据的表达则分两步进行。先要通过ADO或DAO提供的数据库操作函数访问关系数据库中的多媒体数据描述性信息表,根据标准样地对象实体的ID号,在信息表中找到此样地的多媒体数据的描述记录;然后根据记录中路径字段的信息从多媒体数据库中访问其多媒体数据文件,最后调用ShellExecute函数根据文件格式激活应用程序对多媒体数据进行表达,具体过程如图8所示。
3.6 标准样地管理系统的运行简介
标准样地管理系统主要是为了对标准样地数据进行科学有效的管理和图、文、声、影并茂的展示。为了把多媒体数据较好地连接到地理目标上,借鉴空间型超级文本的有关原理,即地理空间实体作为信息的结点,以地理实体的空间位置作为索引,由这样的结点和索引组成链表,用户可以对链表进行浏览、查询等操作。这种方式比较简单方便,但尚不能达到真正意义上的超文本。
伴随着启动界面和背景音乐,进入标准样地管理系统。首先在图层管理器中选择标准样地图层激活并显示它,运用系统查询功能模块提供的其中一种查询方式捕捉到目标标准地块。此时目标变成红色,系统开始播放当地的民歌,接着属性信息对话框出现,可以在出现的对话框中浏览到样地的所有属性信息,还可以运用对话框中的多媒体接口进一步欣赏到目标标准地块的景观图片和土壤剖面图片,以及与当地风土人情有关的文字和视频信息。本系统改变了传统GIS呆板、沉闷的界面环境,给人耳目一新的感觉。
图8 系统的物理实现
图9 标准样地的剖面图片和景观图片查询
图10 标准样地的文档和视频信息查询
参考文献
黄涛等.地理信息系统集成开发中多媒体的应用和实现.微型电脑应用,2000,16 (4)
齐昕等.多媒体技术在GIS中的若干应用研究.微型电脑应用,1999,(5)
邱振戈等.多媒体技术在目标信息管理系统中的应用.解放军测绘学院学报,1999,16 (4)
艾海滨等.多媒体数据在地理信息系统中的组织、管理及方法实现的研究.测绘通报,2003,(4)
许云涛等.面向对象的多媒体空间数据库系统设计.武汉测绘科技大学学报,1999,24 (3)
‘肆’ 数据库架构选型与落地,看这篇就够了
随着时间和业务的发展,数据库中的数据量增长是不可控的,库和表中的数据会越来越大,随之带来的是更高的 磁盘 、 IO 、 系统开销 ,甚至 性能 上的瓶颈,而单台服务器的 资源终究是有限 的。
因此在面对业务扩张过程中,应用程序对数据库系统的 健壮性 , 安全性 , 扩展性 提出了更高的要求。
以下,我从数据库架构、选型与落地来让大家入门。
数据库会面临什么样的挑战呢?
业务刚开始我们只用单机数据库就够了,但随着业务增长,数据规模和用户规模上升,这个时候数据库会面临IO瓶颈、存储瓶颈、可用性、安全性问题。
为了解决上述的各种问题,数据库衍生了出不同的架构来解决不同的场景需求。
将数据库的写操作和读操作分离,主库接收写请求,使用多个从库副本负责读请求,从库和主库同步更新数据保持数据一致性,从库可以水平扩展,用于面对读请求的增加。
这个模式也就是常说的读写分离,针对的是小规模数据,而且存在大量读操作的场景。
因为主从的数据是相同的,一旦主库宕机的时候,从库可以 切换为主库提供写入 ,所以这个架构也可以提高数据库系统的 安全性 和 可用性 ;
优点:
缺点:
在数据库遇到 IO瓶颈 过程中,如果IO集中在某一块的业务中,这个时候可以考虑的就是垂直分库,将热点业务拆分出去,避免由 热点业务 的 密集IO请求 影响了其他正常业务,所以垂直分库也叫 业务分库 。
优点:
缺点:
在数据库遇到存储瓶颈的时候,由于数据量过大造成索引性能下降。
这个时候可以考虑将数据做水平拆分,针对数据量巨大的单张表,按照某种规则,切分到多张表里面去。
但是这些表还是在同一个库中,所以库级别的数据库操作还是有IO瓶颈(单个服务器的IO有上限)。
所以水平分表主要还是针对 数据量较大 ,整体业务 请求量较低 的场景。
优点:
缺点:
四、分库分表
在数据库遇到存储瓶颈和IO瓶颈的时候,数据量过大造成索引性能下降,加上同一时间需要处理大规模的业务请求,这个时候单库的IO上限会限制处理效率。
所以需要将单张表的数据切分到多个服务器上去,每个服务器具有相应的库与表,只是表中数据集合不同。
分库分表能够有效地缓解单机和单库的 性能瓶颈和压力 ,突破IO、连接数、硬件资源等的瓶颈。
优点:
缺点:
注:分库还是分表核心关键是有没有IO瓶颈 。
分片方式都有什么呢?
RANGE(范围分片)
将业务表中的某个 关键字段排序 后,按照顺序从0到10000一个表,10001到20000一个表。最常见的就是 按照时间切分 (月表、年表)。
比如将6个月前,甚至一年前的数据切出去放到另外的一张表,因为随着时间流逝,这些表的数据被查询的概率变小,银行的交易记录多数是采用这种方式。
优点:
缺点:
HASH(哈希分片)
将订单作为主表,然后将其相关的业务表作为附表,取用户id然后 hash取模 ,分配到不同的数据表或者数据库上。
优点:
缺点:
讲到这里,我们已经知道数据库有哪些架构,解决的是哪些问题,因此, 我们在日常设计中需要根据数据的特点,数据的倾向性,数据的安全性等来选择不同的架构 。
那么,我们应该如何选择数据库架构呢?
虽然把上面的架构全部组合在一起可以形成一个强大的高可用,高负载的数据库系统,但是架构选择合适才是最重要的。
混合架构虽然能够解决所有的场景的问题,但是也会面临更多的挑战,你以为的完美架构,背后其实有着更多的坑。
1、对事务支持
分库分表后(无论是垂直还是水平拆分),就成了分布式事务了,如果依赖数据库本身的分布式事务管理功能去执行事务,将付出高昂的性能代价(XA事务);如果由应用程序去协助控制,形成程序逻辑上的事务,又会造成编程方面的负担(TCC、SAGA)。
2、多库结果集合并 (group by,order by)
由于数据分布于不同的数据库中,无法直接对其做分页、分组、排序等操作,一般应对这种多库结果集合并的查询业务都需要采用数据清洗、同步等其他手段处理(TIDB、KUDU等)。
3、数据延迟
主从架构下的多副本机制和水平分库后的聚合库都会存在主数据和副本数据之间的延迟问题。
4、跨库join
分库分表后表之间的关联操作将受到限制,我们无法join位于不同分库的表(垂直),也无法join分表粒度不同的表(水平), 结果原本一次查询就能够完成的业务,可能需要多次查询才能完成。
5、分片扩容
水平分片之后,一旦需要做扩容时。需要将对应的数据做一次迁移,成本代价都极高的。
6、ID生成
分库分表后由于数据库独立,原有的基于数据库自增ID将无法再使用,这个时候需要采用其他外部的ID生成方案。
一、应用层依赖类(JDBC)
这类分库分表中间件的特点就是和应用强耦合,需要应用显示依赖相应的jar包(以Java为例),比如知名的TDDL、当当开源的 sharding-jdbc 、蘑菇街的TSharding等。
此类中间件的基本思路就是重新实现JDBC的API,通过重新实现 DataSource 、 PrepareStatement 等操作数据库的接口,让应用层在 基本 不改变业务代码的情况下透明地实现分库分表的能力。
中间件给上层应用提供熟悉的JDBC API,内部通过 sql解析 、 sql重写 、 sql路由 等一系列的准备工作获取真正可执行的sql,然后底层再按照传统的方法(比如数据库连接池)获取物理连接来执行sql,最后把数据 结果合并 处理成ResultSet返回给应用层。
优点
缺点
二、中间层代理类(Proxy)
这类分库分表中间件的核心原理是在应用和数据库的连接之间搭起一个 代理层 ,上层应用以 标准的MySQL协议 来连接代理层,然后代理层负责 转发请求 到底层的MySQL物理实例,这种方式对应用只有一个要求,就是只要用MySQL协议来通信即可。
所以用MySQL Navicat这种纯的客户端都可以直接连接你的分布式数据库,自然也天然 支持所有的编程语言 。
在技术实现上除了和应用层依赖类中间件基本相似外,代理类的分库分表产品必须实现标准的MySQL协议,某种意义上讲数据库代理层转发的就是MySQL协议请求,就像Nginx转发的是Http协议请求。
比较有代表性的产品有开创性质的Amoeba、阿里开源的Cobar、社区发展比较好的 Mycat (基于Cobar开发)等。
优点
缺点
JDBC方案 :无中心化架构,兼容市面上大多数关系型数据库,适用于开发高性能的轻量级 OLTP 应用(面向前台)。
Proxy方案 :提供静态入口以及异构语言的支持,适用于 OLAP 应用(面向后台)以及对分片数据库进行管理和运维的场景。
混合方案 :在大型复杂系统中存在面向C端用户的前台应用,也有面向企业分析的后台应用,这个时候就可以采用混合模式。
JDBC 采用无中心化架构,适用于 Java 开发的高性能的轻量级 OLTP 应用;Proxy 提供静态入口以及异构语言的支持,适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。
ShardingSphere是一套开源的分布式数据库中间件解决方案组成的生态圈,它由 Sharding-JDBC 、 Sharding-Proxy 和 Sharding-Sidecar (计划中)这3款相互独立的产品组成,他们均提供标准化的数据分片、分布式事务和数据库治理功能,可适用于如Java同构、异构语言、容器、云原生等各种多样化的应用场景。
ShardingSphere提供的核心功能:
Sharding-Proxy
定位为透明化的 数据库代理端 ,提供封装了 数据库二进制协议的服务端版本 ,用于完成对 异构语言的支持 。
目前已提供MySQL版本,它可以使用 任何兼容MySQL协议的访问客户端 (如:MySQL Command Client, MySQL Workbench, Navicat等)操作数据,对DBA更加友好。
向 应用程序完全透明 ,可直接当做MySQL使用。
适用于任何兼容MySQL协议的客户端。
Sharding-JDBC
定位为 轻量级Java框架 ,在Java的JDBC层提供的额外服务。 它使用客户端直连数据库,以jar包形式提供服务,无需额外部署和依赖,可理解为 增强版的JDBC驱动,完全兼容JDBC和各种ORM框架 。
以电商SaaS系统为例,前台应用采用Sharding-JDBC,根据业务场景的差异主要分为三种方案。
分库(用户)
问题解析:头部企业日活高并发高,单独分库避免干扰其他企业用户,用户数据的增长缓慢可以不分表。
拆分维度:企业ID分库
拆分策略:头部企业单独库、非头部企业一个库
分库分表(订单)
问题解析:订单数据增长速度较快,在分库之余需要分表。
拆分维度:企业ID分库、用户ID分表
拆分策略:头部企业单独库、非头部企业一个库,分库之后用户ID取模拆分表
单库分表(附件)
问题解析:附件数据特点是并发量不大,只需要解决数据增长问题,所以单库IO足以支撑的情况下分表即可。
拆分维度:用户ID分表
拆分策略:用户ID取模分表
问题一:分布式事务
分布式事务过于复杂也是分布式系统最难处理的问题,由于篇幅有限,后续会开篇专讲这一块内容。
问题二:分布式ID
问题三:跨片查询
举个例子,以用户id分片之后,需要根据企业id查询企业所有用户信息。
sharding针对跨片查询也是能够支持的,本质上sharding的跨片查询是采用同时查询多个分片的数据,然后聚合结果返回,这个方式对资源耗费比较大,特别是对数据库连接资源的消耗。
假设分4个数据库,8个表,则sharding会同时发出32个SQL去查询。一下子消耗掉了32个连接;
特别是针对单库分表的情况要注意,假设单库分64个表,则要消耗64个连接。如果我们部署了2个节点,这个时候两个节点同时查询的话,就会遇到数据库连接数上限问题(mysql默认100连接数)
问题四:分片扩容
随着数据增长,每个片区的数据也会达到瓶颈,这个时候需要将原有的分片数量进行增加。由于增加了片区,原先的hash规则也跟着变化,造成了需要将旧数据做迁移。
假设原先1个亿的数据,hash分64个表,现在增长到50亿的数据,需要扩容到128个表,一旦扩容就需要将这50亿的数据做一次迁移,迁移成本是无法想象的。
问题五:一致性哈希
首先,求出每个 服务器的hash值 ,将其配置到一个 0~2^n 的圆环上 (n通常取32)
其次,用同样的方法求出待 存储对象的主键 hash值 ,也将其配置到这个圆环上。
然后,从数据映射到的位置开始顺时针查找,将数据分布到找到的第一个服务器节点上。
一致性hash的优点在于加入和删除节点时只会影响到在哈希环中相邻的节点,而对其他节点没有影响。
所以使用一致性哈希在集群扩容过程中可以减少数据的迁移。
好了,这次分享到这里,我们日常的实践可能只会用到其中一种方案,但它不是数据库架构的全貌,打开技术视野,才能更好地把存储工具利用起来。
老规矩,一键三连,日入两千,点赞在看,年薪百万!
本文作者:Jensen
7年Java老兵,小米主题设计师,手机输入法设计师,ProcessOn特邀讲师。
曾涉猎航空、电信、IoT、垂直电商产品研发,现就职于某知名电商企业。
技术公众号 【架构师修行录】 号主,专注于分享日常架构、技术、职场干货,Java Goals:架构师。
交个朋友,一起成长!
‘伍’ mes系统用什么数据库
mes系统用Oracle数据库。
MES系统的Oracle数据库一共有2个,一个是lims系统需要的,存储着lims系统的配置数据和每天的业务数据;数据量最庞大最核心的一个就是我们所说的TOTALPLANT数据库,其存储着系统的核心的模型数据和每天产生的业务数据。如Oracle数据库出现问题,系统就将瘫痪,所以在Oracle数据库出现故障的时候,能够快速进行数据恢复就是非常重要的。HoneyWell公司提供了一个数据库备份方案,对数据的恢复没有介绍,其备份方案能对数据库进行联机备份,将数据文件和控制文件备份到以当前备份日期为名字的新建文件夹中,将所有的归档日志备份到一个固定的文件夹中。归档日志特别多,而我们的硬盘容量是有限的,如果一天备份一次数据的话,基本上十多天就将整个硬盘空间耗尽,这就需要每天去查看硬盘空间,删除过时的数据文件备份和归档日志备份,一旦忘记删除过时备份的话,使得以后的备份都不能进行,数据库系统也会因为磁盘空间的不足造成宕机,使得数据库无法正常启动,这在我们MES系统实施初期就发生过这种现象,给系统的实施造成了不小的麻烦,对于归档日志的删除还要特别小心,得判断好日志是否有用,如果将有用的备份误删得话,备份也就无效了,所以制定一个完善可行的备份恢复方案是非常必要的。
‘陆’ 数据库中的集群和F5
分布式数据库系统分布式数据库系统有两种:一种是物理上分布的,但逻辑上却是集中的。这种分布式数据库只适宜用途比较单一的、不大的单位或部门。另一种分布式数据库系统在物理上和逻辑上都是分布的,也就是所谓联邦式分布数据库系统。由于组成联邦的各个子数据库系统是相对“自治”的,这种系统可以容纳多种不同用途的、差异较大的数据库,比较适宜于大范围内数据库的集成。
----- ----
分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)。在分布式数据库系统中,一个应用程序可以对数据库进行透明操作,数据库中的数据分别在不同的局部数据库中存储、由不同的 DBMS进行管理、在不同的机器上运行、由不同的操作系统支持、被不同的通信网络连接在一起。
一个分布式数据库在逻辑上是一个统一的整体,在物理上则是分别存储在不同的物理节点上。一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库。它的分布性表现在数据库中的数据不是存储在同一场地。 更确切地讲,不存储在同一计算机的存储设备上。 这就是与集中式数据库的区别。从用户的角度看,一个分布式数据库系统在逻辑上和集中式数据库系统一样,用户可以在任何一个场地执行全局应用。就好那些数据是存储在同一台计算机上,有单个数据库管理系统(DBMS)管理一样,用户并没有什么感觉不一样。
分布式数据库系统是在集中式数据库系统的基础上发展起来的,是计算机技术和网络技术结合的产物。分布式数据库系统适合于单位分散的部门,允许各个部门将其常用的数据存储在本地,实施就地存放本地使用,从而提高响应速度,降低通信费用。分布式数据库系统与集中式数据库系统相比具有可扩展性,通过增加适当的数据冗余,提高系统的可靠性。在集中式数据库中,尽量减少冗余度是系统目标之一.其原因是,冗余数据浪费存储空间,而且容易造成各副本之间的不一致性.而为了保证数据的一致性,系统要付出一定的维护代价.减少冗余度的目标是用数据共享来达到的。而在分布式数据库中却希望增加冗余数据,在不同的场地存储同一数据的多个副本,其原因是:①.提高系统的可靠性、可用性当某一场地出现故障时,系统可以对另一场地上的相同副本进行操作,不会因一处故障而造成整个系统的瘫痪。②.提高系统性能系统可以根据距离选择离用户最近的数据副本进行操作,减少通信代价,改善整个系统的性能。
分布式数据库具有以下几个特点:
(1)、数据独立性与位置透明性。数据独立性是数据库方法追求的主要目标之一,分布透明性指用户不必关心数据的逻辑分区,不必关心数据物理位置分布的细节,也不必关心重复副本(冗余数据)的一致性问题,同时也不必关心局部场地上数据库支持哪种数据模型.分布透明性的优点是很明显的.有了分布透明性,用户的应用程序书写起来就如同数据没有分布一样.当数据从一个场地移到另一个场地时不必改写应用程序.当增加某些数据的重复副本时也不必改写应用程序.数据分布的信息由系统存储在数据字典中.用户对非本地数据的访问请求由系统根据数据字典予以解释、转换、传送.
(2)、集中和节点自治相结合。数据库是用户共享的资源.在集中式数据库中,为了保证数据库的安全性和完整性,对共享数据库的控制是集中的,并设有DBA负责监督和维护系统的正常运行.在分布式数据库中,数据的共享有两个层次:一是局部共享,即在局部数据库中存储局部场地上各用户的共享数据.这些数据是本场地用户常用的.二是全局共享,即在分布式数据库的各个场地也存储可供网中其它场地的用户共享的数据,支持系统中的全局应用.因此,相应的控制结构也具有两个层次:集中和自治.分布式数据库系统常常采用集中和自治相结合的控制结构,各局部的DBMS可以独立地管理局部数据库,具有自治的功能.同时,系统又设有集中控制机制,协调各局部DBMS的工作,执行全局应用。当然,不同的系统集中和自治的程度不尽相同.有些系统高度自治,连全局应用事务的协调也由局部DBMS、局部DBA共同承担而不要集中控制,不设全局DBA,有些系统则集中控制程度较高,场地自治功能较弱。
(3)、支持全局数据库的一致性和和可恢复性。分布式数据库中各局部数据库应满足集中式数据库的一致性、可串行性和可恢复性。除此以外还应保证数据库的全局一致性、并行操作的可串行性和系统的全局可恢复性。这是因为全局应用要涉及两个以上结点的数据.因此在分布式数据库系统中一个业务可能由不同场地上的 多个操作组成.例如, 银行转帐业务包括两个结点上的更新操作。这样,当其中某一个结点出现故障操作失败后如何使全局业务滚回呢?如何使另一个结点撤销已执行的操作(若操作已完成或完成一部分)或者不必再执行业务的其它操作(若操作尚没执行)?这些技术要比集中式数据库复杂和困难得多,分布式数据库系统必须解决这些问题.
(4)、复制透明性。用户不用关心数据库在网络中各个节点的复制情况,被复制的数据的更新都由系统自动完成。在分布式数据库系统中,可以把一个场地的数据复制到其他场地存放,应用程序可以使用复制到本地的数据在本地完成分布式操作,避免通过网络传输数据,提高了系统的运行和查询效率。但是对于复制数据的更新操作,就要涉及到对所有复制数据的更新。
(5)、易于扩展性。在大多数网络环境中,单个数据库服务器最终会不满足使用。如果服务器软件支持透明的水平扩展,那么就可以增加多个服务器来进一步分布数据和分担处理任务。
分布式数据库的优点:
(1)具有灵活的体系结构 。
(2)适应分布式的管理和控制机构。
(3)经济性能优越 。
(4)系统的可靠性高、可用性好 。
(5)局部应用的响应速度快。
(6)可扩展性好,易于集成现有系统。
分布式数据库的缺点:
(1)系统开销大,主要花在通信部分。
(2)复杂的存取结构,原来在集中式系统中有效存取数据的技术,在分成式系统中都不再适用。
(3)数据的安全生和保密性较难处理。
分布式数据库系统的目标
分布式数据库系统的目标,也就是研制分布式数据库系统的目的、动机,主要包括技术和组织两方面的目标.
1.适应部门分布的组织结构,降低费用。
使用数据库的单位在组织上常常是分布的(如分为部门、科室、车间等等),在地理上也是分布的.分布式数据库系统的结构符合部门分布的组织结构,允许各个部门对自己常用的数据存储在本地,在本地录入、查询、维护,实行局部控制.由于计算机资源靠近用户,因而可以降低通信代价,提高响应速度,使这些部门使用数据库更方便更经济。
2.提高系统的可靠性和可用性。
改善系统的可靠性和可用性是分布式数据库的主要目标.将数据分布于多个场地,并增加适当的冗余度可以提供更好的可靠性.一些可靠性要求较高的系统,这一点尤其重要.因为一个地出了故障不会引起整个系统崩溃.因为故障场地的用户可以通过其它场地进入系统.而其它场地的用户可以由系统自动选择存取路径,避开故障场地,利用其它数据副本执行操作,不影响业务的正常运行.
3.充分利用数据库资源,提高现有集中式数据库的利用率
当在一个大企业或大部门中已建成了若干个数据库之后,为了利用相互的资源,为了开发全局应用,就要研制分布式数据库系统.这种情况可称为自底向上的建立分布式系统.这种方法虽然也要对各现存的局部数据库系统做某些改动、重构,但比起把这些数据库集中起来重建一个集中式数据库,则无论从经济上还是从组织上考虑,分布式数据库均是较好的选择.
4.逐步扩展处理能力和系统规模
当一个单位规模扩大要增加新的部门(如银行系统增加新的分行,工厂增加新的科室、车间)时,分布式数据库系统的结构为扩展系统的处理能力提供了较好的途径:在分布式数据库系统中增加一个新的结点.这样做比在集中式系统中扩大系统规模要方便、灵活、经济得多。
在集中式系统中为了扩大规模常用的方法有两种:一种是在开始设计时留有较大的余地.这容易造成浪费,而且由于预测困难,设计结果仍可能不适应情况的变化.另一种方法是系统升级,这会影响现有应用的正常运行.并且当升级涉及不兼容的硬件或系统软件有了重大修改而要相应地修改已开发的应用软件时,升级的代价就十分昂贵而常常使得升级的方法不可行.分布式数据库系统能方便地把一个新的结点纳入系统,不影响现有系统的结构和系统的正常运行,提供了逐渐扩展系统能力的较好途径,有时甚至是唯一的途径。
①数据库系统与应用 赵致格编着 清华大学出版社p. 260
②数据库原理及应用 张晋连 编着 电子工业出版社P.13