当前位置:首页 » 数据仓库 » 数据库行业标准
扩展阅读
webinf下怎么引入js 2023-08-31 21:54:13
堡垒机怎么打开web 2023-08-31 21:54:11

数据库行业标准

发布时间: 2022-05-12 21:57:50

数据库查找的原理是什么

关系型数据库采用结构化查询语言(即sql)来对数据库进行查询,SQL早已获得了各个数据库厂商的支持,成为数据库行业的标准。它能够支持数据库的CRUD(增加、查询、更新、删除)操作,具有非常强大的功能,SQL可以采用类似索引的方法来加快查询操作。

NoSQL数据库使用的是非结构化查询语言(UnQL),它以数据集(像文档)为单位来管理和操作数据。由于它没有一个统一的标准,所以每个数据库厂商提供产品标准是不一样的,NoSQL中的文档Id与关系型表中主键的概念类似,NoSQL数据库采用的数据访问模式相对SQL更简单而精确。

(1)数据库行业标准扩展阅读

扩展方式——

当前社会和科学飞速发展,要支持日益增长的数据库存储需求,当然要求数据库有良好的扩展性能,并且要求数据库支持更多数据并发量,扩展方式是NoSQL数据库与关系型数据库差别最大的地方。

NoSQL数据库由于使用的是数据集的存储方式,它的存储方式一定是分布式的,它可以采用横向的方式来开展数据库,也就是可以添加更多数据库服务器到资源池,然后由这些增加的服务器来负担数据量增加的开销。

② 衡量数据库性能的重要指标

具体来说,本文包括以下内容:

  • 事务

  • 查询性能

  • 用户和查询冲突

  • 容量

  • 配置

  • NoSQL 数据库

  • 事务

    事务可以观察真实用户的行为:能够在应用交互时捕获实时性能。众所周知,测量事务的性能包括获取整个事务的响应时间和组成事务的各个部分的响应时间。通常我们可以用这些响应时间与满足事务需求的基线对比,来确定当前事务是否处于正常状态。

    如果你只想衡量应用的某个方面,那么可以评估事务的行为。所以,尽管容器指标能够提供更丰富的信息,并且帮助你决定何时对当前环境进行自动测量,但你的事务就足以确定应用性能。无需向应用程序服务器获取 CPU 的使用情况,你更应该关心用户是否完成了事务,以及该事务是否得到了优化。

    补充一个小知识点,事务是由入口点决定的,通过该入口点可以启动事务与应用进行交互。

    一旦定义了事务,会在整个应用生态系统中对其性能进行测量,并将每个事务与基线进行比对。例如,我们可能会决定当事务的响应时间与基线相比,一旦慢于平均响应时间的两个标准差是否就应该判定为异常,如图1所示。

  • 图1-基于基线评估当前事务响应时间
  • 用于评估事务的基线与正在进行的事务活动在时间上是一致的,但事务会由每个事务执行来完善。例如,当你选定一个基线,在当前事务结束之后,将事务与平均响应时间按每天的小时数和每周的天数进行对比,所有在那段时间内执行的事务都将会被纳入下周的基线中。通过这种机制,应用程序可以随时间而变化,而无需每次都重建原始基线;你可以将其看作是一个随时间移动的窗口。

    总之,事务最能反映用户体验的测量方法,所以也是衡量性能状况最重要的指标。

    查询性能
    最容易检测到查询性能是否正常的指标就是查询本身。由查询引起的问题可能会导致时间太长而无法识别所需数据或返回数据。所以不妨在查询中排查以下问题。

    1. 选择过多冗余数据

    编写查询语句来返回适当的数据是远远不够的,很可能你的查询语句会返回太多列,从而导致选择行和检索数据变得异常缓慢。所以,最好是列出所需的列,而不是直接用 SELECT*。当需要在特定字段中查询时,该计划可能会确定一个覆盖索引从而加快结果返回。覆盖索引通常会包含查询中使用的所有字段。这意味着数据库可以仅从索引中产生结果,而不需要通过底层表来构建。

    另外,列出结果中所需的列不仅可以减少传输的数据,还能进一步提高性能。

    2. 表之间的低效联接

    联接会导致数据库将多组数据带到内存中进行比较,这会产生多个数据库读取和大量 CPU。根据表的索引,联接还可能需要扫描两个表的所有行。如果写不好两个大型表之间的联接,就需要对每个表进行完整扫描,这样的计算量将会非常大。其他会拖慢联接的因素包括联接列之间存在不同的数据类型、需要转换或加入包含 LIKE 的条件,这样就会阻止使用索引。另外,还需注意避免使用全外联接;在恰当的时候使用内部联接只返回所需数据。

    3. 索引过多或过少

    如果查询优化没有可用的索引时,数据库会重新扫描表来产生查询结果,这个过程会生成大量的磁盘输入/输出(I/O)。适当的索引可以减少排序结果的需要。虽然非唯一值的索引在生成结果时,不能像唯一索引那样方便。如果键越大,索引也会变大,并通过它们创建更多的磁盘 I/O。大多数索引是为了提高数据检索的性能,但也需要明白索引本身也会影响数据的插入和更新,因为所有相关联的指标都必须更新。

    4. 太多的SQL导致争用解析资源

    任何 SQL 查询在执行之前都必须被解析,在生成执行计划之前需要对语法和权限进行检查。由于解析非常耗时,数据库会保存已解析的 SQL 来重复利用,从而减少解析的耗时。因为 WHERE 语句不同,所以使用文本值的查询语句不能被共享。这将导致每个查询都会被解析并添加到共享池中,由于池的空间有限,一些已保存的查询会被舍弃。当这些查询再次出现时,则需要重新解析。

    用户和查询冲突
    数据库支持多用户,但多用户活动也可能造成冲突。

    1. 由慢查询导致的页/行锁定

    为了确保查询产生精确的结果,数据库必须锁定表以防止在运行读取查询时再发生其他的插入和更新行为。如果报告或查询相当缓慢,需要修改值的用户可能需要等待至更新完成。锁提示能帮助数据库使用最小破坏性的锁。从事务数据库中分离报表也是一种可靠的解决方法。

    2. 事务锁和死锁

    当两个事务被阻塞时会出现死锁,因为每一个都需要使用被另一个占用的资源。当出现一个普通锁时,事务会被阻塞直到资源被释放。但却没有解决死锁的方案。数据库会监控死锁并选择终止其中一个事务,释放资源并允许该事务继续进行,而另一个事务则回滚。

    3. 批处理操作造成资源争夺

    批处理过程通常会执行批量操作,如大量的数据加载或生成复杂的分析报告。这些操作是资源密集型的,但可能影响在线用户的访问应用的性能。针对此问题最好的解决办法是确保批处理在系统使用率较低时运行,比如晚上,或用单独的数据库进行事务处理和分析报告。

    容量
    并不是所有的数据库性能问题都是数据库问题。有些问题也是硬件不合适造成的。

    1. CPU 不足或 CPU 速度太慢

    更多 CPU 可以分担服务器负载,进一步提高性能。数据库的性能不仅是数据库的原因,还受到服务器上运行其他进程的影响。因此,对数据库负载及使用进行审查也是必不可少的。由于 CPU 的利用率时时在变,在低使用率、平均使用率和峰值使用率的时间段分别检查该指标可以更好地评估增加额外的 CPU 资源是否有益。

    2. IOPS 不足的慢磁盘

    磁盘性能通常以每秒输入/输出操作(IOPS)来计。结合 I/O 大小,该指标可以衡量每秒的磁盘吞吐量是多少兆。同时,吞吐量也受磁盘的延迟影响,比如需要多久才能完成请求,这些指标主要是针对磁盘存储技术而言。传统的硬盘驱动器(HDD)有一个旋转磁盘,通常比固态硬盘(SSD)或闪存更慢。直到近期,SSD 虽然仍比 HDD 贵,但成本已经降了下来,所以在市场上也更具竞争力。

    3. 全部或错误配置的磁盘

    众所周知,数据库会被大量磁盘访问,所以不正确配置的磁盘可能带来严重的性能缺陷。磁盘应该适当分区,将系统数据目录和用户数据日志分开。高度活跃的表应该区分以避免争用,通过在不同磁盘上存放数据库和索引增加并行放置,但不要将操作系统和数据库交换空间放置在同一磁盘上。

    4. 内存不足

    有限或不恰当的物理内存分配会影响数据库性能。通常我们认为可用的内存更多,性能就越好。监控分页和交换,在多个非繁忙磁盘中建立多页面空间,进一步确保分页空间分配足够满足数据库要求;每个数据库供应商也可以在这个问题上提供指导。

    5. 网速慢

    网络速度会影响到如何快速检索数据并返回给终端用户或调用过程。使用宽带连接到远程数据库。在某些情况下,选择 TCP/IP 协议而不是命名管道可显着提高数据库性能。

    配置

    每个数据库都需设置大量的配置项。通常情况下,默认值可能不足以满足数据库所需的性能。所以,检查所有的参数设置,包括以下问题。

    1. 缓冲区缓存太小

    通过将数据存储在内核内存,缓冲区缓存可以进一步提高性能同时减少磁盘 I/O。当缓存太小时,缓存中的数据会更频繁地刷新。如果它再次被请求,就必须从磁盘重读。除了磁盘读取缓慢之外,还给 I/O 设备增添了负担从而成为瓶颈。除了给缓冲区缓存分配足够的空间,调优 SQL 查询可以帮助其更有效地利用缓冲区缓存。

    2. 没有查询缓存

    查询缓存会存储数据库查询和结果集。当执行相同的查询时,数据会在缓存中被迅速检索,而不需要再次执行查询。数据会更新失效结果,所以查询缓存是唯一有效的静态数据。但在某些情况下,查询缓存却可能成为性能瓶颈。比如当锁定为更新时,巨大的缓存可能导致争用冲突。

    3. 磁盘上临时表创建导致的 I/O 争用

    在执行特定的查询操作时,数据库需要创建临时表,如执行一个 GROUP BY 子句。如果可能,在内存中创建临时表。但是,在某些情况下,在内存中创建临时表并不可行,比如当数据包含 BLOB 或 TEXT 对象时。在这些情况下,会在磁盘上创建临时表。大量的磁盘 I / O 都需要创建临时表、填充记录、从表中选择所需数据并在查询完成后舍弃。为了避免影响性能,临时数据库应该从主数据库中分离出来。重写查询还可以通过创建派生表来减少对临时表的需求。使用派生表直接从另一个 SELECT 语句的结果中选择,允许将数据加到内存中而不是当前磁盘上。

    NoSQL 数据库

    NoSQL 的优势在于它处理大数据的能力非常迅速。但是在实际使用中,也应该综合参考 NoSQL 的缺点,从而决定是否适合你的用例场景。这就是为什么NoSQL通常被理解为 “不仅仅是 SQL”,说明了 NoSQL 并不总是正确的解决方案,也没必要完全取代 SQL,以下分别列举出五大主要原因。

    1. 挑剔事务

    难以保持 NoSQL 条目的一致性。当访问结构化数据时,它并不能完全确保同一时间对不同表的更改都生效。如果某个过程发生崩溃,表可能会不一致。一致事务的典型代表是复式记账法。相应的信贷必须平衡每个借方,反之亦然。如果双方数据不一致则不能输入。NoSQL 则可能无法保证“收支平衡”。

    2. 复杂数据库

    NoSQL 的支持者往往以高效代码、简单性和 NoSQL 的速度为傲。当数据库任务很简单时,所有这些因素都是优势。但当数据库变得复杂,NoSQL 会开始分解。此时,SQL 则比 NoSQL 更好地处理复杂需求,因为 SQL 已经成熟,有符合行业标准的接口。而每个 NoSQL 设置都有一个唯一的接口。

    3. 一致联接

    当执行 SQL 的联接时,由于系统必须从不同的表中提取数据进行键对齐,所以有一个巨大的开销。而 NoSQL 似乎是一个空想,因为缺乏联接功能。所有的数据都在同一个表的一个地方。当检索数据时,它会同时提取所有的键值对。问题在于这会创建同一数据的多个副本。这些副本也必须更新,而这种情况下,NoSQL 没有功能来确保更新。

    4. Schema设计的灵活性

    由于 NoSQL 不需要 schema,所以在某些情况下也是独一无二的。在以前的数据库模型中,程序员必须考虑所有需要的列能够扩展,能够适应每行的数据条目。在 NoSQL 下,条目可以有多种字符串或者完全没有。这种灵活性允许程序员迅速增加数据。但是,也可能存在问题,比如当有多个团体在同一项目上工作时,或者新的开发团队接手一个项目时。开发人员能够自由地修改数据库,也可能会不断实现各种各样的密钥对。

    5. 资源密集型

    NoSQL 数据库通常比关系数据库更加资源密集。他们需要更多的 CPU 储备和 RAM 分配。出于这个原因,大多数共享主机公司都不提供 NoSQL。你必须注册一个 VPS 或运行自己的专用服务器。另一方面,SQL 主要是在服务器上运行。初期的工作都很顺利,但随着数据库需求的增加,硬件必须扩大。单个大型服务器比多个小型服务器昂贵得多,价格呈指数增长。所以在这种企业计算场景下,使用 NoSQL 更为划算,例如那些由谷歌和 Facebook 使用的服务器。

③ 数据库对一个国家的经济文化科技国家安全等有何影响

随着数据安全法、个人信息保护法的颁布实施,数据安全成为各行业数字化转型的重要一环,通过数据库技术创新助力数据安全成为业内热点。
记者调研采访发现,面对数据安全合规以及新应用新场景下的安全防护要求,传统数据库安全防护理念和技术已经开始转变。在大数据环境下进行顶层设计、标准制订,对各大数据组件进行安全审计、访问控制与风险识别,针对结构化与非结构化数据的安全脱敏、加密安全与隐私防护等,都是当前数据库安全防护新趋势的重要问题。
多因素驱动数据库安全发展
近年来,我国数字经济蓬勃发展。最新发布的《中国互联网发展报告2021》显示,2020年我国数字经济规模达到39.2万亿元,占GDP比重达38.6%。
“只有保障数据安全,才能筑牢数字经济发展的底线。”达梦数据库高级副总经理付铨表示,数据是数字经济的重要生产资料,是国家核心战略资源和社会重要财富。同时,数据安全问题是关乎数字经济健康有序可持续发展的重大问题。
绿盟科技集团副总裁李晨认为,数据库安全发展主要有两个驱动因素,一是数据库本身的发展促使数据库安全技术发展,二是数据安全相关法律法规和标准规范对数据库安全防护提出新的需求。从技术发展看,大规模的数据存储和处理需求,使得大数据、数据仓库、数据湖以及数据中台得到推广,并应用于分布式数据库、云端数据库等很多场景。从数据安全法律法规看,继等级保护2.0系列标准提出大数据应用场景的安全防护参考后,数据安全法和个人信息保护法又相继颁布实施,将数据安全要求提高到法律的高度。
在中国信通院数据库应用创新实验室、中国通信标准化协会大数据技术标准推进委员会近日举办的“数据库安全防护新趋势”沙龙上,清华大学计算机系长聘教授李国良表示,标准有助于落实产业政策,促进企业发展。希望更多企业重视相关工作,共同为数据库安全的发展做出贡献。
据中国信通院云大所工程师刘思源介绍,中国信通院深耕数据库领域标准研制、产业研究、政策支撑、评测评估等,依托中国通信标准化协会大数据技术标准推进委员会,已牵头编制近10项数据库领域行业标准和若干团体标准,累计发布数据库白皮书和研究报告近10本,并定期发布评测评估观察,为遴选优质标的提供重要依据。
数据库安全保障网络安全
数据库安全防护是数据安全治理体系的一部分。李晨表示,绿盟科技从数据安全建设顶层设计出发,提出“一个中心,四个领域,五个阶段”的数据安全体系建设思路。以数据安全防护为中心,在组织建设、制度流程、技术工具和人员能力四个领域同时开展建设工作,通过“知、识、控、察、行”五个步骤进行数据安全落地建设。仅就数据库安全技术而言,绿盟科技有数据分类分级、审计与访问控制、脱敏、水印、脱敏后风险评估、数据防护与态势感知和隐私计算相关技术等。
付铨表示,在信息技术快速发展的背景下,需要在网络信息安全关键技术上有更大突破,前提是独立研发,掌握核心技术。在安全问题上,只有数据库没有安全问题,数据才不会泄露或丢失,信息安全才能得到保障。可以说,只有底层的数据库安全了,网络安全才有保障。
据介绍,达梦数据库研发的数据共享集群实现了国产数据库在共享存储集群方面的突破,在性能上与国际同类产品持平。公司产品广泛应用于金融、能源、电信等50多个重要领域。
构筑多维度立体化安全防线
“随着数据价值重要性的凸显以及未来开放性环境下的安全风险日益突出,数据库需要围绕系统整体韧性能力和数据端到端全生命周期安全构建系统整体外部感知能力和机密计算能力,并完善内核审计追溯能力。”华为技术有限公司数据库技术专家朱金伟说。
勒索病毒是当前受到关注的网络安全风险。美创科技产品和解决方案中心总监胡大海表示,为有效抵御勒索病毒威胁,美创科技从防范实践出发,以“零信任”安全理念为基础,推出“勒索防御产品+安全保险+容灾备份”三位一体的勒索病毒风险解决方案,为机构数据安全构筑起多维度、立体化的安全防线。完善的数据容灾备份建设可以在攻击发生前对数据进行备份,在攻击发生后对数据进行恢复,最大程度降低由勒索病毒加密、窃取数据造成的数据丢失乃至业务中断等影响。
据腾讯云计算技术有限公司数据库高级产品经理程昌明介绍,目前腾讯云数据库已经能够从数据沉淀、业务学习、特征总结、风险模型、人为中心以及行为分析等方面,基于大数据分析进行安全治理。

④ 数据库系统建设需要依据哪些行业和国家标准或规范

你要是数据中心机房建设请参照一下标准:

1<<电子信息系统机房设计规范>>GB 50174-2008
2<<电子信息系统机房施工及验收规范>>GB 50462-2008
3<<电子计算机场地通用规范>>GB/T 2887-2000
4<<防静电活动地板通用规范>>SJ/T10796-2001
5<<通风与空调工程质量验收规范>>GB 50243-2002
6<<火灾自动报警系统设计规范>>GB 50116-2008
7<<火灾自动报警系统施工及验收规范>>GB 50166-2007
8<<供配电系统设计规范>>GB 50052-2009
9<<建筑电气工程施工质量验收规范>>GB 50303-2002
10<<建筑物电子信息系统防雷技术规范>>GB 50343-2004
11<<建筑物防雷设计规范>>GB 50057-2010
12<<综合布线系统工程设计规范>>GB/T50311-2007
13<<综合布线系统工程验收规范>>GB/T50312-2007
注: 数据中心建设不牵扯民用标准。。DXJS 标准是电信标准,看你是什么行业,金融数据中心有自己的标准, 电力数据中心有自己的标准。

⑤ 这次被美国“科技霸凌”的中国数据库《SQL9075 2018 流数据库》国际技术标准究竟强在哪里

长期以来,中国一直被三大“卡脖子”技术束缚——“芯片、操作系统、数据库”。
芯片,自不用说,华为的苦我们都懂的;操作系统,我们刚刚实现了从0到1的过程,路漫漫其修远;而数据库作大众看不见摸不到的技术支撑,很多人不太理解其重要性。在这里,简单科普一下:数据库是上述三大核心技术的核心基础中台、基础核心软件,被称为软件的灵魂、是关键技术皇冠上的明珠,但中国恰恰在该领域的对外技术依赖性最高,这对于大国崛起就很尴尬了,相当于,打开紧箍咒的经我们不会念…
因此,中国在数据库技术领域已经蓄力已久,五年前我们开始了国际标准的研发工作,经过中国专家组五年来的潜心精研、砥砺攻坚,终于在2019年基本明确了在数据库技术标准上已取得突破性进展:由中国主导形成标准的《SQL9075 2018 流数据》在2020年只要顺利通过审议,便可在全球发布、推广及适用。同时,《AI-in-Database 库内人工智能》提案确认由中国主导形成国际标准,正式进入国际标准的撰写及确定阶段。

⑥ 什么叫关系型数据库

关系型数据库,是指采用了关系模型来组织数据的数据库,其以行和列的形式存储数据,以便于用户理解,关系型数据库这一系列的行和列被称为表,一组表组成了数据库。

用户通过查询来检索数据库中的数据,而查询是一个用于限定数据库中某些区域的执行代码。

关系模型可以简单理解为二维表格模型,而一个关系型数据库就是由二维表及其之间的关系组成的一个数据组织。

(6)数据库行业标准扩展阅读:

关系型数据库特点:

1、存储方式:传统的关系型数据库采用表格的储存方式,数据以行和列的方式进行存储,要读取和查询都十分方便。

2、存储结构:关系型数据库按照结构化的方法存储数据,每个数据表都必须对各个字段定义好,再根据表的结构存入数据,这样做的好处就是由于数据的形式和内容在存入数据之前就已经定义好了,所以整个数据表的可靠性和稳定性都比较高。

3、存储规范:关系型数据库为了避免重复、规范化数据以及充分利用好存储空间,把数据按照最小关系表的形式进行存储,这样数据管理的就可以变得很清晰、一目了然,当然这主要是一张数据表的情况。

4、扩展方式:由于关系型数据库将数据存储在数据表中,数据操作的瓶颈出现在多张数据表的操作中,而且数据表越多这个问题越严重,如果要缓解这个问题,只能提高处理能力,也就是选择速度更快性能更高的计算机。

5、查询方式:关系型数据库采用结构化查询语言来对数据库进行查询,SQL早已获得了各个数据库厂商的支持,成为数据库行业的标准,它能够支持数据库的CRUD操作,具有非常强大的功能,SQL可以采用类似索引的方法来加快查询操作。

6、规范化:在数据库的设计开发过程中开发人员通常会面对同时需要对一个或者多个数据实体进行操作,这样在关系型数据库中,一个数据实体一般首先要分割成多个部分,然后再对分割的部分进行规范化,规范化以后再分别存入到多张关系型数据表中,这是一个复杂的过程。

7、事务性:关系型数据库强调ACID规则(原子性(Atomicity)、一致性(Consistency)、隔离性(Isolation)、持久性(Durability)),可以满足对事务性要求较高或者需要进行复杂数据查询的数据操作,而且可以充分满足数据库操作的高性能和操作稳定性的要求。

8、读写性能:关系型数据库十分强调数据的一致性,并为此降低读写性能付出了巨大的代价,虽然关系型数据库存储数据和处理数据的可靠性很不错,但一旦面对海量数据的处理的时候效率就会变得很差,特别是遇到高并发读写的时候性能就会下降的非常厉害。

9、授权方式:关系型数据库常见的有 Oracle,SQLServer,DB2,Mysql,除了Mysql大多数的关系型数据库如果要使用都需要支付一笔价格高昂的费用,即使是免费的Mysql性能也受到了诸多的限制。

⑦ CEIC数据库里行业分类标准是什么

您好,希望以下回答能帮助您
是China entrepreneur Investment Club中国企业家投融资俱乐部的英文简称

如您还有疑问可继续追问。

⑧ 数据库结构

新一轮油气资源评价数据库是建立在国家层面上的数据库,数据库设计首先立足于国家能源政策和战略制定的宏观要求,还要结合油气资源评价的工作特征和各个评价项目及资源的具体情况。使用当前最流行和最成熟的数据库技术进行数据库的总体结构设计。

数据库的设计以《石油工业数据库设计规范》为指导标准,以《石油勘探开发数据》为设计基础,借鉴前人的优秀设计理念和思路,参考国内外优秀的资源评价数据库和油气资源数据库的设计技术优势,结合本轮资源评价的具体特点,按照面向对象的设计和面向过程的设计相结合的设计方法,进行数据库的数据划分设计。

油气资源评价数据库要满足新一轮全国油气资源评价工作的常规油气资源评价、煤层气资源评价、油砂资源评价、油页岩资源评价四个油气资源评价的数据需求。进行数据库具体数据内容设计。

并且,数据库的设计要为油气资源评价的快速、动态评价和远程评价工作的需求保留足够数据扩展接口,数据库具有良好开放性、兼容性和可扩充性。

(一)数据划分

数据库内存放的数据将支持资源评价的整个过程。为了能更好地管理库中数据,需要对整个过程中将用到的数据进行分类管理。具体分类方式如下(图4-11):

图4-11 数据分类示意图

1.按照应用类型划分

按照数据在资源评价过程中的应用类型划分,可以划分为基础数据、参数数据和评价结果数据。

基础数据是指从勘探生产活动及认识中直接获取的原始数据,这些数据一般没有经过复杂的处理和计算过程。如分析化验数据、钻井地质数据、盆地基础数据等。这些数据是整个评价工作的基础。

参数数据是指在评价过程中各种评价方法和软件直接使用的参数数据。

评价结果数据是指资源评价中产生的各种评价结果数据,如资源量结果数据、地质评价结果数据等。

2.按照评价对象划分

本次评价共分为大区、评价单元、计算单元三个层次,在研究中又使用了盆地、一级构造单元,在评价对象总体考虑中按照评价对象将数据划分为大区、评价单元、计算单元等类型。

3.按照获取方式划分

按照获取方式可以将数据分为直接获取、研究获取、间接获取几类。

4.按照存储类型划分

按照存储类型可以将数据划分为结构化数据和非结构化数据。

结构化数据是指能够用现有的关系数据库系统直接管理的数据,进一步又可以分为定量数据和定性数据两类。

非结构化数据是指不能用现有的关系数据库系统直接管理和操作的数据,它必须借助于另外的工具管理和操作。如图件数据、文档数据等。

库中数据类型的划分共分六个层次逐次划分,包括:数据存储类型→资源类型→评价对象→应用→获取方式→数据特征。

对于结构化存储的数据在应用层分为三类:基础数据、中间数据和结果数据,基础数据中包含用于类比的基础数据、用于统计分析的基础数据和直接用于公式运算的基础数据;结构化存储的数据在获取方式上可以继续划分,其中,用于公式运算的数据可以细化为专家直接录入、由地质类比获取、通过生产过程获取、通过地质研究过程获取及其他方式。中间数据可以从以下方式获取:标准、统计、类比、参数的关联。结果数据的获取有两种方式:公式运算结果和通过钻井、地质、综合研究等提交的文字报告。

对于非结构化存储的数据在应用层分为两类:图形数据和文档数据。

图形数据在获取方式上可以继续划分成四种方式:通过工程测量数据获取(如地理图件、井位坐标数据等)、通过地质研究过程获取(如沉积相图、构造区划图等)、由综合研究获取(如综合评价图等)、其他方式。

图形数据在表现方式上又可以进一步分为有坐标意义的图形(如构造单元划分图、地理图、井位图等)、数值图(如产烃率曲线图、酐洛根热降解图等)和无坐标含义图(如剖面图)等。

文档数据是指评价过程中产生的各种报告、项目运行记录等。

(二)数据库结构

从业务需求上,根据数据用途、数据类型和数据来源,可将本次的油气资源评价数据库分为三级:基础库、参数库、成果库(图4-12)。其结构如下:

图4-12 数据库结构示意图

1.基础库

基础库是油气资源评价工作的最基础的原始数据,有实测数据(物探数据、测井数据、钻井数据、开发数据等)、实验数据和经验数据等。

确定基础数据实际上是一项涉及油田勘探、开发等领域的多学科的复杂工作,是油气资源评价工作的研究过程和研究成果在数据库中的具体表现方式。在设计数据库的过程中,需要与参数研究专家经过多次反复,才能最终确定基础数据库,确保基础数据库能满足目前所有评价工作中计算的需要。

2.参数库

参数库用于存储油气资源评价工作所用到的参数数据,评价软件,直接从参数库中提取参数数据,用于计算。参数数据由基础数据汇总而来,也可以由专家根据经验直接得到。

本次评价中所涉及的参数大致可以分为以下几类:①直接应用的参数;②通过标准或类比借用的参数;③通过研究过程或复杂的预处理得到的参数。

3.成果库

成果库用于存储资源评价结果,包括各种计算结果、各种文档、电子表格、图片、图册等数据。

数据库的体系结构采用分布式多层数据库结构,包括三个组成部分:应用服务层、应用逻辑层和数据服务层。

数据库体系结构如图4-13所示。

图4-13 体系结构结构图

(1)应用服务层:应用服务层包含复杂的事务处理逻辑,应用服务层主要由中间件组件构成。中间件是位于上层应用和下层服务之间的一个软件层,提供更简单、可靠和增值服务。并且能够实现跨库检索的关键技术。它能够使应用软件相对独立于计算机硬件和操作系统平台,把分散的数据库系统有机地组合在一起,为应用软件系统的集成提供技术基础,中间件具有标准程序接口和协议,可以实现不同硬件和操作系统平台上的数据共享和应用互操作。而在具体实现上,中间件是一个用API定义的分布式软件管理框架,具有潜在的通信能力和良好的可扩展性能。中间件包含系统功能处理逻辑,位于应用服务器端。它的任务是接受用户的请求,以特定的方式向应用服务器提出数据处理申请,通过执行相应的扩展应用程序与应用服务层进行连接,当得到应用服务器返回的处理结果后提交给应用服务器,再由应用服务器传送回客户端。根据国内各大石油公司具体的需求开发相应的地质、油藏、生产等应用软件功能程序模块和各种算法模块。

(2)应用逻辑层:逻辑数据层是扩展数据服务层逻辑处理层,针对当前的底层数据库的数据结构,根据具体的需求,应用各种数据库技术,包括临时表、视图、存储过程、游标、复制和快照等技术手段从底层数据库中提取相关的数据,构建面向具体应用的逻辑数据库或者形成一个虚拟的数据库平台。逻辑数据层包含底层数据库的部分或全部数据处理逻辑,并处理来自应用服务层的数据请求和访问,将处理结果返回给逻辑数据层。

形成一个虚拟的数据库平台我们可以应用数据库系统中的多个技术来实现。如果系统中的一个节点中的场地或分片数据能够满足当前虚拟数据库,可以在应用服务层中使用大量的查询,生成一个以数据集结果为主的虚拟数据库平台,并且由数据集附带部分数据库的管理应用策略。或者对节点上的数据库进行复制方法进行虚拟数据库的建立。对与需要对多个节点上的数据库进行综合筛选,则要对各个节点上的数据库进行复制,合并各个复制形成一个应用逻辑层,从而建立一个虚拟数据平台。

(3)数据服务层:即数据库服务器层,其中包含系统的数据处理逻辑,位于不同的操作系统平台上,不同数据库平台(异构数据库),具体完成数据的存储、数据的完整性约束。也可以直接处理来自应用服务层的数据请求和访问,将处理结果返回给逻辑数据层或根据逻辑数据层通过提交的请求,返回数据信息和数据处理逻辑方法。

(三)数据建设标准

1.评价数据标准

系统数据库中的数据格式、大小、类型遵从国家及行业标准,参考的标准如表4-23。

表4-23 数据库设计参考标准

续表

系统中数据的格式及单位参考《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》、《油页岩资源评价实施方案》及数据字典。

2.图形图件标准

对于地质研究来说,地质类图件是比较重要的。各种地质评价图形遵循以下标准(表4-24)。

表4-24 系统图形遵循的相关标准

系统对图形的要求为必须为带有地理坐标意义的、满足上述标准体系要求的矢量图形,且采用统一的地理底图。图形格式采用:MapGIS图形交换格式、GeoInfo图形格式、ArcInfo图形交换格式、MapInfo图形交换格式和GeoMap图形交换格式。

图件的比例尺要求:

全国性图件:1∶400万或1:600万

大区图件:1:200万

盆地图件:1:40万或1:50万

评价单元图件:1:10万或1:20万

图件的内容要求符合《常规油气资源评价实施方案》、《煤层气资源评价实施方案》、《油砂资源评价实施方案》和《油页岩资源评价实施方案》的规定。

(四)数据内容

数据库中存储的数据包括常规油气相关数据、煤层气相关数据、油砂相关数据和油页岩相关数据;还有可采系数研究涉及的数据,包括研究所需基础数据和研究成果数据;以及趋势预测相关数据。

⑨ csmar数据库中的行业如何划分为十三个行业

“CSMAR财经数据库”是由深圳市国泰安信息技术有限公司开发。CSMAR系列研究数据库是国泰安公司根据国际数据库标准(CRSP和COMPUSTAT)开发的专门针对中国金融、经济领域的研究型精准数据库,包括股票市场、公司研究、基金市场、债券市场、衍生市场、经济研究、行业研究、海外研究和专题研究等11大系列,75个数据库。
是全面涵盖中国经济、金融主要领域的高精准研究型数据库,能满足不同研究者的需求,帮助研究者最快和最方便的构建研究模型。