❶ 大数据的分布式数据库技术的对比
大数据技术的实现离不开很多其他的技术,我们提到最多的就是Hadoop技术,其实就目前而言,Hadoop技术看似是自成一套体系,其实并不是这样的,Hadoop和Spark以及分布式数据库其实也是存在差异的,我们就在这篇文章中给大家介绍一下这些内容。
首先我们说一说大数据分析,现在的大数据分析体系以Hadoop生态为主,而近年来逐渐火热的Spark技术也是主要的生态之一。可以这么说,Hadoop技术只能算是以HDFS+YARN作为基础的分布式文件系统,而不是数据库。我们提到的Hadoop的历史可以向前追溯10年,当年谷歌为了在几万台PC服务器上构建超大数据集合并提供极高性能的并发访问能力,从而发明了一种新的技术,而这个技术,也是Hadoop诞生的理论基础。如果我们从Hadoop的诞生背景可以看出,其主要解决的问题是超大规模集群下如何对非结构化数据进行批处理计算。实际上,在Hadoop架构中,一个分布式任务可以是类似传统结构化数据的关联、排序、聚集操作,也可以是针对非结构化数据的用户自定义程序逻辑。
那么Hadoop的发展道路是什么样的呢。最开始的Hadoop以Big、Hive和MapRece三种开发接口为代表,分别适用于脚本批处理、sql批处理以及用户自定义逻辑类型的应用。而Spark的发展更是如此,最开始的SparkRDD几乎完全没有SQL能力,还是套用了Hive发展出的Shark才能对SQL有了一部分的支持。但是,随着企业用户对Hadoop的使用越发广泛,SQL已经渐渐成为大数据平台在传统行业的主要访问方式之一。
下面我们就说一说分布式数据库,分布式数据库有着悠久的历史,从以Oracle RAC为代表的联机交易型分布式数据库,到IBM DB2 DPF统计分析性分布式数据库,分布式数据库覆盖了OLTP与OLAP几乎全部的数据应用场景。而大部分分布式数据库功能集中在结构化计算与在线增删改查上。但是,这些传统的分布式数据库以数仓及分析类OLAP系统为主,其局限性在于,其底层的关系型数据库存储结构在效率上并不能满足大量高并发的数据查询以及大数据数据加工和分析的效率要求。因此,分布式数据库在近几年也有着极大的转型,从单一的数据模型向多模的数据模型转移,将OLTP、联机高并发查询以及支持大数据加工和分析结合起来,不再单独以OLAP作为设计目标。同时,分布式数据库在访问模式上也出现了K/V、文档、宽表、图等分支,支持除了SQL查询语言之外的其他访问模式,大大丰富了传统分布式数据库单一的用途。一般来说,多模数据库的主要目的是为了满足具有高性能要求的操作型需求以及目标明确的数据仓库功能,而不是类似大数据深度学习等数据挖掘场景。这就是分布式数据库的实际情况。
我们在这篇文章中给大家介绍了大数据分析以及分布式数据库的相关知识,通过这些内容相信大家已经理解了其中的具体区别了吧,如果这篇文章能够帮助到大家这就是我们最大的心愿。
❷ 分布式数据库系统(DDBS)概述
一 什么是分布式数据库
分布式数据库系统是在集中式数据库系统的基础上发展来的 是数据库技术与网络技术结合的产物
分布式数据库系统有两种 一种是物理上分布的 但逻辑上却是集中的 这种分布式数据库只适宜用途比较单一的 不大的单位或部门 另一种分布式数据库系统在物理上和逻辑上都是分布的 也就是所谓联邦式分布数据库系统 由于组成联邦的各个子数据库系统是相对 自治 的 这种系统可以容纳多种不同用途的 差异较大的数据库 比较适宜于大范围内数据库的集成
分布式数据库系统(DDBS)包含分布式数据库管理系统(DDBMS)和分布式数据库(DDB)
在分布式数据库系统中 一个应用程序可以对数据库进行透明操作 数据库中的数据分别在不同的局部数据库中存储 由不同的DBMS进行管理 在不同的机器上运行 由不同的操作系统支持 被不同的通信网络连接在一起
一个分布式数据库在逻辑上是一个统一的整体 即在用户面前为单个逻辑数据库 在物理上则是分别存储在不同的物理节点上 一个应用程序通过网络的连接可以访问分布在不同地理位置的数据库 它的分布性表现在数据库中的数据不是存储在同一场地 更确切地讲 不存储在同一计算机的存储设备上 这就是与集中式数据库的区别 从用户的角度看 一个分布式数据库系统在逻辑上和集中式数据库系统一样 用户可以在任何一个场地执行全局应用 就好那些数据是存储在同一台计算机上 有单个数据库管理系统(DBMS)管理一样 用户并没有什么感觉不一样
分布式数据库中每一个数据库服务器合作地维护全局数据库的一致性
分布式数据库系统是一个客户/服务器体系结构
在系统中的每一台计算机称为结点 如果一结点具有管理数据库软件 该结点称为数据库服务器 如果一个结点为请求服务器的信息的一应用 该结点称为客户 在ORACLE客户 执行数据库应用 可存取数据信息和与用户交互 在服务器 执行ORACLE软件 处理对ORACLE数据库并发 共享数据存取 ORACLE允许上述两部分在同一台计算机上 但当客户部分和服务器部分是由网连接的不同计算机上时 更有效
分布处理是由多台处理机分担单个任务的处理 在ORACLE数据库系统中分布处理的例子如
客户和服务器是位于网络连接的不同计算机上
单台计算机上有多个处理器 不同处理器分别执行客户应用
参与分布式数据库的每一服务器是分别地独立地管理数据库 好像每一数据库不是网络化的数据库 每一个数据库独立地被管理 称为场地自治性 场地自治性有下列好处
◆系统的结点可反映公司的逻辑组织
◆由局部数据库管理员控制局部数据 这样每一个数据库管理员责任域要小一些 可更好管理
◆只要一个数据库和网络是可用 那么全局数据库可部分可用 不会因一个数据库的故障而停止全部操作或引起性能瓶颈
◆故障恢复通常在单个结点上进行
◆每个局部数据库存在一个数据字典
◆结点可独立地升级软件
可从分布式数据库的所有结点存取模式对象 因此正像非分布的局部的DBMS 必须提供一种机制 可在局部数据库中引用一个对象 分布式DBMS必须提供一种命名模式 以致分布式数据库中一个对象可在应用中唯一标识和引用 一般在层次结构的每一层实施唯一性 分布式DBMS简单地扩充层次命名模型 实施在网络上唯一数据库命名 因此一个对象的全局对象名保证在分布式数据库内是唯一
ORACLE允许在SQL语句中使用全局对象名引用分布式数据库中的模式对象(表 视图和过程) 在ORACLE中 一个模式对象的全局名由三部分组成 包含对象的模式名 对象名 数据库名 其形式如
SCOTT EMP@SALES DIVISION ACME
一个远程查询为一查询 是从一个或多个远程表中选择信息 这些表驻留在同一个远程结点
一个分布式查询可从两个或多个结点检索数据 一个分布式更新可修改两个或两个以上结点的数据
一个远程事务为一个事务 包含一人或多个远程语句 它所引用的全部是在同一个远程结点上 一个分布式事务中一个事务 包含一个或多个语句修改分布式数据库的两个或多个不同结点的数据
在分布式数据库中 事务控制必须在网络上直辖市 保证数据一致性 两阶段提交机制保证参与分布式事务的全部数据库服务器是全部提交或全部回滚事务中的语句
ORACLE分布式数据库系统结构可由ORACLE数据库管理员为终端用户和应用提供位置透明性 利用视图 同义词 过程可提供ORACLE分布式数据库系统中的位置透明性
ORACLE提供两种机制实现分布式数据库中表重复的透明性 表快照提供异步的表重复;触发器实现同步的表的重复 在两种情况下 都实现了对表重复的透明性
在单场地或分布式数据库中 所有事务都是用MIT或ROLLBACK语句中止
二 分布式数据库系统的分类
( ) 同构同质型DDBS 各个场地都采用同一类型的数据模型(譬如都是关系型) 并且是同一型号的DBMS
( )同构异质型DDBS 各个场地采用同一类型的数据模型 但是DBMS的型号不同 譬如DB ORACLE SYBASE SQL Server等
( )异构型DDBS 各个场地的数据模型的型号不同 甚至类型也不同 随着计算机网络技术的发展 异种机联网问题已经得到较好的解决 此时依靠异构型DDBS就能存取全网中各种异构局部库中的数据
三 分布式数据库系统主要特点
DDBS的基本特点
( )物理分布性 数据不是存储在一个场地上 而是存储在计算机网络的多个场地上
逻辑整体性 数据物理分布在各个场地 但逻辑上是一个整体 它们被所有用户(全局用户)共享 并由一个DDBMS统一管理
( )场地自治性 各场地上的数据由本地的DBMS管理 具有自治处理能力 完成本场地的应用(局部应用)
( )场地之间协作性 各场地虽然具有高度的自治性 但是又相互协作构成一个整体
DDBS的其他特点
( )数据独立性
( )集中与自治相结合的控制机制
( )适当增加数据冗余度
( )事务管理的分布性
四 分布式数据库系统的优点
( )更适合分布式的管理与控制
分布式数据库系统的结构更适合具有地理分布特性的组织或机构使用 允许分布在不同区域 不同级别的各个部门对其自身的数据实行局部控制 例如 实现全局数据在本地录入 查询 维护 这时由于计算机资源靠近用户 可以降低通信代价 提高响应速度 而涉及其他场地数据库中的数据只是少量的 从而可以大大减少网络上的信息传输量;同时 局部数据的安全性也可以做得更好
( )具有灵活的体系结构
集中式数据库系统强调的是集中式控制 物理数据库是存放在一个场地上的 由一个DBMS集中管理 多个用户只可以通过近程或远程终端在多用户操作系统支持下运行该DBMS来共享集中是数据库中的数据 而分布式数据库系统的场地局部DBMS的自治性 使得大部分的局部事务管理和控制都能就地解决 只有在涉及其他场地的数据时才需要通过网络作为全局事务来管理 分布式DBMS可以设计成具有不同程度的自治性 从具有充分的场地自治到几乎是完全集中式的控制
( )系统经济 可靠性高 可用性好
与一个大型计算机支持一个大型的集中式数据库在加一些进程和远程终端相比 由超级微型计算机或超级小型计算机支持的分布式数据库系统往往具有更高的性价比和实施灵活性 分布式系统比集中式系统具有更高的可靠性和更好的可用性 如由于数据分布在多个场地并有许多复制数据 在个别场地或个别通信链路发生故障时 不致于导致整个系统的崩溃 而且系统的局部故障不会引起全局失控
( )在一定条件下响应速度加快
如果存取的数据在本地数据库中 那么就可以由用户所在的计算机来执行 速度就快
( )可扩展性好 易于集成现有系统 也易于扩充
对于一个企业或组织 可以采用分布式数据库技术在以建立的若干数据库的基础上开发全局应用 对原有的局部数据库系统作某些改动 形成一个分布式系统 这比重建一个大型数据库系统要简单 既省时间 又省财力 物力 也可以通过增加场地数的办法 迅速扩充已有的分布式数据库系统
五 分布式数据库系统的劣势
( )通信开销较大 故障率高
例如 在网络通信传输速度不高时 系统的响应速度慢 与通信相关的因素往往导致系统故障 同时系统本身的复杂性也容易导致较高的故障率 当故障发生后系统恢复也比较复杂 可靠性有待提高
( )数据的存取结构复杂
一般来说 在分布时数据库中存取数据 比在集中时数据库中存取数据更复杂 开销更大
( )数据的安全性和保密性较难控制
在具有高度场地自治的分布时数据库中 不同场地的局部数据库管理员可以采用不同的安全措施 但是无法保证全局数据都是安全的 安全性问题式分布式系统固有的问题 因为分布式系统式通过通信网络来实现分布控制的 而通信网络本身却在保护数据的安全性和保密性方面存在弱点 数据很容易被窃取
分布式数据库的设计 场地划分及数据在不同场地的分配比较复杂 数据的划分及分配对系统的性能 响应速度及可用性等具有极大的影响 不同场地的通信速度与局部数据库系统的存取部件的存取速度相比 是非常慢的 通信系统有较高的延迟 在CPU上处理通信信息的代价很高 分布式数据库系统中要注意解决分布式数据库的设计 查询处理和优化 事务管理及并发控制和目录管理等问题
六 分布式数据库系统 数据分片
类型
水平分片
按一定的条件把全局关系的所有元组划分成若干不相交的子集 每个子集为关系的一个片段
垂直分片
把一个全局关系的属性集分成若干子集 并在这些子集上作投影运算 每个投影称为垂直分片
导出分片
又称为导出水平分片 即水平分片的条件不是本关系属性的条件 而是其他关系属性的条件
混合分片
以上三种方法的混合 可以先水平分片再垂直分片 或先垂直分片再水平分片 或其他形式 但他们的结果是不相同的
条件
( )完备性条件
必须把全局关系的所有数据映射到片段中 决不允许有属于全局关系的数据却不属于它的任何一个片段
( )可重构条件
必须保证能够由同一个全局关系的各个片段来重建该全局关系 对于水平分片可用并操作重构全局关系;对于垂直分片可用联接操作重构全局关系
( )不相交条件
要求一个全局关系被分割后所得的各个数据片段互不重叠(对垂直分片的主键除外)
七 分布式数据库系统 数据分配方式
( )集中式 所有数据片段都安排在同一个场地上
( )分割式
所有数据只有一份 它被分割成若干逻辑片段 每个逻辑片段被指派在一个特定的场地上
( )全复制式 数据在每个场地重复存储 也就是每个场地上都有一个完整的数据副本
( )混合式 这是一种介乎于分割式和全复制式之间的分配方式
八 分布式数据库系统 体系结构
数据分片和数据分配概念的分离 形成了 数据分布独立型 概念
数据冗余的显式控制 数据在各个场地的分配情况在分配模式中一目了然 便于系统管理
局部DBMS的独立性 这个特征也称为 局部映射透明性 此特征允许我们在不考虑局部DBMS专用数据模型的情况下 研究DDB管理的有关问题
九 分布式数据库管理系统
接受用户请求 并判定把它送到哪里 或必须访问哪些计算机才能满足该要求
访问网络数据字典 了解如何请求和使用其中的信息
如果目标数据存储于系统的多个计算机上 就必须进行分布式处理
通信接口功能 在用户 局部DBMS和其他计算机的DBMS之间进行协调
在一个异构型分布式处理环境中 还需提供数据和进程移植的支持 这里的异构型是指各个场地的硬件 软件之间存在着差别
分布式数据库管理系统
lishixin/Article/program/Oracle/201311/16998
❸ 分布式数据库的简介
分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成一个逻辑上统一的数据库。分布式数据库的基本思想是将原来集中式数据库中的数据分散存储到多个通过网络连接的数据存储节点上,以获取更大的存储容量和更高的并发访问量。近年来,随着数据量的高速增长,分布式数据库技术也得到了快速的发展,传统的关系型数据库开始从集中式模型向分布式架构发展,基于关系型的分布式数据库在保留了传统数据库的数据模型和基本特征下,从集中式存储走向分布式存储,从集中式计算走向分布式计算。
另一方面,随着数据量越来越大,关系型数据库开始暴露出一些难以克服的缺点,以NoSQL 为代表的非关系型数据库,其高可扩展性、高并发性等优势出现了快速发展,一时间市场上出现了大量的key-value 存储系统、文档型数据库等NoSQL 数据库产品。NoSQL 类型数据库正日渐成为大数据时代下分布式数据库领域的主力。
这种组织数据库的方法克服了物理中心数据库组织的弱点。 首先,降低了数据传送代价,因为大多数的对数据库的访问操作都是针对局部数据库的,而不是对其他位置的数据库访问; 其次,系统的可靠性提高了很多,因为当网络出现故障时,仍然允许对局部数据库的操作,而且一个位置的故障不影响其他位置的处理工作,只有当访问出现故障位置的数据时,在某种程度上才受影响; 第三,便于系统的扩充,增加一个新的局部数据库,或在某个位置扩充一台适当的小型计算机,都很容易实现。然而有些功能要付出更高的代价。例如,为了调配在几个位置上的活动,事务管理的性能比在中心数据库时花费更高,而且甚至抵消许多其他的优点。 分布式软件系统(Distributed Software Systems)是支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。
分布式操作系统负责管理分布式处理系统资源和控制分布式程序运行。它和集中式操作系统的区别在于资源管理、进程通信和系统结构等方面。 分布式程序设计语言用于编写运行于分布式计算机系统上的分布式程序。一个分布式程序由若干个可以独立执行的程序模块组成,它们分布于一个分布式处理系统的多台计算机上被同时执行。它与集中式的程序设计语言相比有三个特点:分布性、通信性和稳健性。 分布式文件系统具有执行远程文件存取的能力,并以透明方式对分布在网络上的文件进行管理和存取。 分布式数据库系统由分布于多个计算机结点上的若干个数据库系统组成,它提供有效的存取手段来操纵这些结点上的子数据库。分布式数据库在使用上可视为一个完整的数据库,而实际上它是分布在地理分散的各个结点上。当然,分布在各个结点上的子数据库在逻辑上是相关的。
Hadoop的分布式文件系统HDFS,作为开源的分布式平台,为目前流行的很多分布式数据库提供了支持,譬如HBase等。Yonghong的分布式文件系统ZFS,为分布式数据集市Z-DataMart提供了底层平台。
❹ 分布式数据库的分布式数据库相对传统集中式数据库的优点
大数据时代,面对日益增长的海量数据,传统的集中式数据库的弊端日益显现,分布式数据库相对传统的集中式数据库有如下优点。
● 更高的数据访问速度:分布式数据库为了保证数据的高可靠性,往往采用备份的策略实现容错,所以,在读取数据的时候,客户端可以并发地从多个
备份服务器同时读取,从而提高了数据访问速度。
● 更强的可扩展性:分布式数据库可以通过增添存储节点来实现存储容量的线性扩展,而集中式数据库的可扩展性十分有限。
● 更高的并发访问量:分布式数据库由于采用多台主机组成存储集群,所以相对集中式数据库,它可以提供更高的用户并发访问量。
❺ 分布式数据库的特征
分布式数据库的特征:
1、独立透明性
数据独立性是数据库方法追求的主要目标之一,分布透明性指用户不必关心数据的逻辑分区,不必关心数据物理位置分布的细节,也不必关心重复副本(冗余数据)的一致性问题,同时也不必关心局部场地上数据库支持哪种数据模型。
分布透明性的优点是很明显的。有了分布透明性,用户的应用程序书写起来就如同数据没有分布一样。当数据从一个场地移到另一个场地时不必改写应用程序。
当增加某些数据的重复副本时也不必改写应用程序。数据分布的信息由系统存储在数据字典中。用户对非本地数据的访问请求由系统根据数据字典予以解释、转换、传送。
2、复制透明性
用户不用关心数据库在网络中各个节点的复制情况,被复制的数据的更新都由系统自动完成。在分布式数据库系统中,可以把一个场地的数据复制到其他场地存放,应用程序可以使用复制到本地的数据在本地完成分布式操作,避免通过网络传输数据,提高了系统的运行和查询效率。
但是对于复制数据的更新操作,就要涉及到对所有复制数据的更新。
3、易于扩展性
在大多数网络环境中,单个数据库服务器最终会不满足使用。如果服务器软件支持透明的水平扩展,那么就可以增加多个服务器来进一步分布数据和分担处理任务。
主要优点:
(1)具有灵活的体系结构。
(2)适应分布式的管理和控制机构。
(3)经济性能优越。
(4)系统的可靠性高、可用性好。
(5)局部应用的响应速度快。
(6)可扩展性好,易于集成现有系统。
❻ php mysql分布式数据库如何实现
当前做分布式的厂商有几家,我知道比较出名的有“华为云分布式数据库DDM”和“阿里云分布式数据库”,感兴趣可以自行搜素了解下。
分布式数据库的几点概念可以了解一下。
数据分库:
以表为单位,把原有数据库切分成多个数据库。切分后不同的表存储在不同的数据库上。
以表中的数据行记录为单位,把原有逻辑数据库切分成多个物理数据库分片,表数据记录分布存储在各个分片上。
路由分发:
在分布式数据库中,路由的作用即将SQL语句进行解析,并转发到正确的分片上,保证SQL执行后得到正确的结果,并且节约QPS资源。
读写分离:
数据库中对计算和缓存资源消耗较多的往往是密集或复杂的SQL查询。当系统资源被查询语句消耗,反过来会影响数据写入操作,进而导致数据库整体性能下降,响应缓慢。因此,当数据库CPU和内存资源占用居高不下,且读写比例较高时,可以为数据库添加只读数据库。
❼ 什么是分布式数据库
分布式计算机系统所支撑的分布式数据库是数据库技术与计算机网络技术相结合的产物。与常见的集中式数据库相比,虽然分布式数据库的数据分散存储在网络上的各点,但它可以为网上所有的用户所共享,任何地方的合法用户都可以十分方便地获取和处理所需的数据,就像数据在他们本地的计算机上一样。
❽ 华为突破分布式数据库和存储技术,打通数字化转型“雄关漫道”
2019年,我们将进入数字化转型的攻关期。所谓“攻关期”即数字化转型2.0阶段,需要攻坚企业关键业务上云和数字化转型改造的课题。在一份市场调查公司IDC的报告中指出:IDC自2014年提出数字化转型以来,看到企业在数字化转型层面已经投入了大量人力物力,但是效果并不理想,有一些企业已经成功屹立在潮头,有一些企业在向上游进发,还有一些企业只能在浪潮的挟裹中被动前行。
对于企业来说,数字化转型是“雄关漫道”。IDC认为,目前阶段来看,企业亟待解决的是数字化能力提升,包括:与业务的深入结合能力;数据处理和挖掘能力;以及IT技术运营和管理能力。特别是数据处理和挖掘能力,因为数字化转型推进企业从以流程为核心向以数据为核心转型,对海量、异构、多类型的数据处理和挖掘能力是释放数据价值的前提,对数据全生命周期的管控治理是释放数据价值的保障。而随着数字化转型引入大量新技术而导致IT复杂度变高,企业IT技术运营和管理能力是提升企业“IT生产力”的关键。
攻关数字化转型的“雄关漫道”,需要一个具备融合、智能、可传承三大特性的数字平台。这是2019年3月华为与IDC联合推出的《拥抱变化,智胜未来—数字平台破局企业数字化转型》白皮书所提出的观点。融合主要指把传统技术和创新技术相结合;智能主要指平台智能化和智能化能力输出;可传承主要指解耦、功能复用、可配置等理念打造的架构。而承载这三大观点的,就是新一代分布式企业级技术。
2019年5月15日,华为发布了业界首款支持ARM架构的新一代智能分布式数据库GaussDB以及分布式存储FusionStorage 8.0,作为新一代数据基础设施,诠释了具备融合、智能、可传承三大特性的数字平台。华为常务董事、ICT战略与Marketing总裁汪涛在发布会上表示,千行百业正在加速智能化进程,越来越多的企业已经意识到数据基础设施是智能化成功的关键。华为围绕计算、存储和数据处理三个领域重定义数据基础设施,加速迈向智能时代。
今天所讨论云和工业互联网等概念的背后是一个新时代的到来,这就是体系架构大迁徙。传统企业级技术是在单体应用和单机环境中,保证数据存储、调用等操作的高可靠、高可用、高稳定,特别是满足金融级事物处理的ACID(原子性、一致性、隔离性和耐久性)要求,为企业关键业务提供数据管理支撑。随着企业技术向云架构迁移,数据库技术也面临转型。
2018年,基于云计算技术的分布式数据库成为了业界的热点。简单理解,云计算技术就是把“单机”环境替换为由X86服务器机群所组成的分布式计算环境。原先由几台小型机完成的计算任务,要分散到上百甚至上千台X86服务器上,而且还可能跨数据中心操作,挑战可想而之。特别是在线支付等金融级业务,不能在断网或网络连接有问题时出错,也不能因响应速度慢而影响用户体验。
2018年8月,中国支付清算协会与中国信息通信研究院联合举办了“金融分布式事务数据库研讨会”,与业界厂商和用户共商核心数据库分布式转型之路,同时发布了《金融分布式事务数据库》白皮书。金融分布式事务数据库的工作推进,为分布式数据库进入企业关键业务系统,提供了产业化支撑。而华为作为企业ICT解决方案供应商,早在2012年就开始研发面向大数据分析的数据仓库,在基于传统关系型数据库SQL引擎和事务强一致性等基础上,进行了分布式、并行计算的改造,历时6年打造了面向PB级海量数据分析的分布式数据库。
在OLAP数据仓库之外,华为与行业用户合作了面向OLTP的分布式事务型数据库研发。2017年,华为与招商银行合作成立了分布式数据库联合创新实验室,研发具有高性能企业级内核、完整支持分布式事物、满足金融行业对数据强一致要求、单机事物处理能力要达到每分钟百万级别等的OLTP分布式数据库。
本次发布的GaussDB数据库新品包括:联机事务处理OLTP数据库、联机分析处理OLAP数据库、事务和分析混合处理HTAP数据库。而华为GaussDB数据库将AI技术融入数据库设计、开发、验证、调优、运维等环节,可实现基于AI的自调优、自诊断自愈、自运维,让数据库更高效、更智能,引领数据库架构的发展。
更进一步,本次发布的GaussDB系列数据库是业界首款支持ARM芯片的分布式数据库。华为推动计算架构从以X86+GPU为主的单一计算架构到以X86+GPU+ARM64+NPU为主的异构计算架构快速发展。基于X86架构,华为引入AI管理和智能加速能力,率先推出了智能服务器FusionServer Pro;基于ARM64打造了业界性能最强的TaiShan服务器;基于Ascend芯片的Atlas智能计算,实现了业界首个端边云协同的人工智能平台。而GaussDB可充分利用并融合ARM、X86、GPU、NPU等多种异构算力组合,大幅提升数据库性能。
汪涛强调,作为全球首款AI-Native数据库,GaussDB有两大革命性突破:第一,首次将人工智能技术引入数据库的全生命周期流程,实现自运维、自管理、自调优和故障自诊断。在交易、分析和混合负载场景下,基于最优化理论,首创深度强化学习自调优算法,把业界平均性能提升60%。第二,支持异构计算,充分发挥X86/ARM/GPU/NPU多样性算力优势,最大化数据库性能,在权威标准测试集TPC-DS上,华为GaussDB排名第一。GaussDB还支持本地部署、私有云、公有云等多种场景。
在以云计算为代表的分布式计算环境中,数据管理解决方案除了需要分布式数据库外,为了更好的扩缩容以及满足多样化数据存储需求,计算与存储分离已经成为分布式数据库设计的主要架构。分布式云化架构,就是要支持计算、存储分离和多租户等架构设计要求。
GaussDB已经从数据库层面实现了高可用、高可靠、高稳定的分布式数据库,本次发布的FusionStorage 8.0则是分布式存储架构,创新地实现一套系统同时支持块、文件、对象、HDFS协议,1套存储支持4类存储能力,适用于全业务场景混合负载,最终让“一个数据中心一套存储”成为可能。
IDC发布的《中国软件定义存储(SDS)及超融合存储(HCI)系统市场季度跟踪报告,2018年第四季度》显示,2018年,软件定义存储市场达到了54.9%的同比增长。软件定义存储在中国整体存储市场的占有率稳步上升,分别达到了22.1%的市场占有率。华为凭借文件解决方案在政府、广电和电信等行业得到认可,在2018年中国软件定义存储市场排名第一。
FusionStorage 8.0采用华为ARM-based处理器鲲鹏920加速,使IOPS提升 20%,结合华为AI Fabric无损网络,时延进一步降低15%。基于华为在计算、网络和存储领域多年的芯片和算法积累,FusionStorage 8.0在SPC-1的性能测试中,单节点性能达到了16.8万IOPS以及1ms以内时延,成为承载企业关键应用的新选择。
此外,通过华为云的云上训练及本地AI芯片,FusionStorage 8.0将智能管理贯穿业务使用的全生命周期,如业务上线前对存储资源的规划,使用过程中的风险预判及故障定位,大幅提升存储效率,帮助行业客户应对智能时代的数据新挑战。
汪涛在发布会上强调,新一代智能分布式存储FusionStorage 8.0通过重定义存储架构,从“Storage for AI”和“AI in Storage”两个维度实现效率大幅提升,引领存储智能化。首先,“Storage for AI”通过融合共享,让AI分析更高效。其次,“AI in Storage”率先将AI融入存储全生命周期管理,从资源规划、业务发放、系统调优、风险预测、故障定位等方面实现智能运维。
辽宁移动就采用了华为FusionStorage。作为辽宁省内最大的移动通信运营商,辽宁移动一直在 探索 先进的存储方案在自身IT系统的应用。由于5G的快速发展,辽宁移动关键数据库的应用也向云化方向发展,分布式存储也要满足其可靠性和高性能要求。华为在深入分析辽宁移动需求后,首先在边缘开发测试业务小规模试点分布式存储,进行了大量的实验和测试后性能和可靠性都达到了预期,最终决定将全部业务迁移至FusionStorage。该方案通过采用双活、可写快照、端到端DIF等特性,顺利完成Billing、经营分析、B2B等系统从老旧存储至FusionStorage的搬迁工作,助力辽宁移动的存储架构迈入新的 历史 阶段。
值得一提的是,华为分布式数据库与华为分布式存储深度结合,把数据库的操作下沉到存储节点,极大提升了分布式数据库的性能。利用新的网络技术和人工智能技术,华为帮助用户提升数据中心的吞吐量,提升网络应用的可伸缩性,并且能自动调优。
除了推出新一代突破性的分布式数据库和存储技术外,华为也积极与客户、伙伴在数据库与存储领域,从行业应用、平台工具、标准组织和社区等多个层面共建开放、合作、共赢的产业生态。在行业应用层面,华为与软通智慧、神州信息、东华软件、易华录、用友政务、亚信国际等独立软件开发商长期合作;在平台和工具层面,华为与Tableau、帆软、ARM、Veritas等合作伙伴联合创新;在标准组织和社区层面,华为深度参与OpenSDS、中国人工智能产业联盟、OCP、OpenStack、CNCF基金会等组织和社区的建设。
总结来说,华为全线分布式数据库和分布式存储产品的发布,是华为具备融合、智能、可传承三大特性数字平台的最新成果。华为分布式数据库与分布式存储结合,能消除企业各业务系统数据孤岛,构建面向行业场景的数据建模、分析和价值挖掘能力,对多源异构的数据进行汇聚、整合和分析,形成统一的全量数据和数据底座,实现数据价值挖掘和共享。而基于AI的智能化,可对基础设施进行高效的管理,为行业应用开发和迭代赋能,全面帮助企业突破关键应用上云的“雄关漫道”。(文/宁川)