1. 并行查询让sql Server加速运行
并行查询其优势就是可以通过多个线程来处理查询作业 从而提高查询的效率 SQL Server数据库为具有多个CPU的山帆或数据库服务器提供并行查询的功能 以优化查询作业的性能 也就是说 只要数据库服务器有多个CPU 则数据库系统就可以使用多个操作系统进程并行执行查询操作 来加速完成查询作业
一 并行查询三步走
并行查询作业在数据库中 主要经过三个步骤
首先 数据库会判断是否需要进行并行查询 在数据库中有一个查询优化器 会对SQL语句进行优化 然后数据库才会去执行查询语句 而这个查询器在对SQL语句进行查询优化时 其中一个动作就是判断是否需要对SQL语句进行查询优化 也就是说 并不是所有的SQL查询语句都可以从并行查询中获取收益 如果查询优化器认为查询语句可以从并行查询中获取收益的话 则就会将交换运算符插入到查询执行计划中 为并行查询做准备 故哪些语句需要采用并行查询 哪些不需要 这不用数据库管理员关心 数据库查询优化器会帮管理员作出这个决定 数据库管理员需要清楚的是 在哪些情况下 数据库SQL优化器会认为不宜采用并行查询 通常情况下 只要满足以下条件的任何一个 则就不会执行并行查询 一是对于特定的查询 查询优化器认为串行查询执行计划要快于任何可能的并行执行计划;二是查询的串行执行成本并不高 不需要进行并行查询;三是查询中包含无法并行运行的标量运算符或者关系运算符 若从数据库管理员的角度讲 第三个条件对我们具有最大的影响 当数据库预计未来可能利用并行查询来提高数据库性能时 则在数据库设计时 就需要注意避免使用那些无法在并行查询功能中使用的运算符 因为某些关系运算符或者逻辑运算符可能会要求查询计划一定要在串行模式中进行 或者部分需要在串行模式下进行 如此的话 查询优化器就不会利用并行查询功能来提高查询语句的性能 这是数据库管理员在数据库设计时必须要考虑到的一个细节问题
其次 确定并行的进程数 当查询优化器在查询语句中插入交叉运算符之后 数据库就会执行并行查询 并行查轿凳询在执行计划时可以使用多个线程 此时 就又遇到了一个问题 数据库会把这个查询作业分成几个进程操作呢?此时 数据库管理员就需要知道上什么叫做并行度 其实 在处理并行查询的时候 数据需要知道最大可使用的进程与实际使用的进程 而最大可使用的进程就叫做并行度 这个并行度的值是在服务器级别中进行设置 也可以通过系统存储过程来进行修改 但是 最大可使用进程数不一定等于实际是用进程数 实际是用进程数是数据库在查询计划执行时初始化的时候确定的 也就是说 这不用数据库管理员去额外的设定 数据库系统会自动根据计划的复杂程度来确定合理的进程数目 当然其实际采用的进程数不能够超过并行度 即最大可以使用的进程数
最后执行查询 当以上内容确定好之后 数据库就会执行具体的查询语句 在这一步中 需要注意一个问题 数据库管理员还可以在查询语句中指定MAXDOP查询提示来修改这个进度值 也就是说 如果某个查询作业数据库管理员认为可能会耗时比较久 就可以为这个查询作业设置比较大的进度值 当利用MAXDOP查询提示设置这个并行进度值之后 它会覆盖预先设置的默认值 从而实现针对单个查询语句设置额外的进度值 以提高某些特殊查询作业的性能
二 并行查询中需要注意的内容
注意点一逗伍 需要注意硬件方面的限制
并行查询是数据库提高查询性能的一个有力举措 不过其往往受到比较大的约束 如上面提高的一些基于成本考虑之外 还有一些硬性的限制 如通常情况下 只有在数据库服务器有多个微处理器(CPU )的情况下数据库才会考虑执行并行查询 也就是受 只有具有多个CPU的计算机才能够使用并行查询 这是一个硬性的限制条件 另外在查询计划执行过程中 数据库还会判断当时是否有足够多的线程可以使用 每个查询操作都要求一定的线程数才能够执行;而且执行并行计划比执行串行计划需要更多的线程 所需要的线程数也会随着并行度的提高而提高 如果在并行计划执行的时候 当时数据库服务器没有足够的线程让并行计划使用的话 数据库引擎就会自动减少并行度 甚至会放弃并行查询而改为串行计划 所以说 数据库是否能够执行并行查询 要受到其硬件的限制 为此 如果企业真的需要通过并行查询来提高数据库性能的话 则管理员就需要根据情况来调整硬件配置
注意点二 不建议对所有查询都使用并行查询
通常情况下 笔者认为最好只对大型表的连接查询 大量数据的聚合操作 大型结果集的重复排序等等操作才应用并行查询的功能 如果在这些操作上执行并行查询的话 那么其改善数据库性能的效果是非常明显的 相反 如果对于简单查询执行并行查询的话 可能执行并行查询所需要的额外协调工作会大于其潜在的性能提升 所以 数据库管理员在确定是否需要执行并行查询功能的话 需要慎重 笔者的建议是 在数据库服务器级别上 最好不要设置并行查询 即把并行度设置为 或者一个比较小的值 然后对于一些特殊的查询操作 利用MAXDOP查询提示来设置最大的可使用进程数 如此的话 可能会更加的合理 如果有时候数据库管理员不知道是否需要采用并行查询功能的话 则可以通过数据库自带的统计功能进行判断 为了区别并行查询计划到底有没有从并行查询中受益 数据库引擎可以将执行查询的估计开销与并行查询的开销阀值进行比较 并行计划只有对需时较长的查询通常更加有益;因为其性能优势将抵消初始化 同步和终止并行计划所需的额外时间开销
注意点三 数据库会根据查询所涉及到的行数来判断是否要并行查询
上面谈到 最好对大型表的连接查询 大量数据的聚合操作 大型结果集的重复排序等等操作才应用并行查询的功能 因为只有如此 并行查询带来的收益才会超过其付出的代价 但是 并不是说连接查询 聚合操作 排序等作业都适合采用并行查询 当数据库在考虑并行查询计划的时候 查询优化器还会去确定所涉及到的行数 如果所涉及到的行数台少 则将不会考虑执行并行查询计划 而会采用串行方式执行查询语句 如此的话 可以避免因为启动 分发 协调的开销大大超过并行执行作业所带来的收益 这本来是一个不错的设计 但是也会给数据库管理员带来一定的麻烦 如现在数据库管理员想要测试并行查询到底可以在多大程度上影响查询操作 就有点麻烦 因为其有数据量的限制 如果数据库管理员需要进行这个测试 还不得不先在数据库系统中导入足够多的数据才行 这就限制了数据库管理员的测试操作 不过话说回来 这个机制仍然是不错的 因为数据库管理员不用去考虑 当数据库规模到多大的时候采用并行查询
注意点四 同一个操作在不同时候会采用不同的进程数
lishixin/Article/program/SQLServer/201311/22469
2. 请问MySQL 并行了吗
为给那些只为获得答案的看众节省时间。提前下个结论,
mysql目前暂不具备并行运行某一查询的能力
。相信很多人有一个误解,似乎MySQL 5.4对某一查询带来的性能改进是非常巨大的。事实上,这需要针对具体应用来讲,如果追求某个具体查询的响应时间,5.4 将比5.1或之前的版本差。简单的来说,5.4提高的是并发量,而不是减少单条语句的执行时间。
初次看到这个话题的人要注意几个概念,并行和多线程不是同一个概念。“同时进行”的技术分很多类,有
查询间的并行,
查询内的并行和操作内的并行
。举个生活中的例子,
如果你与其他人合租房子的话,早上起来后,多个人可以同时刷牙,洗脸和做饭,大家各忙各的(虽然女房客可能会给厕所加上mutex而其他人只能在原地spin)。单单这套房子来说,它在较短的时间内解决了好几个人的早上洗漱问题。这就是查询间并发了。
早上诸多行动中,以刷牙、做饭、吃饭这三个动作为例,我们通常的做法是把微波炉转上,然后刷牙,刷牙结束后,早饭也弄好了(至少我是这么做的),这样我们达到了查询内的并行。
再细化下去,现在加一个动作:整理电行渣脑包,按照上一种方式我们可以按这样的顺序做事情:做饭刷牙 02 02 02—》 02 02 02吃饭 02 02 02 02 — -》02 整理电脑包
如果你有两只手的话,我们可以用一只手刷牙,另外一只手整理电脑包,这样进一步缩短你的运行时间,这样你就做到了操作内的并行。
总结起来:第一种情况整体吞吐量很大,但个人的准备时间可能更长了。第二种情况,个人的处理时间减少了。 第三种情况,个人的处理时间进一步减少。
有兴趣的人可以在
database system concepts
这本书中了解相关概念。查询间的并行对于数据库管理软件来说是再正常不过的功能,所以下面我们将直接跳过这类“同时进行”。从理论上讲,数据库的多个模块:IO、SQL解析和SQL执行等都可以达到并行执行的目的。
通过将关系划分到多个磁盘来减少从磁盘检索关系所需的时间,从而使得数据库IO可以并行执行。另外在一个查询中的多个联接操作和排序操作也可并行发生。对等值联接和自然联接, 可以将两个输入关系划分到多个处理器上, 各处理器在本地计算联接.
当然以上讨论的一切一切都基于CPU是多核的激带李。
但是目前我个人不支持mysql并行化,这也符合很大一部分mysql开发人员的意见。理由:
就mysql目前的应用来看,使用者更在意mysql数据库的吞吐量,而不是效应速度(当然了,响应速度也是很重要的)。mysql目前的简单架构replication可大幅提高数据库端的吞吐量。明迟
目前现存的其他开源技术亦能满足并行查询的需求如hadoop、map rece。
最后,我们还可以利用mysql proxy来达到并行的目的。查询在mysql proxy中被划分成多个部分,各个部分可在不同的mysql服务器上查询获得数据,再由mysql proxy合并返回给读者。
3. 什么是并行数据库
并行数据库系统(Parallel Database System)是新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。 并行数据库技术起源于20世纪70年代的数据库机(Database Machine)研究,,研究的内容主要集中在关系代数操作的并行化和实现关系操作的专用硬件设计上,希望通过硬件实现关系数据库操作的某些功能,该研究以失败而告终。80年代后期,并行数据库技术的研究方向逐步转到了通用并行机方面,研究的重点是并行数据库的物理组织、操作算法、优化和调度策络。从90年代至今,随着处理器、存储、网络等相关基础技术的发展,并行数据库技术的研究上升到一个新的水平,研究的重点也转移到数据操作的时间并行性和空间并行性上。 并行数据库系统的目标是高性能(High Performance)和高可用性(High Availability),通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。 性能指标关注的是并行数据库系统的处理能力,具体的表现可以统一总结为数据库系统处理事务的响应时间。并行数据库系统的高性能可以从两个方面理解,一个是速度提升(SpeedUp),一个是范围提升(ScaleUp)。速度提升是指,通过并行处理,可以使用更少的时间完成两样多的数据库事务。范围提升是指,通过并行处理,在相同的处理时间内,可以完成更多的数据库事务。并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。 可用性指标关注的是并行数据库系统的健壮性,也就是当并行处理节点中的一个节点或多个节点部分失效或完全失效时,整个系统对外持续响应的能力。高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其它的硬件设备可以接手其处理,对外提供持续服务。在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当前系统中某节点部分或完全失效时,由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。 为了实现和保证高性能和高可用性,可扩充性也成为并行数据库系统的一个重要指标。可扩充性是指,并行数据库系统通过增加处理节点或者硬件资源(处理器、内存等),使其可以平滑地或线性地扩展其整体处理能力的特性。 随着对并行计算技术研究的深入和SMP、MPP等处理机技术的发展,并行数据库的研究也进入了一个新的领域,集群已经成为了并行数据库系统中最受关注的热点。目前,并行数据库领域主要还有下列问题需要进一步地研究和解决。 (1)并行体系结构及其应用,这是并行数据库系统的基础问题。为了达到并行处理的目的,参与并行处理的各个处理节点之间是否要共享资源、共享哪些资源、需要多大程度的共享,这些就需要研究并行处理的体系结构及有关实现技术。 (2)并行数据库的物理设计,主要是在并行处理的环境下,数据分布的算法的研究、数据库设计工具与管理工具的研究。 (3)处理节点间通讯机制的研究。为了实现并行数据库的高性能,并行处理节点要最大程度地协同处理数据库事务,因此,节点间必不可少地存在通讯问题,如何支持大量节点之间消息和数据的高效通讯,也成为了并行数据库系统中一个重要的研究课题。 (4)并行操作算法,为提高并行处理的效率,需要在数据分布算法研究的基础上,深入研究联接、聚集、统计、排序等具体的数据操作在多节点上的并行操作算法。 (5)并行操作的优化和同步,为获得高性能,如何将一个数据库处理事务合理地分解成相对独立的并行操作步骤、如何将这些步骤以最优的方式在多个处理节点间进行分配、如何在多个处理节点的同一个步骤和不同步骤之间进行消息和数据的同步,这些问题都值得深入研究。 (6)并行数据库中数据的加载和再组织技术,为了保证高性能和高可用性,并行数据库系统中的处理节点可能需要进行扩充(或者调整),这就需要考虑如何对原有数据进行卸载、加载,以及如何合理地在各个节点是重新组织数据。
4. GBase 8t是否支持并行操作所需的技术可否简要说明
支持。
多CPU并行:GBase 8t动态服务器的核心技术是基于GBase 8t的动态可伸缩结构(DSA),该纯兆世技术使GBase8T成为强大的多线索数据库服务器,利用该技术使得数据库系统能猜虚充分发挥对称多处理器或单处理器结构服务器的能力,并在数据库可伸缩性、可管理性和性能等方面有很大突破。GBase 8t可以配置CPU VP的数量,系统需要有足够多的CPU VP来加速线索的执行从而保证系统中其它进程能占用足够的CPU时间,GBase 8t同时支持处理器绑定(processor affinity),处理器绑定是特定的进程只能在特定的CPU上执行。特定的CPU仍然能为其它进程服务,但特定的进程只能在该CPU上执行,如果平台支持,INFORMIX动态服务器可以将CPU VP(oninit)绑定到指定的处理器上。处理器从0开始连续编号。在某些SMP平台上,由一个CPU专门处理系统中断。如果配置的CPU VP数量小于物理处理器数量,则应避免将CPU VP绑定到处理中断的CPU上。
多服务器并行:GBase 8t支持高可用集群方案,GBase 8t的HDR、SDS、RSS等技术实现了数据的高可用灾备技术,而该技术的处理需要多服务器并行计算技术。
事务处理的完整性控制技术:为了保证事务的完整性,GBase 8t数据库通过逻辑日志 (logical log) 来记录所有的事务操作及其处理的数据。逻辑日志的作用之一在于对数据所发生的变化进行记录以满足可能的回滚需要。GBase 8t允许用户在一个事务中,从多个数据服务器查询或更新一个或者多个数据库。数据服务器可以在同一个主机上,或是在同一网络的不同主做肢机上。两阶段提交协议确保了从多个数据服务器提交或回滚事务的一致性。GBase 8t对异构分布式数据库的支持是通过X/OPEN、XA实现的。
支持并行查询/DML、备份/恢复、导入/导出、索引创建:GBase 8t的OLTP引擎通过DSA多线程和PDQ(Parallel database query)技术可实现并行数据库并行查询/DML/索引创建;DML利用GBase 8t不同级别的锁管理和隔离机制,有效保障了数据库的DML操作的并发性;备份/恢复利用GBase 8t的onbar备份恢复模块支持并行备份与恢复;导入/导出利用GBase 8t的HPL(High Performance Loader)工具可通过并发方式完成数据库的导入导出操作。
5. 如何打开数据库的并行
直接用hint即可。例如:
select /*+parallel(o2)*/* from t_objects o
其渗散笑中o为要开启并行的掘袭表的别名,2为并行度。
不过不一定会提升效率,一般查询中使用parallel的情景如下:
需要大量的 表丛含的扫描、连接或者分区索引扫描。
6. Oracle数据库并行查询出错的解决方法
Oracle的并行查询是使用多个操作系统级别的Server
Process来同时完成一个SQL查询,本文讲解Oracle数据库并行查询出错的解决方法如下:
1、错误描述
ORA-12801:
并行查询服务器P007中发出错误信号
ORA-01722:无效数字
12801.00000
-"error
signaled
in
parallel
query
server
%s"
*Cause:
A
parallel
query
server
reached
an
exception
condition.
*Action:
Check
the
following
error
message
for
the
cause,and
consult
your
error
manual
for
the
appropriate
action.
*Comment:
This
error
can
be
turned
off
with
event
10397,in
which
case
the
server's
actual
error
is
signaled
instead.
2、错误原因
在添加并行时,出现错误
3、解决办法
保证添加的并行和查询中的保持一致,并且保证查询参数跟数据库表中的数据类型一致