‘壹’ 海量数据库解决方案的作者简介
作者:(韩国)李华植 译者:郑保卫 盖国强
李华植
代表韩国的数据库技术先驱
集基于EA(Enterprise Architecture)的数据架构(Data Architecture)
方法论之大成
在韩国最早提出了数据专家顾问的概念
现任EN-CORE CONSULTING总经理及代表顾问
曾在韩国Oracle公司担任200多家企业的技术顾问
论文:《构建海量数据系统时的RDB Performance问题解决方案》
书籍:《Data Modeling&Database Design》(1995)
《Oracle Server Tuning}(1995)
《海量数据库解决方案》(1996)
《海量数据库解决方案Ⅱ》(1998)
《数据架构解决方案I》(2003)
译者简介:
郑保卫,于韩国国立釜庆大学信息工学系获得工学博士,现任职于韩国最权威的数据库公司EN-CORE CONSULTING,并兼任企业研究所研究员及数据库电子商务研究所主要研究员。研究方向包括数据模型设计、海量数据库解决方案、数据架构、基于数据库技术的专家智能系统、ITA/EA(Infomation Technology Architecture/Enterprise Architecture)。
盖国强(网名Eygle),Oracle ACE总监,恩墨科技创始人,ITPUB论坛超级版主,远程DBA服务的倡导者和实践者,致力于以技术服务客户。着有《深入解析Orade》、《循序渐进Oracle》、《深入浅出Oracle》等书:从2010年开始,致力于《OracleDBA手记》的撰写与编辑工作,并与张乐奕共同创立了ACOUG用户组,在国内推进公益自由的Oracle技术交流活动。张乐奕(网名Kamus),恩墨科技技术总监,Oracle ACE,ITPUB数据库管理版版主。他曾先后于北京某大型软件公司、外资电信企业、咨询公司任首席DBA。后任职于北京甲骨文软件系统有限公司,高级顾问。他热切关注Oracle数据库及其他相关技术,对于Oracle数据库RAC及高可用解决方案具有丰富的实践经验,长于数据库故障诊断、数据库性能调优。他还是各类技术会议的热心分享者,2010年3月创建ACOUG用户组。
崔华(网名Dbsnake),2004年开始从事DBA工作,在Oracle的安装、升级、开发、性能调整、故障处理方面有丰富的经验,对Oracle的体系结构具有深入了解:深入理解Oracle的内存结构、物理存储(各种块格式)、锁机制、优化机制等:深入了解Oracle的备份恢复机制,熟悉Oracle的各种备份方法,能够处理各种情况下的复杂数据恢复情况。
崔华也是热心的技术分享者,多次在ACOUG的活动上与技术爱好者分享技术心得。
‘贰’ oracle上亿表海量数据进行大批量数据删除有什么好的解决方案
以下纯属个人意见,请根据实际情况判断
(1)省下的数据量如果不大,那么可以考虑建立一张临时表,将需要保留的数据临时灌过去,然后truncate该表,然后再把数据灌回来。也可以考虑drop表,然后另外一张表改名,不过这样可能会有很多的后续操作,比如索引的建立等等,因此一般不用drop操作。
(2)上亿的数据,应该有分区吧,如果可能的话,按照分区truncate,这样也可以。
(3)实在不能truncate,只能delete那么建议找个字段循环删除提交,每次不能太多,最好保持在5万以下(根据实际情况具体判断),毕竟delete是最消耗资源的dml语句。
(4)如果可能的话,不要同一时间操作,分批操作,这样能减少一部分数据库负载压力(特别是undo)。
(5)一定要闲时操作,因为delete消耗资源比较多,会使数据库变慢。
‘叁’ 大数据解决方案有哪几种类型
一、Hadoop。Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是 Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。
二、HPCC。HPCC,High Performance Computing and Communications(高性能计算与通信)的缩写。HPCC主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆 比特网络技术,扩展研究和教育机构及网络连接能力。
三、Storm。Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。
四、Apache Drill。为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
五、RapidMiner。RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
‘肆’ 数据存储,海量数据存储解决方案
目前市场上主流的海量数据存储解决方案当然是云存储解决方案啦! 南京云创存储科技有限公司的cStor云存储系统可以帮你解决海量存储的问题! 你可以到云创存储的官网上了解一下产品的详细信息! 希望我的回答会对你有所帮助咯!
‘伍’ 大量数据用什么数据库
http://www.yesky.com/323/93823.shtml
http://hi..com/supersi_pumc/blog/item/6232a17ba79a26f10bd18724.html
比较SQL Server与Oracle、DB2
出处:不祥
关键词:Sql Server, Oracle, 其他
1.选择一个好的数据库是非常重要的。
2.如何选择一个好的数据库
开放性:
SQL Server
只能在windows 上运行,没有丝毫的开放性,操作系统的系统的稳定对数据库是十分重要的。Windows9X系列产品是偏重于桌面应用,NT server只适合中小型企业。而且windows平台的可靠性,安全性和伸缩性是非常有限的。它不象unix那样久经考验,尤其是在处理大数据量的关键业务时.
Oracle
能在所有主流平台上运行(包括 windows)。完全支持所有的工业标准。采用完全开放策略。可以使客户选择最适合的解决方案。对开发商全力支持。
DB2
能在所有主流平台上运行(包括windows)。最适于海量数据。DB2在企业级的应用最为广泛,在全球的500家最大的企业中,几乎85%以上用DB2数据库服务器,而国内到97年约占5%.
可伸缩性,并行性
SQL server
DB2
并行实施和共存模型并不成熟。很难处理日益增多的用户数和数据卷。伸缩性有限。
Oracle
平行服务器通过使一组结点共享同一簇中的工作来扩展windownt的能力,提供高可用性和高伸缩性的簇的解决方案。
如果windowsNT不能满足需要, 用户可以把数据库移到UNIX中。
DB2
DB2具有很好的并行性。DB2把数据库管理扩充到了并行的、多节点的环境.
数据库分区是数据库的一部分,包含自己的数据、索引、配置文件、和事务日
志。数据库分区有时被称为节点或数据库节点
安全性
SQL server
没有获得任何安全证书。
Oracle Server
获得最高认证级别的ISO标准认证。
DB2
获得最高认证级别的ISO标准认证。
性能
SQL Server
多用户时性能不佳
Oracle
性能最高, 保持windowsNT下的TPC-D和TPC-C的世界记录。
DB2
适用于数据仓库和在线事物处理性能较高。
客户端支持及应用模式
SQL Server
C/S结构,只支持windows客户,可以用ADO,DAO,OLEDB,ODBC连接.
Oracle
多层次网络计算,支持多种工业标准,可以用ODBC,JDBC,OCI等网络客户连接
DB2
跨平台,多层结构,支持ODBC,JDBC等客户
操作简便
SQL Server
操作简单,但只有图形界面.
Oracle
较复杂, 同时提供GUI和命令行,在windowsNT和unix下操作相同
DB2
操作简单,同时提供GUI和命令行,在windowsNT和unix下操作相同
使用风险
SQL server
完全重写的代码,经历了长期的测试,不断延迟,许多功能需要时间来证明。并不十分兼容早期产品。使用需要冒一定风险。
Oracle
长时间的开发经验,完全向下兼容。得到广泛的应用。完全没有风险。
DB2
在巨型企业得到广泛的应用,向下兼容性好。风险小。
‘陆’ 有冷数据存储海量数据存储解决方案吗
目前市场上主流的海量数据存储解决方案当然是云存储解决方案啦!我知道一家公司瑞驰信息技术很专业,你可以咨询下看有没有适合你的方案
‘柒’ 国内做大数据解决方案的公司有哪些
随着“大数据时代”的来临,企业越来越重视数据的作用,数据给企业带来的价值也越来越多。本文档将介绍大数据给企业带来的机遇与挑战以及企业的大数据解决方案。
第一步先搞清楚什么是大数据?他不是简单的大量数据或海量数据,而是有着4V特征的数据金矿。他给我们的企业会带来机遇与挑战。
第二步我们根据大数据的特征,分析企业大数据平台要迎接大数据的挑战,应该具备什么样的能力。
第三部分,基于大数据平台要求,我们提出一个企业大数据的技术解决方案,介绍解决方案是如何解决大数据难题。
最后我看一看大数据应用当前存在的问题,未来将会怎样发展。
什么是大数据?
结束语
随着高性能计算机、海量数据的存储和管理的流程的不断优化,技术能够解决的问题终将不会成为问题。真正会制约或者成为大数据发展和应用瓶颈的有三个环节:
第一、数据收集和提取的合法性,数据隐私的保护和数据隐私应用之间的权衡。
任何企业或机构从人群中提取私人数据,用户都有知情权,将用户的隐私数据用于商业行为时,都需要得到用户的认可。然而,目前,中国乃至全世界对于用户隐私应当如何保护、商业规则应当如何制定、触犯用户的隐私权应当如何惩治、法律规范应当如何制定等等一系列管理问题都**滞后于大数据的发展速度。未来很多大数据业务在最初发展阶段将会游走在灰色地带,当商业运作初具规模并开始对大批消费者和公司都产生影响之后,相关的法律法规以及市场规范才会被迫加速制定出来。可以预计的是,尽管大数据技术层面的应用可以无限广阔,但是由于受到数据采集的限制,能够用于商业应用、服务于人们的数据要远远小于理论上大数据能够采集和处理的数据。数据源头的采集受限将**限制大数据的商业应用。
第二、大数据发挥协同效应需要产业链各个环节的企业达成竞争与合作的平衡。
大数据对基于其生态圈中的企业提出了更多的合作要求。如果没有对整体产业链的宏观把握,单个企业仅仅基于自己掌握的独立数据,无法了解产业链各个环节数据之间的关系,对消费者做出的判断和影响也十分有限。在一些信息不对称比较明显的行业,例如银行业以及保险业,企业之间数据共享的需求更为迫切。例如,银行业和保险业通常都需要建立一个行业共享的数据库,让其成员能够了解到单个用户的信用记录,消除担保方和消费者之间的信息不对称,让交易进行的更为顺利。然而,在很多情况下,这些需要共享信息的企业之间竞争和合作的关系同时存在,企业在共享数据之前,需要权衡利弊、避免在共享数据的同时丧失了其竞争优势。此外,当很多商家合作起来,很容易形成卖家同盟而导致消费者利益受到损失,影响到竞争的公平性。大数据最具有想象力的发展方向是将不同的行业的数据整合起来,提供全方位立体的数据绘图,力图从系统的角度了解并重塑用户需求。然而,交叉行业数据共享需要平衡太多企业的利益关系,如果没有中立的第三方机构出面,协调所有参与企业之间的关系、制定数据共性及应用的规则,将**限制大数据的用武之地。权威第三方中立机构的缺乏将制约大数据发挥出其最大的潜力。
第三、大数据结论的解读和应用。
大数据可以从数据分析的层面上揭示各个变量之间可能的关联,但是数据层面上的关联如何具象到行业实践中?如何制定可执行方案应用大数据的结论?这些问题要求执行者不但能够解读大数据,同时还需深谙行业发展各个要素之间的关联。这一环节基于大数据技术的发展但又涉及到管理和执行等各方面因素。在这一环节中,人的因素成为制胜关键。从技术角度,执行人需要理解大数据技术,能够解读大数据分析的结论;从行业角度,执行人要非常了解行业各个生产环节的流程的关系、各要素之间的可能关联,并且将大数据得到的结论和行业的具体执行环节一一对应起来;从管理的角度,执行人需要制定出可执行的解决问题的方案,并且确保这一方案和管理流程没有冲突,在解决问题的同时,没有制造出新的问题。这些需求,不但要求执行人深谙技术,同时应当是一个卓越的管理者,有系统论的思维,能够从复杂系统的角度关联地看待大数据与行业的关系。此类人才的稀缺性将制约大数据的发展。
‘捌’ 大数据解决方案选择哪一家
很多企业都开始数据治理,并探索不同工具和方法来实现。然而,企业往往又会被不同的解决方案所困惑。
那么,企业应该如何选择大数据解决方案呢?主要考虑以下6个重要方面:
1、分析蓝图
无论是从哪一类具体的分析需求开始,对于分析的构建,都需要设想整个蓝图。
在构建企业分析时,有三个维度是很重要的:业务链、产业链、面向对象,不同的人员在不同的业态下除了配置报表外,在数据分析阶段还可以设置主题分析的内容,自上而下的目标监控,自下而上的原因反馈。
为了更好地提升企业级能力,在商业分析到一定阶段后,要做全价值链分析,同时,针对多业态的产业链,要做统一的价值体系。
‘玖’ 大数据解决方案都有哪些
在信息时代的我们,总会听到一些新鲜词,比如大数据,物联网,人工智能等等。而现在,物联网、大数据、人工智能已经走进了我们的生活,对于很多人看到的大数据的前景从而走进了这一行业,对于大数据的分析和解决是很多人不太了解的,那么大数据的解决方案都有哪些呢?一般来说,大数据的解决方案就有Apache Drill、Pentaho BI、Hadoop、RapidMiner、Storm、HPCC等等。下面就给大家逐个讲解一下这些解决方案的情况。
第一要说的就是Apache Drill。这个方案的产生就是为了帮助企业用户寻找更有效、加快Hadoop数据查询的方法。这个项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在Android Market上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。
第二要说的就是Pentaho BI。Pentaho BI 平台和传统的BI 产品不同,它是一个以数据流程为中心的,面向解决方案的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,这样一来就方便了商务智能应用的开发。Pentaho BI的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项复杂的、完整的商务智能解决方案。
然后要说的就是Hadoop。Hadoop 是一个能够对海量数据进行分布式处理的软件框架。不过Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。另外,Hadoop 依赖于社区服务器,所以Hadoop的成本比较低,任何人都可以使用。
接着要说的是RapidMiner。RapidMiner是世界领先的数据挖掘解决方案,有着先进的技术。RapidMiner数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。
Storm。Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。 Storm支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、Admaster等等。
最后要说的就是HPCC。什么是HPPC呢?HPCC是High Performance Computing and Communications(高性能计算与通信)的缩写。HPCC主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。
通过上述的内容,想必大家已经知道了大数据的解决方案了吧,目前世界范围内拥有的大数据解决方案种类较多,只有开发并使用好最先进的,最完备的大数据解决方案,一个公司,甚至一个国家才能走在世界前列。
‘拾’ 海量数据库解决方案的内容简介
《海量数据库解决方案》系列丛书深受广大读者的喜爱已经长达10年之久,在被誉为“圣经”的同时,它已经变成了数据库用户不可或缺的必读书籍。作者竭力探求能够让IT工作者在实际工作中轻松应用并掌控的巧妙方法,提供事半功倍的海量数据库解决之道。
本书适合数据库开发人员和数据库管理员等阅读。