sqlonhadoop性能_如何选择基于Hadoop的SQL引擎

Ⅰ olap和sql on hadoop是一回事吗

OLAP（联机分析处理）。什么是联机分析处理（OLAP）联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的，他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响，OLAP作为一类产品同联机事务处理 (OLTP) 明显区

Ⅱ Oracle Sql 查询优化

收集表和索引的统计信息，如
analysis table EF_EXPENSES EFEP compute statistics;
analysis index index_name compute statistics;

索引即便建了，也得看你的索引建的对不对，查询有没有用到这个索引，这个主要就看执行计划了，看执行计划有没有用到这些个索引

Ⅲ Spark连接到MySQL并执行查询为什么速度会快

在已有的 MySQL 服务器之上使用 Apache Spark （无需将数据导出到 Spark 或者 Hadoop 平台上），这样至少可以提升 10 倍的查询性能。使用多个 MySQL 服务器（复制或者 Percona XtraDB Cluster）可以让我们在某些查询上得到额外的性能提升。你也可以使用 Spark 的缓存功能来缓存整个 MySQL 查询结果表。

思路很简单：Spark 可以通过 JDBC 读取 MySQL 上的数据，也可以执行 SQL 查询，因此我们可以直接连接到 MySQL 并执行查询。那么为什么速度会快呢？对一些需要运行很长时间的查询（如报表或者BI），由于 Spark 是一个大规模并行系统，因此查询会非常的快。MySQL 只能为每一个查询分配一个 CPU 核来处理，而 Spark 可以使用所有集群节点的所有核。在下面的例子中，我们会在 Spark 中执行 MySQL 查询，这个查询速度比直接在 MySQL 上执行速度要快 5 到 10 倍。
另外，Spark 可以增加“集群”级别的并行机制，在使用 MySQL 复制或者 Percona XtraDB Cluster 的情况下，Spark 可以把查询变成一组更小的查询（有点像使用了分区表时可以在每个分区都执行一个查询），然后在多个 Percona XtraDB Cluster 节点的多个从服务器上并行的执行这些小查询。最后它会使用 map/rece 方式将每个节点返回的结果聚合在一起行程完整的结果。

这篇文章跟我之前文章 “Airlines On-Time Performance” 所使用的数据库是相同的。瓦迪姆创建了一些脚本可以方便的下载这些数据并上传到 MySQL 数据库。脚本的下载地址请看这里。同时我们这次使用的是 2016年7月26日发布的Apache Spark 2.0。

Ⅳ hadoop中的pig与hive的区别各自有什么优势

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。

Hive更适合于数据仓库的任务，Hive主要用于静态的结构以及需要经常分析的工作。Hive与SQL相似促使其成为Hadoop与其他BI工具结合的理想交集。Pig赋予开发人员在大数据集领域更多的灵活性，并允许开发简洁的脚本用于转换数据流以便嵌入到较大的应用程序。Pig相比Hive相对轻量，它主要的优势是相比于直接使用Hadoop Java APIs可大幅削减代码量。

本质上说说Pig与Hive。
经过Pig Latin的转换后变成了一道MapRece的作业，通过MapRece多个线程，进程或者独立系统并行执行处理的结果集进行分类和归纳。Map() 和 Rece() 两个函数会并行运行，即使不是在同一的系统的同一时刻也在同时运行一套任务，当所有的处理都完成之后，结果将被排序，格式化，并且保存到一个文件。Pig利用MapRece将计算分成两个阶段，第一个阶段分解成为小块并且分布到每一个存储数据的节点上进行执行，对计算的压力进行分散，第二个阶段聚合第一个阶段执行的这些结果，这样可以达到非常高的吞吐量，通过不多的代码和工作量就能够驱动上千台机器并行计算，充分的利用计算机的资源，打消运行中的瓶颈。

也就是说，Pig最大的作用就是对maprece算法(框架)实现了一套shell脚本，类似我们通常熟悉的SQL语句，在Pig中称之为Pig Latin，在这套脚本中我们可以对加载出来的数据进行排序、过滤、求和、分组(group by)、关联(Joining)，Pig也可以由用户自定义一些函数对数据集进行操作，也就是传说中的UDF(user-defined functions)。
结论性的阅读感觉是：Pig用来写一些即时脚本吧，比如领导问你要份数据，半个小时要出来之类；Hive嘛，就是一个产品经理过来，问这个啥回事?于是你Hive一下，一个简洁的类SQL语句...Done！

Ⅳ Spark Streaming性能测试有什么好的benchmark吗

科普Spark，Spark是什么，如何使用Spark

1.Spark基于什么算法的分布式计算（很简单）
2.Spark与MapRece不同在什么地方
3.Spark为什么比Hadoop灵活
4.Spark局限是什么
5.什么情况下适合使用Spark

什么是Spark
Spark是UC Berkeley AMP lab所开源的类Hadoop MapRece的通用的并行计算框架，Spark基于map rece算法实现的分布式计算，拥有Hadoop MapRece所具有的优点；但不同于MapRece的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map rece的算法。其架构如下图所示：

Spark与Hadoop的对比
Spark的中间数据放到内存中，对于迭代运算效率更高。
Spark更适合于迭代运算比较多的ML和DM运算。因为在Spark里面，有RDD的抽象概念。
Spark比Hadoop更通用
Spark提供的数据集操作类型有很多种，不像Hadoop只提供了Map和Rece两种操作。比如map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等多种操作类型，Spark把这些操作称为Transformations。同时还提供Count, collect, rece, lookup, save等多种actions操作。
这些多种多样的数据集操作类型，给给开发上层应用的用户提供了方便。各个处理节点之间的通信模型不再像Hadoop那样就是唯一的Data Shuffle一种模式。用户可以命名，物化，控制中间结果的存储、分区等。可以说编程模型比Hadoop更灵活。
不过由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。
容错性
在分布式数据集计算时通过checkpoint来实现容错，而checkpoint有两种方式，一个是checkpoint data，一个是logging the updates。用户可以控制采用哪种方式来实现容错。
可用性
Spark通过提供丰富的Scala, Java，Python API及交互式Shell来提高可用性。
Spark与Hadoop的结合
Spark可以直接对HDFS进行数据的读写，同样支持Spark on YARN。Spark可以与MapRece运行于同集群中，共享存储资源与计算，数据仓库Shark实现上借用Hive，几乎与Hive完全兼容。
Spark的适用场景
Spark是基于内存的迭代计算框架，适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多，所需读取的数据量越大，受益越大，数据量小但是计算密集度较大的场合，受益就相对较小（大数据库架构中这是是否考虑使用Spark的重要因素）
由于RDD的特性，Spark不适用那种异步细粒度更新状态的应用，例如web服务的存储或者是增量的web爬虫和索引。就是对于那种增量修改的应用模型不适合。总的来说Spark的适用面比较广泛且比较通用。
运行模式
本地模式
Standalone模式
Mesoes模式
yarn模式
Spark生态系统
Shark ( Hive on Spark): Shark基本上就是在Spark的框架基础上提供和Hive一样的H iveQL命令接口，为了最大程度的保持和Hive的兼容性，Shark使用了Hive的API来实现query Parsing和 Logic Plan generation，最后的PhysicalPlan execution阶段用Spark代替Hadoop MapRece。通过配置Shark参数，Shark可以自动在内存中缓存特定的RDD，实现数据重用，进而加快特定数据集的检索。同时，Shark通过UDF用户自定义函数实现特定的数据分析学习算法，使得SQL数据查询和运算分析能结合在一起，最大化RDD的重复使用。
Spark streaming: 构建在Spark上处理Stream数据的框架，基本的原理是将Stream数据分成小的时间片断（几秒），以类似batch批量处理的方式来处理这小部分数据。Spark Streaming构建在Spark上，一方面是因为Spark的低延迟执行引擎（100ms+）可以用于实时计算，另一方面相比基于Record的其它处理框架（如Storm），RDD数据集更容易做高效的容错处理。此外小批量处理的方式使得它可以同时兼容批量和实时数据处理的逻辑和算法。方便了一些需要历史数据和实时数据联合分析的特定应用场合。
Bagel: Pregel on Spark，可以用Spark进行图计算，这是个非常有用的小项目。Bagel自带了一个例子，实现了Google的PageRank算法。
End.

Ⅵ SQL-on-Hadoop技术与数据库技术的差异在哪里

主要是方向的差异。

关系数据库技术建立在关系数据模型之上，是主要用来存储结构化数据并支持数据的插入、查询、更新、删除等操作的数据库。Hadoop技术为面向大数据分析和处理的并行计算模型。两者反向不一样。

简介：

数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合。

数据库是存放数据的仓库。它的存储空间很大，可以存放百万条、千万条、上亿条数据。但是数据库并不是随意地将数据进行存放，是有一定的规则的，否则查询的效率会很低。当今世界是一个充满着数据的互联网世界，充斥着大量的数据。

即这个互联网世界就是数据世界。数据的来源有很多，比如出行记录、消费记录、浏览的网页、发送的消息等等。除了文本类型的数据，图像、音乐、声音都是数据。

Ⅶ 星环 hadoop 是开源的吗

Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘，也包含交互式联机查询和统计报表类应用，同时大数据的数据质量也较低，数据分布是真实而不均匀的。
因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQLonHadoop技术的最佳测试集。

Ⅷ 如何选择基于Hadoop的SQL引擎

在Hadoop和NoSQL技术中，人们逐渐把焦点转移到了Hadoop上的SQL引擎。今天，可选择的引擎越来越多，反倒让组织陷入了选择困境。本文将罗列几点选择引擎时需要考量的因素，供您参考。
基于Hadoop的SQL技术一大优势在于可以使用熟悉的SQL语言，访问存储在Hadoop中的大数据集。
用户几乎可以应用任何报表或工具来分析和研究数据。在Hadoop上还不能应用SQL的时候，要访问Hadoop中的大数据集，需要十分了解Hadoop
的技术应用程序界面，比如HDFS、MapRece或HBase。现在有了基于Hadoop的SQL引擎，每个人都可以使用他喜欢的工具了。对企业而
言，相当于Hadoop开放了更大的窗口，有更多的企业可以应用Hadoop处理大数据。
有哪些技术可以选择

第一个基于Hadoop的SQL引擎是Apache Hive，不过过去一年里，有很多新产品出现，包括CitusDB、Cloudera
Impala、Concurrent Lingual、Hadapt、InfiniDB、 JethroData、MammothDB、Apache
Drill、MemSQL、Pivotal HawQ、Progress DataDirect、ScleraDB、Simba和Splice
Machine。
除了上述引擎之外，数据虚拟化服务器也应在此列，因为它们对Hadoop数据实现了SQL访问。虚拟化服务器可以访问所有数据源，包括Hadoop，不同的数据源都可以集成。数据虚拟化服务器有很多，包括Cirro Data Hub、Cisco/Composite

当然，还有一些SQL数据库管理系统也支持多种数据源。它们在自己的SQL数据库或Hadoop中存储数据，提供对Hadoop数据的SQL访问。比如
EMC/Greenplum UAP、 HP Vertica （on MapR）、Microsoft PolyBase、Actian
ParAccel 和Teradata Aster Database （via SQL-H）。
这么多基于Hadoop的SQL工具可以使用，可以说是让组织眼花缭乱。那么该如何选择呢？它们彼此的差别又在哪呢？
事实上，不同的技术之间差别很大，比如说，CitusDB知道数据存储在哪里，可以更快地访问数据;JethroData存储索引，可以直接访问数据;Splice Machine提供交易型SQL界面。
要选择正确的技术，需要比对细节。以下是具体的考虑因素：
SQL语言
支持的SQL语言越多，能使用的应用程序也就越多。并且，支持的语言越丰富，Hadoop能运行的查询程序就越多，应用和报表工具要做的就越少。
节点连接
在大表上快速有效地执行节点连接并不容易，尤其是在SQL引擎不知道数据存储在哪的情况下。效率低下的连接过程会导致大量的I/O，以及不同节点之间巨大的数据传输，最终影响处理速度。
非结构化数据
SQL是为结构化数据设
计的。表中的每一条记录都位于同一列，每一列都有同样的属性。但在大数据时代，并不是所有的数据都是结构化的。Hadoop文件中可能包含嵌套的数据、可
变的数据（具有层级结构）、无模式的数据和自我描述的数据。基于Hadoop的SQL引擎必须能够把所有数据都转换为关系数据，并优化这些数据之间的查
询。
存储模式
Hadoop支持一些标准存储格式，比如Parquet、Avro和ORCFile。基于Hadoop的SQL技术使用的格式越多，其他引擎和技术能够读取的格式也就越多。这极大地减少了复制数据的工作。
用户定义函数
要在SQL上执行复杂的分析函数，比如高斯判别分析和购物篮分析等，很重要的前提是SQL对该函数的支持。这样的函数被称为用户定义函数（UDF）。基于Hadoop的SQL引擎需要能够在多节点上分部执行用户定义函数。
多用户工作负载

还需要考量的一个因素是，引擎应该如何在不同的查询和不同类型的查询之间划分资源。比如，不同应用程序的查询有不同的处理优先级;需要运行较长时间的查询
应该让位于需要立即处理的查询;如果计划外的或资源密集型的查询占用很多资源的话，应该被取消或暂停查询。基于Hadoop的SQL技术需要更加智能的工
作负载管理。
数据联合
并不是所有的数据都存储在Hadoop中。大部分企业数据还存储在其他数据源中，比如SQL数据库。基于Hadoop的SQL引擎需要支持存储在不同类型数据源中的数据的连接。换言之，它必须支持数据联合。
应用Hadoop的企业部署SQL引擎是大势所趋。企业在选择不同技术的时候，希望能考虑到上述因素。

Ⅸ hadoop用postgresql数据库吗

您好，1）用户实用程序：
createdb 创建一个新的PostgreSQL的数据库（和SQL语句：CREATE DATABASE 相同）
createuser 创建一个新的PostgreSQL的用户（和SQL语句：CREATE USER 相同）
dropdb 删除数据库
dropuser 删除用户
pg_mp 将PostgreSQL数据库导出到一个脚本文件
pg_mpall 将所有的PostgreSQL数据库导出到一个脚本文件
pg_restore 从一个由pg_mp或pg_mpall程序导出的脚本文件中恢复PostgreSQL数据库
psql 一个基于命令行的PostgreSQL交互式客户端程序
vacuumdb 清理和分析一个PostgreSQL数据库，它是客户端程序psql环境下SQL语句VACUUM的shell脚本封装，二者功能完全相同
（2）系统实用程序
initdb 创建一个用于存储数据库的PostgreSQL数据目录，并创建预定义的模板数据库template0和template1,生成共享目录表 catalog；此程序通常只在安装PostgreSQL时运行一次
initlocation 创建一个辅助的PostgreSQL数据库存储区域
ipcclean 从停止的PostgreSQL服务器中清除共享内在和孤立信号标志
pg_ctl 启动、停止、重启PostgreSQL服务（比如：pg_ctl start 启动PostgreSQL服务，它和service postgresql start相同）
pg_controldata 显示PostgreSQL服务的内部控制信息
postgres PostgreSQL单用户模式的数据库服务
postmaster PostgreSQL多用户模式的数据库服务
4.这里面最重要的是psql这个客户端程序最为重要。启用客户端程序psql的方法是：
切换到PostgreSQL预定义的数据库超级用户postgres，启用客户端程序psql，并连接到自己想要的数据库，比如说：
psql template1
出现以下界面，说明已经进入到想要的数据库，可以进行想要的操作了。
template1=#
5.在数据库中的一些命令：
template1=# \l 查看系统中现存的数据库
template1=# \q 退出客户端程序psql
template1=# \c 从一个数据库中转到另一个数据库中，如template1=# \c sales 从template1转到sales
template1=# \dt 查看表
template1=# \d 查看表结构
template1=# \di 查看索引
6.要注意随时对数据库进行清理、收回磁盘空间并更新统计信息，使用下面的命令就搞定！
vaccumdb -d sales -z
-a 对所有的数据库操作
-z 保证不断地删除失效的行，节约磁盘空间，将统计信息更新为最近的状态
7.PostgreSQL用户认证
PostgreSQL数据目录中的pg_hba.conf的作用就是用户认证，可以在/var/lib/pgsql/data中找到。
有以下几个例子可以看看：
(1)允许在本机上的任何身份连接任何数据库
TYPE DATABASE USER IP-ADDRESS IP-MASK METHOD
local all all trust(无条件进行连接)
(2)允许IP地址为192.168.1.x的任何主机与数据库sales连接
TYPE DATABASE USER IP-ADDRESS IP-MASK METHOD
host sales all 192.168.1.0 255.255.255.0 ident sameuser(表明任何操作系统用户都能够以同名数据库用户进行连接)
8.看了那么多，来一个完整的创建PostgreSQL数据库用户的示例吧
(1)进入PostgreSQL高级用户
(2)启用客户端程序，并进入template1数据库
psql template1
(3)创建用户
template1=# CREATE USER hellen WITH ENCRYPED PASSWORD'zhenzhen'
(4)因为设置了密码，所以要编辑pg_hba.conf，使用户和配置文件同步。
在原有记录上面添加md5
local all hellen md5
(4)使用新用户登录数据库
template1=# \q
psql -U hellen -d template1
PS：在一个数据库中如果要切换用户，要使用如下命令：
template1=# \!psql -U tk -d template1
9.设定用户特定的权限
还是要用例子来说明：
创建一个用户组：
sales=# CREATE GROUP sale;
添加几个用户进入该组
sales=# ALTER GROUP sale ADD USER sale1,sale2,sale3;
授予用户级sale针对表employee和procts的SELECT权限
sales=# GRANT SELECT ON employee,procts TO GROUP sale;
在sale中将用户user2删除
sales=# ALTER GROP sale DROP USER sale2;
10.备份数据库
可以使用pg_mp和pg_mpall来完成。比如备份sales数据库：
pg_mp sales>/home/tk/pgsql/backup/1.bak

sqlonhadoop性能

与sqlonhadoop性能相关的内容