sparksql_hive和sparksql的区别

‘壹’ 怎么开发一个基于spark sql的web实时查询web程序

Shark和sparkSQL 但是，随着Spark的发展，其中sparkSQL作为Spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一

‘贰’ spark sql支持哪些sql操作

支持Shark和sparkSQL 。

但是，随着Spark的发展，其中sparkSQL作为Spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on
spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用map-
rece、Tez、spark等引擎。

‘叁’ 怎样用sparksql查询多表

一、启动方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

注：/data/spark-1.4.0-bin-cdh4/为spark的安装路径

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看启动选项

--master MASTER_URL 指定master url
--executor-memory MEM 每个executor的内存，默认为1G
--total-executor-cores NUM 所有executor的总核数
-e <quoted-query-string> 直接执行查询SQL

-f <filename> 以文件方式批量执行SQL

‘肆’ spark sql 支持子查询吗

因为sql的条件筛选不走索引情况下是循环遍历而子查询的出现会使子查询的查询次数=子查询个数乘以数据行数那么多次效率不高所以不建议使用子查询非要用子查询最好给子查询的表建立索引
譬如：
Select * From feeData Where FeeID Not in (Select ID From FeeInfo)

FeeInfo 表最好有索引

优化语句：Select * From feeData as d Left Join FeeInfo f on d.FeeID =f.ID Where f.Id is null

‘伍’ Spark SQL到底支持什么SQL语句

Spark SQL到底支持什么SQL语句
scala语言不是很容易懂，但是里面有解析SQL的方法，可以看出支持的SQL语句，至少关键词是很明确的。
protected val ALL = Keyword("ALL")
protected val AND = Keyword("AND")
protected val APPROXIMATE = Keyword("APPROXIMATE")
protected val AS = Keyword("AS")
protected val ASC = Keyword("ASC")
protected val BETWEEN = Keyword("BETWEEN")
protected val BY = Keyword("BY")
protected val CASE = Keyword("CASE")
protected val CAST = Keyword("CAST")
protected val DESC = Keyword("DESC")
protected val DISTINCT = Keyword("DISTINCT")

‘陆’ hive和sparksql的区别

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlSQL都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparkSQL是使用了自身的语法解析器、优化器和执行器，同时sparkSQL还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

‘柒’ sparksql的truncate=false删除表

truncate操作同没有where条件的delete操作十分相似。
1、无论truncate大表还是小表速度都非常快。delete要产生回滚信息来满足回滚需求，而truncate是不产生的。
2、truncate是DDL语句进行隐式提交，不能进行回滚操作。
3、truncate重新设定表和索引的HWM（高水标记），由于全表扫描和索引快速扫描都要读取所有的数据块知道HWM为止。所以全表扫描的性能不会因为delete而提高，但是经过truncate操作后速度会很快。
4、truncate不触发任何delete触发器。
5、不能赋给某个用户truncate其它用户表的权限。如果需要trucate其它用户表的权限必须对该用户赋DROP ANY TABLE权限。
6、当表被truncate后，这个表和索引所占用的空间会恢复到初始大小，而delete操作不会减少表或索引所占用的空间。
7、不能truncate一个带有外键的表，如果要删除首先要取消外键，然后再删除。

‘捌’ spark sql 是数据库吗

Shark和sparkSQL 但是，随着Spark的发展，其中sparkSQL作为Spark生态的一员继续发展，而不再受限于hive，只是兼容hive；而hive on spark是一个hive的发展计划，该计划将spark作为hive的底层引擎之一，也就是说，hive将不再受限于一个引擎，可以采用map-rece、Tez、spark等引擎。

‘玖’ sparkSQL和spark有什么区别

Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。简而言之，sparkSQL是Spark的前身，是在Hadoop发展过程中，为了给熟悉RDBMS但又不理解MapRece的技术人员提供快速上手的工具。
sparkSQL提供了一个称为DataFrame（数据框）的编程抽象，DF的底层仍然是RDD，并且可以充当分布式SQL查询引擎。

SparkSql有哪些特点呢？

1）引入了新的RDD类型SchemaRDD，可以像传统数据库定义表一样来定义SchemaRDD。

2）在应用程序中可以混合使用不同来源的数据，如可以将来自HiveQL的数据和来自SQL的数据进行Join操作。

3）内嵌了查询优化框架，在把SQL解析成逻辑执行计划之后，最后变成RDD的计算。

‘拾’ sparksql 表定义存储在哪

Spark SQL是支持在Spark中使用Sql、HiveSql、Scala中的关系型查询表达式。它的核心组件是一个新增的RDD类型SchemaRDD，它把行对象用一个Schema来描述行里面的所有列的数据类型，它就像是关系型数据库里面的一张表。它可以从原有的RDD创建，也可以是Parquet文件，最重要的是它可以支持用HiveQL从hive里面读取数据。
下面是一些案例，可以在Spark shell当中运行。
首先我们要创建一个熟悉的Context，熟悉spark的人都知道吧，有了Context我们才可以进行各种操作。

sparksql

与sparksql相关的内容