hive和sql的一个不同之处在于操作_hive和sparksql的区别

1. hive查询语言和sql的不同

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapRece 开发者的开发自定义的 mapper 和 recer 来处理内建的 mapper 和 recer 无法完成的复杂的分析工作。

Hive 采用类SQL 的查询方式，将SQL 查询转换为MapRece 的job 在Hadoop集群上执行

2. 数据库里面mysql和hive区别是什么

1.查询语言不同:hql/sql
2.数据存储位置不同:hdfs/数据库系统
3.数据格式:可自定义/数据库系统定义格式
4.数据更新:Hive不支持数据更新/mysql支持数据更新update

3. hive和mysql的区别是什么

hive和mysql的区别有：

1、查询语言不同：hive是hql语言，mysql是sql语句；

2、数据存储位置不同：hive是把数据存储在hdfs上，而mysql数据是存储在自己的系统中；

3、数据格式：hive数据格式可以用户自定义，mysql有自己的系统定义格式；

4、数据更新：hive不支持数据更新，只可以读，不可以写，而sql支持数据更新；

5、索引：hive没有索引，因此查询数据的时候是通过maprece很暴力的把数据都查询一遍，也造成了hive查询数据速度很慢的原因，而mysql有索引。

4. Hive和传统数据库有什么区别和联系

Hive与传统的关系型数据库有很多类似的地方，例如对SQL的支持。但是其基于HDFS与MapRece的事实使得它与传统的数据库在很多方面有很大的不同，在一些特性的支持下也受到底层架构的限制，但是这些限制随着版本迭代正在不断被消除，使得Hive看起来越来越像传统的数据库。

5. Hive基础之Hive是什么以及Hive使用场景

Hive是什么
1）Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库；
2）一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制；
3）Hive 定义了简单的类SQL 查询语言，称为HQL，它允许熟悉SQL 的用户查询数据；
4）允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作；
5）Hive没有专门的数据格式（分隔符等可以自己灵活的设定）；
ETL的流程（Extraction-Transformate-Loading）：将关系型数据库的数据抽取到HDFS上，hive作为数据仓库，经过hive的计算分析后，将结果再导入到关系型数据库的过程。

Hive是构建在Hadoop之上的数据仓库
1）使用HQL作为查询接口；
2）使用HDFS作为存储；
3）使用MapRece作为计算；

Hive应用场景
数据源：
1）文件数据，如中国移动某设备每天产生大量固定格式的文件；
2）数据库

以上两种不同的数据源有个共同点：要使用hive，那么必须要将数据放到hive中；通常采用如下两种方式：
1）文件数据：load到hive
2）数据库: sqoop到hive
数据的离线处理；
hive的执行延迟比较高，因为hive常用于数据分析的，对实时性要求不高；
hive优势在于处理大数据，对于处理小数据没有优势，因为hive的执行延迟比较高。
处理数据存放在hive表中，那么前台系统怎么去访问hive的数据呢？
先将hive的处理结果数据转移到关系型数据库中才可以，sqoop就是执行导入导出的操作

6. hive和sparksql的区别

历史上存在的原理，以前都是使用hive来构建数据仓库，所以存在大量对hive所管理的数据查询的需求。而hive、shark、sparlSQL都可以进行hive的数据查询。shark是使用了hive的sql语法解析器和优化器，修改了执行器，使之物理执行过程是跑在spark上；而sparkSQL是使用了自身的语法解析器、优化器和执行器，同时sparkSQL还扩展了接口，不单单支持hive数据的查询，可以进行多种数据源的数据查询。

7. 与sql对比 hiveql具有哪些特点

Hive 的设计特点如下。
● 支持索引，加快数据查询。
● 不同的存储类型，例如，纯文本文件、HBase 中的文件。
● 将元数据保存在关系数据库中，大大减少了在查询过程中执行语义检查的时间。
● 可以直接使用存储在Hadoop 文件系统中的数据。
● 内置大量用户函数UDF 来操作时间、字符串和其他的数据挖掘工具，支持用户扩展UDF 函数来完成内置函数无法实现的操作。

8. sparkSQL用jdbc连接hive和用元数据连接hive的区别，各自优缺点

spark on hive : 是spark 通过spark-sql 使用hive 语句操作hive ,底层运行的还是 spark rdd.
*（1）就是通过sparksql，加载hive的配置文件，获取到hive的元数据信息
* （2）spark sql获取到hive的元数据信息之后就可以拿到hive的所有表的数据
* （3）接下来就可以通过spark sql来操作hive表中的数据
hive on spark: 是hive 等的执行引擎变成spark , 不再是maprece. 相对于上一项,这个要实现责麻烦很多, 必须重新编译你的spark. 和导入jar包,

9. spark SQL和hive到底什么关系

Hive是一种基于HDFS的数据仓库，并且提供了基于SQL模型的，针对存储了大数据的数据仓库，进行分布式交互查询的查询引擎。

SparkSQL并不能完全替代Hive，它替代的是Hive的查询引擎，SparkSQL由于其底层基于Spark自身的基于内存的特点，因此速度是Hive查询引擎的数倍以上，Spark本身是不提供存储的，所以不可能替代Hive作为数据仓库的这个功能。

SparkSQL相较于Hive的另外一个优点，是支持大量不同的数据源，包括hive、json、parquet、jdbc等等。SparkSQL由于身处Spark技术堆栈内，基于RDD来工作，因此可以与Spark的其他组件无缝整合使用，配合起来实现许多复杂的功能。比如SparkSQL支持可以直接针对hdfs文件执行sql语句。

10. SparkSQL和Hive在做cast boolean存在的不同

今天在看一些数据的时候发现,一些SparkSQL与Hive之间在进行cast转化时候存在一些差异。
HiveVersion 1.2.1
SparkSQL 1.6.0
总结:
在Hive中, boolean类型的隐式转化,Hive中非boolean非null转化默认为True,
而在SparkSQL中，则根据传入的不同数据类型判断值后返回结果.
Hive
Converts the results of the expression expr to . For example,
cast(‘1’ as BIGINT) will convert the string ‘1’ to its integral representation.
A null is returned if the conversion does not succeed.
If cast(expr as boolean) Hive returns true for a non-empty string.
hive> select cast('false' as boolean) from default.le;
OK
true123

SparkSQL
在SparkSQL中如果是string的话，会检查StringUtils中枚举的；其他原子类型数据进行是否不等于0,不等于0返回true，否则为false
具体代码逻辑如下
classname: org.apache.spark.sql.catalyst.expressions.Cast

// UDFToBoolean
private[this] def castToBoolean(from: DataType): Any => Any = from match {
case StringType =>
buildCast[UTF8String](_, s => {
if (StringUtils.isTrueString(s)) {
true
} else if (StringUtils.isFalseString(s)) {
false
} else {
null
}
})
case TimestampType =>
buildCast[Long](_, t => t != 0)
case DateType =>
// Hive would return null when cast from date to boolean
buildCast[Int](_, d => null)
case LongType =>
buildCast[Long](_, _ != 0)
case IntegerType =>
buildCast[Int](_, _ != 0)
case ShortType =>
buildCast[Short](_, _ != 0)
case ByteType =>
buildCast[Byte](_, _ != 0)
case DecimalType() =>
buildCast[Decimal](_, !_.isZero)
case DoubleType =>
buildCast[Double](_, _ != 0)
case FloatType =>
buildCast[Float](_, _ != 0)
}

classname: org.apache.spark.sql.catalyst.util.StringUtils
//
private[this] val trueStrings = Set("t", "true", "y", "yes", "1").map(UTF8String.fromString)
private[this] val falseStrings = Set("f", "false", "n", "no", "0").map(UTF8String.fromString)

def isTrueString(s: UTF8String): Boolean = trueStrings.contains(s.toLowerCase)
def isFalseString(s: UTF8String): Boolean = falseStrings.contains(s.toLowerCase)

hive和sql的一个不同之处在于操作

与hive和sql的一个不同之处在于操作相关的内容