hive和sql的一個不同之處在於操作_hive和sparksql的區別

1. hive查詢語言和sql的不同

Hive是建立在 Hadoop 上的數據倉庫基礎構架。它提供了一系列的工具，可以用來進行數據提取轉化載入（ETL），這是一種可以存儲、查詢和分析存儲在 Hadoop 中的大規模數據的機制。Hive 定義了簡單的類 SQL 查詢語言，稱為 HQL，它允許熟悉 SQL 的用戶查詢數據。同時，這個語言也允許熟悉 MapRece 開發者的開發自定義的 mapper 和 recer 來處理內建的 mapper 和 recer 無法完成的復雜的分析工作。

Hive 採用類SQL 的查詢方式，將SQL 查詢轉換為MapRece 的job 在Hadoop集群上執行

2. 資料庫裡面mysql和hive區別是什麼

1.查詢語言不同:hql/sql
2.數據存儲位置不同:hdfs/資料庫系統
3.數據格式:可自定義/資料庫系統定義格式
4.數據更新:Hive不支持數據更新/mysql支持數據更新update

3. hive和mysql的區別是什麼

hive和mysql的區別有：

1、查詢語言不同：hive是hql語言，mysql是sql語句；

2、數據存儲位置不同：hive是把數據存儲在hdfs上，而mysql數據是存儲在自己的系統中；

3、數據格式：hive數據格式可以用戶自定義，mysql有自己的系統定義格式；

4、數據更新：hive不支持數據更新，只可以讀，不可以寫，而sql支持數據更新；

5、索引：hive沒有索引，因此查詢數據的時候是通過maprece很暴力的把數據都查詢一遍，也造成了hive查詢數據速度很慢的原因，而mysql有索引。

4. Hive和傳統資料庫有什麼區別和聯系

Hive與傳統的關系型資料庫有很多類似的地方，例如對SQL的支持。但是其基於HDFS與MapRece的事實使得它與傳統的資料庫在很多方面有很大的不同，在一些特性的支持下也受到底層架構的限制，但是這些限制隨著版本迭代正在不斷被消除，使得Hive看起來越來越像傳統的資料庫。

5. Hive基礎之Hive是什麼以及Hive使用場景

Hive是什麼
1）Hive 是建立在Hadoop (HDFS/MR)上的用於管理和查詢結果化/非結構化的數據倉庫；
2）一種可以存儲、查詢和分析存儲在Hadoop 中的大規模數據的機制；
3）Hive 定義了簡單的類SQL 查詢語言，稱為HQL，它允許熟悉SQL 的用戶查詢數據；
4）允許用Java開發自定義的函數UDF來處理內置無法完成的復雜的分析工作；
5）Hive沒有專門的數據格式（分隔符等可以自己靈活的設定）；
ETL的流程（Extraction-Transformate-Loading）：將關系型資料庫的數據抽取到HDFS上，hive作為數據倉庫，經過hive的計算分析後，將結果再導入到關系型資料庫的過程。

Hive是構建在Hadoop之上的數據倉庫
1）使用HQL作為查詢介面；
2）使用HDFS作為存儲；
3）使用MapRece作為計算；

Hive應用場景
數據源：
1）文件數據，如中國移動某設備每天產生大量固定格式的文件；
2）資料庫

以上兩種不同的數據源有個共同點：要使用hive，那麼必須要將數據放到hive中；通常採用如下兩種方式：
1）文件數據：load到hive
2）資料庫: sqoop到hive
數據的離線處理；
hive的執行延遲比較高，因為hive常用於數據分析的，對實時性要求不高；
hive優勢在於處理大數據，對於處理小數據沒有優勢，因為hive的執行延遲比較高。
處理數據存放在hive表中，那麼前台系統怎麼去訪問hive的數據呢？
先將hive的處理結果數據轉移到關系型資料庫中才可以，sqoop就是執行導入導出的操作

6. hive和sparksql的區別

歷史上存在的原理，以前都是使用hive來構建數據倉庫，所以存在大量對hive所管理的數據查詢的需求。而hive、shark、sparlSQL都可以進行hive的數據查詢。shark是使用了hive的sql語法解析器和優化器，修改了執行器，使之物理執行過程是跑在spark上；而sparkSQL是使用了自身的語法解析器、優化器和執行器，同時sparkSQL還擴展了介面，不單單支持hive數據的查詢，可以進行多種數據源的數據查詢。

7. 與sql對比 hiveql具有哪些特點

Hive 的設計特點如下。
● 支持索引，加快數據查詢。
● 不同的存儲類型，例如，純文本文件、HBase 中的文件。
● 將元數據保存在關系資料庫中，大大減少了在查詢過程中執行語義檢查的時間。
● 可以直接使用存儲在Hadoop 文件系統中的數據。
● 內置大量用戶函數UDF 來操作時間、字元串和其他的數據挖掘工具，支持用戶擴展UDF 函數來完成內置函數無法實現的操作。

8. sparkSQL用jdbc連接hive和用元數據連接hive的區別，各自優缺點

spark on hive : 是spark 通過spark-sql 使用hive 語句操作hive ,底層運行的還是 spark rdd.
*（1）就是通過sparksql，載入hive的配置文件，獲取到hive的元數據信息
* （2）spark sql獲取到hive的元數據信息之後就可以拿到hive的所有表的數據
* （3）接下來就可以通過spark sql來操作hive表中的數據
hive on spark: 是hive 等的執行引擎變成spark , 不再是maprece. 相對於上一項,這個要實現責麻煩很多, 必須重新編譯你的spark. 和導入jar包,

9. spark SQL和hive到底什麼關系

Hive是一種基於HDFS的數據倉庫，並且提供了基於SQL模型的，針對存儲了大數據的數據倉庫，進行分布式交互查詢的查詢引擎。

SparkSQL並不能完全替代Hive，它替代的是Hive的查詢引擎，SparkSQL由於其底層基於Spark自身的基於內存的特點，因此速度是Hive查詢引擎的數倍以上，Spark本身是不提供存儲的，所以不可能替代Hive作為數據倉庫的這個功能。

SparkSQL相較於Hive的另外一個優點，是支持大量不同的數據源，包括hive、json、parquet、jdbc等等。SparkSQL由於身處Spark技術堆棧內，基於RDD來工作，因此可以與Spark的其他組件無縫整合使用，配合起來實現許多復雜的功能。比如SparkSQL支持可以直接針對hdfs文件執行sql語句。

10. SparkSQL和Hive在做cast boolean存在的不同

今天在看一些數據的時候發現,一些SparkSQL與Hive之間在進行cast轉化時候存在一些差異。
HiveVersion 1.2.1
SparkSQL 1.6.0
總結:
在Hive中, boolean類型的隱式轉化,Hive中非boolean非null轉化默認為True,
而在SparkSQL中，則根據傳入的不同數據類型判斷值後返回結果.
Hive
Converts the results of the expression expr to . For example,
cast(『1』 as BIGINT) will convert the string 『1』 to its integral representation.
A null is returned if the conversion does not succeed.
If cast(expr as boolean) Hive returns true for a non-empty string.
hive> select cast('false' as boolean) from default.le;
OK
true123

SparkSQL
在SparkSQL中如果是string的話，會檢查StringUtils中枚舉的；其他原子類型數據進行是否不等於0,不等於0返回true，否則為false
具體代碼邏輯如下
classname: org.apache.spark.sql.catalyst.expressions.Cast

// UDFToBoolean
private[this] def castToBoolean(from: DataType): Any => Any = from match {
case StringType =>
buildCast[UTF8String](_, s => {
if (StringUtils.isTrueString(s)) {
true
} else if (StringUtils.isFalseString(s)) {
false
} else {
null
}
})
case TimestampType =>
buildCast[Long](_, t => t != 0)
case DateType =>
// Hive would return null when cast from date to boolean
buildCast[Int](_, d => null)
case LongType =>
buildCast[Long](_, _ != 0)
case IntegerType =>
buildCast[Int](_, _ != 0)
case ShortType =>
buildCast[Short](_, _ != 0)
case ByteType =>
buildCast[Byte](_, _ != 0)
case DecimalType() =>
buildCast[Decimal](_, !_.isZero)
case DoubleType =>
buildCast[Double](_, _ != 0)
case FloatType =>
buildCast[Float](_, _ != 0)
}

classname: org.apache.spark.sql.catalyst.util.StringUtils
//
private[this] val trueStrings = Set("t", "true", "y", "yes", "1").map(UTF8String.fromString)
private[this] val falseStrings = Set("f", "false", "n", "no", "0").map(UTF8String.fromString)

def isTrueString(s: UTF8String): Boolean = trueStrings.contains(s.toLowerCase)
def isFalseString(s: UTF8String): Boolean = falseStrings.contains(s.toLowerCase)

hive和sql的一個不同之處在於操作

與hive和sql的一個不同之處在於操作相關的內容