sparksql讀取oracle_spark sql中的臨時表怎麼讀取數據

❶ spark從hive數據倉庫中讀取的數據可以使用sparksql進行查詢嗎

1、為了讓Spark能夠連接到Hive的原有數據倉庫，我們需要將Hive中的hive-site.xml文件拷貝到Spark的conf目錄下，這樣就可以通過這個配置文件找到Hive的元數據以及數據存放。
在這里由於我的Spark是自動安裝和部署的，因此需要知道CDH將hive-site.xml放在哪裡。經過摸索。該文件默認所在的路徑是：/etc/hive/conf 下。
同理，spark的conf也是在/etc/spark/conf。
此時，如上所述，將對應的hive-site.xml拷貝到spark/conf目錄下即可
如果Hive的元數據存放在Mysql中，我們還需要准備好Mysql相關驅動，比如：mysql-connector-java-5.1.22-bin.jar。
2、編寫測試代碼
val conf=new SparkConf().setAppName("Spark-Hive").setMaster("local")
val sc=new SparkContext(conf)

//create hivecontext
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ") //這里需要注意數據的間隔符

sqlContext.sql("LOAD DATA INPATH '/user/liujiyu/spark/kv1.txt' INTO TABLE src ");

sqlContext.sql(" SELECT * FROM jn1").collect().foreach(println)

sc.stop()

3、下面列舉一下出現的問題：
（1）如果沒有將hive-site.xml拷貝到spark/conf目錄下，會出現：

分析：從錯誤提示上面就知道，spark無法知道hive的元數據的位置，所以就無法實例化對應的client。
解決的辦法就是必須將hive-site.xml拷貝到spark/conf目錄下
（2）測試代碼中沒有加sc.stop會出現如下錯誤：
ERROR scheler.LiveListenerBus: Listener EventLoggingListener threw an exception
java.lang.reflect.InvocationTargetException
在代碼最後一行添加sc.stop()解決了該問題。

❷ SQL語句如何用spark SQL代替

Spark SQL到底支持什麼SQL語句
scala語言不是很容易懂，但是裡面有解析SQL的方法，可以看出支持的SQL語句，至少關鍵詞是很明確的。
protected val ALL = Keyword("ALL")
protected val AND = Keyword("AND")
protected val APPROXIMATE = Keyword("APPROXIMATE")
protected val AS = Keyword("AS")
protected val ASC = Keyword("ASC")
protected val BETWEEN = Keyword("BETWEEN")
protected val BY = Keyword("BY")
protected val CASE = Keyword("CASE")
protected val CAST = Keyword("CAST")
protected val DESC = Keyword("DESC")
protected val DISTINCT = Keyword("DISTINCT"）

❸ spark sql如何讀取二進制格式的列

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

❹ 怎麼處理sparksql的數據進行mlib

怎麼處理sparksql的數據進行mlib
Web Service是一個平台獨立的，低耦合的，自包含的、基於可編程的web的應用程序，可使用開放的XML（標准通用標記語言下的一個子集）標准來描述、發布、發現、協調和配置這些應用程序，用於開發分布式的互操作的應用程序。

❺ java oracle sql spark什麼關系

java是一種編程語言，用來開發軟體程序的。
oracle是一種資料庫，用來進行數據的存儲和管理的軟體；
sql是一種資料庫查詢語言，用來對資料庫中的數據進行各種操作的。
java可以通過sql語句對oracle中存儲的數據進行操作。
spark不了解。

❻ spark sql讀取hdfs裡面的表數據，怎麼讀能顯示欄位名

默認是從hdfs讀取文件，也可以指定sc.textFile("路徑").在路徑前面加上hdfs://表示從hdfs文件系統上讀本地文件讀取 sc.textFile("路徑").在路徑前面加上file:// 表示從本地文件系統讀，如file:///home/user/spark/README.md

❼ 如何使用 Spark SQL

一、啟動方法
/data/spark-1.4.0-bin-cdh4/bin/spark-sql --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2

註：/data/spark-1.4.0-bin-cdh4/為spark的安裝路徑

/data/spark-1.4.0-bin-cdh4/bin/spark-sql –help 查看啟動選項

--master MASTER_URL 指定master url
--executor-memory MEM 每個executor的內存，默認為1G
--total-executor-cores NUM 所有executor的總核數
-e <quoted-query-string> 直接執行查詢SQL

-f <filename> 以文件方式批量執行SQL

二、Spark sql對hive支持的功能

1、查詢語句：SELECT GROUP BY ORDER BY CLUSTER BY SORT BY
2、hive操作運算：
1) 關系運算：= ==, <>, <, >, >=, <=
2) 算術運算：+, -, *, /, %
3) 邏輯運算：AND, &&, OR, ||
4) 復雜的數據結構
5) 數學函數：(sign, ln, cos, etc)
6) 字元串函數：
3、 UDF
4、 UDAF

5、用戶定義的序列化格式
6、join操作：JOIN {LEFT|RIGHT|FULL} OUTER JOIN LEFT SEMI JOIN CROSS JOIN
7、 unions操作：
8、子查詢： SELECT col FROM ( SELECT a + b AS col from t1) t2
9、Sampling
10、 Explain
11、分區表
12、視圖
13、 hive ddl功能：CREATE TABLE、CREATE TABLE AS SELECT、ALTER TABLE

14、支持的數據類型：TINYINT SMALLINT INT BIGINT BOOLEAN FLOAT DOUBLE STRING BINARY TIMESTAMPDATE ARRAY MAP STRUCT

三、Spark sql 在客戶端編程方式進行查詢數據
1、啟動spark-shell
./spark-shell --master spark://master:7077 --total-executor-cores 10 --executor-memory 1g --executor-cores 2
2、編寫程序
val sqlContext = new org.apache.spark.sql.SQLContext(sc)
val df = sqlContext.read.json("../examples/src/main/resources/people.json")
查看所有數據：df.show()
查看錶結構：df.printSchema()
只看name列：df.select("name").show()
對數據運算：df.select(df("name"), df("age") + 1).show()
過濾數據：df.filter(df("age") > 21).show()

分組統計：df.groupBy("age").count().show()

1、查詢txt數據
import sqlContext.implicits._
case class Person(name: String, age: Int)
val people = sc.textFile("../examples/src/main/resources/people.txt").map(_.split(",")).map(p => Person(p(0), p(1).trim.toInt)).toDF()
people.registerTempTable("people")
val teenagers = sqlContext.sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
2、parquet文件
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")
3、hdfs文件

val df = sqlContext.read.load("hdfs://namenode.Hadoop:9000/user/hive/warehouse/spark_test.db/test_parquet/part-r-00001.gz.parquet")
4、保存查詢結果數據
val df = sqlContext.read.load("../examples/src/main/resources/users.parquet")

df.select("name", "favorite_color").write.save("namesAndFavColors.parquet「)

四、Spark sql性能調優

緩存數據表：sqlContext.cacheTable("tableName")

取消緩存表：sqlContext.uncacheTable("tableName")

spark.sql.inMemoryColumnarStorage.compressedtrue當設置為true時，Spark SQL將為基於數據統計信息的每列自動選擇一個壓縮演算法。
spark.sql.inMemoryColumnarStorage.batchSize10000柱狀緩存的批數據大小。更大的批數據可以提高內存的利用率以及壓縮效率，但有OOMs的風險

❽ spark sql中的臨時表怎麼讀取數據

Spark SQL就是shark ，也就是SQL on Spark。如果沒記錯的話，shark的開發利用了hive的API，所以支持讀取HBase。而且Spark的數據類型兼容範圍大於Hadoop，並且包含了Hadoop所支持的任何數據類型。

❾ 求問怎麼設置sparksql讀取hive的資料庫

求問怎麼設置sparksql讀取hive的資料庫
使用maven進行打包：
打包命令：
mvn -Pyarn -Dhadoop.version=2.3.0-cdh5.0.0 -Phive -Phive-thriftserver -DskipTests clean package

sparksql讀取oracle

與sparksql讀取oracle相關的內容