javaweb調用spark_怎麼開發一個基於spark的web實時查詢web程序

A. spark數據處理平台如何與javaweb系統整合

簡單講就是執行sparksql任務，用戶在界面輸入sql語句，執行查詢，web項目通過調用spark集群執行計算，並返回數據，最後展示到頁面上

B. javaweb怎麼調用 spark集群

1、Spark腳本提交/運行/部署1.1spark-shell（交互窗口模式）運行Spark-shell需要指向申請資源的standalonespark集群信息，其參數為MASTER，還可以指定executor及driver的內存大小。sudospark-shell--executor-memory5g--driver-memory1g--masterspark://192.168.180.216:7077spark-shell啟動完後，可以在交互窗口中輸入Scala命令，進行操作，其中spark-shell已經默認生成sc對象，可以用：valuser_rdd1=sc.textFile(inputpath,10)讀取數據資源等。1.2spark-shell（腳本運行模式）上面方法需要在交互窗口中一條一條的輸入scala程序；將scala程序保存在test.scala文件中，可以通過以下命令一次運行該文件中的程序代碼：sudospark-shell--executor-memory5g--driver-memory1g--masterspark//192.168.180.216:7077

C. Spark 中用 Scala 和 java 開發有什麼區別

Scala到底是什麼?在目前眾多的JVM語言當中，Scala無疑是最引人注意的語言之一。Scala是一個靜態語言，更適合大型工程項目，Scala直接編譯成Java位元組碼，性能接近Java。Scala是一個多範式的語言，你可以混合使用函數式和面向對象編程，混合使用可變類和不變類，混合使用Actor和傳統的Java並發庫。
短短一個月的時間，Scala於本月沖進了TIOBE的前五十名。一個 Twitter 的開發人員說過，Scala 將會成為現代 Web2.0 的發起語言。LinkedIn 也用這種語言。同樣許多其他大的公司如 Sony Picture, EDF, SAP 也開始使用這種語言。為什麼Scala發展這么迅猛，可以獲得如此熱烈的社區支持。
曾冠東還表示，Scala不是Java的殺手，它無法取代Java的地位，也突破不了JVM的限制、Java實現不了的功能它也實現不了。我們可以將Scala形象的理解成大量語法糖的Java。
Scala 開發團隊發布了最新的2.9.2穩定版本，Scala 語言的特性有許多，例如高階函數和對象、抽象類型綁定，actor 使得函數在 Scala 中能是一個子類成為可能，Scala 中的設計模式使得面向對象和函數編程無縫結合。Akka 是一個用 Scala 編寫的庫，用於簡化編寫容錯的、高可伸縮性的 Java 和 Scala 的 Actor 模型應用。它已經成功運用在電信行業。Spark 是一種可擴展的數據分析平台，它整合了內存計算的基元，因此，相對於 Hadoop 的集群存儲方法，它在性能方面更具優勢。Spark 是在 Scala 語言中實現的，並且利用了該語言，為數據處理提供了獨一無二的環境。Scala 編譯器可以生成位元組碼，直接運行在使用JVM上。該語言(它實際上代表了可擴展語言)被定義為可直接集成到語言中的簡單擴展。
Scala作為一門靜態語言，它的主要特性有哪些?
· Scala是面向對象的
Scala是一個純面向對象語言，在某種意義上來講所有數值都是對象。對象的類型和行為是由class和trait來描述的。Class的抽象可由子類化和一種靈活的基於mixin的組合機制(它可作為多重繼承的簡單替代方案)來擴展。
· Scala是函數式的
Scala還是一個函數式語言，在某種意義上來講所有函數都是數值。Scala為定義匿名函數提供了一種輕量級的語法，它支持高階(higher-order)函數、允許函數嵌套、支持局部套用(currying)。Scala的case類及其內置支持的模式匹配模型代數類型在許多函數式編程語言中都被使用。
· Scala是靜態類型的
Scala配備了一套富有表現力的類型系統，該抽象概念以一種安全的和一致的方式被使用。
· Scala是可擴展的
Scala的設計承認了實踐事實，領域特定應用開發通常需要領域特定語言擴展。Scala提供了一個獨特的語言組合機制，這可以更加容易地以類庫的形式增加新的語言結構：
任何方式可以被用作中綴(infix)或後綴(postfix)操作符閉包按照所期望的類型(目標類型)自動地被構造
兩者結合使用可方便地定義新語句，無需擴展語法，也無需使用類似宏的元編程工具。
· Scala可與Java和.NET進行互操作
Scala設計時就考慮了與流行編程環境良好交互，如Java 2運行時環境(JRE)和 .NET框架(CLR)。特別是與主流面向對象語言，如Java和C#盡量無縫交互。Scala有像Java和C#一樣的編譯模型(獨立編譯，動態裝載類)，允許訪問成千上萬的高質量類庫。
在並發性方面，與 Scala 在 .NET 領域中的姐妹語言 F# 相似，Scala 是針對「並發性問題」的解決方案之一，讓開發人員能夠更加輕松地專注於問題的實質，而不用考慮並發編程的低級細節。Actor 編程模式讓高度並行應用程序的開發更加簡單。Scala把Erlang風格的基於actor的並發帶進了JVM。我們可以利用Scala的actor模型在JVM上設計具伸縮性的並發應用程序，以自動獲得多核心處理器帶來的優勢，而不必依照復雜的Java線程模型來編寫程序。Scala 為並發性提供了兩種級別的支持，這與其他與 Java 相關的主題極為類似：
首先，對底層庫的完全訪問(比如說 java.util.concurrent)以及對「傳統」 Java 並發性語義的支持(比如說監控程序和wait()/notifyAll())。其次，這些基本機制上面有一個抽象層
Scala 提供了在穩定的高性能平台(Java 虛擬機)上生成的能力同時也是一門敏捷性語言。這一類型的語言也有其他的選擇，例如 Jython, JRuby, Groovy 和 Clojure, 但是這些都是運行在 JVM 上的動態類型語言。Open Class 的效果讓大家會覺得Scala是動態語言，但它是選擇隱式轉換來實現的，這也正好證明了Scala是靜態語言。隱式轉換(Implicit conversion)使 Scala 具有類型安全性，正如擴展方法(extension method)之於 C#，開放類(open class)之於 ruby。即：向未曾定義的類型添加方法(如字元串、列表、整數)。這是使得 Scala 符合 DSL(特定領域語言)模型的特性之一。
Scala結合了面向對象和函數編程的優勢，函數編程的一個好處就是你能夠像運用一個數據那樣運用函數，可以用來定義真正高層級的庫，或者去定義新的領域特殊語言(DSL)。

在談及Java與Scala的對比時，曾冠東表示，Scala能調用絕大部分的Java，而Java調用Scala獨有的東西會比較難。Java 擁有非常強的概念規范，因此任何一個 Java 程序之間具有非常多的相似之處，並且這樣能夠方便的進行程序員交替。但是 Scala 並沒有這樣的統一性，因為這是一門很有表現力的語言。現場曾冠東為我們演示了實際案例，如下圖所示：

正所謂，金無足赤，人無完人。Scala對二進制不兼容，語法也越來越復雜，不能突破Bytecode的限制、編譯速度有所緩慢。當它被廣泛用於單元測試、開發工具、Socket開發、以及面對多核挑戰的並發應用。總而言之，Scala是一種函數式面向對象語言，它融匯了許多前所未有的特性，而同時又運行於JVM之上。正如JRuby 創建者之一Charles Nutter 所宣稱的那樣Scala就是 Java 王位的合法繼承人。隨著開發者對Scala的興趣日增，以及越來越多的工具支持，無疑Scala語言將成為廣大軟體工程師手上一件必不可少的工具。

D. java web如何去調用一個spark程序

java web如何去調用一個spark程序

{;{voidonArticleSelected(intposition);}@OverridepublicvoidonCreate(BundlesavedInstanceState){super.onCreate(savedInstanceState);setListAdapter(newArrayAdapter<String>(getActivity(),R.layout.fragment_list,Ipsum.Headlines));}@OverridepublicvoidonAttach(Activityactivity){super.onAttach(activity);mCallback=(OnHeadlineSelectedListener)activity;}@(ListViewl,Viewv,intposition,longid){mCallback.onArticleSelected(position);getListView().setItemChecked(position,true);}}

E. spark可以用java開發嗎

Spark Framework - A tiny Java web framework
當然可以使用Java開發了

F. Java中常用的開發工具有哪些

常用的工具有：

Eclipse 據數據顯示很多Java開發人員的Java開發工具便是Eclipse，這主要得益於Eclipse是一個開源的、可以基於Java的可擴展開發平台。Eclipse本身而言，它只是一個框架和一組服務，但可以通過插件組件構建開發環境。
editplus EditPlus是一款由韓國 Sangil Kim （ES-Computing）開發的編輯器，可以作為C,Java,Php等等語言的一個簡單的IDE。EditPlus擁有無限制的撤消與重做、英文拼字檢查、自動換行、列數標記、搜尋取代、同時編輯多文件、全屏幕瀏覽功能，也是一款常見的Java開發工具。
NetBeans NetBeans提供了功能全面的陣列，如轉換器，編輯器和代碼分析器，使用這些工具可以幫助我們使用的Java技術實現應用程序。NetBeans工具范圍相當廣泛，是一款的Java開發工具。
Junit Junit是一個可以幫助Java開發人員編寫和運行測試的單元測試框架。JUnit和市場上其他類似的框架有著本質的區別。主要表現在你可以一次測試一個代碼塊，而不需要等待該模塊在運行測試前完成。實際上是你可以「先測試，然後寫代碼」
VisualVM VisualVM也是一款使用較多的Java開發工具。它最主要的功能便是可以排查故障，可以使用VisualVM整合多命令行JDK工具。如jvmstat、JMX和Serviceability Agent（SA）中使用VisualVM。VisualVM最出名的是附加了API，以獲得更多的數據，以及自動使用更快捷。
Gradle Gradle是一個自動化項目工具，是建立在Apache Maven和Apache Ant的功能上。雖然Gradle並不是的構建工具（的是Maven，64％的Java開發人員會選擇它），但它的普及速度很快。它同時也可作為默認的Android構建開發工具。
SparkJava SparkJava是一款體形輕巧，功能強大的Web應用框架。Spark可以通過一些繁瑣的XML配置來使用Spark框架編寫應用程序。能讓我們花最少的精力來開發Java的Web應用程序。是一款的Java web開發工具。
Clover Clover主要用於代碼覆蓋，可以幫助用於測試應用程序的代碼。我們可以在IDE或持續集成系統中運行Clover。能夠讓測試的運行速度更快。是Java開發測試必不可少的工具之一。

G. 如何用java代碼替代spark-submit腳本

例子：在開發web項目結合spark雲平台時遇到一個難題，當一個類繼承了ActionSupport成為一個action後，在它的method（）中不能調用spark程序（會報找不到spark jar包的錯誤，不知道怎麼解決）。
解決方案：把spark程序打包成jar文件，寫一個腳本，在action的method（）中調用這個腳本，運用spark-submit啟動spark程序。
腳本代碼，CRS.sh ：
/usr/local/spark/spark-1.0.0-bin-hadoop1/bin/spark-submit \
--class ar.runCourseCF \
--master local[4] \
/root/IdeaProjects/HelloWorld/web/WEB-INF/lib/test.jar
struts2 的 action類：
public class recommendationAction extends ActionSupport
implements ModelDriven<RecommendationArguments> {
private RecommendationArguments recommendation = new RecommendationArguments();
public String execute() throws Exception
{
//腳本路徑
String shellPath = "/root/IdeaProjects/HelloWorld/src/CRS.sh";
System.out.println(shellPath);
ShellUtil shell = new ShellUtil();
shell.runShell(shellPath);
return SUCCESS;
}
public RecommendationArguments getModel()
{
return recommendation;
}
}
java運行腳本的代碼：
public class ShellUtil {
public void runShell(String shellPath)
{
//String shellPath="/root/IdeaProjects/CRS.sh"; //程序路徑
try {
Process process = null;
//添加許可權
String command1 = "chmod 777 " + shellPath;
process = Runtime.getRuntime().exec(command1);
process.waitFor();
//用sh CRS.sh執行腳本
String command2 = "sh " + shellPath;
Runtime.getRuntime().exec(command2).waitFor();
}catch(Exception e)
{
System.out.println(e.toString());

http://www..com/s?wd=52014085078

H. 科普Spark，Spark是什麼，如何使用Spark

科普Spark，Spark是什麼，如何使用Spark

1.Spark基於什麼演算法的分布式計算（很簡單）

2.Spark與MapRece不同在什麼地方

3.Spark為什麼比Hadoop靈活

4.Spark局限是什麼

5.什麼情況下適合使用Spark

Spark與Hadoop的對比

Spark的中間數據放到內存中，對於迭代運算效率更高。

Spark更適合於迭代運算比較多的ML和DM運算。因為在Spark裡面，有RDD的抽象概念。

Spark比Hadoop更通用

Spark提供的數據集操作類型有很多種，不像Hadoop只提供了Map和Rece兩種操作。比如map, filter, flatMap, sample, groupByKey, receByKey, union, join, cogroup, mapValues, sort,partionBy等多種操作類型，Spark把這些操作稱為Transformations。同時還提供Count, collect, rece, lookup, save等多種actions操作。

這些多種多樣的數據集操作類型，給給開發上層應用的用戶提供了方便。各個處理節點之間的通信模型不再像Hadoop那樣就是唯一的Data Shuffle一種模式。用戶可以命名，物化，控制中間結果的存儲、分區等。可以說編程模型比Hadoop更靈活。

不過由於RDD的特性，Spark不適用那種非同步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。

容錯性

在分布式數據集計算時通過checkpoint來實現容錯，而checkpoint有兩種方式，一個是checkpoint data，一個是logging the updates。用戶可以控制採用哪種方式來實現容錯。

可用性

Spark通過提供豐富的Scala, Java，Python API及互動式Shell來提高可用性。

Spark與Hadoop的結合

Spark可以直接對HDFS進行數據的讀寫，同樣支持Spark on YARN。Spark可以與MapRece運行於同集群中，共享存儲資源與計算，數據倉庫Shark實現上借用Hive，幾乎與Hive完全兼容。

Spark的適用場景

Spark是基於內存的迭代計算框架，適用於需要多次操作特定數據集的應用場合。需要反復操作的次數越多，所需讀取的數據量越大，受益越大，數據量小但是計算密集度較大的場合，受益就相對較小（大資料庫架構中這是是否考慮使用Spark的重要因素）

由於RDD的特性，Spark不適用那種非同步細粒度更新狀態的應用，例如web服務的存儲或者是增量的web爬蟲和索引。就是對於那種增量修改的應用模型不適合。總的來說Spark的適用面比較廣泛且比較通用。

運行模式

本地模式

Standalone模式

Mesoes模式

yarn模式

Spark生態系統

Shark ( Hive on Spark): Shark基本上就是在Spark的框架基礎上提供和Hive一樣的H iveQL命令介面，為了最大程度的保持和Hive的兼容性，Shark使用了Hive的API來實現query Parsing和 Logic Plan generation，最後的PhysicalPlan execution階段用Spark代替Hadoop MapRece。通過配置Shark參數，Shark可以自動在內存中緩存特定的RDD，實現數據重用，進而加快特定數據集的檢索。同時，Shark通過UDF用戶自定義函數實現特定的數據分析學習演算法，使得SQL數據查詢和運算分析能結合在一起，最大化RDD的重復使用。

Spark streaming: 構建在Spark上處理Stream數據的框架，基本的原理是將Stream數據分成小的時間片斷（幾秒），以類似batch批量處理的方式來處理這小部分數據。Spark Streaming構建在Spark上，一方面是因為Spark的低延遲執行引擎（100ms+）可以用於實時計算，另一方面相比基於Record的其它處理框架（如Storm），RDD數據集更容易做高效的容錯處理。此外小批量處理的方式使得它可以同時兼容批量和實時數據處理的邏輯和演算法。方便了一些需要歷史數據和實時數據聯合分析的特定應用場合。

Bagel: Pregel on Spark，可以用Spark進行圖計算，這是個非常有用的小項目。Bagel自帶了一個例子，實現了Google的PageRank演算法。

End.

I. 怎麼開發一個基於spark的web實時查詢web程序

話說不需要吧，spark不是提供java的api嗎，直接在web後台引入spark的包然後調用api就能提交東西吧如果東西多本地放不下，在hdfs上的話，也可以調用得到的，沒必要非得打成包。我說的不是本地模式，是吧本地也看成是一個節點，雖然沒干過，不過本地壓力應該不小。

javaweb調用spark

與javaweb調用spark相關的內容