⑴ 想學習大數據要掌握些什麼知識
想學習大數據要掌握些什麼知識?,學習大數據具體要學習什麼兩方面。
在學習大數據中具體學習的大概分為五類:
開發語言、大數據存儲、分布式計算、數據倉庫技術和機器學習。
學習的開發語言三種:java、python、scala.在大數據中語言重要程度為:java>scala>python.
大數據的分布式存儲有:Hdfs、Hbas、Redis、Mongedb.其中Redis是分布式存儲,其他三種是做大數據的分布離線存儲,海量數據在Hdfs中存儲。
大數據的分布式計算:Maprecer、Sparkstreamming、Spark Core、Fink.
數據倉庫技術:Hive、Sqoop、Flime.
機器學習:Mahout、Scikit leam、MLilb.
學習大數據還要掌握一點是,大數據的分布式計算(一):將該應用分解成許多小的部分,分配給多台計算機進行處理。這樣可以節約整體計算時間,大大提高計算效率。
離線分布式計算:在計算開始前已知所有輸入數據,輸入數據不會產生變化,並且計算之後直接產生結果。
特點:
數據量巨大且保存時間長
在大量數據上進行復雜的批量運算
數據在計算之前已經完全到位,不會發生變化
能夠方便地查詢批量計算的結果。
大數據的分布式計算(二)
流式分布式計算
對天規模流 動數據在不斷變化的運動過程中實時地進行計算,來-條數據就計算一下。
主要技術:
Spark Streamming
Storm
Flink
數據倉庫:離線數倉數據倉庫是一個面向主題的(Subject Oriented)、集成的(Integrate)、 相對穩定的(Non-Volatile) 、反映歷史變化(Time Variant)的數據集合,用於支持管理決策。
數倉理論基礎;數倉架構: Lambda架 構和Kappa架構離線數倉技術: Hive,Hbase, Sqoop, Kylin, MR等
實時數倉的概念
實時數倉技術; Flume,Kafka, Flink等。
因此,這就告訴我們,想要學習大數據應該先把基礎學習好,把大數據的體系理清楚。才能為更好地學習大數據做鋪墊
⑵ 請問mysql跟mysql server有什麼區別
你說的是誤人子弟,其實是同一樣東西,MySQL是客戶端,MySQL server是伺服器端