A. hadoop怎麼關閉web訪問功能
不關閉防火牆。hadoop關閉web訪問功能需要不關防火牆,NameNode需要有兩台機器,且兩台機器的軟體配置需要相同,比如JDK的版本、Hadoop的版本等。
B. 如何把web應用搭建到hadoop平台
web應用是實時的應用。而hadoop平台是用來處理非實時數據的。
所以,通常是超大數據用hadoop處理,結果返回資料庫(或hbase)中,web應用調用資料庫。
C. hadoop怎樣開發web程序
其實,你弄錯了hadoop的真正意圖。首先,hadoop不適合於開發WEB程序。hadoop的優勢在於大規模的分布式數據處理。負責數據的分析並採用分布式資料庫(hbase)來存儲。但是,hadoop有個特點是,所有的數據處理作業都是批處理的,也就是說hadoop在實時性上是不佔優勢的。對於WEB應用來說,你也許可以做的是,將系統的數據處理部分分離出來交給hadoop去做。關於hadoop的數據處理有一個專門的工具:hive。hive是基於Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張資料庫表,並提供完整的sql查詢功能,可以將sql語句轉換為 MapRece任務進行運行。 其優點是學習成本低,可以通過類SQL語句快速實現簡單的MapRece統計,不必開發專門的MapRece應用,十分適合數據倉庫的統計分析。 希望對你有幫助
D. hadoop web管理Hue,Ambari 和CM 的區別是什麼
1.hue是什麼?
hue是hadoop生態系統的統一webUI。你可以通過hue的界面,鏈接hive,發出hive語句。這個類似phpmysql。 你可以瀏覽hdfs的文件。 你可以定義oozie的工作流,可以寫pig的腳本,可以配置zookeeper,可以可視化的配置kafka。總之,hue的目標就是作一個hadoop各種生態組建的webUI的平台。
hue既然是平台,那組件就是app。參考這里。App Store | Hue
我未來的工作會讀hue的 python代碼,挖掘更多hue的功能。國內有hue的玩家,或者感興趣的玩家,歡迎一起交流噢。
2.clouera manager。
是管理hadoop集群運維的webUI。你可以用cloudera manager在集群中,簡單的搭建hadoop,hbase集群。通過cloudera manager,你能看到哪些datenode結點和namenode 結點聯結有問題了,哪些磁碟快滿了,哪些cpu高,哪些磁碟io高。等等。 當你有個datenode的一塊硬碟壞了時,你可以在cm中輕松的把這個datenode先停止工作,然後把結點移除。在磁碟修好了之後,再添加回集群。 當你新添加了一批機器,需要運行集群負載平衡的指令時,cm也能簡單滿足。 cloudera manager的用處,是用來簡化hadoop運維人員的工作門檻的,webUI所見所得,提高效率。
更詳細的clouderamanager介紹,就去cm的官網擼文檔吧。Cloudera QuickStart
3.ambari
做hadoop商業化的公司,有3家比較大的。cloudera manager 、 hortonworks、mapR.
這里是個簡單的對比 Cloudera vs. Hortonworks vs. MapR
一句話。cloudera manager的自家管理套件就是同名的cm。 ambari是hortonworks公司的,純開源的用來對標cm的hadoop生態管理套件。
E. hadoop web 訪問端是怎樣配置文件
1、masters記錄的是需要啟動secondary namenode的節點, 不是namenode,它也和maprece沒任何關系。
slaves記錄的是需要執行start-all.sh(或相關命令)時,需要遠程啟動tasktracker與datanode的節點。
2、這2個文件不需要分發至各個工作節點。
3、哪個機器執行啟動腳本,那它就是jobtracke與namenode,再根據masters確定secondary namenode, 根據slaves文件確定tasktracker與datanode,並遠程啟動這些守護進程。
F. hadoop適合解決web 的高並發嗎
hadoop適合處理分布式集群系統,本身是支持高速並發海量數據的寫入和讀取的。解決大量用戶並發訪問的方案有很多,給你個千萬pv的參考方案:
1)架構中直接引入軟體名稱的模塊,是個人推薦使用的,如Haproxy、Hadoop等;
2)關於全局負載均衡,看成本投入情況,可以使用商業的產品,如F5-GTM,開源方案便是自搭智能DNS;
3)本地負載均衡方案,可以考慮F5-LTM或成熟的開源解決方案LVS;
4)代理層為什麼推薦大家使用Haproxy?Haproxy是一個非常優秀的反向代理軟體,十分高效、穩定。國內top 10的互聯網公司都有在使用;
5)緩存層可以使用Squid或Varnish,個人更傾向Varnish。配置靈活、運行穩定,提供非常便利的管理介面。為啥在緩存層前面加一層代理?優點非常多,列舉如下:
根據應用配置URI路由規則,集中熱點來提高後端緩存的命中率;
輕松劃分網站頻道、版塊,更好對應用進步組織、規劃;
對URI進行一般性安全過濾,抵禦注入攻擊;
彈性調配硬體資源,應對突發事件產生大流量;
可回收寶貴的公網IP資源;
6)應用層開源技術方案非常多且成熟,在此不詳細描述;
7)資料庫層主流開源解決方案Mysql是首選,主從復制(一主對多從)是目前比較靠譜的模式;
8)關於Nosql,應用場景不多說,可參考「給部門做的Mongodb技術交流PPT」文章,redis、memcached等作為熱點數據存儲、資料庫緩存都非常理想;
9)內網DNS扮演的角色非常重要,一定要消滅code中出現的內網IP地址,很大程度減少因IP變更、伺服器故障而修改源碼的情況,同時也便於維護;
10)內網LB適用在內部WEB介面、多台資料庫Slave、多台Nosql Slave、公共服務等應用的負載均衡,可以使用LVS、Haproxy來實現,可用性要求不高的應用可行直接使用Localhost DNS輪詢;
11)hadoop適合海量數據的存儲與處理,如做網站日誌分析、用戶數據挖掘等;
12)管理集群,平台的核心,運維的陣地;
G. hadoop的web管理界面打不開怎麼辦
在虛擬機上安裝了Hadoop,安裝情況如下:
192.168.220.129 master
192.168.220.130 slave1
192.168.220.131 slave2
配置好各個ip後,在虛擬系統中可以訪問,http://192/168.220.129:50070 ,但是在筆記本的window上不能訪問
使用命令查看如下:
H. hadoop在web開發中的應用
hadoop主要Map/Rece編程方式
hadoop 實現分布式,之後可以運算或是用hbase存儲;
web是你的項目,側重前台的展示或相關業務員邏輯;
I. 怎樣通過web前端把數據傳至hadoop里
hadoop跑在伺服器上,屬於後台。
web前端屬於前台。
首先得把數據從前台傳到後台,然後再從後台傳入hadoop是這么個思路。
從前台傳入後台,就是標準的web傳值,表單也好ajax也好,然後後台用個struts的action啊或者servelt么得接收一下。
然後傳入hadoop就好辦了,寫入文件么的都可以,後台就簡單了,不多說了。
J. hadoop web管理Hue,Ambari 和CM 的區別是什麼
親,很高興為您解答,HortonworksHadoop區別於其他的Hadoop發行版(如Cloudera)的根本就在於,Hortonworks的產品均是百分之百開源。Cloudera有免費版和企業版,企業版只有試用期。apachehadoop則是原生的hadoop。目前在中國流行的是apachehadoop,ClouderaCDH,當然Hortonworks也有用的ApacheAmbari是一個基於web的工具,用於配置、管理和監視ApacheHadoop集群,支持HadoopHDFS,、HadoopMapRece、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapRece、Pig、Hive應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。希望能幫助到您,望採納!