A. hadoop的幾個常用Web UI界面
說明:要更改上面參數的內容,可以敗橡哪到${HADOOP_HOME}/etc/hadoop下進行修察碼改:分別對應hdfs-default.xml, mapred-site.xml ,如談yarn-site.xml新增或修改該參數,重啟伺服器生效。
http://node01:50070/
http://node01:19888/jobhistory
http://node01:8088/cluster/apps
B. hadoop在web開發中的應用
hadoop主要Map/Rece編程方式
hadoop 實現分布式,之後可以運算或是用hbase存儲;
web是你的項目,側重前台的展示或相關業務員邏輯;
C. hadoop適合解決web 的高並發嗎
hadoop適合處理分布式集群系統,本身是支持高速並發海量數據的寫入和讀取的。解決大量用戶並發訪問的方案有很多,給你個千萬pv的參考方案:
1)架構中直接引入軟體名稱的模塊,是個人推薦使用的,如Haproxy、Hadoop等;
2)關於全局負載均衡,看成本投入情況,可以使用商業的產品,如F5-GTM,開源方案便是自搭智能DNS;
3)本地負載均衡方案,可以考慮F5-LTM或成熟的開源解決方案LVS;
4)代理層為什麼推薦大家使用Haproxy?Haproxy是一個非常優秀的反向代理軟體,十分高效、穩定。國內top 10的互聯網公司都有在使用;
5)緩存層可以使用Squid或Varnish,個人更傾向Varnish。配置靈活、運行穩定,提供非常便利的管理介面。為啥在緩存層前面加一層代理?優點非常多,列舉如下:
根據應用配置URI路由規則,集中熱點來提高後端緩存的命中率;
輕松劃分網站頻道、版塊,更好對應用進步組織、規劃;
對URI進行一般性安全過濾,抵禦注入攻擊;
彈性調配硬體資源,應對突發事件產生大流量;
可回收寶貴的公網IP資源;
6)應用層開源技術方案非常多且成熟,在此不詳細描述;
7)資料庫層主流開源解決方案Mysql是首選,主從復制(一主對多從)是目前比較靠譜的模式;
8)關於Nosql,應用場景不多說,可參考「給部門做的Mongodb技術交流PPT」文章,redis、memcached等作為熱點數據存儲、資料庫緩存都非常理想;
9)內網DNS扮演的角色非常重要,一定要消滅code中出現的內網IP地址,很大程度減少因IP變更、伺服器故障而修改源碼的情況,同時也便於維護;
10)內網LB適用在內部WEB介面、多台資料庫Slave、多台Nosql Slave、公共服務等應用的負載均衡,可以使用LVS、Haproxy來實現,可用性要求不高的應用可行直接使用Localhost DNS輪詢;
11)hadoop適合海量數據的存儲與處理,如做網站日誌分析、用戶數據挖掘等;
12)管理集群,平台的核心,運維的陣地;
D. hadoop web 訪問端是怎樣配置文件
1、masters記錄的是需要啟動secondary namenode的節點, 不是namenode,它也和maprece沒任何關系。
slaves記錄的是需要執行start-all.sh(或相關命令)時,需要遠程啟動tasktracker與datanode的節點。
2、這2個文件不需要分發至各個工作節點。
3、哪個機器執行啟動腳本,那它就是jobtracke與namenode,再根據masters確定secondary namenode, 根據slaves文件確定tasktracker與datanode,並遠程啟動這些守護進程。