❶ 如何搭建一個hadoop集群
本文描述了如何安裝、配置和管理有實際意義的Hadoop集群,其規模可從幾個節點的小集群到幾千個節點的超大集群。
http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html
官方教程,請參考
❷ hadoop集群配置
你的配置文件mapred-site.xml有問題,估計是哪個配置項寫錯了,是否可以將此文件內容貼出來看看,最簡單的情況下mapred-site.xml的配置如下,一個自定義選項即可,以下是偽分布式或者單機部署配置,分布式將<value>修改為你的jobtracker節點即可。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>
❸ 如何搭建50t的hadoop集群
先決條件
確保在你集群中的每個節點上都安裝了所有必需軟體。
獲取Hadoop軟體包。
安裝
安裝Hadoop集群通常要將安裝軟體解壓到集群內的所有機器上。
通常,集群里的一台機器被指定為 NameNode,另一台不同的機器被指定為JobTracker。這些機器是masters。餘下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常,集群里的所有機器的HADOOP_HOME路徑相同。
配置
接下來的幾節描述了如何配置Hadoop集群。
配置文件
對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成:
hadoop-default.xml - 只讀的默認配置。
hadoop-site.xml - 集群特有的配置。
要了解更多關於這些配置文件如何影響Hadoop框架的細節,請看這里。
此外,通過設置conf/hadoop-env.sh中的變數為集群特有的值,你可以對bin/目錄下的Hadoop腳本進行控制。
集群配置
要配置Hadoop集群,你需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。
Hadoop守護進程指NameNode/DataNode 和JobTracker/TaskTracker。
配置Hadoop守護進程的運行環境
管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。
至少,你得設定JAVA_HOME使之在每一遠端節點上都被正確設置。
管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。 下表是可以配置的選項。
❹ 如何構建最優化的Hadoop集群
本文將逐步介紹這些部分的安裝和配置:•網路體系結構•操作系統•硬體要求•Hadoop軟體安裝/設置網路架構根據我們目前能夠拿到的文檔,可以認為雲內的節點越在物理上接近,越能獲得更好的性能。根據經驗,網路延時越小,性能越好。為了減少背景流量,我們為這個雲創建了一個虛擬專用網。另外,還為應用伺服器們創建了一個子網,作為訪問雲的入口點。這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來,物理臨近性就不再是一個問題,我們應該通過環境測試來驗證這一點。建議的網路架構:•專用TOR(Top of Rack)交換機•使用專用核心交換刀片或交換機•確保應用伺服器「靠近」Hadoop•考慮使用乙太網綁定
操作系統我們選擇Linux作為操作系統。Linux有許多不同的發行版,包括Ubuntu、RedHat和CentOS等,無論選擇哪一個都可以。基於支持和許可費用的考慮,我們最終選擇了CentOS 5.7。最好是定製一個CentOS的映像,把那些需要的軟體都預裝進去,這樣所有的機器可以包含相同的軟體和工具,這是一個很好的做法。根據Cloudera的建議,OS層應該採用以下設置:•文件系統Ext3文件系統取消atime不要使用邏輯卷管理•利用alternatives來管理鏈接•使用配置管理系統(Yum、Permission、sudoers等)•減少內核交換•撤銷一般用戶訪問這些雲計算機的許可權•不要使用虛擬化•至少需要以下Linux命令:/etc/alternativesln、chmod、chown、chgrp、mount、umount、kill、rm、yum、mkdir硬體要求由於Hadoop集群中只有兩種節點(Namenode/Jobtracker和Datanode/Tasktracker),因此集群內的硬體配置不要超過兩種或三種。
硬體建議:•Namenode/Jobtracker:1Gb/s乙太網口x2、16GB內存、4個CPU、100GB磁碟•Datanode:1Gb/s乙太網口x2、8GB內存、4個CPU、多個磁碟,總容量500GB以上實際的硬體配置可以與我們建議的配置不同,這取決於你們需要存儲和處理的數據量。但我們強烈建議不要在集群中混用不同的硬體配置,以免那些較弱的機器成為系統的瓶頸。Hadoop的機架感知Hadoop有一個「機架感知」特性。管理員可以手工定義每個slave數據節點的機架號。為什麼要做這么麻煩的事情?有兩個原因:防止數據丟失和提高網路性能。
為了防止數據丟失,Hadoop會將每個數據塊復制到多個機器上。想像一下,如果某個數據塊的所有拷貝都在同一個機架的不同機器上,而這個機架剛好發生故障了(交換機壞了,或者電源掉了),這得有多悲劇?為了防止出現這種情況,必須要有一個人來記住所有數據節點在網路中的位置,並且用這些知識來確定——把數據的所有拷貝們放在哪些節點上才是最明智的。這個「人」就是Name Node。另外還有一個假設,即相比不同機架間的機器,同一個機架的機器之間有著更大的帶寬和更小的延時。這是因為,機架交換機的上行帶寬一般都小於下行帶寬。而且(+本站微信networkworldweixin),機架內的延時一般也小於跨機架的延時(但也不絕對)。機架感知的缺點則是,我們需要手工為每個數據節點設置機架號,還要不斷地更新這些信息,保證它們是正確的。要是機架交換機們能夠自動向Namenode提供本機架的數據節點列表,那就太棒了。
❺ 如何搭建Hadoop集群
請使用cloudera
❻ 如何為Hadoop集群配置合適的硬體
如果要做Apache Hadoop集群,需要4-6個1TB的硬碟去支撐I\O讀寫,2-4個2-2.5Ghz的處理器,處理數據更快,最好用英特爾E3\5伺服器專用處理器,內存越大越好,起步64GB,千兆或萬兆的乙太網,有保障額哦,吞吐量隨著儲存而變化,需要的乙太網越高,就這些,希望可以採納我的答案
❼ 如何部署hadoop集群
根據我們目前能夠拿到的文檔,可以認為雲內的節點越在物理上接近,越能獲得更好的性能。根據經驗,網路延時越小,性能越好。
為了減少背景流量,我們為這個雲創建了一個虛擬專用網。另外,還為應用伺服器們創建了一個子網,作為訪問雲的入口點。
這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來,物理臨近性就不再是一個問題,我們應該通過環境測試來驗證這一點。
❽ 如何配置Hadoop環境
安裝前設置
在安裝Hadoop之前,需要進入Linux環境下,連接Linux使用SSH(安全Shell)。按照下面提供的步驟設立Linux環境。
創建一個用
在開始時,建議創建一個單獨的用戶Hadoop以從Unix文件系統隔離Hadoop文件系統。按照下面給出的步驟來創建用戶:
使用 「su」 命令開啟root .
創建用戶從root帳戶使用命令 「useradd username」.
現在,可以使用命令打開一個現有的用戶帳戶「su username」.
打開Linux終端,輸入以下命令來創建一個用戶。
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd
SSH設置和密鑰生成
SSH設置需要在集群上做不同的操作,如啟動,停止,分布式守護shell操作。認證不同的Hadoop用戶,需要一種用於Hadoop用戶提供的公鑰/私鑰對,並用不同的用戶共享。
下面的命令用於生成使用SSH鍵值對。復制公鑰形成 id_rsa.pub 到authorized_keys 文件中,並提供擁有者具有authorized_keys文件的讀寫許可權。
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
安裝Java
Java是Hadoop的主要先決條件。首先,應該使用命令「java-version」驗證 java 存在在系統中。 Java version 命令的語法如下。
$ java -version
如果一切順利,它會給下面的輸出。
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
如果Java還未安裝在系統中,那麼按照下面的給出的步驟來安裝Java。
第1步
下載Java(JDK<最新版> - X64.tar.gz)
然後JDK-7u71-linux-x64.tar.gz將被下載到系統。
第2步
一般來說,在下載文件夾中的Java文件。使用下面的命令提取 jdk-7u71-linux-x64.gz文件。
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
第3步
為了使Java提供給所有用戶,將它移動到目錄 「/usr/local/」。打開根目錄,鍵入以下命令。
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
第4步
用於設置PATH和JAVA_HOME變數,添加以下命令到~/.bashrc文件。
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
現在從終端驗證 java -version 命令如上述說明。
下載Hadoop
下載來自Apache基金會軟體,使用下面的命令提取 Hadoop2.4.1。
$ su
password:
# cd /usr/local
# wget http //apache claz org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
Hadoop操作模式
下載 Hadoop 以後,可以操作Hadoop集群以以下三個支持模式之一:
本地/獨立模式:下載Hadoop在系統中,默認情況下之後,它會被配置在一個獨立的模式,用於運行Java程序。
模擬分布式模式:這是在單台機器的分布式模擬。Hadoop守護每個進程,如 hdfs, yarn, MapRece 等,都將作為一個獨立的java程序運行。這種模式對開發非常有用。
完全分布式模式:這種模式是完全分布式的最小兩台或多台計算機的集群。我們使用這種模式在未來的章節中。
在單機模式下安裝Hadoop
在這里,將討論 Hadoop2.4.1在獨立模式下安裝。
有單個JVM運行任何守護進程一切都運行。獨立模式適合於開發期間運行MapRece程序,因為它很容易進行測試和調試。
設置Hadoop
可以通過附加下面的命令到 ~/.bashrc 文件中設置 Hadoop 環境變數。
export HADOOP_HOME=/usr/local/hadoop
在進一步討論之前,需要確保Hadoop工作正常。發出以下命令:
$ hadoop version
如果設置的一切正常,那麼應該看到以下結果:
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum
這意味著Hadoop在獨立模式下工作正常。默認情況下,Hadoop被配置為在非分布式模式的單個機器上運行。
❾ 一台電腦能配置hadoop集群環境嗎
你需要裝個虛擬機,多虛擬出來幾台機,就可以部署hadoop了
❿ 如何使用HDFS高可用性設置Hadoop集群
如果考慮HDFS集群的標准配置,則NameNode將成為單點故障。發生這種情況是因為NameNode變得不可用的時候,整個集群都變得不可用,直到有人重新啟動NameNode或者引起新的NameNode。
NameNode不可用的原因可以是:
像維護工作這樣的計劃事件具有軟體或硬體的升級。
也可能是由於某種原因導致NameNode崩潰的意外事件。
在上述任何一種情況下,我們都有一個停機時間,我們無法使用HDFS集群,這成為一個挑戰。