如何配置hadoop集群_如何配置Hadoop環境

❶ 如何搭建一個hadoop集群

本文描述了如何安裝、配置和管理有實際意義的Hadoop集群，其規模可從幾個節點的小集群到幾千個節點的超大集群。
http://hadoop.apache.org/docs/r1.0.4/cn/cluster_setup.html
官方教程，請參考

❷ hadoop集群配置

你的配置文件mapred-site.xml有問題，估計是哪個配置項寫錯了，是否可以將此文件內容貼出來看看，最簡單的情況下mapred-site.xml的配置如下，一個自定義選項即可，以下是偽分布式或者單機部署配置，分布式將<value>修改為你的jobtracker節點即可。
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>localhost:9001</value>
</property>
</configuration>

❸ 如何搭建50t的hadoop集群

先決條件
確保在你集群中的每個節點上都安裝了所有必需軟體。
獲取Hadoop軟體包。
安裝
安裝Hadoop集群通常要將安裝軟體解壓到集群內的所有機器上。
通常，集群里的一台機器被指定為 NameNode，另一台不同的機器被指定為JobTracker。這些機器是masters。餘下的機器即作為DataNode也作為TaskTracker。這些機器是slaves。
我們用HADOOP_HOME指代安裝的根路徑。通常，集群里的所有機器的HADOOP_HOME路徑相同。
配置
接下來的幾節描述了如何配置Hadoop集群。
配置文件
對Hadoop的配置通過conf/目錄下的兩個重要配置文件完成：
hadoop-default.xml - 只讀的默認配置。
hadoop-site.xml - 集群特有的配置。
要了解更多關於這些配置文件如何影響Hadoop框架的細節，請看這里。
此外，通過設置conf/hadoop-env.sh中的變數為集群特有的值，你可以對bin/目錄下的Hadoop腳本進行控制。
集群配置
要配置Hadoop集群，你需要設置Hadoop守護進程的運行環境和Hadoop守護進程的運行參數。
Hadoop守護進程指NameNode/DataNode 和JobTracker/TaskTracker。
配置Hadoop守護進程的運行環境
管理員可在conf/hadoop-env.sh腳本內對Hadoop守護進程的運行環境做特別指定。
至少，你得設定JAVA_HOME使之在每一遠端節點上都被正確設置。
管理員可以通過配置選項HADOOP_*_OPTS來分別配置各個守護進程。下表是可以配置的選項。

❹ 如何構建最優化的Hadoop集群

本文將逐步介紹這些部分的安裝和配置：•網路體系結構•操作系統•硬體要求•Hadoop軟體安裝/設置網路架構根據我們目前能夠拿到的文檔，可以認為雲內的節點越在物理上接近，越能獲得更好的性能。根據經驗，網路延時越小，性能越好。為了減少背景流量，我們為這個雲創建了一個虛擬專用網。另外，還為應用伺服器們創建了一個子網，作為訪問雲的入口點。這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來，物理臨近性就不再是一個問題，我們應該通過環境測試來驗證這一點。建議的網路架構：•專用TOR(Top of Rack)交換機•使用專用核心交換刀片或交換機•確保應用伺服器「靠近」Hadoop•考慮使用乙太網綁定

操作系統我們選擇Linux作為操作系統。Linux有許多不同的發行版，包括Ubuntu、RedHat和CentOS等，無論選擇哪一個都可以。基於支持和許可費用的考慮，我們最終選擇了CentOS 5.7。最好是定製一個CentOS的映像，把那些需要的軟體都預裝進去，這樣所有的機器可以包含相同的軟體和工具，這是一個很好的做法。根據Cloudera的建議，OS層應該採用以下設置：•文件系統Ext3文件系統取消atime不要使用邏輯卷管理•利用alternatives來管理鏈接•使用配置管理系統(Yum、Permission、sudoers等)•減少內核交換•撤銷一般用戶訪問這些雲計算機的許可權•不要使用虛擬化•至少需要以下Linux命令：/etc/alternativesln、chmod、chown、chgrp、mount、umount、kill、rm、yum、mkdir硬體要求由於Hadoop集群中只有兩種節點(Namenode/Jobtracker和Datanode/Tasktracker)，因此集群內的硬體配置不要超過兩種或三種。

硬體建議：•Namenode/Jobtracker：1Gb/s乙太網口x2、16GB內存、4個CPU、100GB磁碟•Datanode：1Gb/s乙太網口x2、8GB內存、4個CPU、多個磁碟，總容量500GB以上實際的硬體配置可以與我們建議的配置不同，這取決於你們需要存儲和處理的數據量。但我們強烈建議不要在集群中混用不同的硬體配置，以免那些較弱的機器成為系統的瓶頸。Hadoop的機架感知Hadoop有一個「機架感知」特性。管理員可以手工定義每個slave數據節點的機架號。為什麼要做這么麻煩的事情?有兩個原因：防止數據丟失和提高網路性能。

為了防止數據丟失，Hadoop會將每個數據塊復制到多個機器上。想像一下，如果某個數據塊的所有拷貝都在同一個機架的不同機器上，而這個機架剛好發生故障了(交換機壞了，或者電源掉了)，這得有多悲劇?為了防止出現這種情況，必須要有一個人來記住所有數據節點在網路中的位置，並且用這些知識來確定——把數據的所有拷貝們放在哪些節點上才是最明智的。這個「人」就是Name Node。另外還有一個假設，即相比不同機架間的機器，同一個機架的機器之間有著更大的帶寬和更小的延時。這是因為，機架交換機的上行帶寬一般都小於下行帶寬。而且(+本站微信networkworldweixin)，機架內的延時一般也小於跨機架的延時(但也不絕對)。機架感知的缺點則是，我們需要手工為每個數據節點設置機架號，還要不斷地更新這些信息，保證它們是正確的。要是機架交換機們能夠自動向Namenode提供本機架的數據節點列表，那就太棒了。

❺ 如何搭建Hadoop集群

請使用cloudera

❻ 如何為Hadoop集群配置合適的硬體

如果要做Apache Hadoop集群，需要4-6個1TB的硬碟去支撐I\O讀寫，2-4個2-2.5Ghz的處理器，處理數據更快，最好用英特爾E3\5伺服器專用處理器，內存越大越好，起步64GB，千兆或萬兆的乙太網，有保障額哦，吞吐量隨著儲存而變化，需要的乙太網越高，就這些，希望可以採納我的答案

❼ 如何部署hadoop集群

根據我們目前能夠拿到的文檔，可以認為雲內的節點越在物理上接近，越能獲得更好的性能。根據經驗，網路延時越小，性能越好。
為了減少背景流量，我們為這個雲創建了一個虛擬專用網。另外，還為應用伺服器們創建了一個子網，作為訪問雲的入口點。
這個虛擬專用網的預計時延大約是1-2毫秒。這樣一來，物理臨近性就不再是一個問題，我們應該通過環境測試來驗證這一點。

❽ 如何配置Hadoop環境

安裝前設置
在安裝Hadoop之前，需要進入Linux環境下，連接Linux使用SSH(安全Shell)。按照下面提供的步驟設立Linux環境。
創建一個用
在開始時，建議創建一個單獨的用戶Hadoop以從Unix文件系統隔離Hadoop文件系統。按照下面給出的步驟來創建用戶：
使用「su」命令開啟root .
創建用戶從root帳戶使用命令「useradd username」.
現在，可以使用命令打開一個現有的用戶帳戶「su username」.
打開Linux終端，輸入以下命令來創建一個用戶。
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

SSH設置和密鑰生成
SSH設置需要在集群上做不同的操作，如啟動，停止，分布式守護shell操作。認證不同的Hadoop用戶，需要一種用於Hadoop用戶提供的公鑰/私鑰對，並用不同的用戶共享。
下面的命令用於生成使用SSH鍵值對。復制公鑰形成 id_rsa.pub 到authorized_keys 文件中，並提供擁有者具有authorized_keys文件的讀寫許可權。
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

安裝Java
Java是Hadoop的主要先決條件。首先，應該使用命令「java-version」驗證 java 存在在系統中。 Java version 命令的語法如下。
$ java -version

如果一切順利，它會給下面的輸出。
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

如果Java還未安裝在系統中，那麼按照下面的給出的步驟來安裝Java。
第1步
下載Java(JDK<最新版> - X64.tar.gz)
然後JDK-7u71-linux-x64.tar.gz將被下載到系統。
第2步
一般來說，在下載文件夾中的Java文件。使用下面的命令提取 jdk-7u71-linux-x64.gz文件。
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

第3步
為了使Java提供給所有用戶，將它移動到目錄「/usr/local/」。打開根目錄，鍵入以下命令。
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

第4步
用於設置PATH和JAVA_HOME變數，添加以下命令到~/.bashrc文件。
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

現在從終端驗證 java -version 命令如上述說明。
下載Hadoop
下載來自Apache基金會軟體，使用下面的命令提取 Hadoop2.4.1。
$ su
password:
# cd /usr/local
# wget http //apache claz org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Hadoop操作模式
下載 Hadoop 以後，可以操作Hadoop集群以以下三個支持模式之一：
本地/獨立模式：下載Hadoop在系統中，默認情況下之後，它會被配置在一個獨立的模式，用於運行Java程序。
模擬分布式模式：這是在單台機器的分布式模擬。Hadoop守護每個進程，如 hdfs, yarn, MapRece 等，都將作為一個獨立的java程序運行。這種模式對開發非常有用。
完全分布式模式：這種模式是完全分布式的最小兩台或多台計算機的集群。我們使用這種模式在未來的章節中。
在單機模式下安裝Hadoop
在這里，將討論 Hadoop2.4.1在獨立模式下安裝。
有單個JVM運行任何守護進程一切都運行。獨立模式適合於開發期間運行MapRece程序，因為它很容易進行測試和調試。
設置Hadoop
可以通過附加下面的命令到 ~/.bashrc 文件中設置 Hadoop 環境變數。
export HADOOP_HOME=/usr/local/hadoop

在進一步討論之前，需要確保Hadoop工作正常。發出以下命令：
$ hadoop version

如果設置的一切正常，那麼應該看到以下結果：
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum

這意味著Hadoop在獨立模式下工作正常。默認情況下，Hadoop被配置為在非分布式模式的單個機器上運行。

❾ 一台電腦能配置hadoop集群環境嗎

你需要裝個虛擬機，多虛擬出來幾台機，就可以部署hadoop了

❿ 如何使用HDFS高可用性設置Hadoop集群

如果考慮HDFS集群的標准配置，則NameNode將成為單點故障。發生這種情況是因為NameNode變得不可用的時候，整個集群都變得不可用，直到有人重新啟動NameNode或者引起新的NameNode。

NameNode不可用的原因可以是：

像維護工作這樣的計劃事件具有軟體或硬體的升級。
也可能是由於某種原因導致NameNode崩潰的意外事件。

在上述任何一種情況下，我們都有一個停機時間，我們無法使用HDFS集群，這成為一個挑戰。

如何配置hadoop集群

與如何配置hadoop集群相關的內容