當前位置:首頁 » 數據倉庫 » 如何配置hadoop
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

如何配置hadoop

發布時間: 2022-01-30 01:45:48

如何配置Hadoop環境

安裝前設置
在安裝Hadoop之前,需要進入Linux環境下,連接Linux使用SSH(安全Shell)。按照下面提供的步驟設立Linux環境。
創建一個用
在開始時,建議創建一個單獨的用戶Hadoop以從Unix文件系統隔離Hadoop文件系統。按照下面給出的步驟來創建用戶:
使用 「su」 命令開啟root .
創建用戶從root帳戶使用命令 「useradd username」.
現在,可以使用命令打開一個現有的用戶帳戶「su username」.
打開Linux終端,輸入以下命令來創建一個用戶。
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd

SSH設置和密鑰生成
SSH設置需要在集群上做不同的操作,如啟動,停止,分布式守護shell操作。認證不同的Hadoop用戶,需要一種用於Hadoop用戶提供的公鑰/私鑰對,並用不同的用戶共享。
下面的命令用於生成使用SSH鍵值對。復制公鑰形成 id_rsa.pub 到authorized_keys 文件中,並提供擁有者具有authorized_keys文件的讀寫許可權。
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys

安裝Java
Java是Hadoop的主要先決條件。首先,應該使用命令「java-version」驗證 java 存在在系統中。 Java version 命令的語法如下。
$ java -version

如果一切順利,它會給下面的輸出。
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)

如果Java還未安裝在系統中,那麼按照下面的給出的步驟來安裝Java。
第1步
下載Java(JDK<最新版> - X64.tar.gz)
然後JDK-7u71-linux-x64.tar.gz將被下載到系統。
第2步
一般來說,在下載文件夾中的Java文件。使用下面的命令提取 jdk-7u71-linux-x64.gz文件。
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz

第3步
為了使Java提供給所有用戶,將它移動到目錄 「/usr/local/」。打開根目錄,鍵入以下命令。
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit

第4步
用於設置PATH和JAVA_HOME變數,添加以下命令到~/.bashrc文件。
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin

現在從終端驗證 java -version 命令如上述說明。
下載Hadoop
下載來自Apache基金會軟體,使用下面的命令提取 Hadoop2.4.1。
$ su
password:
# cd /usr/local
# wget http //apache claz org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit

Hadoop操作模式
下載 Hadoop 以後,可以操作Hadoop集群以以下三個支持模式之一:
本地/獨立模式:下載Hadoop在系統中,默認情況下之後,它會被配置在一個獨立的模式,用於運行Java程序。
模擬分布式模式:這是在單台機器的分布式模擬。Hadoop守護每個進程,如 hdfs, yarn, MapRece 等,都將作為一個獨立的java程序運行。這種模式對開發非常有用。
完全分布式模式:這種模式是完全分布式的最小兩台或多台計算機的集群。我們使用這種模式在未來的章節中。
在單機模式下安裝Hadoop
在這里,將討論 Hadoop2.4.1在獨立模式下安裝。
有單個JVM運行任何守護進程一切都運行。獨立模式適合於開發期間運行MapRece程序,因為它很容易進行測試和調試。
設置Hadoop
可以通過附加下面的命令到 ~/.bashrc 文件中設置 Hadoop 環境變數。
export HADOOP_HOME=/usr/local/hadoop

在進一步討論之前,需要確保Hadoop工作正常。發出以下命令:
$ hadoop version

如果設置的一切正常,那麼應該看到以下結果:
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum

這意味著Hadoop在獨立模式下工作正常。默認情況下,Hadoop被配置為在非分布式模式的單個機器上運行。

㈡ 如何配置Hadoop環境

Hadoop的偽分布式環境搭建(資源來於網路)

望採納,參考文獻:http://blog.csdn.net/u012342408/article/details/50520696

什麼是偽分布式?Hadoop 偽分布式模式是在一台機器上模擬Hadoop分布式,單機上的分布式並不是真正的分布式,而是使用線程模擬的分布式。分布式和偽分布式這兩種配置也很相似,唯一不同的地方是偽分布式是在一台機器上配置,也就是名位元組點(namenode)和數據節點(datanode)均是同一台機器。

需要配置的文件有core-site.xml和hdfs-site.xml這兩個文件他們都位於${HADOOP_HOME}/etc/hadoop/文件夾下。
其中core-site.xml:

1 <?xml version="1.0" encoding="UTF-8"?>
2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3 <!--
4 Licensed ...
-->
18
19 <configuration>
20 <property>
21 <name>hadoop.tmp.dir</name>
22 <value>file:/home/hadoop/tmp</value>
23 <description>Abase for other temporary directories.</description>
24 </property>
25 <property>
26 <name>fs.default.name</name>
27 <value>hdfs://master:9000</value>
28 </property>
29 </configuration> 1234567891011121314151617

文件hdfs-site.xml的配置如下:

1 <?xml version="1.0" encoding="UTF-8"?>
2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3 <!--
4 Licensed ...
-->
18
19 <configuration>
20 <property>
21 <name>dfs.replication</name>
22 <value>1</value>
23 </property>
24 <property>
25 <name>dfs.namenode.name.dir</name>
26 <value>file:/home/hadoop/tmp/dfs/name</value>
27 </property>
28 <property>
29 <name>dfs.datanode.data.dir</name>
30 <value>file:/home/hadoop/tmp/dfs/data</value>
31 </property>
32 </configuration>

配置完成後,執行格式化命令,使HDFS將制定的目錄進行格式化:

hdfs namenode -format1

若格式化成功,在臨近輸出的結尾部分可看到如下信息:

㈢ 如何配置Hadoop環境

詳細環境配置介紹如下:

Hadoop版本為0.20.2.

JDK版本為1.6.0.

操作系統為FreeBSD8.0(最小化安裝)

vc3(192.168.1.3)是Namenode(Master),其他三台作為Datenode(slave).

Hadoop是Java語言編寫的機群程序,他的安裝時建立在ssh和JDK之上的,所以在配置Hadoop之前首先要對系統進行ssh和JDK的安裝與配置。

1.下面首先來通過ssh來實現Hadoop節點之間用戶的無密碼訪問

(1).在各個節點的/etc/hosts文件中添加節點IP及對應機器名,並在各個節點上建立相同用戶名與密碼的賬戶。

修改/etc/hosts文件如下:

192.168.1.1 vc1

192.168.1.2 vc2

192.168.1.3 vc3

192.168.1.4 vc4

修改成功後就可以實現IP地址與機器名的對應解析。

在各個節點建立用戶名為Hadoop,密碼為123456的用戶。

(2).實現節點間通過ssh無密碼訪問。

在vc3的/home/hadoop目錄建立.ssh目錄。

mkdir .ssh //建立.ssh目錄

在/home/hadoop目錄下進行ssh配置。

ssh-keygen -t rsa //生成密匙對

cd /home/hadoop/.ssh

cp id_rsa.pub authorized_keys

chmod go-rwx authorized_keys //要正確設置文件的許可權644(即go-rwx)

scp -r /home/hadoop/.ssh vc1:/home/hadoop //將vc3中的.ssh文件夾內容復制到vc2節點的相同位置去。

scp -r /home/hadoop/.ssh vc2:/home/hadoop //同上

scp -r /home/hadoop/.ssh vc4:/home/hadoop //同上

(3).測試是否配置成功

同過ssh+機器名命令測試能否無密碼訪問其他計算機,如果無密碼訪問則配置成功。

例:vc1使用ssh vc3是否能無密碼訪問vc3,vc3使用ssh vc1是否能無密碼訪問vc1。(其他主機方法類似)

2.JDK的安裝

在這里利用ports安裝JDK。在安裝時要先下載如下幾個文件:

jdk-1_6_0_16-fcs-bin-b02-jrl-28_may_2008.jar

jdk-1_5_0_16-fcs-src-b02-jrl-28_may_2008.jar

tzupdater-1_3_12-2009a.zip

bsd-jdk16-patches-9.tar.bz2

diablo-caffe-freebsd7-i386-1.6.0_07-b02.tar.bz2

到usr/ports/distfiles/目錄,然後進入/usr/ports/java/jdk16進行安裝。在這里需要說的是在安裝JDK的時候最好安裝最新版本,即1.6.0,否則在後面的Hadoop運行過程中可能會出錯。

cd /usr/ports/java/jdk16 //進入jdk安裝目錄

make install clean //安裝jdk

還有一種安裝方法是去Sun官網下載JDK軟體包jdk-6u12-Linux-i586.bin進行安裝。(我沒試過,不知道行不行,只是提一下。)把下載的JDK軟體放到/home/hadoop目錄下,給軟體加上可執行許可權,如下:

chmod a+x jdk-6u12-Linux-i586.bin

運行jdk-6u12-Linux-i586.bin進行安裝。

./jdk-6u12-Linux-i586.bin

安裝完成後會在當前目錄生成jkd1.6.0_12文件夾。把生成的文件夾復制到/usr/java文件夾中。

mkdir /usr/java //新建java文件夾

cp -r jkd1.6.0_12 /usr/java

下載設置環境變數,修改/etc/profile文件。在該文件中添加如下代碼:

export JAVA_HOME"/usr/java/jkd1.6.0_12"

export PATH="$PATH :$JAVA_HOME/bin:$JAVA_HOME/jre/bin:"

export CLASSPATH ="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

保存後鍵入命令:

source /etc/profile

使環境變數設置生效。

安裝好JDK後可以通過which命令來測試JDK是否安裝成功:

which java

若是第一種方法顯示信息如下:

/usr/local/jdk1.6.0/bin/java

如是第二種方法顯示信息如下:

/usr/java/jkd1.6.0_12/bin/java

3.下來進行Hadoop的安裝和配置。

下載hadoop-0.20.2.tar.gz到/home/hadoop目錄,並解壓:

tar -vxzf hadoop-0.20.2.tar.gz //解壓hadoop到當前目錄

解壓完後進入/home/hadoop/hadoop-0.20.2/conf目錄進行配置。

cd /home/hadoop/hadoop-0.20.2/conf

(1).修改hadoop-env.sh配置文件如下:

export JAVA_HOME=/usr/local/jdk1.6.0

(2).修改masters和slaves配置文件如下:

masters文件:

192.168.1.3

slaves文件:

192.168.1.1

192.168.1.2

192.168.1.4

(3).修改core-site.xml文件如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://202.113.88.73:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/tmp/hadoop/hadoop-${user.name}</value>

</property>

</configuration>

(4).修改hdfs-site.xml文件如下:

=====line 1 col 0 lines from top 1 ============================================

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

(5).修改mapred-site.xml文件如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>202.113.88.73:9001</value>

</property>

</configuration>

配置文件修改完畢後格式化Namenode(運行Hadoop之前必須先進行格式化),進入/home/hadoop/hadoop-0.20.2/目錄,命令如下:

./bin/hadoop namenode -format

格式化完畢後就可以運行Hadoop了,命令如下:

./bin/start-all.sh //在/home/hadoop/hadoop-0.20.2/目錄下運行

如果要停止運行如下命令:

./bin/stop-all.sh //在/home/hadoop/hadoop-0.20.2/目錄下運行

到此,Hadoop的配置已經完成了.

㈣ 如何配置Hadoop環境

1)下載並解壓hadoop-0.20.203.0.修給解壓文件夾名字為hadoop-0.20.203

2)按上述所示將hadoop-0.20.203/bin路徑加到PATH環境變數中
sudo gedit/etc/profile

3)修改配置文件,配置文件都在hadoop-0.20.203/conf目錄下。
a.進到/hadoop-0.20.203/conf/hadoop-env.sh中,解注釋JAVA_HOME
修改為:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的臨時文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-節點個數配置,根據你自己的節點來設定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分別配置主節點和各個數據節點:
masters:中寫入namenode
slaves: 寫入datanode1
datanode2

㈤ 配置hadoop集群是怎麼配置

在過去,大數據處理主要是採用標准化的刀片式伺服器和存儲區域網路(SAN)來滿足網格和處理密集型工作負載。然而隨著數據量和用戶數的大幅增長,基礎設施的需求已經發生變化,硬體廠商必須建立創新體系,來滿足大數據對包括存儲刀片,SAS(串列連接SCSI)開關,外部SATA陣列和更大容量的機架單元的需求。即尋求一種新的方法來存儲和處理復雜的數據,Hadoop正是基於這樣的目的應運而生的。Hadoop的數據在集群上均衡分布,並通過復制副本來確保數據的可靠性和容錯性。因為數據和對數據處理的操作都是分布在伺服器上,處理指令就可以直接地發送到存儲數據的機器。這樣一個集群的每個伺服器器上都需要存儲和處理數據,因此必須對Hadoop集群的每個節點進行配置,以滿足數據存儲和處理要求。
Hadoop框架中最核心的設計是為海量數據提供存儲的HDFS和對數據進行計算的MapRece。MapRece的作業主要包括從磁碟或從網路讀取數據,即IO密集工作,或者是計算數據,即CPU密集工作。Hadoop集群的整體性能取決於CPU、內存、網路以及存儲之間的性能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節點選擇合適硬體類型。一個基本的Hadoop集群中的節點主要有:Namenode負責協調集群中的數據存儲,DataNode存儲被拆分的數據塊,Jobtracker協調數據計算任務,最後的節點類型是Secondarynamenode,幫助NameNode收集文件系統運行的狀態信息。

在集群中,大部分的機器設備是作為Datanode和TaskTracker工作的。Datanode/TaskTracker的硬體規格可以採用以下方案:
4個磁碟驅動器(單盤1-2T),支持JBOD
2個4核CPU,至少2-2.5GHz
16-24GB內存
千兆乙太網
Namenode提供整個HDFS文件系統的namespace管理,塊管理等所有服務,因此需要更多的RAM,與集群中的數據塊數量相對應,並且需要優化RAM的內存通道帶寬,採用雙通道或三通道以上內存。硬體規格可以採用以下方案:
8-12個磁碟驅動器(單盤1-2T)
2個4核/8核CPU
16-72GB內存
千兆/萬兆乙太網
Secondarynamenode在小型集群中可以和Namenode共用一台機器,較大的群集可以採用與Namenode相同的硬體。考慮到關鍵節點的容錯性,建議客戶購買加固的伺服器來運行的Namenodes和Jobtrackers,配有冗餘電源和企業級RAID磁碟。最好是有一個備用機,當 namenode或jobtracker 其中之一突然發生故障時可以替代使用。

目前市場上的硬體平台滿足Datanode/TaskTracker節點配置需求的很多,,據了解深耕網路安全硬體平台多年的立華科技瞄準了Hadoop的發展前景,適時推出了專門針對NameNode的設備----雙路至強處理器搭載12塊硬碟的FX-3411,將計算與存儲完美融合,四通道內存的最大容量可達到256GB,完全滿足NameNode對於一個大的內存模型和沉重的參考數據緩存組合的需求。

同時在網路方面,FX-3411支持的2個PCI-E*8的網路擴展,網路吞吐達到80Gbps,更是遠遠滿足節點對千兆乙太網或萬兆乙太網的需求。此外針對Datanode/TaskTracker等節點的配置需求,立華科技不僅推出了可支持單路至強E38核處理器和4塊硬碟的標准品FX-3210,還有可以全面客制化的解決方案,以滿足客戶的不同需求。

Hadoop集群往往需要運行幾十,幾百或上千個節點,構建匹配其工作負載的硬體,可以為一個運營團隊節省可觀的成本,因此,需要精心的策劃和慎重的選擇。

㈥ 如何配置一個環境變數HADOOP

典型的配置:

export HADOOP_HOME=/usr/local/hadoop

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

export YARN_HOME=$HADOOP_HOMEexport

YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop

export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
export

LD_LIBRARY_PATH=$JAVA_HOME/jre/lib/amd64/server:/usr/local/lib:$HADOOP_HOM

/lib/native

修改hadoop解壓文件名稱 :

mv hadoop-2.4.1 hadoop

將hadoop安裝目錄的許可權賦值為hadoop用戶:

chown -R hadoop:hadoop hadoop

創建Hadoop數據目錄,並賦予許可權:

[root@djt java]# mkdir -p /data/dfs/name

[root@djt java]# mkdir -p /data/dfs/data

[root@djt java]# mkdir -p /data/tmp

[root@djt java]# chown -R hadoop:hadoop hadoop /data/

[root@djt java]# ls -l /d

data/ dev/ [root@djt java]# ls -l /data/

total 8

drwxr-xr-x 4 hadoop hadoop 4096 May 21 17:26 dfs

drwxr-xr-x 2 hadoop hadoop 4096 May 21 17:26 tmp

1.1修改主機名

vim /etc/sysconfig/network

NETWORKING=yes

HOSTNAME=itcast ###

㈦ 如何配置Hadoop環境

用於測試,我用4台虛擬機搭建成了hadoop結構

host3,host4,的顯示結果,與host2相同。

㈧ 如何配置Hadoop環境

1)下載並解壓hadoop-0.20.203.0.修給解壓文件夾名字為hadoop-0.20.203
2)按上述所示將hadoop-0.20.203/bin路徑加到PATH環境變數中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目錄下。
a.進到/hadoop-0.20.203/conf/hadoop-env.sh中,解注釋JAVA_HOME
修改為:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的臨時文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-節點個數配置,根據你自己的節點來設定->
<value>2</value>
</property>
</configuration>

㈨ 如何配置Hadoop環境

1)下載並解壓hadoop-0.20.203.0.修給解壓文件夾名字為hadoop-0.20.203

2)按上述所示將hadoop-0.20.203/bin路徑加到PATH環境變數中
sudo gedit/etc/profile

3)修改配置文件,配置文件都在hadoop-0.20.203/conf目錄下。
a.進到/hadoop-0.20.203/conf/hadoop-env.sh中,解注釋JAVA_HOME
修改為:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的臨時文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-節點個數配置,根據你自己的節點來設定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-s www.hnne.com pecific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分別配置主節點和各個數據節點:
masters:中寫入namenode
slaves: 寫入datanode1
datanode2

㈩ 如何在Linux上安裝與配置Hadoop

一、安裝hadoop

1 因為hadoop是基於java的,所以要保證hadoop能找到在本地系統中大路徑,即正確設置java的環境變數。
詳細請看:linux 安裝配置jdk

2 到官網:http://www.apache.org/dyn/closer.cgi/hadoop/common/ 下載hadoop,
這里我選擇hadoop1.0.4

3 解壓到 /usr/local
tar -xvf hadoop-1.0.4.tar.gz

4 設置hadoop環境變數,為了使環境變數永久有效並對所有用戶有效,我們將下面兩句添加到/etc/profile

export HADOOP_HOME=/usr/local/hadoop-1.0.4
export PATH=$PATH:$HADOOP_HOME/bin

5 驗證hadoop是否可以運行
hadoop version

ok, 安裝成功!(?不算安裝吧,哈哈)

二、配置偽分布式模式

根據上面步驟安裝成功後,hadoop處於獨立模式即本機模式,在本機模式下,沒有運行守護進程,所有程序運行在單個JVM上。本機模式用於開發階段測試調試MapRece程序。偽分布模式用於在本機上模擬一個小規模的集群,全分布模式配置較為復雜,留作後面的文章。
1 配置hadoop
(1) 修改core-site.xml,設置namenode主機及hadoop文件系統

<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9001</value>
</property>
</configuration>

(2) 修改hdfs-site.xml,設置數據塊副本數目

<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

(3) 修改mapred-site.xml,設置jobtracker主機及埠

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>

(4)修改hadoop-env.sh,設置JAVA_HOME

在hadoop-env.sh中添加,本機中jdk路徑
export JAVA_HOME=/usr/local/jdk1.7.0

2 配置SSH
(1)如果沒有安裝SSH,安裝之:sudo apt-get install ssh
一般情況下,ubuntu默認安裝openssh-client,但沒有安裝server,我們需要先安裝server:
sudo apt-get install openssh-server

(2)基於空口令創建一個新的SSH密鑰,啟用無密碼登錄
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

(3)測試連接是否成功:
ssh localhost

3 格式化HDFS文件系統以創建一個空大文件系統
hadoop namenode -format

4 啟動守護系統HDFS和MapRece
start-dfs.sh
start-mapred.sh

5 查看守護進程啟動情況
jps

如果顯示:
10716 DataNode
11305 Jps
10938 SecondaryNameNode
10503 NameNode
11037 JobTracker
11251 TaskTracker

ok, hadoop偽分布模式配置成功!