當前位置:首頁 » 數據倉庫 » hadoop如何配置
擴展閱讀
webinf下怎麼引入js 2023-08-31 21:54:13
堡壘機怎麼打開web 2023-08-31 21:54:11

hadoop如何配置

發布時間: 2022-01-25 14:51:52

A. 如何配置hadoop環境變數

參考 export 變數。
環境變數就和變數一樣使用,echo 變數就出來了。

B. 如何配置hadoop偽分布式配置

0.關閉防火牆
service iptables start;#立即開啟防火牆,但是重啟後失效。
service iptables stop;#立即關閉防火牆,但是重啟後失效。

重啟後生效
chkconfig iptables on;#開啟防火牆,重啟後生效
chkconfig iptables off;#關閉防火牆,重啟後生效

1.配置主機名
!!!!!注意安裝hadoop的集群主機名不能有下劃線!!不然會找不到主機!無法啟動!
配置主機名
$vi /etc/sysconfig/network
$source /etc/sysconfig/network
例如:
NETWORKING=yes
HOSTNAME=hadoop01

2.配置Hosts
vi /etc/hosts
填入以下內容
127.0.0.1 hadoop01
其他主機和ip對應信息。。。

3.配置面密碼互通
生成自己的公鑰和私鑰,生成的公私鑰將自動存放在/root/.ssh目錄下。
$ ssh-keygen
把生成的公鑰到遠程機器上
$ ssh--id [user]@[host]
此時在遠程主機的/root/.ssh/authorized_keys文件中保存了公鑰,在known_hosts中保存了已知主機信息,當再次訪問的時候就不需要輸入密碼了。
$ ssh [host]
通過此命令遠程連接,檢驗是否可以不需密碼連接

4.安裝JDK
通過fz將jdk安裝包上傳
解壓安裝包
tar -zxvf [jdk安裝包位置]
配置環境變數
修改profile -- 這個文件是每個用戶登錄時都會運行的環境變數設置,當用戶第一次登錄時,該文件被執行. 並從/etc/profile.d目錄的配置文件中搜集shell的設置。
vim /etc/profile
在文件行尾加入配置後保存退出
export JAVA_HOME=/home/app/jdk1.7.0_45/
export PATH=$PATH:$JAVA_HOME/bin
重新載入profile使配置生效
source /etc/profile
環境變數配置完成,測試環境變數是否生效
echo $JAVA_HOME
java -version

5.安裝hadoop
通過fz將hadoop安裝包上傳到linux
解壓安裝包
tar -zxvf [hadoop安裝包位置]

6.配置hadoop
(1)修改 hadoop-env.sh
通過vim打開
vim [hadoop]/etc/hadoop/hadoop-env.sh
主要是修改java_home的路徑
在hadoop-env.sh的第27行,把export JAVA_HOME=${JAVA_HOME}修改成具體的路徑
重新載入使修改生效
source hadoop-env.sh
(2)修改 core-site.xml
通過vim打開
vim [hadoop]/etc/hadoop/core-site.xml
增加namenode配置、文件存儲位置配置
<configuration>
<property>
<!--用來指定hdfs的老大,namenode的地址-->
<name>fs.defaultFS</name>
<value>hdfs://hadoop01:9000</value>
</property>
<property>
<!--用來指定hadoop運行時產生文件的存放目錄-->
<name>hadoop.tmp.dir</name>
<value>/home/park/work/hadoop-2.5.2/tmp</value>
</property>
</configuration>
(3)修改 hdfs-site.xml
通過vim打開
vim [hadoop]/etc/hadoop/hdfs-site.xml
配置包括自身在內的備份副本數量。
<configuration>
<property>
<!--指定hdfs保存數據副本的數量,包括自己,默認為3-->
<!--偽分布式模式,此值必須為1-->
<name>dfs.replication</name>
<value>3</value>
</property>
</configuration>

(4)修改 mapred-site.xml
說明:在/etc/hadoop的目錄下,只有一個mapred-site.xml.template文件,復制一個
cp mapred-site.xml.template mapred-site.xml
通過vim打開
vim [hadoop]/etc/hadoop/mapred-site.xml
配置maprece運行在yarn上
<configuration>
<property>
<!--指定maprece運行在yarn上-->
<name>maprece.framework.name</name>
<value>yarn</value>
</property>
</configuration>

(5)修改 yarn-site.xml
通過vim打開
vim [hadoop]/etc/hadoop/yarn-site.xml
配置
<configuration>
<property>
<!--指定yarn的老大resourcemanager的地址-->
<name>yarn.resourcemanager.hostname</name>
<value>hadoop01</value>
</property>
<property>
<!--NodeManager獲取數據的方式-->
<name>yarn.nodemanager.aux-services</name>
<value>maprece_shuffle</value>
</property>
</configuration>

(6)修改 slaves

(7)配置hadoop的環境變數
vim /etc/profile
export HADOOP_HOME=/home/park/work/hadoop-2.5.2/
export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin
重新載入profile使配置生效
source /etc/profile
環境變數配置完成,測試環境變數是否生效
echo $HADOOP_HOME

(8)重啟linux
$reboot
????為什麼需要重啟配置文件才起作用?原因不明????
(8)格式化namenode
進入 hadoop/bin 輸入命令格式化namenode
hadoop namenode -format(hdfs namenode -format 以前的方式)
在格式化的時候,會有這樣的輸出:
Storage directory /tmp/hadoop-root/dfs/name has been successfully formatted

7.啟動hadoop
在/home/app/hadoop-2.6.0/sbin目錄下
$start-all.sh

8.關閉hadoop
在/home/app/hadoop-2.6.0/sbin目錄下
$stop-all.sh

9.hdfs命令
hadoop fs -mkdir /user/trunk
hadoop fs -ls /user
hadoop fs -lsr /user (遞歸的)
hadoop fs -put test.txt /user/trunk
hadoop fs -put test.txt . (復制到hdfs當前目錄下,首先要創建當前目錄)
hadoop fs -get /user/trunk/test.txt . (復制到本地當前目錄下)
hadoop fs -cat /user/trunk/test.txt
hadoop fs -tail /user/trunk/test.txt (查看最後1000位元組)
hadoop fs -rm /user/trunk/test.txt
hadoop fs -rmdir /user/trunk
hadoop fs -help ls (查看ls命令的幫助文檔)

10.通過瀏覽器訪問hadoop管理頁面
http://[server_ip]:50070
**如果訪問不了有可能是伺服器50070埠被關閉了。通過如下方式打開50070埠:
service iptables status #查詢防火牆狀態
service iptables start #開啟防火牆
iptables -I INPUT -p tcp --dport 80 -j ACCEPT #開通特定埠
iptables -I INPUT -p tcp --dport 80 -j DROP #關閉特定埠
service iptables save #保存配置
service iptables restart #重啟防火牆

C. 如何配置Hadoop環境

1)下載並解壓hadoop-0.20.203.0.修給解壓文件夾名字為hadoop-0.20.203
2)按上述所示將hadoop-0.20.203/bin路徑加到PATH環境變數中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目錄下。
a.進到/hadoop-0.20.203/conf/hadoop-env.sh中,解注釋JAVA_HOME
修改為:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的臨時文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-節點個數配置,根據你自己的節點來設定->
<value>2</value>
</property>
</configuration>

D. hadoop的hdfs是怎麼配置

① 保存多個副本,且提供容錯機制,副本丟失或宕機自動恢復。默認存3份。
② 運行在廉價的機器上。
③ 適合大數據的處理。多大?多小?HDFS默認會將文件分割成block,64M為1個block。然後將block按鍵值對存儲在HDFS上,並將鍵值對的映射存到內存中。如果小文件太多,那內存的負擔會很重。

E. hadoop中怎麼設置配置文件

iTools電腦軟體,製作好了鏈接手機拖到手機的鈴聲裡面就行了,然後手機打開設置就有了。

F. 如何配置Hadoop環境

詳細環境配置介紹如下:

Hadoop版本為0.20.2.

JDK版本為1.6.0.

操作系統為FreeBSD8.0(最小化安裝)

vc3(192.168.1.3)是Namenode(Master),其他三台作為Datenode(slave).

Hadoop是Java語言編寫的機群程序,他的安裝時建立在ssh和JDK之上的,所以在配置Hadoop之前首先要對系統進行ssh和JDK的安裝與配置。

1.下面首先來通過ssh來實現Hadoop節點之間用戶的無密碼訪問。

(1).在各個節點的/etc/hosts文件中添加節點IP及對應機器名,並在各個節點上建立相同用戶名與密碼的賬戶。

修改/etc/hosts文件如下:

192.168.1.1 vc1

192.168.1.2 vc2

192.168.1.3 vc3

192.168.1.4 vc4

修改成功後就可以實現IP地址與機器名的對應解析。

在各個節點建立用戶名為Hadoop,密碼為123456的用戶。

(2).實現節點間通過ssh無密碼訪問。

在vc3的/home/hadoop目錄建立.ssh目錄。

mkdir .ssh //建立.ssh目錄

在/home/hadoop目錄下進行ssh配置。

ssh-keygen -t rsa //生成密匙對

cd /home/hadoop/.ssh

cp id_rsa.pub authorized_keys

chmod go-rwx authorized_keys //要正確設置文件的許可權644(即go-rwx)

scp -r /home/hadoop/.ssh vc1:/home/hadoop //將vc3中的.ssh文件夾內容復制到vc2節點的相同位置去。

scp -r /home/hadoop/.ssh vc2:/home/hadoop //同上

scp -r /home/hadoop/.ssh vc4:/home/hadoop //同上

(3).測試是否配置成功

同過ssh+機器名命令測試能否無密碼訪問其他計算機,如果無密碼訪問則配置成功。

例:vc1使用ssh vc3是否能無密碼訪問vc3,vc3使用ssh vc1是否能無密碼訪問vc1。(其他主機方法類似)

2.JDK的安裝

在這里利用ports安裝JDK。在安裝時要先下載如下幾個文件:

jdk-1_6_0_16-fcs-bin-b02-jrl-28_may_2008.jar

jdk-1_5_0_16-fcs-src-b02-jrl-28_may_2008.jar

tzupdater-1_3_12-2009a.zip

bsd-jdk16-patches-9.tar.bz2

diablo-caffe-freebsd7-i386-1.6.0_07-b02.tar.bz2

到usr/ports/distfiles/目錄,然後進入/usr/ports/java/jdk16進行安裝。在這里需要說的是在安裝JDK的時候最好安裝最新版本,即1.6.0,否則在後面的Hadoop運行過程中可能會出錯。

cd /usr/ports/java/jdk16 //進入jdk安裝目錄

make install clean //安裝jdk

還有一種安裝方法是去Sun官網下載JDK軟體包jdk-6u12-Linux-i586.bin進行安裝。(我沒試過,不知道行不行,只是提一下。)把下載的JDK軟體放到/home/hadoop目錄下,給軟體加上可執行許可權,如下:

chmod a+x jdk-6u12-Linux-i586.bin

運行jdk-6u12-Linux-i586.bin進行安裝。

./jdk-6u12-Linux-i586.bin

安裝完成後會在當前目錄生成jkd1.6.0_12文件夾。把生成的文件夾復制到/usr/java文件夾中。

mkdir /usr/java //新建java文件夾

cp -r jkd1.6.0_12 /usr/java

下載設置環境變數,修改/etc/profile文件。在該文件中添加如下代碼:

export JAVA_HOME"/usr/java/jkd1.6.0_12"

export PATH="$PATH :$JAVA_HOME/bin:$JAVA_HOME/jre/bin:"

export CLASSPATH ="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"

保存後鍵入命令:

source /etc/profile

使環境變數設置生效。

安裝好JDK後可以通過which命令來測試JDK是否安裝成功:

which java

若是第一種方法顯示信息如下:

/usr/local/jdk1.6.0/bin/java

如是第二種方法顯示信息如下:

/usr/java/jkd1.6.0_12/bin/java

3.下來進行Hadoop的安裝和配置。

下載hadoop-0.20.2.tar.gz到/home/hadoop目錄,並解壓:

tar -vxzf hadoop-0.20.2.tar.gz //解壓hadoop到當前目錄

解壓完後進入/home/hadoop/hadoop-0.20.2/conf目錄進行配置。

cd /home/hadoop/hadoop-0.20.2/conf

(1).修改hadoop-env.sh配置文件如下:

export JAVA_HOME=/usr/local/jdk1.6.0

(2).修改masters和slaves配置文件如下:

masters文件:

192.168.1.3

slaves文件:

192.168.1.1

192.168.1.2

192.168.1.4

(3).修改core-site.xml文件如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>fs.default.name</name>

<value>hdfs://202.113.88.73:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/tmp/hadoop/hadoop-${user.name}</value>

</property>

</configuration>

(4).修改hdfs-site.xml文件如下:

=====line 1 col 0 lines from top 1 ============================================

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>dfs.replication</name>

<value>1</value>

</property>

</configuration>

(5).修改mapred-site.xml文件如下:

<?xml version="1.0"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>

<property>

<name>mapred.job.tracker</name>

<value>202.113.88.73:9001</value>

</property>

</configuration>

配置文件修改完畢後格式化Namenode(運行Hadoop之前必須先進行格式化),進入/home/hadoop/hadoop-0.20.2/目錄,命令如下:

./bin/hadoop namenode -format

格式化完畢後就可以運行Hadoop了,命令如下:

./bin/start-all.sh //在/home/hadoop/hadoop-0.20.2/目錄下運行

如果要停止運行如下命令:

./bin/stop-all.sh //在/home/hadoop/hadoop-0.20.2/目錄下運行

到此,Hadoop的配置已經完成了.

G. 配置hadoop集群是怎麼配置的

在過去,大數據處理主要是採用標准化的刀片式伺服器和存儲區域網路(SAN)來滿足網格和處理密集型工作負載。然而隨著數據量和用戶數的大幅增長,基礎設施的需求已經發生變化,硬體廠商必須建立創新體系,來滿足大數據對包括存儲刀片,SAS(串列連接SCSI)開關,外部SATA陣列和更大容量的機架單元的需求。即尋求一種新的方法來存儲和處理復雜的數據,Hadoop正是基於這樣的目的應運而生的。Hadoop的數據在集群上均衡分布,並通過復制副本來確保數據的可靠性和容錯性。因為數據和對數據處理的操作都是分布在伺服器上,處理指令就可以直接地發送到存儲數據的機器。這樣一個集群的每個伺服器器上都需要存儲和處理數據,因此必須對Hadoop集群的每個節點進行配置,以滿足數據存儲和處理要求。
Hadoop框架中最核心的設計是為海量數據提供存儲的HDFS和對數據進行計算的MapRece。MapRece的作業主要包括從磁碟或從網路讀取數據,即IO密集工作,或者是計算數據,即CPU密集工作。Hadoop集群的整體性能取決於CPU、內存、網路以及存儲之間的性能平衡。因此運營團隊在選擇機器配置時要針對不同的工作節點選擇合適硬體類型。一個基本的Hadoop集群中的節點主要有:Namenode負責協調集群中的數據存儲,DataNode存儲被拆分的數據塊,Jobtracker協調數據計算任務,最後的節點類型是Secondarynamenode,幫助NameNode收集文件系統運行的狀態信息。

在集群中,大部分的機器設備是作為Datanode和TaskTracker工作的。Datanode/TaskTracker的硬體規格可以採用以下方案:
4個磁碟驅動器(單盤1-2T),支持JBOD
2個4核CPU,至少2-2.5GHz
16-24GB內存
千兆乙太網
Namenode提供整個HDFS文件系統的namespace管理,塊管理等所有服務,因此需要更多的RAM,與集群中的數據塊數量相對應,並且需要優化RAM的內存通道帶寬,採用雙通道或三通道以上內存。硬體規格可以採用以下方案:
8-12個磁碟驅動器(單盤1-2T)
2個4核/8核CPU
16-72GB內存
千兆/萬兆乙太網
Secondarynamenode在小型集群中可以和Namenode共用一台機器,較大的群集可以採用與Namenode相同的硬體。考慮到關鍵節點的容錯性,建議客戶購買加固的伺服器來運行的Namenodes和Jobtrackers,配有冗餘電源和企業級RAID磁碟。最好是有一個備用機,當 namenode或jobtracker 其中之一突然發生故障時可以替代使用。

目前市場上的硬體平台滿足Datanode/TaskTracker節點配置需求的很多,,據了解深耕網路安全硬體平台多年的立華科技瞄準了Hadoop的發展前景,適時推出了專門針對NameNode的設備----雙路至強處理器搭載12塊硬碟的FX-3411,將計算與存儲完美融合,四通道內存的最大容量可達到256GB,完全滿足NameNode對於一個大的內存模型和沉重的參考數據緩存組合的需求。

同時在網路方面,FX-3411支持的2個PCI-E*8的網路擴展,網路吞吐達到80Gbps,更是遠遠滿足節點對千兆乙太網或萬兆乙太網的需求。此外針對Datanode/TaskTracker等節點的配置需求,立華科技不僅推出了可支持單路至強E38核處理器和4塊硬碟的標准品FX-3210,還有可以全面客制化的解決方案,以滿足客戶的不同需求。

Hadoop集群往往需要運行幾十,幾百或上千個節點,構建匹配其工作負載的硬體,可以為一個運營團隊節省可觀的成本,因此,需要精心的策劃和慎重的選擇。

H. 如何配置Hadoop環境

用於測試,我用4台虛擬機搭建成了hadoop結構

我用了兩個台式機。一個xp系統,一個win7系統。每台電腦裝兩個虛擬機,要不然內存就滿了。
1、安裝虛擬機環境
Vmware,收費產品,占內存較大。

Oracle的VirtualBox,開源產品,占內存較小,但安裝ubuntu過程中,重啟會出錯。
我選Vmware。
2、安裝操作系統
Centos,紅帽開源版,接近於生產環境。
Ubuntu,操作簡單,方便,界面友好。
我選Ubuntu12.10.X 32位
3、安裝一些常用的軟體
在每台linux虛擬機上,安裝:vim,ssh
sudo apt-get install vim
sudo apt-get install ssh
在客戶端,也就是win7上,安裝SecureCRT,Winscp或putty,這幾個程序,都是依靠ssh服務來操作的,所以前提必須安裝ssh服務。
service ssh status 查看ssh狀態。如果關閉使用service ssh start開啟服務。
SecureCRT,可以通過ssh遠程訪問linux虛擬機。
winSCP或putty,可以從win7向linux上傳文件。
4、修改主機名和網路配置
主機名分別為:master,host2,host3,host4。
sudo vim /etc/hostname
網路配置,包括ip地址,子網掩碼,DNS伺服器。如上圖所示。
5、修改/etc/hosts文件。
修改每台電腦的hosts文件。
hosts文件和windows上的功能是一樣的。存儲主機名和ip地址的映射。
在每台linux上,sudo vim /etc/hosts 編寫hosts文件。將主機名和ip地址的映射填寫進去。編輯完後,結果如下:

6、配置ssh,實現無密碼登陸
無密碼登陸,效果也就是在master上,通過 ssh host2 或 ssh host3 或 ssh host

I. 如何配置Hadoop環境

1)下載並解壓hadoop-0.20.203.0.修給解壓文件夾名字為hadoop-0.20.203

2)按上述所示將hadoop-0.20.203/bin路徑加到PATH環境變數中
sudo gedit/etc/profile

3)修改配置文件,配置文件都在hadoop-0.20.203/conf目錄下。
a.進到/hadoop-0.20.203/conf/hadoop-env.sh中,解注釋JAVA_HOME
修改為:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的臨時文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-節點個數配置,根據你自己的節點來設定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-s www.hnne.com pecific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分別配置主節點和各個數據節點:
masters:中寫入namenode
slaves: 寫入datanode1
datanode2

J. hadoop主節點怎麼配置

修改文件/etc/hostname里的值即可,修改成功後用hostname命令查看當前主機名是否設置成功。
clip_image002[12]
另外為了能正確解析主機名,最好也修改/etc/hosts文件里對應的主機名
clip_image003[12]
2)在Fedora下修改機器名稱
通過對"/etc/sysconfig/network"文件修改其中"HOSTNAME"後面的值,改成我們規定的名稱。
命令:vi /etc/sysconfig/network,