1. 如何配置Hadoop环境
详细环境配置介绍如下:
Hadoop版本为0.20.2.
JDK版本为1.6.0.
操作系统为FreeBSD8.0(最小化安装)
vc3(192.168.1.3)是Namenode(Master),其他三台作为Datenode(slave).
Hadoop是Java语言编写的机群程序,他的安装时建立在ssh和JDK之上的,所以在配置Hadoop之前首先要对系统进行ssh和JDK的安装与配置。
1.下面首先来通过ssh来实现Hadoop节点之间用户的无密码访问。
(1).在各个节点的/etc/hosts文件中添加节点IP及对应机器名,并在各个节点上建立相同用户名与密码的账户。
修改/etc/hosts文件如下:
192.168.1.1 vc1
192.168.1.2 vc2
192.168.1.3 vc3
192.168.1.4 vc4
修改成功后就可以实现IP地址与机器名的对应解析。
在各个节点建立用户名为Hadoop,密码为123456的用户。
(2).实现节点间通过ssh无密码访问。
在vc3的/home/hadoop目录建立.ssh目录。
mkdir .ssh //建立.ssh目录
在/home/hadoop目录下进行ssh配置。
ssh-keygen -t rsa //生成密匙对
cd /home/hadoop/.ssh
cp id_rsa.pub authorized_keys
chmod go-rwx authorized_keys //要正确设置文件的权限644(即go-rwx)
scp -r /home/hadoop/.ssh vc1:/home/hadoop //将vc3中的.ssh文件夹内容复制到vc2节点的相同位置去。
scp -r /home/hadoop/.ssh vc2:/home/hadoop //同上
scp -r /home/hadoop/.ssh vc4:/home/hadoop //同上
(3).测试是否配置成功
同过ssh+机器名命令测试能否无密码访问其他计算机,如果无密码访问则配置成功。
例:vc1使用ssh vc3是否能无密码访问vc3,vc3使用ssh vc1是否能无密码访问vc1。(其他主机方法类似)
2.JDK的安装
在这里利用ports安装JDK。在安装时要先下载如下几个文件:
jdk-1_6_0_16-fcs-bin-b02-jrl-28_may_2008.jar
jdk-1_5_0_16-fcs-src-b02-jrl-28_may_2008.jar
tzupdater-1_3_12-2009a.zip
bsd-jdk16-patches-9.tar.bz2
diablo-caffe-freebsd7-i386-1.6.0_07-b02.tar.bz2
到usr/ports/distfiles/目录,然后进入/usr/ports/java/jdk16进行安装。在这里需要说的是在安装JDK的时候最好安装最新版本,即1.6.0,否则在后面的Hadoop运行过程中可能会出错。
cd /usr/ports/java/jdk16 //进入jdk安装目录
make install clean //安装jdk
还有一种安装方法是去Sun官网下载JDK软件包jdk-6u12-Linux-i586.bin进行安装。(我没试过,不知道行不行,只是提一下。)把下载的JDK软件放到/home/hadoop目录下,给软件加上可执行权限,如下:
chmod a+x jdk-6u12-Linux-i586.bin
运行jdk-6u12-Linux-i586.bin进行安装。
./jdk-6u12-Linux-i586.bin
安装完成后会在当前目录生成jkd1.6.0_12文件夹。把生成的文件夹复制到/usr/java文件夹中。
mkdir /usr/java //新建java文件夹
cp -r jkd1.6.0_12 /usr/java
下载设置环境变量,修改/etc/profile文件。在该文件中添加如下代码:
export JAVA_HOME"/usr/java/jkd1.6.0_12"
export PATH="$PATH :$JAVA_HOME/bin:$JAVA_HOME/jre/bin:"
export CLASSPATH ="$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib"
保存后键入命令:
source /etc/profile
使环境变量设置生效。
安装好JDK后可以通过which命令来测试JDK是否安装成功:
which java
若是第一种方法显示信息如下:
/usr/local/jdk1.6.0/bin/java
如是第二种方法显示信息如下:
/usr/java/jkd1.6.0_12/bin/java
3.下来进行Hadoop的安装和配置。
下载hadoop-0.20.2.tar.gz到/home/hadoop目录,并解压:
tar -vxzf hadoop-0.20.2.tar.gz //解压hadoop到当前目录
解压完后进入/home/hadoop/hadoop-0.20.2/conf目录进行配置。
cd /home/hadoop/hadoop-0.20.2/conf
(1).修改hadoop-env.sh配置文件如下:
export JAVA_HOME=/usr/local/jdk1.6.0
(2).修改masters和slaves配置文件如下:
masters文件:
192.168.1.3
slaves文件:
192.168.1.1
192.168.1.2
192.168.1.4
(3).修改core-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://202.113.88.73:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>/tmp/hadoop/hadoop-${user.name}</value>
</property>
</configuration>
(4).修改hdfs-site.xml文件如下:
=====line 1 col 0 lines from top 1 ============================================
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
(5).修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>202.113.88.73:9001</value>
</property>
</configuration>
配置文件修改完毕后格式化Namenode(运行Hadoop之前必须先进行格式化),进入/home/hadoop/hadoop-0.20.2/目录,命令如下:
./bin/hadoop namenode -format
格式化完毕后就可以运行Hadoop了,命令如下:
./bin/start-all.sh //在/home/hadoop/hadoop-0.20.2/目录下运行
如果要停止运行如下命令:
./bin/stop-all.sh //在/home/hadoop/hadoop-0.20.2/目录下运行
到此,Hadoop的配置已经完成了.
2. 如何配置Hadoop环境
如何配置Hadoop环境
eclipse下去”java“下配置环境变量位置即可。 第一步:点击菜单栏的”windows“,之后选择”preference“。 第二步:找到”java“菜单下的”installed“,之后在此页面下点击”add“。 第三步:找到”jdk“的安装路径,之后点击”finsh“即可完成项目jdk环境变...
3. 如何配置Hadoop环境
Hadoop的伪分布式环境搭建(资源来于网络)
望采纳,参考文献:http://blog.csdn.net/u012342408/article/details/50520696
什么是伪分布式?Hadoop 伪分布式模式是在一台机器上模拟Hadoop分布式,单机上的分布式并不是真正的分布式,而是使用线程模拟的分布式。分布式和伪分布式这两种配置也很相似,唯一不同的地方是伪分布式是在一台机器上配置,也就是名字节点(namenode)和数据节点(datanode)均是同一台机器。
需要配置的文件有core-site.xml和hdfs-site.xml这两个文件他们都位于${HADOOP_HOME}/etc/hadoop/文件夹下。
其中core-site.xml:
1 <?xml version="1.0" encoding="UTF-8"?>
2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3 <!--
4 Licensed ...
-->
18
19 <configuration>
20 <property>
21 <name>hadoop.tmp.dir</name>
22 <value>file:/home/hadoop/tmp</value>
23 <description>Abase for other temporary directories.</description>
24 </property>
25 <property>
26 <name>fs.default.name</name>
27 <value>hdfs://master:9000</value>
28 </property>
29 </configuration> 1234567891011121314151617
文件hdfs-site.xml的配置如下:
1 <?xml version="1.0" encoding="UTF-8"?>
2 <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
3 <!--
4 Licensed ...
-->
18
19 <configuration>
20 <property>
21 <name>dfs.replication</name>
22 <value>1</value>
23 </property>
24 <property>
25 <name>dfs.namenode.name.dir</name>
26 <value>file:/home/hadoop/tmp/dfs/name</value>
27 </property>
28 <property>
29 <name>dfs.datanode.data.dir</name>
30 <value>file:/home/hadoop/tmp/dfs/data</value>
31 </property>
32 </configuration>
配置完成后,执行格式化命令,使HDFS将制定的目录进行格式化:
hdfs namenode -format1
若格式化成功,在临近输出的结尾部分可看到如下信息:
4. 配置单机hadoop 环境
你用0.21版本的吧? 这个不稳定,且不提供支持的,现在学的话找0.20版本的学吧。
HDFS not found可能是由于你的HADOOP_HOME没有设置,
执行如下命令后再hdfs namenode -format:
export HADOOP_HOME="你的hadoop安装路径"
5. 如何配置Hadoop环境
安装前设置
在安装Hadoop之前,需要进入Linux环境下,连接Linux使用SSH(安全Shell)。按照下面提供的步骤设立Linux环境。
创建一个用
在开始时,建议创建一个单独的用户Hadoop以从Unix文件系统隔离Hadoop文件系统。按照下面给出的步骤来创建用户:
使用 “su” 命令开启root .
创建用户从root帐户使用命令 “useradd username”.
现在,可以使用命令打开一个现有的用户帐户“su username”.
打开Linux终端,输入以下命令来创建一个用户。
$ su
password:
# useradd hadoop
# passwd hadoop
New passwd:
Retype new passwd
SSH设置和密钥生成
SSH设置需要在集群上做不同的操作,如启动,停止,分布式守护shell操作。认证不同的Hadoop用户,需要一种用于Hadoop用户提供的公钥/私钥对,并用不同的用户共享。
下面的命令用于生成使用SSH键值对。复制公钥形成 id_rsa.pub 到authorized_keys 文件中,并提供拥有者具有authorized_keys文件的读写权限。
$ ssh-keygen -t rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
安装Java
Java是Hadoop的主要先决条件。首先,应该使用命令“java-version”验证 java 存在在系统中。 Java version 命令的语法如下。
$ java -version
如果一切顺利,它会给下面的输出。
java version "1.7.0_71"
Java(TM) SE Runtime Environment (build 1.7.0_71-b13)
Java HotSpot(TM) Client VM (build 25.0-b02, mixed mode)
如果Java还未安装在系统中,那么按照下面的给出的步骤来安装Java。
第1步
下载Java(JDK<最新版> - X64.tar.gz)
然后JDK-7u71-linux-x64.tar.gz将被下载到系统。
第2步
一般来说,在下载文件夹中的Java文件。使用下面的命令提取 jdk-7u71-linux-x64.gz文件。
$ cd Downloads/
$ ls
jdk-7u71-linux-x64.gz
$ tar zxf jdk-7u71-linux-x64.gz
$ ls
jdk1.7.0_71 jdk-7u71-linux-x64.gz
第3步
为了使Java提供给所有用户,将它移动到目录 “/usr/local/”。打开根目录,键入以下命令。
$ su
password:
# mv jdk1.7.0_71 /usr/local/
# exit
第4步
用于设置PATH和JAVA_HOME变量,添加以下命令到~/.bashrc文件。
export JAVA_HOME=/usr/local/jdk1.7.0_71
export PATH=PATH:$JAVA_HOME/bin
现在从终端验证 java -version 命令如上述说明。
下载Hadoop
下载来自Apache基金会软件,使用下面的命令提取 Hadoop2.4.1。
$ su
password:
# cd /usr/local
# wget http //apache claz org/hadoop/common/hadoop-2.4.1/
hadoop-2.4.1.tar.gz
# tar xzf hadoop-2.4.1.tar.gz
# mv hadoop-2.4.1/* to hadoop/
# exit
Hadoop操作模式
下载 Hadoop 以后,可以操作Hadoop集群以以下三个支持模式之一:
本地/独立模式:下载Hadoop在系统中,默认情况下之后,它会被配置在一个独立的模式,用于运行Java程序。
模拟分布式模式:这是在单台机器的分布式模拟。Hadoop守护每个进程,如 hdfs, yarn, MapRece 等,都将作为一个独立的java程序运行。这种模式对开发非常有用。
完全分布式模式:这种模式是完全分布式的最小两台或多台计算机的集群。我们使用这种模式在未来的章节中。
在单机模式下安装Hadoop
在这里,将讨论 Hadoop2.4.1在独立模式下安装。
有单个JVM运行任何守护进程一切都运行。独立模式适合于开发期间运行MapRece程序,因为它很容易进行测试和调试。
设置Hadoop
可以通过附加下面的命令到 ~/.bashrc 文件中设置 Hadoop 环境变量。
export HADOOP_HOME=/usr/local/hadoop
在进一步讨论之前,需要确保Hadoop工作正常。发出以下命令:
$ hadoop version
如果设置的一切正常,那么应该看到以下结果:
Hadoop 2.4.1
Subversion https://svn.apache.org/repos/asf/hadoop/common -r 1529768
Compiled by hortonmu on 2013-10-07T06:28Z
Compiled with protoc 2.5.0
From source with checksum
这意味着Hadoop在独立模式下工作正常。默认情况下,Hadoop被配置为在非分布式模式的单个机器上运行。
6. 如何配置Hadoop环境
1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.203
2)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。
a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME
修改为:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的临时文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-节点个数配置,根据你自己的节点来设定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-s www.hnne.com pecific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分别配置主节点和各个数据节点:
masters:中写入namenode
slaves: 写入datanode1
datanode2
7. 如何配置Hadoop环境
1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.203
2)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。
a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME
修改为:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的临时文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-节点个数配置,根据你自己的节点来设定->
<value>2</value>
</property>
</configuration>
d、修改mapred-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>mapred.job.tracker</name>
<value>namenode:9001</value>
</property>
</configuration>
e、在masters和slave文件中分别配置主节点和各个数据节点:
masters:中写入namenode
slaves: 写入datanode1
datanode2
8. 如何配置hadoop环境变量
参考 export 变量。
环境变量就和变量一样使用,echo 变量就出来了。
9. 如何配置Hadoop环境
1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.203
2)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中
sudo gedit/etc/profile
3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。
a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME
修改为:JAVA_HOME=/home/hadoop/jdk1.6
b.修改core-site.xml文件配置如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://namenode:9000</value>
</property>
<property>
<name>hadoop.tmp.dir</name> <!-hadoop的临时文件位置->
<value>/home/hadoop/tmp</value>
</property>
</configuration>
c、修改hdfs-site.xml文件如下:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>dfs.replication</name><!-节点个数配置,根据你自己的节点来设定->
<value>2</value>
</property>
</configuration>
10. hadoop安装环境变量具体怎么设置
1)下载并解压hadoop-0.20.203.0.修给解压文件夹名字为hadoop-0.20.2032)按上述所示将hadoop-0.20.203/bin路径加到PATH环境变量中sudogedit/etc/profile3)修改配置文件,配置文件都在hadoop-0.20.203/conf目录下。a.进到/hadoop-0.20.203/conf/hadoop-env.sh中,解注释JAVA_HOME修改为:JAVA_HOME=/home/hadoop/jdk1.6b.修改core-site.xml文件配置如下:fs.default.namehdfs://namenode:9000hadoop.tmp.dir/home/hadoop/tmpc、修改hdfs-site.xml文件如下:dfs.replication2