Hadoop 配置_菜鸟教程

配置hadoop之前做好准备工作

1.修改主机名称，我这里创建了三个虚拟主机，分别命名node-1，node-2，node-3，进入 network 文件删掉里面的内容直接写上主机名就可以了

vi /etc/sysconfig/network

2.映射 IP 和主机名，之后 reboot 重启主机

[root@node-1 redis-cluster]# vim /etc/hosts
192.168.0.1 node-1
192.168.0.2 node-2
192.168.0.3 node-3

3.检测防火墙（要关闭防火墙），不同系统的防火墙关闭方式不一样，以下做个参考即可

1.service iptables stop  关闭
2.chkconfig iptables off  强制关闭  除非手动开启不然不会自动开启
3.chkconfig iptanles  查看
4.service  iptables status 查看防火墙状态

4.ssh 免密码登录

输入命令：ssh-keygen -t rsa 然后点击四个回车键，如下图所示：

然后通过 ssh-copy-id 对应主机 IP，之后通过“ssh 主机名/IP” 便可以不输入密码即可登录相应的主机系统

开始配置 Hadoop 相关文件

上传 hadoop 安装包解压后进入 hadoop-2.7.6/etc/hadoop 目录下
以下所有的 <property> </property> 都是写在各自相应配置文件末尾的 <configuration> 标签里面

第一个 hadoop-env.sh

vi hadoop-env.sh
export JAVA_HOME=/usr/java/jdk1.8.0_171   #JAVA_HOME写上自己jdk 的安装路径

第二个：core-site.xml

vi <strong>core-site.xml</strong>

<!-- 指定Hadoop所使用的文件系统schema（URI），HDFS的老大（NameNode）的地址 -->
<property>
	<name>fs.defaultFS</name>
	<value>hdfs://node-1:9000</value>
</property>
<!-- 定Hadoop运行是产生文件的存储目录。默认 -->
<property>
	<name>hadoop.tmp.dir</name>
	<value>/export/data/hddata</value>
</property>

第三个： hdfs-site.xml

vi <strong>hdfs-site.xml</strong>

<!-- 指定HDFS副本的数量，不修改默认为3个 -->
<property>
	<name>dfs.replication</name>
	<value>2</value>
</property>
<!-- dfs的SecondaryNameNode在哪台主机上 -->
<property>
	<name>dfs.namenode.secondary.http-address</name>
	<value>node-2:50090</value>
</property>

第四个： mapred-site.xml

mv mapred-site.xml.template mapred-site.xml
vi mapred-site.xml

<!-- 指定MapReduce运行是框架，这里指定在yarn上，默认是local -->
<property>
	<name>mapreduce.framework.name</name>
	<value>yarn</value>
</property>

第五个：yarn-site.xml

vi <strong>yarn-site.xml</strong>

<!-- 指定yarn的老大ResourceManager的地址 -->
<property>
	<name>yarn.resourcemanager.hostname</name>
	<value>node-1</value>
</property>


<!-- NodeManager上运行的附属服务。需要配置成mapreduce_shuffle,才可以运行MapReduce程序默认值 -->
<property>
	<name>yarn.nodemanager.aux-services</name>
	<value>mapreduce_shuffle</value>
</property>

第六个：slaves 文件，里面写上从节点所在的主机名字

vi slaves
node-1
node-2
node-3

第七个：将 Hadoop 添加到环境变量

vi /etc/profile
export HADOOP_HOME=/export/server/hadoop-2.7.6
export PATH=$HADOOP_HOME/bin:$PATH

然后将 hadoop 安装包远程发送给各个副计算机

scp -r /export/server/hadoop-2.7.6/ root@node-2:/export/server/
scp -r /export/server/hadoop-2.7.6/ root@node-3:/export/server/

把配置好的环境变量也要远程发送给各个副计算机

scp -r /etc/profile root@node-2:/etc/
scp -r /etc/profile root@node-3:/etc/

然后试所有的计算机环境变量生效

source /etc/profile

关于 hadoop的配置说明
在 hadoop 官网，左下角点击 Documentation 点击相应的版本进去，拉到最左下角有 ***-default.xml
***-default.xml 是默认的配置，如果用户没有修改这些选项将会生效
***-site.xml 是用户自定义的配置
site的配置选项优先级大于 default 的，如果 site 里面有就会覆盖 default 里面的