当接触大数据时,首先碰到的就是hadoop的学习,安装 Hadoop 往往会成为新手的一道门槛。尽管安装其实很简单,书上有写到,官方网站也有 Hadoop 安装配置教程,但由于刚接触对 Linux 环境不熟悉。加上网上不少教程比较乱,导致新手折腾老几天愣是没装好,很是打击学习热情。本文主要介绍hadoop2.6版本的安装,步骤详细,辅以适当说明,相信按照步骤来,都能顺利安装并运行Hadoop环境。
一、下载安装
(1).到hadoop下载相应的版本
本文下载的是hadoop-2.6.0.tar.gz
(2).解压
tar –zxvf hadoop-2.6.0.tar.gz
(3).创建目录
#mkdir /opt/media/hadoop-2.6.0/tmp
#mkdir/opt/media/hadoop-2.6.0/dfs
#mkdir /opt/media/hadoop-2.6.0/dfs/name
#mkdir /opt/media/hadoop-2.6.0/dfs/data
(4).配置环境变量
vi /etc/profile
export HADOOP_HOME=/opt/media/hadoop-2.6.0/hadoop-2.6.0
export PATH=$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
source /etc/profile
二、配置文件
(1).配置 hadoop-env.sh文件
PS:配置jdk路径
# The java implementation to use.
export JAVA_HOME=/home/bigdata/media/jdk1.7.0_79
(2).配置 core-site.xml文件
PS:增加hadoop核心配置(hdfs文件端口是9000)core-site.xml文件中包含的信息,如使用Hadoop实例分配给文件系统的存储器,用于存储数据的内存限制的端口号,以及读/写缓冲器的大小
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/opt/media/hadoop-2.6.0/tmp</value>
<description>Abasefor other temporary directories.</description>
</property>
<property>
<name>hadoop.proxyuser.spark.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.spark.groups</name>
<value>*</value>
</property>
</configuration>
(3).配置 hdfs-site.xml 文件
PS:增加hdfs配置信息(namenode、datanode端口和目录位置)hdfs-site.xml 文件中包含的信息,如复制数据的值,名称节点的路径,本地文件系统的数据节点的路径。
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/opt/media/hadoop-2.6.0/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/opt/media/hadoop-2.6.0/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
<property>
<name>dfs.permissions</name>
<value>false</value>
<description>
If "true", enable permission checking in HDFS.
If "false", permission checking is turned off,
but all other behavior is unchanged.
Switching from one parameter value to the other does not change the mode,
owner or group of files or directories.
</description>
</property>
</configuration>
(4).配置mapred-site.xml 文件
PS:增加mapreduce配置(使用yarn框架、jobhistory使用地址以及web地址)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata:19888</value>
</property>
</configuration>
(5).配置yarn-site.xml 文件
PS:增加yarn功能
<configuration>
<!-- Site specific YARN configuration properties -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>bigdata:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>bigdata:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>bigdata:8035</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>bigdata:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>bigdata:8088</value>
</property>
</configuration>
三、格式化
(1).格式化namenode
$ ./bin/hdfs namenode -format
四、免密码登录
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cd .ssh/
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
五、启动hadoop
(1).启动
./start-all.sh
(2).验证是否启动成功
(3)浏览
http://192.168.101.109:50070/dfshealth.html#tab-overview
六、总结
如果大家有大数据技术类的问题,欢迎在评论里面留言,我会一一回复,希望跟大家共同努力,共同进步