一、Hadoop的核心功能有两个:
HDFS与MapReduce。
与HDFS相关的服务有
NameNode、SecondaryNameNode 及DataNode;
与MapReduce相关的服务有
JobTracker和TaskTracker两种。
二、Hadoop集群中有两种角色:
master与slave,master又分为主master与次master。
其中:
主master同时提供
NameNode、SecondaryNameNode 及JobTracker 三种服务;
次master只提供
SecondaryNameNode 服务;
所有slave可以提供
DateNode或TaskTracker 两种服务。
三、 Hadoop有三种集群方式可以选择:
Local (Standalone) Mode(无集群模式)
Pseudo-Distributed Mode(单机集群模式)
当使用Pseudo-Distributed Mode创建Hadoop集群时,
一台电脑同时完成主master和slave两种角色的任务。
Fully-Distributed Mode(多机集群模式)
四、启动Hadoop的方式是在主master上调用下面的命令:
$HADOOP_HOME /bin/start-all.sh
此调用过程中,Hadoop依次启动以下服务:
在主master上启动NameNode服 务;
在次master上启动SecondaryNameNode服 务;
在所有slave上启动DataNode 服务;
在主master上 启动JobTracker服务;
在所有slave上的TaskTracker服务。
四、关闭防火墙
部署Hadoop集群时,master与slave的防火墙均要关闭。关闭防火墙的根本目的也是为了图省事儿,因为在使用HDFS与MapReduce时,Hadoop会打开许多监听端口。它们 分别是:
与HDFS有关的地址及端口属性
(1)fs.default.name
位 置:conf/core-site.xml
必须项:是( 必须在所有master及slave上的conf/core-site.xml中设置此项。)
常用值:hdfs:// [域名或IP地 址]:9000
说明: NameNode 主服务器的地址
(2)dfs.datanode.address
位 置:conf/hdfs-site.xml
必须项:否
默认值:0.0.0.0:50010
说明: DataNode服务的地址