1、安装VMware
2、在编辑里面找到虚拟网络编辑器
3、配置VNnet8的子网IP为192.168.59.0;子网掩码为:255.255.255.0
4、在文件中找到新建虚拟机,根据电脑配置创建新的虚拟机
5、修改主机名 vi /etc/sysconfig/network(bigdata-training01.huadian.com)
6、配置ip UI界面 或 /vi /etc/sysconfig/network-scripts/ifcfg-eth0 (个人建议:IPv4 Setting 192.168.59.150 255.255.255.0192.168.59.2 8.8.8.8)
7、主机名映射 vi /etc/hosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
8、测试 ping bigdata-training01.huadian.com
9、改Windows下的配置 C:WindowsSystem32driversetchosts 192.168.59.150 bigdata-training01.huadian.com bigdata-training01
10、可以运用远程连接工具 CRT、Xshell、notepad++
11、在root用户下配置普通用户具有sudo权限 visudo huadian ALL=(root) NOPASSWD:ALL
12、关闭防火墙 当前关闭 sudo service iptables stop
13、检查是否关闭成功 sudo service iptables status
14、设置开机不启动 sudo service iptables off
15、检查设置是否成功 chkcomfig iptables –list
补充:关闭selinux
vi /etc/selinux/config
vi /etc/sysconfig/selinux
设置SELINUX=disabled 该设置必须重启才能生效
16、关闭虚拟机 init 0 / halt
17、虚拟机快照
18、开机工作
19、规划Linux系统的目录结构
20、以系统的/opt为主安装软件包
21、/opt
/datas 测试数据
/softwares 软件包,上传的软件包
/moduls 软件安装目录
/tools 开发的IDE及工具
22、将上述目录所有者改为huadian sudo chown huadian:huadian /datas /softwares /moduls /tools
23、安装JDK
24、查看系统自带的openjdk是否存在 sudo rpm -qa |grep java
25、卸载系统自带的openjdk sudo -e –nodeps java-1.6.0-openjdk-1.6.0.0-1.50.1.11.5.el6_3.x86_64 tzdata-java-2012j-1.el6.noarch java-1.7.0-openjdk-1.7.0.9-2.3.4.1.el6_3.x86_64
26、下载Linux自带的上传和下载文件软件 sudo yum install -y lrzsz
27、rz 上传文件 上传到当前执行rz命令的路径
28、sz 下载文件
29、正式安装JDK 注意:Linux安装JDK类似于Windows安装一个绿色版本软件直接解压,然后配置环境变量即可
30、使用rz将Windows下的JDK上传的Linux系统下/opt/softwares下
31、解压JDK到/opt/moduls下 tar -zxvf jdk-8u91-linux-x64.tar.gz -C /opt/moduls/
32、配置环境变量 sudo vi /etc/profile
33、在最后面追加 #JAVA_HOME
export JAVA_HOME=/opt/moduls/jdk1.8.0_91
export PATH=${PATH}:${JAVA_HOME}/bin
34、使其生效 source /etc/profile
35、验证 java -version
36、虚拟机快照
37、伪分布式的安装
38、上传解压 hadoop-2.7.3.tar.gz
39、查看目录结构 ls/ll
40、删除 /bin /sbin share 下的*.cmd doc文件 补充:查看JDK路径:echo ${JAVA_HOME}
41、修改三个模块的环境变量(*.evn) hadoop-env.sh、 yarn-env.sh、mapred-env.sh 将JAVA_HOME的路径改为现在的路径
42、添加可执行权限 chown u+x hadoop-env.sh yarn-env.sh mapred-env.sh?
43、如果上述操作有误而导致权限问题 chown -R huadian:huadian hadoop……(出现权限问题的路径)
44、按照模块进行配置
45、common:
core-site.xml
fs.defaultFS
hdfs://bigdata-training01.huadian.com:8020 //8020:HDFS的内部通信端口
hadoop.tmp.dir
/opt/moduls/hadoop-2.7.2/data/tmpData
46、执行创建的临时目录
47、HDFS:
hdfs.site.xml
dfs.replications
1
48、slaves:
配置slaves文件,指定datanode运行在那些机器上
49、启动HDFS:
第一次使用文件系统,需要格式化。
-》格式系统
cd /opt/moduls/hadoop-2.7.3
bin/hdfs namenode -format(返回0 Exiting with status 0表示格式化成功)
-》启动和关闭
主节点
sbin/hadoop-daemon.sh start namenode
sbin/hadoop-daemon.sh stop namenode
从节点
sbin/hadoop-daemon.sh start datanode
sbin/hadoop-daemon.sh stop datanode
50、验证是否启动成功
方式一:jps / ps -ef |grep java
方式二:通过web界面查看 bigdata-training01.huadian.com:50070 //50070:HDFS的外部UI访问端口
60、虚拟机快照
61、测试HDFS cd /opt/moduls/hadoop-2.7.3/
帮助文档 bin/hdfs dfs
在HDFS下创建目录 bin/hdfs dfs -mkdir -p /datas
HDFS的文件系统目录和Linux目录结构类似 命令也类似
上传文件 bin/hdfs dfs -put /opt/datas/input.data /datas/
查看文件内容 bin/hdfs dfs -text /datas/input.data 或 bin/hdfs dfs -cat /datas/input.data
下载文件 bin/hdfs dfs -get /datas/input.data ./
删除文件 bin/hdfs dfs -rm -r /datas/input.data
62、配置YARN
对于分布式资源管理和任务调度来说:哪些程序可以运行在YARN上
MapReduce
并行数据处理框架
spark
基于内存分布式处理框架
storm / flink
实时流式处理框架
TeZ
分析数据,比MapReduce快
主节点
resourceManager
从节点
nodeManager
需要修改的配置
yarn-site.xml
yarn.resourcemanager.hostname
bigdata-training01.huadian.com
yarn.resourcemanager.aux-services
mapreduce_shuffle
63、slaves文件 因为用的是伪分布式,所有程序在一台机器上,所以前面已经配置过,就不用再次配置
64、启动
主节点:resourceManager
sbin/yarn-daemon.sh start resourcemanager
从节点:nodeManager
sbin/yarn-daemon.sh start nodemanager
65、MapReduce
并行计算框架(2.X) 思想:分而治之
核心
Map 并行处理数据,将数据分割,一部分一部分的处理
Reduce 将Map的处理结果进行合并
配置
cd {Hadoop_Home}/etc/hadoop
cp mapred-site.xml.template mapred-site.xml
mapreduce.farmework.name
yarn
66.mapreduce程序运行在yarn上
通过经典程序案例:wordcount
Hadoop提到测试案例,
/opt/moduls/hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
-》准备数据,数据是放到hdfs上的
-》提交运行
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount? //会报出需要传参数的错误
bin/yarn jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /datas/input.data /output1
-》查看单词统计后的文件
bin/hdfs dfs -text (/output1/part-r-00000)根据自己的文件目录而定
67、配置历史服务器
查看监听已经运行完成的MapReduce任务的执行情况
配置mapred-site.xml
mapreduce.jobhistory.address
bigdata-hpsk01.huadian.com:10020
启动
sbin/mr-jobhistory-daemon.sh start historyserver
注意:在启动historyServer服务之前运行的job相关信息已经没了,只有后面运行的才有。
68、日志集聚功能
当MapReduce程序在YARN上运行完成之后,将产生日志文件上传到HDFS目录中,
以便后续查看。
yarn-site.xml
yarn.log-aggregation-enable
true
yarn.log-aggregation.retain-seconds
604800
69、重启YARN和jobHistoryServer
——————快照,克隆————————-
70、日志信息
{Hadoop_home}/logs
组件名称-用户名-服务名称-主机名
hadoop-huadian-datanode-bigdata-hpsk01.huadian.com.log
根据后缀名:
.log
程序启动相关信息会在里面,
进程启动失败
.out
程序运行相关的输出
system.out.print
system.out.error
怎么看:
tail -100f name