220 likes | 676 Views
使用 Ubuntu 架設 Hadoop 分散式檔案雲端運算系統. 班級 : 碩研資工一甲 姓名 : 葉瑞群 學號 :MA0G0109. Outline. 一 .Hadoop 簡介 二 .Hadoop 架設環境 三 .Hadoop 架設過程 (1)- 基礎設定 四 .Hadoop 架設過程 (2)- 進階設定 五 .Hadoop 架設過程 (3)- 大量架設 六 . 啟動 Hadoop 系統. 一 .Hadoop 簡介.
E N D
使用Ubuntu架設Hadoop分散式檔案雲端運算系統 班級:碩研資工一甲 姓名:葉瑞群 學號:MA0G0109
Outline • 一.Hadoop 簡介 • 二.Hadoop架設環境 • 三.Hadoop架設過程(1)-基礎設定 • 四.Hadoop架設過程(2)-進階設定 • 五.Hadoop架設過程(3)-大量架設 • 六.啟動Hadoop系統
一.Hadoop簡介 • Hadoop是Apache軟體基金會所研發的開放源碼平行運算編程工具和分散式檔案系統,與MapReduce和Google檔案系統的概念類似。 • Hadoop包含兩大部分1.HDFS(Hadoop Distributed File System)2.MapReduce。 • 1.HDFS:分散式檔案系統。 • 2.MapReduce分散式資料處理模式及執行環境。
二.Hadoop架設環境 必要軟體 • 1.Linux Ubuntu 10.04(四台電腦環境) • 2.Hadoop-0.20.2.tar.gz • 3.Java jdk-6u29-linux-i586.bin IP設定 • 四台電腦都必須設定一組對外IP,然後對內架設一個區域網路(LAN),192.168.0.100~103。
三.架設過程(1)-基礎設定 • 1.安裝Linux Ubuntu 10.04 • 2.安裝其它必要軟體 2-1:$sudo apt-get install sun-java6-jdk 2-2:$sudo apt-get install sun-java6-plugin 2-3:$sudo apt-get install ssh 2-4:$sudo apt-get install openssh-server 2-5:$sudo apt-get install rsync 2-6:$sudo apt-get install vim
三.架設過程(1)-基礎設定 • 3.編輯主機設定檔 3-1:$sudo vim /etc/hosts 3-2:127.0.0.1 localhost 192.168.0.100 hdp0 192.168.0.101 hdp1 192.168.0.102 hdp2 192.168.0.103 hdp3
三.架設過程(1)-基礎設定 • 4.四台機器要互相ping的到 • 5.建立SSH安全免密碼登入 5-1:$ssh-keygen -t rsa -P "" 5-2:$cd /home/hadoop/.ssh 5-3:$cat id_rsa.pub >> ~/.ssh/authorized_keys 5-4:$ssh hdp0(如果可以不用輸入密碼及代表成功) 5-5:$exit P.S以上第(1)部分只需針對第一台電腦執行即可。
四.架設過程(2)-進階設定 6.從hdp0複製金鑰給其他電腦(hdp0) • 6-1:$scp ~/.ssh/authorized_keys hdp1:~/.ssh/authorized_keys • 6-2:$scp ~/.ssh/authorized_keys hdp2:~/.ssh/authorized_keys • 6-3:$scp ~/.ssh/authorized_keys hdp3:~/.ssh/authorized_keys
四.架設過程(2)-進階設定 測試: • 6-4:$ssh hdp1(免密碼登入) • 6-5:$ssh hdp2(免密碼登入) • 6-6:$ssh hdp3(免密碼登入) 如果能夠從第一台電腦使用ssh指令登入其他電腦即代表成功。
四.架設過程(2)-進階設定 • 7.安裝Hadoop(hadoop-0.20.2.tar.gz) • 7-1:去http://apache.cdpa.nsysu.edu.tw//hadoop/common/hadoop-0.20.2/下載Hadoop • 7-2:$cp /home/hadoop/download/hadoop-0.20.2.tar.gz /home/hadoop(複製) • 7-3:$tar zxvf hadoop-0.20.2.tar.gz(解壓縮)
四.架設過程(2)-進階設定 • 8.雲端系統設定 8-1:$cd ~/hadoop-0.20.2/conf 8-2:$vim masters 8-3:hdp0 8-4:$vim slaves(編輯此文件為下面格式) 8-5:hdp0 hdp1 hdp2 hdp3
四.架設過程(2)-進階設定 • 9.安裝java jdk到/home/hadoop下 9-1:http://www.oracle.com/technetwork/java/javase/downloads/jdk-6u29-download-513648.html 下載Java SE 6 Update 29的JDK 9-2:$cp jdk-6u29-linux-i586.bin /home/hadoop(複製) 9-3:$chmod +x jdk-6u29-linux-i586.bin(增加執行權限) 9-4:$./jdk-6u29-linux-i586.bin(開始安裝)
四.架設過程(2)-進階設定 • 10.設定環境雲端變數 10-1:$cd ~/hadoop-0.20.2/conf 10-2:$vim hadoop-env.sh 10-3:增加 export JAVA_HOME=/home/hadoop/jdk1.6.0_29 expoer HADOOP_HOME=/home/hadoop/hadoop-0.20.2
四.架設過程(2)-進階設定 • 11.設定core-site.xml檔-雲端系統設定檔 11-1:$cd ~/hadoop-0.20.2/conf 11-2:$vim core-site.xml 11-3:<configuration> <property> <name>fs.default.name</name> <value>hdfs://hdp0:9000</value> </property> </configuration>
四.架設過程(2)-進階設定 • 12.設定hdfs-site.xml-分散式檔案系統設定檔 12-1:$cd ~/hadoop-0.20.2/conf 12-2:$vim hdfs-site.xml 12-3:<configuration> <property> <name>dfs.name.dir</name> <value>/home/hadoop/dfs/name</value> </property>
四.架設過程(2)-進階設定 <property> <name>dfs.data.dir</name> <value>/home/hadoop/dfs/data</value> </property> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
四.架設過程(2)-進階設定 • 13.設定mapred-site.xml-Map/Reduce設定檔 13-1:$cd ~/hadoop-0.20.2/conf 13-2:$vim mapred-site.xml 13-3:<configuration> <property> <name>mapred.job.tracker</name> <value>hdp0:9001</value> </property> </configuration>
四.架設過程(2)-進階設定 • 14.建立HDFS紀錄檔案存放位置 • 14-1:mkdir -p /home/hadoop/dfs/name • 14-2:mkdir -p /home/hadoop/dfs/data P.S以上第(2)部分只需針對第一台電腦執行即可。
五.架設過程(3)-大量架設 • 15.複製hdp0的hadoop-0.20.2及jdk1.6.0.29資料夾以加速雲端建設 15-1:$scp -r /home/hadoop/hadoop-0.20.2 hdp1:/home/hadoop 15-2:$scp -r /home/hadoop/hadoop-0.20.2 hdp2:/home/hadoop 15-3:$scp -r /home/hadoop/hadoop-0.20.2 hdp3:/home/hadoop 15-4:$scp -r /home/hadoop/jdk1.6.0_29 hdp1:/home/hadoop 15-5:$scp -r /home/hadoop/jdk1.6.0_29 hdp2:/home/hadoop 15-6:$scp -r /home/hadoop/jdk1.6.0_29 hdp3:/home/hadoop P.S.完成前兩步驟後,往後新增電腦只需從第一台電腦執行此部分即可快速新增完成。
六.啟動Hadoop系統 • 16.格式化Hadoop雲端系統 18-1:$cd /home/hadoop/hadoop-0.20.2/bin 18.2:$./hadoop namenode –format • 17.啟動雲端系統 19-1:$cd /home/hadoop/hadoop-0.20.2/bin 19-2:$./start-all.sh
六.啟動Hadoop系統 • 18.檢視Hadoop雲端系統運作情況 20-1:$http://hdp0:50070(NameNode) 20-2:$http://hdp0:50030(JobTracker) • 19.關閉雲端系統 21-1:$cd /home/hadoop/hadoop-0.20.2/bin 21-2:$./stop-all.sh