準備
ssh, rsyncはMacOSX10.5.6に入ってるので特にないかな.
Download
この辺りからたどって0.20.0を入手した.
展開したフォルダを$HADOOP_HOMEとする.基本,Quick Startに沿ってやる.で,その中の'Pseudo-Distributed Operation'について書く.
Configuration
$HADOOP_HOME/conf/core-site.xml, $HADOOP_HOME/conf/hdfs-site.xml,$HADOOP_HOME/conf/mapred-site.xml を編集.
Setup passphraseless ssh
たぶんここに書いてあるのと同じことやってるんだよね.
追加部
$HADOOP_HOME/conf/hadoop-env.sh を編集
9行目の下ぐらいにJAVA_HOMEを追加.JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home
これが書きたかった.
Execution
ディスク領域をフォーマット$ bin/hadoop namenode -format
サーバ類を起動$ bin/start-all.shhttp://localhost:50070/ ディスク確認 http://localhost:50030/ ジョブ確認
ディスクにリモート(ローカルのHADOOP領域)へ複写$ bin/hadoop fs -put conf input
ジョブ実行$ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'
出力をローカルへ複写$ bin/hadoop fs -get output output
結果確認$ cat output/*
サーバ類を停止$ bin/stop-all.sh
とりあえずここまで.
0 件のコメント:
コメントを投稿