2009年4月29日水曜日

Hadoop 0.20.0 をMacで“とりあえず”動かす

Hadoopというプロジェクトがある(Hadoopとは1 Hadoopとは2)のでコイツをちょっと試してみた.ほんとにチョットCoreQuick Startだけ.

準備
 ssh, rsyncはMacOSX10.5.6に入ってるので特にないかな.

Download
 この辺りからたどって0.20.0を入手した.

展開したフォルダを$HADOOP_HOMEとする.基本,Quick Startに沿ってやる.で,その中の'Pseudo-Distributed Operation'について書く.

Configuration
$HADOOP_HOME/conf/core-site.xml, $HADOOP_HOME/conf/hdfs-site.xml,$HADOOP_HOME/conf/mapred-site.xml を編集.

Setup passphraseless ssh
たぶんここに書いてあるのと同じことやってるんだよね.

追加部
$HADOOP_HOME/conf/hadoop-env.sh を編集
9行目の下ぐらいにJAVA_HOMEを追加.
JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/1.6.0/Home

これが書きたかった.

Execution
ディスク領域をフォーマット
$ bin/hadoop namenode -format

サーバ類を起動
$ bin/start-all.sh

  • http://localhost:50070/ ディスク確認
  • http://localhost:50030/ ジョブ確認

    ディスクにリモート(ローカルのHADOOP領域)へ複写
    $ bin/hadoop fs -put conf input

    ジョブ実行
    $ bin/hadoop jar hadoop-*-examples.jar grep input output 'dfs[a-z.]+'

    出力をローカルへ複写
    $ bin/hadoop fs -get output output

    結果確認
    $ cat output/*

    サーバ類を停止
    $ bin/stop-all.sh


  • とりあえずここまで.

    0 件のコメント: