Apache Spark Part3の番外編で自分のMacにspark入れてみます。
手順は以下の通り。
1.AnacondaのサイトからOS X用のパッケージをダウンロードしてきて、インスコ。インストールディレクトリはデフォルトまま
2.Apache Sparkのサイトから 1.5.1 Pre-build for Hadoop2.6 and laterをダウンロードしてきて、書類(Document)ディレクトリに解凍
3.解凍したsparkフォルダの中のconfの設定ファイルの名前変更
$ cd ~/Documents/spark-1.5.1-bin-hadoop2.6 $ cp conf/spark-env.sh.template conf/spark-env.sh $ cp conf/spark-defaults.conf.template conf/spark-defaults.conf
4.上記のspark-env.shに以下を追加する
export ANACONDA_HOME=/anaconda export PYSPARK_PYTHON=$ANACONDA_HOME/bin/python export PYSPARK_DRIVER_PYTHON=$ANACONDA_HOME/bin/ipython export PYSPARK_DRIVER_PYTHON_OPTS="notebook"
5.自分のシェル(.bashrc or .zshrc)にAnacondaのパスを通す
export ANACONDA_HOME=/anaconda export PATH=$ANACONDA_HOME/bin:$PATH
6.ipythonの設定ファイルを作成
$ ipython profile create
7.ipythonの設定ファイル(~/.ipython/profile_default/ipython_notebook_config.py)を編集
c.NotebookApp.ip = 'localhost' c.NotebookApp.port = 9999 c.NotebookApp.notebook_dir = u'/Users/ooo/Documents/ipython'
下の動画ではnotebook_dirだけ変更した
8.pysparkを起動
$ cd ~/Documents/spark-1.5.1-bin-hadoop2.6 $ bin/pyspark
9.notebookを作って「sc」と打って実行し、「<pyspark.context.SparkContext at 0x106883490>」みたいな結果が表示されたらOK
動画はこちら