SparkSQLリファレンス第四部、関数編・集計関数です。
集計関数
SQL関数の花形、集計関数です。
基本的にはGROUP BYと一緒に使用します。
※GROUP BYを使用しないとグルーピングを伴わない集計になり、全件カウントなどに使います。
SparkSQLリファレンス第四部、関数編・集計関数です。
SQL関数の花形、集計関数です。
基本的にはGROUP BYと一緒に使用します。
※GROUP BYを使用しないとグルーピングを伴わない集計になり、全件カウントなどに使います。
Apache Spark Part3の番外編で自分のMacにspark入れてみます。
手順は以下の通り。
1.AnacondaのサイトからOS X用のパッケージをダウンロードしてきて、インスコ。インストールディレクトリはデフォルトまま
2.Apache Sparkのサイトから 1.5.1 Pre-build for Hadoop2.6 and laterをダウンロードしてきて、書類(Document)ディレクトリに解凍
3.解凍したsparkフォルダの中のconfの設定ファイルの名前変更
$ cd ~/Documents/spark-1.5.1-bin-hadoop2.6 $ cp conf/spark-env.sh.template conf/spark-env.sh $ cp conf/spark-defaults.conf.template conf/spark-defaults.conf
Spark動画6回目は、リクルートのポンパレデータを使って機械学習をしよう!です。
https://www.youtube.com/watch?v=moZ9WeNsWgY
最小二乗法による回帰分析を行っています。