バツイチとインケンのエンジニアブログ
プログラムやプログラムじゃないこと

Spark Summit 2015へ行ってきました! ー レポートと感想

2015-06-21
書いた人 : バツイチ
カテゴリ : Spark, カンファレンス | タグ : SparkSummit2015

2015年6月15日から17日にかけてサンフランシスコで開催されたSparkSummit2015へ行ってきました。

IMG_5078 (1)

セッションの全スケジュールはこちら↓です。
6月24日以降に全スライドが上がるとのことでした。

Spark Summit 2015 Schedule

今年のSparkSummitで私が特に面白かったのは下記の5つです。

  • Spark Community Update
  • Making Sense of Spark Performance
  • From DataFrames to Tungsten: A Peek into Spark’s Future
  • How Spark Fits into Baidu’s Scale
  • A More Scalable Way of Making Recommendations with MLlib

どんなセッションだったのか少しづつ紹介させて頂きます。

IMG_4966 (1)

Spark Community Update

Spark Community Update

DatabricksのCTO、Matei ZahariaさんとDatabricksのco-founderでSparkのPMCメンバーのPatrick Wendellによるキーノートです。

Spark1.5の目玉機能の紹介がメインでした。

  • R言語サポート(これは1.4+から搭載ですが)
  • プロジェクトTungsten
  • MLのPipeline

このキーノートでは、データ・サイエンティストにストレスなくデータ分析を行えるインターフェイスを提供したいという思いが何度も語られていました。

Making Sense of Spark Performance

Making Sense of Spark Performance

スピーカーのKay Ousterhoutさんはscheduler周りのコミッターでUC BerkeleyのPhDです。

Sparkのジョブを、ネットワーク待ち時間、ディスク・リード時間、メモリ・リード時間、CPU処理時間に分けてベンチマークをとったところ、意外とCPUがボトルネックになっていた、という話でした。
CPUがボトルネックになるのはどこかというと、シャッフル・フェーズでのシリアライズです。
このあたりは昔から変わらないものですね。
ベンチマークの取り方も、CPUがボトルネックだったことも面白かったです。
ここで発表された内容は論文としても提出されており、USENIXで閲覧可能です。

Making Sense of Performance in Data Analytics Frameworks

From DataFrames to Tungsten: A Peek into Spark’s Future

From DataFrames to Tungsten: A Peek into Spark’s Future

PMCメンバーでsparkの主要コミッターであるReynold Xinさんによる2日目のトップバッター・キーノート。

下記3つのお話がとても印象的でした。

  • LogicalPlanのおかげでSparkSQLにシンプルなフロントエンドを提供し続けられている
  • RDDの実行パフォーマンスはpythonよりscala/javaのが良いのだけれど(当然)、DataFrameを使うとこのパフォーマンス差をほぼ近似できる
  • Runtime code generation

特にRuntime code generationは、SQL構文解析にパーサコンビネータを用いずに直接バイト・コードを生成するのみならず、シャッフル・フェーズでのバイナリ・データをwire-protcolに変換する局面への適用も考えているそうです。先のMaking Sense of Spark Performanceで発表のあったシリアライズにおけるCPUボトルネックの解消になりそうです。

How Spark Fits into Baidu’s Scale

How Spark Fits into Baidu’s Scale

スピーカーのJames PengさんはBaiduの第一アーキテクト。
BaiduによるSparkの利用のお話でした。
Baiduでは1,000個のSparkクラスタと13,000個のHadoop MapReduceクラスタを運用しているそうで、規模大きさが圧巻です。
将来的にはFPGA+GPU上でSparkを動かしたいそうです。

A More Scalable Way of Making Recommendations with MLlib

A More Scalable Way of Making Recommendations with MLlib

PMCメンバーでspark、特にMLLibの主要コミッターであるXiangrui MengさんによるMLlibのモデルのスケール実装のセッションでした。

データを各ノードで分割計算した場合、非線形アルゴリズムの予測精度が下がるのは既知の事実です。
しかし彼はALS実装の過程で予測精度を下げずに分割を可能とする工夫をし、どのようにそれを実現したかをお話されていました。
詳細は彼の論文をご覧ください。
xiangrui.pdf
MLlibの各モデルごとに精度を下げない実装をしているか、スケール可能な実装をしているか異なってくるので、使う前に対象モデルについて良く知らないとだめだなと思いました。

まとめ

今年のSparkSummitではTungstenに関するセッションが多く見られ、いかにTungstenプロジェクトに力を入れているかが伺えました。
昨年私はSparkを使っていて、「Sparkのジョブ実行状態を見ることができるUIが足りない」と感じていたのですが、そこを救うような製品が出ていたりSpark自体のUIもグレードアップしていました。
Sparkの進化の早さを感じると同時に、使い手が不足を感じる部分にはビジネス・チャンスもあって、そこに対するソリューションをエンジニアリングで出せるようなエンジニアになりたいものだと思いました。

SparkSummit2015の内容はTwitterでハッシュタグ#SparkSummitを検索すると概要がわかるかと思います。

Out of Spark Summit

おまけですがセッション以外の様子をご紹介します。
今年の会場はヒルトン・サンフランシスコ・ユニオンスクエアでした。

IMG_5024 (1)

まずはヒルトンのプラザAでレジストレーションを行います。

IMG_4992 (1)

レジストレーションを済ませると参加証とTシャツがもらえます。

IMG_4994 (1)IMG_5078 (1)

Tシャツを受け取って奥に進むと、配布用のアジェンダが置いております。
珍しいくらいちゃんとしたアジェンダです。

IMG_5054 (1)IMG_5056 (1)

セッションは朝9:00〜なのですが、7:00には会場が開いており朝食が用意されていました。

IMG_4999 (1)IMG_4996 (1)

IMG_4995 (1)

スポンサー・ブースの中央にDatabricks。

IMG_4967 (1)

O’Reillyブースでは著者サイン本プレゼントもやっていました。

IMG_5004 (1)

ランチはランチボックスです。
サンドイッチがアメリカンサイズ・・・食べきれない・・・(;´д`)…

IMG_4968 (1)IMG_4970 (1)

午後のセッションの休憩時間にはこんなアメリカンなスイーツも。

IMG_4974 (1)IMG_4975 (1)

いろいろな意味で満喫したSparkSummit2015でした。

サンフランシスコ観光はこちら(by インケン)

 

このエントリーをはてなブックマークに追加
Tweet

← React NativeでTodoアプリを作ってみた
spark-notebook使ってみた →

 

最近書いた記事

  • Ryzen7 3800XT でmini ITXオープンフレームPCを作る
  • Pythonで機械学習入門 競馬予測
  • HP ENVY 15 クリエイターモデルレビューとRAID0解除
  • JRA-VAN データラボを使って、競馬データを収集する
  • Surface Pro 3 にubuntu18.04を入れる

カテゴリー

  • Android
  • Apache Flink
  • API
  • AWS
  • bazel
  • BigQuery
  • Cassandra
  • Docker
  • Druid
  • Elasticsearch
  • Git
  • Golang
  • gradle
  • HDFS
  • JavaScript
  • jvm
  • Linux
  • MongoDB
  • MySQL
  • Nginx
  • Nodejs
  • PaaS
  • PHP
  • Python
  • RabbitMQ
  • Raspberry Pi
  • React Native
  • Redis
  • Riak
  • rust
  • scala
  • Scheme
  • SEO
  • solr
  • Spark
  • spray
  • Sublime Text
  • Swift
  • Tableau
  • Unity
  • WebIDE
  • Wordpress
  • Youtube
  • ひとこと
  • カンファレンス
  • スケジューラ
  • マイクロマウス
  • 広告
  • 技術じゃないやつ
  • 株
  • 機械学習
  • 競馬
  • 自作キーボード
  • 自然言語処理

アーカイブ

  • 2021年4月
  • 2021年2月
  • 2021年1月
  • 2020年3月
  • 2020年2月
  • 2020年1月
  • 2019年10月
  • 2019年9月
  • 2019年8月
  • 2019年7月
  • 2019年6月
  • 2019年5月
  • 2019年4月
  • 2019年2月
  • 2019年1月
  • 2018年12月
  • 2018年11月
  • 2018年9月
  • 2018年5月
  • 2018年3月
  • 2018年2月
  • 2017年9月
  • 2017年8月
  • 2017年6月
  • 2017年4月
  • 2017年3月
  • 2017年1月
  • 2016年10月
  • 2016年9月
  • 2016年8月
  • 2016年6月
  • 2016年5月
  • 2016年4月
  • 2016年3月
  • 2016年2月
  • 2016年1月
  • 2015年12月
  • 2015年11月
  • 2015年10月
  • 2015年9月
  • 2015年8月
  • 2015年6月
  • 2015年5月
  • 2015年2月
  • 2015年1月
  • 2014年12月
  • 2014年11月
  • 2014年9月
  • 2014年6月
  • 2014年5月
  • 2014年3月
  • 2014年2月
  • 2014年1月
  • 2013年12月
  • 2013年11月
  • 2013年10月
  • 2013年9月
  • 2013年8月

書いた人

  • バツイチちゃん
  • インケンくん

このブログについて

エンジニアとしての考え方が間逆な2人がしょーもないこと書いてます。

バツイチ

アイコン

IT業界で働くエンジニアです。名前の通りバツイチです。
理論や抽象的概念が好きだけど人に説明するのが下手。

インケン

アイコン

バツイチちゃんと同じ業界で働いています。
理論とか開発手法とかは正直どうでもよくて、
生活する上で役に立つことに使いたい

Copyright 2025 バツイチとインケンのエンジニアブログ