Google Cloud StorageをHadoopのファイルシステムとして使うことのできるようになるGoogle Cloud Storage Connector for HadoopというライブラリがGoogleから出ています。
これを使うと、SparkはHDFSではなくGoogle Cloudに対してジョブを実行できるようになります。
[続きをもっと見る…]
Google Cloud StorageをHadoopのファイルシステムとして使うことのできるようになるGoogle Cloud Storage Connector for HadoopというライブラリがGoogleから出ています。
これを使うと、SparkはHDFSではなくGoogle Cloudに対してジョブを実行できるようになります。
[続きをもっと見る…]
この記事はJVM Advent Calendar 2014 – Qiitaのために書きました。
「GCログ」や「GCViewer」のキーワードからこのサイトに訪れてくれる方が多いので、改めてGCログやヒープダンプの見方についてまとめることにしました。
GCログのビューアとして有名なGCViewerとヒープの解析ツールとしてすごく優秀なVisualVM、この2つを紹介しつつJVMのプロファイリングを行う方法を解説したいと思います。
前回、Cloudera Managerを使ってHDFSクラスタを構築しました。
今回はこのHDFS上でApache Sparkを動かします。
Apache Sparkを扱うOSSのGUIをいろいろ探してみたのですが、現状ではIPython + notebook最強伝説です。
HDFSをベースとして動くアプリケーションは数多くありますが、HDFSクラスタを構築するのは少々面倒な感じがします。
しかし、Cloudera Managerを使えば5分でHDFSクラスタを構築できてしまうのです。
今回はこのCloudera Managerを使ってLinux(CentOS6.5)4台に
Strata+Hadoop Worldカンファレンスの2日目と3日目です。
2日目、3日目は注目セッションもたくさんあったのですが、スポンサー・パビリオンも外せませんでした。
2014年11月、スペインのバルセロナでStrata+Hadoop Worldカンファレンスが開催されました。
このカンファレンスはO’ReillyとあのClouderaが主催する世界最大規模のBig Dataカンファレンスです。
「Hadoop World」と銘打ってますが、必ずしもHadoopプラットフォームに限ったことではなくCassandra, Storm, Spark/Shark, Drillなどのトラックもあるよ、と謳われていました。
第2回ではsprayのテンプレート・プロジェクトをデバッグ実行してみました。
今回は、かんたんなTODO登録を作成してみます。
掲載したコードはGithubにて公開しています。
https://github.com/x1-/spray-sandbox