Apache SparkからGoogle Cloud Strageを使う

2015-01-09

書いた人 : バツイチ
カテゴリ : BigQuery, Spark | タグ : Apache Spark, gcs, Hadoop, HDFS

Google Cloud StorageをHadoopのファイルシステムとして使うことのできるようになるGoogle Cloud Storage Connector for HadoopというライブラリがGoogleから出ています。

これを使うと、SparkはHDFSではなくGoogle Cloudに対してジョブを実行できるようになります。
[続きをもっと見る…]

最強のJVMチューニング・ツール: GCログを可視化するGCViewerとリモート接続でプロファイリング可能なVisualVM

2014-12-23

書いた人 : バツイチ
カテゴリ : jvm | タグ : GCViewer, VisualVM

この記事はJVM Advent Calendar 2014 – Qiitaのために書きました。

「GCログ」や「GCViewer」のキーワードからこのサイトに訪れてくれる方が多いので、改めてGCログやヒープダンプの見方についてまとめることにしました。

GCログのビューアとして有名なGCViewerとヒープの解析ツールとしてすごく優秀なVisualVM、この２つを紹介しつつJVMのプロファイリングを行う方法を解説したいと思います。

2014-12-17

書いた人 : バツイチ
カテゴリ : Python, Spark | タグ : install, IPython, mesos, notebook

前回、Cloudera Managerを使ってHDFSクラスタを構築しました。

今回はこのHDFS上でApache Sparkを動かします。
Apache Sparkを扱うOSSのGUIをいろいろ探してみたのですが、現状ではIPython + notebook最強伝説です。

2014-12-15

書いた人 : バツイチ
カテゴリ : HDFS | タグ : Cloudera Manager

HDFSをベースとして動くアプリケーションは数多くありますが、HDFSクラスタを構築するのは少々面倒な感じがします。
しかし、Cloudera Managerを使えば5分でHDFSクラスタを構築できてしまうのです。

今回はこのCloudera Managerを使ってLinux(CentOS6.5)４台に

2014-11-20

書いた人 : バツイチ
カテゴリ : カンファレンス | タグ : Big Data, strata

Strata+Hadoop Worldカンファレンスの２日目と３日目です。

２日目、３日目は注目セッションもたくさんあったのですが、スポンサー・パビリオンも外せませんでした。

2014-11-19

書いた人 : バツイチ
カテゴリ : scala, Spark, カンファレンス | タグ : Hadoop, Spark

2014年11月、スペインのバルセロナでStrata+Hadoop Worldカンファレンスが開催されました。
このカンファレンスはO’ReillyとあのClouderaが主催する世界最大規模のBig Dataカンファレンスです。

「Hadoop World」と銘打ってますが、必ずしもHadoopプラットフォームに限ったことではなくCassandra, Storm, Spark/Shark, Drillなどのトラックもあるよ、と謳われていました。

2014-11-08

書いた人 : バツイチ
カテゴリ : scala, spray

第2回ではsprayのテンプレート・プロジェクトをデバッグ実行してみました。
今回は、かんたんなTODO登録を作成してみます。

掲載したコードはGithubにて公開しています。
https://github.com/x1-/spray-sandbox