ajaxなページもクローラーに読ませたいですよね。
そこでPhantomJS, CasperJS, SpookyJSです。

簡単に説明するとこんな感じ

PhantomJS

コマンドラインから使える画面がないwebkitブラウザ

CasperJS

PhantomJSのユーティリティ、PhantomJSをもっと便利に使えるようにするやつ

SpookyJS

casperJSをNodejsから使えるようにするやつ

こういうことをしたい

[続きをもっと見る…]

Elasticsearchの日本語の形態素解析は基本的にkuromojiを使うのですが、けっこうよく出来てて「え?これまで拾っちゃう?」って思うこともしばしば。

かすってそうなデータも拾ってくれるのはありがたいのですが、さすがにノイズだらけって場合もあるので、スコアでフィルタリングしたいと思います。

ついでにPHPでの検索の投げ方も。

[続きをもっと見る…]

前回に引き続きPython初心者シリーズ

みずほのサイトからロト7の当選番号をすっぱ抜いてくるサンプルを紹介します。

スクレイピング

PHPでスクレイピングをやろうとすると、curlで取ったHTMLをpreg_match等を使ってDOMを解析することになりますよね(今はもっと便利なモジュールがあるのかもしれないけど)

Pythonだと、BeautifulSoupという大変便利なモジュールがあります。

パースされたデータに対しての操作が超絶便利です。

[続きをもっと見る…]

バツイチちゃんがSolrのこと書いてたので、インケンはElasticsearchのこと書きます。

xmlよりjson派なインケンとしてはsolrなんかより、elasticsearch押しです。solr使ったことないけどね!

elasticsearchはRESTリクエスト飛ばせば、検索登録更新削除すべて行うことができるのですが、RabbitMQのプラグインを使うと、登録更新削除をキューにメッセージ投げるだけでいいので、大変便利です。

MQにメッセージ投げる際には、elasticsearchのbulk api形式で送る必要があります。

その辺がわかりづらかったので、サンプル交えてご紹介します。

[続きをもっと見る…]

あけましておめでとうございます。バツイチです。

年が明けて2014年になりました。

 

2013年を振りかえるとデータサイエンスと関数型言語の流行が目立ったように感じます。

2014年はそろそろ圏論が流行るのではないかと思っています。

(型システム入門がAmazonの技術書売上数ランキング100位以内に入ったことですし)

定理証明系言語Coqも台頭してくるかもしれません。

[続きをもっと見る…]

Solr4を動かしてみるシリーズの5回目です。

今回はSolr4でmaster-slaveの単純レプリケーションを構築したいと思います。

master_slave

レプリケーションの構成にはReplicationHandlerを使います。
coreのインスタンスディレクトリ下のconf内にあるsolrconfig.xmlを開くと、レプリケーション構成のテンプレートが記述してあり、この部分のコメントを外して必要な項目を設定すればレプリケーション完了なのです(`_´)ゞ

[続きをもっと見る…]

はじめに

Pythonまったく使ったことないから、Pythonでなんか作ってみようと思ったのがきっかけです。

かといって、「Hello World」出すだけなんてしょーもないことしても意味が無いので、ちゃんとフレームワークを使ってMVCっぽく作ろうと思いました。

せっかくなので、自分がマンガを今何巻まで持っているかを管理するツールを作りたいと思います。いつも何巻まで持ってたっけかなーって忘れちゃうので。

CRUDの基本を抑えたサンプルです。

ちなみに、Pythonの構文やモジュールのインストール等は、検索すればすぐ出てくるのでググってください。

[続きをもっと見る…]