AjaxなページもPhantomJS, CasperJS, SpookyJSでいい感じにクローリングできるようにしてSEOする

2014-01-10

書いた人 : インケン
カテゴリ : JavaScript, SEO

ajaxなページもクローラーに読ませたいですよね。
そこでPhantomJS, CasperJS, SpookyJSです。

簡単に説明するとこんな感じ

PhantomJS

コマンドラインから使える画面がないwebkitブラウザ

CasperJS

PhantomJSのユーティリティ、PhantomJSをもっと便利に使えるようにするやつ

SpookyJS

casperJSをNodejsから使えるようにするやつ

こういうことをしたい

[続きをもっと見る…]

Elasticserchの検索で余計なノイズを載せないようにしたい

2014-01-09

書いた人 : インケン
カテゴリ : Elasticsearch, PHP

Elasticsearchの日本語の形態素解析は基本的にkuromojiを使うのですが、けっこうよく出来てて「え？これまで拾っちゃう？」って思うこともしばしば。

かすってそうなデータも拾ってくれるのはありがたいのですが、さすがにノイズだらけって場合もあるので、スコアでフィルタリングしたいと思います。

ついでにPHPでの検索の投げ方も。

[続きをもっと見る…]

BeautifulSoupでロト７の当選番号をすっぱ抜いてくる

2014-01-08

書いた人 : インケン
カテゴリ : Python

前回に引き続きPython初心者シリーズ

みずほのサイトからロト７の当選番号をすっぱ抜いてくるサンプルを紹介します。

スクレイピング

PHPでスクレイピングをやろうとすると、curlで取ったHTMLをpreg_match等を使ってDOMを解析することになりますよね（今はもっと便利なモジュールがあるのかもしれないけど）

Pythonだと、BeautifulSoupという大変便利なモジュールがあります。

パースされたデータに対しての操作が超絶便利です。

[続きをもっと見る…]

Elasticsearchのインデックス登録をRabbitMQ経由でやる

2014-01-07

書いた人 : インケン
カテゴリ : Elasticsearch, RabbitMQ

バツイチちゃんがSolrのこと書いてたので、インケンはElasticsearchのこと書きます。

xmlよりjson派なインケンとしてはsolrなんかより、elasticsearch押しです。solr使ったことないけどね！

elasticsearchはRESTリクエスト飛ばせば、検索登録更新削除すべて行うことができるのですが、RabbitMQのプラグインを使うと、登録更新削除をキューにメッセージ投げるだけでいいので、大変便利です。

MQにメッセージ投げる際には、elasticsearchのbulk api形式で送る必要があります。

その辺がわかりづらかったので、サンプル交えてご紹介します。

[続きをもっと見る…]

2014年もよろしくおねがいいたします

2014-01-01

書いた人 : バツイチ
カテゴリ : ひとこと, 技術じゃないやつ

あけましておめでとうございます。バツイチです。

年が明けて２０１４年になりました。

２０１３年を振りかえるとデータサイエンスと関数型言語の流行が目立ったように感じます。

２０１４年はそろそろ圏論が流行るのではないかと思っています。

（型システム入門がAmazonの技術書売上数ランキング１００位以内に入ったことですし）

定理証明系言語Coqも台頭してくるかもしれません。

[続きをもっと見る…]

第5回 Solr4でレプリケーションを構築する

2013-12-28

書いた人 : バツイチ
カテゴリ : solr

Solr4を動かしてみるシリーズの5回目です。

今回はSolr4でmaster-slaveの単純レプリケーションを構築したいと思います。

レプリケーションの構成にはReplicationHandlerを使います。
coreのインスタンスディレクトリ下のconf内にあるsolrconfig.xmlを開くと、レプリケーション構成のテンプレートが記述してあり、この部分のコメントを外して必要な項目を設定すればレプリケーション完了なのです(｀_´)ゞ

[続きをもっと見る…]

Python初心者のインケンがマイクロフレームワークのbottleでMVCしちゃうサンプル

2013-12-26

書いた人 : インケン
カテゴリ : Python

はじめに

Pythonまったく使ったことないから、Pythonでなんか作ってみようと思ったのがきっかけです。

かといって、「Hello World」出すだけなんてしょーもないことしても意味が無いので、ちゃんとフレームワークを使ってMVCっぽく作ろうと思いました。

せっかくなので、自分がマンガを今何巻まで持っているかを管理するツールを作りたいと思います。いつも何巻まで持ってたっけかなーって忘れちゃうので。

CRUDの基本を抑えたサンプルです。

ちなみに、Pythonの構文やモジュールのインストール等は、検索すればすぐ出てくるのでググってください。

[続きをもっと見る…]