GW 1日目日記
今年もGWがやってきたので日記を書きます。
去年は途中で力尽きましたが、今年はどこまでいけるか。
やったこと
WikipediaのダンプデータをAmazonのElasticsearchに載せた。
ざっくり手順
- Wikipediaのダンプを落とす
- WikipediaExtractorで中身をパースし、分割して出力する
- 分割して出力したファイルをpyhton(Beautifulsoup4)で読んで、Elasticsearchモジュールで記事をindexに追加
ググってみても、Wikipediaの日本語のダンプデータをAmazonのElastisearchに載せてる人は見つからなかった。(ローカルのESに載せてる人はいた) 生データは11GBくらいあるので、(ローカルのESに載せる記事だと)XMLをstream2esで載せている方法があったがAmazon Elasticsearchでこの方法を使ってもいまいちうまくいかない。 ストリームデータをAmazon Elasticsearchに載せる方法はいくつかあるみたいだが、 微妙に今回やりたいことにそぐわないのと準備に手間がかかりそうなので上記のような手順を取った。
ファイルを分割する部分に関しては別にWikipediaExtractorを使う必要はないのだけど、巨大なXMLを分割して読み込み・出力するスクリプトを1から書くのが手間がかかりそうだったので利用させてもらいました。
上記のような手順を経て、どうにかAmazonのElasticsearchにwikipediaのデータをロードすることができました。