ホーム > コンピュータ > Wikipediaオフライン

Wikipediaオフライン

Wikipediaのデータがダウンロードできるってことに、何気に気づいた。
GFDLで公開されているわけだし、よく考えれば驚くことじゃないんだけど。
で、WikipediaをEPWING辞書化して、x02htからオフラインでも検索できるように持ち歩こうってお話。

以下のものが必要

とりあえずCygwinもしくはLinuxの処理系が使用できる状態を前提として、以下に手順をまとめておく。

まず、必要なものをダウンロードする。
Cygwinを普通にインストールしている場合、wgetが入ってないかもしれないので、追加しておくこと。

# cd /path/to/download (適当に読み替えて)
# wget http://download.wikimedia.org/jawiki/latest/jawiki-latest-pages-articles.xml.bz2
# wget ftp://ftp.sra.co.jp/pub/misc/freepwing/freepwing-1.6.tar.bz2
# wget http://ikazuhiro.s206.xrea.com/filemgmt/visit.php/116

続いて、FreePWINGのインストール

# tar xvfj freepwing-1.6.tar.bz2
# cd freepwing-1.6
# ./configure
# make
# make install

続いて、wikipedia-fpwを展開
これはインストールしないで、展開するだけ
そして、WEBサイトの説明に従って、wikipedia-fpw.confを編集する
例えばCygwinの場合、’enable_math’を0に変更し、数式を用いないようにするなど

# cd /path/to/download
# tar xvfz wikipedia-fpw-20090126-src.tar.gz
# cd wikipedia-fpw-20090126
# vi wikipedia-fpw.conf

Wikipediaダウンロードデータを展開し、wikipedia-fpwのディレクトリに’wikipedia.xml’という名前でコピー
その後、処理を始める

# cd /path/to/download
# bunzip2 jawiki-latest-pages-articles.xml.bz2
# mv jawiki-latest-pages-articles.xml /path/to/wikipedia-fpw/wikipedia.xml
# cd /path/to/wikipedia-fpw (適宜、読み替えて)
# fpwmake
# fpwmake catalogs
# fpwmake package

なお、fpwmakeにはかなり時間がかかるので、気合い入れて。
Intel Core Duo T2400 1.83GHz、1.5GB RAMにて、6時間かかりました。

WIKIPというフォルダができているので、そのフォルダの中のcatalogsファイルを登録すれば、EBWinから検索することができるはずです。
確認できたら、EBShrinkで圧縮して、honmonファイルのサイズを減らしましょう。
僕はあまり大きなmicrosdをもってないので、Level 5で圧縮して900MBくらいになりました。

カテゴリー: コンピュータ タグ:
  1. コメントはまだありません。
  1. トラックバックはまだありません。