青い鴉のブログ

光のプログラマーの青い鴉(ぶるくろ)が情報発信していくブログです。

【研究】Wikipediaをコーパスとした全自動テキスト分類【成果物】

 Wikipediaのオリジナル(XML形式で配布されている)をコーパスに用いて、なるべく簡単にテキスト自動分類を行う。この研究に技術的に真新しいことは何も出てこない。この研究の意義は再現性であり、追試性であり、実用性である。実装コストの低さである。

 まずWikipediaXML)をテキストファイルに落とし込む。この際、ブラケットに囲まれたリンク情報を除く装飾情報および添付ファイルは削除しておく。

 次にWikipediaの約100件のカテゴリに対応する起点ページからリンクを2回まで辿ることで、そのカテゴリに属するページの集合(クラスタ)を取り出す。このページ集合を元に、インデックスを作り、ページを形態素解析エンジンMeCab分かち書きする。

 そして、前述の処理で作られたインデックスと分かち書きされたファイルを元に、ナイーブベイズアルゴリズム(Algorithm::NaiveBayes)によって各記事のカテゴリを学習し、記録する。

 結果として、引数で与えたテキストは自動的にカテゴリに分類される。そこに人手は介在しておらず、それゆえにこのシステムはWikipediaコーパスに基づくテキスト自動分類システムとして位置付けられるであろう。

(以下略)

 

 20130120_bayes08.zip (11KB)

 

更新履歴

2013/01/20

  -c オプションでbayes.dbファイルを削除、再作成するように変更

  -b オプションでカテゴリファイルを指定可能に変更