青い鴉のブログ

光のプログラマーの青い鴉(ぶるくろ)が情報発信していくブログです。

【研究】Wikipediaをコーパスとした全自動テキスト分類

 表題の研究を新年早々行っていたが、一定の成果が出た。

 言語としてはPerlを用い、Wikipediaマイニングを行い、ナイーブベイズで分類する。

1.WikipediaXML)の全ページの切り出し
2.分類の設定(Wikipediaの代表的100カテゴリを基にする)
3.ページから2回のリンクで辿れるページ(クラスタ)の取得
4.形態素解析エンジンMeCabによる分かち書き
5.ナイーブベイズ・アルゴリズムによる学習
6.対象となるテキストの分類

 ここまでを恣意性無しに行うことを目標とし、mixi日記を分類するというタスクにおいて、一定の成果を残した。
 これ単体では論文にはならないだろうが、個人の自由研究でもここまでやれるというマイルストーンになるであろう。