青い鴉のブログ

光のプログラマーの青い鴉(ぶるくろ)が情報発信していくブログです。

2013-01-01から1ヶ月間の記事一覧

【研究】Wikipediaをコーパスとした全自動テキスト分類【成果物】

Wikipediaのオリジナル(XML形式で配布されている)をコーパスに用いて、なるべく簡単にテキスト自動分類を行う。この研究に技術的に真新しいことは何も出てこない。この研究の意義は再現性であり、追試性であり、実用性である。実装コストの低さである。 ま…

【研究】Wikipediaをコーパスとした全自動テキスト分類

表題の研究を新年早々行っていたが、一定の成果が出た。 言語としてはPerlを用い、Wikipediaマイニングを行い、ナイーブベイズで分類する。1.Wikipedia(XML)の全ページの切り出し 2.分類の設定(Wikipediaの代表的100カテゴリを基にする) 3.ページ…