bogofilter の日本語対応 (bogofilter+kakasi patch)

概 要

bogofilterはベイズ推定をSPAMフィルターに応用したソフトウェアです。 kakasiはもともとは日本語の漢字仮名まじり文をひらがな書きやローマ字に変換するソフトです。 文を変換する際、単語に分解(分かち書き)する機能を持つことから、分かち書き機能単独で出力が得られるよう拡張が行われたものです。
bogofilterにおいて、ベイズ推定利用の肝は単語毎に統計を取るところにあります。元来日本語は、欧米系の言語と違い、 単語を空白で区切らないという表記形式をとっており、そのままではこの単語毎の統計という処理がうまく働きません。そこで、 一続きに書かれた日本語の文を単語に区切るという操作(分かち書き)が必要になります。ここにkakasiの分かち書き機能が使われます。
パッチのオリジナルがbogofilter-1.0.1までしか 対応していない(2012/12/04現在)ため、最新の1.2.4にあたるように手をいれたものです。 パッチのロジカルな部分には手を入れていないため、もしかしたら不具合を起こしているかもしれません。 でも、自分のところではそれなりに動いてます(^^;
MeCabを使った日本語対応(bogofilter+MeCab patch)はこちら

このパッチのご使用はご自身の責任の範囲でお願いします。

ダウンロード

必要なもの

インストール

下記のような感じでインストールします。(自分のところ(Mac OSX 10.7)ではこんな感じ)