bogofilter の日本語対応 (bogofilter+MeCab patch)

概 要

bogofilterはベイズ推定をSPAMフィルターに応用したソフトウェアです。 MeCabは日本語を単語に分解し、品詞評価を行う形態素解析エンジンです。 大雑把に言うと、ベイズ推定利用の肝は単語毎に統計を取るところにあります。元来日本語は、欧米系の言語と違い、 単語を空白で区切らないという表記形式をとっており、そのままではこの単語毎の統計という処理がうまく働きません。そこで、 一続きに書かれた日本語の文を単語に区切るという操作(分かち書き)が必要になります。これを行うのが形態素解析エンジンです。 形態素解析エンジンとしては kakasiChaSenなどが知られています。 ここではMeCabを採用しました。
最近(2018現在)では解析精度の高いJUMANN++なるものもあるようです。(処理スピードに難有り?)
kakasiを使った日本語対応(bogofilter-1.2.4用kakasi-0.5 patch)はこちら

なお、このパッチのご利用はご自身の責任の範囲でお願いします。

ダウンロード

必要なもの

インストール

下記のような感じでインストールします。(自分のところ(Mac OSX 10.7)ではこんな感じ)

使い方

オリジナルと同様
うちではprocmailのfilterとして使ってます。
---- .procmailrcの抜粋 ----

#### bogofilter passthrough-update ####
#:0fw
:0Efw
| bogofilter -p -e -l

# -f)isher, -p)assthrough -u)pdate, -l)og -e)xitcode 0 for spam and ham
# -v)erbose
#### begin error catcher ####

:0e
{
        EXITCODE=75
        HOST
}
#### end error catcher ####

※-u (update) してないのは、一日一回 DBのバックアップ、メンテナンス(bogoutil)と同時にまとめて実施しているためです。

Technical Notes


Last modified: Sat Apr 30 00:39:30 JST 2022 tomo.m