« おお汝よ、その選択に偽りはないか | POPFile導入 | PUGO第50回定例会(前編) »

Fri September 24,2004

POPFile導入

自作ソフトを公開している関係でWeb上にメールアドレスを晒しているので毎日結構な数のスパムが送られてきます
最初は手動で分けていたのですが、さすがに90%以上スパムになると限界
という訳でPOPFileを導入してみました

POPFileはベイジアンフィルタを使ってメールを分類してくれるソフトです
しかもローカルサーバとして動作するのでどんなメーラーを使っていても大丈夫

ベイジアンフィルタというのはベイズ理論に基づいたフィルタで、簡単に言うと、メールに含まれる単語を分析して
”前に来たスパムに多く含まれている単語が多く含まれているメールはスパム”
という理屈でスパムを判別します
ベイズ理論の詳細が知りたい方はこことかここを見てください
メールが来たときにこれはスパムこれはスパムじゃないと教えていくとデータを蓄積していきどんどん分類精度が上がっていきます
2週間ぐらい使ってみたところ最近の分類精度は96.36%、しかもルールベースじゃなく確率論的にスパムを判別するので新しいスパムが来ても正しく分類されます

スパムフィルタ以外にもメールのカテゴリ分けにも使えますので是非試してみてください
教え込んで行くとどんどん分類精度が上がってくるので育てる楽しみ(?)のような物があります(^^

ところでこのベイジアンフィルタなのですが、要するに、与えられた文章とある項目の関連性を判定できます
これをRSSリーダと組み合わせて、この記事は興味がある、この記事は興味がないと分類していけば興味のある話題を選別して提示してくれるRSSリーダが作れそうです
#RSSリーダは便利なのですが、結局大量の記事の中から興味のある物を探すのは大変なので
時間に関連した忘却係数を設定しておけば次第に興味が移っていったときも問題無さそう
誰か作ってくれないかな~

Posted at 23:59

Trackback Pings

このエントリーのトラックバックURL:
http://pam-ya.com/cgi/mt/mt-tb.cgi/181