近頃版/another blog@hatena/Wiki/BBS
< 濡れる。 | 昨晩 >
TrackBack spam対策の話の続き。週末にあれこれ調整してみた。
今のところのフィルタリングルールは以下のような感じ:
こいつらで適当にスコアを付けて合計値が一定値以上ならspam認定とかそんなルール。#このほかに検討してみてもいいかもしれない項目をつらつらと書いてみる。
_buzz word(NGワード)リストによるチェック。だがリストの管理をするのがめどい。ベイジアンならアリかもだけどそれなりに負荷かかるのでびみょー。弾いたspamを蓄積しておいて定期的になんらかのアルゴリズムでbuzz wordsを生成するような仕組みならまだアリか? しかしリストを一々読みこませるとやっぱり負荷になるのでspamdみたいな仕組みを作らないとやってられないけどそんなのやってられないのでおおむね却下。
_UserAgentによるチェックはそれなりに有効だろうと思うけどそんな使いかたありえないとの個人的強迫観念で却下。
_トラックバック元文書にトラックバック先への参照が含まれているかのチェックは有効かつまっとうな実装だと思うけどやっぱり負荷を考慮して回避。他のスコアが微妙だったときの最終判定基準にするのはいいかもしれない。
_IP範囲で可否判定。範囲リストのメンテナンスがめどい。
_同一IPからの連続リクエストチェック。CGIがstateを持ってしまうのが微妙に嫌なので回避。筋自体はそんなに悪くないとは思うけど。