隠れアルゴリズマー集まれ
これは面白そうな問題。
やりませんが。
パッと思いつくのは、DOMを生成してDIV要素かTD要素(他にもあるかな?)の中から、最も文字数の多いものを本文要素として判定する方法。
ただ、これだと本文の文字数が少ないエントリーなんかで誤判定してしまいそうなので、加えて本文のテキスト自体から本文文章なのか、別の文章なのかを判断するような何かしらの処理が必要になりそうです。それでも、短い本文とそれよりも長いコメントが一つ付いたケースで正しく判定するのが難しそうですが。
或いは候補要素のブラウザ上での表示位置を取得して、上の方に表示されている候補を本文として選択するようなアプローチとか。
究極的な解決方法として、国内主要ブログサービス全ての本文部分に、それを意味するマイクロフォーマットを埋め込んでくれるようプログラムを修正してくれるプログラムとかはどうでしょう。
RFC1149を参考に適切なプロトコル及び高性能BOTを開発して、クロールさせれば実現出来そうな気がします。言ってみればGoogleの一歩先を行く試みです。
一方、ロシアは営業マンを使った。
これは面白そうな問題。
やりませんが。
パッと思いつくのは、DOMを生成してDIV要素かTD要素(他にもあるかな?)の中から、最も文字数の多いものを本文要素として判定する方法。
ただ、これだと本文の文字数が少ないエントリーなんかで誤判定してしまいそうなので、加えて本文のテキスト自体から本文文章なのか、別の文章なのかを判断するような何かしらの処理が必要になりそうです。それでも、短い本文とそれよりも長いコメントが一つ付いたケースで正しく判定するのが難しそうですが。
或いは候補要素のブラウザ上での表示位置を取得して、上の方に表示されている候補を本文として選択するようなアプローチとか。
究極的な解決方法として、国内主要ブログサービス全ての本文部分に、それを意味するマイクロフォーマットを埋め込んでくれるようプログラムを修正してくれるプログラムとかはどうでしょう。
RFC1149を参考に適切なプロトコル及び高性能BOTを開発して、クロールさせれば実現出来そうな気がします。言ってみればGoogleの一歩先を行く試みです。
一方、ロシアは営業マンを使った。
という物を思いつきました。単純な話なので、絶対に誰かが既に出しているアイディア。
1.ユーザが迷惑メールを通報する。
2.迷惑メールの送信元アドレスを記録する。
3.通常のアルゴリズムによるフィルタと、2のアドレスリストの両方に一致した場合のみスパムと判断する。
これだけ。スパムを送ってくるメールアドレスの数は莫大ですが、Gmailのような莫大なユーザ数を持っているサービスだと2のアドレスリストも同じぐらい莫大になりそうです。
スパムフィルタで最も怖いのはスパムを検出し損なう事ではなく、非スパムをスパムと判断してしまう事です。それに対する一種の安全弁としてFolksonomyフィルタを使うのはどうだろう、という話。送信元アドレスを偽造した嫌がらせとかが怖いけれど、通常のアルゴリズムの方で引っかからなければ弾かれない、と。
1.ユーザが迷惑メールを通報する。
2.迷惑メールの送信元アドレスを記録する。
3.通常のアルゴリズムによるフィルタと、2のアドレスリストの両方に一致した場合のみスパムと判断する。
これだけ。スパムを送ってくるメールアドレスの数は莫大ですが、Gmailのような莫大なユーザ数を持っているサービスだと2のアドレスリストも同じぐらい莫大になりそうです。
スパムフィルタで最も怖いのはスパムを検出し損なう事ではなく、非スパムをスパムと判断してしまう事です。それに対する一種の安全弁としてFolksonomyフィルタを使うのはどうだろう、という話。送信元アドレスを偽造した嫌がらせとかが怖いけれど、通常のアルゴリズムの方で引っかからなければ弾かれない、と。
| ホーム |