上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
隠れアルゴリズマー集まれ

これは面白そうな問題。
やりませんが。

パッと思いつくのは、DOMを生成してDIV要素かTD要素(他にもあるかな?)の中から、最も文字数の多いものを本文要素として判定する方法。

ただ、これだと本文の文字数が少ないエントリーなんかで誤判定してしまいそうなので、加えて本文のテキスト自体から本文文章なのか、別の文章なのかを判断するような何かしらの処理が必要になりそうです。それでも、短い本文とそれよりも長いコメントが一つ付いたケースで正しく判定するのが難しそうですが。

或いは候補要素のブラウザ上での表示位置を取得して、上の方に表示されている候補を本文として選択するようなアプローチとか。


究極的な解決方法として、国内主要ブログサービス全ての本文部分に、それを意味するマイクロフォーマットを埋め込んでくれるようプログラムを修正してくれるプログラムとかはどうでしょう。

RFC1149を参考に適切なプロトコル及び高性能BOTを開発して、クロールさせれば実現出来そうな気がします。言ってみればGoogleの一歩先を行く試みです。

一方、ロシアは営業マンを使った。
コメント
この記事へのコメント
コメントを投稿する
URL:
Comment:
Pass:
秘密: 管理者にだけ表示を許可する
 
トラックバック
この記事のトラックバックURL
この記事へのトラックバック
copyright © 2005 The elephant vanishes all rights reserved.
Powered by FC2ブログ.
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。