サイトのリンク構造から有害コンテンツを判定

http://internet.watch.impress.co.jp/cda/news/2008/01/28/18251.html

動画・音声やゲーム、EC、不動産、アダルトなど各カテゴリを出発点とし、ホスト間のリンクに絞ってWebページを辿っていくと、どのようなサイトに行き着くのか(Webコンテンツのネットワーク構造)を可視化したところ、カテゴリによってサイト同士の結び付きに特徴が見られた。特に、相互リンクの密度はアダルトカテゴリが最も強いという。また、ホスト間のリンク数が150以上の強い結び付きを持つところも多数存在し、ここでもアダルトカテゴリに顕著な傾向が見られた。さらに、ホストのリンク数を示す「次数」もアダルトカテゴリや、その他の有害サイトが多かった。

また、安全なカテゴリのページからであっても、リンクを辿ることによって、有害サイトに到達する可能性が高まることが判明した。

安全なカテゴリからリンクを辿っていくと有害サイトにたどり着くのは当たり前かもしれない。
例えば、ヤフーはアダルトサイトへリンクはしていないか?
アダルトカテゴリが存在するので単純に考えてもリンクしている。

エキサイトは?ライブドアは?これらと取引している業者でもショッピングサイトやコミュニティサイトを持っていても、アダルトを運営していたり、表面的には知られないところでスパムやウィルスへ誘導するサイトを運営していたり、まあ有害サイトへリンクしていないサイトは皆無といったほうがいいかもね。