« Google MapsのGeocoding APIが日本対応 | メイン | AdWordsの品質スコアを左右する新要素 »

Search Engine Strategies Chicago '06 - コンテンツ複写と多重サイトについて -

12月4日~7日まで、シカゴで検索エンジン戦略に関するカンファレンスが開かれました。
全75セッションリスト
これについてSearch Engine Roundtableが、非常に有益なレポートをあげてくれています。

Search Engine Strategies Chicago '06 SER Coverage Recap

中でも個人的に興味のあるセッションを幾つか、いつも通りいい加減にですが書き留めておこうと思います。
まずは5日に開かれたDuplicate Content & Multiple Site Issues。ちょうど仕事上でも、ASPとして他社提供しているコンテンツが複写と見なされる可能性もあれば、サイトが完全にパクられている例もあり。まさに内憂外患の悩みどころでした。
以下、ここでの目的はセッションのレポートではなくナレッジ共有なので、要点の羅列だけで。

コンテンツ複写と多重サイトの問題について

Becom.comのJon Glick氏:
コンテンツ複写とは、複数の異なったURLで同じ内容のホームページが存在すること。
検索エンジンはコンテンツ複写を好みません。
動的URLはロボットを混乱させやすいので気をつけましょう。
Googleなどの検索エンジンは、あなたにとって最良のドメインだけを選ぶでしょう。
トラッキングのためのランディングページを検索エンジンに見せないよう、robots.txtなどを用いましょう。
あなたの持つ全てのドメインから1つのドメインに、301リダイレクトを使って集約しましょう。
302リダイレクトは一時的な移動を意味するので、イベントスケジュールのようにすぐに変わってしまうものにだけ使うようにしましょう。
ペナルティを受けた際には、Googleに直接コンタクトできます。
Yahoo!も同様のフォームを持っていますが、実際のところ彼らは除外した時にそれを通知してくれます。

GrantasticDesignsのShari Thurow女史:
例えば65%の文字列が同じ...というようなパーセンテージで計るものがコンテンツ複写ではない。その内容の類似性が問題。
検索エンジンは、同じ情報の繰り返しが検索性を落としユーザを落胆させることから、これを非常に嫌います。
※以下、彼女が説明してくれたGoogleをはじめとする検索エンジンのコンテンツ複写を防ぐクラスタリング手法

  • ナビゲーションやフッタなどの定型テンプレートを落とし、コンテンツだけを抽出する
  • 内部、外部の各リンクを抽出
  • 内容が更新されているかどうかをチェック(週次で見て、世の中の65%のサイトが変化していない。平均して0.8%のコンテンツが、週毎に完全に変わっている)
  • ホスト名解決(nao58注:複数のドメインが同じ或いは近いIPを指していないかの確認を指す?)
  • ページが持つ特徴を単語のパターンなどに分解して比較する。各単語の出現順序は関係ない

複写ページをクローラーに見られないよう、robots.txtなどを使いましょう。
必ずしもではないですが、コンテンツ複写はスパムと判定される場合があります。
もし誰かがあなたのコンテンツを盗んでいるなら、法律家を雇って訴訟すべきです。
それを知るために、Copyscapeは良いツールです。archive.orgも、あなたの著作権を守るのに有益でしょう。デジタルミレニアム著作権法を用いてGoogleやYahoo!、AskやMSNに報告すべきです。

RedZoneGlobalのMikkel deMib Svendsen氏:

wwwを付けるべきかどうかは、かつては問題であったが現在は無関係。ただし外からのリンクがwwwの無いドメイン、wwwドメインにバラバラにリンクしているのは良くはないので、301リダイレクトを使いましょう。
セッションIDは、場合によっては悪夢となります。あるサイトはYahoo!上で同一のページが20万もの種類でインデックスされました。セッションはcookieに入れ、URLには出てこないようにしましょう。
多くのオープンソースのblogでは、permalink作成において古いURLと新しいURLが同じように動作してしまうことがあります。これは大きな問題になりますので、カスタマイズしましょう。ただし、私見ではGoogleはこの問題を非常にうまく扱ってくれていると思いますが。301リダイレクトを用いて古いURLをブロックしましょう。Wordpressは、この問題に対処するためのプラグインを持っています。
パラメータの並び順は一般的な問題です。301リダイレクトでデフォルトのURLに飛ばしましょう。
パンくずもまた、問題になりえます。多くの場合、パンくずはURLと同じ構造をとるでしょう。それは幾つかの複写ページを作ることになってしまいかねません。ひとつの製品がひとつのURLを持つようにすべきです。

Social Flares:

add to はてなブックマーク add to ECナビ add to livedoorクリップ add to Newsing add to Nifty Clip add to del.icio.us add to digg! add to FC2 add to Pookmark add to Furl add to technorati add to Ma.gnolia add to Google Bookmark add to Yahoo! my web add to reddit add to PingKing add to ROOTACE add to simpy add to spurl add to BuddyMarks

トラックバック

このエントリーのトラックバックURL:
http://dendrocacalia.com/mt/mt-tb.cgi/30

この一覧は、次のエントリーを参照しています: Search Engine Strategies Chicago '06 - コンテンツ複写と多重サイトについて -:

» Search Engine Strategies Chicago '06 - 成功するサイト構造 - 送信元 Buzzy Dizzy Biz
前回に引き続き、Search Engine Strategies Chicago... [詳しくはこちら]

» コンテンツ重複についてGoogleからのTips 送信元 Buzzy Dizzy Biz
先日から紹介しているシカゴでの検索エンジン戦略会議においても、コンテンツ重複/複... [詳しくはこちら]

コメント

About

2006年12月10日 02:11に投稿されたエントリーのページです。

ひとつ前の投稿は「Google MapsのGeocoding APIが日本対応」です。

次の投稿は「AdWordsの品質スコアを左右する新要素」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

他のサイト

アーカイブ

あわせて読みたい

あわせて読みたい

なかのひと