« 韓国最大の検索エンジン Naver が日本進出 | メイン | AdWordsの品質スコアを左右する新要素 »

コンテンツ重複についてGoogleからのTips

先日から紹介しているシカゴでの検索エンジン戦略会議においても、コンテンツ重複/複写の問題について多くのセッションが開かれ、Googleも多くの質問を受けたようです。
そこでGoogleが、公式にこの問題についてTipsを出してくれました。

Deftly dealing with duplicate content

以下、要約。


コンテンツ重複になるものは何?

一般的には、ドメイン内に/またはドメインを跨ってほぼ同じコンテンツブロックが存在すること。
大抵の場合は悪意を持って意図的にやっているわけではないものの、例えば自動的にサマリーが作られたり携帯用のページが生成され、複数のURLで内容が同じになるフォーラムなどが例として挙げられます。
場合によっては、検索エンジンのランクを上げるためや、人気の/ロングテールのクエリーからの集客のために、ドメインを跨いだコンテンツ重複が見られるケースもあります。

コンテンツ重複にならないのは?

同じ内容が、英語とスペイン語などの複数の言語で書かれているものは重複とは見做しません。 また、スニペットのような引用に関しては、括弧でくくられているかどうかにかかわらず重複とすることはありません。

何故、Googleはコンテンツ重複を気にするのか?

検索に来るユーザは、通常は多様な種類の一意な内容のコンテンツを欲しがります。 そして対照的に、検索結果に似たような内容のサイトが並ぶことを、あきらめと共に受け入れています。 またウェブ管理者にしても、例えば example.com/en/shorty-george.htm のようなわかりやすいURLではなく example.com/contentredir?value=shorty-george〈=en のようなゴチャゴチャしたURLが表示されるのは残念でしょう。

この問題について、Googleは何をするのか?

クロールする際や検索結果を表示する際に、出来るだけ重複しない情報が表示されるようにしています。 このフィルタは簡単に言うと、例えばあなたのサイトが「通常版」と「印刷用」のページを持っていて、どちらもrobots.txtやnoindexメタタグなどでインデックスを拒否していない場合、どちらか片方を選択してリストに載せることになります。 稀なケースですが、重複コンテンツがページランクを操作しようとしていたりユーザを騙そうとしているように見えた場合、それらの関連するサイトの索引やランクに対して適切な調整を行います。 しかしながら、我々はランクの調整よりもフィルタリングの方に注力しています。ほとんどの場合、ウェブマスターにとっての最悪の出来事は、「望まない方のページがインデックスされる」ことになります。

ウェブマスターは、どうやって重複コンテンツ問題に対処したら良いのか?

  • 適切なブロックを行う:我々のアルゴリズムに任せて「最善の」ドキュメントを選択させるよりも、おそらく望ましいコンテンツを案内してくれる方が良いでしょう。手っ取り早いのは、望まない方のディレクトリをアクセス不可にしたり、robots.txtに正規表現を用いたりすることです。
  • 301を使う:サイトを再構築したのであれば、.htaccessなどに301リダイレクトを書き、そのことをGooglebotや他のスパイダーに教えて下さい。
  • 統一性を持つ:内部リンクを作る場合、例えば /page/ や /page や /page/index.htm などバラバラのURLで同じページにリンクしないようにしましょう。
  • TLDの使用:多言語対応する場合、その言語に特化したサイトを作ることが可能であればTLDを使って下さい。例えば www.example.com/de や de.example.com よりも、 www.example.de の方がドイツにフォーカスしたコンテンツだと理解しやすいです。
  • 配給に注意:もしコンテンツを他のサイトに配給しているならば、彼らがオリジナルの記事に対してコンテンツ毎にきちんとリンクを返しているか確認して下さい。そしてよしんばそうであっても、我々がブロックされていない複数のバージョンからあなたが最も適切だと思うバージョンを必ずしも表示するわけではないことに注意して下さい。
  • Webmaster toolsを使って望ましいドメインを指定:もし他のサイトがwwwと非wwwドメインにバラバラにリンクしている場合、どちらの方をインデックスして欲しいかをWebmaster toolsを使って我々に知らせることができます。
  • 決まり文句の繰り返しを少なくする:例えばページ最下部に長いcopyright文を載せるよりも、概要だけを記述して詳細な内容のページへリンクする方が良いです。
  • 半端なページを公開しない:エンドユーザは空のページなどを見たく無いので、出来るだけやめましょう。つまり例えば不動産サイトなどで、ユーザやロボットは「以下に、素晴らしい○○市の賃貸物件を紹介します」などと書いておきながら何のリストも無いようなページは見たくないということです。
  • 使っているCMSを理解する:特にblogや掲示板、関連コンテンツ表示システムなどにおいて、サイトがどのように表示されるのかを理解しておきましょう。それらはしばしば、同じページを複数のフォーマットで表示します。
  • 心配しすぎない:入り口が適切でなかったり、再発行されたページだったりすることに苛立ちすぎることはありません。とはいえ、非常に稀ですがこのようなサイトがあなたのサイトに対してGoogle的にネガティブな影響を与えている場合、DMCA要求フォームを使って盗人サイトを知らせて下さい。
要するにコンテンツ重複問題に対する理解と数分の注意深いメンテナンスで、我々がユーザに一意の適切なコンテンツを提供することを手伝ってくださいということです。

--

ちなみにフォーラムの例などが挙がっていますが、Yahoo!は前回12月のアルゴリズム変更で同じフォーラムの別バージョンページが山ほど1ページ目にインデックスされているなどとWebmaster Worldで叩かれていました。
こういった時に公式に方向性を示してくれるのは、いつもGoogle。Yahoo!にも少し見習って欲しいような。

Social Flares:

add to はてなブックマーク add to ECナビ add to livedoorクリップ add to Newsing add to Nifty Clip add to del.icio.us add to digg! add to FC2 add to Pookmark add to Furl add to technorati add to Ma.gnolia add to Google Bookmark add to Yahoo! my web add to reddit add to PingKing add to ROOTACE add to simpy add to spurl add to BuddyMarks

トラックバック

このエントリーのトラックバックURL:
http://dendrocacalia.com/mt/mt-tb.cgi/40

この一覧は、次のエントリーを参照しています: コンテンツ重複についてGoogleからのTips:

» 重複コンテンツは、スパムになるか? 送信元 ホームページで安全にメールアドレスを公開する方法
こんなブログがありました 重複コンテンツは、スパムになるか?(SEM HACKS) こちらによると ------------------------ ... [詳しくはこちら]

コメント

About

2006年12月19日 13:53に投稿されたエントリーのページです。

ひとつ前の投稿は「韓国最大の検索エンジン Naver が日本進出」です。

次の投稿は「AdWordsの品質スコアを左右する新要素」です。

他にも多くのエントリーがあります。メインページアーカイブページも見てください。

他のサイト

アーカイブ

あわせて読みたい

あわせて読みたい

なかのひと