先日から紹介しているシカゴでの検索エンジン戦略会議においても、コンテンツ重複/複写の問題について多くのセッションが開かれ、Googleも多くの質問を受けたようです。
そこでGoogleが、公式にこの問題についてTipsを出してくれました。
Deftly dealing with duplicate content
以下、要約。
コンテンツ重複になるものは何?
一般的には、ドメイン内に/またはドメインを跨ってほぼ同じコンテンツブロックが存在すること。大抵の場合は悪意を持って意図的にやっているわけではないものの、例えば自動的にサマリーが作られたり携帯用のページが生成され、複数のURLで内容が同じになるフォーラムなどが例として挙げられます。
場合によっては、検索エンジンのランクを上げるためや、人気の/ロングテールのクエリーからの集客のために、ドメインを跨いだコンテンツ重複が見られるケースもあります。
コンテンツ重複にならないのは?
同じ内容が、英語とスペイン語などの複数の言語で書かれているものは重複とは見做しません。 また、スニペットのような引用に関しては、括弧でくくられているかどうかにかかわらず重複とすることはありません。何故、Googleはコンテンツ重複を気にするのか?
検索に来るユーザは、通常は多様な種類の一意な内容のコンテンツを欲しがります。 そして対照的に、検索結果に似たような内容のサイトが並ぶことを、あきらめと共に受け入れています。 またウェブ管理者にしても、例えば example.com/en/shorty-george.htm のようなわかりやすいURLではなく example.com/contentredir?value=shorty-george〈=en のようなゴチャゴチャしたURLが表示されるのは残念でしょう。この問題について、Googleは何をするのか?
クロールする際や検索結果を表示する際に、出来るだけ重複しない情報が表示されるようにしています。 このフィルタは簡単に言うと、例えばあなたのサイトが「通常版」と「印刷用」のページを持っていて、どちらもrobots.txtやnoindexメタタグなどでインデックスを拒否していない場合、どちらか片方を選択してリストに載せることになります。 稀なケースですが、重複コンテンツがページランクを操作しようとしていたりユーザを騙そうとしているように見えた場合、それらの関連するサイトの索引やランクに対して適切な調整を行います。 しかしながら、我々はランクの調整よりもフィルタリングの方に注力しています。ほとんどの場合、ウェブマスターにとっての最悪の出来事は、「望まない方のページがインデックスされる」ことになります。ウェブマスターは、どうやって重複コンテンツ問題に対処したら良いのか?
- 適切なブロックを行う:我々のアルゴリズムに任せて「最善の」ドキュメントを選択させるよりも、おそらく望ましいコンテンツを案内してくれる方が良いでしょう。手っ取り早いのは、望まない方のディレクトリをアクセス不可にしたり、robots.txtに正規表現を用いたりすることです。
- 301を使う:サイトを再構築したのであれば、.htaccessなどに301リダイレクトを書き、そのことをGooglebotや他のスパイダーに教えて下さい。
- 統一性を持つ:内部リンクを作る場合、例えば /page/ や /page や /page/index.htm などバラバラのURLで同じページにリンクしないようにしましょう。
- TLDの使用:多言語対応する場合、その言語に特化したサイトを作ることが可能であればTLDを使って下さい。例えば www.example.com/de や de.example.com よりも、 www.example.de の方がドイツにフォーカスしたコンテンツだと理解しやすいです。
- 配給に注意:もしコンテンツを他のサイトに配給しているならば、彼らがオリジナルの記事に対してコンテンツ毎にきちんとリンクを返しているか確認して下さい。そしてよしんばそうであっても、我々がブロックされていない複数のバージョンからあなたが最も適切だと思うバージョンを必ずしも表示するわけではないことに注意して下さい。
- Webmaster toolsを使って望ましいドメインを指定:もし他のサイトがwwwと非wwwドメインにバラバラにリンクしている場合、どちらの方をインデックスして欲しいかをWebmaster toolsを使って我々に知らせることができます。
- 決まり文句の繰り返しを少なくする:例えばページ最下部に長いcopyright文を載せるよりも、概要だけを記述して詳細な内容のページへリンクする方が良いです。
- 半端なページを公開しない:エンドユーザは空のページなどを見たく無いので、出来るだけやめましょう。つまり例えば不動産サイトなどで、ユーザやロボットは「以下に、素晴らしい○○市の賃貸物件を紹介します」などと書いておきながら何のリストも無いようなページは見たくないということです。
- 使っているCMSを理解する:特にblogや掲示板、関連コンテンツ表示システムなどにおいて、サイトがどのように表示されるのかを理解しておきましょう。それらはしばしば、同じページを複数のフォーマットで表示します。
- 心配しすぎない:入り口が適切でなかったり、再発行されたページだったりすることに苛立ちすぎることはありません。とはいえ、非常に稀ですがこのようなサイトがあなたのサイトに対してGoogle的にネガティブな影響を与えている場合、DMCA要求フォームを使って盗人サイトを知らせて下さい。
--
ちなみにフォーラムの例などが挙がっていますが、Yahoo!は前回12月のアルゴリズム変更で同じフォーラムの別バージョンページが山ほど1ページ目にインデックスされているなどとWebmaster Worldで叩かれていました。
こういった時に公式に方向性を示してくれるのは、いつもGoogle。Yahoo!にも少し見習って欲しいような。


コメント