12月4日~7日まで、シカゴで検索エンジン戦略に関するカンファレンスが開かれました。
全75セッションリスト
これについてSearch Engine Roundtableが、非常に有益なレポートをあげてくれています。
Search Engine Strategies Chicago '06 SER Coverage Recap
中でも個人的に興味のあるセッションを幾つか、いつも通りいい加減にですが書き留めておこうと思います。
まずは5日に開かれたDuplicate Content & Multiple Site Issues。ちょうど仕事上でも、ASPとして他社提供しているコンテンツが複写と見なされる可能性もあれば、サイトが完全にパクられている例もあり。まさに内憂外患の悩みどころでした。
以下、ここでの目的はセッションのレポートではなくナレッジ共有なので、要点の羅列だけで。
コンテンツ複写と多重サイトの問題について
Becom.comのJon Glick氏:
コンテンツ複写とは、複数の異なったURLで同じ内容のホームページが存在すること。
検索エンジンはコンテンツ複写を好みません。
動的URLはロボットを混乱させやすいので気をつけましょう。
Googleなどの検索エンジンは、あなたにとって最良のドメインだけを選ぶでしょう。
トラッキングのためのランディングページを検索エンジンに見せないよう、robots.txtなどを用いましょう。
あなたの持つ全てのドメインから1つのドメインに、301リダイレクトを使って集約しましょう。
302リダイレクトは一時的な移動を意味するので、イベントスケジュールのようにすぐに変わってしまうものにだけ使うようにしましょう。
ペナルティを受けた際には、Googleに直接コンタクトできます。
Yahoo!も同様のフォームを持っていますが、実際のところ彼らは除外した時にそれを通知してくれます。
GrantasticDesignsのShari Thurow女史:
例えば65%の文字列が同じ...というようなパーセンテージで計るものがコンテンツ複写ではない。その内容の類似性が問題。
検索エンジンは、同じ情報の繰り返しが検索性を落としユーザを落胆させることから、これを非常に嫌います。
※以下、彼女が説明してくれたGoogleをはじめとする検索エンジンのコンテンツ複写を防ぐクラスタリング手法
- ナビゲーションやフッタなどの定型テンプレートを落とし、コンテンツだけを抽出する
- 内部、外部の各リンクを抽出
- 内容が更新されているかどうかをチェック(週次で見て、世の中の65%のサイトが変化していない。平均して0.8%のコンテンツが、週毎に完全に変わっている)
- ホスト名解決(nao58注:複数のドメインが同じ或いは近いIPを指していないかの確認を指す?)
- ページが持つ特徴を単語のパターンなどに分解して比較する。各単語の出現順序は関係ない
複写ページをクローラーに見られないよう、robots.txtなどを使いましょう。
必ずしもではないですが、コンテンツ複写はスパムと判定される場合があります。
もし誰かがあなたのコンテンツを盗んでいるなら、法律家を雇って訴訟すべきです。
それを知るために、Copyscapeは良いツールです。archive.orgも、あなたの著作権を守るのに有益でしょう。デジタルミレニアム著作権法を用いてGoogleやYahoo!、AskやMSNに報告すべきです。
RedZoneGlobalのMikkel deMib Svendsen氏:
wwwを付けるべきかどうかは、かつては問題であったが現在は無関係。ただし外からのリンクがwwwの無いドメイン、wwwドメインにバラバラにリンクしているのは良くはないので、301リダイレクトを使いましょう。
セッションIDは、場合によっては悪夢となります。あるサイトはYahoo!上で同一のページが20万もの種類でインデックスされました。セッションはcookieに入れ、URLには出てこないようにしましょう。
多くのオープンソースのblogでは、permalink作成において古いURLと新しいURLが同じように動作してしまうことがあります。これは大きな問題になりますので、カスタマイズしましょう。ただし、私見ではGoogleはこの問題を非常にうまく扱ってくれていると思いますが。301リダイレクトを用いて古いURLをブロックしましょう。Wordpressは、この問題に対処するためのプラグインを持っています。
パラメータの並び順は一般的な問題です。301リダイレクトでデフォルトのURLに飛ばしましょう。
パンくずもまた、問題になりえます。多くの場合、パンくずはURLと同じ構造をとるでしょう。それは幾つかの複写ページを作ることになってしまいかねません。ひとつの製品がひとつのURLを持つようにすべきです。


コメント