スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

検索除けの紹介

検索除け(検索避け)の具体的な方法について。
検索よけには大きく分けて3つの方法があります。

METAタグ:HTMLファイル各自に「検索しないでください」と言わせます。
robots.txt:サイトの入り口に「検索しないでください」と張り紙します。
.htaccess:サイト全体をバリアで包んでロボットをブロックします。

下に行くほど効果が高い反面、導入する際の敷居が高いです。
自分のサイトが少しでも検索エンジンにかするのも許せない人は、.htaccessまで導入する方が良いと思います。

.htaccessの導入はサーバが許可していなと不可能です。詳しくは
無料サーバの説明記事有料サーバの説明記事を参照してください。

METAタグ

meta-img.jpg

検索よけの基本ですね。HTMLファイル全てに「検索して欲しくない」と言う意味のタグを入れるものです。
長所はどんなサーバでも使えること。
短所はせいぜい「お願い」程度の力しかないこと。

やり方は、HTMLファイルのソースの最初の方にある<head> 〜</head>の間に

<meta NAME="ROBOTS" CONTENT="NOINDEX,NOFOLLOW,NOARCHIVE">

と一行入れるだけ。なんて言うと簡単ですが、全てのHTMLファイルに入れる必要があります。
テキストエディタやビルダーの置き換え機能などを使って、効率よく作業を進めないとイヤになってしまいます。

入れると検索エンジンにヒットする確率はがくんと下がります。
が、これでまったくヒットしなくなるほど甘くはありません。
Googleは割ときっちり従いますが、Yahooはあやふやのようです(index.htmlだけ中途半端に持って行くような…)。無視するロボットの居ますし、今まで従っていても調子によって(ロボットのバージョンとかね)突然従わなくなったり…なんて事もあるようです。なのでせいぜい「ひっかかりにくくなる」くらいに思っていた方が良いです。

検索よけMETAには色々な書き方があります。「大文字が効果的」「いやいや小文字の方が…」から始まり、「沢山入れる派(こんな感じ)」だったり「一行だけ入れる派」だったり、色々です。正直、どれが効果的かは私には分かりません。

ちなみにYahooの管理者向けのヘルプには

下記のように2つ設定された場合は、タグが正確に解釈されない場合があります。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
<META NAME="ROBOTS" CONTENT="NOARCHIVE">

と書いてあります。つまり下記の一行だけにしてねって事でしょうか。
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
私はまさに「正確に解釈されない」かもしれない2行を入れていて、問題を感じないんですが実際どうなんでしょう…?

robots.txt

robotstxt-img.jpg

サイトの入り口に「立入禁止」と書いておく方法。
私の感覚ではMETAと同等の効力に感じられます。入れるとロボットはrobots.txtだけにアクセスし、HTMLを読まずに帰ってくれます(…少なくともそういった素振りをする事が多くなります)。
実際の書き方は以下の通りで設置も簡単。

User-Agent: *
Disallow: /

(Disallow: /の後は改行して下さい)
と書いたテキストファイルを「robots.txt」のと言う名前で保存。
それをルートディレクトリ(一番上のフォルダ)にアップロードすれば終わりです。
面倒くさければ このファイル をダウンロードして使って下さい。

この方法の問題は、URLによって使えない場合がある事です。
【OK】 http://www.example.ne.jp
【NG】 http://www.example.ne.jp/user/

つまりアップしたrobots.txtのアドレスが下記のような状態になるかどうかです。
【OK】 http://www.example.ne.jp/robots.txt
【NG】 http://www.example.ne.jp/user/robots.txt

プロバイダのサーバは「http://www.sample.ne.jp/user/」となる事が多いので使えない事が多いです。忍者やFC2は無料サーバなので効果のほどは分かりませんが、理屈上使える事になります。下記のように設置して下さい。
【忍 者】 http://user.syuriken.jp/robots.txt
【FC2】 http://user.web.fc2.com/robots.txt
ただ、中にはルートディレクトリで無いrobots.txtも読んでくれるロボットも居るかもしれないので、ダメもとでアップするだけしておくのも悪くないと思います。
robots.txtを作ってアップする作業時間なんてほんの数分だしね。

ロボットの中には、robotx.txtを無視してMETAタグのみで判断するものもあるらしいです。なので基本的にMETAタグと併用する事をおすすめします。 robots.txtも所詮「お願い」ですから、検索エンジンから完全に隠れる事は難しいです。
あと、「robots.txt」には従わないけれど「robot.txt」なら読むクローラーの話もあるらしいです(未確認)。心配なら両方アップしておくと良いのでは。

ロリポップではrobots.txtが無い方が検索にヒットしにくい、なんて話もあるようです。サーバの仕様が変更になれば変わるかもですが、一応書いておきます。まあロリポップなら.htaccessまで導入する方が安心ですね。
【SEO・検索エンジン動向】:googleにインデックスされない原因が判明

参考
Yahoo サイト管理者向けヘルプ
Google ページの削除
技林 検索エンジンロボットを制御する
とほほのWWW入門:robots.txt
Robots.txt Checker(robots.txtの書式検査)
HTMLタグリファレンス META

.htaccess

htaccess-img.jpg

.htaccess。ドットエイチティーアクセスと読みます。
これはMETA、robotx.txtとは全く違い、非常に強力です。
上記二つは、検索ロボットに「お願い」して見逃してもらっている状態ですが、これはロボットを強制的に排除する方法です。
検索エンジンといえども、ロボットが入れなければ、サイトの中がどうなっているか分からない=検索できないのです。
.htaccessはロボット排除だけでなく、パスワードをかけたり、リンクを制限したり、困った人間を立入禁止にしたりと、とても便利です。

欠点はサーバを選ぶと言う事でしょうか。無料サーバの説明や、有料サーバの説明の記事を参考にして下さい。

.htaccessの壁の内側に入れておけば、METAが抜けても検索にヒットする確率は低いです。が、.htaccessで拒否している以外のロボットが来るとすんなり入れてしまうので、やっぱり念のためrobots.txt、METAタグとの併用がオススメです。

具体的にどのように書くか…などは長くなるので別の記事で説明しています。そちらを参考にして下さい。

07/07/06
この記事を見に来る人が多いので、全文見やすいように書き直しました。(ブログにあるまじき行為…)
内容は基本的に一緒ですが、どうやら世の中にはMETAだけで検索よけがバッチリと思っている人が居るので、そこまで期待できない事を追記。
検索よけMETAを複数パターン紹介。
「検索除け」より「検索避け」が一般的なんですね。なので「検索避け」の文字を追加。
面倒なので「検索除け」を今後は「検索よけ」にしときます。
その他色々追記。そんな感じ。

スポンサーサイト

コメント

コメントする

管理者にだけ表示を許可する

Template Designed by DW99

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。