[032] WEBサーバにrobots.txtを設置する
robots.txtというファイルを作成し、WEBサーバに置くことで、検索エンジンのロボット(Robots)の巡回(クロール)を制限することができます。その方法を紹介します。
robots.txt とは?
Robots(ロボット)がクロール(Crawl:サイトを巡回)する際に、
サイトを読み取って良いのかどうかを指定するものです。
よってサイトに来た際に、一番最初に読み取りを試みます。
しかし、必ずしもrobots.txtの指示に従うとは限りません。
「強制」ではなく「依頼」ということです。
設置場所
公開ディレクトリの「/(Root)」に置きます。
例えば「public_html」などです。
ファイルの中身
テキストファイルですので、簡単なテキストエディターで作成、編集できます。
User-agent:(ロボットの名称)
Disallow:(許可しない部分)
という形になります。
実はallowという設定も可能なのですが、許可しないと指定されていない限り、
収集するので、基本的にAllowを記述する必要ないと思われます。
記述例
全ロボットに対し、全ディレクトリ(ファイル)の巡回を許可する場合は、
User-agent: *
Disallow:
となります。
*(アスタリスク)で全ロボットとし、
不許可を指定しないことで許可としているわけです。
Googleのロボット(Googlebot)だけに
全ディレクトリ(ファイル)の巡回を許可する場合は、
User-agent: Googlebot
Disallow:
となるわけです。
Googleのロボット(Googlebot)だけに
全ディレクトリ(ファイル)の巡回を許可しない場合は、
User-agent: Googlebot
Disallow: /
となります。
「/」は「/以下」を表し、ルートディレクトリ以下の
全てのファイルに対し、許可しないということになります。
「/」より先に(深く)行ってはならないということです。
下記のように、複数の指定も可能です。
User-Agent: *
Disallow: /cgi-bin/
Disallow: /secret/
Disallow: /confidence/
Disallow: /himitsu/
ログの観点から
robots.txtは無くても構わないのですが、リクエストされた時にファイルがないと
エラーログとして残ってしまいますので(404 NotFound)、
それが気持ち悪いのであれば、robots.txtを空のファイルとして置くと良いでしょう。
関連記事
更新履歴
- 2004/03 作成