[032] WEBサーバにrobots.txtを設置する

2015年5月21日

当サイトには広告が含まれています。

robots.txtというファイルを作成し、WEBサーバに置くことで、検索エンジンのロボット(Robots)の巡回(クロール)を制限することができます。その方法を紹介します。

robots.txt とは?

Robots(ロボット)がクロール(Crawl:サイトを巡回)する際に、
サイトを読み取って良いのかどうかを指定するものです。

よってサイトに来た際に、一番最初に読み取りを試みます。

しかし、必ずしもrobots.txtの指示に従うとは限りません。
「強制」ではなく「依頼」ということです。

設置場所

公開ディレクトリの「/(Root)」に置きます。
例えば「public_html」などです。

ファイルの中身

テキストファイルですので、簡単なテキストエディターで作成、編集できます。

User-agent:(ロボットの名称)
Disallow:(許可しない部分)

という形になります。

実はallowという設定も可能なのですが、許可しないと指定されていない限り、
収集するので、基本的にAllowを記述する必要ないと思われます。

記述例

全ロボットに対し、全ディレクトリ(ファイル)の巡回を許可する場合は、

User-agent: *
Disallow:

となります。
*(アスタリスク)で全ロボットとし、
不許可を指定しないことで許可としているわけです。

Googleのロボット(Googlebot)だけに
全ディレクトリ(ファイル)の巡回を許可する場合は、

User-agent: Googlebot
Disallow:

となるわけです。

Googleのロボット(Googlebot)だけに
全ディレクトリ(ファイル)の巡回を許可しない場合は、

User-agent: Googlebot
Disallow: /

となります。

「/」は「/以下」を表し、ルートディレクトリ以下の
全てのファイルに対し、許可しないということになります。
「/」より先に(深く)行ってはならないということです。

下記のように、複数の指定も可能です。

User-Agent: *
Disallow: /cgi-bin/
Disallow: /secret/
Disallow: /confidence/
Disallow: /himitsu/

ログの観点から

robots.txtは無くても構わないのですが、リクエストされた時にファイルがないと
エラーログとして残ってしまいますので(404 NotFound)、
それが気持ち悪いのであれば、robots.txtを空のファイルとして置くと良いでしょう。

関連記事

更新履歴