robots.txtについて

robots.txtは検索エンジンにサイトのURL（ディレクトリ・ファイル）へのクロールの可不可を伝えるテキストファイルです。

Googleによる例

Googleのガイドによる記述例

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: https://www.example.com/sitemap.xml

この robots.txt の説明

【１】Googlebot という名前のユーザーエージェントには、https://example.com/nogooglebot/ で始まるいかなる URL のクロールも許可していません。
【２】他のすべてのユーザーエージェントには、サイト全体のクロールを許可しています。このルールは記載していなくても同じ結果になります。デフォルトの動作として、すべてのユーザーエージェントはサイト全体のクロールを許可されているためです。

概要

従って「ユーザーエージェント」「クロールを許可しない」「サイトマップ」の3つの要素で記述をする。
ただし「クロールを許可しない」URL指定の中で一部許可するものがあれば「Allow:」でURL指定する。

User-agent

ユーザーエージェントは基本的に「*」すべてのクローラーを指定。

Disallow

クロールを許可しないURLの指定。「Disallow:」のみで指定を空白にすると全てのURLのクロールを許可と同じ意味になる。

Allow

クロールを許可しないURLの中の一部許可するURLの指定

Sitemap

サイトマップのURLを記述。（複数指定可）

上記を踏まえた記述例

例１

User-agent: *
Disallow:

Sitemap: https://www.mysite.com/sitemap.xml

例２

User-agent: *
Disallow: /example/
Allow: /example/aaa/
Allow: /example/bbb/ccc.html

Sitemap: https://www.mysite.com/sitemap.xml
Sitemap: https://www.mysite.com/blog/sitemap.xml

ミニウィキ

目次