====== robots.txtについて ======
robots.txtは検索エンジンにサイトのURL(ディレクトリ・ファイル)の可不可を伝えるテキストファイルです。
===== Googleによる例 =====
Googleのガイドによる記述例
User-agent: Googlebot
Disallow: /nogooglebot/
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
\\
==== この robots.txt の説明 ====
【1】Googlebot という名前のユーザー エージェントには、https://example.com/nogooglebot/ で始まるいかなる URL のクロールも許可していません。
【2】他のすべてのユーザー エージェントには、サイト全体のクロールを許可しています。このルールは記載していなくても同じ結果になります。**デフォルトの動作として、すべてのユーザー エージェントはサイト全体のクロールを許可されている**ためです。
===== 概要 =====
従って「ユーザーエージェント」「クロールを許可しない」「サイトマップ」の3つの要素で記述をする。
ただし「クロールを許可しない」URL指定の中で一部許可するものがあれば「Allow:」でURL指定する。
==== User-Agent ====
ユーザーエージェントは基本的に「*」すべてのクローラーを指定。
==== Disallow ====
クロールを許可しないURLの指定。「Disallow:」のみで指定を空白にすると全てのURLのクロールを許可と同じ意味になる。
==== Allow ====
クロールを許可しないURLの中の一部許可するURLの指定
==== Sitemap ====
サイトマップのURLを記述。(複数指定可)
===== 上記を踏まえた記述例 =====
=== 例1 ===
User-agent: *
Disallow:
Sitemap: https://www.mysite.com/sitemap.xml
\\
=== 例2 ===
User-agent: *
Disallow: /example/
Allow: /example/aaa/
Allow: /example/bbb/ccc.html
Sitemap: https://www.mysite.com/sitemap.xml
Sitemap: https://www.mysite.com/blog/sitemap.xml
\\