====== robots.txtについて ====== robots.txtは検索エンジンにサイトのURL(ディレクトリ・ファイル)の可不可を伝えるテキストファイルです。 ===== Googleによる例 ===== Googleのガイドによる記述例 User-agent: Googlebot Disallow: /nogooglebot/ User-agent: * Allow: / Sitemap: https://www.example.com/sitemap.xml\\ ==== この robots.txt の説明 ==== 【1】Googlebot という名前のユーザー エージェントには、https://example.com/nogooglebot/ で始まるいかなる URL のクロールも許可していません。 【2】他のすべてのユーザー エージェントには、サイト全体のクロールを許可しています。このルールは記載していなくても同じ結果になります。**デフォルトの動作として、すべてのユーザー エージェントはサイト全体のクロールを許可されている**ためです。 ===== 概要 ===== 従って「ユーザーエージェント」「クロールを許可しない」「サイトマップ」の3つの要素で記述をする。 ただし「クロールを許可しない」URL指定の中で一部許可するものがあれば「Allow:」でURL指定する。 ==== User-Agent ==== ユーザーエージェントは基本的に「*」すべてのクローラーを指定。 ==== Disallow ==== クロールを許可しないURLの指定。「Disallow:」のみで指定を空白にすると全てのURLのクロールを許可と同じ意味になる。 ==== Allow ==== クロールを許可しないURLの中の一部許可するURLの指定 ==== Sitemap ==== サイトマップのURLを記述。(複数指定可) ===== 上記を踏まえた記述例 ===== === 例1 === User-agent: * Disallow: Sitemap: https://www.mysite.com/sitemap.xml \\ === 例2 === User-agent: * Disallow: /example/ Allow: /example/aaa/ Allow: /example/bbb/ccc.html Sitemap: https://www.mysite.com/sitemap.xml Sitemap: https://www.mysite.com/blog/sitemap.xml \\