SEO: robots.txt/ErrorDocumentについて

サーバールートの .htaccessにおいて、Options Allを指定していると全てのファイルがクロールされてしまい困ることになるので、下記のようにディレクトリ/拡張子指定でロボットのクロールを避ける必要がある。

User-agent: *
 Sitemap: http://atziluth.jp/sitemap.xml
 Disallow: /script
 Disallow: /error
 Disallow: /*.fla$
 Disallow: /*.as$
 Disallow: /*.js$
 Disallow: /*.css$
 Disallow: /*.mp3$
 Disallow: /*.txt$

ただし robots.txtは人為的にユーザーがアドレスを叩くと、逆に見せたくないディレクトリやファイルが判ってしまうといった難点がある。しかしそんなことまで気にしていたら禿げると思う。というか既にサイドが危ない。

ちなみに私は一旦 .htacessで Options Allを指定し全ファイルをクロールさせた後、サーバーのファイルを削除していったので面倒なことになってしまった。その代り、.htaccessのエラードキュメント(404 Error)ページからのアクセスが3位という迷惑な副作用を生んだ。

ErrorDocument 403 http://atziluth.jp/error/403.html
 ErrorDocument 404 http://atziluth.jp/error/404.html
 ErrorDocument 500 http://atziluth.jp/error/500.html

【参考サイト】

robots.txtでロボット対策,SEO向け書式集

robots.txt検索エンジンのロボット(クローラ、スパイダー)対策