Google先生から捕捉されないようにする
外からもアクセスできる某開発環境がGoogleに捕捉されていたので何とかするなどした。
BASIC認証がフルでかかる設定になってはいるんだけど、GoogleはどこかからかIDとパスワードを入手してアクセスいるんだろう。
というわけでBASIC認証が信用ならないことが再確認されたので、httpd.confでrobots.txtも併用して使うように設定変更をする。
robots.txt
User-Agent: * Disallow: /
まあ、全アクセス禁止です。
これを配置するだけで大丈夫かと思ったら、robots.txtにもBASIC認証がかかってしまっていた。
なのでrobots.txtはBASIC認証を除外するようにしなければならない。
httpd.conf
<Directory "/var/www"> Options FollowSymLinks MultiViews ExecCGI AllowOverride None Order allow,deny Allow from all AuthType Basic AuthName "Service" AuthUserFile conf/.htpasswd Require valid-user </Directory>
これを
<Directory "/var/www"> Options FollowSymLinks MultiViews ExecCGI AllowOverride None Order allow,deny Allow from all AuthType Basic AuthName "Service" AuthUserFile conf/.htpasswd Require valid-user <Files "robots.txt"> Satisfy any </Files> </Directory>
こうした。
最後にウェブページ削除リクエスト ツールを使ってrobots.txtの設定を確認したりインデックス化されたページの削除申請をしておしまい。