Google先生から捕捉されないようにする - tanamonの稀に良く書く日記

外からもアクセスできる某開発環境がGoogleに捕捉されていたので何とかするなどした。
BASIC認証がフルでかかる設定になってはいるんだけど、GoogleはどこかからかIDとパスワードを入手してアクセスいるんだろう。

というわけでBASIC認証が信用ならないことが再確認されたので、httpd.confでrobots.txtも併用して使うように設定変更をする。

robots.txt

User-Agent: *
Disallow: /

まあ、全アクセス禁止です。

これを配置するだけで大丈夫かと思ったら、robots.txtにもBASIC認証がかかってしまっていた。
なのでrobots.txtはBASIC認証を除外するようにしなければならない。

httpd.conf

<Directory "/var/www">
  Options FollowSymLinks MultiViews ExecCGI
  AllowOverride None
  Order allow,deny
  Allow from all
  
  AuthType Basic
  AuthName "Service"
  AuthUserFile conf/.htpasswd
  Require valid-user
</Directory>

これを

<Directory "/var/www">
  Options FollowSymLinks MultiViews ExecCGI
  AllowOverride None
  Order allow,deny
  Allow from all
  
  AuthType Basic
  AuthName "Service"
  AuthUserFile conf/.htpasswd
  Require valid-user
  
  <Files "robots.txt">
    Satisfy any
  </Files>
</Directory>

こうした。

最後にウェブページ削除リクエストツールを使ってrobots.txtの設定を確認したりインデックス化されたページの削除申請をしておしまい。