tanamonの稀に良く書く日記

KEEP CALM AND DRINK BEER

Google先生から捕捉されないようにする

外からもアクセスできる某開発環境がGoogleに捕捉されていたので何とかするなどした。
BASIC認証がフルでかかる設定になってはいるんだけど、GoogleはどこかからかIDとパスワードを入手してアクセスいるんだろう。


Google恐ろしい子


というわけでBASIC認証が信用ならないことが再確認されたので、httpd.confでrobots.txtも併用して使うように設定変更をする。

robots.txt

User-Agent: *
Disallow: /

まあ、全アクセス禁止です。


これを配置するだけで大丈夫かと思ったら、robots.txtにもBASIC認証がかかってしまっていた。
なのでrobots.txtBASIC認証を除外するようにしなければならない。

httpd.conf

<Directory "/var/www">
  Options FollowSymLinks MultiViews ExecCGI
  AllowOverride None
  Order allow,deny
  Allow from all
  
  AuthType Basic
  AuthName "Service"
  AuthUserFile conf/.htpasswd
  Require valid-user
</Directory>

これを

<Directory "/var/www">
  Options FollowSymLinks MultiViews ExecCGI
  AllowOverride None
  Order allow,deny
  Allow from all
  
  AuthType Basic
  AuthName "Service"
  AuthUserFile conf/.htpasswd
  Require valid-user
  
  <Files "robots.txt">
    Satisfy any
  </Files>
</Directory>

こうした。


最後にウェブページ削除リクエスト ツールを使ってrobots.txtの設定を確認したりインデックス化されたページの削除申請をしておしまい。