Google индексирует файлы со списком того, что нельзя индексировать

13.12.2012 | 10:54
В списке рассылки Seclists Full Disclosure развернулась любопытная дискуссия о том, считать ли уязвимостью специфичное поведение поисковой системы Google. Дело в том, что поисковый бот индексирует файлы со списком директорий, которые запрещено индексировать. Речь идёт о файлах robots.txt, в которых веб-мастера часто указывают список таких директорий. Это могут быть админские интерфейсы (/admin) или другие системы, не предназначенные для всеобщего доступа (/backup, /password и проч.).

Эта информация представляет некоторую ценность для нападающего, потому что даёт ему возможность быстро найти места хранения секретной информации. За примерами далеко ходить не надо:

http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fadmin
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fbackup
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+Disallow%3A+%2Fpassword

Подобные поисковые запросы злоумышленник может использовать для поиска жертв.

http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+wp-admin
http://www.google.com/search?q=inurl:robots.txt+filetype%3Atxt+%2FDisallow%3A+typo3

Список можно продолжать.

Естественно, веб-мастера могут защититься от таких атак. Первым приходит вариант запретить индексирование robots.txt в самом файле robots.txt, но такой вариант с Google не пройдёт. Но есть другой способ: просто не указывать такие папки в файле robots.txt, а вместо этого проверять идентификатор посетителя и запрещать доступ роботов по этому адресу, выдавая на попытку доступа ошибку 404, или закрыть папки через htaccess, так что робот получит ошибку 401. Но всё это не отменяет вопроса: зачем вообще Google индексирует служебные файлы robots.txt и включает их в поисковую выдачу?

Ситуация в каком-то смысле парадоксальная. Можно составить примерно такой диалог:

Злоумышленник: Google, можешь показать сайты с открытыми директориями /wp-admin/?
Google: Нет, я не знаю таких директорий, мне запрещено их индексировать.
Злоумышленник: Хорошо, тогда можешь дать список хостов, где есть robots.txt с инструкцией на запрет индексировать /wp-admin/?
Google: Конечно, вот, пожалуйста.
Seclists Full Disclosure, дискуссия, Google
По материалам xakep.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (0)
Оставьте комментарий:CaptchaОбновить проверочный код