2019: Google делает из REP стандарт
В начале июля 2019 года Google раскрыла исходные коды C++ библиотеки для разбора файлов robots.txt, содержащих правила REP (Robots Exclusion Protocol) для ограничения индексации сайтов роботами поисковых систем. Благодаря своей инициативе компания надеется сделать протокол REP официальном стандартом для веб-сайтов.
Роботы составляют индекс — базу поисковой системы, откуда берутся ссылки для поисковой выдачи Google, «Яндекса» и т. п. Роботы сканируют сайты и добавляют страницы в индекс или убирают их оттуда. Этой индексацией можно управлять: например, разрешать или запрещать роботам обход страниц в специальном файле robots.txt.
REP считался стандартом де-факто 25 лет, что позволяло разработчикам и пользователям интерпретировать протокол по своему усмотрению. Кроме того, протокол никогда не обновлялся, чтобы соответствовать современным реалиям. Сделав доступным свой парсер файла robots.txt под лицензией Apache License 2.0 и представив спецификации REP в Инженерный совет Интернета (IETF), компания Google хочет уменьшить различия между реализациями.
Google совместно с автором оригинального протокола Мартином Костером (Martijn Koste), известными веб-мастерами и разработчиками других поисковых систем представила рекомендации для использования Robots Exclusion Protocol. Они не изменяют основные принципы, описанные в документе 25-летней давности, а заполняют пробелы в них с учётом особенностей современной всемирной паутиныКак с помощью EvaProject и EvaWiki построить прозрачную бесшовную среду для успешной работы крупного холдинга
Официальная документация позволит веб-мастерам правильно заполнить robots.txt и спрятать часть контента от поисковых роботов.[1]
Вместе с библиотекой Google предложила код утилиты для проверки правильности определения правил в robots.txt. Представленный код используется в рабочих системах Google, выполняющих обработку robots.txt.