Это текстовый файл, расположенный по адресу site.ru/robots.txt, который сообщает поисковым системам, какие страницы можно индексировать, а какие — нет. Основные директивы:
robots.txt нужен для:
Но этот файл — только рекомендация, поисковики могут проигнорировать запреты, особенно если на страницу ведут внешние ссылки.
User-agent: *
Disallow: /
Полностью закрывает сайт от всех роботов.
Многие случайно блокируют папки /catalog/, /articles/, /blog/ — и теряют позиции.
Лишние пробелы, неверные слэши, опечатки в директивах — всё это может сделать файл нерабочим.
Disallow: *?
Запрещает все URL с параметрами, включая фильтры и сортировки, которые могут быть полезны.

Если используется общий запрет с Disallow: /catalog/, но нужна индексация /catalog/iphone/, обязательно использовать Allow.
Некоторые блокируют /sitemap.xml, не зная, что это мешает роботам быстрее находить новые страницы.
| Ошибка | Последствие |
| Disallow: / | Полный запрет индексации |
| Disallow: /blog (без /) | Не работает, так как нет завершающего слэша |
| Disallow: */? | Запрет всех страниц с параметрами |
| Отсутствие Sitemap: строки | Затрудняет обход новых страниц |
| User-agent: Googlebot только | Не применяется к другим системам |

Важно проверять файл после каждого обновления и тестировать все директивы.
Ошибки в robots.txt могут незаметно лишить ваш сайт видимости и трафика. Регулярно проверяйте файл, согласовывайте изменения с SEO-специалистом и не применяйте директивы без понимания их последствий. Лучше ограничить доступ через noindex, canonical или заголовки сервера — эти методы более гибкие и безопасные.