Robots.txt — обычный текстовый файл с инструкцией для поисковых роботов, о том что и как сканировать на вашем сайте.
Файл размещается в корневом каталоге, если разместить в другом месте на сайте - работать он не будет.
Вносить в него правки следует аккуратно т.к. в случае ошибки вы можете полностью закрыть сайт от индексации роботами, что обвалит ваши позиции в выдаче (это максимально негативный вариант).
Некоторые функции robots.txt на себя могут брать метатеги, которые могут быть размещены непосредственно в коде страницы сайта.
Что можно делать с помощью файла Robots.txt ?
- 1. Блокировать отдельные страницы для сканирования роботами поисковых систем (такие страницы все равно могут попадать в поисковую выдачу);
- 2. Блокировать медиафайлы (видео- и аудиофайлов, картинок) от попадания в поисковую выдачу;
- 3. Показывать поисковым роботам актуальный адрес и карту сайта;
- 4. Задавать скорость обхода страниц сайта поисковыми роботами.
Самые распространенные ошибки в Robots.txt
№1. Файл robots.txt не в корневом каталоге
Решение: Нужно перенести файл robots.txt в корневой каталог т.е. для сайта https://site.ru/ файл должен открываться по адресу https://site.ru/robots.txt
Если этого не сделать, то роботы поисковых систем скорее всего проигнорируют файл с инструкциями.
№2. Неправильное использование символов * и $
Решение: Символ звездочка (*) обозначает, любой вариант допустимого символа. Значок доллара ($) показывает конец URL и позволяет прописывать правила для последней части URL.
№3. Тег noindex в robots.txt
Решение: Этот способ скрытия страниц от поисковых робот уже устарел. Сейчас можно добавить этот метатег в код страницы и он ее скроет от поисковых роботов.
№4. Блокировка JavaScript и CSS
Решение: Подобная блокировка может негативно отразиться на качестве индексации страниц сайта поисковыми роботами. Лучше ее не использовать, а если вы ее используете, то старайтесь не ограничивать индексацию для важных скриптов и стилей.
№5. Отсутствует ссылка на файл sitemap.xml
Решение: В файле должна присутствовать ссылка на актуальную карту сайта, вида Sitemap: https://site.ru/sitemap.xml
Это не то чтобы ошибка, но подобное действие поможет в продвижении вашего сайта.
№6. Доступ к неподготовленным страницам
Решение: Не нужно давать поисковым роботам доступ к страницам на которых еще идет разработка.