Що таке файл robots.txt?

robots.txt – це текстовий файл, який задає правила індексації для пошукових роботів. Він знаходиться у кореневій директорії сайту.

Які директиви використовуються у robots.txt?

Основні директиви: User-agent, Disallow, Allow, Host, Sitemap, Crawl-delay.

Які сторінки варто забороняти до індексації?

Дублікати сторінок (категорії, теги), службові директорії (/admin/), технічні файли та сторінки з великою кількістю зовнішніх посилань.

Які типові помилки при складанні robots.txt?

Неправильна назва файлу, відсутність директив після User-agent, дублювання правил, випадкова заборона індексації усього сайту.

Як вірно скласти файл robots.txt для сайту

В цьому посту, я не буду нудно розповідати, як важливо правильно налаштувати robots.txt .
Лише прості поради та приклади коду, щоб кожний брав налаштовував на своєму сайті.

Файл robots.txt – це один із базових інструментів SEO-оптимізації, який визначає, які сторінки та розділи сайту будуть індексуватися пошуковими системами. Правильно налаштований robots.txt допоможе уникнути дублювання контенту, приховати службові сторінки та скерувати пошукових роботів на потрібний контент.

Що таке robots.txt і де він розміщується?

Файл robots.txt – це текстовий файл, який потрібно розміщувати у кореневій директорії сайту. Саме з нього пошукові системи починають знайомство з вашим ресурсом. У цьому файлі задаються правила: які сторінки дозволено індексувати, а які – заборонено.

Основні директиви у robots.txt

Директива	Призначення	Приклад
User-agent	Вказує, для якого пошукового робота задаються правила.	`User-agent: Googlebot`
Disallow	Забороняє індексацію конкретних сторінок або директорій.	`Disallow: /admin/`
Allow	Дозволяє індексацію навіть у заборонених розділах.	`Allow: /uploads/images/`
Host	Вказує головне дзеркало сайту (актуально для Яндекс).	`Host: site.com`
Sitemap	Посилання на карту сайту для швидшої індексації.	`Sitemap: https://site.com/sitemap.xml`
Crawl-delay	Задає паузу між зверненнями бота до сайту.	`Crawl-delay: 5`

Приклад robots.txt для різних CMS

WordPress

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-json/
Disallow: /xmlrpc.php
Disallow: /readme.html
Disallow: /*?
Disallow: /?s=
Allow: /*.css
Allow: /*.js
Sitemap: https://site.com/sitemap.xml

OpenCart

User-agent: *
Disallow: /admin/
Disallow: /system/
Sitemap: https://site.com/sitemap.xml

Shopify

User-agent: *
Disallow: /cart
Disallow: /checkout
Sitemap: https://site.com/sitemap.xml

Що варто забороняти до індексації?

Дублікати сторінок (наприклад, теги та категорії у блогах).
Службові розділи сайту: /admin/, /system/.
Сторінки зі скриптами та технічними файлами.
Сторінки з великою кількістю зовнішніх посилань.

Типові помилки у robots.txt

Файл не в кореневій директорії сайту.
Назва з великої літери: ROBOTS.TXT замість robots.txt.
Відсутність директиви Disallow після User-agent.
Дублювання правил без потреби.
Заборона індексації усього сайту випадково:
User-agent: *
Disallow: /

Висновок

Файл robots.txt – це основа правильної SEO-оптимізації. Він дозволяє контролювати поведінку пошукових систем на сайті, зберегти унікальність контенту та уникнути санкцій за дублікати. Використовуйте прості та чіткі правила, додавайте посилання на Sitemap та уникайте типових помилок.

Більше порад – підписуйтесь на наш Telegram-канал, щоб отримувати нові матеріали першими!

👉 Замовити в мене повну оптимізацію Вашого сайту з гарантією на результат.

Привіт! Я — Ашифін Федір, full-stack розробник та автор власних тем і плагінів.
Створюю сайти без використання конструкторів — лише чистий і валідний код. Це забезпечує високу швидкість завантаження та відмінні показники в Google PageSpeed, а отже — вартість кліка в рекламі зменшується в 2–3 рази.
Потрібен сайт з нуля, оптимізація існуючого проекту або доопрацювання функціоналу?
📩 Напишіть у будь-який месенджер — обговоримо ваш проект!

Поширені запитання (FAQ)

Питання	Відповідь
Що таке файл robots.txt?	Це текстовий файл, який задає правила індексації для пошукових роботів. Він знаходиться у кореневій директорії сайту.
Які директиви використовуються у robots.txt?	Основні директиви: `User-agent`, `Disallow`, `Allow`, `Host`, `Sitemap`, `Crawl-delay`.
Які сторінки варто забороняти до індексації?	Дублікати сторінок (категорії, теги), службові директорії (`/admin/`), технічні файли та сторінки з великою кількістю зовнішніх посилань.
Які типові помилки при складанні robots.txt?	Неправильна назва файлу, відсутність директив після `User-agent`, дублювання правил, випадкова заборона індексації усього сайту.

Коментарі до "Як вірно скласти файл robots.txt для сайту"

вася :

13 Травня 2013 о 5:56

Привет всем! Скажите между тегами указывать, что есть robots.txt нужно? Или давать ссылку на robots.txt в теле сайта?

Відповіcти
Федор :

13 Травня 2013 о 9:50

Ничего не нужно, роботы сами знают где его искать.

Відповіcти
Мозгунова Ирина :

16 Січня 2014 о 5:17

Это то и страшно, что при создании новичками своих сайтов файл robots.txt “скатывается” без осознания – что он, вообще значит, для чего нужен, и т.д.
Вот теперь нужно подправлять всё, что там неправильно написано (списано).

Відповіcти
1. саша :
  
  21 Лютого 2014 о 13:00
  
  Лично я не знал, что имя файла не должно содержать заглавных букв.
  
  Відповіcти
саша :

24 Лютого 2014 о 12:46

“Часто допускаемые ошибки: Отсутствие директивы Disallow”
Я правильно понял, что
User-agent: Yandex
User-agent: Googlebot
Disallow:
это правильно, а
User-agent: Yandex
User-agent: Googlebot
без Disallow это неправильно?

Відповіcти
1. Ant :
  
  5 Серпня 2014 о 13:29
  
  Написание
  User-agent: Yandex
  User-agent: Googlebot
  неправильное, и в статье такого нет. Для каждой ПС отдельно пушутся запреты и разрешения.
  
  Відповіcти
  1. Ant :
    
    23 Серпня 2014 о 6:02
    
    Примерно вот так нужно написать:
    User-agent: Yandex
    Disallow:
    User-agent: Googlebot
    Disallow:
    
    Відповіcти
Надежда Введенская :

27 Лютого 2014 о 22:37

Наконец-то увидела нормальное описание этого файла. Все время пыталась найти, а все повторяют одно и тоже. Обязательно проверю свой, прямо по строчкам – все ли там указано правильно.

Відповіcти
1. саша :
  
  27 Лютого 2014 о 23:00
  
  А мне вот непонятно, директива Disallow есть, а Allow нет? Как-то нелогично.
  
  Відповіcти
  1. Ant :
    
    23 Серпня 2014 о 6:05
    
    Вероятно, это требование протокола. Проще поиск начинать с чего-то одного (Disallow), чем сначала машине делать проверку на Disallow/Allow. Одна операция выигрывается.
    
    Відповіcти
саша :

27 Лютого 2014 о 22:58

“можно встретить, как минимум трижды” – а для чего делать дубли? У Вас страницы по 2-ой и 3-ей ссылке полностью идентичны.

Відповіcти
саша :

27 Лютого 2014 о 22:59

Что плохого, если одна статья будет в полном объеме, а в другом в сокращенном. Как иначе-то? На Главной странице обязательно должена быть краткий анонс новости.
Понял. Не думал, что Главная страница не должна индексироваться.

Відповіcти
Ant :

5 Серпня 2014 о 13:25

Вот здесь, Фёдор, у Вас три строки или третья строка – опечатка? И для чего тогда нужна строка Host: site.ru?
User-agent: Googlebot
Disallow:
Host: site.ru

Відповіcти
1. Ant :
  
  23 Серпня 2014 о 5:59
  
  Как программно запретить индексировать сайт помимо трационного в robots.txt:
  User-agent: Googlebot
  Disallow:/
  Говорят, иногда Гугл всё же индексирует сайт, несмотря на запрет.
  
  Відповіcти
Алёнаи Юлия :

11 Січня 2017 о 9:12

Здравствуйте, буду благодарна за помощь. Вот мой файл роботс, статьи в гугле появились без проблем, а яндекс исключает их из поиска (смотрю в яндекс.вэбмастер). И пишет Для корректного определения главного зеркала сайта рекомендуется задать соответствующую директиву Host в файлах robots.txt всех зеркал сайта. В случае ее отсутствия главное зеркало может быть выбрано автоматически.
Добавьте директиву Host в файл robots.txt.

User-agent: Mediapartners-Google
Disallow:
User-agent: Yandex
Disallow:
User-agent: *
Disallow: /wp-includes
Disallow: /wp-feed
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Host: stroynostvmode.ru/
Sitemap: //stroynostvmode.ru/sitemap.xml.gz
Sitemap: //stroynostvmode.ru/sitemap.xml

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: YandexImages
Allow: /wp-content/uploads/

Відповіcти
1. Федор Ашифин :
  
  11 Січня 2017 о 10:46
  
  Все вроде правильно , просто уберите слеш после домена сайта в директиве Host
  
  Відповіcти
  1. Алёнаи Юлия :
    
    11 Січня 2017 о 14:11
    
    Спасибо, убрала, посмотрю, будут ли индексироваться статьи или нет.
    
    Відповіcти
katy :

2 Грудня 2017 о 9:55

Долго не могла разобраться как работать с robots.txt ,пока не нашла эту статью https://ifish2.ru/fail-robots-txt-chto-eto-takoe/ .
Эти ребята помогли мне разобраться с файлом и даже помогли исправить мои ошибки!! Теперь мой сайт работает как надо))

Відповіcти
VladPchelkin :

10 Грудня 2017 о 4:07

Прочитал эту статью и статью рекомендованную katy и обнаружил в своем robots.txt несколько ошибок. Исправил. Знание – это сила!

Відповіcти