Содержание

Правильная настройка Robots.txt для Joomla сайта

Правильная настройка Robots.txt для Joomla сайта имеет огромную важность для сео-продвижения ресурса. Любая ошибка может привести к выпадению страниц из индекса Яндекс и Гугл, а это приведет к снижению посещаемости. Ведь именно этот файл отвечает, за то, как будут видеть сайт поисковики.

Например, если использовать стандартный файл Robots.txt в Joomla, то придется забыть об индексации изображений, размещенных на нем. Кроме того, поисковый бот не сможет понять оформления сайта, будет утеряна определенная часть контента, переход робота по ссылкам меню будет затруднен. Оригинальное оформление дополнительных модулей выполняется, чтобы сделать сайт более удобным и красочным для пользователей, а стандартный файл robots.txt не даст это оценить поисковому роботу.

Разработчики Joomla знают об этой проблеме, и в версиях от 3.3, файл robots.txt получил значительные доработки, но, при апгрейде CMS обновление файла предыдущей версии не происходит автоматически — файл подгружается в корень сайта с расширением

.txt.dist, которое нужно редактировать. К тому же, нужно все равно внести изменения, которые нужны этому конкретному сайту.

Внесение необходимых изменений в Robots.txt

Доработка от разработчиков новой версии Robots.txt для Джумла заключается в удалении трех запрещающих директив с папок изображений, фона и медиа. Для получения поисковым ботом полной картины сайта, со всеми оригинальными фишками, этого не достаточно. Чтобы понять это, можно в Google Search Console сравнить, как видит сайт пользователь и робот.

При проверке будет видно, что видео, фон отдельных модулей (с версии 2.5 они могут иметь собственное оформление) роботу недоступны, так же не отображается разметка сайта. А анализ сайта покажет, что поисковый бот не получил доступа к папке плагинов, компонентов и фонов шаблона (tmp).

Чтобы исправить это, достаточно удалить соответствующие директивы или использовать разрешающую директиву, с указанным путем для нужного компонента. Ведь удаление откроет путь ко всем плагинам, а это допустимо не всегда. Иногда, например, плагины устанавливаются для сокрытия исходящих ссылок и если показать этот плагин поисковику, ему это не понравится.

Также, нужно удалить запрет на папку модулей, ведь именно туда устанавливаются модули, обладающие собственным фоном и оформлением, которые поисковый робот, в противном случае, не увидит.

То же самое относится к папке компонентов, для получения роботом скриптов, файлов стилей и изображений по этому пути.

Пример правильного Robots.txt для Joomla:

robots.txt код:

  1. User-agent: *

  2. Disallow: /administrator/

  3. Disallow: /bin/

  4. Disallow: /cache/

  5. Disallow: /cli/

  6. Disallow: /components/

  7. Disallow: /includes/

  8. Disallow: /installation/

  9. Disallow: /language/

  10. Disallow: /layouts/

  11. Disallow: /libraries/

  12. Disallow: /logs/

  13. Disallow: /media/

  14. Disallow: /modules/

  15. Disallow: /plugins/

  16. Disallow: /templates/

  17. Disallow: /tmp/

  18. Allow: /media/*.css

  19. Allow: /media/*.js

  20. Allow: /media/*.png

  21. Allow: /media/*.woff

  22. Allow: /media/*.woff2

  23. Allow: /media/*.ttf

  24. Allow: /media/*.svg

  25. Allow: /modules/*.css

  26. Allow: /modules/*.js

  27. Allow: /components/*.css

  28. Allow: /components/*.js

  29. Allow: /components/*.png

  30. Allow: /plugins/*.css

  31. Allow: /plugins/*.js

  32. Allow: /plugins/*.png

  33. Allow: /templates/*.css

  34. Allow: /templates/*.js

  35. Allow: /templates/*.woff

  36. Allow: /templates/*.woff2

  37. Allow: /templates/*.eot

  38. Allow: /templates/*.ttf

  39. Allow: /templates/*.otf

  40. Allow: /templates/*.svg

  41. Allow: /templates/*.png

  42. Allow: /templates/*.jpg

  43. Allow: /templates/*.gif

  44. Host: Домен_Сайта

Кроме этого, считается, что микроразметка интегрирована в Джумлу, но на самом деле, большинство пользователей используют коммерческие шаблоны, где шаблоны материалов переписаны и значительно отличаются от стандартных и путь к ним в Robots.txt нужно прописать вручную.

Правильная настройка Robots.txt для Joomla сайта совсем простая, занимает так мало времени, тем не менее, есть ресурсы, где эта работа не проводится годами, теряется посещаемость, увеличивается бюджет на сео-продвижение, а чтобы избежать всего этого, довольно выполнить эти простые действия!


Опубликовано: 12-01-2016

Файл robots.txt и мета-тег robots — настройка индексации сайта Яндексом и Гуглом, правильный роботс и его проверка

Обновлено 24 января 2021 Просмотров: 135 391 Автор: Дмитрий Петров
  1. Почему так важно управлять индексацией сайта
  2. Как можно запретить индексацию отдельных частей сайта
  3. Robots.txt — директива user-agent и боты поисковых систем
  4. Примеры использования директив Disallow и Allow
  5. Директивы Sitemap и Host (для Яндекса уже не нужна)
  6. Проверка robots.txt в Яндексе и Гугле, примеры ошибок
  7. Мета-тег Robots — помогает закрыть дубли при индексации сайта
  8. Как создать правильный роботс.тхт?

При самостоятельном продвижении и раскрутке сайта важно не только создание уникального контента или подбор запросов в статистике Яндекса, но и так же следует уделять должное внимание такому показателю, как индексация ресурса поисковиками, ибо от этого тоже зависит весь дальнейший успех продвижения.

У нас с вами имеются в распоряжении два набора инструментов, с помощью которых мы можем управлять этим процессом как бы с двух сторон. Во-первых, существует такой важный инструмент как карта сайта (Sitemap xml). Она говорит поисковикам о том, какие страницы сайта подлежат индексации и как давно они обновлялись.

А, во-вторых, это, конечно же, файл robots.txt и похожий на него по названию мета-тег роботс, которые помогают нам запретить индексирование на сайте того, что не содержит основного контента (исключить файлы движка, запретить индексацию дублей контента), и именно о них и пойдет речь в этой статье…

Индексация сайта

Упомянутые выше инструменты очень важны для успешного развития вашего проекта, и это вовсе не голословное утверждение. В статье про Sitemap xml (см. ссылку выше) я приводил в пример результаты очень важного исследования по наиболее частым техническим ошибкам начинающих вебмастеров, там на втором и третьем месте (после не уникального контента) находятся как раз отсутствие этих файлов роботс и сайтмап, либо их неправильное составление и использование.

Почему так важно управлять индексацией сайта

Надо очень четко понимать, что при использовании CMS (движка) не все содержимое сайта должно быть доступно роботам поисковых систем. Почему?

  1. Ну, хотя бы потому, что, потратив время на индексацию файлов движка вашего сайта (а их может быть тысячи), робот поисковика до основного контента сможет добраться только спустя много времени. Дело в том, что он не будет сидеть на вашем ресурсе до тех пор, пока его полностью не занесет в индекс. Есть лимиты на число страниц и исчерпав их он уйдет на другой сайт. Адьес.
  2. Если не прописать определенные правила поведения в роботсе для этих ботов, то в индекс поисковиков попадет множество страниц, не имеющих отношения к значимому содержимому ресурса, а также может произойти многократное дублирование контента (по разным ссылкам будет доступен один и тот же, либо сильно пересекающийся контент), что поисковики не любят.

Хорошим решением будет запрет всего лишнего в robots.txt (все буквы в названии должны быть в нижнем регистре — без заглавных букв). С его помощью мы сможем влиять на процесс индексации сайта Яндексом и Google. Представляет он из себя обычный текстовый файл, который вы сможете создать и в дальнейшем редактировать в любом текстовом редакторе (например, Notepad++).

Поисковый бот будет искать этот файл в корневом каталоге вашего ресурса и если не найдет, то будет загонять в индекс все, до чего сможет дотянуться. Поэтому после написания требуемого роботса, его нужно сохранить в корневую папку, например, с помощью Ftp клиента Filezilla так, чтобы он был доступен к примеру по такому адресу:

https://ktonanovenkogo.ru/robots.txt

Кстати, если вы хотите узнать как выглядит этот файл у того или иного проекта в сети, то достаточно будет дописать к Урлу его главной страницы окончание вида /robots.txt. Это может быть полезно для понимания того, что в нем должно быть.

Однако, при этом надо учитывать, что для разных движков этот файл будет выглядеть по-разному (папки движка, которые нужно запрещать индексировать, будут называться по-разному в разных CMS). Поэтому, если вы хотите определиться с лучшим вариантом роботса, допустим для Вордпресса, то и изучать нужно только блоги, построенные на этом движке (и желательно имеющие приличный поисковый трафик).

Как можно запретить индексацию отдельных частей сайта и контента?

Прежде чем углубляться в детали написания правильного файла robots.txt для вашего сайта, забегу чуть вперед и скажу, что это лишь один из способов запрета индексации тех или иных страниц или разделов вебсайта. Вообще их три:

  1. Роботс.тхт — самый высокоуровневый способ, ибо позволяет задать правила индексации для всего сайта целиком (как его отдельный страниц, так и целых каталогов). Он является полностью валидным методом, поддерживаемым всеми поисковиками и другими ботами живущими в сети. Но его директивы вовсе не являются обязательными для исполнения. Например, Гугл не шибко смотрит на запреты в robots.tx — для него авторитетнее одноименный мета-тег рассмотренный ниже.
  2. Мета-тег robots — имеет влияние только на страницу, где он прописан. В нем можно запретить индексацию и переход робота по находящимся в этом документе ссылкам (подробнее смотрите ниже). Он тоже является полностью валидным и поисковики будут стараться учитывать указанные в нем значения. Для Гугла, как я уже упоминал, этот метод имеет больший вес, чем файлик роботса в корне сайта.
  3. Тег Noindex и атрибут rel=»nofollow» — самый низкоуровневый способ влияния на индексацию. Они позволяют закрыть от индексации отдельные фрагменты текста (noindex) и не учитывать вес передаваемый по ссылке. Они не валидны (их нет в стандартах). Как именно их учитывают поисковики и учитывают ли вообще — большой вопрос и предмет долгих споров (кто знает наверняка — тот молчит и пользуется).

Важно понимать, что даже «стандарт» (валидные директивы robots.txt и одноименного мета-тега) являются необязательным к исполнению. Если робот «вежливый», то он будет следовать заданным вами правилам. Но вряд ли вы сможете при помощи такого метода запретить доступ к части сайта роботам, ворующим у вас контент или сканирующим сайт по другим причинам.

Вообще, роботов (ботов, пауков, краулеров) существует множество. Какие-то из них индексируют контент (как например, боты поисковых систем или воришек). Есть боты проверяющие ссылки, обновления, зеркалирование, проверяющие микроразметку и т.д.

Большинство роботов хорошо спроектированы и не создают каких-либо проблем для владельцев сайтов. Но если бот написан дилетантом или «что-то пошло не так», то он может создавать существенную нагрузку на сайт, который он обходит. Кстати, пауки вовсе на заходят на сервер подобно вирусам — они просто запрашивают нужные им страницы удаленно (по сути это аналоги браузеров, но без функции просмотра страниц).

Robots.txt — директива user-agent и боты поисковых систем

Роботс.тхт имеет совсем не сложный синтаксис, который очень подробно описан, например, в хелпе яндекса и хелпе Гугла. Обычно в нем указывается, для какого поискового бота предназначены описанные ниже директивы: имя бота (‘User-agent‘), разрешающие (‘Allow‘) и запрещающие (‘Disallow‘), а также еще активно используется ‘Sitemap’ для указания поисковикам, где именно находится файл карты.

Стандарт создавался довольно давно и что-то было добавлено уже позже. Есть директивы и правила оформления, которые будут понятны только роботами определенных поисковых систем. В рунете интерес представляют в основном только Яндекс и Гугл, а значит именно с их хелпами по составлению robots.txt следует ознакомиться особо детально (ссылки я привел в предыдущем абзаце).

Например, раньше для поисковой системы Яндекс было полезным указать, какое из зеркал вашего вебпроекта является главным в специальной директиве ‘Host’, которую понимает только этот поисковик (ну, еще и Майл.ру, ибо у них поиск от Яндекса). Правда, в начале 2018 Яндекс все же отменил Host и теперь ее функции как и у других поисковиков выполняет 301-редирект.

Если даже у вашего ресурса нет зеркал, то полезно будет указать, какой из вариантов написания является главным — с www или без него.

Теперь поговорим немного о синтаксисе этого файла. Директивы в robots.txt имеют следующий вид:

<поле>:<пробел><значение><пробел>
<поле>:<пробел><значение><пробел>

Правильный код должен содержать хотя бы одну директиву «Disallow» после каждой записи «User-agent». Пустой файл предполагает разрешение на индексирование всего сайта.

User-agent

Директива «User-agent» должна содержать название поискового бота. При помощи нее можно настроить правила поведения для каждого конкретного поисковика (например, создать запрет индексации отдельной папки только для Яндекса). Пример написания «User-agent», адресованной всем ботам зашедшим на ваш ресурс, выглядит так:

User-agent: * 

Если вы хотите в «User-agent» задать определенные условия только для какого-то одного бота, например, Яндекса, то нужно написать так:

User-agent: Yandex

Название роботов поисковых систем и их роль в файле robots.txt

Бот каждой поисковой системы имеет своё название (например, для рамблера это StackRambler). Здесь я приведу список самых известных из них:

Google http://www.google.com Googlebot
Яндекс http://www.ya.ru 	 Yandex
Бинг http://www.bing.com/ 	 bingbot

У крупных поисковых систем иногда, кроме основных ботов, имеются также отдельные экземпляры для индексации блогов, новостей, изображений и т.д. Много информации по разновидностям ботов вы можете почерпнуть тут (для Google).

Как быть в этом случае? Если нужно написать правило запрета индексации, которое должны выполнить все типы роботов Гугла, то используйте название Googlebot и все остальные пауки этого поисковика тоже послушаются. Однако, можно запрет давать только, например, на индексацию картинок, указав в качестве User-agent бота Googlebot-Image. Сейчас это не очень понятно, но на примерах, я думаю, будет проще.

Примеры использования директив Disallow и Allow в роботс.тхт

Приведу несколько простых примеров использования директив с объяснением его действий.

  1. Приведенный ниже код разрешает всем ботам (на это указывает звездочка в User-agent) проводить индексацию всего содержимого без каких-либо исключений. Это задается пустой директивой Disallow.
    User-agent: *
    Disallow:
  2. Следующий код, напротив, полностью запрещает всем поисковикам добавлять в индекс страницы этого ресурса. Устанавливает это Disallow с «/» в поле значения.
    User-agent: *
    Disallow: /
  3. В этом случае будет запрещаться всем ботам просматривать содержимое каталога /image/ (http://mysite.ru/image/ — абсолютный путь к этому каталогу)
    User-agent: * Disallow: /image/
  4. Чтобы заблокировать один файл, достаточно будет прописать его абсолютный путь до него (читайте про абсолютные и относительные пути по ссылке):
    User-agent: *
    Disallow: /katalog1//katalog2/private_file.html

    Забегая чуть вперед скажу, что проще использовать символ звездочки (*), чтобы не писать полный путь:

    Disallow: /*private_file.html
  5. В приведенном ниже примере будут запрещены директория «image», а также все файлы и директории, начинающиеся с символов «image», т. е. файлы: «image.htm», «images.htm», каталоги: «image», «images1», «image34» и т. д.):
    User-agent: * Disallow: /image
    Дело в том, что по умолчанию в конце записи подразумевается звездочка, которая заменяет любые символы, в том числе и их отсутствие. Читайте об этом ниже.
  6. С помощью директивы Allow мы разрешаем доступ. Хорошо дополняет Disallow. Например, таким вот условием поисковому роботу Яндекса мы запрещаем выкачивать (индексировать) все, кроме вебстраниц, адрес которых начинается с /cgi-bin:
    User-agent: Yandex
    Allow: /cgi-bin
    Disallow: /

    Ну, или такой вот очевидный пример использования связки Allow и Disallow:

    User-agent: *
    Disallow: /catalog
    Allow: /catalog/auto
  7. При описании путей для директив
    Allow-Disallow
    можно использовать символы ‘*’ и ‘$’, задавая, таким образом, определенные логические выражения.
    1. Символ ‘*'(звездочка) означает любую (в том числе пустую) последовательность символов. Следующий пример запрещает всем поисковикам индексацию файлов с расширение «.php»:
      User-agent: *
      Disallow: *.php$
    2. Зачем нужен на конце знак $ (доллара)? Дело в том, что по логике составления файла robots.txt, в конце каждой директивы как бы дописывается умолчательная звездочка (ее нет, но она как бы есть). Например мы пишем:
      Disallow: /images

      Подразумевая, что это то же самое, что:

      Disallow: /images*

      Т.е. это правило запрещает индексацию всех файлов (вебстраниц, картинок и других типов файлов) адрес которых начинается с /images, а дальше следует все что угодно (см. пример выше). Так вот, символ $ просто отменяет эту умолчательную (непроставляемую) звездочку на конце. Например:

      Disallow: /images$

      Запрещает только индексацию файла /images, но не /images.html или /images/primer.html. Ну, а в первом примере мы запретили индексацию только файлов оканчивающихся на .php (имеющих такое расширение), чтобы ничего лишнего не зацепить:

      Disallow: *.php$
  8. Во многих движках пользователи настраивают так называемые ЧПУ (человеко-понятные Урлы), в то время как Урлы, генерируемые системой, имеют знак вопроса ‘?’ в адресе. Этим можно воспользоваться и написать такое правило в robots.txt:
    User-agent: *
    Disallow: /*?

    Звездочка после вопросительного знака напрашивается, но она, как мы с вами выяснили чуть выше, уже подразумевается на конце. Таким образом мы запретим индексацию страниц поиска и прочих служебных страниц создаваемых движком, до которых может дотянуться поисковый робот. Лишним не будет, ибо знак вопроса чаще всего CMS используют как идентификатор сеанса, что может приводить к попаданию в индекс дублей страниц.

Директивы Sitemap и Host (для Яндекса) в Robots.txt

Во избежании возникновения неприятных проблем с зеркалами сайта, раньше рекомендовалось добавлять в robots.txt директиву Host, которая указывал боту Yandex на главное зеркало.

Однако, в начале 2018 год это было отменено и и теперь функции Host выполняет 301-редирект.

Директива Host — указывает главное зеркало сайта для Яндекса

Например, раньше, если вы еще не перешли на защищенный протокол, указывать в Host нужно было не полный Урл, а доменное имя (без http://, т.е. ktonanovenkogo.ru, а не https://ktonanovenkogo.ru). Если же уже перешли на https, то указывать нужно будет полный Урл (типа https://myhost.ru).

Сейчас переезд сайта после отказа от директивы Host очень сильно упростился, ибо теперь не нужно ждать пока произойдет склейка зеркал по директиве Host для Яндекса, а можно сразу после настройки Https на сайте делать постраничный редирект с Http на Https.

Напомню в качестве исторического экскурса, что по стандарту написания роботс.тхт за любой директивой User-agent должна сразу следовать хотя бы одна директива Disallow (пусть даже и пустая, ничего не запрещающая). Так же, наверное, имеется смысл прописывать Host для отдельного блока «User-agent: Yandex», а не для общего «User-agent: *», чтобы не сбивать с толку роботов других поисковиков, которые эту директиву не поддерживают:

User-agent: Yandex
Disallow:
Host: www.site.ru 

либо

User-agent: Yandex
Disallow:
Host: site.ru 

либо

User-agent: Yandex
Disallow:
Host: https://site.ru 

либо

User-agent: Yandex
Disallow:
Host: https://www.site.ru 

в зависимости от того, что для вас оптимальнее (с www или без), а так же в зависимости от протокола.

Указываем или скрываем путь до карты сайта sitemap.xml в файле robots

Директива Sitemap указывает на местоположение файла карты сайта (обычно он называется Sitemap.xml, но не всегда). В качестве параметра указывается путь к этому файлу, включая http:// (т.е. его Урл).Благодаря этому поисковый робот сможете без труда его найти. Например:

Sitemap: http://site.ru/sitemap.xml

Раньше файл карты сайта хранили в корне сайта, но сейчас многие его прячут внутри других директорий, чтобы ворам контента не давать удобный инструмент в руки. В этом случае путь до карты сайта лучше в роботс.тхт не указывать. Дело в том, что это можно с тем же успехом сделать через панели поисковых систем (Я.Вебмастер, Google.Вебмастер, панель Майл.ру), тем самым «не паля» его местонахождение.

Местоположение директивы Sitemap в файле robots.txt не регламентируется, ибо она не обязана относиться к какому-то юзер-агенту. Обычно ее прописывают в самом конце, либо вообще не прописывают по приведенным выше причинам.

Проверка robots.txt в Яндекс и Гугл вебмастере

Как я уже упоминал, разные поисковые системы некоторые директивы могут интерпритировать по разному. Поэтому имеет смысл проверять написанный вами файл роботс.тхт в панелях для вебмастеров обоих систем. Как проверять?

  1. Зайти в инструменты проверки Яндекса и Гугла.
  2. Убедиться, что в панель вебмастера загружена версия файла с внесенными вами изменениями. В Яндекс вебмастере загрузить измененный файл можно с помощью показанной на скриншоте иконки:

    В Гугл Вебмастере нужно нажать кнопку «Отправить» (справа под списком директив роботса), а затем в открывшемся окне выбрать последний вариант нажатием опять же на кнопку «Отправить»:

  3. Набрать список адресов страниц своего сайта (по Урлу в строке), которые должны индексироваться, и вставить их скопом (в Яндексе) или по одному (в Гугле) в расположенную снизу форму. После чего нажать на кнопку «Проверить».

    Если возникли нестыковки, то выяснить причины, внести изменения в robots.txt, загрузить обновленный файл в панель вебмастеров и повторить проверку. Все ОК?

    Тогда составляйте список страниц, которые не должны индексироваться, и проводите их проверку. При необходимости вносите изменения и проверку повторяйте. Естественно, что проверять следует не все страницы сайта, а ярких представителей своего класса (страницы статей, рубрики, служебные страницы, файлы картинок, файлы шаблона, файлы движка и т.д.)

Причины ошибок выявляемых при проверке файла роботс.тхт

  1. Файл должен находиться в корне сайта, а не в какой-то папке (это не .htaccess, и его действия распространяются на весь сайт, а не на каталог, в котором его поместили), ибо поисковый робот его там искать не будет.
  2. Название и расширение файла robots.txt должно быть набрано в нижнем регистре (маленькими) латинскими буквами.
  3. В названии файла должна быть буква S на конце (не robot.txt, как многие пишут)
  4. Часто в User-agent вместо звездочки (означает, что этот блок robots.txt адресован всем ботам) оставляют пустое поле. Это не правильно и * в этом случае обязательна
    User-agent: *
    Disallow: /
  5. В одной директиве Disallow или Allow можно прописывать только одно условие на запрет индексации директории или файла. Так нельзя:
    Disallow: /feed/ /tag/ /trackback/

    Для каждого условия нужно добавить свое Disallow:

    Disallow: /feed/
    Disallow: /tag/
    Disallow: /trackback/
  6. Довольно часто путают значения для директив и пишут:
    User-agent: /
    Disallow: Yandex

    вместо

    User-agent: Yandex
    Disallow: /
  7. Порядок следования Disallow (Allow) не важен — главное, чтобы была четкая логическая цепь
  8. Пустая директива Disallow означает то же, что «Allow: /»
  9. Нет смысла прописывать директиву sitemap под каждым User-agent, если будете указывать путь до карты сайта (читайте об этом ниже), то делайте это один раз, например, в самом конце.
  10. Директиву Host лучше писать под отдельным «User-agent: Yandex», чтобы не смущать ботов ее не поддерживающих

Мета-тег Robots — помогает закрыть дубли контента при индексации сайта

Существует еще один способ настроить (разрешить или запретить) индексацию отдельных страниц вебсайта, как для Яндекса, так и для Гугл. Причем для Google этот метод гораздо приоритетнее описанного выше. Поэтому, если нужно наверняка закрыть страницу от индексации этой поисковой системой, то данный мета-тег нужно будет прописывать в обязательном порядке.

Для этого внутри тега «HEAD» нужной вебстраницы дописывается МЕТА-тег Robots с нужными параметрами, и так повторяется для всех документов, к которым нужно применить то или иное правило (запрет или разрешение). Выглядеть это может, например, так:

<html>
<head>
<meta name="robots" content="noindex,nofollow">
<meta name="description" content="Эта страница ....">
<title>...</title>
</head>
<body>
...

В этом случае, боты всех поисковых систем должны будут забыть об индексации этой вебстраницы (об этом говорит присутствие noindex в данном мета-теге) и анализе размещенных на ней ссылок (об этом говорит присутствие nofollow — боту запрещается переходить по ссылкам, которые он найдет в этом документе).

Существуют только две пары параметров у метатега robots: [no]index и [no]follow:

  1. Index — указывают, может ли робот проводить индексацию данного документа
  2. Follow — может ли он следовать по ссылкам, найденным в этом документе

Значения по умолчанию (когда этот мета-тег для страницы вообще не прописан) – «index» и «follow». Есть также укороченный вариант написания с использованием «all» и «none», которые обозначают активность обоих параметров или, соответственно, наоборот: all=index,follow и none=noindex,nofollow.

Более подробные объяснения можно найти, например, в хелпе Яндекса:

Для блога на WordPress вы сможете настроить мета-тег Robots, например, с помощью плагина All in One SEO Pack. Если используете другие плагины или другие движки сайта, то гуглите на тему прописывания для нужных страниц meta name=»robots».

Как создать правильный роботс.тхт?

Ну все, с теорией покончено и пора переходить к практике, а именно к составлению оптимальных robots.txt. Как известно, у проектов, созданных на основе какого-либо движка (Joomla, WordPress и др), имеется множество вспомогательных объектов не несущих никакой информативной нагрузки.

Если не запретить индексацию всего этого мусора, то время, отведенное поисковиками на индексацию вашего сайта, будет тратиться на перебор файлов движка (на предмет поиска в них информационной составляющей, т.е. контента). Но фишка в том, что в большинстве CMS контент хранится не в файликах, а в базе данных, к которой поисковым ботам никак не добраться. Полазив по мусорным объектам движка, бот исчерпает отпущенное ему время и уйдет не солоно хлебавши.

Кроме того, следует стремиться к уникальности контента на своем проекте и не следует допускать полного или даже частичного дублирования контента (информационного содержимого). Дублирование может возникнуть в том случае, если один и тот же материал будет доступен по разным адресам (URL).

Яндекс и Гугл, проводя индексацию, обнаружат дубли и, возможно, примут меры к некоторой пессимизации вашего ресурса при их большом количестве (машинные ресурсы стоят дорого, а посему затраты нужно минимизировать). Да, есть еще такая штука, как мета-тэг Canonical.

Замечательный инструмент для борьбы с дублями контента — поисковик просто не будет индексировать страницу, если в Canonical прописан другой урл. Например, для такой страницы https://ktonanovenkogo.ru/page/2 моего блога (страницы с пагинацией) Canonical указывает на https://ktonanovenkogo.ru и никаких проблем с дублированием тайтлов возникнуть не должно.

<link rel="canonical" href="https://ktonanovenkogo.ru/" />

Но это я отвлекся…

Если ваш проект создан на основе какого-либо движка, то дублирование контента будет иметь место с высокой вероятностью, а значит нужно с ним бороться, в том числе и с помощью запрета в robots.txt, а особенно в мета-теге, ибо в первом случае Google запрет может и проигнорировать, а вот на метатег наплевать он уже не сможет (так воспитан).

Например, в WordPress страницы с очень похожим содержимым могут попасть в индекс поисковиков, если разрешена индексация и содержимого рубрик, и содержимого архива тегов, и содержимого временных архивов. Но если с помощью описанного выше мета-тега Robots создать запрет для архива тегов и временного архива (можно теги оставить, а запретить индексацию содержимого рубрик), то дублирования контента не возникнет. Как это сделать описано по ссылке приведенной чуть выше (на плагин ОлИнСеоПак)

Подводя итог скажу, что файл Роботс предназначен для задания глобальных правил запрета доступа в целые директории сайта, либо в файлы и папки, в названии которых присутствуют заданные символы (по маске). Примеры задания таких запретов вы можете посмотреть чуть выше.

Теперь давайте рассмотрим конкретные примеры роботса, предназначенного для разных движков — Joomla, WordPress и SMF. Естественно, что все три варианта, созданные для разных CMS, будут существенно (если не сказать кардинально) отличаться друг от друга. Правда, у всех у них будет один общий момент, и момент этот связан с поисковой системой Яндекс.

Т.к. в рунете Яндекс имеет достаточно большой вес, то нужно учитывать все нюансы его работы, и тут нам поможет директива Host. Она в явной форме укажет этому поисковику главное зеркало вашего сайта.

Для нее советуют использовать отдельный блог User-agent, предназначенный только для Яндекса (User-agent: Yandex). Это связано с тем, что остальные поисковые системы могут не понимать Host и, соответственно, ее включение в запись User-agent, предназначенную для всех поисковиков (User-agent: *), может привести к негативным последствиям и неправильной индексации.

Как обстоит дело на самом деле — сказать трудно, ибо алгоритмы работы поиска — это вещь в себе, поэтому лучше сделать так, как советуют. Но в этом случае придется продублировать в директиве User-agent: Yandex все те правила, что мы задали User-agent: *. Если вы оставите User-agent: Yandex с пустым Disallow:, то таким образом вы разрешите Яндексу заходить куда угодно и тащить все подряд в индекс.

Robots для WordPress

Не буду приводить пример файла, который рекомендуют разработчики. Вы и сами можете его посмотреть. Многие блогеры вообще не ограничивают ботов Яндекса и Гугла в их прогулках по содержимому движка WordPress. Чаще всего в блогах можно встретить роботс, автоматически заполненный плагином Google XML Sitemaps.

Но, по-моему, все-таки следует помочь поиску в нелегком деле отсеивания зерен от плевел. Во-первых, на индексацию этого мусора уйдет много времени у ботов Яндекса и Гугла, и может совсем не остаться времени для добавления в индекс вебстраниц с вашими новыми статьями. Во-вторых, боты, лазящие по мусорным файлам движка, будут создавать дополнительную нагрузку на сервер вашего хоста, что не есть хорошо.

Мой вариант этого файла вы можете сами посмотреть. Он старый, давно не менялся, но я стараюсь следовать принципу «не чини то, что не ломалось», а вам уже решать: использовать его, сделать свой или еще у кого-то подсмотреть. У меня там еще запрет индексации страниц с пагинацией был прописан до недавнего времени (Disallow: */page/), но недавно я его убрал, понадеясь на Canonical, о котором писал выше.

А вообще, единственно правильного файла для WordPress, наверное, не существует. Можно, кончено же, реализовать в нем любые предпосылки, но кто сказал, что они будут правильными. Вариантов идеальных robots.txt в сети много.

Приведу две крайности:

  1. Тут можно найти мегафайлище с подробными пояснениями (символом # отделяются комментарии, которые в реальном файле лучше будет удалить):
    User-agent: * # общие правила для роботов, кроме Яндекса и Google,
     # т.к. для них правила ниже
    Disallow: /cgi-bin # папка на хостинге
    Disallow: /? # все параметры запроса на главной
    Disallow: /wp- # все файлы WP: /wp-json/, /wp-includes, /wp-content/plugins
    Disallow: /wp/ # если есть подкаталог /wp/, где установлена CMS (если нет,
     # правило можно удалить)
    Disallow: *?s= # поиск
    Disallow: *&s= # поиск
    Disallow: /search/ # поиск
    Disallow: /author/ # архив автора
    Disallow: /users/ # архив авторов
    Disallow: */trackback # трекбеки, уведомления в комментариях о появлении открытой
     # ссылки на статью
    Disallow: */feed # все фиды
    Disallow: */rss # rss фид
    Disallow: */embed # все встраивания
    Disallow: */wlwmanifest.xml # xml-файл манифеста Windows Live Writer (если не используете,
     # правило можно удалить)
    Disallow: /xmlrpc.php # файл WordPress API
    Disallow: *utm= # ссылки с utm-метками
    Disallow: *openstat= # ссылки с метками openstat
    Allow: */uploads # открываем папку с файлами uploads
    
    User-agent: GoogleBot # правила для Google (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Disallow: *utm=
    Disallow: *openstat=
    Allow: */uploads
    Allow: /*/*.js # открываем js-скрипты внутри /wp- (/*/ - для приоритета)
    Allow: /*/*.css # открываем css-файлы внутри /wp- (/*/ - для приоритета)
    Allow: /wp-*.png # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpg # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.jpeg # картинки в плагинах, cache папке и т.д.
    Allow: /wp-*.gif # картинки в плагинах, cache папке и т.д.
    Allow: /wp-admin/admin-ajax.php # используется плагинами, чтобы не блокировать JS и CSS
    
    User-agent: Yandex # правила для Яндекса (комментарии не дублирую)
    Disallow: /cgi-bin
    Disallow: /?
    Disallow: /wp-
    Disallow: /wp/
    Disallow: *?s=
    Disallow: *&s=
    Disallow: /search/
    Disallow: /author/
    Disallow: /users/
    Disallow: */trackback
    Disallow: */feed
    Disallow: */rss
    Disallow: */embed
    Disallow: */wlwmanifest.xml
    Disallow: /xmlrpc.php
    Allow: */uploads
    Allow: /*/*.js
    Allow: /*/*.css
    Allow: /wp-*.png
    Allow: /wp-*.jpg
    Allow: /wp-*.jpeg
    Allow: /wp-*.gif
    Allow: /wp-admin/admin-ajax.php
    Clean-Param: utm_source&utm_medium&utm_campaign # Яндекс рекомендует не закрывать
     # от индексирования, а удалять параметры меток,
     # Google такие правила не поддерживает
    Clean-Param: openstat # аналогично
    
    # Укажите один или несколько файлов Sitemap (дублировать для каждого User-agent
    # не нужно). Google XML Sitemap создает 2 карты сайта, как в примере ниже.
    Sitemap: http://site.ru/sitemap.xml
    Sitemap: http://site.ru/sitemap.xml.gz
    
    # Укажите главное зеркало сайта, как в примере ниже (с WWW / без WWW, если HTTPS
    # то пишем протокол, если нужно указать порт, указываем). Команду Host понимает
    # Яндекс и Mail.RU, Google не учитывает.
    Host: www.site.ru
    
  2. А вот тут можно взять на вооружение пример минимализма:
    User-agent: *
    
    Disallow: /wp-admin/
    Allow: /wp-admin/admin-ajax.php
    Host: https://site.ru
    Sitemap: https://site.ru/sitemap.xml

Истина, наверное, лежит где-то посредине. Еще не забудьте прописать мета-тег Robots для «лишних» страниц, например, с помощью чудесного плагина — All in One SEO Pack. Он же поможет и Canonical настроить.

Правильный robots.txt для Joomla

Рекомендованный файл для Джумлы 3 выглядит так (живет он в файле robots.txt.dist корневой папки движка):

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

В принципе, здесь практически все учтено и работает он хорошо. Единственное, в него следует добавить отдельное правило User-agent: Yandex для вставки директивы Host, определяющей главное зеркало для Яндекса, а так же указать путь к файлу Sitemap.

Поэтому в окончательном виде правильный robots для Joomla, по-моему мнению, должен выглядеть так:

User-agent: Yandex
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /component/tags*
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Host: vash_sait.ru (или www.vash_sait.ru)

 User-agent: *
 Allow: /*.css?*$
 Allow: /*.js?*$
 Allow: /*.jpg?*$
 Allow: /*.png?*$
 Disallow: /administrator/
 Disallow: /cache/
 Disallow: /includes/
 Disallow: /installation/
 Disallow: /language/
 Disallow: /libraries/
 Disallow: /modules/
 Disallow: /plugins/
 Disallow: /tmp/
 Disallow: /layouts/
 Disallow: /cli/
 Disallow: /bin/
 Disallow: /logs/
 Disallow: /components/
 Disallow: /component/
 Disallow: /*mailto/
 Disallow: /*.pdf
 Disallow: /*%
 Disallow: /index.php
 Sitemap: http://путь к вашей карте XML формата 

Да, еще обратите внимание, что во втором варианте есть директивы Allow, разрешающие индексацию стилей, скриптов и картинок. Написано это специально для Гугла, ибо его Googlebot иногда ругается, что в роботсе запрещена индексация этих файлов, например, из папки с используемой темой оформления. Даже грозится за это понижать в ранжировании.

Поэтому заранее все это дело разрешаем индексировать с помощью Allow. То же самое, кстати, и в примере файла для Вордпресс было.

Удачи вам! До скорых встреч на страницах блога KtoNaNovenkogo.ru

Для чего используется robots.txt.dist? — CodeRoad



В Joomla (CMS) установка поставляется с файлом под названием «robots.txt.dist». Я знаю, для чего используется robots.txt, но не знаю, почему существует версия .dist. Установка поставляется с обычным robots.txt, который, как мне кажется, делает другой файл не нужным.

joomla robots.txt
Поделиться Источник Josh Lewis     01 ноября 2013 в 23:08

2 ответа




4

.dist означает распределение. Это просто образец robots.txt . Обычно вы должны сделать mv robots.txt.dist robots.txt , чтобы установить файл robots.txt по умолчанию, чтобы сделать ваш сайт более удобным для поисковых систем. Но текст dist был добавлен, чтобы не перезаписывать ваш текущий robots.txt .

Поделиться nickzam     01 ноября 2013 в 23:11



4

.dist файлы, как правило, просто пример файла, чтобы вы начали, но не предназначены для использования в качестве реальной вещи.

Поделиться Scott Helme     01 ноября 2013 в 23:12


Похожие вопросы:


Для чего используется JMSType?

Для чего используется JMSType? Можно ли использовать его для определения полезной нагрузки сообщения? Например, полезная нагрузка может быть предназначена для добавления продукта, а JMSType может…


Для чего используется AssemblyInfo.cs?

Мой вопрос довольно прост. Я хотел бы знать, для чего используется файл AssemblyInfo.cs ?


Для чего используется _references.js?

Для чего используется файл _references.js в новом проекте ASP.NET MVC 4?


Для чего используется Python?

Для чего используется Python и для чего он предназначен?


для чего используется sync_extras_upload?

В классе ContentResolver есть несколько констант, которые используются для syncadpaters. Я хочу знать, для чего используется константа SYNC_EXTRAS_UPLOAD?


для чего используется ids.xml?

Просто быстрый вопрос: для чего используется ids.xml при разработке приложения Android? Я видел пример на веб-странице android resources, которая содержала: <resources> <item name=snack…


Для чего используется FacesContext?

Для чего используется FacesContext ? И где именно она реализуется?


для чего используется ContentProviderOperation

Я вижу этот проект http:/ / code.google.com/p/iosched/ in io like LocalRoomsHandler.java have ContentProviderOperation но я не могу понять, для чего это используется Он используется только для…


Для чего используется iframe?

Какова цель тега iframe в HTML? Для чего он используется?


Для чего используется COBOL?

Для чего используется COBOL?

Как Использовать Файл Robots.Txt Для Приложения Vue

Я использую vue-loader для создания моего приложения Vue с помощью webpack. Мое приложение обслуживается Firebase.

Для целей SEO мне нужно предоставить файл robots.txt в корне моего приложения (GET/robots.txt).

Как настроить webpack/vue-loader для обслуживания этого файла?

Это моя текущая базовая конфигурация webpack ./config/index.js

// see http://vuejs-templates.github.io/webpack for documentation.
var path = require('path')

module.exports = {
build: {
env: require('./prod.env'),
index: path.resolve(__dirname, '../dist/index.html'),
assetsRoot: path.resolve(__dirname, '../dist'),
assetsSubDirectory: 'static',
assetsPublicPath: '/',
productionSourceMap: true,
// Gzip off by default as many popular static hosts such as
// Surge or Netlify already gzip all static assets for you.
// Before setting to 'true', make sure to:
// npm install --save-dev compression-webpack-plugin
productionGzip: false,
productionGzipExtensions: ['js', 'css'],
// Run the build command with an extra argument to
// View the bundle analyzer report after build finishes:
// 'npm run build --report'
// Set to 'true' or 'false' to always turn it on or off
bundleAnalyzerReport: process.env.npm_config_report
},
dev: {
env: require('./dev.env'),
port: 8080,
autoOpenBrowser: true,
assetsSubDirectory: 'static',
assetsPublicPath: '/',
proxyTable: {},
// CSS Sourcemaps off by default because relative paths are "buggy"
// with this option, according to the CSS-Loader README
// (https://github.com/webpack/css-loader#sourcemaps)
// In our experience, they generally work as expected,
// just be aware of this issue when enabling this option.
cssSourceMap: false
}
}

Информация о сайте dist.kgsu.ru

Здесь вы сможете провести полный анализ сайта, начиная с наличия его в каталогах и заканчивая подсчетом скорости загрузки. Наберитесь немного терпения, анализ требует некоторого времени. Введите в форму ниже адрес сайта, который хотите проанализировать и нажмите «Анализ».

Идёт обработка запроса, подождите секундочку

Чаще всего проверяют:

Сайт Проверок
vk.com 95056
vkontakte.ru 43493
odnoklassniki.ru 34529
2ip.ru 17634
mail.ru 17114
yandex.ru 14746
pornolab.net 10126
youtube.com 9728
rutracker.org 9407
google.com 7377

Результаты анализа сайта «dist.kgsu.ru»

Наименование Результат
Скрин сайта
Название не определено
Описание
Ключевые слова
Alexa rank
Наличие в web.archive.org http://web.archive.org/web/*/dist.kgsu.ru
IP сайта 85.143.32.3
Страна Неизвестно
Информация о домене Владелец:
Creation Date: не определено
Expiration Date: не определено
Посетители из стран
🇷🇺 Russia(77.4)
🇰🇿 Kazakhstan(19.1)
Система управления сайтом  (CMS) узнать
Доступность сайта проверить
Расстояние до сайта узнать
Информация об IP адресе или домене получить
DNS данные домена узнать
Сайтов на сервере узнать
Наличие IP в спам базах проверить
Хостинг сайта узнать
Проверить на вирусы проверить
Веб-сервер apache
Картинки 0
Объем страницы
html 191 bytes(100%)
всего> 191 bytes  

Получить информер для форума

Если вы хотите показать результаты в каком либо форуме, просто скопируйте нижестоящий код и вставьте в ваше сообщение не изменяя.

[URL=https://2ip.ru/analizator/?url=dist.kgsu.ru][IMG]https://2ip.ru/analizator/bar/dist.kgsu.ru.gif[/IMG][/URL]

Программист 1C — Смена домена на сайте Joomla. Настройка файла robots.txt

На одном из моих сайтов я использовал международный домен. Со временем решил перейти на домен в зоне .ru. После смены домена сайт перестал правильно отображаться в панели управления сервиса «Яндекс Вебмастер».

Проблема оказалась в настройках файла robots.txt. Файл с настройками по умолчанию для версии Joomla 3.8.6 выглядит так:

User-agent: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /layouts/
Disallow: /libraries/
Disallow: /logs/
Disallow: /modules/
Disallow: /plugins/
Disallow: /tmp/

Хранятся настройки по умолчанию в главном каталоге сайта, в файле robots.txt.dist. Ранее, задолго до смены домена, я изменил файл robots.txt, добавил инструкцию:

И ещё создал группу инструкций отдельно для робота Яндекс:

User-agent: Yandex
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Disallow: /*mailto/
Host: my-sait.org
Sitemap: http://my-sait.org/sitemap.xml

И вот теперь, после смены домена, для правильного отображения сайта в «Яндекс Вебмастере» нужно заменить домен в инструкциях «Host» и «Sitemap».

Информация о материале
Категория: Создание сайтов

Googlebot не может получить доступ к файлам CSS и JS вашего сайта

10/02 2020

Google может отправить вам уведомления о заблокированных файлах CSS и JavaScript на ваших веб-сайтах. Не имеет значения, используете ли вы Joomla, WordPress или другую CMS. Здесь вы найдете краткую информацию о том, что вы должны сделать.

Если у вас есть аккаунт в Google Webmaster Tools, проверьте свой почтовый ящик. Получили ли вы электронное письмо от Google, в котором говорится, что робот Google не может получить доступ к вашим файлам CSS и JS из-за ограничений в файле robots.txt?

Если это так, то вы не одиноки. Google объясняет это тем, что блокировка этих файлов может привести к «неоптимальному ранжированию» в Google, потому что движок не может полностью понять ваш веб-сайт. Бла-бла-бла, правда, это все о новом акценте Google на адаптивном дизайне. Новые алгоритмы могут находить адаптивный код, как в CSS, так и в файлах JS.

Каково решение?
Новый файл robots.txt.dist распространяется с последней версией Joomla 3, где эта проблема устранена. Просто переименуйте robots.txt.dist в robots.txt и замените старый файл новым.

Затем перейдите на Google-Friendly Test и проверьте свой сайт. Этот инструмент тестирования очень информативен и указывает на точную проблему для этого конкретного сайта.

Вы также можете использовать Google Webmaster Tool, где есть раздел (левое меню) в консоли поиска Google под названием «Заблокированные ресурсы». Позволяет проверить все страницы сайта, на которых заблокированы ресурсы.

Дополнительное действие будет зависеть от того, какой шаблон и расширения вы используете, а также папка «plugins». Вы можете сделать тест, удалить «Disallow: /plugins/» из robots.txt и снова запустить онлайн-тестер.

Но если вы сознательный и ответственный веб-мастер, вы можете разрешить доступ только к выбранным подпапкам в папке плагинов, а не ко всей папке /plugins/. Вам нужно разрешить определенные плагины, если они обрабатывают большую часть вашего контента или ядра шаблона, например фреймворк. Сделайте это, добавив следующую строку в файл robots.txt вместо удаления всей части «Disallow: /plugins/». Пример:

Allow: /plugins/system/название_ващего_плагина/plugin_assets/

Заметка! Эти обновления требуют FTP-доступа к вашему собственному серверу.

То же самое можно проделать c папкой вашего шаблона и модулей. И помните, строка с разрешением доступа Googlebot должна быть выше строки с ограничением на сканирования корневой папки, например:

Allow: /plugins/system/название_ващего_плагина/plugin_assets/
Disalow: /plugins/

Разблокировав CSS и Javascript, вы можете отправить URL для повторного сканирования (из GWT) или просто подождать, пока робот Google сделает это самостоятельно через некоторое время.

Комментировать статью:

SEO — Robots.txt + метатег

Метатег robots и файл robots.txt — это два разных и независимых механизма для передачи информации роботам поисковых систем. Они специально позволяют вам указать, какие части вашего сайта должны быть проиндексированы поисковыми системами, а какие нет. Оба очень мощные, но их следует использовать с осторожностью, так как небольшие ошибки могут иметь серьезные последствия!

Robots.txt используется для блокировки системных папок, таких как папка /plugins , которая по умолчанию поставляется с установкой Joomla.Метатег robots обычно используется более конкретно для блокировки определенных страниц. Например, Google не нравятся ваши страницы внутреннего поиска в индексе Google (см. www.seroundtable.com/google-block-search-results-pages-24279.html), и вам следует использовать метатег robots, чтобы заблокировать их. Итак, вкратце: robots.txt говорит Google: не заходить сюда, а метатег Robots говорит Google: не индексировать меня. Это 2 действительно разные вещи!

Оба решения не заменяют друг друга, оба имеют свое конкретное назначение.Не используйте их одновременно! Я подробно рассмотрю оба решения.

Роботы.txt

Конфигурация файла robots.txt происходит вне администратора Joomla, вы просто открываете и редактируете фактический файл. Файл robots.txt — это файл, который в основном содержит информацию о том, какая часть сайта должна быть общедоступной. Он предназначен специально для ботов поисковых систем, которые сканируют веб-сайты, чтобы определить, какая страница должна быть включена в индекс.По умолчанию движкам разрешено сканировать все, поэтому, если какие-то части сайта нужно заблокировать, нужно указать их конкретно.

Обратите внимание, что блокировка URL-адресов в файле robots.txt не мешает Google индексировать страницу. Он просто перестанет проверять страницу. Просто проверьте этот результат для программного обеспечения SEO Raven tools, которое на самом деле высоко в рейтинге:

.

Поэтому, если вы хотите быть абсолютно уверены, что не будете проиндексированы, вам следует использовать метатег robots, см. ниже на этой странице.

Назад к файлу robots.txt: Joomla поставляется со стандартным файлом robots.txt, который должен нормально работать для большинства сайтов, за исключением старых: в старых версиях Joomla он блокировал папку /images . Это предотвратит индексацию изображений для вашего сайта, чего, конечно же, вы не должны хотеть. Поэтому либо закомментируйте эту строку, либо уберите ее совсем:

  пользовательский агент: *  
Запретить: / administrator /
Запретить: / cache /
Запретить: / cli /
Запретить: / Компоненты /
# Незащитывать: / Images / < -------- Закомментировать с помощью # или удалить их
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/ 3 7 Disallow : /logs/
# Disallow: /media/     <-------- Закомментировать с помощью # или удалить их
Disallow: /modules/
Disallow: /plugins/
# Disallow : /templates/     <-------- Закомментировано с помощью # или удалите их
Disallow: /tmp/

Примечание: Начиная с Joomla 3.3 эта проблема исправлена, и эти линии больше не блокируются. Но если ваш сайт был запущен в более старой версии, старая версия robots.txt все еще может быть там!

Как видите, файл в основном используется для блокировки системных папок. Кроме того, вы также можете использовать этот файл для предотвращения индексации определенных страниц, таких как страницы входа или 404, но это лучше делать с помощью метатега robots.

Вы также можете проверить, хорошо ли работает ваш файл robots.txt, с помощью раздела Blocked URL ваших инструментов Google для веб-мастеров.

Расширенная настройка с помощью robots.txt

Опытные пользователи могут использовать файл robots.txt для блокировки индексации страниц с помощью сопоставления с образцом. Например, вы можете заблокировать любую страницу, содержащую ‘?’ для предотвращения дублирования контента с URL-адресов, отличных от SEF:

  Агент пользователя: *  
Запретить: /*?*

Нет необходимости говорить, что с этим нужно быть осторожным. Другие примеры можно найти на searchengineland.com.

Разрешить CSS и Javascript?

Замечание, недавно сделанное Google относительно мобильных сайтов (см. это видео с участием Мэтта Каттса из Google), выглядит следующим образом:

Не блокировать CSS, Javascript и другие файлы ресурсов по умолчанию.Это мешает боту Google правильно отображать страницу и понимать, что она оптимизирована для мобильных устройств.

Вот почему папки /templates и /media больше не блокируются для установки Joomla с июля 2014 года. Однако убедитесь, что все ваши файлы ресурсов не заблокированы. Если вы используете такой плагин, как JCH-Optimize, который объединяет несколько файлов CSS и Javascript в один файл, вам может потребоваться указать для этого правило Разрешить , например:

 Разрешить: /plugins/system/jch_optimize/assets2/ 
Разрешить: /plugins/system/jch_optimize/assets/

Испытательные роботы.txt в Инструментах Google для веб-мастеров

Google стал более строгим в отношении robots.txt в 2014 году. Он более требователен к заблокированным ресурсам (CSS и JS), но также добавил некоторые инструменты в вашу учетную запись веб-мастера, которые помогут вам устранять неполадки. В первую очередь это касается robots.txt Tester , который вы можете найти в опциях Crawl :

В этом случае ошибок и предупреждений нет, но если они есть, вы будете уведомлены.Имейте в виду, что это всего лишь базовая проверка правильности введенных вами строк, она не проверяет, имеют ли заблокированные ресурсы решающее значение для отображения сайта.

Здесь пригодится инструмент Fetch as Google . Я действительно советую вам проверить свой сайт с помощью этого инструмента, вы можете найти удивительные результаты! Этот инструмент пытается проверить ваш сайт глазами ботов Google, сканирующих ваш сайт. Теперь давайте посмотрим, как выглядит наш сайт через этот инструмент.

Результатом может быть зеленая галочка, но если результат частично , это еще не все!!!! Нажмите на галочку, и откроется новая страница.Теперь ваш сайт может выглядеть так:

Это может быть изображение, которое вы получаете, когда Google обнаруживает блок для вашей папки /template , где находятся все ваши CSS и JS. Какие ресурсы заблокированы, легко найти, Google подскажет прямо здесь. Продвинутая статья в блоге на эту тему находится прямо здесь. Убедитесь, что вы проверили это, так как это может повлиять на рейтинг поиска из-за того, что Google не сможет правильно отобразить ваш сайт. Конкретно. он не может сказать, является ли ваш сайт отзывчивым или нет!

Укажите на карту сайта

Что-то еще: роботы.txt можно использовать для указания на файлы xml-карты сайта, особенно если они не расположены в корневом каталоге вашего веб-сайта, что часто бывает, если ваша карта сайта создается расширениями Joomla, такими как PWT Sitemap, OSmap, Jsitemap и т. д. Что вам нужно сделать, так это найти местоположение карты сайта в конфигурации расширения, а затем просто указать его в нижней части файла robots.txt, например:

.
 Карта сайта: index.php?option=com_osmap&view=xml&tmpl=component&id=1 

Обновления Joomla и изменения в файле robots.текст

Время от времени проект Joomla выпускает обновления для файла robots.txt, например, больше не блокирует определенные папки. Если они это сделают, они не будут просто распространять новый файл robots.txt, потому что он перезапишет любые настройки, которые вы сделали для себя. Вместо этого они распространяют файл с именем robots.txt.dist . Если вы никогда не делали никаких настроек, вы можете просто удалить существующий файл robots.txt и переименовать robots.txt.dist в robots.txt.

Если вы его настроили, просто проверьте, что изменилось, и скопируйте это изменение в ваш настроенный файл.Обычно вы будете уведомлены об изменениях, подобных этому, в сообщениях после установки на панели инструментов Joomla. Кстати, та же процедура применима и для изменений .htaccess.

Метатег роботов

Метатег robots — лучший способ заблокировать индексирование содержимого, но вы можете использовать его только для URL-адресов, а не для системных папок. Это очень эффективный способ не допустить попадания чего-либо в индекс Google. В Joomla вы можете указать тег в нескольких местах, в основном параллельно с другими настройками SEO, такими как метаописания.На глобальном уровне большинство сайтов должны оставить значения по умолчанию, установленные на экране Global Configuration в разделе Metadata   Settings . Как видите, можно задать 4 комбинации настроек:

Если вы не хотите скрывать свой сайт от поисковых систем (полезно для разработки), оставьте значение по умолчанию Index, Follow . Для определенных страниц вы можете переопределить это либо из статьи, либо из пункта меню. Например: результаты страницы поиска не должны индексироваться, но вы хотите, чтобы по ссылкам переходили: установите тег Без индекса, переходите по .Вы можете найти больше информации об этом в электронной книге.

Когда вы используете тег, вы фактически создаете следующий код в своем HTML, поэтому вы можете легко проверить правильность вашей конфигурации: 

  

Одно предупреждение: если вы используете Noindex, Nofollow , чтобы скрыть свои сайты разработки, обязательно измените это, как только сайт заработает (это случилось со мной…), иначе ваши оценки SEO будут очень плохими…. Чтобы узнать больше об этом, прочтите этот пост на Moz.com.

Путь назад Машина и Robots.txt

8 июля в Окружной суд США Восточного округа Пенсильвании была подана жалоба Healthcare Advocates, Inc. против Harding, Early, Follmer & Frailey, et al. Это настолько необычный документ, что я нарушу свою обычную практику не комментировать жалобы или ходатайства. Те, кто осуждает DMCA как (попытку) инструмент угнетения, найдут более чем достаточную поддержку в этих усилиях.Задействованы и другие законы, в том числе те, о которых, как я полагаю, большинство юристов в области ИС никогда не слышали, по крайней мере, в контексте ИС, например, иск Греты Гарбо о «вторжении в уединение». Другие, такие как Закон о компьютерном мошенничестве и злоупотреблении служебным положением и посягательство на движимое имущество, стали более известны в последнее время, но здесь они используются по-новому, если не сказать больше. По моему мнению (и все это мнение, обозначенное как таковое или нет), жалоба Healthcare Advocates представляет собой злоупотребление юридическим процессом.

Жалоба, по-видимому, является результатом ранее неудавшегося иска, поданного Кевином Флинном и Healthcare Advocates (Флинн является президентом) против Health Advocate, Inc. и других в связи с различными товарными знаками и связанными с ними типами. В этом случае следует отметить три мнения: 2004 U.S. Dist. LEXIS 293 (ED Pa. 13 января 2004 г.) (отклонение ряда претензий), 2004 г., США Dist. LEXIS 12536 (ED Pa. 8 июля 2004 г.) (отклонение ходатайства истца о внесении поправок в жалобу и отклонение ходатайства ответчика о закрытом рассмотрении рассматриваемых документов), и 2005 U.С. р-н LEXIS 1704 (ED Pa. 8 февраля 2005 г.) (отклонение оставшихся федеральных требований и отказ от осуществления действующей юрисдикции в отношении иска штата о мошенничестве).

Во время расследования претензий истца юридическая фирма некоторых ответчиков использовала некоммерческую Internet Archive Wayback Machine. Wayback Machine позволяет получить доступ к архивным версиям веб-сайтов. Вы вводите URL-адрес, выбираете диапазон дат, и вуаля, вы можете просматривать архивную версию рассматриваемой веб-страницы. Это феноменально важный архив, полезный для людей во всем мире, в том числе для сторон в судебных процессах, которые хотят узнать, что их противник говорил в прошлом на веб-сайте, который обновлялся или пересматривался потенциально сотни раз после рассматриваемых событий.Машина Wayback содержит около 1 петабайта данных, больше, чем в Библиотеке Конгресса, хотя архивирование началось только в 1996 году. Архивирование осуществляется веб-сканером Alexa.

Машина Wayback, однако, не заинтересована в архивировании материалов, которые администраторы веб-сайтов не хотят архивировать, поэтому она разработала несколько способов, позволяющих людям сказать: «Пожалуйста, не собирайте наши вещи». Вы можете позвонить в Интернет-архив и попросить их не делать этого. Или вы можете использовать SRE (стандарт для исключения роботов), чтобы указать файлы или каталоги, которые нельзя сканировать.Для этого используется файл robots.txt. (Вот короткая статья об исключении машины Wayback и робота из Википедии, а вот более техническое объяснение, Robots.txt.) Использование файла robots.txt является полностью добровольным, и многие веб-сканеры не используют его, хотя веб-сканер Alexa запрограммирован на выполнение инструкций robots.txt и фактически сконструирован так, чтобы задним числом блокировать файлы, существовавшие до того, как инструкции были вставлены.

Назад к делу Healthcare Advocates.Жалоба в более раннем иске против Health Advocate, Inc. была подана 26 июня 2003 г. Healthcare Advocates управляла веб-сайтом www.healthcareadvocates.com с 1998 г. 8 июля 2003 г. были вставлены инструкции robots.txt. Утверждается, что на следующий день юридическая фирма ответчика попыталась получить доступ к архивным материалам веб-сайта Healthcare Advocates. В заключении суда от 8 июля 2004 г. цитируется утверждение о том, что с 8 по 15 июля 2003 г. было предпринято 849 попыток доступа к архивной информации, из них около 112 попыток были успешными.Предположительно, весь материал был информацией до 8 июля 2003 года.

Истец ходатайствовал о дополнении жалобы на предъявление претензий к юридической фирме за данную деятельность, но суд отклонил ходатайство. После того, как жалоба истца была отклонена, как отмечалось выше, в прошлую пятницу, 8 июля, была подана новая жалоба на юридическую фирму, ее членов и сотрудников, а также на Интернет-архив.

Всего 12 счетов, слишком много, чтобы перечислять в этом и без того слишком длинном блоге. Я расскажу только об одном, заявлении DMCA, о предполагаемом нарушении Раздела 1201(а): «Никто не может обойти технологическую меру, которая эффективно контролирует доступ к произведению, охраняемому этим заголовком.Утверждается, что текстовая строка отказа robots.txt является технологической мерой обхода, и что юридическая фирма-ответчик обошла ее. Это утверждение, на мой взгляд, фактически и юридически неверно. Фактически, по крайней мере, из жалобы, оно не следует что юридическая фирма «обошла» что-либо, если под обходом мы подразумеваем изобретение мышеловки для обхода текстовой строки отказа Вместо этого кажется, что ответчик продолжал стучать по URL-адресу до тех пор, пока по какой-либо причине отказ не был распознан.Это похоже на то, как пройти через ряд домов и попробовать двери, чтобы увидеть, открыты ли они. Если это не так, вы идете дальше, пока не найдете тот, который есть. Если он открыт, вы входите, но вы, конечно, не обходите механизм контроля доступа.

Но что не менее важно, я не вижу, как robots.txt может соответствовать определению технологической меры 1201(b)(2)(B): это добровольный протокол, управляемый, если вообще не владельцем авторских прав но третьей стороной, и не все третьи стороны дали согласие на ее использование.Определение технической меры таково, что она «эффективно защищает право владельца авторских прав… если мера в обычном ходе своего действия предотвращает, ограничивает или иным образом ограничивает осуществление права владельца авторских прав в соответствии с этот титул».

В ходе обычной работы веб-сайта истца только те поисковые роботы, которые добровольно согласились на это, ограничивали бы доступ, а многие этого не делают. Это вряд ли может соответствовать стандарту эффективной защиты, предусмотренному в определении.И с точки зрения политики, теория истца будет поощрять хороших государственных архивариусов, таких как Интернет-архив , а не , к использованию добровольных мер под страхом нарушения DMCA. Нельзя также сказать, что здесь была какая-то услуга за услугу: рассматриваемые веб-страницы были общедоступны задолго до того, как истец решил ограничить доступ в связи с поданным гораздо позже судебным иском. И это худшая политика из всех.

cy.altern/dist — robots.txt.html на мастере — dist

Вы не можете выбрать более 25 тем Темы должны начинаться с буквы или цифры, могут включать тире (‘-‘) и могут содержать до 35 символов.

#HTTP_HEADER{Content-Type: text/plain; кодировка=#CHARSET}
# robots.txt
# @url: #URL_SITE_SPIP
# @генератор: SPIP #SPIP_VERSION
# @template: #СКЕЛЕТ
Агент пользователя: *
Разрешить: /local/cache-css/
Разрешить: /local/cache-js/
Запретить: /local/
Запретить: /ecrire/
Запретить: /plugins-dist/
Запретить: /lib/
Запретить: /плагины/
Запретить: /private/
Запретить: /squelettes-dist/
Запретить: /squelettes/
Задержка сканирования: 1
Карта сайта: #URL_SITE_SPIP/карта сайта.XML

Индекс /сайта

17K

6

2014-12-10 07:40

6

6

6 Esgvjc_Org_14May2019 ..>

6

2014-12-10 07:40

6 Language /

2014-12-10 07:40

2014-12-10 07:40

865

6

2014/
Размер
Licens.txt 2014-12 -10 07:40 17K
Администратор /
кэш / 2014-12-10 07: 40
2014-12-10 07:40
Комплектующие / 2014-12-10 07:40  
  конфигурация.php 2015-11-04 15:45 20k 20k
2019-05-14 23:38 240m
Esgvjcc 2020-04-0422 2020-04-04 01:19
Favicon.ico 2018-04-08 22:44 43
Htaccess.txt 2014-127 2014-12-10 07:40 2,8 к
Images /
включают / 2014-12-10 07:40
Библиотеки / 2014-12- 10 07:40
Logs /
Media / 2014-12-10 07:40  
  модулей/ 2014-12-10 07:40   902 27
  старый_индекс.PHP 2014-127 2014-12-10 07:40 1.3k
2014-12-10 07:40
Robots.txt 2013-02-03 18:23 865
2014-12-10 07:40 865
Шаблоны / 2014-12-10 07:40
TMP / 2014-12-10 07:40
Интернет.config.txt 10 декабря 2014 г. — Блог Compojoom

Если вы недавно обновились до Joomla 3.4, возможно, вы заметили это сообщение:

В Joomla! были внесены изменения в файлы robots.txt по умолчанию. 3.3, чтобы разрешить Google доступ к шаблонам и медиафайлам по умолчанию для улучшения SEO. Это изменение не применяется автоматически при обновлении, и пользователям рекомендуется просматривать изменения в файле robots.txt.dist и реализовать эти изменения в собственном файле robots.txt.

Так почему произошли изменения? Но сначала:

Почему файл robots.txt присутствует в каждом дистрибутиве Joomla?

В файле robots.txt указано, к каким частям вашего сайта поисковый робот (также известный как поисковый робот) не должен получать доступ. Этот файл является частью стандарта исключения роботов, и большинство поисковых систем следуют ему. Например, этот файл сообщает сканеру, что ему разрешено посещать папку xyz , но не разрешено просматривать ресурсы в папке abc .Протокол носит исключительно рекомендательный характер — он не помешает ботам, которые не придерживаются этого стандарта, индексировать эти ресурсы.

Давайте посмотрим на файл robots.txt, включенный в Joomla 3.4:

 # Если сайт Joomla установлен в папке, такой как 
# например. www.example.com/joomla/ файл robots.txt ДОЛЖЕН быть
# перемещен в корень сайта, например, www.example.com/robots.txt
# И имя папки joomla ДОЛЖНО иметь префикс запрещенного пути
#, например правило Disallow для папки /administrator/
# НЕОБХОДИМО изменить на Disallow: /joomla/administrator/
#
# Для получения дополнительной информации о файле robots.txt, см.:
# http://www.robotstxt.org/orig.html
#
# Для проверки синтаксиса см.:
# http://tool.motoricerca.info/robots-checker.phtml

User- агент: *
Disallow: /administrator/
Disallow: /bin/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /includes/
Disallow: /installation/
Disallow: /language /
Запретить: /layouts/
Запретить: /libraries/
Запретить: /logs/
Запретить: /modules/
Запретить: /plugins/
Запретить: /tmp/

Строки со знаком решетки # являются комментариями, предназначенными для людей.Они игнорируются ботами, которые читают файл.

Строка «user-agent: *» означает, что следующий раздел относится ко всем роботам. Строки запрета указывают роботу, какие каталоги ему не следует посещать.

Имейте в виду, что поисковые системы жадны. Они хотят индексировать все, что находят на вашем сайте. Если бы этих строк не было в файле robots.txt, поисковые системы начали бы индексировать ресурсы повсюду, а это не то, что вам действительно нужно для веб-сайта Joomla.(в конце ссылки на /components/com_something не нужны)

Почему файл robots.txt был обновлен?

В прошлом году Google объявил, что наконец-то может выполнять Javascript на ваших страницах. Это означает, что они начали отображать ваши страницы как браузер пользователя, а затем индексировать их. (раньше индексировался только тот контент, который присутствовал на странице при ее загрузке).

Недавно Google также объявил, что они собираются обслуживать больше страниц, удобных для мобильных устройств, в поисковом контенте.Так что, если вы ищете что-то на своем телефоне и у вас есть 2 страницы, которые могут дать вам ответ — Google даст несколько баллов больше странице, оптимизированной для мобильного устройства, и покажет ее первой.

Итак, какое отношение вышеупомянутые объявления имеют к файлу robots.txt? Ну, Google не может выполнить javascript или прочитать ваши файлы css, если они находятся в папке, которая запрещена в файле robots.txt. Так было с папками media и templates .Папка media используется разработчиками расширений для хранения своих ресурсов js и css, а папка templates , очевидно, используется вашим шаблоном…

Почему файл robots.txt не обновляется автоматически при обновлении Joomla?

Ну, это было бы очень сложно! Представьте, что вы внесли какие-то изменения в файл — хотите ли вы, чтобы ваши изменения были отменены обновлением Joomla? Бьюсь об заклад, нет! Именно поэтому вместо переопределения файла Joomla распространяется с файлами robots.txt.dist , где вы можете увидеть, как выглядят новые файлы. Затем вы можете сравнить файл robots.txt с файлом robots.txt.dist и внести изменения самостоятельно.

Нужно ли мне вносить какие-либо другие изменения в файл robots.txt, чтобы поисковые системы правильно индексировали мой сайт Joomla?

Скорее всего да! Что вам обязательно нужно сделать, так это перейти к инструменту Google для веб-мастеров (надеюсь, вы уже его используете, если нет, то пришло время начать).Выберите сайт, который вы хотите проверить, а затем перейдите к опции «Сканировать» -> «Просмотреть как Google». Введите URL-адрес для проверки и выберите параметр «Выбрать и отобразить». Как только Google получит ваш сайт, вы сможете увидеть, как он его видит. Вот пример того, как изначально выглядел compojoom:

Ниже результата рендеринга у вас также есть список причин, по которым Google не может отображать страницу 1:1 как браузер пользователя.

Как видно из скриншота, Google не смог получить доступ к ресурсам в папке plugins , media и templates .Теперь с последними медиафайлами и шаблонами robots.txt не следует запрещать то, что осталось исправить, — это папку плагинов. Папка плагинов по-прежнему запрещена, и вы должны оставить ее в таком виде. Вместо этого вы можете добавить разрешающие строки и указать непосредственно на ресурсы, которые вы хотите, чтобы Google мог индексировать:

.
 Запретить: /plugins/ 
Разрешить: /plugins/content/sigplus/css
Разрешить: /plugins/content/sigplus/engines
Разрешить: /plugins/system/maximenuckmobile/themes
Разрешить: /plugins/system/maximenuckmobile/assets

Этими четырьмя строками я точно указал, какие папки разрешено индексировать.Вот содержание нашего robots.txt просто для справки:

 Агент пользователя: * 
Запретить: /administrator/
Запретить: /bin/
Запретить: /cache/
Разрешить: /cache/com_comment/cache
Разрешить: /cache/thumbs
Разрешить: /cache/preview
Запретить: /cli/
Запретить: /components/
Разрешить: /components/com_socialconnect/js
Разрешить: /components/com_easyblog/assets
Разрешить: /components/com_easyblog/themes
Разрешить: /components/com_kunena/template
Запретить: /includes /
Запретить: /installation/
Запретить: /language/
Запретить: /layouts/
Запретить: /libraries/
Запретить: /logs/
Запретить: /modules/
Разрешить: /modules/mod_maximenuck/themes
Разрешить: / modules/mod_maximenuck/assets
Запретить: /plugins/
Разрешить: /plugins/content/sigplus/css
Разрешить: /plugins/content/sigplus/engines
Разрешить: /plugins/system/maximenuckmobile/themes
Разрешить: /plugins/ system/maximenuckmobile/assets
Запретить: /tmp/

Если вы внимательно посмотрели, то должны были заметить, что мы также разрешили несколько дополнительных ресурсов.Например: /cache/com_comment/cache. Эта папка принадлежит CComment. CComment минимизирует все файлы js, которые он использует, и сохраняет минимизированную версию в папке кеша. Поскольку в Joomla есть общее правило запрещать все в папке кеша, нам пришлось немного помочь и явно разрешить этот ресурс.

Нет глобального файла robots.txt, который мог бы работать на всех сайтах Joomla из-за разных установленных расширений. Итак, я бы посоветовал вам отрендерить свой сайт с помощью инструмента Google для веб-мастеров и проверить, каков результат.Затем просто разрешите необходимые ресурсы, пока не получите нужный результат. Это требует некоторого времени, но в итоге у вас будет сайт, который лучше индексируется Google.

Что еще мне нужно знать?

Советую внести модификации. Чем раньше вы это сделаете, тем быстрее Google и другие поисковые системы найдут данные, скрытые за вызовами ajax. Хорошим примером являются горячие точки. Когда мы визуализируем карту, мы получаем информацию о текущих результатах, которая загружается с помощью вызова ajax.В прошлом Google не мог найти точки доступа, которые пользователи видели на сайте. Но после обновления Google отображает страницу как браузер пользователя и теперь может индексировать все точки доступа.

Индекс /squelettes-dist

 Имя Последнее изменение Размер Описание 
Родительский каталог - 404.html 2016-09-14 02:48 2.7K article.html 14-09-2016 02:48 4.2K автор.html 14-09-2016 02:48 3.4К backend-breves.html 2016-09-14 02:48 2.8K backend.html 14-09-2016 02:48 1.2K breve.html 14-09-2016 02:48 3,8K calendrier.html 2016-09-14 02:48 1.7K contact.html 2016-09-14 02:48 2.2K css/ 2016-09-14 02:48 - distrib.html 14-09-2016 02:48 507 favicon.ico.html 14.09.2016 02:48 97 формулеры/ 2016-09-14 02:48 - forum.html 14-09-2016 02:48 3.1K ical.html 14-09-2016 02:48 1.0К значок/ 2016-09-14 02:48 - identifiants.html 14-09-2016 02:48 1.5K картинка/ 14.09.2016 02:48 - inc-rss-item.html 2016-09-14 02:48 2,3K включить/ 2016-09-14 02:48 - язык/ 14.09.2016 02:48 - модели/ 2016-09-14 02:48 - mot.html 14-09-2016 02:48 5.5K nouveautes.html 2016-09-14 02:48 867 пакет.xml 14.09.2016 02:48 319 plan.html 14.09.2016 02:48 2.0К полиции/ 2016-09-14 02:48 - puce.gif 14.09.2016 02:48 83 puce_rtl.gif 14.09.2016 02:48 84 recherche.html 14-09-2016 02:48 4.5K robots.txt.html 2016-09-14 02:48 439 rss_forum_article.html 2016-09-14 02:48 1,4K rss_forum_breve.html 2016-09-14 02:48 1,4K rss_forum_rubrique.html 2016-09-14 02:48 1.4K rss_forum_syndic.html 2016-09-14 02:48 1,4K rss_forum_thread.html 2016-09-14 02:48 1,4K рубрика.HTML 2016-09-14 02:48 6.2K site.html 14-09-2016 02:48 4.3K карта сайта.xml.html 2016-09-14 02:48 1,9K sommaire.html 14-09-2016 02:48 3.1K spip.ico 14-09-2016 02:48 1.4K

# Если сайт Joomla установлен в папке, например, в # например www.example.com/joomla/ файл robots.txt ДОЛЖЕН быть # перемещен в корень сайта, например, www.example.com/robots.txt # И имя папки joomla ДОЛЖНО иметь префикс запрещенного # путь, т.е.грамм. правило Disallow для папки /administrator/ # ДОЛЖЕН быть изменен на Disallow: /joomla/administrator/ # # Для получения дополнительной информации о стандарте robots.txt см.: # http://www.robotstxt.org/orig.html # # Для проверки синтаксиса см.: # http://tool.motoricerca.info/robots-checker.phtml Пользовательский агент: * Разрешить: /*.js* Разрешить: /*.css* Разрешить: /*.png* Разрешить: /*.jpg* Разрешить: /*.gif* Запретить: /администратор/ Запретить: /bin/ Запретить: /кеш/ Запретить: /cli/ Запретить: /включает/ Запретить: /установка/ Запретить: /язык/ Запретить: /макеты/ Запретить: /журналы/ Запретить: /tmp/ Запретить: /библиотеки/ Разрешить: /plugins/system/jcemediabox/js/jcemediabox.js* Разрешить: /modules/mod_vertical_menu/js/perfect-scrollbar.js Разрешить: /modules/mod_vertical_menu/js/mod_vertical_menu.js Разрешить: /libraries/nextend2/smartslider/media/plugins/type/simple/simple/dist/smartslider-simple-type-frontend.min.js* Разрешить: /libraries/nextend2/nextend/media/dist/nextend-frontend.min.js* Разрешить: /libraries/nextend2/smartslider/media/plugins/type/simple/simple/dist/smartslider-simple-type-frontend.

Добавить комментарий

Ваш адрес email не будет опубликован.