Содержание

NOINDEX и NOFOLLOW в Яндексе — Валидный тег noindex для Яндекса

NOINDEX и NOFOLLOW в Яндексе

В последнее время в Яндексе произошли некоторые изменения. В частности, теперь поисковая система Yandex учитываеть атрибут NOFOLLOW у ссылок, что принципиально важно. Кроме того, Яндекс порадовал веб-мастеров появлением валидного тега NOINDEX — вернее, исправлением ранее сделаной нелепости, когда был введен HTML-тег «ноуиндекс», который не проходит проверки валидатором. Теперь у web-мастера есть возможность создать полностью валидный сайт и использовать все преимущества, которые дают нововведения Яндекса.

Как сделать сайт с noindex полностью валидным?

Напомним, что html-тег НОИНДЕКС (не путать с одноименным мета-тегом!) был введен российскими поисковыми системами Rambler и Yandex для закрытия от индексации части контента на странице. Им удобно пользоваться, закрывая счетчики или рекламу, тем самым убирая не полезный для сайта контент из индекса Яндекса. Поисковая система Гугл на ноуиндекс не обращает никакого внимания.

Использование не валидного ноуиндекса Яндексом и Рамблером доставлято немало беспокойств любителям перфекционизма: сайт с этим тегом не проходил проверку на валидность согласно спецификации W3C (это основной стандарт HTML). Теперь положение дел изменилось: согласно рекомендациям самого Яндекса, ХТМЛ-тег <NOINDEX> можно использовать в валидном виде, как комментарий. Вот как это делается:

<!—noindex—>текст, который не будет индексироваться Яндексом<!—/noindex—>.

Как создать Valid Site? Чтобы сделать полностью валидный сайт, необходимо и достаточно изменить на нем все вхождения noindex’а согласно приведенной выше спецификации, как это сделано на этом сайте, либо не использовать «ноуиндекс» вообще (для англоязычных сайтов no-index не имеет смысла применять). После этого сайт следует проверить валидатором http://validator.w3.org/. Ссылка на первоисточник, руководство Яндекса для вебмастеров, вот: http://help.yandex.ru/webmaster/?id=1111858 . По ней же можно узнать, ято теперь Яндекс понимает nofollow, что сильно сказывается на позициях некоторых сайтов.

Теперь Яндекс понимает nofollow. Чем это чревато?

Атрибут контейнера A «но-фоллоу» указывается как rel=»nofollow» и служит для указания поисковой системе, что по данной ссылке следовать не стоит. Согласно этой же странице руководства Yandex’а, теперь атрибут «ноуфоллоу» теперь принимается в расчет при ранжировании (опять же: не путать его с одноименным мета-тегом!). Что это значит? Теперь ссылки, имеющие

атрибут NOFOLLOW, практически не будут передавать веса странице сайта-акцептора. И это нововведение Яндекса имеет далеко идущие последствия.

По всей видимости, массовый ссылочный спам в блоги, в которых, как известно, внешние ссылки почти всегда перекрываются атрибутом nofollow, не будет иметь никакого смысла: трафика оттуда и так нет, и ссылочный вес теперь не передается. Почти наверняка ссылки с НОФОЛЛОУ не будут учитываться при расчете ТИЦ. В этом поисковая система Яндекс стала близка Гуглу, который ввел практику учета nofollow уже давно.

Во-вторых, часть сайтов, которые держались на спамных ссылках с no-follow, неминуемо потеряют позиции в Яндексе. Как следствие — часть трафика и, соответственно, позиции и в Гугле, но менее заметно. Соответственно, ценность так называемых

DOFOLLOW блогов в глазах оптимизаторов возрастет. Для продвижения сайтов это скорее хорошо, чем плохо, и в любом случае должно учитываться вебмастерами при оптимизации. Гугл рекомендует использовать ноу-фолоу для закрытия продажных (покупных) и сомнительных ссылок.

Валидный NOINDEX проходит валидацию

Валидность документа не что иное как один из показателей качества сайта на котором он расположен, поэтому ею не следует пренебрегать. Не валидный документ может некорректно отображаться в некоторых браузерах (в большей степени это касается старых типов).

Кроме этого большое количество ошибок в коде на которые указывает валидатор может послужить причиной попадания под фильтр яндекса. Гоогле к этим вещам относится терпимей и его санкции не настолько жестоки и выйти из под них намного легче.

Если ваш сайт не проходит валидацию из-за частого употребления тега NOINDEX пора задуматься о его замене валидным аналогом. Тогда и овцы будут целы — весь закрытый этим тегом контент не будет индексироваться яндексом, и волки сыты — другие поисковые боты и валидатор не найдут в вашем коде ошибок.

Как сделать тег noindex валидным

Для тех кто не в теме напомню, для того чтобы определенный участок текста или кода на странице не индексировался Яндексом его закрывают в специальный им самим выдуманный тег:

Не валидный тег noindex:

<noindex>Ваш текст или код закрытый не валидным тегом</noindex>

Этот прием для закрытия от индексации определенного участка страницы с текстом использовался и до сих пор используется многими веб мастерами.
А зря поскольку уже порядочное время как появился валидный аналог тега noindex, на который валидатор не ругается и который не воспринимается им как ошибка в коде, поскольку он имитирует простой комментарий html разметки страницы.

О нем так-же написано в разделе помощи Яндекса, но увы некоторые веб мастера или до сих пор не знают о нем или пренебрегают даваемыми там советами

Валидный тег noindex выглядит так:

<!--noindex-->Ваш текст или код закрыт валидным тегом<!--/noindex-->

Все гениальное просто и если вы до сих пор еще используете старый вариант этого тега не поленитесь заменить его на аналог который будет валиден.

Многие оспаривают целесообразность использования тега noindex на страницах сайта, а некоторые эксперименты показали, что иногда текст и ссылки закрытые этим тегом все-равно индексируются Яндексом, но используя тег noindex валидность которого очевидна вы ни чем не рискуете.

Намного больше вас рискуют (потерей чего догадайтесь сами) те, кто продолжает смотреть дом 2 онлайн бесплатно, неужели вам это интересно, меня лично хватило только на 3 первых выпуска этой программы когда это был еще дом 1 а второй я уже даже и не начинал смотреть.

Метатег robots | Закрыть страницу от индексации


 Статья для тех, кому лень читать справку по GoogleWebmaster и ЯндексВебмастер

Закрывание ненужных страниц веб-ресурса от поисковой индексации очень важно для его SEO-оптимизации, особенно на начальном этапе становления сайта или блога «на ноги». Такое действие способствует продвижению в SERP (СЕРП) и рекомендовано к применению для служебных страниц. К служебным страницам относятся технические и сервисные страницы, предназначенные исключительно для удобства и обслуживания уже состоявшихся клиентов. Эти страницы с неудобоваримым или дублирующим контентом, который не представляет абсолютно никакой поисковой ценности. Сюда входят – пользовательская переписка, рассылка, статистика, объявления, комментарии, личные данные, пользовательские настройки и т.д. А, также – страницы для сортировки материала (пагинация), обратной связи, правила и инструкции и т.п.
  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt
Метатег robots

Для управления поведением поисковых роботов на веб-странице, в HTML существует метатег robots и его атрибут content. закрытия веб-страницы от поисковой индексации,


nofollow и noindex – самые загадочные персонажи разметки html-страницы, главная задача которых состоит в запрете индексирования ссылок и текстового материала веб-страницы поисковыми роботами.

nofollow (Яндекс & Google)

nofollow – валидное значение в HTML для атрибута rel тега «a» (rel=»nofollow»)
Это значение предназначено для поисковых систем.

Оно устанавливает запрет на переход по ссылке и последующее её индексирование.

rel=»nofollow» – не переходить по ссылке

Оба главных русскоязычных поисковика (Google и Яндекс) – прекрасно знают атрибут rel=»nofollow» и, поэтому – превосходно управляются с ним. В этом, и Google, и Яндекс, наконец-то – едины. Ни один поисковый робот не пойдёт по ссылке, если у неё имеется атрибут rel=»nofollow»:

<a href=»http://example.ru» rel=»nofollow»>анкор (видимая часть ссылки)</a>

content=»nofollow» – не переходить по всем ссылкам на странице

Допускается указывать значение nofollow для атрибута content метатега <meta>.
В этом случае, от поисковой индексации будут закрыты все ссылки на веб-странице

<meta name=»robots» content=»nofollow»/>

Атрибут content является атрибутом тега <meta> (метатега). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Действие атрибутов rel=»nofollow» и content=»nofollow»

на поисковых роботов Google и Яндекса

Действие атрибутов rel=»nofollow» и content=»nofollow»
на поисковых роботов Google и Яндекса несколько разное:

Google
Увидев атрибут rel=»nofollow» у отдельно стоящей ссылки, поисковые роботы Google не переходят по такой ссылке и не индексируют её видимую часть (анкор). Увидев атрибут
content=»nofollow»
у метатега <meta> в заголовке страницы, поисковые роботы Google сразу «разворачивают оглобли» и катят к себе восвояси, даже не пытаясь заглянуть на такую страницу. Таким образом, чтобы раз и навсегда закрыть от роботов Google отдельно стоящую ссылку (тег <а>) достаточно добавить к ней атрибут rel=»nofollow»:
<a href=»http://example.ru» rel=»nofollow»>Анкор</a>
А, чтобы раз и навсегда закрыть от роботов Google всю веб-страницу,
достаточно добавить в её заголовок строку с метатегом:
<meta name=»robots» content=»nofollow»/>
Яндекс
Для роботов Яндекса атрибут rel=»nofollow» имеет действие запрета только! на индексацию ссылки и переход по ней. Видимую текстовую часть ссылки (анкор) – роботы Яндекса всё равно проиндексируют.
Для роботов Яндекса атрибут метатега content=»nofollow» имеет действие запрета только! на индексацию ссылок на странице и переходов по них. Всю видимую текстовую часть веб-страницы – роботы Яндекса всё равно проиндексируют.
Для запрета индексации видимой текстовой части ссылки или страницы для роботов Яндекса – ещё потребуется добавить его любимый тег или значение noindex
noindex – не индексировать текст

(тег и значение только для Яндекса)

Тег <noindex> не входит в спецификацию HTML-языка.

Тег <noindex> – это изобретение Яндекса, который предложил в 2008 году использовать этот тег в качестве маркера текстовой части веб-страницы для её последующего удаления из поискового индекса. Поисковая машина Google это предложение проигнорировала и Яндекс остался со своим ненаглядным тегом, один на один. Поскольку Яндекс, как поисковая система – заслужил к себе достаточно сильное доверие и уважение, то придётся уделить его любимому тегу и его значению – должное внимание.

Тег <noindex> – не признанное изобретение Яндекса

Тег <noindex> используется поисковым алгоритмом Яндекса для исключения служебного текста веб-страницы поискового индекса. Тег <noindex> поддерживается всеми дочерними поисковыми системами Яндекса, вида Mail.ru, Rambler и иже с ними.

Тег noindex – парный тег, закрывающий тег – обязателен!

Учитывая не валидность своего бедного и непризнанного тега,
Яндекс соглашается на оба варианта для его написания:
Не валидный вариант – <noindex></noindex>,
и валидный вариант – <!— noindex —><!—/ noindex —>.

Хотя, во втором случае – лошади понятно, что для гипертекстовой разметки HTML, это уже никакой не тег, а так просто – html-комментарий на веб-странице.

Тег <noindex> – не индексировать кусок текста

Как утверждает справка по Яндекс-Вебмастер, тег <noindex> используется для запрета поискового индексирования служебных участков текста. Иными словами, часть текста на странице, заключённая в теги

<noindex></noindex> удаляется поисковой машиной из поискового индекса Яндекса. Размеры и величина куска текста не лимитированы. Хоть всю страницу можно взять в теги <noindex></noindex>. В этом случае – останутся в индексе одни только ссылки, без текстовой части.

Поскольку Яндекс подходит раздельно к индексированию непосредственно самой ссылки и её видимого текста (анкора), то для полного исключения отдельно стоящей ссылки из индекса Яндекса потребуется наличие у неё сразу двух элементов – атрибута rel=»nofollow» и тега <noindex>. Такой избирательный подход Яндекса к индексированию ссылок даёт определённую гибкость при наложении запретов.

Так, например, можно создать четыре конструкции, где:

Ссылка индексируется полностью
<a href=»http://example.ru»>Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки
<a href=»http://example.ru» rel=»nofollow»>Анкор</a>
Индексируется только ссылка, без своего анкора
<a href=»http://example.ru»><noindex>Анкор</noindex></a>
Ссылка абсолютно НЕ индексируется
<a href=»http://example.ru» rel=»nofollow»><noindex>Анкор</noindex></a>

Для справки: теги <noindex></noindex>, особенно их валидный вариант <!— noindex —><!—/ noindex —> – абсолютно не чувствительны к вложенности. Их можно устанавливать в любом месте HTML-кода. Главное, не забывать про закрывающий тег, а то – весь текст, до самого конца страницы – вылетит из поиска Яндекса.

Метатег noindex – не индексировать текст всей страницы

Допускается применять noindex в качестве значения для атрибута метатега content –
в этом случае устанавливается запрет на индексацию Яндексом текста всей страницы.

Атрибут content является атрибутом тега <meta> (метатег). Метатеги используются для хранения информации, предназначенной для браузеров и поисковых систем. Все метатеги размещаются в контейнере <head>, в заголовке веб-страницы.

Абсолютно достоверно, ясно и точно, что использование noindex в качестве значения атрибута content для метатега <meta> даёт очень хороший результат и уверенно «выбивает» такую страницу из поискового индекса Яндекса.

<meta name=»robots» content=»noindex»/>
Текст страницы, с таким метатегом в заголовке –
Яндекс совершенно не индексирует, но при этом он –
проиндексирует все ссылки на ней.

 

Разница в действии тега и метатега noindex

Визуально, разница в действии тега и метатега noindex заключается в том, что запрет на поисковую индексацию тега noindex распространяется только на текст внутри тегов <noindex></noindex>, тогда как запрет метатега – сразу на текст всей страницы.
Пример: <noindex>Этот текст будет не проиндексирован</noindex>

<meta name=»robots» content=»noindex»/>
Текст страницы, с таким метатегом – Яндекс полностью не индексирует

Принципиально, разница в действии тега и метатега проявляется в различиях алгоритма по их обработке поисковой машиной Яндекса. В случае с метатегом noindex, робот просто уходит со страницы, совершенно не интересуясь её содержимым (по крайней мере – так утверждает сам Яндекс). А, вот в случае с использованием обычного тега <noindex> – робот начинает работать с контентом на странице и фильтровать его через своё «ситечко». В момент скачивания, обработки контента и его фильтрации возможны ошибки, как со стороны робота, так и со стороны сервера. Ведь ни что не идеально в этом мире.
Поэтому, кусок текста страницы, заключённого в теги <noindex></noindex> – могёт запросто попасть Яндексу «на зуб» для дальнейшей поисковой индексации. Как утверждает сам Яндекс – это временное неудобство будет сохраняться до следующего посещения робота. Чему я не очень охотно верю, потому как, некоторые мои тексты и страницы, с тегом и метатегом noindex – висели в Яндексе по нескольку месяцев.

Особенности метатега noindex

Равно, как и в случае с тегом <noindex>, действие метатега noindex позволяет гибко накладывать запреты на всю страницу. Примеры метатегов для всей страницы сдерём из Яндекс-Вебмастера:

не индексировать текст страницы
<meta name=»robots» content=»noindex»/>
не переходить по ссылкам на странице
<meta name=»robots» content=»nofollow»/>
не индексировать текст страницы и не переходить по ссылкам на странице
<meta name=»robots» content=»noindex, nofollow»/>
что, аналогично следующему:
запрещено индексировать текст и переходить
по ссылкам на странице для роботов Яндекса
<meta name=»robots» content=»none»/>

Вот такой он, тег и значение noindex на Яндексе :):):).

Тег и метатег noindex для Google

Что-же касается поисковика Google, то он никак не реагирует на присутствие выражения noindex, ни в заголовке, ни в теле веб-страницы. Google остаётся верен своему валидному «nofollow», который он понимает и выполняет – и для отдельной ссылки, и для всей страницы сразу (в зависимости от того, как прописан запрет). После некоторого скрипения своими жерновами, Яндекс сдался и перестал продвижение своего тега и значения noindex, хотя – и не отказывается от него полностью. Если роботы Яндекса находят тег или значение noindex на странице – они исправно выполняют наложенные запреты.

Универсальный метатег (Яндекс & Google)

С учётом требований Яндекса, общий вид универсального метатега,
закрывающего полностью всю страницу от поисковой индексации,
выглядит так:

<meta name=»robots» content=»noindex, nofollow»/>
– запрещено индексировать текст и переходить по ссылкам на странице
для всех поисковых роботов Яндекса и Google
Почему метатег robots лучше файла robots.txt

Самый простой и популярный способ закрыть веб-страницу от индексации – это указать для неё соответствующую директиву в файле robots.txt. Для этого, собственно файл robots.txt и существует. Однако, закрывать через метатег robots – гораздо надёжнее.

И, вот почему.
Алгоритмы обработки роботами метатега robots и файла robots – совершенно различные. Работу этих алгоритмов можно сравнить с действием в известном анекдоте, где бьют не «по паспорту», а – «по морде». Пусть этот пример весьма груб и примитивен, но он, как нельзя лучше – отображает поведение поискового робота на странице:

  • В случае использования метатега robots, поисковик просто и прямо заходит на веб-страницу и читает её заголовок («смотрит в её морду». Если робот там находит метатег robots – он разворачивается и уходит восвояси. Вуаля! Всё предельно просто. Робот увидел запись, что здесь ловить нечего, и сразу же – «свалил». Ему проблемы не нужны. Это есть работа по факту записи прямо в заголовке страницы («по морде»).
  • В случае использования файла robots.txt, поисковик, перед заходом на страницу – сверяется с этим файлом (читает «паспорт»). Это есть работа по факту записи в постороннем файле («по паспорту»). Если в файле robots.txt («паспорте») прописана соответствующая директива – робот её выполняет. Если нет, то он – сканирует страницу в общем порядке, поскольку по-умолчанию – к сканированию разрешены все страницы.

Казалось-бы, какая разница.

Тем более, что сам Яндекс рассказывает следующее:

При сканировании сайта, на основании его файла robots.txt – составляется специальный список (пул), в котором ясно и чётко указываются и излагаются директории и страницы, разрешённые к поисковому индексированию сайта.

Ну, чего ещё проще – составил списочек,

прошёлся списочком по сайту,

и всё – можно «баиньки»…

Простота развеется, как майский дым, если мы вспомним, что роботов много, что все они разные, и самое главное – что все роботы ходят по ссылкам. А сей час, представим себе стандартную ситуацию, которая случается в интернете миллионы раз на дню – поисковый робот пришёл на страницу по ссылке из другого сайта. Вот он, трудяга Сети – уже стоит у ворот (у заголовка) странички. Ну, и где теперь файл robots.txt?

У робота, пришедшего на сайт по внешней ссылке, выбор не большой. Робот может, либо лично «протопать» к файлу robots.txt и свериться с ним, либо просто скачать страницу себе в кэш и уже потом разбираться – индексировать её или нет.

Как поступит наш герой, мы не знает. Это коммерческая тайна каждой поисковой системы. Несомненно, одно. Если в заголовке страницы будет указан метатег robots – поисковик выполнит его немедля. И, если этот метатег запрещает индексирование страницы – робот уйдёт немедля и без раздумий.

 

Вот теперь, совершенно ясно, что прямой заход на страницу, к метатегу robots –
всегда короче и надёжнее, нежели долгий путь через закоулки файла robots.txt

Метатег robots | Закрыть страницу от индексации на tehnopost.info

  1. Метатег robots
  2. Почему метатег robots лучше файла robots.txt

Внимание! У Вас нет прав для просмотра скрытого текста.

Теги nofollow noindex — оптимизация ссылок и текста

Многие оптимизаторы знают, что показатели ТИЦ и PR зависят в первую очередь от количества и качества ссылок на сайт. Но если ваш ресурс ссылается на другие, особенно не подходящие по тематике, то его вес падает. В этой статье будет рассказано, как правильно закрыть ненужные внешние ссылки и текст от индексации с помощью тегов nofollow noindex.

Noindex

Тег noindex используется, чтобы запретить индексацию какой-то определенной части текста. Следует помнить, что ссылки и изображения этот тег от поисковиков не закрывает. Если все-таки попытаться закрыть этим тегом анкор со ссылкой, то под индексацию не попадет только анкор (словосочетание), а сама ссылка однозначно попадает в индекс.

Noindex запрещает индексацию части кода, находящуюся между открывающим и закрывающим тегами. Вот пример:

<noindex> Этот текст Яндекс не индексирует </noindex>

Естественно, его не стоит путать с мета-тегом ноиндекс, который прописывается вначале страницы, они имеют различные задачи. Если взять мета-тег <meta name=»robots» content=»noindex,nofollow»> , то он запрещает индексирование всей страницы и переход по ссылкам. Этот запрет можно также прописать в файле robots.txt и такие страницы поисковыми роботами не будут учтены.

Валидный noindex

Некоторые HTML-редакторы noindex не воспринимают, поскольку он не является валидным. К примеру, в WordPress визуальный редактор его попросту удаляет. Но валидность тегу все же придать можно:

<!-- noindex --> Текст закрыт валидным ноиндекс <!--/ noindex -->

Если в HTML-редакторе прописать тег в такой форме, то он будет абсолютно валиден и можно не бояться, что он исчезнет. Тег noindex воспринимает только поисковый бот Яндекса, робот Гугла на него абсолютно не реагирует.

Некоторые оптимизаторы допускают ошибку, когда советуют закрыть все ссылки такими тегами noindex и nofollow, но об этом будет рассказано ниже. Что касается работы тега ноиндекс, то она безотказна. Абсолютно вся заключенная в этих тегах информация в индекс не попадает. Но некоторые вебмастера утверждают, что иногда все же текст внутри этих тегов индексируется ботами – да, действительно такое случается.

А это все потому, что Yandex изначально индексирует полностью весь html-код страницы, даже находящийся внутри noindex, но затем происходит фильтрация. Поэтому вначале действительно проиндексирована вся страница, но через некоторое время html-код срабатывает и тест, заключенный в этот тег «вылетает» из индексации.

Можно даже не соблюдать вложенность тега noindex – он все равно сработает (об этом рассказывается в справочной Яндекса). Не забывайте, используя, открывающий <noindex> в конце исключаемого текста поставить закрывающий </noindex>, а то весь текст, идущий после тега не проиндексируется.

Nofollow

Атрибут rel=»nofollow» имеет задачу закрывать от поисковиков ссылки, расположенные в тексте. Он используется оптимизаторами для исключения передачи веса со ссылающегося ресурса на ссылаемый. Яндексу об этом атрибуте прекрасно известно.

Необходимо знать, что nofollow вес на странице не сохраняет – если ссылка заключена в этот тег. Вес ресурса по ней не переходит, а наоборот «сгорает» или при присутствии на странице других не закрытых атрибутом ссылок, вес будет распределяться между ними. И если на странице сайта присутствует хотя бы одна внешняя активная ссылка, то вес страницы будет уходить.

Даже если вы закроете все внешние ссылки атрибутом nofollow – то вес все равно сохранен не будет – он «сгорит». Поэтому все внешние ссылки закрывать не имеет смысла.

Основным отличием между nofollow и noindex является то, что нофоллоу – атрибут для тега <a>, который запрещает передачу веса по ссылке, а ноиндекс – это тег, который закрывает от индексации нужный вам текст. Вот пример использования атрибута nofollow:

<a href="http://адрес_сайта" rel="nofollow">Текст ссылки</a>

Естественно, в ссылках, которые ведут на внутренние странички блога атрибут nofollow ставить бессмысленно, хотя бывают исключения. В тех случаях, когда вес со страницы нужно передать по выбранным внутренним ссылкам, все остальные можно закрыть.

Пример совместного использования nofollow и noindex

Прекрасно себя чувствуют оба тега nofollow и noindex, когда они находятся в непосредственной близости. Вот пример их использования:

<noindex><a href="http://адрес_сайта/" rel="nofollow">Текст ссылки</a></noindex>

Оформление ссылки, таким образом, поможет вам удержать вес страницы и к тому же поисковый бот Яндекса анкор не увидит. В заключении нужно сказать, что не нужно закрывать тегом ноиндекс ссылки, таким образом, вы запрещаете индексацию только анкора, но не самой ссылки. Для нее будет достаточно одного атрибута нофоллоу.

Тег noindex, валидный метатег, что значит запрещен к индексированию, настройки

Тег noindex служит для обозначения фрагментов текста, запрещенных для индексирования поисковой системой Яндекс.
Тег введен в оборот системой яндекс и используется только ей и, возможно, Рамблер.
Google его не понимает и никак не учитывает.

Первоначально, чтобы закрыть часть текста от индексации, нужно было обернуть его, как указано ниже:

<noindex>текст, закрытый от индексации</noindex>

Поскольку тег не является частью утвержденных стандартов, возникают проблемы валидации страницы при ее проверке в любом сервисе проверки валидностью кода html.

Из-за этого яндекс ввел другую версию тега вида <!–noindex–>неиндексируемый текст<!–/noindex–>. При таком использовании страница нормально проходит проверку. Первый вариант также до сих пор работает, но более правильно использовать второй вариант.

Применять данный тег можно, например, чтобы закрыть счетчики, комментарии. Но нет смысла закрывать, например, меню в целях перераспределения ссылочного веса на сайте.

Передача веса закрытой ссылке

Тег закрывает от индексации только текст, заключенный в него, но не влияет на индексирование ссылок внутри этого текста и передачу веса по ним. Для закрытия ссылки нужно использовать атрибут rel=”nofollow”, как писал здесь.

Метатег noindex

Метатег в коде страницы вида:

<meta name="robots" content="noindex,nofollow"/>

запрещает от индексации содержимое всей страницы (за это отвечает noindex), а также индексацию ссылок на этой страницы (за это отвечает nofollow).

Для массового проставления данного метатега, например, для архивов и других таксономий в wordpress можно использовать плагин Yoast SEO. В нем можно прописать метатеги в том числе и для отдельных страниц.

В robots.txt тег noindex не работает и не используется.

Сообщение – url запрещен к индексированию тегом noindex

В некоторых случаев вебмастер яндекс выдает сообщение, что адрес страницы, например, главной запрещен от индексации. Это значит, что на странице появился обнаружен этот метатег. Чаще всего такое бывает в двух случаях. Когда создавали сайт, то указали настройку “Попросить поисковые системы не индексировать сайт” на время разработки. Теперь нужно просто убрать эту пометку и отправить сайт в вебмастере на перепроверку. Или второй вариант – у вас стоит SEO плагин вроде Yoast Seo, в настройках которого вы указали запрет индексации, соответственно теперь его нужно убрать.

как, зачем и для чего используют в SEO

Noindex, nofollow имеют несколько разных понятий, и в зависимости от значений выполняют определенные функции.

  • метатег <meta name=»robots» content=»noindex, nofollow» />;
  • тег <noindex>;
  • атрибут rel=”nofollow”.

Для чего же созданы эти элементы и в каких случаях их стоит применять? Давайте разберемся вместе.


1. Метатег robots

Поисковая выдача формируется из документов, просканированных и проиндексированных поисковым роботом. Но не вся информация должна попадать в индекс. И тогда на помощь приходит метатег robots, благодаря которому можно скрыть страницу от индексации поисковыми роботами.

Тег необходимо установить в секцию <head> для того, чтобы страница не попала в индекс.

Пример:

<head>

<meta name = “robots” content = “noindex”/>

</head>

 

Большинство поисковых роботов понимают этот метатег. А при необходимости можно закрыть страницу только от определенного робота.

Например, от Google:

<meta name=«googlebot» content=«noindex»/>

Или только от Яндекс:

<meta name=«yandex» content=«noindex»/>

Что же тогда означает комбинация значений «noindex, nofollow»?

Как вы уже поняли, noindex запрещает индексировать страницу, включая весь контент, который на ней находится.
А nofollow запрещает поисковым роботам переходить как по внутренним, так и по внешним ссылкам, размещенным на странице.

Рассмотрим различные варианты значений метатега robots:

<meta name=“robots” content=“noindex, nofollow”>Запрещает индексировать страницу и переходить по ссылкам
<meta name=“robots” content=“index,follow”>Разрешает индексировать страницу и переходить по ссылкам на ней. Но в этой комбинации нет необходимости, т. к. по умолчанию поисковые роботы выполняют те же действия
<meta name=“robots” content=“index,nofollow”>Можно индексировать страницу, но нельзя переходить по ссылкам
<meta name=“robots” content=“noindex,follow”>

Нельзя индексировать страницу, но можно переходить по URL-адресам. Используется для того, чтобы страница не попала в индекс, но поисковые роботы могли посещать ссылки, размещенные на ней.
Эта комбинация встречается чаще всего. Вы можете увидеть ее на второй и последующих страницах пагинации, т. к. данные страницы не должны попадать в индекс, но поисковые роботы должны иметь возможность переходить по ссылкам товаров

 

Очень часто для запрета индексирования используют файл robots.txt. Но для поисковых роботов условия, написанные в нем, скорее служат рекомендациями и могут быть проигнорированы. Более надежным способом запрета от индексирования считается метатег <meta name=«robots» content=«noindex»/>.

Довольно часто для удаления уже проиндексированной страницы используют директиву Disallow в файле robots.txt. Это ошибка, ведь в таком случае вы запрещаете доступ к странице, и поисковый робот не удалит ее из индекса.

В выдаче поисковой системы вместо описания страницы вы увидите сообщение о том, что доступ к данной странице заблокирован с помощью файла robots.txt.
Чтобы удалить проиндексированную страницу из индекса, необходимо добавить метатег <meta name=“robots” content=“noindex,follow”>. Поисковый робот просканирует страницу, увидит атрибут noindex, и исключит страницу из индекса.


3. Атрибут rel=”nofollow”

rel=”nofollow” применим к тегу <а> и относится только к гиперссылке, для которой он прописан.

Как он выглядит:

<a href=»http://site.com/» rel=»nofollow»>текст ссылки</a>

Вид в коде страницы:

Рис. 1 — nofollow в коде страницы

История атрибута очень интересна. Изначально Google позиционировал nofollow как инструмент для борьбы со спамом в комментариях. Но это было в далеком 2005. 

Затем шла борьба с накруткой PageRank. Все пытались манипулировать внутренним весом, чтобы у продаваемых страниц был самый высокий PageRank. Ведь ссылочный вес делился одинаково между всеми гиперссылками на странице, не учитывая rel=«nofollow». И поэтому в 2009 Google внес поправки, согласно которым ссылочный вес не передавался по ссылкам, к которым применим атрибут rel=«nofollow».

Более того, изменились правила передачи ссылочного веса. Например, если на странице Х размещены 3 ссылки (2 dofollow и 1 nofollow), а вес страницы Х равен 6 “баллам”, то до внесения изменений Гуглом каждая ссылка без nofollow получила бы по 3 “балла”. А сейчас такие ссылки получат по 2 “балла”. Это означает, что ссылочный вес разделяется между всеми внутренними ссылками, но передается только по dofollow.

Когда специалисты стали меньше заморачиваться над передачей ссылочного веса, Google заявил, что все купленные ссылки должны иметь атрибут rel=«nofollow», утверждая, что некоторые проплаченные ссылки ничем не отличаются от тех, что были получены естественным путем (когда люди просто делятся тем, что по их мнению может быть интересным и полезным для других). Таким образом Google стимулирует получать естественные ссылки путем создания качественного контента.

В каких случаях сейчас стоит использовать ссылки с атрибутом «nofollow»?

Могу порекомендовать вам использовать nofollow ссылки для того, чтобы:

  • сделать ссылочный профиль сайта разнообразным;
  • обезопасить себя от санкций, применив атрибут к некачественным ссылкам.

Что такое — Noindex

Noindex — тег языка гипертекстовой разметки, позволяющий закрыть от индексации весь текст или его часть.

Noindex предложен поисковой системой Яндекс и распознается только ей. Синтаксис выглядит следующим образом:

<noindex>неиндексируемый текст</noindex>

В данном случае действие тега не распространяется на кликабельные URL. То есть, если в закрытом от индексирования материале присутствуют активные ссылки, робот все же по ним перейдет, поэтому их необходимо дополнительно оборачивать в тег nofollow.

Noindex не входит в официальную спецификацию HTML, а значит код, в котором он содержится, становится невалидным. Чтобы этого избежать, можно использовать альтернативную запись, также поддерживаемую ботами Яндекса:

<!—noindex—>неиндексируемый текст<!—/noindex—>

Здесь тег представлен в формате комментария и не учитывается в ходе проверки валидности.

Чаще всего noindex используется в ситуациях, когда требуется скрыть неуникальный контент (например, массивную цитату из другого источника). Кроме того, при помощи тега можно манипулировать плотностью и распределением ключевых слов в публикациях, исключая из индекса отдельные абзацы.

Другие материалы:

Noindex в качестве значения метатега robots

Noindex также является одним из значений, которое способно принимать свойство content метатега robots. Будучи прописанным в блоке <head>, он позволяет закрыть от индексации всю страницу целиком:

<html>
            <head>
                        <meta name=»robots» content=»noindex»>
                        <title>Неиндексируемая страница</title>
            </head>

</html>

Следует иметь в виду, что такая запись будет абсолютно валидной.

Полное руководство по robots.txt • Yoast

Йост де Валк

Йост де Валк — основатель и директор по продуктам Yoast. Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

Файл robots.txt — это один из основных способов сообщить поисковой системе, где можно, а где нельзя переходить на ваш веб-сайт.Все основные поисковые системы поддерживают базовые функции, которые они предлагают, но некоторые из них реагируют на некоторые дополнительные правила, которые также могут быть полезны. В этом руководстве описаны все способы использования robots.txt на вашем веб-сайте.

Предупреждение!

Любые ошибки, которые вы делаете в своем файле robots.txt, могут серьезно повредить вашему сайту, поэтому убедитесь, что вы прочитали и поняли всю эту статью, прежде чем углубляться в нее.

Что такое файл robots.txt?

Директивы сканирования

The robots.txt — это одна из нескольких директив сканирования. У нас есть руководства по всем из них, и вы найдете их здесь.

Файл robots.txt — это текстовый файл, который читается поисковой системой (и другими системами). Файл robots.txt, также называемый «протоколом исключения роботов», является результатом консенсуса между разработчиками первых поисковых систем. Это не официальный стандарт, установленный какой-либо организацией по стандартизации; хотя его придерживаются все основные поисковые системы.

Для чего нужен файл robots.txt?

Кэширование

Поисковые системы обычно кэшируют содержимое роботов.txt, чтобы им не приходилось загружать его постоянно, но обычно они обновляют его несколько раз в день. Это означает, что изменения в инструкциях обычно отражаются довольно быстро.

Поисковые системы обнаруживают и индексируют Интернет путем сканирования страниц. По мере того как они ползут, они находят ссылки и переходят по ним. Это переводит их с сайта A на сайта B на сайта C и так далее. Но прежде чем поисковая система посетит любую страницу в домене, с которой она не сталкивалась раньше, она откроет роботов этого домена.txt файл. Это позволяет им узнать, какие URL-адреса на этом сайте им разрешено посещать (а какие — нет).

Куда мне поместить файл robots.txt?

Файл robots.txt всегда должен находиться в корне вашего домена. Итак, если ваш домен www.example.com , его нужно найти по адресу https://www.example.com/robots.txt .

Также очень важно, чтобы ваш файл robots.txt на самом деле назывался robots.txt. Имя чувствительно к регистру, так что сделайте это правильно, иначе оно просто не сработает.

Плюсы и минусы использования robots.txt

Pro: управление краулинговым бюджетом

Обычно считается, что поисковый паук попадает на веб-сайт с заранее определенным «допуском» в отношении того, сколько страниц он будет сканировать (или сколько ресурсов / времени он потратит, в зависимости от авторитета / размера / репутации сайта, и насколько эффективно сервер отвечает). Оптимизаторы называют это обходным бюджетом .

Если вы считаете, что у вашего веб-сайта проблемы с бюджетом сканирования, то блокировка поисковых систем от «траты энергии» на несущественные части вашего сайта может означать, что они вместо этого сосредотачиваются на разделах, которые имеют значение и .

Иногда может быть полезно заблокировать поисковые системы от сканирования проблемных разделов вашего сайта, особенно на сайтах, где требуется большая очистка SEO. После того, как вы наведете порядок, можете впустить их обратно.

Примечание о блокировке параметров запроса

Одна ситуация, когда бюджет сканирования особенно важен, — это когда ваш сайт использует множество параметров строки запроса для , фильтрует или , сортирует , перечисляет . Допустим, у вас есть 10 разных параметров запроса, каждый с разными значениями, которые можно использовать в любой комбинации (например, футболки с несколькими цветами s и размера s).Это приводит к множеству возможных действительных URL-адресов, и все они могут быть просканированы. Блокирование параметров запроса от сканирования поможет убедиться, что поисковая система будет сканировать только основные URL-адреса вашего сайта и не попадет в огромную ловушку, которую вы в противном случае создали бы.

Con: не удалять страницу из результатов поиска

Даже если вы можете использовать файл robots.txt, чтобы сообщить пауку, где он не может перейти на ваш сайт, вы, , не можете, использовать его, чтобы сообщить поисковой системе, какие URL-адреса не показывать в результатах поиска — другими словами , его блокировка не помешает его индексации.Если поисковая система найдет достаточно ссылок на этот URL, она включит его, но просто не будет знать, что на этой странице. Итак, ваш результат будет выглядеть так:

Если вы хотите надежно заблокировать отображение страницы в результатах поиска, вам необходимо использовать мета-тег robots noindex . Это означает, что для того, чтобы найти тег noindex , поисковая система должна иметь доступ к этой странице, поэтому не блокирует с помощью robots.txt.

Директивы Noindex

Раньше можно было добавлять директивы noindex в файл robots.txt, чтобы удалить URL-адреса из результатов поиска Google и избежать появления этих «фрагментов». Это больше не поддерживается (и технически никогда не поддерживалось).

Con: не распространяется значение ссылки

Если поисковая система не может сканировать страницу, она не может распределять значение ссылки по ссылкам на этой странице. Когда страница заблокирована с помощью robots.txt, это тупиковый путь. Любое значение ссылки, которая могла перейти на эту страницу (и через нее), теряется.

Синтаксис Robots.txt

WordPress robots.txt

У нас есть целая статья о том, как лучше всего настроить robots.txt для WordPress. Не забывайте, что вы можете редактировать файл robots.txt своего сайта в разделе Инструменты SEO Yoast → Редактор файлов.

Файл robots.txt состоит из одного или нескольких блоков директив, каждый из которых начинается со строки пользовательского агента. «Пользовательский агент» — это имя конкретного паука, к которому он обращается. У вас может быть один блок для всех поисковых систем, используя подстановочный знак для пользовательского агента, или определенные блоки для определенных поисковых систем.Паук поисковой системы всегда выбирает блок, который лучше всего соответствует его названию.

Эти блоки выглядят так (не пугайтесь, объясним ниже):

 User-agent: * 
Disallow: /

User-agent: Googlebot
Disallow:

User-agent: bingbot
Disallow: / not-for-bing /

Директивы, такие как Allow и Disallow , не должны быть чувствительны к регистру, поэтому вам решать, писать ли вы их в нижнем регистре или использовать их с большой буквы.Значения чувствительны к регистру , однако / photo / не то же самое, что / Photo / . Нам нравится использовать директивы с заглавной буквы, потому что это облегчает чтение файла (для людей).

Директива агента пользователя

Первый бит каждого блока директив — это пользовательский агент, который идентифицирует конкретного паука. Поле user-agent сопоставляется с user-agent этого конкретного паука (обычно более длинного), поэтому, например, самый распространенный паук от Google имеет следующий пользовательский агент:

 Mozilla / 5.0 (совместимый; Googlebot / 2.1; + http: //www.google.com/bot.html) 

Итак, если вы хотите сказать этому пауку, что делать, сравнительно простая строка User-agent: Googlebot сделает свое дело.

У большинства поисковых систем есть несколько пауков. Они будут использовать специальный паук для своего обычного индекса, для своих рекламных программ, для изображений, для видео и т. Д.

Поисковые системы всегда выбирают наиболее конкретный блок директив, который они могут найти. Допустим, у вас есть 3 набора директив: один для * , один для Googlebot и один для Googlebot-News .Если приходит бот, пользовательский агент которого Googlebot-Video , он будет следовать ограничениям Googlebot . Бот с пользовательским агентом Googlebot-News будет использовать более конкретные директивы Googlebot-News .

Наиболее распространенные пользовательские агенты для пауков поисковых систем

Вот список пользовательских агентов, которые можно использовать в файле robots.txt для поиска наиболее часто используемых поисковых систем:

Новости Google
Поисковая машина Поле User-agent
Baidu General baiduspider
Baidu изображений Мобильный baiduspider-mobile
Baidu Новости baiduspider-news
Baidu Видео 9017 Biduspider 9017 9017 9017 9017 9017 Общие видео 9017 Baiduspider 9017 bingbot
Bing Общий msnbot
Bing Изображения и видео msnbot-media
Bing Общие Googlebot
Google Изображения Googlebot-Image
Google Мобильный Googlebot-Mobile
Google News
Google Видео Googlebot-Video
Google AdSense Mediapartners-Google
Google AdWords General slurp
Yandex General yandex

Директива disallow

Вторая строка в любом блоке директив — это строка Disallow .У вас может быть одна или несколько таких строк, указывающих, к каким частям сайта указанный паук не может получить доступ. Пустая строка Disallow означает, что вы ничего не запрещаете, поэтому в основном это означает, что паук может получить доступ ко всем разделам вашего сайта.

В приведенном ниже примере все поисковые системы, которые «слушают» robots.txt, не смогут сканировать ваш сайт.

 Агент пользователя: * 
Disallow: /

Если всего на один символ меньше, то в приведенном ниже примере позволит всем поисковым системам сканировать весь ваш сайт.

 Агент пользователя: * 
Disallow:

В приведенном ниже примере Google не сможет сканировать каталог Photo на вашем сайте — и все, что в нем.

 User-agent: googlebot 
Disallow: / Photo

Это означает, что все подкаталоги каталога / Photo также не будут защищены от пауков. Это , а не заблокировало бы Google от сканирования каталога / photo , поскольку эти строки чувствительны к регистру.

Это также заблокировало бы Google от доступа к URL-адресам, содержащим / Photo , например / Photography / .

Как использовать подстановочные знаки / регулярные выражения

«Официально» стандарт robots.txt не поддерживает регулярные выражения или подстановочные знаки, однако все основные поисковые системы его понимают. Это означает, что вы можете использовать такие строки для блокировки групп файлов:

 Запрещено: /*.php 
Запрещено: /copyrighted-images/*.jpg

В приведенном выше примере * заменяется на любое имя файла, которому оно соответствует. Обратите внимание, что остальная часть строки по-прежнему чувствительна к регистру, поэтому вторая строка выше не будет блокировать файл с именем / copyrighted-images / example.JPG от сканирования.

Некоторые поисковые системы, такие как Google, позволяют использовать более сложные регулярные выражения, но имейте в виду, что некоторые поисковые системы могут не понимать эту логику. Самая полезная функция, которую это добавляет, — это $ , указывающая на конец URL-адреса. В следующем примере вы можете увидеть, что это делает:

 Запрещено: /*.php$ 

Это означает, что /index.php нельзя проиндексировать, а /index.php?p=1 можно проиндексировать.Конечно, это полезно только в очень определенных обстоятельствах, а также довольно опасно: легко разблокировать то, что вы на самом деле не хотели разблокировать.

Нестандартные директивы сканирования robots.txt

Помимо директив Disallow и User-agent , вы можете использовать еще несколько директив сканирования. Эти директивы поддерживаются не всеми сканерами поисковых систем, поэтому убедитесь, что вы знаете об их ограничениях.

Разрешающая директива

Хотя это и не входило в исходную «спецификацию», очень рано говорилось о директиве allow .Кажется, что большинство поисковых систем понимают это, и он допускает простые и очень удобочитаемые директивы, такие как:

 Запретить: / wp-admin / 
Разрешить: /wp-admin/admin-ajax.php

Единственным другим способом достижения того же результата без директивы allow было бы специально запретить каждый отдельный файл в папке wp-admin .

Директива хоста

Поддерживается Яндексом (а не Google, несмотря на то, что говорится в некоторых публикациях), эта директива позволяет вам решить, хотите ли вы, чтобы поисковая система показывала пример .com или www.example.com . Просто укажите это так:

 хост: example.com 

Но поскольку только Яндекс поддерживает директиву host , мы не советуем вам полагаться на нее, тем более что она не позволяет вам определять схему (http или https). Лучшее решение, которое работает для всех поисковых систем, — это 301 перенаправление имен хостов, которые не нужны для в индексе, на версию, которая нужна вам .В нашем случае мы перенаправляем www.yoast.com на yoast.com.

Директива задержки сканирования

Bing и Яндекс иногда могут быть довольно голодными, но, к счастью, все они реагируют на директиву crawl-delay , которая их замедляет. И хотя эти поисковые системы имеют несколько разные способы чтения директивы, конечный результат в основном тот же.

Строка, подобная приведенной ниже, заставит эти поисковые системы изменить частоту запроса страниц на вашем сайте.

 задержка сканирования: 10 
Различные интерпретации

Обратите внимание, что Bing интерпретирует это как инструкцию подождать 10 секунд после сканирования, в то время как Яндекс интерпретирует ее как указание на доступ к вашему сайту только один раз в каждые 10 секунд. Это небольшая разница, но все же интересно узнать.

Будьте осторожны при использовании директивы crawl-delay . Установив задержку сканирования в 10 секунд, вы разрешите этим поисковым системам доступ только к 8 640 страницам в день.Для небольшого сайта этого может показаться много, но для крупных сайтов не так уж много. С другой стороны, если вы почти не получаете трафика от этих поисковых систем, это хороший способ сэкономить часть полосы пропускания.

Директива карты сайта для XML-файлов Sitemap

Используя директиву sitemap , вы можете указать поисковым системам, в частности, Bing, Yandex и Google, где найти вашу XML-карту сайта. Конечно, вы также можете отправить свои XML-карты сайта в каждую поисковую систему, используя соответствующие инструменты для веб-мастеров, и мы настоятельно рекомендуем вам это сделать, потому что программы инструментов для веб-мастеров поисковых систем предоставят вам много ценной информации о вашем сайте.Если вы не хотите этого делать, добавление строки sitemap в файл robots.txt — хорошая быстрая альтернатива.

 Карта сайта: https://www.example.com/my-sitemap.xml 

Проверьте свой robots.txt

Существуют различные инструменты, которые могут помочь вам проверить файл robots.txt, но когда дело доходит до проверки директив сканирования, мы всегда предпочитаем обращаться к источнику. У Google есть инструмент тестирования robots.txt в своей консоли поиска Google (в меню «Старая версия»), и мы настоятельно рекомендуем его использовать:

Тестирование роботов.txt в Google Search Console

Обязательно тщательно протестируйте свои изменения, прежде чем вводить их в действие! Вы не будете первым, кто случайно использовал robots.txt, чтобы заблокировать весь свой сайт и уйти в небытие поисковой системы!

Увидеть код

В июле 2019 года Google объявил, что делает свой парсер robots.txt открытым исходным кодом. Это означает, что, если вы действительно хотите разобраться в деталях, вы можете пойти и посмотреть, как работает их код (и даже использовать его самостоятельно или предложить модификации).

полное руководство • Yoast

Джоно Алдерсон

Джоно — цифровой стратег, технолог по маркетингу и разработчик полного цикла. Он занимается техническим SEO, новыми технологиями и стратегией бренда.

Если вы используете мета-тегов роботов на своих страницах, вы можете дать поисковым системам инструкции о том, как вы хотите, чтобы они сканировали или индексировали части вашего веб-сайта. На этой странице представлен обзор всех различных значений, которые могут быть в метатеге роботов, их функций и поисковых систем, поддерживающих каждое значение.

Различные значения метатегов роботов

Следующие значения («параметры») могут быть размещены по отдельности или вместе в атрибуте content тега (через запятую), чтобы управлять тем, как поисковые системы взаимодействуют с вашей страницей.

Прокрутите вниз, чтобы увидеть, какие поисковые системы поддерживают какие конкретные параметры.

индекс
Разрешить поисковым системам добавлять страницу в свой индекс, чтобы люди могли ее обнаружить.
Примечание: Если нет директив, относящихся к индексированию, предполагается, что это значение по умолчанию.
noindex
Запретить поисковым системам добавлять эту страницу в свой индекс и, следовательно, запретить им показывать ее в своих результатах.
Примечание. Неофициальные сообщения от Google предполагают, что, если для страницы задано значение noindex в течение длительного периода времени, ее также можно рассматривать, как если бы она была также установлена ​​на nofollow .Точный механизм этого неясен, и неясно, ведут ли другие поисковые системы аналогично.
подписаться на
Сообщает поисковым системам, что они могут переходить по ссылкам на странице, чтобы обнаружить другие страницы.
Примечание: Если нет директив, относящихся к следующим ссылкам, предполагается, что это значение по умолчанию.
nofollow
Указывает роботам поисковых систем не «поддерживать» (передавать капитал). любые ссылок на странице.Обратите внимание, что сюда входят всех ссылок на странице, включая, например, ссылки в элементах навигации, ссылки на изображения или другие ресурсы и т. Д.
Примечание: Неясно (и несовместимо между поисковыми системами), запрещает ли этот атрибут поисковым системам переход по ссылкам или просто не дает им присваивать какое-либо значение этим ссылкам.
нет
Ярлык для noindex, nofollow .
все
Ярлык для индекса , следуйте за .
Примечание: Предполагается по умолчанию на всех страницах и ничего не делает, если указано.
noimageindex
Запретить поисковым системам индексировать изображения на странице.
Примечание: Если изображения связаны напрямую из других источников, поисковые системы все равно могут их индексировать, поэтому использование HTTP-заголовка X-Robots-Tag, как правило, является лучшей идеей.
нет архива
Запрещает поисковым системам показывать кэшированную копию этой страницы в своих списках результатов поиска.
нокаш
То же, что и noarchive , но используется только MSN / Live.
Запрещает поисковым системам показывать текст или фрагмент видео (т. Е. Метаописание ) этой страницы в результатах поиска, и запрещают им показывать кэшированную копию этой страницы в своих списках результатов поиска.
Примечание. Фрагменты могут по-прежнему показывать миниатюру изображения, если также не используется noimageindex .
nositelinkssearchbox
Запрещает поисковой системе показывать встроенное окно поиска для вашего сайта.
nopagereadaloud
Запрещает поисковой системе читать вслух содержимое вашей страницы с помощью голосовых служб / результатов.
notranslate
Запрещает поисковым системам показывать перевод страницы в результатах поиска.
max-snippet: [номер]
Задает максимальное количество символов для метаописания.
Примечание: Пропуск этого тега может привести к предполагаемому значению 0 . Значение по умолчанию –1 должно означать «без ограничений».
max-video-preview: [номер]
Задает максимальное количество секунд для видео при предварительном просмотре.
Примечание: Пропуск этого тега может привести к предполагаемому значению 0 . Значение по умолчанию -1 должно означать «без ограничений».
max-image-preview: [настройка]
Задает максимальный размер изображения для использования в предварительном просмотре ( нет , стандартный или большой ).
Примечание: Пропуск этого тега может привести к подразумеваемому значению нет .
рейтинг
Указывает, что страница содержит материалы для взрослых.
unavailable_after
Сообщает поисковым системам дату / время, после которых они не должны показывать это в результатах поиска; «синхронизированная» версия noindex .
Примечание: должен быть в формате RFC850 (например, понедельник, 15 августа 05 15:52:01 UTC ).
нояка
Запрещает фрагменту результатов поиска использовать описание страницы из Справочника Яндекса.
Примечание: Поддерживается только Яндекс.
нойдир
Запрещает Yahoo использовать описание этой страницы в каталоге Yahoo в качестве фрагмента для вашей страницы в результатах поиска.
Примечание: Поскольку Yahoo закрыл свой каталог, этот тег устарел, но время от времени вы можете встретить его.

Какая поисковая система поддерживает какие значения метатегов роботов?

В этой таблице показано, какие поисковые системы поддерживают какие значения.Обратите внимание, что документация, предоставляемая некоторыми поисковыми системами, скудна, поэтому есть много неизвестных.

Стоимость роботов Google Yahoo Bing Спросите Baidu Яндекс
Элементы управления индексированием
индекс Я * Я * Я *? Y Y
noindex Y Y Y? Y Y
noimageindex Y N N? N N
Следует ли переходить по ссылкам
следовать Я * Я * Я *? Y Y
nofollow Y Y Y? Y Y
нет Y??? N Y
все Y??? N Y
Элементы управления фрагментом / предварительным просмотром
без архива Y Y Y? Y Y
нокаше N N Y? N N
носниппет Y N Y? N N
nositelinkssearchbox Y N N N N N
nopagereadaloud Y N N N N N
notranslate Y N N? N N
max-snippet: [number] Y Y N N N N
max-video-preview: [номер] Y Y N N N N
max-image-preview: [настройка] Y Y N N N N
Разное
рейтинг Y N N N N N
недоступен_после Y N N? N N
лапша N Y ** Y **? N N
нойдир N Y ** N? N N
Нояка N N N N N Y

* Большинство поисковых систем не имеют специальной документации для этого, но мы предполагаем, что поддержка исключения параметров (например,g., nofollow ) подразумевает поддержку положительного эквивалента (например, после ).
** Хотя атрибуты noodp и noydir все еще могут «поддерживаться», эти каталоги больше не существуют, и вполне вероятно, что эти значения ничего не делают.

Правила для конкретных поисковых систем

Иногда вам может потребоваться предоставить конкретные инструкции определенной поисковой системе , но не другим. Или вы можете предоставить разные поисковые системы совершенно разные инструкции.

В этих случаях вы можете изменить значение атрибута content для конкретной поисковой системы (например, googlebot ).

Примечание: Учитывая, что поисковые системы будут просто игнорировать инструкции, которые они не поддерживают или не понимают, очень редко нужно использовать несколько метатегов роботов для установки инструкций для определенных поисковых роботов.

Конфликтующие параметры и файлы robots.txt

Важно помнить, что мета-теги robots работают иначе, чем инструкции в вашем файле robots.txt, и конфликтующие правила могут вызвать неожиданное поведение. Например, поисковые системы не смогут увидеть ваши метатеги , если страница заблокирована через robots.txt .

Вам также следует позаботиться о том, чтобы не задавать конфликтующие значения в вашем метатеге robots (например, использовать параметры index и noindex ), особенно если вы устанавливаете разные правила для разных поисковых систем. В случае конфликта обычно выбирается наиболее ограничительная интерпретация (т.е., «не показывать» обычно лучше «показывать»).

Добавить noindex или nofollow в сообщение или страницу очень просто, если вы используете WordPress. Прочтите, как использовать Yoast SEO, чтобы сообщения не появлялись в результатах поиска.

Ресурсы из поисковых систем

Как оптимизировать краулинговый бюджет для Google и Яндекс

Поисковые системы не обновляют свои базы данных мгновенно. Процесс индексации может занять недели или даже месяцы.Это определенно не пойдет на пользу SEO. Давайте посмотрим, что такое краулинговый бюджет и почему вам нужно его оптимизировать.

Что такое краулинговый бюджет

Бюджет сканирования — это количество страниц, которые робот поисковой системы просматривает на вашем сайте за один раз. Другими словами, он показывает, сколько новых и обновленных страниц вы можете предоставить поисковому роботу за одно посещение.

Это число может немного меняться, но достаточно стабильно. Важно понимать, что лимит различается от сайта к сайту.Старый и популярный сайт сканируется постоянно, а любой новый веб-ресурс сканируется только частично и с задержками.

Причина проста: ресурсы поисковых систем ограничены. Центров обработки данных никогда не будет достаточно, чтобы мгновенно отслеживать каждое изменение на миллиардах веб-сайтов по всему миру. Особенно, если речь идет о бесполезных и непопулярных веб-ресурсах. Когда бот сканирует некачественные страницы, краулинговый бюджет сокращается. Это отрицательно скажется на рейтинге вашего сайта.

Почему это вообще имеет значение: поисковый робот просматривает заданное количество страниц наугад.Вы не можете вручную заставить его сканировать определенные URL-адреса. Например, ваша страница «О компании» может получить больше посещений, чем новая категория продуктов с новейшими предложениями.

Можете ли вы повлиять на поисковые системы, чтобы увеличить краулинговый бюджет? Да, в некоторой степени. Ниже мы рассмотрели основные методы оптимизации краулингового бюджета.

Как работает веб-сканирование

Робот поисковой системы получает список URL-адресов на вашем веб-сайте для сканирования и время от времени сканирует их. Как создается этот список? Он сформирован на основе следующих элементов:

  • Внутренние ссылки на вашем веб-сайте, включая инструменты навигации.
  • Карта сайта в формате XML (sitemap.xml).
  • Внешние ссылки.

Файл Robots.txt сообщает роботам поисковых систем, какие страницы вашего сайта сканировать. Роботы проверяют текстовый файл, чтобы узнать, можно ли сканировать конкретный URL. Если URL-адрес не указан в файле, он будет добавлен в список сканирования. Тем не менее, обратите внимание, что инструкции в файле robot.txt не являются обязательными для роботов, выполняющих веб-сканирование. Это всего лишь предложение и рекомендация.В некоторых случаях URL все равно будет проиндексирован. Например, если ссылки указывают на него, или перенаправляют на эту страницу в индексе, или любые другие сигналы, которые заставляют паук поисковой системы думать, что URL-адрес необходимо сканировать. В результате страница все равно будет просканирована, и Google отправит вам предупреждение «Проиндексировано, но заблокировано файлом robots.txt».

Гэри Иллис объяснил процесс сканирования роботов Google. Google формирует список URL-адресов и сортирует их по приоритету.Сканирование выполняется сверху вниз по списку.

Как вы определяете приоритеты? — Прежде всего, Google учитывает PageRank страницы. Среди других факторов — карта сайта, ссылки и многое другое.

Как только поисковый робот сканирует URL-адрес и анализирует его содержимое, он добавляет новые URL-адреса в список для их сканирования (немедленно или позже).

Нет надежного способа составить список причин, по которым бот-поисковый робот будет сканировать URL-адрес и почему нет.Однако, если он решит сканировать страницу, он обязательно это сделает. В итоге. Когда именно это произойдет, отчасти зависит от вас.

Как определить проблему обходного бюджета?

Когда робот поисковой системы находит много ссылок на вашем сайте и дает вам большой бюджет сканирования, у вас не будет никаких проблем. Однако что, если ваш сайт состоит из сотен тысяч страниц, но бюджет сканирования невелик? В этом случае вам придется месяцами ждать, пока поисковая система заметит какие-либо изменения на вашем сайте.

Вот что вы можете сделать, чтобы выяснить, есть ли у вас проблема с обходным бюджетом:

  • Укажите, сколько страниц вашего веб-сайта следует проиндексировать (эти страницы не должны иметь метатег NOINDEX или быть перечислены в файле robots.txt).
  • Сравните количество проиндексированных страниц с общим количеством страниц на вашем сайте с помощью инструментов Google и Яндекс для веб-мастеров.
  • В зависимости от поисковой системы выберите инструмент «Статистика сканирования» или отчет «Статистика сканирования».Google работает методично и обычно сканирует страницу за страницей. При этом в Яндексе нет явной системы (см. Скриншот). Иногда он вообще не сканирует сайт или сканирует только некоторые страницы.

  • Разделите количество страниц на среднее количество просканированных страниц за день. Если результат в 10 раз превышает количество страниц, сканируемых веб-сканером в день, вам необходимо оптимизировать краулинговый бюджет. Если ваше число меньше 3, все в порядке.

Полезно сравнить количество страниц в поисковых индексах Google и Яндекс. Обходные пути для этих систем разные, но разница должна быть незначительной. Более того, различия в наборе данных этих панелей для веб-мастеров помогут вам получить больше информации и идей.

Как улучшить краулинговый бюджет

Этот абзац включает в себя множество моментов, которые необходимо учесть. Поэтому мы начнем с самых простых до самых сложных.Тем не менее, все эти методы эффективны.

Общий принцип, который необходимо усвоить, заключается в том, что любая ранее проиндексированная страница, которую робот-робот не может просканировать несколько раз подряд, удаляется из поискового индекса. Это относится к страницам, которые недоступны по техническим причинам (например, из-за 500 ошибок), и страницам, индексирование которых заблокировано намеренно — например, с помощью тега NOINDEX.

Деиндексирование страниц Google занимает много времени. Длится месяц.В течение всего этого времени Google проводит периодические проверки, чтобы убедиться, что страница доступна. Яндекс быстрее деиндексирует «битую» страницу. Однако он будет продолжать индексировать и деиндексировать его неоднократно, пока вы не устраните проблемы.

Устранение проблем

Существует только два типа действительных ответов сервера для правильно настроенного веб-сайта: 200 (ОК) и 301 (постоянное перенаправление). Обратите внимание, что первое должно значительно преобладать над вторым. Все остальные ответы требуют внимательного рассмотрения и исправления, и вот почему.

  • Если вы по какой-то причине использовали временные 302 редиректы вместо постоянных 301, то бот поисковой системы будет вести себя соответствующим образом: поскольку контент временно недоступен, поисковая система не удалит его. Вместо этого он будет периодически перепроверять страницу. Таким образом, вы просто тратите свой краулинговый бюджет.
  • Второй пример — использование ошибки 404 (не найдено) вместо ошибки 410 (ошибка пропавшего). Логика проста: если страницу удалить, система попытается деиндексировать и забыть об этом.В случае ошибки 404 сканеры сайта планируют перепроверить страницу позже.
  • 500 ошибок — худшие. Это явный признак некачественного ресурса. Из-за этих ошибок снижается предел скорости сканирования. В результате роботы-роботы сканируют ваш сайт все реже и реже.

Если вы видите это в своих журналах или отчетах SiteAnalyzer, Screaming Frog SEO Spider или их аналогов, выясните причины и примите срочные меры.

Еще один важный источник информации об ошибках — это инструменты для веб-мастеров.Используйте их для отслеживания наиболее важных страниц, чтобы получать уведомления об ошибках и быстро их исправлять.

Избавьтесь от ненужных файлов и дублированного контента

Индекс поисковой системы не должен включать служебные страницы, страницы клиентов, дублирующие другие страницы, страницы фильтров, страницы сравнения продуктов, страницы с параметрами UTM и черновики страниц. Остановите индексирование этих страниц с помощью файла robots.txt.

Сайты электронной коммерции больше всего страдают от дублирования контента. Дублированный контент означает, что похожий контент доступен в нескольких местах (URL) в Интернете, и в результате поисковые системы не знают, какой URL показывать в результатах поиска.Иногда Google индексирует страницы продуктов и даже сеансы клиентов, включая продукты из корзины.

Главное правило — сохранять только одну версию каждого URL!

Иногда удалить дублирующийся контент просто невозможно. В таких ситуациях вы можете использовать канонические теги, которые сообщают поисковым роботам, какую страницу следует проиндексировать, а какие страницы следует игнорировать. В этом случае канонический тег действует как мягкое перенаправление 301.

Вот пример такого случая: карточка товара попадает в две разные товарные категории и отображается с разными URL-адресами.Похоже, у вас две одинаковые страницы с разными URL-адресами. Поисковые системы могут рассматривать одну из этих страниц как копию другой и индексировать только главную страницу. Однако затем они могут снова проиндексировать обе страницы. А затем удалите один из них из поискового индекса. Чтобы избежать этого и не тратить впустую краулинговый бюджет, используйте канонические теги, если система управления контентом сайта не предлагает лучшего решения.

Другой возможный вариант — использовать метатег NOINDEX. Однако имейте в виду, что такие страницы в любом случае сканируются, только реже, чем обычно.Таким образом, краулинговый бюджет продолжает уменьшаться. Кстати, не забудьте добавить в тег NOINDEX атрибут Follow. Таким образом вы предотвратите накопление таких страниц PageRank.

Если вы хотите избавиться от дублированного контента раз и навсегда, вам придется принять более радикальные меры, чем использование метадиректив для поисковых роботов. Если возможно, подумайте об удалении повторяющегося содержимого.

Например: вы можете использовать варианты одного и того же товара, которые немного отличаются друг от друга (цвет, размер и другие параметры).

Минимизировать перенаправления

Первое, что вам нужно сделать при проведении технического SEO-аудита сайта, — это проверить перенаправления с домашней страницы. Он может быть доступен через HTTP или HTTPS, а также иметь URL-адреса, отличные от WWW и WWW. Это дублированные версии одной и той же домашней страницы. Поисковая система может выбрать любое перенаправление в качестве основного. Вы потеряете контроль и потратите впустую свой краулинговый бюджет. Вот почему вы должны настроить 301 (постоянное) перенаправление на правильную версию.

Кроме того, вам необходимо убедиться, что вы используете только одно перенаправление, которое используется между начальным URL и целевым URL.Неправильные настройки перенаправления могут привести к цепочке из двух или трех перенаправлений. Это плохо, и вот почему. Поисковый робот видит новые URL-адреса и добавляет их в свой список URL-адресов для сканирования. Тем не менее, это не означает, что он немедленно проверит эти URL-адреса. Чем длиннее цепочка перенаправлений, тем дольше будет процесс. В результате сканирование задерживается.

Вот типичный пример неправильного перенаправления HTTPS:

Уменьшение количества ссылок — еще одна проблема, связанная с чрезмерным количеством перенаправлений.Объем ссылок уменьшается с каждым перенаправлением, что снижает эффективность построения ссылок.

Домашняя страница — не единственное место, где следует проверять двойные перенаправления. Если при анализе просмотров страниц вы столкнулись с множеством проблем, не забудьте провести тест перенаправления.

Создание XML-карты сайта

Карта сайта должна включать полный список страниц веб-сайта, которые следует проиндексировать. Только важные вещи! Поисковые системы используют его как средство навигации и получают список URL-адресов для сканирования.Файл sitemal.xml может содержать информацию о дате создания, дате последнего изменения, приоритете важности, скорости сканирования и т. Д.

Не думайте, что поисковый робот всегда учитывает ваши инструкции. Вы можете только надеяться, что робот увидит ваш список URL-адресов для сканирования и в конечном итоге использует его. Все остальное обычно игнорируется, чтобы избежать манипуляций. Однако это не означает, что вы не должны использовать эти директивы. Делайте все, что в ваших силах, но не ожидайте, что это даст стопроцентный эффект.

Не каждая CMS позволяет создать карту сайта в соответствии с вашими планами. Он может включать много нежелательных элементов. Что еще хуже, некоторые CMS даже не позволяют создавать карты сайта. В таких случаях вы можете использовать сторонний плагин или вручную отправить карту сайта, созданную с помощью программного обеспечения или внешней службы.

Некоторые эксперты рекомендуют удалять все URL-адреса из карты сайта, как только страницы будут проиндексированы. Не делайте этого, так как это может повредить вашему краулинговому бюджету.

Проверьте карту сайта.xml время от времени. Файл не должен включать удаленные страницы, перенаправления и URL-адреса ошибок.

Создайте хорошую структуру веб-сайта

Это, наверное, самый сложный шаг для выполнения. Реструктуризация функционирующего веб-сайта будет непростой задачей. Создать правильную структуру сайта еще на стадии разработки намного проще.

Плоская структура сайта — это веб-сайт, на котором все страницы находятся на расстоянии четырех или менее кликов от домашней страницы. Глубокая иерархия сайтов состоит из пяти и более подуровней.

Общий принцип: глубокие и сложные структуры сайтов труднее обходить, чем плоские.Кроме того, они менее удобны для посетителей. Добавьте сюда неэффективную навигацию и отсутствие мобильной оптимизации, и у вас будет полный набор проблем с SEO.

Используйте лучшие практики плоской структуры сайта, чтобы сделать важные страницы доступными всего за несколько кликов. Плоская, горизонтальная конструкция предпочтительнее вертикальной.

Однако учтите, что плоская структура без категорий также неэффективна. Вам необходимо разработать структуру, которая сочетает в себе простоту и последовательность иерархии.Однако эта тема требует отдельного обсуждения.

Вам нужно будет использовать нетривиальные методы, выходящие за рамки технического SEO, для оптимизации структуры вашего сайта. Начать следует с визуализации существующей конструкции. В этом вам могут помочь многие инструменты аудита веб-сайтов. На этом этапе можно приступить к внесению небольших корректировок.

Если вы планируете внести глобальные изменения, начните с семантики и группировки запросов. Определите, что можно соединить, объединить или поднять на уровень выше.Возможно, вы сможете полностью удалить некоторые страницы.

Обратите внимание, , что Google и Яндекс ранжируют сайты по-разному. Ваш рейтинг в Google не повысится, если у вас будет куча спам-страниц. В то же время Яндекс ставит более крупные сайты выше, даже если их содержание не на высшем уровне. Поэтому придется искать компромисс.

Использовать заголовок Last-Modified

Большинство разработчиков веб-сайтов и системных администраторов игнорируют этот важный технический параметр.К сожалению, даже некоторые специалисты по SEO не понимают важности последнего измененного заголовка ответа.

Заголовок Last-Modified используется для:

  • снизить нагрузку на сервер;
  • ускорить индексацию сайта;
  • повысить скорость загрузки сайта.

Последний измененный заголовок ответа особенно важен, если ваш сайт большой и вы обновляете его ежедневно. Однако многие веб-мастера вообще не используют его.

Как работает заголовок Last-Modified

Поисковый робот или браузер обращается к определенному URL-адресу, запрашивая веб-страницу.Если он не изменился с момента последнего взаимодействия, сервер возвращает заголовок «304 Not Modified». В этом случае нет необходимости перезагружать уже проиндексированный контент. Однако, если были изменения, то сервер отправит ответ «200 OK», и новый контент будет загружен.

Помимо улучшения производительности, поисковая система обновляет дату содержания страницы. Это очень важно с точки зрения рейтинга, особенно для областей, связанных со здоровьем человека и финансами (YMYL).

Last-Modified позволяет поисковому роботу удалить из своего списка некоторые страницы, которые не были обновлены. Он сканирует обновленные страницы, которые были оптимизированы вами. Вы помогаете расставить приоритеты и сэкономить краулинговый бюджет.

Примечание. Используйте заголовок Last-Modified на страницах с наиболее статичным содержимым. Сквозной блок с обновленным содержимым — это не то, что обновленное содержимое, и сканеру это может не понравиться. Как минимум уменьшите количество таких блоков на целевых страницах. То, что хорошо работает на главной странице, не требуется на других целевых страницах.

Для проверки этого заголовка можно использовать средство проверки ответа заголовка HTTP или аналогичные инструменты.

Улучшите свой ссылочный профиль

Если есть проблемы с индексацией веб-сайта, вам следует проверить ссылочный профиль. Улучшение ссылочного профиля — самый медленный и самый сложный способ оптимизации краулингового бюджета, но он очень полезен.

Обратите внимание, что мы говорим не только о внешних ссылках. Внутренние ссылки также ускоряют индексацию. Когда сканер поисковой системы получает ссылку на часто просматриваемой странице, новая страница будет проиндексирована быстрее.

То же самое касается ссылочного капитала, который передается по внутренним ссылкам. Чем больше ссылок ведет на страницу, тем выше ее важность для бота. Распределяйте ссылочный вес с умом.

страниц, ссылающихся на самих себя, «висячие узлы» и сиротские страницы

Эти ошибки напрямую связаны с внутренними ссылками и вызывают проблемы с индексированием и сканированием. К счастью, эти проблемы легко решить.

Самый простой пример ссылки на страницу — это цепочка навигации, которая указывает, где находится пользователь на сайте.Он не обязательно должен быть интерактивным — вы можете использовать его только для навигации по посетителям. Однако вы также можете просто избавиться от хлебных крошек — это не вызовет проблем с удобством использования.

«Висячий узел» — страница без исходящих ссылок. Он получает ссылочный вес, но не распределяет его. Это тупик для краулера поисковой системы, которому некуда деться со страницы. Обычно такие страницы не вызывают проблем, но их нужно проанализировать и по возможности внести коррективы.

Орфанные страницы представляют собой гораздо более серьезную проблему.Это страницы, которые не связаны ни с какими другими разделами сайта. К счастью, такие страницы очень редки в современных CMS. Например, страница не перечисляется в категориях, не является частью навигации сайта или, что еще хуже, сайт взломан, и злоумышленники разместили свой контент по внешним ссылкам.

Заставьте сканеры сканировать ваш сайт

Вы можете вручную влиять на процессы сканирования. Есть несколько способов сделать это.

Переиндексируйте страницы в панелях веб-мастеров.И Google, и Яндекс позволяют вручную заставлять сканеры сканировать измененные или новые URL-адреса. Самый большой недостаток процесса — долгое время выполнения (до 10 минут) в Google и ограничение в 20 URL в Яндекс.

Делайте репосты в социальных сетях. Да, все еще работает. Выберите социальную сеть, которую отслеживают и сканируют сканеры, и оставьте там свою ссылку. Не стесняйтесь пользоваться своим Твиттером или ВКонтакте.

Проверка журналов

Проверка журналов сервера позволяет узнать все о расписании веб-сканеров.Однако в некоторых случаях вы не сможете получить к ним доступ. Если у вас возникла такая проблема, вам лучше сменить хостинг.

Если у вас нет навыков администратора сервера, журнал вас наверняка напугает. Данных слишком много, и большая их часть бесполезна. Если ваш сайт небольшой, вы сможете работать с логами даже в Notepad ++. Однако попытка открыть журнал большого интернет-магазина может привести к сбою вашего компьютера. В этом случае вам следует использовать профессиональное программное обеспечение для сортировки и фильтрации данных.

Для анализа данных можно использовать настольное программное обеспечение, такое как GamutLogViewer или Screaming Frog Log File Analyzer. Существуют также онлайн-сервисы, такие как splunk.com. Помните, что онлайн-сервисы дороги и рассчитаны на большие объемы данных.

Есть проблема: не каждый GoogleBot, который вы найдете в журналах, на самом деле является GoogleBot. Вот почему вам следует проверить IP-адрес бота и использовать WHOIS для фильтрации фейков.

Ваша цель — обработать данные за достаточно большой период (оптимально месяц) и найти закономерности.Вы должны проверить следующие факторы:

  • Как часто сканер посещает ваш сайт?
  • Какие URL-адреса наиболее посещаются поисковыми роботами?
  • Какие URL-адреса игнорируются поисковыми роботами?
  • Возникли ли ошибки на веб-сайте?
  • Сканирует ли файл Sitemap?
  • Какие категории требуют больше всего ресурсов?

Получив эти данные, вы узнаете, нравятся ли сканерам поисковых систем ваши целевые страницы и почему.Например, вы можете обнаружить, что поисковый робот предпочитает информационный раздел вашего сайта. Это легко объяснить: у этого раздела сайта наибольшее количество внутренних ссылок

Заключение

Оптимизация краулингового бюджета — один из наиболее важных аспектов технического SEO. Слишком маленький предел скорости сканирования снижает эффективность продвижения. После внесения изменений вы ждете изменения рейтинга. Как убедиться, что они приняли меры, которые сработали, даже если нет динамики?

Если ваш сайт семантически структурирован, хорош с технической точки зрения и не очень большой, то вам даже не нужно беспокоиться о своем краулинговом бюджете.Однако небольшие улучшения в любом случае пойдут вам на пользу, поэтому вам следует потратить некоторое время, чтобы проверить свой веб-сайт и внести необходимые изменения.

Robots.txt — Все, что нужно знать оптимизаторам поисковых систем

В этом разделе нашего руководства по директивам для роботов мы более подробно рассмотрим текстовый файл robots.txt и то, как его можно использовать для инструктирования поисковой системе в Интернете. краулеры. Этот файл особенно полезен для управления бюджетом сканирования и проверки того, что поисковые системы проводят время на вашем сайте эффективно и сканируют только важные страницы.

Для чего используется txt-файл robots?

Файл robots.txt предназначен для того, чтобы сообщить сканерам и роботам, какие URL-адреса им не следует посещать на вашем веб-сайте. Это важно, чтобы помочь им избежать сканирования страниц низкого качества или застревания в ловушках сканирования, где потенциально может быть создано бесконечное количество URL-адресов, например, раздел календаря, который создает новый URL-адрес для каждого дня.

Как объясняет Google в своем руководстве по спецификациям robots.txt , формат файла должен быть простым текстом в кодировке UTF-8.Записи (или строки) файла должны быть разделены CR, CR / LF или LF.

Следует помнить о размере файла robots.txt, поскольку поисковые системы имеют свои собственные ограничения на максимальный размер файла. Максимальный размер для Google — 500 КБ.

Где должен находиться файл robots.txt?

Файл robots.txt всегда должен существовать в корне домена, например:

Этот файл относится к протоколу и полному домену, поэтому robots.txt на https: // www.example.com не влияет на сканирование https://www.example.com или https://subdomain.example.com ; у них должны быть собственные файлы robots.txt.

Когда следует использовать правила robots.txt?

В общем, веб-сайты должны стараться как можно реже использовать robots.txt для контроля сканирования. Лучшее решение — улучшить архитектуру вашего веб-сайта и сделать его чистым и доступным для поисковых роботов. Однако с помощью robots.txt, если это необходимо для предотвращения доступа сканеров к некачественным разделам сайта, рекомендуется, если эти проблемы не могут быть устранены в краткосрочной перспективе.

Google рекомендует использовать файл robots.txt только при возникновении проблем с сервером или при проблемах с эффективностью сканирования, например, когда робот Google тратит много времени на сканирование неиндексируемых разделов сайта.

Вот несколько примеров страниц, сканирование которых может быть нежелательно:

  • Страницы категорий с нестандартной сортировкой , так как это обычно создает дублирование со страницей основной категории
  • Пользовательский контент , который нельзя модерировать
  • Страницы с конфиденциальной информацией
  • Внутренние поисковые страницы , так как таких страниц результатов может быть бесконечное количество, что создает неудобства для пользователей и расходует бюджет сканирования

Когда нельзя использовать robots.текст?

Файл robots.txt — полезный инструмент при правильном использовании, однако в некоторых случаях это не лучшее решение. Вот несколько примеров того, когда не следует использовать robots.txt для управления сканированием:

1. Блокировка Javascript / CSS

Поисковые системы должны иметь доступ ко всем ресурсам на вашем сайте, чтобы правильно отображать страницы, что является необходимой частью поддержания хорошего рейтинга. Файлы JavaScript, которые кардинально меняют взаимодействие с пользователем, но запрещены для сканирования поисковыми системами, могут привести к ручным или алгоритмическим штрафам.

Например, если вы показываете рекламное межстраничное объявление или перенаправляете пользователей с помощью JavaScript, к которому поисковая система не может получить доступ, это может рассматриваться как маскировка, и рейтинг вашего контента может быть соответствующим образом скорректирован.

2. Блокировка параметров URL

Вы можете использовать robots.txt для блокировки URL-адресов, содержащих определенные параметры, но это не всегда лучший способ действий. Лучше обрабатывать их в консоли поиска Google, поскольку там есть больше параметров для конкретных параметров, чтобы сообщить Google о предпочтительных методах сканирования.

Вы также можете поместить информацию во фрагмент URL ( / page # sort = price ), поскольку поисковые системы не сканируют его. Кроме того, если необходимо использовать параметр URL, ссылки на него могут содержать атрибут rel = nofollow, чтобы предотвратить попытки поисковых роботов получить к нему доступ.

3. Блокировка URL с обратными ссылками

Запрет URL-адресов в файле robots.txt предотвращает передачу ссылочного веса на веб-сайт. Это означает, что если поисковые системы не могут переходить по ссылкам с других веб-сайтов, поскольку целевой URL-адрес запрещен, ваш веб-сайт не получит авторитет, который передаются по этим ссылкам, и, как следствие, вы не сможете получить такой же высокий рейтинг в целом.

4. Получение деиндексированных проиндексированных страниц

Использование Disallow не приводит к деиндексированию страниц, и даже если URL-адрес заблокирован и поисковые системы никогда не сканировали страницу, запрещенные страницы все равно могут быть проиндексированы. Это связано с тем, что процессы сканирования и индексирования в значительной степени разделены.

5. Установка правил, игнорирующих поисковые роботы социальных сетей

Даже если вы не хотите, чтобы поисковые системы сканировали и индексировали страницы, вы можете захотеть, чтобы социальные сети имели доступ к этим страницам, чтобы можно было создать фрагмент страницы.Например, Facebook будет пытаться посетить каждую страницу, размещенную в сети, чтобы предоставить соответствующий фрагмент. Помните об этом при настройке правил robots.txt.

6. Блокировка доступа с тестовых или разработчиков сайтов

Использование robots.txt для блокировки всего промежуточного сайта — не лучшая практика. Google рекомендует не индексировать страницы, но разрешить их сканирование, но в целом лучше сделать сайт недоступным для внешнего мира.

7. Когда нечего блокировать

Некоторым веб-сайтам с очень чистой архитектурой не нужно блокировать поисковые роботы с каких-либо страниц.В этой ситуации совершенно приемлемо не иметь файла robots.txt и возвращать статус 404 по запросу.

Синтаксис и форматирование файла robots.txt

Теперь, когда мы узнали, что такое robots.txt и когда его следует и не следует использовать, давайте взглянем на стандартизированный синтаксис и правила форматирования, которых следует придерживаться при написании файла robots.txt.

Комментарии

Комментарии — это строки, которые полностью игнорируются поисковыми системами и начинаются с # .Они существуют, чтобы вы могли писать заметки о том, что делает каждая строка вашего robots.txt, почему она существует и когда была добавлена. В общем, рекомендуется задокументировать назначение каждой строки вашего файла robots.txt, чтобы ее можно было удалить, когда она больше не нужна, и не изменять, пока она все еще необходима.

Указание агента пользователя

Блок правил может быть применен к определенным пользовательским агентам с помощью директивы « User-agent ». Например, если вы хотите, чтобы определенные правила применялись к Google, Bing и Яндексу; но не Facebook и рекламные сети, этого можно достичь, указав токен пользовательского агента, к которому применяется набор правил.

У каждого поискового робота есть собственный токен агента пользователя, который используется для выбора совпадающих блоков.

Поисковые роботы

будут следовать наиболее конкретным правилам пользовательского агента, установленным для них, с именами, разделенными дефисами, а затем вернутся к более общим правилам, если точное совпадение не будет найдено. Например, Googlebot News будет искать соответствие « googlebot-news «, затем « googlebot «, затем « * «.

Вот некоторые из наиболее распространенных токенов пользовательских агентов, с которыми вы можете столкнуться:

  • * — Правила применяются к каждому боту, если нет более конкретного набора правил
  • Googlebot — Все сканеры Google
  • Googlebot-News — Поисковый робот для новостей Google
  • Googlebot-Image — сканер изображений Google
  • Mediapartners-Google — сканер Google AdSense
  • Bingbot — сканер Bing
  • Яндекс — поисковый робот Яндекса
  • Baiduspider — краулер Baidu
  • Facebot — поисковый робот Facebook
  • Twitterbot — поисковый робот Twitter

Этот список токенов пользовательских агентов ни в коем случае не является исчерпывающим, поэтому, чтобы узнать больше о некоторых сканерах, взгляните на документацию, опубликованную Google , Bing , Yandex , Baidu , Facebook и Twitter .

При сопоставлении токена пользовательского агента с блоком robots.txt регистр не учитывается. Например. «Googlebot» будет соответствовать токену пользовательского агента Google «Googlebot».

URL с сопоставлением с шаблоном

У вас может быть определенная строка URL-адреса, которую вы хотите заблокировать от сканирования, поскольку это намного эффективнее, чем включение полного списка полных URL-адресов, которые следует исключить в файле robots.txt.

Чтобы помочь вам уточнить пути URL-адресов, вы можете использовать символы * и $. Вот как они работают:

  • * — это подстановочный знак, представляющий любое количество любого символа.Он может быть в начале или в середине пути URL, но не обязателен в конце. Вы можете использовать несколько подстановочных знаков в строке URL-адреса, например, « Disallow: * / products? * Sort = ». Правила с полными путями не должны начинаться с подстановочного знака.
  • $ — этот символ обозначает конец строки URL-адреса, поэтому « Disallow: * / dress $ » будет соответствовать только URL-адресам, оканчивающимся на « / dress », но не « / dress? Параметр ».

Стоит отметить, что robots.txt чувствительны к регистру, что означает, что если вы запретите URL-адреса с параметром « search » (например, « Disallow: *? search = »), роботы все равно могут сканировать URL-адреса с разными заглавными буквами, например «? Search = ничего ».

Правила директивы сопоставляются только с путями URL и не могут включать протокол или имя хоста. Косая черта в начале директивы совпадает с началом пути URL. Например. « Disallow: / start » будет соответствовать www.example.com/starts .

Если вы не добавите начало директивы, совпадающей с / или * , она ни с чем не будет соответствовать. Например. « Disallow: start » никогда ничего не будет соответствовать.

Чтобы помочь наглядно представить, как работают разные правила для URL, мы собрали для вас несколько примеров:

Robots.txt Ссылка на карту сайта

Директива карты сайта в файле robots.txt сообщает поисковым системам, где найти карту сайта XML, которая помогает им обнаруживать все URL-адреса на веб-сайте.Чтобы узнать больше о файлах Sitemap, ознакомьтесь с нашим руководством по аудиту файлов Sitemap и расширенной настройке .

При включении файлов Sitemap в файл robots.txt следует использовать абсолютные URL-адреса (например, https://www.example.com/sitemap.xml ) вместо относительных URL (например, /sitemap.xml ). Это также Стоит отметить, что карты сайта не обязательно должны находиться в одном корневом домене, они также могут размещаться во внешнем домене.

Поисковые системы обнаружат и могут сканировать карты сайта, указанные в вашем файле robots.txt, однако эти карты сайта не будут отображаться в Google Search Console или Bing Webmaster Tools без отправки вручную.

Блоки Robots.txt

Правило запрета в файле robots.txt может использоваться разными способами для различных пользовательских агентов. В этом разделе мы рассмотрим некоторые из различных способов форматирования комбинаций блоков.

Важно помнить, что директивы в файле robots.txt — это всего лишь инструкции. Вредоносные сканеры проигнорируют ваших роботов.txt и сканировать любую часть вашего сайта, которая является общедоступной, поэтому запрет не следует использовать вместо надежных мер безопасности.

Несколько блоков пользовательского агента

Вы можете сопоставить блок правил с несколькими пользовательскими агентами, указав их перед набором правил, например, следующие запрещающие правила будут применяться как к Googlebot, так и к Bing в следующем блоке правил:

User-agent: googlebot
User-agent: bing
Disallow: / a

Расстояние между блоками директив

Google игнорирует пробелы между директивами и блоками.В этом первом примере будет выбрано второе правило, даже если есть пробел, разделяющий две части правила:

[код]
User-agent: *
Disallow: / disallowed /

Запретить: / test1 / robots_excluded_blank_line
[/ code]

Во втором примере робот Googlebot-mobile унаследует те же правила, что и Bingbot:

[код]
User-agent: googlebot-mobile

User-agent: bing
Disallow: / test1 / deepcrawl_excluded
[/ code]

Блоки раздельные комбинированные

Объединяются несколько блоков с одним и тем же пользовательским агентом.Таким образом, в приведенном ниже примере верхний и нижний блоки будут объединены, и роботу Googlebot будет запрещено сканировать « / b » и « / a ».

User-agent: googlebot
Disallow: / b

User-agent: bing
Disallow: / a

User-agent: googlebot
Disallow: / a

Robots.txt Разрешить

«Разрешающее» правило robots.txt явно дает разрешение на сканирование определенных URL. Хотя это значение по умолчанию для всех URL-адресов, это правило можно использовать для перезаписи запрещающего правила.Например, если « / location » не разрешено, вы можете разрешить сканирование « / locations / london » с помощью специального правила « Allow: / locations / london ».

Robots.txt Приоритизация

Когда к URL-адресу применяется несколько разрешающих и запрещающих правил, применяется самое длинное правило сопоставления. Давайте посмотрим, что произойдет с URL « / home / search / shirts » при следующих правилах:

Disallow: / home
Allow: * search / *
Disallow: * рубашки

В этом случае сканирование URL разрешено, поскольку правило разрешения содержит 9 символов, а правило запрета — только 7.Если вам нужно разрешить или запретить конкретный URL-путь, вы можете использовать *, чтобы сделать строку длиннее. Например:

Disallow: ******************* / рубашки

Если URL-адрес соответствует и разрешающему правилу, и запрещающему правилу, но правила имеют одинаковую длину, будет выполнено запрещение. Например, URL « / search / shirts » будет запрещен в следующем сценарии:

Disallow: / search
Allow: * рубашки

Роботы.txt Директивы

Директивы уровня страницы (которые мы рассмотрим позже в этом руководстве) — отличные инструменты, но проблема с ними заключается в том, что поисковые системы должны сканировать страницу, прежде чем смогут прочитать эти инструкции, что может потребовать бюджета сканирования.

Директивы Robots.txt могут помочь снизить нагрузку на бюджет сканирования, поскольку вы можете добавлять директивы непосредственно в файл robots.txt, а не ждать, пока поисковые системы просканируют страницы, прежде чем принимать меры. Это решение намного быстрее и проще в использовании.

Следующие директивы robots.txt работают так же, как директивы allow и disallow, в том, что вы можете указать подстановочные знаки ( * ) и использовать символ $ для обозначения конца строки URL.

Robots.txt NoIndex

Robots.txt noindex — полезный инструмент для управления индексированием поисковой системы без использования краулингового бюджета. Запрещение страницы в robots.txt не означает, что она удаляется из индекса, поэтому для этой цели гораздо эффективнее использовать директиву noindex.

Google официально не поддерживает noindex в robots.txt, и вам не следует полагаться на него, потому что, хотя он работает сегодня, он может не работать завтра. Этот инструмент может быть полезен и должен использоваться в качестве краткосрочного исправления в сочетании с другими долгосрочными элементами управления индексами, но не в качестве критически важной директивы. Взгляните на тесты, проведенные ohgm и Stone Temple , которые оба доказывают, что функция работает эффективно.

Вот пример использования роботов.txt noindex:

[код]
Агент пользователя: *
NoIndex: / directory
NoIndex: / *? * Sort =
[/ code]

Помимо noindex, Google в настоящее время неофициально подчиняется нескольким другим директивам индексирования, когда они помещаются в robots.txt. Важно отметить, что не все поисковые системы и сканеры поддерживают эти директивы, а те, которые поддерживают, могут перестать поддерживать их в любой момент — не следует полагаться на их постоянную работу.

Обычные роботы.txt, проблемы

Есть несколько ключевых проблем и соображений, касающихся файла robots.txt и его влияния на производительность сайта. Мы нашли время, чтобы перечислить некоторые ключевые моменты, которые следует учитывать при использовании robots.txt, а также некоторые из наиболее распространенных проблем, которых вы, надеюсь, можете избежать.

  1. Имейте запасной блок правил для всех ботов — Использование блоков правил для определенных строк пользовательского агента без резервного блока правил для каждого другого бота означает, что ваш сайт в конечном итоге встретит бота, у которого нет никаких наборов правил для следить.
  2. I t Важно, чтобы файл robots.txt поддерживался в актуальном состоянии. — Относительно распространенная проблема возникает, когда файл robots.txt устанавливается на начальном этапе разработки веб-сайта, но не обновляется по мере роста веб-сайта, а это означает, что потенциально полезные страницы запрещены.
  3. Помните о перенаправлении поисковых систем через запрещенные URL-адреса — Например, / продукт > / запрещено > / категория
  4. Чувствительность к регистру может вызвать множество проблем — Веб-мастера могут ожидать, что какой-то раздел веб-сайта не будет сканироваться, но эти страницы могут сканироваться из-за альтернативного регистра i.е. «Disallow: / admin» существует, но поисковые системы сканируют « / ADMIN ».
  5. Не запрещать URL-адреса с обратными ссылками — Это предотвращает переход PageRank на ваш сайт от других пользователей, которые ссылаются на вас.
  6. Задержка сканирования может вызвать проблемы с поиском — Директива « crawl-delay » заставляет сканеры посещать ваш веб-сайт медленнее, чем им хотелось бы, а это означает, что ваши важные страницы могут сканироваться реже, чем это необходимо. Эта директива не соблюдается Google или Baidu, но поддерживается Bing и Яндексом.
  7. Убедитесь, что robots.txt возвращает код состояния 5xx только в том случае, если весь сайт не работает. — Возвращение кода состояния 5xx для /robots.txt указывает поисковым системам, что веб-сайт закрыт на техническое обслуживание. Обычно это означает, что они попытаются сканировать веб-сайт еще раз позже.
  8. Disallow Robots.txt переопределяет инструмент удаления параметров. — Помните, что ваши правила robots.txt могут переопределять обработку параметров и любые другие подсказки по индексации, которые вы могли дать поисковым системам.
  9. Разметка окна поиска дополнительных ссылок будет работать с заблокированными страницами внутреннего поиска — Страницы внутреннего поиска на сайте не должны сканироваться, чтобы разметка окна поиска дополнительных ссылок работала.
  10. Запрещение перенесенного домена повлияет на успех миграции — Если вы запретите перенесенный домен, поисковые системы не смогут отслеживать какие-либо перенаправления со старого сайта на новый, поэтому миграция маловероятна. быть успешным.

Роботы для тестирования и аудита.txt

Учитывая, насколько опасным может быть файл robots.txt, если директивы внутри него не обрабатываются должным образом, есть несколько различных способов проверить его, чтобы убедиться, что он настроен правильно. Взгляните на это руководство о том, как проверять URL-адреса, заблокированные файлом robots.txt , а также на эти примеры:

  • Используйте DeepCrawl Запрещенные страницы и Запрещенные URL (не просканированные) Отчеты могут показать вам, какие страницы блокируются поисковыми системами вашими роботами.txt файл.
  • Используйте Google Search Console — с помощью инструмента тестера robots.txt GSC вы можете просматривать последнюю кэшированную версию страницы, а также использовать инструмент Fetch and Render для просмотра рендеров от пользовательского агента Googlebot, а также пользовательский агент браузера. На заметку: GSC работает только с пользовательскими агентами Google, и можно тестировать только отдельные URL-адреса.
  • Попробуйте объединить данные обоих инструментов, выбрав выборочную проверку запрещенных URL-адресов, которые DeepCrawl пометил в роботах GSC.txt tester, чтобы уточнить конкретные правила, которые приводят к запрету.

Monitoring Robots.txt Изменения

Когда над сайтом работает много людей и возникают проблемы, если хотя бы один символ неуместен в файле robots.txt, постоянный мониторинг вашего robots.txt имеет решающее значение. Вот несколько способов проверить наличие проблем:

  • Проверьте Google Search Console, чтобы увидеть текущие robots.txt, который использует Google. Иногда robots.txt может быть доставлен условно на основе пользовательских агентов, поэтому это единственный способ увидеть, что именно видит Google.
  • Проверьте размер файла robots.txt, если вы заметили значительные изменения, чтобы убедиться, что он не превышает установленный Google предел в 500 КБ.
  • Перейдите к отчету о статусе индекса в Google Search Console в расширенном режиме, чтобы проверить изменения файла robots.txt с количеством запрещенных и разрешенных URL-адресов на вашем сайте.
  • Запланируйте регулярное сканирование с помощью DeepCrawl, чтобы отслеживать количество запрещенных страниц на вашем сайте на постоянной основе, чтобы вы могли отслеживать изменения.

Далее: Директивы по роботам на уровне URL

Автор

Рэйчел Костелло

Рэйчел Костелло — технический менеджер по поисковой оптимизации и контенту DeepCrawl. Чаще всего она пишет и говорит обо всем, что касается SEO.

Что делать NOINDEX?

Ладно, кому-то этот пост будет колоссально скучен. Но я хотел дать вам возможность взглянуть на дебаты за кулисами в группе качества поиска Google.Вот обсуждение политики NOINDEX и того, как Google должен обрабатывать метатег NOINDEX. Во-первых, вы хотите прочитать этот пост о том, как Google обрабатывает метатег NOINDEX. Вы также можете посмотреть это видео о том, как удалить свой контент из Google или вообще предотвратить его индексирование. Вот вывод из моего предыдущего сообщения в блоге:

Таким образом, исходя из размера выборки в одну страницу, похоже, что поисковые системы обрабатывают метатег «NOINDEX»:
— Google никак не отображает страницу
— Ask никак не отображает страницу
— MSN показывает ссылку на URL и кешированную ссылку, но без фрагмента.Нажатие на кешированную ссылку ничего не возвращает.
— Yahoo! показывает ссылку на URL и кешированную ссылку, но без фрагмента. Щелчок по кэшированной ссылке возвращает кешированную страницу.

Вопрос в том, следует ли Google полностью исключать страницу с NOINDEX из результатов поиска или показывать ссылку на страницу или что-то среднее между ними? Приведу аргументы по каждому:

Полностью удалить страницу NOINDEX

Так мы поступаем последние несколько лет, и веб-мастера к этому привыкли.Мета-тег NOINDEX дает хороший способ — по сути, один из немногих — полностью удалить все следы сайта из Google (другой способ — наш инструмент для удаления URL-адресов). Это невероятно полезно для веб-мастеров. Единственный угловой случай заключается в том, что если Google видит ссылку на страницу A, но на самом деле не сканирует страницу, мы не узнаем, что страница A имеет тег NOINDEX, и можем показать страницу как непросканированный URL. Для этого есть интересное средство: в настоящее время Google разрешает директиву NOINDEX в файле robots.txt, которая полностью удаляет все совпадающие URL-адреса сайтов из Google.(Это поведение, конечно, может измениться в результате обсуждения политики, поэтому мы мало говорили об этом.)

Веб-мастера иногда стреляют себе в ногу, используя NOINDEX, но если посещаемость сайта из Google очень низкая, веб-мастер будет заинтересован в диагностике проблемы самостоятельно. Кроме того, мы могли бы добавить проверку NOINDEX в консоль для веб-мастеров, чтобы помочь веб-мастерам самостоятельно диагностировать, удалили ли они свой собственный сайт с помощью NOINDEX. Мета-тег NOINDEX выполняет полезную роль, отличную от robots.txt, а тег находится достаточно далеко от проторенного пути, поэтому мало кто использует тег NOINDEX по ошибке.

Показать ссылку / отсылку на страницы NOINDEX

Наш высший долг — перед нашими пользователями, а не перед отдельным веб-мастером. Когда пользователь выполняет навигационный запрос, а мы не возвращаем нужную ссылку из-за тега NOINDEX, это ухудшает взаимодействие с пользователем (плюс это похоже на проблему Google). Если веб-мастер действительно хочет, чтобы его не было в Google, он может использовать инструмент удаления URL-адресов Google.Цифры небольшие, но мы определенно видим, что некоторые сайты случайно удаляются из Google. Например, если веб-мастер добавляет метатег NOINDEX для завершения сайта, а затем забывает удалить этот тег, сайт не будет отображаться в Google, пока веб-мастер не поймет, в чем проблема. Кроме того, недавно мы увидели, как несколько популярных корейских сайтов не возвращаются в Google, потому что все они имеют метатег NOINDEX. Если громкие сайты вроде

— http://www.police.go.kr/main/index.do (Национальное полицейское агентство Кореи)
— http: // www.nmc.go.kr/ (Национальный медицинский центр Кореи)
— http://www.yonsei.ac.kr/ (Университет Йонсей)

не отображаются в Google из-за метатега NOINDEX, что плохо для пользователей (и, следовательно, для Google).

Некоторая золотая середина между

Подавляющее большинство веб-мастеров, использующих NOINDEX, делают это намеренно и правильно используют метатег (например, для припаркованных доменов, которые они не хотят отображать в Google). Больше всего пользователей обескураживает, когда они ищут известный сайт и не могут его найти.Что, если бы Google по-другому относился к NOINDEX, если бы сайт был хорошо известен? Например, если сайт находился в открытом каталоге, то показывать ссылку на страницу, даже если сайт использовал метатег NOINDEX. В противном случае вообще не показывать сайт. Большинство веб-мастеров могут удалить свой сайт из Google, но Google по-прежнему будет возвращать сайты с более высоким профилем, когда пользователи будут искать их.

Как вы думаете?

Это внутреннее обсуждение, которое мы вели по поводу метатегов NOINDEX.Теперь мне любопытно, что вы думаете. Вот опрос:

{демократия: 6}

Мне также были бы интересны (конструктивные) предложения в комментариях о том, как Google должен обрабатывать метатег NOINDEX. Прежде чем оставлять комментарий, постарайтесь занять место как обычного пользователя, так и владельца сайта.

критических ошибок в вашем файле robots.txt нарушат ваш рейтинг, и вы даже не узнаете об этом

Использование файла robots.txt давно обсуждается веб-мастерами, поскольку он может оказаться сильным инструментом, если он хорошо написан или с его помощью можно прострелить себе ногу.В отличие от других концепций SEO, которые можно считать более абстрактными и для которых у нас нет четких рекомендаций, файл robots.txt полностью задокументирован Google и другими поисковыми системами.

Вам нужен файл robots.txt только , если у вас есть определенные части вашего веб-сайта, которые вы не хотите индексировать, и / или вам нужно блокировать или управлять различными сканерами.

* спасибо Ричарду за исправление текста выше.(см. комментарии для получения дополнительной информации) Что важно понимать в случае файла robots, так это тот факт, что он не служит законом для выполнения поисковыми роботами, это скорее указатель с несколькими указателями. Соблюдение этих рекомендаций может привести к более быстрой и лучшей индексации поисковыми системами, а ошибки, скрывающие важный контент от поисковых роботов, в конечном итоге приведут к потере трафика и проблемам с индексацией.

История Robots.txt

Мы уверены, что большинство из вас знакомы с роботами.txt, но на тот случай, если вы слышали об этом некоторое время назад и с тех пор о нем забыли, Стандарты исключения роботов, как они официально известны, — это способ взаимодействия веб-сайта с поисковыми роботами или другими веб-роботами. По сути, это текстовый файл, содержащий короткие инструкции, направляющие поисковые роботы к определенным частям веб-сайта или прочь от них. Обычно роботов обучают искать этот документ, когда они заходят на веб-сайт и подчиняются его директивам. Некоторые роботы не соответствуют этому стандарту, например роботы-сборщики электронной почты, спам-боты или вредоносные программы, у которых не самые лучшие намерения, когда они попадают на ваш веб-сайт.

Все началось в начале 1994 года, когда Мартин Костер создал веб-краулер, который вызвал серьезный случай DDOS на его серверах. В ответ на это был создан стандарт, который направляет поисковые роботы и блокирует их доступ к определенным областям. С тех пор файл robots эволюционировал, содержит дополнительную информацию и имеет еще несколько применений, но мы вернемся к этому позже.

Насколько важен Robots.txt для вашего сайта?

Чтобы лучше понять это, подумайте о роботах.txt в качестве путеводителя для сканеров и ботов. Он переносит посетителей, не являющихся людьми, в удивительные области сайта, где находится контент, и показывает им, что важно, а что не должно индексироваться. Все это делается с помощью нескольких строк в формате файла txt. Наличие опытного гида-робота может увеличить скорость индексации веб-сайта, сократив время, которое роботы просматривают по строкам кода, чтобы найти контент, который пользователи ищут в поисковой выдаче.

За все время в файл роботов была включена дополнительная информация, которая помогает веб-мастерам быстрее сканировать и индексировать свои веб-сайты.

В настоящее время большинство файлов robots.txt содержат адрес sitemap.xml, который увеличивает скорость сканирования ботов. Нам удалось найти файлы роботов, содержащие объявления о найме на работу, оскорбляющие чувства людей и даже инструкции по обучению роботов, когда они начинают стесняться. Имейте в виду, что даже несмотря на то, что файл robots предназначен исключительно для роботов, он по-прежнему общедоступен для всех, кто создает /robots.txt для вашего домена. Пытаясь скрыть от поисковых систем личную информацию, вы просто показываете URL всем, кто открывает файл robots.

Как проверить файл robots.txt

Первое, что нужно сделать после того, как у вас есть файл robots, — это убедиться, что он хорошо написан, и проверить на наличие ошибок. Одна ошибка может нанести и причинит вам большой вред, поэтому после того, как вы заполнили файл robots.txt, проявите особую осторожность при проверке любых ошибок в нем. Большинство поисковых систем предоставляют свои собственные инструменты для проверки файлов robots.txt и даже позволит вам увидеть, как сканеры видят ваш сайт.

Инструменты Google для веб-мастеров предлагают роботов.txt Tester, инструмент, который сканирует и анализирует ваш файл. Как вы можете видеть на изображении ниже, вы можете использовать тестер роботов GWT, чтобы проверить каждую строку и увидеть каждого сканера и его доступ к вашему веб-сайту. Инструмент отображает дату и время, когда робот Googlebot загрузил файл роботов с вашего веб-сайта, обнаруженный HTML-код, а также области и URL-адреса, к которым у него не было доступа. Любые ошибки, обнаруженные тестером, необходимо исправить, поскольку они могут привести к проблемам с индексацией вашего сайта, и ваш сайт не может отображаться в поисковой выдаче.

Инструмент, предоставляемый Bing, отображает данные в том виде, в каком их видит BingBot. При загрузке как Bingbot даже ваши HTTP-заголовки и источники страниц отображаются так, как они выглядят для Bingbot. Это отличный способ узнать, действительно ли ваш контент виден поисковому роботу и не скрыт ли он по ошибке в файле robots.txt. Более того, вы можете проверить каждую ссылку, добавив ее вручную, и если тестировщик обнаружит какие-либо проблемы с ней, он отобразит строку в вашем файле robots, которая ее блокирует.

Не торопитесь и внимательно проверяйте каждую строку файла robots. Это первый шаг в создании хорошо написанного файла robots, и с инструментами, имеющимися в вашем распоряжении, вам действительно нужно очень постараться, чтобы сделать здесь какие-либо ошибки. Большинство поисковых систем предоставляют опцию «получить как * бот», поэтому после того, как вы проверили файл robots.txt самостоятельно, обязательно прогоните его через предоставленные автоматические тестеры.

Убедитесь, что вы не исключаете важные страницы из индекса Google

Наличие проверенного робота.txt недостаточно, чтобы у вас был отличный файл robots. Мы не можем достаточно подчеркнуть это, но наличие одной строчки в ваших роботах, которая блокирует сканирование важной части содержания вашего сайта, может навредить вам. Поэтому, чтобы убедиться, что вы не исключили важные страницы из индекса Google, вы можете использовать те же инструменты, которые вы использовали для проверки файла robots.txt.

Загрузите веб-сайт как бот и перейдите по нему, чтобы убедиться, что вы не исключили важный контент.

Перед тем, как вставлять страницы, которые будут исключены из поля зрения ботов, убедитесь, что они находятся в следующем списке элементов, которые мало или не представляют никакой ценности для поисковых систем:

  • Кодовые и скриптовые страницы
  • Частные страницы
  • Временные страницы
  • Любая страница, которую вы считаете бесполезной для пользователя.

Мы рекомендуем, чтобы у вас был четкий план и видение при создании архитектуры веб-сайта, чтобы вам было проще запретить папки, не представляющие ценности для поисковых роботов.

Как отслеживать несанкционированные изменения в вашем файле robots.txt

Теперь все готово, файл robots.txt заполнен, проверен, и вы убедились, что у вас нет ошибок или важных страниц, исключенных из сканирования Google. Следующий шаг — убедиться, что никто не вносит никаких изменений в документ без вашего ведома.Речь идет не только об изменениях в файле, вам также необходимо знать обо всех ошибках, возникающих при использовании документа robots.txt.

1. Уведомления об обнаружении изменений — бесплатный инструмент

Первый инструмент, который мы хотим порекомендовать, — это changedetection.com. Этот полезный инструмент отслеживает любые изменения, внесенные на страницу, и автоматически отправляет электронное письмо, когда обнаруживает их. Первое, что вам нужно сделать, это вставить адрес robots.txt и адрес электронной почты, на который вы хотите получать уведомления. На следующем шаге вы можете настроить свои уведомления.Вы можете изменять частоту уведомлений и устанавливать предупреждения только в том случае, если были изменены определенные ключевые слова из файла.

2. Уведомления Инструментов Google для веб-мастеров

Инструменты Google для веб-мастеров предоставляют дополнительный инструмент оповещения. Разница в использовании этого инструмента заключается в том, что он работает, отправляя вам уведомления о любой ошибке в вашем коде каждый раз, когда поисковый робот достигает вашего веб-сайта. Ошибки Robots.txt также отслеживаются, и вы будете получать электронное письмо каждый раз, когда возникает проблема.Вот подробное руководство по настройке оповещений Инструментов Google для веб-мастеров.

3. Уведомления об ошибках HTML — бесплатный и платный инструмент

Чтобы не выстрелить себе в ногу при создании файла robots.txt, должны отображаться только эти коды ошибок html.

  • Код 200 в основном означает, что страница была найдена и прочитана;

  • Коды 403 и 404 означают, что страница не была найдена, и, следовательно, боты будут думать, что у вас нет роботов.txt файл. Это заставит ботов сканировать весь ваш сайт и соответствующим образом проиндексировать его.

Инструмент SiteUptime периодически проверяет ваш URL-адрес robots.txt и может мгновенно уведомить вас, если обнаружит нежелательные ошибки. Критическая ошибка, которую вы хотите отслеживать, — это ошибка 503.

Ошибка 503 указывает на наличие ошибки на стороне сервера, и если робот обнаружит ее, ваш веб-сайт не будет сканироваться вообще.

Инструменты Google для веб-мастеров также обеспечивают постоянный мониторинг и показывают временную шкалу каждого раза, когда был получен файл роботов.На диаграмме Google отображает ошибки, обнаруженные при чтении файла; мы рекомендуем вам время от времени просматривать его, чтобы проверять, не отображаются ли в нем какие-либо другие ошибки, кроме перечисленных выше. Как мы видим ниже, инструменты Google для веб-мастеров предоставляют диаграмму с подробным описанием частоты получения роботом Googlebot файла robots.txt, а также любых ошибок, с которыми он столкнулся при его загрузке.

Критические, но распространенные ошибки

1. Блокирование файлов CSS или изображений при сканировании Google

В октябре прошлого года Google заявил, что запрет на использование CSS, Javascript и даже изображений (мы написали об этом интересную статью) учитывается в общем рейтинге вашего сайта.Алгоритм Google становится все лучше и лучше, и теперь он может читать код CSS и JS вашего веб-сайта и делать выводы о том, насколько полезен контент для пользователя. Блокирование этого контента в файле robots может причинить вам некоторый вред и не позволит вам занять такое высокое место, как вам, вероятно, следовало бы.

2. Неправильное использование подстановочных знаков может деиндексировать ваш сайт

Подстановочные знаки, такие как «*» и «$», являются допустимым вариантом для блокировки пакетов URL-адресов, которые, по вашему мнению, не представляют ценности для поисковых систем.Большинство больших роботов поисковых систем наблюдают и подчиняются, используя его в файле robots.txt. Кроме того, это хороший способ заблокировать доступ к некоторым глубоким URL-адресам, не перечисляя их все в файле robots.

Итак, если вы хотите заблокировать, скажем, URL-адреса с расширением PDF, вы можете записать строку в своем файле роботов с помощью User-agent: googlebot

Disallow: /*.pdf$

Подстановочный знак * представляет все доступные ссылки, оканчивающиеся на .pdf, а знак $ закрывает расширение.Подстановочный знак $ в конце расширения сообщает ботам, что сканировать не следует только URL-адреса, оканчивающиеся на pdf, в то время как любой другой URL-адрес, содержащий слово «pdf» (например, pdf.txt), должен сканироваться.

Снимок экрана с сайта developers.google.com

* Примечание. Как и любой другой URL-адрес, файл robots.txt чувствителен к регистру, поэтому примите это во внимание при написании файла.

Другие варианты использования Robots.txt

С момента своего первого появления файл robots.txt было обнаружено, что некоторые веб-мастера могут использовать его и в других целях. Давайте рассмотрим другие полезные способы использования этого файла.

1. Нанять крутых гиков Файл robotos.txt на сайте

Tripadvisor.com был преобразован в скрытый файл найма. Это интересный способ отфильтровать из группы только «самых увлеченных» и найти именно тех людей, которые подходят для вашей компании. Посмотрим правде в глаза, в настоящее время ожидается, что люди, которые заинтересованы в вашей компании, будут уделять дополнительное время изучению ее, но люди, которые даже ищут скрытые сообщения в ваших роботах.txt великолепны.

2. Не допустить проникновения краулеров на сайт

Еще одно применение файла robots — не дать этим надоедливым сканерам съесть всю полосу пропускания. Командная строка Crawl-delay может быть полезна, если на вашем веб-сайте много страниц. Например, если на вашем веб-сайте около 1000 страниц, поисковый робот может просканировать весь ваш сайт за несколько минут. Размещение в командной строке Crawl-delay: 30 скажет им, что нужно немного расслабиться, использовать меньше ресурсов, и ваш веб-сайт просканируется через пару часов вместо нескольких минут.

Мы не рекомендуем это использование, так как Google не принимает во внимание команду crawl-delay, поскольку в Инструментах Google для веб-мастеров есть встроенная функция настройки скорости сканирования. Использование функции задержки сканирования лучше всего подходит для других ботов, таких как Ask, Yandex и Bing.

3. Запретить конфиденциальную информацию

Запрет на конфиденциальную информацию — это палка о двух концах. Замечательно не разрешать Google доступ к конфиденциальной информации и показывать ее во фрагментах тем людям, которым вы не хотите иметь к ней доступ.Но главным образом потому, что не все роботы подчиняются командам robots.txt, некоторые сканеры все еще могут иметь к нему доступ. Точно так же, если человек с неправильными намерениями выполнит поиск в вашем файле robots.txt, он сможет быстро найти области веб-сайта, содержащие ценную информацию. Мы советуем использовать его с умом и проявлять особую осторожность с размещаемой там информацией и помнить, что не только роботы имеют доступ к файлу robots.txt.

Заключение

Это отличный случай, когда «большая сила дает большую ответственность», способность направлять робота Googlebot с помощью хорошо написанного файла робота является соблазнительной.Как указано ниже, наличие хорошо написанного файла robots дает большие преимущества, лучшую скорость сканирования, отсутствие бесполезного контента для поисковых роботов и даже сообщений о найме на работу. Просто имейте в виду, что одна маленькая ошибка может причинить вам много вреда. Создавая файл robots, чтобы иметь четкое изображение пути, по которому роботы идут на вашем сайте, запретите их использование на определенных частях вашего веб-сайта и не блокируйте важные области контента. Также следует помнить, что файл robots.txt не является законным хранителем, роботы не обязаны подчиняться ему, а некоторые роботы и сканеры даже не пытаются найти файл и просто сканируют весь ваш веб-сайт.

Все, что вам нужно знать

У вас больше контроля над поисковыми системами, чем вы думаете.

Это правда; вы можете управлять тем, кто сканирует и индексирует ваш сайт, вплоть до отдельных страниц. Чтобы контролировать это, вам нужно будет использовать файл robots.txt. Robots.txt — это простой текстовый файл, который находится в корневом каталоге вашего веб-сайта. Он сообщает роботам, которых отправляют поисковые системы, какие страницы сканировать, а какие игнорировать.

Хотя это не совсем универсальный инструмент, вы, вероятно, догадались, что это довольно мощный инструмент, который позволит вам представить свой веб-сайт в Google так, как вы хотите, чтобы они его увидели.Поисковые системы сурово разбираются в людях, поэтому очень важно произвести хорошее впечатление. При правильном использовании robots.txt может повысить частоту сканирования, что может повлиять на ваши усилия по поисковой оптимизации.

Итак, как его создать? Как Вы этим пользуетесь? Чего следует избегать? Прочтите этот пост, чтобы найти ответы на все эти вопросы.

Что такое файл Robots.txt?

Раньше, когда Интернет был всего лишь ребенком с детским лицом, способным творить великие дела, разработчики изобрели способ сканирования и индексации новых страниц в сети.Они назвали их «роботами» или «пауками».

Иногда эти маленькие ребята забредали на веб-сайты, которые не были предназначены для сканирования и индексации, например, на сайты, находящиеся на техническом обслуживании. Создатель первой в мире поисковой системы Aliweb порекомендовал решение — своего рода дорожную карту, которой должен следовать каждый робот.

Эта дорожная карта была завершена в июне 1994 года группой технически подкованных в Интернете специалистов под названием «Протокол исключения роботов».

Файл robots.txt является исполнением этого протокола.В протоколе изложены правила, которым должен следовать каждый настоящий робот, включая ботов Google. Некоторые незаконные роботы, такие как вредоносное ПО, шпионское ПО и т. Д., По определению, действуют вне этих правил.

Вы можете заглянуть за кулисы любого веб-сайта, введя любой URL-адрес и добавив в конце: /robots.txt.

Например, вот версия POD Digital:

Как видите, не обязательно иметь файл, состоящий только из песен и танцев, поскольку наш веб-сайт относительно небольшой.

Где найти файл Robots.txt

Ваш файл robots.txt будет храниться в корневом каталоге вашего сайта. Чтобы найти его, откройте свою FTP cPanel, и вы сможете найти файл в каталоге вашего веб-сайта public_html.

В этих файлах нет ничего, чтобы они не были здоровенными — вероятно, всего несколько сотен байт, если это так.

Как только вы откроете файл в текстовом редакторе, вас встретит что-то вроде этого:

Если вы не можете найти файл во внутренней работе вашего сайта, вам придется создать свой собственный.

Как собрать файл Robots.txt

Robots.txt — это очень простой текстовый файл, поэтому его действительно просто создать. Все, что вам понадобится, это простой текстовый редактор, например Блокнот. Откройте лист и сохраните пустую страницу как robots.txt.

Теперь войдите в свою cPanel и найдите папку public_html, чтобы получить доступ к корневому каталогу сайта. Как только он откроется, перетащите в него свой файл.

Наконец, вы должны убедиться, что вы установили правильные разрешения для файла.В основном, как владелец, вам нужно будет писать, читать и редактировать файл, но никакие другие стороны не должны иметь права делать это.

Файл должен отображать код разрешения «0644».

Если нет, вам нужно будет изменить это, поэтому щелкните файл и выберите «Разрешение файла».

Вуаля! У вас есть файл Robots.txt.

Robots.txt Синтаксис

Файл robots.txt состоит из нескольких разделов «директив», каждый из которых начинается с указанного пользовательского агента.Пользовательский агент — это имя конкретного робота-обходчика, с которым обращается код.

Доступны два варианта:

  1. Вы можете использовать подстановочный знак для одновременного обращения ко всем поисковым системам.
  2. Вы можете обращаться к конкретным поисковым системам индивидуально.

Когда бот развернут для сканирования веб-сайта, он будет привлечен к блокам, которые обращаются к нему.

Вот пример:

Директива пользователя-агента

Первые несколько строк в каждом блоке — это «пользовательский агент», который определяет конкретного бота.Пользовательский агент будет соответствовать определенному имени бота, например:

Итак, если вы хотите сказать роботу Google, что делать, например, начните с:

Пользовательский агент: Googlebot

Поисковые системы всегда пытаются чтобы определить конкретные директивы, которые наиболее к ним относятся.

Так, например, если у вас есть две директивы, одна для Googlebot-Video и одна для Bingbot. Бот, который поставляется вместе с пользовательским агентом Bingbot, будет следовать инструкциям. Тогда как бот «Googlebot-Video» пропустит это и отправится на поиски более конкретной директивы.

В большинстве поисковых систем есть несколько разных ботов, вот список самых распространенных.

Директива хоста

Директива хоста в настоящее время поддерживается только Яндексом, хотя некоторые предположения говорят, что Google ее поддерживает. Эта директива позволяет пользователю решить, отображать ли www. перед URL, использующим этот блок:

Хост: poddigital.co.uk

Поскольку Яндекс является единственным подтвержденным сторонником директивы, полагаться на нее не рекомендуется.Вместо этого 301 перенаправляет имена хостов, которые вам не нужны, на те, которые вам нужны.

Disallow Directive

Мы рассмотрим это более конкретно чуть позже.

Вторая строка в блоке директив — Disallow. Вы можете использовать это, чтобы указать, какие разделы сайта не должны быть доступны ботам. Пустое запрещение означает, что это является бесплатным для всех, и боты могут угождать себе, где они делают, а где не ходят.

Директива карты сайта (XML-карты сайта)

Использование директивы карты сайта сообщает поисковым системам, где найти карту сайта в формате XML.

Однако, вероятно, наиболее полезным было бы отправить каждый из них в специальные инструменты для веб-мастеров поисковых систем. Это потому, что вы можете узнать много ценной информации от каждого о своем веб-сайте.

Однако, если у вас мало времени, директива карты сайта является жизнеспособной альтернативой.

Директива о задержке сканирования

Yahoo, Bing и Яндекс могут быть немного счастливы, когда дело доходит до сканирования, но они действительно реагируют на директиву задержки сканирования, которая удерживает их на некоторое время.

Применение этой строки к вашему блоку:

Crawl-delay: 10

означает, что вы можете заставить поисковые системы ждать десять секунд перед сканированием сайта или десять секунд, прежде чем они повторно получат доступ к сайту после сканирования — в основном это то же самое, но немного отличается в зависимости от поисковой системы.

Зачем использовать Robots.txt

Теперь, когда вы знаете об основах и о том, как использовать несколько директив, вы можете собрать свой файл. Однако следующий шаг будет зависеть от типа контента на вашем сайте.

Robots.txt не является важным элементом успешного веб-сайта; на самом деле, ваш сайт может нормально функционировать и хорошо ранжироваться и без него.

Однако есть несколько ключевых преимуществ, о которых вы должны знать, прежде чем отказываться от этого:
  • Укажите ботам, удаленным от личных папок : запрет ботам проверять ваши личные папки значительно усложнит их поиск и индексирование.

  • Держите ресурсы под контролем : Каждый раз, когда бот просматривает ваш сайт, он поглощает пропускную способность и другие ресурсы сервера.Для сайтов с тоннами контента и большим количеством страниц, например, на сайтах электронной коммерции могут быть тысячи страниц, и эти ресурсы могут быть истощены очень быстро. Вы можете использовать robots.txt, чтобы затруднить доступ ботам к отдельным скриптам и изображениям; это позволит сохранить ценные ресурсы для реальных посетителей.

  • Укажите местоположение вашей карты сайта : Это довольно важный момент, вы хотите, чтобы сканеры знали, где находится ваша карта сайта, чтобы они могли ее просканировать.

  • Держите дублированный контент подальше от результатов поиска : добавив правило к своим роботам, вы можете запретить поисковым роботам индексировать страницы, содержащие дублированный контент.

Вы, естественно, захотите, чтобы поисковые системы находили путь к наиболее важным страницам вашего веб-сайта. Вежливо ограничивая определенные страницы, вы можете контролировать, какие страницы будут отображаться для поисковиков (однако убедитесь, что никогда не блокирует полностью поисковые системы от просмотра определенных страниц).

Например, если мы посмотрим на файл роботов POD Digital, мы увидим, что этот URL:

poddigital.co.uk/wp-admin был запрещен.

Поскольку эта страница предназначена только для того, чтобы мы могли войти в панель управления, нет смысла позволять ботам тратить свое время и энергию на ее сканирование.

Noindex

В июле 2019 года Google объявил о прекращении поддержки директивы noindex, а также многих ранее неподдерживаемых и неопубликованных правил, на которые многие из нас ранее полагались.

Многие из нас решили поискать альтернативные способы применения директивы noindex, и ниже вы можете увидеть несколько вариантов, которые вы можете выбрать вместо этого:

  • Тег Noindex / Заголовок ответа HTTP Noindex: Этот тег может быть реализовано двумя способами: сначала в виде заголовка HTTP-ответа с тегом X-Robots-Tag или создания тега, который необходимо будет реализовать в разделе.

Ваш тег должен выглядеть так, как показано ниже:

СОВЕТ : помните, что если эта страница была заблокирована роботами.txt, поисковый робот никогда не увидит ваш тег noindex, и есть вероятность, что эта страница будет представлена ​​в результатах поиска.

  • Защита паролем: Google заявляет, что в большинстве случаев, если вы скрываете страницу за логином, ее следует удалить из индекса Google. Единственное исключение представлено, если вы используете разметку схемы, которая указывает, что страница связана с подпиской или платным контентом.

  • Код состояния HTTP 404 и 410: Коды состояния 404 и 410 представляют страницы, которые больше не существуют.После сканирования и полной обработки страницы со статусом 404/410 она должна автоматически удаляться из индекса Google.

Вам следует систематически сканировать свой веб-сайт, чтобы снизить риск появления страниц с ошибками 404 и 410, и при необходимости использовать переадресацию 301 для перенаправления трафика на существующую страницу.

  • Правило запрета в robots.txt: Добавив правило запрета для конкретной страницы в файл robots.txt, вы предотвратите сканирование страницы поисковыми системами.В большинстве случаев ваша страница и ее содержание не индексируются. Однако следует иметь в виду, что поисковые системы по-прежнему могут индексировать страницу на основе информации и ссылок с других страниц.

  • Инструмент удаления URL-адреса Search Console: Этот альтернативный корень не решает проблему индексации полностью, поскольку инструмент удаления URL-адреса Search Console удаляет страницу из результатов поиска на ограниченное время.

Однако это может дать вам достаточно времени, чтобы подготовить дальнейшие правила и теги роботов для полного удаления страниц из поисковой выдачи.

Инструмент удаления URL-адреса находится в левой части основной навигации в Google Search Console.

Noindex против Disallow

Многие из вас, вероятно, задаются вопросом, лучше ли использовать тег noindex или правило запрета в вашем файле robots.txt. В предыдущей части мы уже рассмотрели, почему правило noindex больше не поддерживается в robots.txt и других альтернативах.

Если вы хотите убедиться, что одна из ваших страниц не проиндексируется поисковыми системами, вам обязательно стоит взглянуть на метатег noindex.Он позволяет ботам получить доступ к странице, но тег позволит роботам узнать, что эта страница не должна индексироваться и не должна отображаться в поисковой выдаче.

Правило запрета может быть не так эффективно, как тег noindex в целом. Конечно, добавляя его в robots.txt, вы блокируете сканирование вашей страницы ботами, но если упомянутая страница связана с другими страницами внутренними и внешними ссылками, боты все равно могут индексировать эту страницу на основе информации, предоставленной другими страницами. / сайты.

Вы должны помнить, что если вы запретите страницу и добавите тег noindex, то роботы никогда не увидят ваш тег noindex, что по-прежнему может вызывать появление страницы в поисковой выдаче.

Использование регулярных выражений и подстановочных знаков

Итак, теперь мы знаем, что такое файл robots.txt и как его использовать, но вы можете подумать: «У меня большой веб-сайт электронной коммерции, и я хотел бы запретить все страницы, которые содержат вопросительные знаки (?) в своих URL «.

Здесь мы хотели бы представить ваши подстановочные знаки, которые могут быть реализованы в файле robots.txt. В настоящее время у вас есть два типа подстановочных знаков на выбор.

  • * Подстановочные знаки — где * подстановочные знаки будут соответствовать любой последовательности символов по вашему желанию.Этот тип подстановочного знака будет отличным решением для ваших URL-адресов, которые следуют тому же шаблону. Например, вы можете запретить сканирование всех страниц с фильтрами, в URL-адресах которых стоит вопросительный знак (?).

  • $ Подстановочные знаки — где $ соответствует концу вашего URL. Например, если вы хотите убедиться, что ваш файл роботов запрещает ботам доступ ко всем файлам PDF, вы можете добавить правило, подобное приведенному ниже:

Давайте быстро разберем приведенный выше пример.Ваш файл robots.txt позволяет любым ботам User-agent сканировать ваш веб-сайт, но запрещает доступ ко всем страницам, которые содержат конец .pdf.

Ошибок, которых следует избегать

Мы немного поговорили о том, что вы можете сделать, и о различных способах работы со своим robots.txt. Мы собираемся немного углубиться в каждый пункт в этом разделе и объяснить, как каждый из них может обернуться катастрофой для SEO, если не используется должным образом.

Не блокировать хороший контент

Важно не блокировать любой хороший контент, который вы хотите представить роботам для всеобщего сведения.txt или тега noindex. В прошлом мы видели много подобных ошибок, которые отрицательно сказывались на результатах SEO. Вам следует тщательно проверять свои страницы на наличие тегов noindex и запрещающих правил.

Чрезмерное использование Crawl-Delay

Мы уже объяснили, что делает директива crawl-delay, но вам не следует использовать ее слишком часто, поскольку вы ограничиваете страницы, просматриваемые ботами. Это может быть идеальным для некоторых веб-сайтов, но если у вас большой веб-сайт, вы можете выстрелить себе в ногу и помешать хорошему ранжированию и устойчивому трафику.

Чувствительность к регистру

Файл Robots.txt чувствителен к регистру, поэтому вы должны не забыть создать файл robots правильно. Вы должны называть файл роботов «robots.txt», все в нижнем регистре. Иначе ничего не получится!

Использование Robots.txt для предотвращения индексации содержимого

Мы уже немного рассмотрели это. Запрет доступа к странице — лучший способ предотвратить ее прямое сканирование ботами.

Но это не сработает в следующих случаях:

  • Если на страницу есть ссылка из внешнего источника, боты все равно будут проходить и индексировать страницу.

  • Незаконные боты по-прежнему будут сканировать и индексировать контент.

Использование Robots.txt для защиты частного содержимого

Некоторое личное содержимое, такое как PDF-файлы или страницы с благодарностью, можно индексировать, даже если вы направите ботов в сторону от него. Один из лучших способов дополнить директиву disallow — разместить весь ваш личный контент за логином.

Конечно, это означает, что он добавляет дополнительный шаг для ваших посетителей, но ваш контент останется в безопасности.

Использование Robots.txt для скрытия вредоносного дублированного содержимого

Дублированное содержимое иногда является неизбежным злом — например, страницы, удобные для печати.

Однако Google и другие поисковые системы достаточно умен, чтобы знать, когда вы пытаетесь что-то скрыть. Фактически, это может привлечь к нему больше внимания, и это потому, что Google распознает разницу между страницей, удобной для печати, и тем, кто пытается заткнуть себе глаза:

Есть еще шанс, что ее можно найти в любом случае.

Вот три способа справиться с этим типом контента:

  1. Переписать контент — Создание интересного и полезного контента побудит поисковые системы рассматривать ваш сайт как надежный источник. Это предложение особенно актуально, если контент представляет собой задание копирования и вставки.

  2. 301 Redirect — 301 редирект информирует поисковые системы о том, что страница переместилась в другое место. Добавьте 301 на страницу с дублированным контентом и перенаправьте посетителей на исходное содержание на сайте.

  3. Rel = «canonical » — это тег, который информирует Google об исходном местонахождении дублированного контента; это особенно важно для веб-сайта электронной коммерции, где CMS часто генерирует повторяющиеся версии одного и того же URL-адреса.

Момент истины: проверка вашего файла robots.txt

Пришло время протестировать ваш файл, чтобы убедиться, что все работает так, как вы хотите.

Инструменты Google для веб-мастеров содержат файл robots.txt, но в настоящее время он доступен только в старой версии Google Search Console. Вы больше не сможете получить доступ к тестеру robot.txt с помощью обновленной версии GSC (Google усердно работает над добавлением новых функций в GSC, поэтому, возможно, в будущем мы сможем увидеть тестер Robots.txt в основная навигация).

Итак, сначала вам нужно посетить страницу поддержки Google, на которой представлен обзор возможностей тестера Robots.txt.

Там вы также найдете роботов.txt Tester tool:

Выберите свойство, над которым вы собираетесь работать, например, веб-сайт вашей компании из раскрывающегося списка.

Удалите все, что находится в коробке, замените его новым файлом robots.txt и нажмите, протестируйте:

.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *