Содержание

что это такое и как их удалить

Есть проблемы с ранжированием, проект не растет, хотите проверить работу своих специалистов по продвижению? Закажите профессиональный аудит в Семантике

Получи нашу книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».

Подпишись на рассылку и получи книгу в подарок!

Дубли страниц – это идентичные друг другу страницы, находящиеся на разных URL-адресах. Копии страниц затрудняют индексацию сайтов в поисковых системах.

Что такое дубли страниц на сайте

Дубли могут возникать, когда используются разные системы наполнения контентом. Ничего страшного для пользователя, если дубликаты находятся на одном сайте. Но поисковые системы, обнаружив дублирующиеся страницы, могут наложить фильтр\понизить позиции и т.

д. Поэтому дубли нужно быстро удалять и стараться не допускать их появления.

Какие существуют виды дублей

Дубли страниц на сайте бывают как полные, так и неполные.

  • Неполные дубли – когда на ресурсе дублируются фрагменты контента. Так, например, и разместив части текста в одной статье из другой, мы получим частичное дублирование. Иногда такие дубли называют неполными.
  • Полные дубли – это страницы, у которых есть полные копии. Они ухудшают ранжирование сайта.

Например, многие блоги содержат дублирующиеся страницы. Дубли влияют на ранжирование и сводят ценность контента на нет. Поэтому нужно избавляться от повторяющихся страниц.

Причины возникновения дублей страниц

  1. Использование Системы управления контентом (CMS) является наиболее распространённой причиной возникновения дублирования страниц. Например, когда одна запись на ресурсе относится сразу к нескольким рубрикам, чьи домены включены в адрес сайта самой записи. В результате получаются дубли страниц: например:
    wiki.site.ru/blog1/info/
    wiki.site.ru/blog2/info/
  2. Технические разделы. Здесь наиболее грешат Bitrix и Joomla. Например, одна из функций сайта (поиск, фильтрация, регистрация и т.д.) генерирует параметрические адреса с одинаковой информацией по отношению к ресурсу без параметров в URL. Например:
    site.ru/rarticles.php
    site.ru/rarticles.php?ajax=Y
  3. Человеческий фактор. Здесь, прежде всего, имеется ввиду, что человек по своей невнимательности может продублировать одну и ту же статью в нескольких разделах сайта.
  4. Технические ошибки. При неправильной генерации ссылок и настройках в различных системах управления информацией случаются ошибки, которые приводят к дублированию страниц. Например, если в системе Opencart криво установить ссылку, то может произойти зацикливание:
    site.ru/tools/tools/tools/…/…/…

Чем опасны дубли страниц

  1. Заметно усложняется оптимизация сайта в поисковых системах. В индексе поисковика может быть много дублей одной страницы. Они мешают индексировать другие страницы.
  2. Теряются внешние ссылки на сайт. Копии усложняют определение релевантных страниц.
  3. Появляются дубли в выдаче. Если дублирующий источник будет снабжаться поведенческими метриками и хорошим трафиком, то при обновлении данных она может встать в выдаче поисковой системы на место основного ресурса.
  4. Теряются позиции в выдаче поисковых систем. Если в основном тексте имеются нечёткие дубли, то из-за низкой уникальности статья может не попасть в SERP. Так, например часть новостей, блога, поста, и т. д. могут быть просто не замечены, так как поисковый алгоритм их принимает за дубли.
  5. Повышается вероятность попадания основного сайта под фильтр поисковых систем. Поисковики Google и Яндекс ведут борьбу с неуникальной информацией, на сайт могут наложить санкции.

Как найти дубли страниц

Чтобы удалить дубли страниц, их сначала надо найти. Существует три способа нахождения копий на сайте.

  1. Нахождение дублей на сайте с помощью расширенного поиска Google. Укажите в расширенном поиске адрес главной страницы. Система выдаст общий список проиндексированных страниц. А если указать адрес конкретной страницы, то поисковик покажет весь перечень проиндексированных дублей. В отличие от Google, в Яндексе копии страниц сразу видны.
    Например, такой вид имеет расширенный поиск Google:
    На сайте может быть много страниц. Разбейте их на категории — карточки товара, статьи, блога, новости и ускорьте аналитический процесс.
  2. Программа XENU (Xenu Link Sleuth) позволяет провести аудит сайта и найти дубли. Чтобы получить аудит и произвести фильтрацию по заголовку требуется в специальную строку ввести URL сайта. Программа поможет найти полные совпадения. Однако через данную программу невозможно найти неполные дубли.
  3. Обнаружение дублей при помощи web – мастерской Google. Зарегистрируйтесь, и тогда в мастерской, разделе «Оптимизация Html», будет виден список страниц с повторяющимся контентом, тегами <Title>. По таблице можно легко найти чёткие дубли. Недостаток такого метода заключается в невозможности нахождения неполных дублей.
  4. Онлайн seo-платформа Serpstat проводит технический seo-аудит сайта по 55+ ошибок. Среди них есть блок для анализа дублируемого контента на сайте. Так сервис найдет дублирующиеся Title, Description, h2 на двух и больше страницах. Также видит случаи, когда h2 дублирует Title, на одной странице по ошибке прописаны два мета-тега Title и больше одного заголовка Н1.

    Чтобы сделать технический аудит в Serpstat, нужно зарегистрироваться в сервисе и создать проект для аудита сайта.

Как убрать дубли страниц

От дублей нужно избавляться. Необходимо понять причины возникновения и не допускать распространение копий страниц.

  • Можно воспользоваться встроенными функциями поисковой системы. В Google используйте атрибут в виде rel=»canonical». В код каждого дубля внедряется тег в виде <link=»canonical» href=»http://site.ru/cat1/page.
    php»>, который указывает на главную страницу, которую нужно индексировать.
  • Запретить индексацию страниц можно в файле robots.txt. Однако таким путём не получится полностью устранить дубли в поисковике. Ведь для каждой отдельной страницы правила индексации не провпишешь, это сработает только для групп страниц.
  • Можно воспользоваться 301 редиректом. Так, роботы будут перенаправляться с дубля на оригинальный источник. При этом ответ сервера 301 будет говорить им, что такая страница более не существует.

Дубли влияют на ранжирование. Если вовремя их не убрать, то существует высокая вероятность попадания сайта под фильтры Panda и АГС.

Как избавиться от дублей страниц в Bitrix

Наличие дублирующих страниц – частая проблема, с которой приходится сталкиваться оптимизаторам. Наличие таких страниц на сайте ведёт к «замусориванию» индекса, трате краулингового бюджета на ненужные страницы, появлению на выдаче дублей вместо продвигаемых страниц. Всё это в конечном итоге ведёт к ухудшению ранжирования сайта.

Среди разных CMS в моём личном рейтинге 1С-Битрикс не занимает первого места по количеству типичных проблем с дублями. Например, от Joomla можно ожидать куда большего числа проблем с разными типами дублей. Но и 1С-Битрикс не лишена своих особенностей. Наиболее часто сложности возникают с фильтром, товарами и страницами пагинации.

Но сперва расскажу про те случаи возникновения дублей, которые характерны для всех типов сайтов и CMS.

Чтобы проверить их наличие, следует проверить доступность главной страницы по следующим адресам:

https://www.oridis.ru/index.php

https://www.oridis.ru/home.php

https://www.oridis.ru/index.html

https://www.oridis.ru/home.html

https://www.oridis.ru/index.htm

https://www.oridis.ru/home.htm

(наиболее распространённые варианты)

Корректным ответом сервера при открытии подобных страниц будет 404 или 301.

Если же страница возвращает 200 ОК, это говорит нам о наличии дубля.

Быстро и удобно проверить главную страницу на наличие дублей можно при помощи данного сервиса:

https://apollon.guru/duplicates/

Перед началом продвижения обязательно следует определиться с тем, какой адрес сайта считать главным зеркалом – с www или без него.

Оба варианта имеют свои плюсы и минусы. Вариант без www короче. При длинном доменном имени добавление ещё четырёх символов не всегда выглядит красиво. А к плюсам варианта с www можно отнести, что при написании адреса сайта с www в некоторых редакторах адрес автоматически становится гиперссылкой.

Форма отправки письма Outlook

На нашем сайте основным зеркалом выбрана версия www.oridis.ru

Теперь для проверки корректности настройки следует проверить, что страницы без префикса www перенаправляют на страницы с www в адресе.

Пример:

https://oridis.ru/seo/

В данном случае страница перенаправляет на www-версию. Проблем нет.

Код ответа страницы можно проверить при помощи инспектора браузера либо при помощи онлайн-сервиса, например:

https://bertal. ru/index.php?a7054246/https://oridis.ru/seo/#h

О том, как правильно настроить редирект, можно узнать в материале https://www.oridis.ru/articles/301-redirect.html

Прекрасный способ отыскать дубли и другие «мусорные» страницы – это посмотреть проиндексированные страницы в поисковых системах:

https://yandex.ru/search/?text=host%3Awww.oridis.ru&lr=213&clid=2186620

Часто там можно обнаружить совершенно удивительные страницы, о которых даже сложно было предположить.

В индекс попадают и страницы с метками (например, UTM). Чтобы исключить такие страницы можно использовать директиву Clean-param:

https://yandex.ru/support/webmaster/robot-workings/clean-param.html

Именно таким способом пользуется OZON.RU:

https://www.ozon.ru/robots.txt

Другой альтернативный метод борьбы с дублями GET-параметров – это закрывать их в robots.txt через директиву Disallow. Google не воспринимает директиву Clean-param, зато директиву Disallow прекрасно понимает как Google, так и Яндекс.

Крупный интернет-магазин Эльдорадо (работающий, кстати, на Битрикс), использует Disallow для закрытия ненужных GET-параметров:

https://www.eldorado.ru/robots.txt

Если вы хотите закрыть от индексации все страницы с GET-параметрами, то достаточно прописать строчку:

Disallow: /*?

Далее перейдём к более специфичным особенностям 1С-Битрикс.

В Битрикс подобные страницы, как правильно имеют вид:

https://site.ru/catalog/inventar/?PAGEN_1=7

Что же с ними делать? Как избавиться от подобных страниц в индексе? И нужно ли это делать в принципе?

Читаем рекомендации поисковых систем.

Яндекс:

Если в какой-либо категории на вашем сайте находится большое количество товаров, могут появиться страницы пагинации (порядковой нумерации страниц), на которых собраны все товары данной категории. Если на такие страницы нет трафика из поисковых систем и их контент во многом идентичен, то советую настраивать атрибут rel=»canonical» тега <link> на подобных страницах и делать страницы второй, третьей и дальнейшей нумерации неканоническими, а в качестве канонического (главного) адреса указывать первую страницу каталога, только она будет участвовать в результатах поиска.

https://yandex.ru/blog/platon/2878

Т.е. Яндекс рекомендует ставить нам canonical на пагинаторные страницы, ведущие на основную категорию.

Сами рекомендации датированы 2015-м годом. Обращался в техподдержку Яндекса, чтобы узнать не потеряли ли актуальность данные рекомендации. Техподдержка актуальность рекомендаций подтвердила.

Google ранее советовал настраивать link rel next/prev для пагинаторных страниц. Но на данный момент от данной рекомендации он отказался:

Google также сообщает, что использование canonical на пагинаторных страницах со ссылкой на основную категорию (первую страницу) является ошибкой:

https://webmasters.googleblog.com/2013/04/5-common-mistakes-with-relcanonical.html

Таким образом получается, что рекомендации Яндекс и Google противоречат друг другу.

Что делать в этой ситуации – каждый должен решить для себя.

Например, я обычно проставляю canonical на основную категорию, следуя рекомендациям Яндекса. Причина такого решения заключается в том, что продвижение мы в основном ведём под Рунет, где доля Яндекса пока ещё больше Google. Если же вы продвигаетесь в иностранном сегменте интернета, где царствует Google, старайтесь ориентироваться на актуальные рекомендации этой поисковой системы.

При работе с интернет-магазином на 1С-Битрикс можно часто столкнуться со страницами с /filter/clear/apply/ в адресе.

Один из вариантов решения – прописать каноникал на основную категорию.

Т.е. страница:

https://site.ru/catalog/aksessuary/podsumki-i-patrontashi/filter/clear/apply/

должна содержать canonical, ведущий на:

https://site.ru/catalog/aksessuary/podsumki-i-patrontashi/

Решение можно считать правильным (по крайней мере, с точки зрения Яндекса). Однако такой подход требует определённых трудозатрат программиста на написание нужного функционала.

К тому же каноникал не является панацеей и строгой рекомендацией для поисковых систем (в отличии, например, от файла robots. txt). Канонические страницы вполне могут попадать в индекс, если поисковая система сочтёт это нужным:

https://webmaster.yandex.ru/blog/nekanonicheskie-stranitsy-v-poiske

Наименее трудозатратный и наиболее простой способ быстро решить данную проблему – это прописать соответствующие директивы в файле robots.txt.

Например, можно полностью закрыть все страницы с «filter»:

Disallow: /*filter

Часто встречаю подобный вариант написания директив:

Disallow: /*filter*

Однако, нет никакой необходимости ставить звёздочку на конце строчки. Дело в том, что по умолчанию в конце записи, если не указан спецсимвол «$», всегда подразумевается звёздочка.

Из коробки 1C-Битрикс не содержит файла robots.txt. Чтобы его создать необходимо перейти в административную панель и выбрать:

Маркетинг > Поисковая оптимизация > Настройка robots.txt

Далее можно выбрать «Стартовый набор» и нажать кнопку «Сохранить».

В результате создастся файл robots. txt. Его содержимое может иметь следующий вид:

User-Agent: *

Disallow: */index.php

Disallow: /bitrix/

Disallow: /*show_include_exec_time=

Disallow: /*show_page_exec_time=

Disallow: /*show_sql_stat=

Disallow: /*bitrix_include_areas=

Disallow: /*clear_cache=

Disallow: /*clear_cache_session=

Disallow: /*ADD_TO_COMPARE_LIST

Disallow: /*ORDER_BY

Disallow: /*PAGEN

Disallow: /*?print=

Disallow: /*&print=

Disallow: /*print_course=

Disallow: /*?action=

Disallow: /*&action=

Disallow: /*register=

Disallow: /*forgot_password=

Disallow: /*change_password=

Disallow: /*login=

Disallow: /*logout=

Disallow: /*auth=

Disallow: /*backurl=

Disallow: /*back_url=

Disallow: /*BACKURL=

Disallow: /*BACK_URL=

Disallow: /*back_url_admin=

Disallow: /*?utm_source=

Disallow: /*?bxajaxid=

Disallow: /*&bxajaxid=

Disallow: /*?view_result=

Disallow: /*&view_result=

Allow: /bitrix/components/

Allow: /bitrix/cache/

Allow: /bitrix/js/

Allow: /bitrix/templates/

Allow: /bitrix/panel/

Host: www. 1097lab.bitrixlabs.ru

Закрыты от индексации основные технические разделы и страницы. Отрыты – пути к CSS и JS-файлам. Если этого не сделать, поисковые системы могут воспринимать сайт некорректно. Например, сервис Google Mobile-Friendly Tools не сможет увидеть корректный дизайн и сайт может не пройти проверку на мобильность.

Также стоит отметить, что строчка Host лишняя и её можно смело удалять (особенно, если у вас настроены редиректы). Яндекс отменил данную директиву, но Битрикс продолжает по-прежнему генерировать файл robots.txt вместе с ней.

Распространённая трудность не только с сайтами на Битрикс, но и с любыми другими интернет-магазинами.

Поэтому расскажу, как решить этот вопрос в общем случае. Существует как минимум два подхода для устранения таких дублей.

Сперва приведу примеры. Итак, у нас есть один и тот же товар, который относится к нескольким категориям:

http://site.ru/catalog/phones/honor-10/

http://site.ru/catalog/electronics/honor-10/

Решение №1

Отказаться от вложенных адресов и формировать адреса товаров независимо от категории:

http://site. ru/detail/honor-10/

http://site.ru/detail/xiaomi-mi-9/

Решение №2

Пользоваться canonical. Для этого один из адресов товара выбираем каноническим и проставляем link rel=»canonical» на страницах с повторяющимися предложениями.

Здесь на помощь приходят различные программы-краулеры. Мой личный фаворит — Netpeak Spider. Другой способ, о котором я уже писал выше – изучение индекса поисковых системах.

И конечно же вы всегда можете обратиться к нам. Поможем устранить дубли, исправить технические ошибки и сделаем ваш сайт удобным и привлекательным для пользователей.

Ямщиков Сергей, интернет-маркетолог

УБИРАЕМ ДУБЛИ ГЛАВНОЙ СТРАНИЦЫ В JOOMLA · GitHub

Здравствуйте уважаемые читатели блога sivway.com. Анализируя сайты клиентов, все время наблюдаю одну и ту же ошибку — дубль главной страницы в joomla. Ошибка достаточно распространенная и легко исправима, но из-за нее мне приходится тратить больше времени и сил. Поэтому в этой статье я опишу, какого вида бывают дубли страниц и как с ними бороться.
Виды дублей главной страницы и методы борьбы с ними.
Самый распространенный дубль – название сайта с www и без. До сих пор многие люди вводят название сайта с www, но некоторые «умные» вебмастера настраивают свой домен так, что попасть на сайт без www невозможно. Поэтому целесообразно давать доступ к такому домену. Но возникает следующая проблема, поисковики считают сайт с www и без как два разных сайта. Правда, через какое-то время они делают склейку домена (зеркало), но на это необходимо время, которое в наши дни очень ценно. Поэтому при создании сайта на любой CMS и не только необходимо сразу избавится от этого дубля. (.*)$ http://domain.com/$1 [R=301,L]
После этого ваш сайт будет доступен при вводе с www и автоматически перенаправится на без. Конечный вид адреса сайта http://site.ua. После этого роботы поисковиков так же будут перенаправляться. И в итоге уберется дубль главной страницы.
Дубль страницы /index.php
Второй по распространению дубль главной страницы в joomla – после названия сайта стоит /index.php или index.html. Это так же дубль главной страницы. Так же исправляется при помощи редактирования .htaccess.
Код для избавления от /index.php
RewriteCond %{THE_REQUEST} ^[A-Z]{3,9}\ /index\. index\.html$ http://ваш сайт.ua/ [R=301,L]
Дубль страницы / в конце адреса.
Слеш в конце адреса раньше считался дублем страницы, а сейчас поисковики научились определять сайт с / и склеивают его с главным доменом. Поэтому исправление этой ошибки считается как «хороший тон» при создании сайта. Но в любом случае лучше от него избавиться или наоборот поставить.
Для этого воспользуемся склейкой / в файле .htaccess
Код для склейки / (убирает /)
RewriteBase /
RewriteCond %{HTTP_HOST} (. /])$ $1/ [L,R=301]
И последний дубль, который я встречал в joomla – это алиас главной страницы. Объясню подробнее. К примеру, вы заходите на сайт site.ua, перед вами открывается главная страница, почитали, перешли на другую страницу. Вроде все в порядке, но после вам захотелось перейти опять на главную. Нажимаете на «Главную» и смотрите в адресную строку, а там вместо site.ua стоит site.ua/glavnaya или /content или еще что нибудь. Это явный дубль главной страницы. Простым удалением алиаса в меню главной страницы не обойтись. Здесь придется покопаться в базе joomla. Для этого открываем базу joomla через phpMyAdmin ищем таблицу jos_menu нажимаем обзор, ищем меню, которое отвечает за главную и очищаем поле alias. После сохранения базы смотрим на результат.
Так же дубли главной страницы могут возникать из-за различных компонентов, плагинов. Эти дубли убираются очень легко – удаляем компонент, а если он действительно так важен, то здесь уже должен быть индивидуальный подход. В любом случае есть тех. поддержка компонента, где можно найти решение.
Помимо дублей главной страницы, joomla болеет еще и внутренними дублями, избавляется закрытием дубля в файле robots.txt.
Спасибо: http://sivway.com/joomla/ubiraem-dubli-glavnoj-stranicy-v-joomla.html

Убираем дубли главной страницы в joomla

Здравствуйте уважаемые читатели блога sivway.com. Анализируя сайты клиентов, все время наблюдаю одну и ту же ошибку — дубль главной страницы в joomla. Ошибка достаточно распространенная и легко исправима, но из-за нее мне приходится тратить больше времени и сил. Поэтому в этой статье я опишу, какого вида бывают дубли страниц и как с ними бороться.

Виды дублей главной страницы и методы борьбы с ними.

Самый распространенный дубль – название сайта с www и без. До сих пор многие люди вводят название сайта с www, но некоторые «умные» вебмастера настраивают свой домен так, что попасть на сайт без www невозможно. Поэтому целесообразно давать доступ к такому домену. Но возникает следующая проблема, поисковики считают сайт с www и без как два разных сайта. Правда, через какое-то время  они делают склейку домена (зеркало), но на это необходимо время, которое в наши дни очень ценно. Поэтому при создании сайта на любой CMS и не только необходимо сразу  избавится от этого дубля. Для этого воспользуемся 301 редиректом. Подробнее в статье 301 редирект. Заходим по ftp на сайт где установлена joomla ищем файл .htaccess. Внимание файл .htaccess не имеет расширения и в названии должна идти точка. Если у вас htaccess.txt переименуйте его.

В этом файле прописываем код редиректа с www на без. /])$ $1/ [L,R=301]

И последний дубль, который я встречал в joomla – это алиас главной страницы. Объясню подробнее. К примеру, вы заходите на сайт site.ua, перед вами открывается главная страница, почитали, перешли на другую страницу. Вроде все в порядке, но после вам захотелось перейти опять на главную. Нажимаете на «Главную» и смотрите в адресную строку, а там вместо site.ua стоит site.ua/glavnaya или /content или еще что нибудь. Это явный дубль главной страницы. Простым удалением алиаса в меню главной страницы не обойтись. Здесь придется покопаться в базе joomla. Для этого открываем базу joomla через phpMyAdmin ищем таблицу jos_menu нажимаем обзор, ищем меню, которое отвечает за главную и очищаем поле alias. После сохранения базы смотрим на результат.

Так же дубли главной страницы могут возникать из-за различных компонентов, плагинов. Эти дубли убираются очень легко – удаляем компонент, а если он действительно так важен, то здесь уже должен быть индивидуальный подход. В любом случае есть тех. поддержка  компонента, где можно найти решение.

Помимо дублей главной страницы, joomla болеет еще и внутренними дублями, избавляется закрытием дубля в файле robots.txt.

Спасибо: http://sivway.com/joomla/ubiraem-dubli-glavnoj-stranicy-v-joomla.html

Статьи по теме

  • Всем привет! Всех с наступившим [20]{2,}0 годом. Сегодня я хочу затронуть тему, которая иногда является темой для шуток от «Да зачем тебе все …

    2021-01-22

  • Сколько бы ни было товаров в вашем интернет-магазине, вам нужно описывать каждый из них: заполнять характеристики и распределять товары …

    2020-03-23

  • Все, кто пользуется Denwer (ДНВР), проще говоря джентльменским набором веб-разработчика, знают, что обновления пакета происходят не так уж и …

    2018-10-07

  • Один из моих клиентов обратился ко мне с такой просьбой. У них есть сайт и на нем в некоторых местах, причем не со всех устройств появляет…

    2018-05-02

  • Достаточно распространённым является мнение, что редизайн интернет-ресурса может крайне негативно сказаться на его производительност…

    2018-04-03

  • В последнее время попадаются сайты с одной и той же уязвимостью в AdsManager, в этой статье я расскажу, как найти и закрыть уязвимость на сайт…

    2018-03-21

  • Как писать? Стройте текст по определенной логической схеме. Интуитивно составленный текст, в котором Вы выкладываете посетителю все и с…

    2017-05-24

  • Ребята из проекта Canva знают о сайтах с бесплатными иконками буквально все — составили список из 50 наиболее популярных и интересных. Те…

    2017-05-07

  • Доброго времени суток уважаемые мои читатели! Сегодня мы расследуем причину появления ошибки [an error occurred while processing the directive] на одном из мо. ..

    2017-03-13

  • Чтобы поисковые роботы при попытки индексации не получали «403» ошибку и не убирались восвояси, предлагаем ознакомиться со списком диап…

    2017-03-01

  • 14 декабря стало известно об уязвимости, которая доступна во всех версиях CMS Joomla, начиная от Joomla 1.5 (до 3.4.5 включительно). Уязвимость позвол…

    2017-01-16

  • Одна из основных − практически наиболее важных − задач сайта является обеспечение возможности для клиентов связаться с представител…

    2016-11-30

  •   Владельцы сайтов часто сталкиваются с необходимостью обеспечить сохранность веб-страниц. Не секрет, что они склонны к изменениям и с…

    2016-10-12

  •   Публикация текстового контента на интернет-сайтах несколько отличается от аналогичных действий с печатью статей в бумажных журнала. ..

    2016-09-21

  •   Если вы являетесь владельцем интернет-ресурса, который был создан для работы с отечественными пользователями, то наверняка сталкива…

    2016-09-13

Дубли страниц в Joomla — Юрий Ключевский

У CMS Joomla есть один недостаток, это дубли адресов страниц. Дубли — это когда одна статья доступна по двум адресам.

Например:

http://rightblog.ru/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html

index.php?option=com_content&view=article&id=99:vkontakteicons&catid=5:design&Itemid=5

Как появляются дубли страниц? Очень просто, на примере выше мы видим две ссылки на один материал. Первая ссылка — красивая и человекопонятная (ЧПУ ссылка), создана компонентом JoomSEF который преобразует все ссылки на сайте в такой красивый, удобочитаемый вид. Вторая ссылка — внутренная системная ссылка Джумлы, и если бы компонент Artio JoomSef не был установлен, то все ссылки на сайте были бы как вторая — непонятные и некрасивые. Теперь от том насколько это страшно и как бороться с дублями.

Насколько дубли вредны для сайта. Я бы не называл его очень большим недостатком, так как по моему мнению, поисковые машины не должны сильно банить и пессимизировать сайт за такие дубли, так как дубли эти делаются не специально, а являются частью CMS системы. Причем, замечу, очень популярной системы, на которой сделаны миллионы сайтов, а значит поисковики научились понимать такую «особенность». Но все таки, если есть возможность и желание, то лучше такие дубли позакрывать от глаз большого  брата.

Подробнее и как убрать из индексации дубли страниц в Joomla читаем под катом.

 

У CMS Joomla есть один недостаток, это дубли адресов страниц. Дубли — это когда одна статья доступна по двум адресам. Например:

http://rightblog.ru/dizayn/ikonki-sotsial-noy-seti-vkonrtakte.html

index.php?option=com_content&view=article&id=99:vkontakteicons&catid=5:design&Itemid=5

Как появляются дубли страниц? Очень просто, на примере выше мы видим две ссылки на один материал. Первая ссылка — красивая и человекопонятная (ЧПУ ссылка), создана компонентом JoomSEF который преобразует все ссылки на сайте в такой красивый, удобочитаемый вид. Вторая ссылка — внутренная системная ссылка Джумлы, и если бы компонент Artio JoomSef не был установлен, то все ссылки на сайте были бы как вторая — непонятные и некрасивые. Теперь от том насколько это страшно и как бороться с дублями.

Насколько дубли вредны для сайта. Я бы не называл его очень большим недостатком, так как по моему мнению, поисковые машины не должны сильно банить и пессимизировать сайт за такие дубли, так как дубли эти делаются не специально, а являются частью CMS системы. Причем, замечу, очень популярной системы, на которой сделаны миллионы сайтов, а значит поисковики научились понимать такую «особенность». Но все таки, если есть возможность и желание, то лучше такие дубли позакрывать от глаз большого  брата.

Как бороться с дублями в Joomla и других cms

1) Два дубля одной страницы, запрет в robots. txt

К примеру, в индекс поисковика попадают следующие два адреса одной страницы:

http://site.ru/страница.html?replytocom=371
http://site.ru/страница.html?iframe=true&width=900&height=450

Для закрытия таких дублей в robots.txt нужно добавить:

Disallow: /*?*
Disallow: /*?

Этим действием мы закрыли от индексации все ссылки сайта со знаком «?». Такой вариант подходит для сайтов где включена работа ЧПУ, и нормальные ссылки не имеют в себе знаков вопроса — «?».

2. Использовать тег rel=”canonical”

Допустим на одну страницу идет две ссылки с разными адресами. Поисковикам Google и Yahoo моджно указать на то какой адрес на страницу является главным. Для этого в теге <a> надо прописать тег rel=”canonical”. Яндекс эту опцию не поддерживает.

Для Joomla для постановки тега rel=”canonical” я нашел два расширения, под названием 1)plg_canonical_v1.2; и 2) 098_mod_canonical_1. site.ru
RewriteRule (.*) http://www.site.ru/$1 [R=301,L]

 

5. Директива Host дает определение основного домена с  www или без для Яндекса.

Для тех вебмастеров, которые только что создали свой сайт, не спешите выполнять те действия, которые я описал в этом пункте, сначала нужно составить правильный robots.txt прописать директиву Host, этим вы определите основной домен в глазах яндекса.

Это будет выглядеть следующим образом:

User-Agent: Yandex
Host: site.ru

Директиву Host понимает только Яндекс. Google ее не понимает.

Дальше обязательно нужно дождаться, когда Яндекс правильно склеит домен, а уже потом делать переадресацию в файле .htaccess

6. Joomla дубли страниц склеиваем в файле .htaccess.

Очень часто главная страница сайта на joomla бывает доступна по адресу http://site.ru/index.html или http://site.ru/index.рhp, http://site.ru.html , то есть это дубли главной страницы (http://site. index.php$ http://ваш сайт.ru/ [R=301,L]

Используйте этот код если вам нужно избавиться от дубля с index.рhp, не забудьте в коде вместо http://ваш сайт.ru/, поставить свой домен.

Чтобы проверить получилась у вас или нет, просто введите в браузер адрес дубля (http://site.ru/index.рhp), если получилось, то вас перебросит на страницу http://site.ru, также будет происходить и с поисковыми ботами и они не будут видеть эти дубли.

И по аналогии склеиваем Joomla дубли с другими приставками к URI вашей главной страницы, просто отредактируйте код который я привел выше.

7. Указать sitemap в robots.txt

Хоть это и не относится к дублям, но раз уж пошла такая движуха, то заодно я рекомендую в файле robots.txt указать путь к карте сайта в xml формате для поисковиков:

Sitemap: http://домен.ru/sitemap.xml.gz
Sitemap: http://домен.ru/sitemap.xml

Итог

Подвоя итог вышесказанному, для Joomla я бы прописал вот такие строки в robots. index.php$ http://ваш сайт.ru/ [R=301,L]

Если вы используете другие способы устранения дублей, знаете как усовершенствовать описанное выше или просто Вам есть что сказать по этой теме — пишите, жду в комментариях.

Поиск дублей страниц сайта | Как проверить онлайн и убрать дубли

Сколько раз делаю технический аудит какого-нибудь клиентского сайта, так обязательно нахожу дубли страниц. Это особенная проблема для больших интернет магазинов. Давайте сейчас разберемся, как эту проблему диагностировать и решить. 

Дубли сайта — это страницы с идентичным или почти одинаковым контентом но разными URL.

Дублями могут быть мета-теги title и description, могут быть дубли текста или полного контента, то есть всего содержимого страницы. Наиболее часто дублями бывают страницы пагинации, карточки товаров, страницы фильтра или теги.

Причем частичное совпадение контента допустимо, например, в каких-то карточках товаров могут дублироваться характеристики или какие-то блоки на странице могут дублироваться, например, отзывы.  Но если взять сайт в целом, то каждая страница на сайте должна быть уникальной.

От дублей страниц очень много бед для сайта. Например, они понижают общий рейтинг сайта, его общее качество в глазах поисковых систем. В google вообще можно словить фильтр Панду за большое количество дублей.

Например, яндекс идентифицирует дубли, они отображаются в яндекс вебмастере, он просто выплевывает их из выдачи.

А google наоборот их хранит и при достижении какого-то критического значения накладывает фильтр на сайт. В общем, вреда от дублей для сайта много и поэтому от них обязательно нужно избавляться.

Но для начала их нужно идентифицировать, и есть несколько способов поиска и проверки дублей страниц сайта онлайн, я разберу способы ручные и способы автоматизированные. Эти способы являются универсальными и подойдут для любого движка, будь то wordpress, битрикс, opencart, joomla и других.

Проверка дублей через яндекс вебмастер

Самый простой способ, если у вас есть яндекс вебмастер, вы можете зайти в раздел «Индексирование — страницы в поиске».

Выбрать здесь «Исключенные страницы» и посмотреть, нет ли у вас вот такой картины.

Вебмастер показывает, что это дубли, и если такое присутствует, то нужно от этого избавляться. Дальше я покажу, какие есть варианты исправить их.

Поиск через индекс поисковых систем

Следующий способ также ручной — нужно вбить в поисковую строку google такую комбинацию site:santerma.shop (после двоеточия адрес вашего сайта), и покажутся все страницы, которые есть в индексе поисковой системы.

Аналогично работает и в яндексе.

Затем вручную пройтись по сайту и посмотреть, какие есть проблемы. Например, вот видно, есть какие-то дубликаты заголовков — интернет магазин сантехники и водоподготовки САНТЕРМА.

Можно перейти и посмотреть, что это за дубликаты, заголовки у них одинаковые, получается страницы тоже могут быть одинаковые.

Это страницы пагинации, о чем я и говорил, что очень часто дублями является такие страницы. То есть сами страницы не являются дублями, но здесь дубли мета-теги, тайтл у всех этих страниц одинаковый.

Это означает, что вот таких страниц «Интернет магазин сантехники и водоподготовки» очень много, соответственно, эту проблему тоже нужно решать, для страниц пагинации делают rel canonical.

Как проверить дубли с помощью Screaming Frog

Следующий способ, как можно проверить онлайн и найти дубли страниц на сайте, уже является автоматическим, с помощью программы Screaming frog. Загружаем адрес сайта, нажимаем «Старт», и программа начинает парсить весь сайт.

Затем переходим в раздел Page title, нажимаем сортировку, и вот опять видно, что тайтлы полностью идентичные, причем разные url, а тайтлы везде одинаковые.

Это очень грубая ошибка, ее нужно исправлять, то есть тайтл для каждой страницы должен быть уникальным.

Как найти дубли сайта онлайн с помощью Saitreport

Еще один способ, как найти дубли сайта — через сервис Saitreport. Я записывал обзор по этому сервису, посмотрите видео:

Вкратце скажу, что дубли страниц можно найти во вкладке «Контент», спускаемся вниз и здесь вот есть «Полные дубликаты», «Почти дубликаты» и «Очень похожие».

Нас интересуют вот эти полные совпадения и почти дубликаты, особенно полные совпадения, переходим сюда и видим, что достаточно много дублей.

По URL видно, что эта страницы фильтров, две полностью идентичные страницы. Самое главное, чтобы фильтр был закрыт от индексации, чтобы весь этот мусор не попал в индекс. Если это просто находится на сайте, но не в индексе, то ничего страшного нет, но если этот мусор попадет в индекс, то можно легко похерить сайт.

Проверка дублей страниц index.php и index.html

И последний способ найти дубли — проверить файлы index.php и index.html, которые могут отвечать за отображение главной страницы сайта. Часто бывает, что на сайтах эти файлы настроены неправильно.

Чтобы это проверить нужно к адресу главной страницы через слэш прописать index.php. Если все настроено правильно, то должен произойти 301 редирект (сайт перебросит с index.php на главную страницу) или должна открыться страница 404 ошибки.

Но если по адресу site.ru/index.php открывается опять главная страница, то это является дублем, то есть страница site.ru/index.php дублирует главную страницу.

В этом случае нужно проверить внутренние страницы — также через слэш прописать index.php. Скорее всего опять откроются дубли внутренних страниц, иногда открывается опять главная, получаются многократные дубли через неправильную настройку этого файла.

Аналогично нужно проверить файл index.html. Как я сказал, должен произойти или 301 редирект (перебросить на главную страницу) или открыться страница 404 ошибки.

Как убрать дубли

Итак, что теперь делать с этими дублями, которые найдены? Вариантов много, и каждый вариант нужно выбирать в зависимости от ситуации, сайта, потому что один и тот же вариант может подойти одному сайту, но не подойдет другому.

Самое главное, нужно определить, насколько важны эти страницы для продвижения сайта. Есть ли на них трафик или может быть планируется, и дальше действовать в соответствии с этой важностью.

Если эта страницы не важны, то есть варианты:

  • закрыть их от индексации;
  • настроить на них canonical;
  • совсем удалить их сайта.

Если же это страницы важные, то нужно их уникализировать:

  • переписать метатеги;
  • переписать заголовоки;
  • переписать контент;
  • сделать каждую страницу уникальный, чтобы она несла пользу посетителю и продвигалась в поиске.

Для закрепления материала, посмотрите более подробное и наглядное видео по поиску дублей:

Итак, я надеюсь, что статья была полезной для вас! Пишите ваши вопросы, комментарии, может что-то не понятно, просто пишите, если статья понравилась, я рад любой обратной связи. Поделитесь ею с друзьями в социальных сетях!

Сергей Моховиков

SEO специалист

Здравствуйте! Я специалист по продвижению сайтов в поисковых системах Яндекс и Google. Веду свой блог и канал на YouTube, где рассказываю самые эффективные технологии раскрутки сайтов, которые применяю сам в своей работе.

Вы можете заказать у меня следующие услуги:

Загрузка…

Как удалить дубли страниц в WordPress за несколько минут

Что такое дубли страниц?

Очень часто владельцы wordpress сайтов начинают беспокоиться, если не понимают из-за чего отдельные страницы проваливаются в выдаче. Причиной тому могут быть дубли страниц. Это страницы, содержащие материалы с идентичным или похожим контентом. Речь о страницах архивов дат, рубрик, авторов и комментариев. При этом они могут располагаться под разными адресами, что позволяет дублям конкурировать с основной статьей за место в поисковой выдаче. В этом материале мы расскажем как избавиться от дублей страниц.

Создание дублей страниц на сайте

Как мы уже рассказывали ранее, дубли одной конкретной страницы, где размещена одна конкретная статья создаются и в архивах дат, и в рубриках или категориях (могут называться по-разному), а также на страницах с комментариями. Благодаря этому пользователи могут сортировать посты и находить по определенным критериям нужные. Система делает это автоматически.

Давайте посмотрим как это выглядит на примере архива дат. Предположим нам нужно выбрать все статьи за ноябрь. На главной странице сайта кликните на ссылку в виджете с указанием месяца.

Кликнув на ссылку «ноябрь 2018» перед вами появится список из статей, которые были сделаны за указанный месяц.  Вот наглядный пример того, что под архивы дат wordpress создает отдельную страницу. Вспоминаем про индексацию лишних страниц поисковиком и об ее негативных для продвижения последствиях. Подробнее мы рассказывали в статье о том, как удалить страницы вложений в wordpress.

Дубли в комментариях

При работе с комментариями вебмастерам следует учитывать, что как таковые, дубли страниц создаются при наличии древовидной системы обсуждения. В том числе если обсуждений очень много и комментариям не хватает места на одной странице, то часть их перемещается на следующие. И в этом случае вам необходимо удалить дубли страниц в wordpress, иначе проиндексированные страницы станут своеобразной ловушкой для пользователей. Они просто попадут на страницу комментариев статьи, а не на саму статью, после чего посетители, скорее всего покинут сайт. SEO-продвижение явно пострадает от большого количества отказов.

 

Как удалить дубли с помощью плагина WordPress

Чтобы не разбираться с провалами в поисковой выдаче, лучше заранее провести профилактическую работу. А именно удалить дубли страниц в wordpress. Мы предлагаем вам воспользоваться плагином оптимизации сайтов Clearfy. В его арсенале большой спектр полезных функций для удаления дублей страниц. Скачайте данное приложение и установите, так мы сможем рассказать о всех фичах более предметно.

После активации перейдите в меню настроек плагина: «Настройки» => «Clearfy меню» =>

=> далее раздел «SEO» (в левом боковом меню плагина) => вкладка «Дубли страниц»

Начнем по порядку, с удаления архивов дат. Здесь стоит сразу уточнить, что удалять дубли в буквальном смысле мы не будем. Их просто отключат от индексирования. И это важнее, чем избавиться фактически от копий страниц. Если дубликаты не видит поисковик, значит пользователь перейдет на основную, нужную вам для продвижения страницу и не заблудится в многообразии ссылок-клонов. Чтобы запустить функцию нажмите кнопку ВКЛ.

С архивом автора, ситуация такая же, как и с архивом дат: дубли не удаляются, а отключаются от индексации. Также ставится редирект с дубля на основную страницу. Активируйте и эту функцию.

Чтобы удалить метки архивов, нужно поставить редирект со страниц тегов на главную. Для этого активируйте функцию ниже. Аналогично предыдущим. Обратите внимание на серую метку со знаком вопроса. Она указывает на то, что негативных последствий настройка не вызовет.

Для каждой фотографии или видео wordpress создает отдельную «страницу вложений» с возможностью комментирования, что является своеобразным якорем оптимизации. Подробней об этом мы говорили в предыдущей статье. Нажимаем кнопку ВКЛ.

Если у вас на сайте пагинация настроена таким образом, что контент размещается сразу на нескольких страницах, то в конце URL, в том или ином виде, будет добавляться порядковый номер каждой страницы. Clearfy же, предложит вам удалить постраничную навигацию записей. То есть каждая страница одной статьи будет редиректиться на основную. Нажмите кнопку ВКЛ.

Если у вас настроены древовидные комментарии, то их иерархия создаст благоприятные условия для создания копий страниц. Выглядит это так: вы отвечаете на чей-то комментарий и одновременно в URL появляется переменная ?replytocom  — это значит, что поисковик видит в этом не ответ на комментарий, а отдельную страницу, так как адрсе отличается. Удалить дубли страниц в wordpress и выполнить редирект вы можете активировав данную функцию.

Заключение

Время и силы, затраченные на продвижение сайта или отдельных статей могут уйти впустую. Если не позаботиться об удалении дублей страниц заранее. Они индексируются поисковиком и могут составить конкуренцию основным статьям. После прочтения данной статьи мы надеемся, что вы оценили весь спектр представленных функций и теперь вам будет несложно удалить дубли страниц в wordpress.

Удалить повторяющиеся сообщения в разных разделах главной страницы

Таким же образом необходимо воздействовать на третий запрос. Извлеките идентификаторы из результатов второго запроса, который использует аргументы $ post_type_fp_2. Вы можете array_merge () любое количество массивов. Объедините элемент массива arg ‘post__not_in’ (если он существует) из аргументов третьего запроса с $ post_type_fp_2 [‘post__not_in’] и идентификаторами, извлеченными из второго запроса. Получите уникальные идентификаторы из слияния и назначьте их элементу массива arg post__not_in третьего запроса.

Не хватает контекста, чтобы дать вам что-то более конкретное.

Автор темы Шир

(@shirwp)

@bcworkz спасибо за любезный ответ!

1. Откуда мне взять идентификаторы щипков? А также аргументы $ post_type_fp_2? Это в файле header.php?
2. Какой контекст будет хорошим? Достаточно ли прикрепить здесь код header.php в виде файла?

Еще раз спасибо 🙂

Вы извлекаете идентификаторы из свойства сообщений второго объекта запроса после его создания.Я не знаю, где это будет. Возможно, где-нибудь в шаблонах страницы. Маловероятно, что это header.php, хотя это возможно удаленно. Это может быть даже обработчик шорткода или блочный код. Где код у вас живет? Как / где выводятся сообщения второго / третьего раздела? Контекст, который я ищу, — это любой код, отвечающий за запросы сообщений в каждом разделе. Это может быть в любом количестве мест. Сам запрос обычно выполняется с помощью get_posts или нового WP_Query .Возможно query_posts .

Если вы обнаружите необходимость опубликовать большой объем кода, разместите его на pastebin.com или gist.github.com и предоставьте ссылку здесь.

Автор темы Шир

(@shirwp)

@bcworkz Еще раз большое спасибо за ваше время 🙂

Хорошо, поэтому я просто просмотрел (просто нажав ctrl + f) то, что вы упомянули выше (get_posts, new WP_query и query_posts) в большинстве файлов темы. Ничего не нашел.
Единственное, что мне удалось найти, это get_post (единственное число) внутри некоторого файла частей шаблона.

Если это может помочь — это моя структура файлов темы (где это может быть?):

Тема:
assets
css
customize-controls.css
js
customizer-control.js
customizer.js
html5.js
scripts. js
skip-link-focus-fix.js
библиотека
много разных под- files 🙂
inc
tgm
class-tgm-plugin-activate.php
theme-info (много файлов и под этим)
custom-header.php
customizer.php
functions.php
newscard-footer-info.php
newscard-metaboxes.php
newscard-widgets.php
template-functions.php
languages ​​
template-parts
templates
404.php
arcieve. php
comments.php
footer.php
functions.php
index.php
ЛИЦЕНЗИЯ
page.php
readme.txt
rtl.css
screenshot.png
search.php
searchform.php
sidebar.php
single. php
style.css
wpml-config.xml

  • Этот ответ был изменен 8 месяцев назад пользователем Shir.
  • Этот ответ был изменен 8 месяцев назад пользователем Shir.

Это может быть любой из этих многочисленных файлов во вложенных папках. Поиск отдельных файлов с помощью Ctrl-F слишком утомителен, чтобы надежно что-либо найти. Вам нужен инструмент, который ищет текст в нескольких файлах во всем дереве каталогов. Классический инструмент командной строки Unix / Linux, который делает это, — это grep . В Windows вы можете использовать findstr с той же целью.Загрузите файлы вашей темы на свой локальный компьютер (как можно ближе к C: \, избегайте пробелов в именах папок пути). Войдите в командную строку Windows (найдите «команда» в поле поиска Windows). Используйте cd в приглашении, чтобы сделать папку вашей темы актуальной. Введите что-то вроде findstr / S / N / C: "новый WP_Query" * .php . Будет произведен поиск всех файлов .php в текущей папке и во всех ее подпапках.

Это может дать слишком много результатов, чтобы быть полезным.

Автор темы Шир

(@shirwp)

ОК.
Итак, третий раздел (который повторяет сообщения из разделов 1 + 2) находится в WP под настройкой -> «Заголовок избранных сообщений».

Кроме того, я искал «новый запрос WP», как вы мне подсказали выше, — есть несколько результатов.
Не уверен, какой из них подходит…

Вот результаты (опять же, сохраненные в Github, когда вы меня направляли :)):
https://github.com/shirgu/remove-duplicate-hp-posts

Одних результатов поиска недостаточно, чтобы определить, какой из них применим.Это только начало дальнейших исследований. «Заголовок избранных сообщений» в настройщике — это то, что добавлено вашей темой. Я все равно не знаю, где делается связанный запрос.

Можно изменять запросы с помощью обработчика действия pre_get_posts, не зная, где создается запрос, но вам все равно нужно знать что-то особенное о запросе, чтобы изменялся только правильный. Это может оказаться бесполезным, но это вариант, если известна правильная информация.

Я рекомендую узнать, как изменить запрос, через специальный канал поддержки вашей темы. Они лучше всех знают, как это сделать.

Контент Elementor Page Builder дублируется под нижним колонтитулом ???

Я не знаю причины проблемы (я бы посмотрел на другие плагины или скрипты, которые могут делать что-то странное).

Что касается обходного пути, мой первый вопрос был бы: зачем вам нужен другой шаблон, а не страница по умолчанию.Вы говорите, что должны сохранить заголовок темы. А как насчет нижнего колонтитула? Почему нельзя просто использовать значение по умолчанию?

Привет,

Я почти уверен, что это связано с темой / конфликтует с Elementor или другим плагином.

Я лично использую и предпочитаю бесплатную тему OceanWP, потому что она имеет отличную поддержку и отлично работает с Elementor.

С этой темой вы можете легко получить тот же макет, что и сейчас, и, по моему опыту, не будет этих (вероятных проблем совместимости).

Почему бы не попробовать, просто оставьте пока другую тему и переключитесь на OceanWP?
Конечно, всегда (я уже говорил, всегда ха-ха) делайте резервные копии!

https://nl.wordpress.org/plugins/all-in-one-wp-migration/ — мой любимый бесплатный инструмент для резервного копирования!

Энни

Спасибо за ответы.

Дело в том, что я создаю сайт для клиента, у которого уже есть другой сайт, принадлежащий другой компании. Клиент хочет, чтобы это было почти идентичным по стилю, потому что две компании должны быть явно связаны.Вот почему я использую ту же тему и тому подобное.

@ Josiah
Причина, по которой я хочу создавать собственный контент, заключается в том, что параметры для шаблона домашней страницы по умолчанию очень ограничены. По сути, у вас есть около восьми различных «виджетов», чтобы их так называть, со встроенными функциями. Они выполнили работу с содержанием домашней страницы предыдущего сайта, но на этот раз нужно добавить что-то новое, чего нельзя сделать с помощью этих виджетов. Есть текстовый виджет, но он слишком ограничен.Вот почему я хочу встроить свои собственные элементы в тело, сохранив исходный верхний и нижний колонтитулы, чтобы они по-прежнему были хорошо узнаваемы для тех, кто знает другой сайт. Что отлично работает, если бы не дублированный контент под нижним колонтитулом.

Нижний колонтитул, который там сейчас находится, ЯВЛЯЕТСЯ по умолчанию. Я попытался создать собственный нижний колонтитул, чтобы посмотреть, можно ли выровнять его по нижнему краю или, по крайней мере, ниже дублированного содержимого, но это не удалось — он просто вел себя точно так же, как нижний колонтитул по умолчанию.

Кроме того, когда вы вводите текст в стандартном текстовом редакторе WordPress вместо Elementor, то же самое происходит с этим текстом — он дублируется под нижним колонтитулом. Это заставляет меня думать, что это не обязательно вина Elementor …

@ LogoLogics

Если я не найду решение, тогда нам просто не повезет, и мне все-таки придется перенести сайт на другую тему. Спасибо за советы, они пригодятся, если такое случится.

В моей теме вы можете либо использовать встроенные функции для компоновки страницы и включения виджетов, ЛИБО вы можете просто определить свою собственную страницу и настроить тему для использования этой страницы. Если вы определяете свою собственную страницу, вы можете выбрать один из трех макетов для любого данного шаблона: боковая панель слева, боковая панель справа или без боковой панели. Итак, если вы выберете шаблон по умолчанию без боковой панели и отредактируете его в Elementor, вы сможете поместить все, что захотите, в тело, сохранив при этом верхний и нижний колонтитулы темы. Не знаю, позволяет ли это ваша тема.

Это действительно странная ошибка, учитывая, что основной текст дублируется после тега. Как это могло произойти, если только а) элемент или не игнорировали файлы шаблона темы; или б) файлы шаблона (кроме шаблона по умолчанию) сами по себе были ошибками?

Привет Иосия,

Я выбрал шаблон без боковой панели, а теперь попробовал и другие с боковыми панелями.Неважно, какой я использую: ошибка повторяется.

Это действительно странная ошибка. Помещение текста в текстовый редактор WordPress по умолчанию без использования Elementor также приведет к его дублированию, поэтому я предполагаю, что это ошибка темы Hestia.
Он имеет настраиваемый шаблон страницы, который вы можете использовать для вставки собственных текстовых блоков. С этим шаблоном содержимое не дублируется. Это будет работать нормально. Однако с этим настраиваемым шаблоном вы получите другой заголовок, и вы не сможете использовать в нем текстовое поле, как в заголовке шаблона домашней страницы.Это делает его довольно бесполезным, лучше было бы найти альтернативную тему.

Вот почему я собираюсь отказаться от этой темы и использовать другую, стараясь при этом сделать сайт максимально похожим на другой. Вроде с этим покончено.

Большое спасибо за ваше время и помощь!

С уважением,

rfloxhea1

Избегайте дублирования содержимого | Центр поиска Google | Разработчики Google

Дублированный контент обычно относится к основным блокам контента внутри или между доменами. которые либо полностью соответствуют другому контенту, либо существенно похожи.В основном это не обманчивое происхождение. Примеры не вредоносного дублированного контента могут включать:

  • Дискуссионные форумы, которые могут создавать как обычные, так и урезанные страницы, ориентированные на мобильные устройства
  • Товары в интернет-магазине, которые отображаются или связаны несколькими разными URL-адресами
  • Версии веб-страниц только для печати

Если ваш сайт содержит несколько страниц с в основном идентичным содержанием, существует ряд способы указать предпочтительный URL для Google.(Это называется «канонизацией».) Больше информации о канонизация.

Однако в некоторых случаях контент намеренно дублируется между доменами в попытке управлять рейтингом в поисковых системах или получать больше трафика. Подобная обманчивая практика может приводит к ухудшению пользовательского опыта, когда посетитель видит практически тот же контент повторяется в наборе результатов поиска.

Google изо всех сил пытается индексировать и отображать страницы с четкой информацией. Эта фильтрация означает, например, если на вашем сайте есть «обычная» и «печатная» версии каждой статьи, и ни один из них не заблокирован с помощью noindex тег, мы выберем один из них в список. В тех редких случаях, когда Google считает, что дублированный контент может быть показан с намерением манипулировать нашим рейтингом и обманывать наших пользователей, мы также внесем соответствующие корректировки в индексирование и ранжирование задействованных сайтов. В качестве в результате может пострадать рейтинг сайта или он может быть полностью удален из Индекс Google, и в этом случае он больше не будет отображаться в результатах поиска.

Есть несколько шагов, которые вы можете предпринять для упреждающего решения проблем с дублирующимся контентом и обеспечения чтобы посетители видели то, что вы им хотите.

  • Используйте 301s : Если вы реструктурировали свой сайт, используйте 301 редирект («RedirectPermanent») в вашем файле . htaccess, чтобы правильно перенаправлять пользователей, робота Google и других пауков. (В Apache, вы можете сделать это с помощью файла .htaccess; в IIS это можно сделать через административную консоль.)
  • Будьте последовательны : Старайтесь, чтобы ваши внутренние ссылки были последовательными. Например, не ссылайтесь на http://www.example.com/page/ и http://www.example.com/page и http://www.example.com/page/index.htm .
  • Используйте домены верхнего уровня : чтобы помочь нам обслуживать наиболее подходящую версию document, по возможности используйте домены верхнего уровня для обработки контента для конкретной страны. Были с большей вероятностью будет знать, что http: // www.example.de содержит контент, ориентированный на Германию, например, чем http://www. example.com/de или http://de.example.com .
  • Тщательно распространяйте информацию : если вы распространяете свой контент на других сайтах, Google всегда будет показывать версию, которую мы считаем наиболее подходящей для пользователей в каждом заданном поиске, которая может быть или не быть той версией, которую вы предпочитаете. Однако полезно убедиться, что каждый сайт, на котором распространяется ваш контент, содержит обратную ссылку на вашу исходную статью.Ты также можете попросить тех, кто использует ваш синдицированный материал, использовать noindex тег, чтобы поисковые системы не индексировали свою версию содержания.
  • Минимизировать повторение шаблонов : Например, вместо включения длинный текст об авторских правах внизу каждой страницы, включая очень краткое изложение, а затем ссылка на страницу с более подробной информацией. Кроме того, вы можете использовать Параметр Инструмент обработки, позволяющий указать, как вы хотите, чтобы Google обрабатывал параметры URL.
  • Избегайте публикации заглушек : пользователям не нравится видеть «пустые» страницы, поэтому избегайте заполнители там, где это возможно. Например, не публикуйте страницы, для которых у вас еще нет реальный контент. Если вы действительно создаете страницы-заполнители, используйте noindex тег, чтобы заблокировать эти страницы от индексации.
  • Изучите свою систему управления контентом : убедитесь, что вы знакомы с как контент отображается на вашем веб-сайте.Блоги, форумы и связанные с ними системы часто показывают один и тот же контент в нескольких форматах. Например, запись в блоге может появиться на домашней странице блог, на странице архива и на странице других записей с таким же ярлыком.
  • Свернуть похожее содержимое : Если у вас много похожих страниц, рассмотрите возможность расширения каждой страницы или объединения страниц в одну. Например, если у вас есть сайт о путешествиях с отдельными страницами для двух городов, но с одинаковой информацией на обеих страницах, вы можете либо объединить страницы об обоих городах в одну, либо развернуть каждый страница, содержащая уникальный контент о каждом городе.

Google не рекомендует блокировать доступ сканеров к дублированному контенту на вашем веб-сайте, будь то файл robots.txt или другие методы. Если поисковые системы не могут сканировать страницы с дублированный контент, они не могут автоматически определить, что эти URL-адреса указывают на один и тот же контент и поэтому фактически придется рассматривать их как отдельные уникальные страницы. Лучшее решение позволяет поисковым системам сканировать эти URL-адреса, но отмечать их как дубликаты с помощью rel = "canonical" элемент ссылки, инструмент обработки параметров URL или 301 редирект. В случаях, когда дублирующийся контент приводит к тому, что мы сканируем слишком большую часть вашего веб-сайта, вы также можете настроить сканирование настройку скорости в Search Console.

Дублирование контента на сайте не является основанием для действий на этом сайте, если только не выяснится, что Цель дублированного контента — вводить в заблуждение и манипулировать результатами поиска. Если ваш сайт страдает от проблем с дублирующимся контентом, и вы не следуете перечисленным советам выше, мы хорошо поработали над выбором версии контента для отображения в наших результатах поиска.

Однако, если наш обзор показал, что вы использовали обман, и ваш сайт был удален из результатов поиска, внимательно просмотрите свой сайт. Если ваш сайт был удален из результатов поиска, просмотрите наш веб-мастер Рекомендации для получения дополнительной информации. После внесения изменений и уверенности в том, что ваш сайт больше не нарушает наши правила, отправьте ваш сайт на пересмотр.

В редких случаях наш алгоритм может выбрать URL-адрес внешнего сайта, на котором размещается ваш контент без вашего разрешения.Если вы считаете, что другой сайт копирует ваш контент в нарушение закона об авторских правах вы можете обратиться к хозяину сайта с просьбой об удалении. В Кроме того, вы можете потребовать, чтобы Google удалил страницу, нарушающую авторские права, из результатов поиска, подача запроса в соответствии с Законом об авторском праве в цифровую эпоху.

Как дублировать страницу в WordPress

Довольно скоро при создании веб-сайта WordPress вы понимаете, что CMS, хотя и мощная, не имеет некоторых потенциально полезных функций из коробки.Примером этого является дублирование страницы или сообщения на вашем веб-сайте.

Дублирование публикации или страницы может быть полезно в некоторых случаях. Возможно, вы захотите создать новую страницу после существующей публикации на странице или поэкспериментировать со страницей, не меняя оригинал. Если вы создали шаблон для будущих страниц или сообщений, вам также понадобится способ делать копии.

Один из способов выполнить эту задачу — вручную скопировать и вставить содержимое со старой страницы на новую. Однако с этим есть некоторые проблемы. Это отнимает много времени, есть вероятность непреднамеренного изменения исходного содержания, и вы не сможете скопировать макет, настройки и важные метаданные из оригинала.

Вместо этого сделайте себе одолжение и используйте плагин. В этой статье я объясню, как скопировать сообщение или страницу на вашем веб-сайте WordPress, используя два разных бесплатных плагина для дублирования страниц. Давайте начнем.

Как дублировать страницу в WordPress

Плагин дублирования страниц должен действовать как копировальная машина для вашего сайта — дайте ему сообщение или страницу, и он сгенерирует для вас идентичную версию за секунды. Эти плагины также позволяют при необходимости изменять настройки копирования.

Я расскажу, как дублировать ваш контент с помощью двух плагинов: Yoast Duplicate Post и Duplicate Page. Оба популярны, хорошо проверены и интегрируются прямо в вашу панель управления WordPress. Начнем с плагина Yoast.

Чтобы скопировать сообщение или страницу с помощью плагина Yoast Duplicate Post:

1. Перейдите к сообщениям> Добавить новый , затем установите и активируйте плагин Yoast Duplicate Post.

2. Выберите Сообщения> Все сообщения , чтобы клонировать сообщение, или Страницы> Все страницы , чтобы клонировать страницу.Этот плагин добавляет две новые опции при наведении курсора на сообщение или листинг страницы: Clone и New Draft .

3. Чтобы скопировать сообщение или страницу, не открывая редактор, щелкните Клонировать . Это создаст дубликат в списке Все сообщения или Все страницы .

4. Чтобы скопировать сообщение или страницу и открыть эту копию в редакторе, вместо этого щелкните Новый черновик .

Yoast Duplicate Post также позволяет дублировать сразу несколько элементов.В разделе Все сообщения или Все страницы выберите сообщения / страницы, которые вы хотите скопировать, затем выберите Массовые действия> Клонировать и нажмите Применить .

Вы также можете изменить настройки этого плагина в разделе «Настройки »> «Дублировать сообщение ».

  • Менее Что копировать , выберите, какие элементы переносить в ваши дубликаты, и как помечать дублирующиеся сообщения / страницы по умолчанию.
  • В разделе «Разрешения » переключите, кто может дублировать страницы / сообщения и какие типы сообщений могут копироваться плагином.
  • В разделе Display измените расположение ссылок на клонированное сообщение / страницу.

После редактирования настроек плагина нажмите кнопку Сохранить изменения .

Чтобы скопировать сообщение или страницу с помощью плагина Duplicate Page:

1. Перейдите в Сообщения> Добавить новый , затем установите и активируйте плагин Duplicate Page.

2. Выберите Сообщения> Все сообщения , чтобы клонировать сообщение, или Страницы> Все страницы , чтобы клонировать страницу.

3. Наведите указатель мыши на запись / страницу, которую вы хотите скопировать, и нажмите Дублировать это . Вы увидите дубликат в списке Все сообщения или Все страницы .

В разделе «Настройки »> «Дублировать страницу » вы можете установить свой редактор, статус дублированного сообщения по умолчанию и суффикс, назначаемый повторяющимся именам страниц / сообщений.

Копировать

Это было легко, правда? Это всего лишь один пример того, как плагин может предоставить быстрое, надежное и удобное решение для общей проблемы WordPress.Эта новая функция настолько хорошо вписывается в собственный интерфейс WordPress, что вы даже можете забыть, что это плагин.

Оба варианта, которые я рассмотрел, выполнят свою работу, и ни один из них не лучше другого. Тем не менее, попробуйте оба варианта и выберите тот, который вам больше нравится. В любом случае вы избежите утомительного копирования и вместо этого сосредоточитесь на расширении своего сайта.

причин и решений • Yoast

Йост де Валк

Йост де Валк — основатель и директор по продуктам Yoast.Он интернет-предприниматель, который незадолго до основания Yoast инвестировал и консультировал несколько стартапов. Его основная специализация — разработка программного обеспечения с открытым исходным кодом и цифровой маркетинг.

У поисковых систем, таких как Google, есть проблема — это «дублированный контент». Дублированный контент означает, что похожий контент появляется в нескольких местах (URL) в Интернете, и в результате поисковые системы не знают, какой URL показывать в результатах поиска. Это может повредить рейтинг веб-страницы, и проблема только усугубится, когда люди начнут ссылаться на разные версии одного и того же контента.Эта статья поможет вам понять различные причины дублирования контента и найти решение каждой из них.

Что такое дублированный контент?

Дублированный контент — это контент, доступный по нескольким URL-адресам в Интернете. Поскольку более чем один URL показывает одно и то же содержание, поисковые системы не знают, какой URL вывести в результатах поиска. Поэтому они могут поставить оба URL ниже и отдать предпочтение другим веб-страницам.

В этой статье мы в основном сосредоточимся на технических причинах дублирования контента и способах их устранения.Если вы хотите получить более широкое представление о дублированном содержании и узнать, как он соотносится с скопированным или извлеченным содержанием или даже с каннибализацией ключевых слов, мы советуем вам прочитать этот пост: Что такое дублированный контент.

Проиллюстрируем это на примере

Дублированный контент можно сравнить с тем, что вы находитесь на перекрестке, где дорожные знаки указывают в двух разных направлениях на один и тот же пункт назначения: по какой дороге вам следует выбрать? Что еще хуже, конечный пункт назначения тоже отличается, но совсем немного.Как читатель, вы не возражаете, потому что получаете контент, за которым пришли, но поисковая система должна выбрать, какую страницу показывать в результатах поиска, потому что, конечно, она не хочет отображать одно и то же содержание дважды.

Допустим, ваша статья о ‘keyword x’ размещена по адресу http://www.example.com/keyword-x/ , и то же содержание также появляется по адресу http://www.example.com/article- категория / ключевое слово-x / . Эта ситуация не является фикцией: это происходит во многих современных системах управления контентом.Допустим, ваша статья была подхвачена несколькими блоггерами, и некоторые из них ссылаются на первый URL, а другие — на второй. Это когда проблема поисковой системы проявляет свою истинную природу: это ваша проблема . Дублированный контент — ваша проблема, потому что обе эти ссылки продвигают разные URL. Если бы все они ссылались на один и тот же URL-адрес, ваши шансы на ранжирование по «ключевое слово x» были бы выше.

Если вы не знаете, страдает ли ваш рейтинг от проблем с дублирующимся контентом, эти инструменты для обнаружения дублированного контента помогут вам это выяснить!

Причины дублирования контента

Есть десятки причин дублирования контента.Большинство из них носит технический характер: не очень часто человек решает разместить один и тот же контент в двух разных местах, не уточняя, какой из них является оригиналом. Если, конечно, вы не клонировали сообщение и не опубликовали его случайно. Но в остальном большинству из нас это кажется неестественным.

Есть много технических причин, и в основном это происходит из-за того, что разработчики думают не как браузер или даже как пользователь, не говоря уже о пауке поисковой машины — они думают как программисты. Возьмите ту статью, о которой мы упоминали ранее, которая размещена на http: // www.example.com/keyword-x/ и http://www.example.com/article-category/keyword-x/ . Если вы спросите разработчика, он скажет, что он существует только один раз.

Непонимание концепции URL

Нет, этот разработчик не сошел с ума, просто они говорят на другом языке. CMS, вероятно, будет обеспечивать работу веб-сайта, и в этой базе данных есть только одна статья, но программное обеспечение веб-сайта просто позволяет извлекать ту же статью из базы данных по нескольким URL.Это связано с тем, что в глазах разработчика уникальный идентификатор этой статьи — это идентификатор статьи в базе данных, а не URL-адрес. Но для поисковой системы URL-адрес является уникальным идентификатором части контента. Если вы объясните это разработчику, они начнут понимать проблему. И после прочтения этой статьи вы даже сможете сразу же предложить им решение.

Идентификаторы сеанса

Вы часто хотите отслеживать посетителей и позволять им, например, хранить товары, которые они хотят купить, в корзине. Для этого вы должны дать им «сеанс». Сеанс представляет собой краткую историю того, что посетитель делал на вашем сайте, и может содержать такие вещи, как товары в его корзине покупок. Чтобы поддерживать этот сеанс, когда посетитель щелкает с одной страницы на другую, необходимо где-то хранить уникальный идентификатор этого сеанса, называемый идентификатором сеанса. Наиболее распространенное решение — использовать файлы cookie. Однако поисковые системы обычно не хранят файлы cookie.

В этот момент некоторые системы возвращаются к использованию идентификаторов сеанса в URL-адресе.Это означает, что каждая внутренняя ссылка на веб-сайте получает этот идентификатор сеанса, добавленный к его URL-адресу, и, поскольку этот идентификатор сеанса уникален для этого сеанса, он создает новый URL-адрес и, следовательно, дублирует контент.

Параметры URL, используемые для отслеживания и сортировки

Другой причиной дублирования контента является использование параметров URL, которые не изменяют содержание страницы, например, в ссылках отслеживания. Видите ли, в поисковой системе http://www.example.com/keyword-x/ и http: // www.example.com/keyword-x/?source=rss — это разные URL. Последнее может позволить вам отслеживать, откуда пришли люди, но это также может затруднить вам высокий рейтинг — очень нежелательный побочный эффект!

Конечно, это касается не только параметров отслеживания. Это касается каждого параметра, который вы можете добавить к URL-адресу, который не меняет жизненно важный фрагмент контента, независимо от того, предназначен ли этот параметр для «изменения сортировки в наборе продуктов» или для «отображения другой боковой панели»: все они вызывают дублирование содержание.

Скребки и синдикация контента

Большинство причин дублирования контента — это «вина» вас или вашего веб-сайта. Однако иногда другие веб-сайты используют ваш контент с вашего согласия или без него. Они не всегда ссылаются на вашу исходную статью, и поэтому поисковая система не «понимает» ее и вынуждена иметь дело с еще одной версией той же статьи. Чем популярнее становится ваш сайт, тем больше у вас будет скребков, что усугубляет проблему.

Порядок параметров

Другая распространенная причина заключается в том, что CMS использует не красивые чистые URL-адреса, а такие URL-адреса, как /? Id = 1 & cat = 2 , где ID относится к статье, а cat — к категории. URL /? Cat = 2 & id = 1 будет отображать те же результаты в большинстве систем веб-сайтов, но они совершенно разные для поисковой системы.

В моем любимом WordPress, но также и в некоторых других системах есть возможность разбивать ваши комментарии на страницы.Это приводит к дублированию контента по URL-адресу статьи, URL-адресу статьи + / comment-page-1 /, / comment-page-2 / и т. Д.

страниц для печати

Если ваша система управления контентом создает удобные для печати страницы, и вы ссылаетесь на них со страниц статей, Google обычно их найдет, если вы специально не заблокируете их. Теперь спросите себя: какую версию вы хотите, чтобы Google показывал? Тот, с вашей рекламой и второстепенным контентом, или тот, который показывает только вашу статью?

WWW vs.не-WWW

Это один из старейших в книге, но иногда поисковые системы все равно ошибаются: WWW или не-WWW дублированный контент, когда доступны обе версии вашего сайта. Другая, менее распространенная ситуация, но которую я тоже видел, — это дублированный контент HTTP и HTTPS, когда один и тот же контент обслуживается обоими.

Концептуальное решение: «канонический» URL

Как мы уже видели, тот факт, что несколько URL-адресов ведут к одному и тому же контенту, является проблемой, но ее можно решить.Один человек, который работает в публикации, обычно может довольно легко сказать вам, каким должен быть «правильный» URL для определенной статьи, но иногда, когда вы спрашиваете трех человек в одной компании, вы получаете три разных ответа …

Это проблема, которую необходимо решить, потому что, в конце концов, может быть только один (URL). Этот «правильный» URL-адрес для части контента обозначается поисковыми системами как Canonical URL .

Ироническая сторона примечания

Канонический — термин, восходящий к римско-католической традиции, где был составлен список священных книг и принят как подлинный.Они были известны как канонические Евангелия Нового Завета. Ирония заключается в том, что Римско-католической церкви потребовалось около 300 лет и множество сражений, чтобы составить этот канонический список, и в конечном итоге они выбрали четыре версии одной и той же истории

Выявление проблем с повторяющимся содержимым

Вы можете не знать, есть ли у вас проблема с дублированием контента на вашем сайте или с вашим контентом. Использование Google — один из самых простых способов обнаружить повторяющийся контент.

Есть несколько поисковых операторов, которые очень полезны в подобных случаях.Если вы хотите найти все URL-адреса на своем сайте, которые содержат ваше ключевое слово X статья, введите следующую поисковую фразу в Google:

 site: example.com intitle: "Ключевое слово X"
 

Google покажет вам все страницы на example.com, содержащие это ключевое слово. Чем конкретнее вы сделаете intitle частью запроса, тем легче будет отсеять повторяющийся контент. Вы можете использовать тот же метод для выявления повторяющегося контента в Интернете. Предположим, что полное название вашей статьи было «Ключевое слово X — почему оно классное» , вы должны искать:

 intitle: «Ключевое слово X - почему оно круто»
 

И Google предоставит вам все сайты с таким названием.Иногда стоит даже поискать одно или два полных предложения из статьи, так как некоторые парсеры могут изменить заголовок. В некоторых случаях, когда вы выполняете такой поиск, Google может показывать подобное уведомление на последней странице результатов:

Это признак того, что Google уже «исключает дублирование» результатов. Это по-прежнему не очень хорошо, поэтому стоит нажать на ссылку и просмотреть все остальные результаты, чтобы узнать, можно ли исправить некоторые из них.

Подробнее: Сделай сам: проверка дублированного контента »

Практические решения для дублирования контента

После того, как вы определились, какой URL является каноническим для вашего контента, вы должны начать процесс канонизации (да, я знаю, попробуйте произнести это вслух трижды и быстро).Это означает, что мы должны сообщить поисковым системам о канонической версии страницы и позволить им найти ее как можно скорее. Существует четыре метода решения проблемы в порядке предпочтения:

  1. Отсутствие дублирования содержимого
  2. Перенаправление дублированного содержимого на канонический URL
  3. Добавление элемента канонической ссылки на повторяющуюся страницу
  4. Добавление ссылки HTML с дублированной страницы на каноническую страницу

Избегание дублирования содержимого

Для некоторых из перечисленных выше причин дублирования контента есть очень простые решения:

  • Есть ли в ваших URL идентификаторы сеанса?
    Часто их можно просто отключить в настройках вашей системы.
  • У вас есть дубликаты страниц для печати?
    Это совершенно не нужно: вы должны просто использовать таблицу стилей печати.
  • Используете ли вы разбивку на страницы комментариев в WordPress?
    Вы должны просто отключить эту функцию (в настройках »обсуждение ) на 99% сайтов.
  • Ваши параметры в другом порядке?
    Попросите вашего программиста создать сценарий, который всегда помещает параметры в одном порядке (это часто называют фабрикой URL-адресов).
  • Есть ли проблемы со ссылками для отслеживания?
    В большинстве случаев вы можете использовать отслеживание кампании на основе хэш-тегов вместо отслеживания кампании на основе параметров.
  • Есть ли у вас проблемы с WWW или без WWW?
    Выберите один и придерживайтесь его, перенаправив одно на другое. Вы также можете установить предпочтение в Инструментах Google для веб-мастеров, но вам нужно будет заявить обе версии доменного имени.

Если проблему решить не так просто, возможно, стоит приложить усилия.Целью должно быть предотвращение появления дублированного контента в целом, поскольку это, безусловно, лучшее решение проблемы.

301 Перенаправление дублированного контента

В некоторых случаях невозможно полностью запретить системе, которую вы используете, создавать неправильные URL-адреса для содержания, но иногда их можно перенаправить. Если для вас это не логично (что я могу понять), помните об этом, разговаривая со своими разработчиками. Если вы или избавляетесь от некоторых проблем с дублированным контентом, убедитесь, что вы перенаправляете все старые URL-адреса дублированного контента на правильные канонические URL-адреса.

Использование ссылок

Иногда вы не хотите или не можете избавиться от повторяющейся версии статьи, даже если знаете, что это неправильный URL. Чтобы решить эту конкретную проблему, поисковые системы ввели элемент канонической ссылки. Он находится в разделе вашего сайта и выглядит так:

    

В разделе href канонической ссылки вы помещаете правильный канонический URL-адрес вашей статьи.Когда поисковая система, поддерживающая каноническую версию, находит этот элемент ссылки, она выполняет мягкое перенаправление 301, передавая большую часть значения ссылки, собранной этой страницей, на вашу каноническую страницу.

Этот процесс немного медленнее, чем переадресация 301, поэтому, если вы можете просто выполнить переадресацию 301, это было бы предпочтительнее, как сказал Джон Мюллер из Google.

Продолжайте читать: rel = canonical • Что это такое и как (не) использовать »

Возврат к исходному содержанию

Если вы не можете сделать что-либо из вышеперечисленного, возможно потому, что вы не контролируете раздел сайта, на котором отображается ваш контент, добавление ссылки на исходную статью поверх или под статьей всегда отличная идея.Возможно, вы захотите сделать это в своем RSS-канале, добавив в него обратную ссылку на статью. Некоторые парсеры отфильтровывают эту ссылку, а другие могут оставить ее. Если Google обнаружит несколько ссылок, указывающих на вашу исходную статью, он довольно скоро определит, что это настоящая каноническая версия.

Вывод: дублирующийся контент можно исправить, и его необходимо исправить

Повторяющийся контент встречается везде. Я еще не встречал сайт с более чем 1000 страниц, на котором не было бы хотя бы крошечной проблемы с дублированием контента.Это то, за чем нужно постоянно следить, но это поправимо, и награды могут быть многочисленными. Ваш качественный контент может взлететь в рейтинге, просто избавившись от дублированного контента с вашего сайта!

Читайте дальше: Rel = canonical: Полное руководство »

Как бороться с дублирующимися проблемами контента (в том числе созданными вашей CMS)

Вы когда-нибудь беспокоились о дублировании контента?

Это может быть что угодно: какой-нибудь шаблонный текст на вашем веб-сайте.Или описание продукта на своей веб-странице электронной коммерции, которое вы позаимствовали у исходного продавца. Или, может быть, цитата, которую вы скопировали из своего любимого сообщения в блоге или авторитетного источника в вашей нише.

Как бы вы ни старались предложить 100% уникальный контент, у вас ничего не получится.

Дублированный контент входит в пятерку основных проблем SEO, с которыми сталкиваются сайты, особенно сейчас, когда Google ввел в игру свое Panda Update.

Это правда: вы НЕ МОЖЕТЕ удалить все экземпляры дублированного контента на своих веб-страницах, даже если вы используете параметр rel canonical tag url.

Мэтт Каттс из Google заявил, что дублированный контент постоянно встречается в сети, от сообщений в блогах до веб-страниц и социальных сетей. Каттс заявил,

25-30% Интернета — это дублированный контент .

И Google это понимает.

Таким образом, не существует штрафов GOOGLE за Дублирование контента.

Да, вы правильно прочитали.

Google не наказывает веб-сайты, использующие дублированный контент.То, что Google преследует сайты с X% дублированного контента, — это еще один миф SEO.

Теперь вы, вероятно, задаетесь вопросом: если Google не наказывает веб-сайты с дублированным содержанием, в чем вся суета вокруг ? Зачем нужны относительные канонические теги и управление контентом, чтобы у вас не было дубликатов?

Хотя Google не наказывает сайты за дублированный контент, он не поощряет его. Давайте посмотрим, почему Google не одобряет дублирование контента и их Panda Update, а затем рассмотрим различные способы решения проблем с дублированием контента на вашем сайте.От параметров URL до канонических тегов и идентификаторов сеансов — существует множество способов уменьшить количество проблем с дублированием контента.

Прежде чем мы начнем, давайте посмотрим, как Google определяет повторяющийся контент.

Что такое дублированный контент

Google определяет повторяющееся содержание:

Дублированный контент обычно относится к основным блокам контента внутри или между доменами, которые либо полностью соответствуют другому контенту, либо в значительной степени похожи.

Как вы можете понять из определения Google, Google выделяет два типа экземпляров дублированного контента: первый тип возникает в одном домене, а другой — в нескольких доменах.

Вот несколько примеров, которые помогут понять дублированный контент и разные типы.

Экземпляры дублированного контента в одном домене

Как вы понимаете, дублированный контент такого типа встречается на вашем сайте электронной коммерции, сообщениях в блогах или на веб-сайте.

Думайте о таком повторяющемся содержимом как об одном и том же содержимом, которое появляется на разных веб-страницах вашего сайта.

Может быть:

  • Этот контент присутствует на вашем сайте в разных местах (URL).
  • Или, возможно, он доступен разными способами (что приводит к другим параметрам URL). Например, это могут быть те же сообщения, которые отображаются при поиске по разным категориям и тегам на вашем сайте.

Давайте рассмотрим несколько примеров повторяющегося содержания различных типов на одном сайте.

Содержание базовой плиты:

Проще говоря, шаблонный контент доступен в разных разделах или веб-страницах вашего сайта.

Ann Smarty классифицирует содержимое Boilerplate как:

  • (по всему сайту) глобальная навигация (главная, о нас и т. Д.)
  • Определенные специальные области, особенно если они содержат ссылки (блогролл, навигационная панель)
  • Разметка (javascript, идентификатор CC / имена классов, такие как заголовок, нижний колонтитул)

Если вы посмотрите на стандартный сайт, у него обычно есть верхний колонтитул, нижний колонтитул и боковая панель.В дополнение к этим элементам большинство CMS позволяют вам показывать ваши самые последние сообщения или самые популярные сообщения на вашей домашней странице.

Когда поисковые роботы просканируют ваш сайт, они поймут, что этот контент присутствует на вашем сайте несколько раз, и поэтому это действительно дублированный контент.

Но этот тип повторяющегося контента не вредит вашему SEO . Боты поисковых систем достаточно сложны, чтобы понимать, что намерение, стоящее за этим дублированием контента, не является злонамеренным.Итак, вы в безопасности.

Несовместимые структуры URL:

Посмотрите на следующие URL-адреса —

www.yoursite.com/

yoursite.com

http://yoursite.com

http://yoursite.com/

https://www.yoursite.com

https://yoursite.com

Вам они кажутся одинаковыми?

Да, вы правы, целевой URL такой же. Итак, для вас они означают одно и то же. К сожалению, боты поисковых систем воспринимают их как разные URL-адреса.

Но когда боты поисковых систем сталкиваются с одним и тем же контентом на двух разных URL-адресах : http://yoursite.com и https://yoursite.com , они рассматривают это как дублированный контент.

Эта проблема относится и к параметрам URL, созданным для целей отслеживания:

http://yoursite.com/?utm_source=newsletter4&utm_medium=email&utm_campaign=holidays

параметров URL с отслеживанием также могут вызывать проблемы с дублированием контента.

Локализованные домены:

Предположим, вы обслуживаете разные страны и создали локализованные домены для каждой обслуживаемой страны.

Например, у вас может быть версия вашего сайта .de для Германии и версия .au для Австралии.

Естественно, что содержание обоих сайтов будет частично совпадать. Если вы не переведете свой контент для домена .de, поисковые системы обнаружат, что ваш контент дублируется на обоих сайтах.

В таких случаях, когда поисковик ищет вашу компанию, Google покажет любой из этих двух URL.

Google часто видит статус поисковика. Допустим, поисковик находился в Германии. По умолчанию Google показывает только ваш домен .de. Однако Google может ошибаться.

Экземпляры дублированного контента на разных доменах

Скопировано:

Копирование содержания с сайта (без разрешения) является неправильным, и Google так считает. Если вы не предлагаете ничего, кроме дублированного контента, ваш сайт будет в опасности, особенно сейчас, когда идет обновление Panda Update.Google может вообще не показывать его в результатах поиска или сбрасывать ваш веб-сайт с первых нескольких страниц результатов.

Курирование контента:

Контент-курирование — это процесс поиска историй и создания сообщений в блогах, актуальных для ваших читателей. Эти истории могут быть откуда угодно в Интернете — от веб-страниц до социальных сетей.

Поскольку сообщение о курировании контента составляет список фрагментов контента со всего Интернета, естественно, что сообщение содержит дублированный контент (даже если это просто дублированные заголовки).В большинстве сообщений в блогах также используются выдержки и цитаты.

Опять же, Google не считает это СПАМом.

Пока вы даете некоторое представление, свежий взгляд или объясняете вещи в своем собственном стиле, Google не будет рассматривать это дублирование контента как злонамеренное, освобождая вас от беспокойства о необходимости добавлять относительные канонические теги, идентификаторы сеанса и т. Д. .

Синдикация контента:

Синдикация контента становится все более популярной тактикой управления контентом.Курата обнаружил, что идеальный комплекс контент-маркетинга включает 10% синдицированного контента.

По словам Search Engine Land, « Синхронизация контента — это процесс продвижения вашего блога, сайта или видеоконтента на сторонние сайты в виде полной статьи, фрагмента, ссылки или эскиза.

Сайты, которые объединяют контент, предлагают его контент для публикации на нескольких сайтах. Это означает, что существует несколько копий любого синдицированного сообщения.Это также верно и в отношении социальных сетей.

Если вы знакомы с публикацией Хаффингтона, то знаете, что она допускает распространение контента. Каждый день он публикует истории со всего Интернета и переиздает их с разрешения.

Buffer также объединяет контент. Их содержание переиздается на таких сайтах, как Huffington Post, Fast Company, Inc. и других.

На следующем снимке экрана показан трафик, который такой синдицированный контент приносит на их сайт.

Хотя эти экземпляры считаются повторяющимся содержанием, Google не наказывает их.

Лучший способ синдицировать контент — это попросить сайты повторной публикации объявить вас как создателя исходного контента, а также дать ссылку на ваш сайт с соответствующим якорным текстом, то есть с исходным фрагментом контента.

Очистка содержимого:

Очистка контента всегда является серой зоной, когда вы обсуждаете проблемы с дублированным контентом.

Википедия определяет парсинг веб-страниц (или парсинг контента) как:

Веб-скрапинг (сбор веб-данных или извлечение веб-данных) — это компьютерный программный метод извлечения информации с сайтов.

Интересно, что даже Google собирает данные, чтобы сразу предложить их в первой поисковой выдаче.

Итак, неудивительно, что твит Мэтта Катта,

Если вы видите, что URL-адрес парсера превосходит исходный источник содержания в Google, сообщите нам об этом…

создавал довольно много шума.

Дэн Баркер ответил этим твитом:

@mattcutts Мне кажется, я заметил одного, Мэтт. Обратите внимание на сходство в тексте содержания:

Как видите.Google выбирает контент из лучших результатов и показывает его прямо в поисковой выдаче. Это, без сомнения, списание контента.

Таким образом, не во всех случаях отказываться от скрапинга как злоупотребления служебным положением.

Однако, если вы пойдете немного глубже, вы увидите, что Google не приемлет сайты-парсеры контента, как указано в их Panda Update.

Теперь, когда у вас есть разумное представление о том, что считается дублированным содержанием, давайте рассмотрим случаи, которые не являются случаями дублирования содержания, но веб-мастера часто беспокоятся о них.

Что не считается повторяющимся содержанием

Переведенное содержание:

Переведенное содержимое НЕ ЯВЛЯЕТСЯ ДУБЛИРОВАННЫМ содержимым. Если у вас есть сайт, и вы локализовали его для разных стран и перевели основной контент на местные языки, вы не столкнетесь с проблемами дублирования контента.

Но этот пример не так прост. Если для перевода вы используете какое-либо программное обеспечение, инструменты для веб-мастеров или даже переводчик Google, качество перевода не будет идеальным.

И, когда перевод не имеет естественного смысла и не требует личной проверки, Google может рассматривать контент как спам, дублированный контент.

Такой контент может быть легко идентифицирован как созданный с помощью программного обеспечения и может поднимать флажки перед Google.

Лучший способ избежать этой проблемы — привлечь к работе переводчика-человека. Или сделайте достойную работу с хорошим программным обеспечением, а затем передайте его на рассмотрение профессиональному переводчику.

Просматривая переведенный контент, вы убедитесь, что качество контента на высшем уровне, и Google не сочтет его дублирующимся.

Но, если по какой-то причине вы не можете сделать ни одно из двух, вам следует заблокировать программно переведенный контент от просмотра ботами с помощью robots.txt. (Я покажу вам, как это сделать в следующих разделах.)

Мобильный контент сайта:

Если у вас нет адаптивного сайта, возможно, вы разработали отдельную мобильную версию для своего основного сайта.

Итак, у вас будут разные URL, обслуживающие одно и то же содержание, например:

http: ваш сайт.com — Веб-версия

http.m.yoursite.com — Мобильная версия

Наличие одинакового содержания в версиях веб-сайта и мобильной версии сайта не считается дублированием содержания. Кроме того, вы должны знать, что у Google есть разные поисковые боты, которые сканируют мобильные сайты, поэтому вам не нужно беспокоиться об этом случае.

Google может выявлять экземпляры дублированного контента, созданного со злым умыслом. Вы никогда не подвергаетесь риску, если не пытаетесь обмануть систему. Но вам все равно следует избегать случаев дублирования контента, поскольку они влияют на ваше SEO.

Вот как дублированный контент может повлиять на SEO:

Проблемы, вызванные дублированием контента

Проблема № 1 — Снижение популярности ссылки

Когда вы не устанавливаете единообразную структуру URL-адресов для своего сайта, вы в конечном итоге создаете и распространяете различные версии ссылок вашего сайта, когда начинаете построение ссылок.

Чтобы лучше понять это, представьте, что вы создали эпический ресурс, который произвел тонну входящих ссылок и трафика из множества идентификаторов сеансов.

Тем не менее, вы не видите, что авторитет страницы этого первоисточника повысился так, как вы ожидали.

Почему авторитет страницы не вырос, несмотря на все ссылки и тягу?

Возможно, это не так, потому что разные сайты с обратными ссылками ссылались на ресурс, используя разные версии URL ресурса.

Нравится:

http://www.yoursite.com/resource

http://yoursite.com/resource

http://yoursite.com/resource

и так далее…

Вы видите, как непонимание управления дублированным контентом разрушило ваши шансы на создание страницы с более высоким авторитетом?

Все потому, что поисковые системы не могли интерпретировать, что все URL-адреса указывают на одно и то же целевое местоположение.

Проблема № 2 — Отображение недружественных URL-адресов

Когда Google встречает в сети два идентичных или существенно похожих ресурса, он предпочитает показать один из них поисковику. В большинстве случаев Google выберет наиболее подходящую версию вашего контента. Но не каждый раз это получается правильно.

Может случиться, что для определенного поискового запроса Google может показать не очень красивую версию URL вашего сайта.

Например, если пользователь искал вашу компанию в Интернете, какой из следующих параметров URL-адреса вы хотели бы показать посетителю:

http: // ваш сайт.com

или http://yoursite.com/overview.html

Думаю, вам будет интересно показать первый вариант.

Но Google может просто показать второй.

Если бы вы в первую очередь избегали дублирования контента, не было бы такой путаницы, и пользователь увидел бы только лучшую и наиболее известную версию вашего URL.

Проблема № 3 — Отключение ресурсов сканера поисковой системы

Если вы понимаете, как работают сканеры, вы знаете, что Google отправляет своих поисковых мета-роботов для сканирования вашего сайта в зависимости от частоты публикации свежего контента.

Теперь представьте, что сканеры Google посещают ваш сайт и просматривают пять URL-адресов только для того, чтобы обнаружить, что все они предлагают одинаковый контент.

Когда поисковые роботы обнаруживают и индексируют один и тот же контент в разных местах вашего сайта, вы теряете циклы сканирования. Понимая дублированный контент, поисковые роботы не будут сканировать ваш новый контент.

В противном случае эти циклы искателя могли бы использоваться для сканирования и индексации любого недавно опубликованного контента, который вы могли добавить на свой сайт.Это не только приведет к потере ресурсов сканера, но и нанесет ущерб вашему SEO.

Как Google обрабатывает дублированный контент

Когда Google находит идентичные экземпляры контента, он решает показать один из них. Выбор ресурса для отображения в результатах поиска будет зависеть от поискового запроса.

Если на вашем сайте есть такое же содержание и вы также предлагаете его печатную версию, Google рассмотрит, заинтересован ли поисковик в печатной версии. Если это так, будет выбрана и представлена ​​только версия для печати.

Вы могли заметить сообщения в поисковой выдаче о том, что другие похожие результаты не были показаны. Это происходит, когда Google выбирает одну из нескольких копий аналогичного контента на разных веб-страницах.

Дублирующийся контент не всегда рассматривается как СПАМ. Это становится проблемой только тогда, когда целью является злоупотребление, обман и манипулирование рейтингом в поисковых системах.

Google серьезно относится к дублированному контенту и может даже заблокировать ваш сайт, если вы попытаетесь обмануть поисковую систему, используя дублированный контент.

Согласно политике Google в отношении дублированного содержания:

В тех редких случаях, когда Google считает, что дублированный контент может быть показан с намерением манипулировать нашим рейтингом и обмануть наших пользователей, мы также внесем соответствующие корректировки в индексирование и рейтинг соответствующих сайтов. В результате может пострадать рейтинг сайта или сайт может быть полностью удален из индекса Google, и в этом случае он больше не будет отображаться в результатах поиска.

Как вы видели выше, большинство случаев дублирования контента происходит непреднамеренно.Даже вы можете использовать шаблонный текст на своем сайте. Кроме того, возможно, что различные сайты, социальные сети или сообщения в блогах копируют и публикуют ваш контент без вашего разрешения.

Есть разные способы проверить свой сайт на наличие проблем с дублирующимся контентом. Давайте рассмотрим несколько вариантов.

Как определить проблемы с дублированным контентом

Метод № 1. Выполните простой поиск в Google

Самый простой способ обнаружить проблемы с дублированным контентом на вашем сайте — это выполнить простой поиск в Google.

Просто найдите ключевое слово, по которому вы ранжируете, и наблюдайте за результатами поисковой системы. Если вы обнаружите, что Google показывает неудобный для пользователя URL-адрес вашего контента, значит, на вашем сайте есть дублированный контент.

Метод № 2: Ищите предупреждения в Google Webmasters

Инструмент для веб-мастеров в Google Search Console также заранее предупреждает вас о случаях дублирования контента на вашем сайте.

Чтобы найти предупреждения Google о дублированном содержании, войдите в свою учетную запись Google для веб-мастеров.Если вы уже вошли в систему, вы можете просто нажать на эту ссылку.

Метод 3. Проверьте показатели Crawler на панели инструментов веб-мастеров

Показатели сканера показывают количество страниц, которые Google просканировал на вашем сайте.

Если вы видите, что роботы сканируют и индексируют сотни страниц на вашем сайте, а у вас их всего несколько, возможно, вы используете несогласованные URL-адреса или текст привязки или не используете относительные канонические теги.Следовательно, сканеры поисковых систем просматривают один и тот же контент несколько раз по разным URL-адресам.

Чтобы просмотреть показатели сканера , войдите в свою учетную запись Google Webmasters, нажмите на параметр Сканировать на левой панели. В развернутом меню выберите параметр Crawl Stats .

Если вы видите необычно высокую активность поисковых роботов при использовании этого инструмента для веб-мастеров, вам следует проверить структуру URL-адресов и посмотреть, не используются ли на вашем сайте несовместимые URL-адреса.

Метод 4: Кричащая лягушка

Screaming Frog — это инструмент для веб-мастеров по SEO-аудиту для настольных компьютеров, который сканирует ваш сайт так же, как поисковые роботы. С его помощью вы можете выявить несколько типов повторяющегося контента и проблемы с параметрами URL.

шагов по использованию Screaming Frog для поиска повторяющихся проблем с контентом:

1. Посетите официальный сайт Screaming Frog и загрузите копию, совместимую с вашей системой.

Обратите внимание, что бесплатную версию Screaming Frog можно использовать для сканирования до 500 веб-страниц.Этого достаточно для большинства сайтов.

2. После установки программы откройте ее и введите URL своего сайта. Щелкните start.

3. После того, как Screaming Frog просканирует ваш сайт, вы можете щелкнуть по полю, в котором вы хотите проверить дублированный контент, такой как URL-адреса, заголовки страниц, якорный текст, метаописания и так далее.

После выбора поля выберите повторяющийся фильтр. Используя этот метод, вы можете обнаружить все случаи дублирования контента на вашем сайте.

Метод 5. Поиск блоков содержимого

Этот метод немного грубоват, но если вы подозреваете, что ваш контент копируется на разных сайтах или в сообщениях в блогах или присутствует в разных местах вашего сайта, вы также можете попробовать его.

Скопируйте случайный текстовый блок из своего контента и выполните простой поиск в Google. Не забывайте не использовать длинные абзацы, так как они вернут ошибку.

Выберите абзац из 2-3 предложений и поищите его в Google.

Если результаты поиска показывают, что ваш контент размещен на разных сайтах, вероятно, вы стали жертвой плагиата.

Используя вышеуказанные методы, вы можете легко определить проблемы с дублирующимся контентом на своем сайте. Теперь давайте рассмотрим некоторые решения для решения проблем с дублированием контента.

4 решения проблемы дублирования контента

1. Последовательность

Как вы видели в предыдущем разделе, большинство случаев дублирования контента происходит, когда структура URL-адреса несовместима.

Лучшее решение для вас — стандартизация предпочитаемой структуры ссылок, а также правильное использование канонических тегов. Это может быть версия с www или без www. Или, может быть, версия HTTP или HTTP — что бы это ни было, она должна быть согласованной.

Вы можете сообщить Google о предпочитаемой вами версии URL, установив свои предпочтения в своей учетной записи Google Webmasters.

После входа в систему нажмите шестеренку настроек в правом верхнем углу. Затем выберите Параметры сайта .

Здесь вы можете увидеть возможность установить предпочтительный домен:

Преимущества настройки предпочтительного домена:

  • Сортировка проблем с дублирующимся контентом в версиях с www и без www

Теперь вы знаете, что боты Google рассматривают yoursite.com и www.yoursite.com как две разные страницы и считают один и тот же контент на них дублированным.

Просто установив предпочтительный домен, вы можете попросить Google просто просканировать и проиндексировать один из них, а также исключить весь риск дублирования контента.

Установка предпочтительного домена помогает вашему сайту сохранять ссылочный вес даже тогда, когда сайт с обратными ссылками ссылается на нежелательную версию вашего сайта.

Выдержка из ресурса Google:

Например, если вы укажете предпочтительный домен как http://www.example.com, и мы найдем ссылку на ваш сайт в формате http://example.com, мы перейдем по этой ссылке как http: // www.example.com вместо этого.

Кроме того, мы учтем ваши предпочтения при отображении URL-адресов.Если вы не укажете основной домен, мы можем рассматривать версии домена с префиксом www и без него как отдельные ссылки на отдельные страницы.

Выбор основного домена Google в значительной степени устраняет несоответствия между версиями вашего сайта с www и без www.

После настройки предпочтительного домена в Инструментах Google для веб-мастеров следующим шагом должно стать настройка 301 редиректа со всех ссылок на нежелательные домены на вашем сайте на предпочтительные. Это поможет поисковым системам и посетителям узнать о предпочитаемой вами версии.

Однако могут быть и другие несоответствия, о которых я упоминал выше. Чтобы разобраться в них, вы должны не просто выбрать предпочтительную версию URL-адреса, но также выбрать точный синтаксис и параметры URL-адреса, которые ваша команда должна использовать при ссылке на любой контент на вашем сайте.

У вас также может быть руководство по стилю, которое можно распространять внутри компании, чтобы показать стандартный способ совместного использования URL-адресов. По сути, всякий раз, когда вы делитесь ссылкой на любую страницу или сообщение на своем сайте, вы должны убедиться, что каждый раз используется один и тот же формат ссылки и текст привязки.

Помните, что поисковые системы могут обрабатывать эти веб-страницы по-разному: http://www.yoursite.com/page/ и http://www.yoursite.com/page и http://www.yoursite.com/page/index .htm. Так что выберите один и придерживайтесь его.

2. Канонизация

Большинство CMS позволяют организовывать контент с помощью тегов и категорий. Часто, когда пользователи выполняют поиск по тегам или категориям, появляются те же результаты. В результате роботы поисковых систем могут подумать, что оба URL-адреса предлагают одинаковый контент.

http://www.yoursite.com/some-category

и

http://www.yoursite.com/some-tag

Эта проблема более серьезна на сайтах электронной коммерции, где один продукт можно найти с помощью нескольких фильтров (что приводит к нескольким возможным параметрам URL).

Это правда, что категории, теги, фильтры и окна поиска помогают вам систематизировать контент и позволяют посетителям сайта находить то, что им нужно.

Но, как вы можете видеть на скриншоте выше, такой поиск по сайту электронной коммерции приводит к множеству параметров URL и, таким образом, вызывает проблемы с дублированным контентом.

Когда люди ищут контент в Google, эти множественные ссылки могут сбить с толку ботов Google Panda Update, и Google может в конечном итоге показать недружественную версию вашего ресурса, например http://www.yoursite.com/?q=search term в результатах поиска.

Чтобы избежать этой проблемы, Google рекомендует добавить канонический тег к предпочтительному URL-адресу вашего содержания.

Когда бот поисковой системы переходит на страницу и видит канонический тег, он получает ссылку на исходный ресурс.Кроме того, все ссылки на любую повторяющуюся страницу считаются ссылками на исходную исходную страницу. Таким образом, вы не потеряете SEO-ценность этих ссылок.

Канонические теги могут быть реализованы несколькими способами:

Метод 1. Установите предпочтительную версию: www и без www

Установка предпочтительной версии вашего домена, как мы обсуждали в предыдущем разделе, также является формой канонизации.

Но, как вы понимаете, он касается только очень широкой проблемы.Он не решает проблемы с дублированием контента, создаваемые CMS.

Метод 2. Вручную укажите каноническую ссылку для всех страниц

В этом методе вы должны начать с определения исходного ресурса. Исходный ресурс — это веб-страница, которую вы хотите делать доступной своим читателям каждый раз, когда они ищут.

Исходный ресурс — это также страница, которую вы хотите установить в качестве предпочтительной страницы, чтобы сигнализировать ботам поисковых систем. Этого можно добиться с помощью канонических тегов.

Используйте методы, перечисленные в приведенном выше разделе, для выявления экземпляров дублированного контента на вашем сайте. Затем определите страницы, которые предлагают похожий контент, и выберите исходный ресурс для каждой.

После двух описанных выше шагов вы будете готовы использовать канонический тег.

Для этого вам нужно будет получить доступ к исходному коду ресурса и в его теге добавить следующую строку:

Здесь «https: // yoursite.com.com/category/resource » — это страница, которую вы хотите назвать исходным ресурсом.

Вы будете следовать тому же процессу добавления относительных канонических тегов на каждую похожую страницу.

Мой блог на CrazyEgg поддерживает категории. Таким образом, сообщения доступны через список блогов на главной странице, а также через различные категории.

Я использую тег rel = canonical, чтобы отмечать предпочтительный URL для каждой страницы и сообщения.

Посмотрите на следующий снимок экрана с тегом:

Использование канонического тега — это простой способ сообщить Google о ссылке, которую вы хотите, чтобы Google показывал пользователям при поиске.

Как вы, наверное, догадались, мой сайт построен на WordPress, и я использую плагин Yoast SEO. Этот плагин позволяет вам установить предпочитаемую версию каждой страницы и публикации. Таким образом, вам не нужно беспокоиться о том, что ваше сообщение будет доступно или появится по разным URL.

Если ваш сайт построен на WordPress, я рекомендую вам установить этот плагин. Вы можете найти опцию URL канонического тега в расширенных настройках плагина.

Если сообщение или страница, которую вы создаете, сами по себе являются предпочтительной версией, оставьте тег Canonical URL пустым.Если это не так, добавьте ссылку на предпочтительный ресурс в поле Canonical URL .

Метод 3. Настройка 301 редиректа

Часто реструктуризация сайтов приводит к проблемам с дублированием контента. Реструктуризация формата ссылок также может создать несколько копий одного и того же контента.

Чтобы уменьшить влияние таких проблем с дублированием содержимого, настройте переадресацию 301. 301 редирект с нежелательных URL-адресов ресурса на их предпочтительные URL-адреса — отличный способ предупредить поисковые системы о ваших предпочтениях.

Когда бот поисковой системы переходит на страницу и видит редирект 301, он достигает исходного ресурса через страницу с дублированным контентом. В таких случаях все ссылки на дублирующую страницу рассматриваются как ссылки на исходную страницу (значение SEO не теряется).

В зависимости от вашего сайта вы можете использовать эти разные способы для настройки 301 редиректа. Если у вас есть какие-либо вопросы о настройке переадресации, ваш веб-хостинг сможет вам помочь.

Если вы используете WordPress, вы можете использовать плагин, например Redirection, для создания 301 редиректа.

Какой бы метод вы ни выбрали, я бы посоветовал провести тест на неработающие ссылки, поскольку настройка переадресации может пойти не так.

3. Метатег Noindex

Мета-теги — это способ, с помощью которого веб-мастера могут предоставить поисковым системам важную информацию о своих сайтах.

Мета-тег noindex сообщает роботам поисковых систем не индексировать определенный ресурс.

Люди часто путают метатег noindex с метатегом nofollow. Разница между ними в том, что когда вы используете теги noindex и nofollow, вы просите поисковые системы не индексировать страницу и не подписываться на нее.

В то же время, когда вы используете теги noindex и follow, вы запрашиваете поисковые системы не индексировать страницу, но не игнорировать любые ссылки на / с страницы.

Вы можете использовать метатег noindex, чтобы поисковые системы не индексировали ваши страницы с дублированным содержанием.

Чтобы использовать метатег для обработки экземпляров дублированного контента, вы должны добавить следующую строку кода в тег заголовка вашей страницы с дублированным контентом.

Использование тега Follow вместе с тегом noindex гарантирует, что поисковые системы не игнорируют ссылки на повторяющихся страницах.

4. Используйте тег hreflang для обработки локализованных сайтов

Когда вы используете переведенный контент, вы должны использовать тег hreflang, чтобы помочь поисковым системам выбрать правильную версию вашего контента.

Если у вас есть сайт на английском языке и вы перевели его на испанский для обслуживания местной аудитории, вы должны добавить тег «” к испанской версии вашего сайта.

Вы должны следовать одному и тому же процессу для всех различных локализованных версий вашего сайта.Это устранит риск того, что поисковые системы будут рассматривать его как дублированный контент, а также улучшит взаимодействие с пользователем, когда пользователи захотят взаимодействовать с вашим сайтом на своем родном языке, определяемом их идентификатором сеанса.

5. Используйте хэштег вместо оператора вопросительного знака при использовании параметров UTM

Обычно используются параметры URL отслеживания, такие как источник, кампания и канал, для измерения эффективности различных каналов.

Однако, как мы обсуждали ранее, когда вы создаете ссылку типа http: // yoursite.com /? utm_source = newsletter4 & utm_medium = email & utm_campaign = праздники , поисковые системы сканируют его и сообщают о дублированном содержании.

Простой обходной путь — использовать оператор # вместо вопросительного знака. Когда боты поисковых систем сталкиваются со знаком # в URL-адресе, они игнорируют все, что следует за знаком, тем самым избегая проблем с дублированием контента.

6. Будьте осторожны с распространением контента

Если вы разрешаете другим сайтам повторно публиковать ваш контент, всегда просите их ссылаться на ваш сайт с точным якорным текстом.Запрос на повторно публикуемые сайты использовать тег rel или noindex также может помочь вам предотвратить проблемы с дублированием контента, вызванные повторной публикацией.

Как не обрабатывать дублированный контент

Как я уже сказал, дублированный контент происходит постоянно. Если вы тоже обнаружили, что ваш сайт содержит какие-либо экземпляры дублированного контента, вы должны исправить их. Я уже показал вам разные способы сделать это.

Однако теперь я хотел бы показать вам некоторые способы, которые не являются правильными и не должны использоваться для устранения проблем с дублированием контента.

1. Не блокируйте URL с помощью robots.txt

Во-первых, что такое robots.txt? Robots.txt — это текстовый файл, содержащий сообщения, которые вы хотите передать сканерам поисковых систем. Эти сообщения могут быть направлены на то, чтобы поисковые роботы не индексировали указанные URL.

Некоторые веб-мастера указывают URL-адреса, которые содержат повторяющееся содержимое в файлах Robot.txt, и таким образом пытаются заблокировать сканирование поисковыми системами.

Google Panda Update не одобряет методы, которые каким-либо образом блокируют поисковые роботы.Когда сканирование страниц заблокировано, роботы Google считают их уникальными, при этом они должны знать, что это не уникальные страницы, а просто страницы с повторяющимся содержанием.

Вторая проблема с этим типом блокировки заключается в том, что другие сайты все еще могут ссылаться на заблокированные страницы. Если качественный сайт ссылается на заблокированную страницу и роботы поисковых систем не сканируют и не индексируют эту страницу, вы не получите преимущества этой обратной ссылки для SEO.

Кроме того, вы всегда можете пометить повторяющиеся страницы как повторяющиеся с помощью тега «canonical».

2. Не пересказывайте (и не перефразируйте) контент, чтобы сделать его «уникальным»

Боты Google могут определить, создан ли ваш контент или создан ботами. Так что вращение контента или просто перефразирование его, чтобы оно выглядело уникальным, не поможет.

Публикация вращающегося контента будет указывать поисковым системам, что вы применяете теневые методы для манипулирования рейтингом в поиске. Это может привести к тому, что Google примет меры против вашего сайта.

3. Не используйте опцию «удалить URL» в Google Webmasters

Если вы заметили, инструменты Google для веб-мастеров дают вам возможность удалять URL-адреса с вашего сайта.

Итак, довольно много веб-мастеров выбирают недружественную версию своего ресурса, которая появляется в результатах поиска, и удаляют ее, используя вышеуказанный вариант.

Проблема с этим решением заключается в том, что URL-адреса удаляются только временно. И ваш сайт по-прежнему будет сталкиваться со всеми проблемами, о которых я упоминал выше. Это вообще не решение.

Эта функция полезна, когда вы хотите удалить что-то со своего сайта и хотите быстро исправить это, пока вы не поработаете на сайте, чтобы решить эту проблему.Это не помогает решить проблемы с дублированием контента.

Заключение

Большинство проблем с дублирующимся контентом можно избежать или исправить. Понимание дублированного контента повлияет на ваш рейтинг в поисковых системах.

Проверяли ли вы свой сайт на предмет дублирования контента? Если есть, какие методы вы собираетесь использовать для их сортировки?

Узнайте, как мое агентство может привлечь огромное количество трафика на ваш веб-сайт

  • SEO — разблокируйте огромное количество SEO-трафика.Смотрите реальные результаты.
  • Контент-маркетинг — наша команда создает эпический контент, которым будут делиться, получать ссылки и привлекать трафик.
  • Paid Media — эффективные платные стратегии с четким ROI.

Заказать звонок

Дублированный контент и поисковая оптимизация: полное руководство

Что такое дублированный контент?

Дублированный контент — это контент, который является аналогичным или точным копированием контента на других сайтах или на разных страницах того же сайта.Наличие большого количества дублированного контента на веб-сайте может негативно повлиять на рейтинг Google.

Другими словами:

Дублированный контент — это контент, который дословно совпадает с контентом, отображаемым на другой странице.

Но «Дублированный контент» также применяется к контенту, который похож на другой контент… даже если он немного переписан.

Как дублирующийся контент влияет на SEO?

В целом Google не хочет ранжировать страницы с повторяющимся содержанием.

Фактически, Google утверждает, что:

«Google изо всех сил пытается индексировать и отображать страницы с четкой информацией».

Итак, если на вашем сайте есть страницы БЕЗ отдельной информации, это может повредить вашему рейтингу в поисковых системах.

В частности, вот три основные проблемы, с которыми сталкиваются сайты с большим количеством дублированного контента.

Меньше органического трафика: это довольно просто. Google не хочет ранжировать страницы, которые используют контент, скопированный с других страниц в индексе Google.

(включая страницы вашего сайта)

Например, предположим, что у вас есть три страницы на вашем сайте с похожим содержанием.

Google не уверен, какая страница является «исходной». Таким образом, всем трем страницам будет сложно ранжироваться.

Штраф

(крайне редко): Google заявил, что дублированный контент может привести к штрафу или полному деиндексированию веб-сайта.

Однако это очень редко. И это делается только в тех случаях, когда сайт намеренно очищает или копирует контент с других сайтов.

Итак, если на вашем сайте куча повторяющихся страниц, вам, вероятно, не нужно беспокоиться о «штрафах за дублирование контента».

Меньше проиндексированных страниц: это особенно важно для веб-сайтов с большим количеством страниц (например, сайтов электронной коммерции).

Иногда Google не просто понижает рейтинг дублированного контента. Фактически он отказывается его индексировать.

Итак, если на вашем сайте есть страницы, которые не индексируются, это может быть связано с тем, что ваш бюджет сканирования тратится на дублирующийся контент.

Лучшие Лрактики

Следите за одним и тем же контентом по разным URL-адресам

Это наиболее частая причина появления проблем с дублированием контента.

Например, предположим, что у вас есть сайт электронной торговли.

И у вас есть страница продукта, где продаются футболки.

Если все настроено правильно, все размеры и цвета этой футболки будут по-прежнему иметь один и тот же URL.

Но иногда вы обнаруживаете, что ваш сайт создает новый URL для каждой версии вашего продукта … что приводит к ТЫСЯЧАМ страниц с дублированным содержанием.

Другой пример:

Если на вашем сайте есть функция поиска, эти страницы результатов поиска тоже могут быть проиндексированы. Опять же, это может легко добавить 1000+ страниц на ваш сайт. Все они содержат повторяющийся контент.

Проверить проиндексированные страницы

Один из самых простых способов найти дублированный контент — это посмотреть количество страниц вашего сайта, проиндексированных в Google.

Вы можете сделать это с помощью поиска site: example.com в Google.

Или проверьте свои проиндексированные страницы в Google Search Console.

В любом случае это число должно совпадать с количеством страниц, созданных вами вручную.

Например, Backlinko имеет 112 проиндексированных страниц:

Сколько страниц мы сделали.

Если бы это число было 16 000 или 160 000, мы бы знали, что множество страниц добавляется автоматически. И эти страницы, вероятно, будут содержать значительное количество дублированного контента.

Убедитесь, что ваш сайт правильно перенаправляет

Иногда у вас есть не просто несколько версий одной и той же страницы… а одного и того же САЙТА.

Хотя это случается редко, я видел это много раз в дикой природе.

Эта проблема возникает, когда «WWW» версия вашего веб-сайта не перенаправляет на «не WWW» версию.

(или наоборот)

Это также может произойти, если вы переключили свой сайт на HTTPS… и не перенаправляли сайт HTTP.

Вкратце: все разные версии вашего сайта должны оказаться в одном месте.

Использовать 301 редирект

301 редирект — это самый простой способ исправить проблемы с дублирующимся контентом на вашем сайте.

(кроме полного удаления страниц)

Итак, если вы обнаружили на своем сайте кучу страниц с дублированным содержимым, перенаправьте их обратно на оригинал.

Когда робот Googlebot останавливается, он обрабатывает перенаправление и ТОЛЬКО индексирует исходный контент.

(что может помочь этой исходной странице начать ранжирование)

Следите за похожим контентом

Дублированный контент — это НЕ ТОЛЬКО контент, дословно скопированный откуда-то еще.

Фактически, Google определяет повторяющийся контент как:

Таким образом, даже если ваш контент технически отличается от того, что есть там, вы все равно можете столкнуться с проблемами дублирования контента.

Это не проблема для большинства сайтов. Большинство сайтов имеют несколько десятков страниц. И они пишут уникальный материал для каждой страницы.

Но бывают случаи, когда может возникнуть «похожий» дублированный контент.

Например, допустим, у вас есть веб-сайт, который учит людей говорить по-французски.

И вы обслуживаете большой Бостон.

Что ж, у вас может быть одна страница услуг, оптимизированная по ключевому слову: «Learn French Boston».

И еще одна страница, которая пытается получить рейтинг «Learn French Cambridge».

Иногда содержание технически будет другим. Например, на одной странице указано местоположение для Бостона. А на другой странице указан Кембриджский адрес.

Но по большей части контент очень похож.

Это технически повторяющийся контент.

Больно ли писать 100% уникальный контент для каждой страницы вашего сайта? Ага. Но если вы серьезно относитесь к ранжированию каждой страницы своего сайта, это необходимо.

Используйте канонический тег

Тег rel = canonical сообщает поисковым системам:

«Да, у нас есть куча страниц с повторяющимся содержанием.Но ЭТА страница — оригинал. Остальное можно игнорировать ».

Google заявил, что канонический тег лучше, чем блокировка страниц с дублированным контентом.

(Например, блокировка робота Googlebot с помощью файла robots.txt или тега noindex в HTML-коде вашей веб-страницы)

Итак, если вы обнаружите на своем сайте кучу страниц с дублирующимся контентом, вы хотите:

  • Удалить
  • Перенаправить их
  • Используйте канонический тег

Используйте инструмент

Есть несколько инструментов SEO, которые имеют функции, предназначенные для выявления дублированного контента.

Например, Siteliner сканирует ваш веб-сайт на наличие страниц, содержащих много повторяющегося контента.

Объединить страницы

Как я уже упоминал, если у вас много страниц с прямо дублированным контентом, вы, вероятно, захотите перенаправить их на одну страницу.

(или используйте канонический тег)

Но что, если у вас есть страницы с похожим содержанием?

Что ж, вы можете создать уникальный контент для каждой страницы… ИЛИ объединить их в одну мегастраницу.

Например, предположим, что у вас есть 3 записи в блоге на вашем сайте, которые технически различаются… но содержание практически одинаковое.

Вы можете объединить эти 3 сообщения в одно удивительное сообщение в блоге, которое на 100% уникально.

Поскольку вы удалили со своего сайта дублирующийся контент, эта страница должна иметь более высокий рейтинг, чем остальные 3 страницы вместе взятые.

Страницы тегов или категорий WordPress Noindex

Если вы используете WordPress, вы могли заметить, что он автоматически генерирует страницы тегов и категорий.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *