Содержание

Как узнать количество проиндексированных страниц в Гугле

От автора

Важно следить за количеством проиндексированных страниц сайта. Резкий рост и резкое снижение страниц в индексе, означает, что на сайте существуют проблемы или ошибки которые решать и исправлять.

Способы узнать количество проиндексированных страниц в Гугле

Способ 1. Search Console

Чтобы следить за всеми показателями сайта в поиске Google, нужно зарегистрировать сайт Search Console, – сервисе для комплексного анализа показателей сайта в поиске Гугле.

После регистрации, подтверждении прав на сайт и выполнении необходимых настроек, сервис должен набрать статистику по сайту, в том числе показать, сколько страниц есть в индексе Гугле.

Посмотреть количество и их список можно на вкладке Индекс Google>>>Статус Индексирования.

На диаграмме страницы сервис покажет  динамику индексации страниц за год в двух вариантах: Только основные и Расширенные данные.

Основные данные показывают количество страниц в индексе и график индексации по месяцам за год.

Расширенные данные покажут, сколько страниц закрыты от сканирования в файле robots.txt, и сколько страниц вы сами удалили из индекса за текущий год.

Важно! Резкое снижение и резкое увеличение страниц в индексе Гугле, не связанное с вашими действиями на сайте, может говорить о проблемах.

Например, резкое увеличение может говорить о взломе сайта, автоматическим созданием контента, большим количеством дублей. Резкое снижение, говорит, о невозможности Гугле сканировать часть вашего контента или санкциях наложенных новым алгоритмом.

Как говорит сам Google в своих рекомендациях:

Стремитесь к стабильным показателем роста страниц в индексе. Стабильный рост просканированных и проиндексированных страниц сайта говорит, что Гугле регулярно получает доступ к содержанию и индексирует ваш ресурс.

Информация Search Console доступна только после подтверждения прав на сайт, а значит, не всегда доступна и не может использоваться для анализа сайтов конкурентов.

Как в этом случае узнать количество проиндексированных страниц в Гугле?

Способ 2. Язык запросов

Общее количество (приблизительное) проиндексированных страниц сайта можно получить сразу в выдаче Google, сделав такие запросы:

  • site:www.example.ru
  • site:example.ru
  • site:https://www.example.ru
  • site:https://example.ru
  • site:http://www.example.ru
  • site:http://example.ru

, в которых example.ru нужно поменять на свой домен. Без пробелов.

Нажав на кнопку «настройки» внизу поиска можно посмотреть, какие страницы поисковик проиндексировал за час, 24 часа, неделю, месяц.

Второй способ не очень корректный и дает выдачу со всеми страницами, где есть ваш сайт. Включая соцсети, сервисы проверок и т.д. Более точную информацию по количеству проиндексированных страниц в Гугле может дать одно из специальных расширений браузера.

Способ 3. Расширения для браузера

Приведу один пример такого расширения.

Оно дает подробную информацию о состоянии сайта с точки зрения оптимизации и индекса. Это расширений под названием «RDS bar».

  • Вот его ссылка для Google: //chrome.google.com/webstore/detail/rds-bar-seo-pagerank-dmoz/jlipcaflaocihnmlhnhcfombgmmfglho
  • Вот его ссылка для Mozilla: https://addons.mozilla.org/ru/firefox/addon/rds-bar/
  • Вот его ссылка для Opera: https://addons.opera.com/ru/extensions/details/rds-bar/

Это расширение для браузеров, в один клик покажет сколько на любом сайте проиндексировано страниц.

Примечание: расширение RDS я показал для примера. Есть аналогичные, такие же мощные расширения и расширения менее функциональные, которые помогут быстро посмотреть индекс сайта и не только в Гугле. Например, SEO Quake (https://www.seoquake.com/index.html).

Это полезно

Если вам нужно моментально узнать есть ли домен или отдельная страница в индексе, используйте Букмарклеты —Java Script программы, оформленные в виде «javascript:URL», сохраняемая как закладка браузера.

Имея такой букмарклер, вы моментально посмотрите есть открытая страница сайта в Индексе.

Вот «буки» от Netpeak: http://img.netpeak.net/melik/index-check.html?_ga=2.163131836.1475269850.1519456507-549606374.1519456507

Их нужно положить в панель закладок вашего браузера и нажать на открытой странице сайта.

Вывод

Каждый веб мастер выбирает инструменты под себя и для выполнения своих задач. Однако надеюсь, что эта статья была полезна, и вы без труда узнать количество проиндексированных страниц в Гугле вашего сайта и сайта ваших конкурентов.

Похожее

Проверка количества проиндексированных на сайте страниц в поисковых системах Яндекс и Google

Проверка количества проиндексированных страниц сайта и получение их списка может показаться на первый взгляд достаточно простой задачей, но есть некоторые нюансы, о которых расскажем ниже.

Самые простые способы посмотреть индексацию любого сайта – операторы в поисковых системах Яндекс и Google.

В Google это оператор site:site.ru (где вместо site.ru нужно указать анализируемый сайт). В Яндексе последнее время оператор site:site.ru перестал корректно работать, поэтому на данный момент количество страниц можно проверить с помощью оператора url:http://www.site.ru/* (с указанием www если сайт индексируется с www и наоборот).

Примеры:

Как узнать число новых страниц на сайте или число страниц, проиндексированных за определенный период

В Яндексе можно нажать на иконку расширенного поиска и выбрать диапазон дат:

В Google аналогичные настройки можно сделать через “инструменты->за период”:

Но не все так просто как кажется на первый взгляд. Рассмотрим более точные методы проверки способы как получить больше информации для каждой поисковой системы.

Google Search Console

Часто в Google число страниц, выдаваемое через оператор site: сильно отличается от реального числа проиндексированных страниц. Сотрудники Google отвечают по этому поводу что конструкция site:site.ru всего лишь результат пустого поиска по сайту и не обязана выдавать все страницы сайта.
Также в поиске отображаются неиндексируемые страницы, запрещенные в robots.txt, на которые есть внешние ссылки. Это тоже искажает результат.

Более точно узнать число проиндексированных страниц в Google можно имея доступ к Google Search Console в разделе “статус индексирования”.

К сожалению, в данном отчете данные также могут не совпадать с реальными из-за применения фильтров. Разница может доходить до десятков-ста процентов.

Еще один способ, который считается одним из наиболее точных – отчет “Файлы Sitemap”. Здесь указано точное число индексируемых страниц, но с учетом что все полезные страницы были добавлены в файлы sitemap.xml.

Яндекс Вебмастер

В Яндекс.Вебмастере содержатся достаточно точные данные по индексации сайта. Количество страниц, с динамикой можно посмотреть в разделе “страницы в поиске”.

Также в Яндекс.Вебмастере можно получить выгрузку страниц со статусами, включая индексацию, которая, правда ограничена 50.000 страницами. Пример выгрузки:

Выгрузку можно скачать в уже описанном выше отчете “страницы в поиске”.

Альтернативные способы проверки индексации сайта

Иногда перечисленные методы не подходят, тогда можно использовать альтернативные.

  1. Парсинг сайта (например, через программу Screaming Frog) и постраничная проверка индексации в Google/Yandex. Например, через сервис https://www.rush-analytics.ru/ -> “проверка индексации”. Минусы: не все страницы в индексе могут иметь ссылки из меню или страниц сайта, можно как дополнение использовать способы описанные в пунктах 2,3 ниже.
  2. Страницы, на которые есть органический трафик из перечисленных операционных систем (можно посмотреть через системы статистики Яндекс.Метрика и Google.Analytics).
  3. Страницы на которые есть внешние ссылки. Внешние ссылки можно получить через такие сервисы как Ahrefs. com.

Как определить количество проиндексированных страниц в Яндексе и Google

Определяем количество проиндексированных страниц сайта с помощью специального запроса (документный оператор)

Для Яндекса: site:o-es.ru

 

Аналогично и для Google: site:o-es.ru

 

Видно, что в Google проиндексировано больше страниц. Это связано с тем, что поисковая система Google индексирует сайты и добавляет страницы в основной индекс быстрее Яндекса.

 

При помощи Яндекс.Вебмастер (Google Вебмастер)

Данные по сайту o-es.ru в панели Яндекс.Вебмастер.

 

Страниц в поиске – 126. Данное значение отличается от значений полученных оператором (site).

Официальный ответ поддержки Яндекса:

Я бы рекомендовал Вам ориентироваться на результаты поиска.
Данная ситуация может быть связана с тем, что в зависимости от типа устройства, типа браузера и операционной системы, у нас применяются разные настройки поиска. Из-за этого значение найденных ответов может отличаться от того, каким оно окажется на последней странице. Также на отображение числа ответов могут влиять проводимые на нашей стороне эксперименты.

Соответственно ориентируемся на значения, полученные запросом site:o-es.ru.

 

Почему Загруженных страниц в Яндекс.Вебмастере больше чем Страниц в поиске?

В разделе Загруженные страницы (Яндекс.Вебмастер) отображается информация обо всех страницах, которые известны нашему роботу, а в разделе Страницы в поиске (Яндекс.Вебмастер) показываются только те из них, которые реально участвуют в поиске.

Причин, по которым загруженные страницы могут не участвовать в поиске, много:

  1. Они могут быть дубликатами уже показанных страниц.
  2. Содержать поисковый спам.
  3. Содержать ненужный пользователям контент.
  4. Либо при их загрузке произошла ошибка. Те страницы, при загрузке которых произошли ошибки, можно посмотреть в разделе Исключенные страницы.

Необходимо добиться, чтобы количество проиндексированных страниц в Яндексе и Google были одинаковыми, допускается погрешность в 10-15%. Разница может означать дублирование проиндексированных страниц или наоборот, что какие-то из них еще не проиндексированы поисковой системой. Поэтому количество страниц в индексе должно быть одинаковым и сопоставляться с реальным на сайте.

 

Как проверить индексацию конкретной страницы сайта в Яндексе и Google?

Для Яндекса.

Используем оператор Url
Синтаксис: url:полный URL

Пример:

 

О документарных операторах Яндекса: https://yandex.ru/support/search/query-language/search-operators.xml

 

Для Google.

Используем оператор Site
Синтаксис: site:полный URL

Пример:

 

5 простых приемов для ускорения индексации новых страниц (сайта) в Яндексе:

  1. Используем сервис Переобходчик страниц (Яндекс. Вебмастер).
  2. Используем сервис Сообщить о новом сайте https://webmaster.yandex.ru/addurl.xml.
  3. В рамках структуры сайта, должны быть ссылки на все страницы.
  4. Внешние ссылки на новые страницы.
  5. Устраняем технические ошибки (SEO-аудит сайта: дубли, битые ссылки, ошибка 404 и др.).

Необходимо дождаться индексации изменений и обновление поисковой базы (апдейт). За апдейтами можно следить тут — http://tools.promosite.ru/

Если, скажем, через месяц после исправления всех ошибок и недочетов ситуация не изменилась, можно попробовать написать в техподдержку Яндекса о проблемах индексации сайта, чтобы выявить причины. Делать это нужно обязательно, так как напрямую влияет на продвижение сайта по трафику.

 

Как написать в тех. поддержку Яндекса?

  1. Добавляем сайт в Яндекс.Вебмастер (подтверждаем права на сайт).
  2. Переходим в панель управления вашим сайтом.
  3. В нижней части страницы (footer), находим ссылку Обратная связь.
  4. Открывается страница службы поддержки, выбираем Индексирование сайта.
  5. Выбираем Мой сайт плохо индексируется.
  6. Выбираем Новые страницы сайта долго не попадают в поиск.
  7. Ставим чекбокс Рекомендации не помогли.
  8. Заполняем поля и отправляем форму.

 

Какие поля заполнять:

  • Из списка сайтов, выбираете соответствующий сайт.
  • Указываете 2-3 примера страниц, которые не проиндексированы поисковой системой.
  • В поле Сообщение укажите проблему и действия, которые были сделаны для устранения проблемы. Как долго не решается вопрос.
  • Указываете ваше имя и email.

 

Переобход страниц – новый инструмент Яндекс.Вебмастер
Контролируйте процесс индексации вашего сайта, добивайтесь успеха в продвижении!

Проверка индексации сайта в Google и Яндекс

Ситуация не из приятных: сканирование сайта поисковыми роботами проходит достаточно быстро, но процесс добавления страниц в индекс не оправдывает ожиданий. Одни страницы сайта не попадают в базу поисковых систем, а другие удаляются. В результате ресурс ранжируется по проиндексированным данным. Если в индекс попали целевые страницы, вам повезло чуть больше. Так или иначе на позиции сайта в выдаче проблемы с индексацией влияют отрицательно. Особенным «приколом» 2021 года стало то, что функция принудительного переобхода страниц (когда обновляешь контент старых страниц) перестала корректно работать в Google.

Мы подготовили чек-лист, который поможет быстро оценить видимость страниц индексе и их количество.

Корректное управление индексацией позволяет оптимизировать расход краулингового бюджета: роботы индексируют только важные для продвижения страницы.

  1. Панели веб-мастеров

В Google Search Console проверяем «Статус индексирования» в разделе «Индекс».  Проблемы с индексацией выглядят следующим образом:

Отметка «Проиндексировано всего» указывает число адресов, добавленных в индекс.

Просмотр удаленных страниц, прошедших индексацию успешно или с ошибкой доступен в отчете «Покрытие».   Также можете проверить определенную страницу на попадание в индекс.

Проверка в Яндекс.Вебмастере осуществляется через путь «Индексирование сайта» — «Страницы в поиске». Далее при выборе «История» получим динамику количества страниц в поиске.

  1. Проверка вручную: поисковые операторы 

Операторы поисковых систем используются для уточнения результатов поиска. Оператор «site:» выводит список проиндексированных страниц. Для применения параметра в поисковую строку Google или Яндекс введите «site:[url сайта]». Для получения точных данных в Google необходимо перейти на последнюю страницу поиска. Различия в полученных цифрах — показатель наличия проблем на сайте или его попадания под фильтр поисковых систем.

Оператор Cache проверяет частоту посещения сайта поисковым ботом. Настройте дополнительные инструменты поиска, чтобы просмотреть данные об индексации за час, день, неделю, месяц, год или все время.

  1. Автоматизированная проверка: плагины и букмарклеты 

Букмарклеты — скрипты, сохраняемые в закладках браузера. Принцип работы плагинов и букмарклетов одинаковый: открываете сайт для проверки и призываете на помощь закладку из браузера. В результате получаете необходимую информацию за один клик, ничего не прописывая и не настраивая.

Расширения: SEO-tools, RDS bar, SimilarWeb, MozBar.

Работа с плагином RDS bar

  1. Специальные сервисы проверки

Специальные сервисы облегчают работу SEO-специалистов: позволяют не только проверить индексацию, но и выявить возможные проблемы. Среди таких сервисов: Netpeak Spider, SEO-reports, Rush Analytics. Кроме проиндексированных страниц дополнительно получаете код ответа, заголовки, метаописания, robots.txt и пр.

Возможные причины выпадения страниц из индекса и их решение:

  1. Недавний запуск сайта.

Индексирование недавно появившегося сайта занимает много времени. Для ускорения процесса пройдите регистрацию в «Add url», разместите сайт в каталоге и добавьте ссылки с рейтинговых ресурсов, социальных сетей.

  1. Отсутствие карты сайта (sitemap.xml).

Ее основная функция: сообщать поисковым системам об изменениях на ресурсе и задавать частоту проверки. Такие карты помогают сайту индексироваться быстрее с более эффективной скоростью обхода.

Чтобы проверить, есть ли страница в файле sitemap, используйте инструмент проверки URL в Search Console.

Как использовать Google Search Console маркетологу (длительность 8 минут)

  1. Приватные настройки WordPress.

В настройках чтения уберите галочку с пункта «Видимость для поисковых систем».

  1. Ошибка в метатегах в коде страниц<meta name = “robots” content = “noindex”, nofollow” />.

Чтобы найти все страницы с метатегом noindex на вашем сайте, выполните аудит сайта через Ahrefs: просмотрите предупреждения в отчете “Внутренние страницы”. Для борьбы с этой ошибкой необходимо избавиться от строки или заменить элементы на «index» и«follow». 

  1. Ошибка в использовании директив в файле robots.txt. Закрытие доступа в robots.txt черезUser-agent: * Disallow: /

Подробнее о работе с индексным файлом читайте здесь.

  1. Отсутствие уникального контента.
  2. Дублирование страниц.

Заполните сайт качественным и собственным контентом, удалите мусорные страницы, чтобы избежать санкций от поисковиков.

Чтобы максимально повысить скорость индексации, обновляйте сайт не реже 3 раз в неделю. Например, размещайте новые публикации  и обновляйте старый контент. Google будет чаще сканировать ваш сайт, а обновленные старые публикации сохранят актуальность для новых посетителей.

Собирайте информацию о соотношении проиндексированных страниц, динамике их индексации, отслеживайте тренды. Необходимо регулярно отслеживать индексирование сайта, чтобы своевременно решать проблемы и предотвращать отрицательные последствия, вносить изменения в стратегию продвижения.

Павел Савицкий, SEO-специалист GUSAROV:
В большинстве случаев я пользуюсь таким сервисом, как Netpeak Spider. После сканирования сайта можно определить не просто страницы, которые не индексируются, но и выявить причины непопадания их в индекс поисковых систем. Этих причин может быть много: отсутствие или некорректно заполненные заголовки, мета-теги (заголовки в выдаче), закрытие от индексации в служебном файле robots.txt, некорректно настроенный редирект и т.д. Наличие многофункциональных возможностей Netpeak Spider позволяет выгрузить различные типы страниц (например, индексируемые и неиндексируемые) с техническими ошибками в Excel, что в дальнейшем приводит к ускорению работы по исправлению неиндексируемых URL.

12.05.2021

Что такое индексация сайта (Как улучшить индексацию в Google)

Индексация сайта — это процесс сбора информации поисковой системой о содержимом вашего сайта. Во время индексации поисковые роботы (пауки) сканирую и обрабатывают web страницы, изображения, видео и другие доступные для сканирования файлы. Чтобы поисковая система быстро проиндексировала сайт: создайте карту сайта и добавьте ее в Google Search Console.

Сайт должен быть проиндексирован чтобы отображаться в поиске

Страницы, которые прошли сканирование и обработку, сохраняются в базу данных. Такая база называется «поисковой индекс». Именно в этой базе данных поисковая система ищет результаты, отвечающие на запросы пользователей.

Важно понимать:

  • Если страницы нет в поисковом индексе — ее невозможно найти в поисковой системе.
  • Индексация нужна чтобы участвовать в поиске.
  • У каждой поисковой системы свой поисковой индекс, свои поисковые боты.
  • Поисковой бот от Google называется Googlebot.
  • Настройка индексации сайта, это базовый уровень работ по SEO.

Содержание статьи

Как проверить индексацию страницы?

Самый быстрый способ — написать в строку поиска команду site:[адрес страницы]. Такой поиск найдет все проиндексированные страницы сайта. Для того, чтобы просмотреть дату последнего сканирования страницы, напишите в строку поиска cache:[адрес проверяемой страницы]. Если вам нужно проверить индексацию конкретной страницы просто скопируйте ее адрес и введи в поиск запрос site:[адрес страницы]. Этот метод будет работать как в Google так и в Yandex или Bing.

Совет: Сравните количество проиндексированных страниц с реальным количеством страниц на сайте. Это поможет быстро оценить есть ли у вашего сайта проблемы с индексацией. К примеру: если на сайте 100 товаров, 10 разделов и 10 информационных страниц (в сумме 120), а в индексе только 50 страниц, это означает, что поисковая система не знает о большей части вашего сайта.

Как проверить индексацию всего сайта

Для проверки индексации сайта нужно выполнить 2 простых шага:

  1. Узнать сколько страниц на сайте. Для этого просканируйте свой сайт специальными инструментами. Если ваш сайт до 500 страниц вам подойдет бесплатная версия Screaming Frog , если этого недостаточно используйте, бесплатный Site Analyzer. В разделе «HTML» вы увидите общее количество страниц вашего сайта.
  2. Зайдите в инструменты для вебмастеров или Google Search Console (Что такое Google Search Consol )  откройте отчет «Покрытие» и просмотрите количество страниц в статусе «Без ошибок». Количество страниц в сканере Site Analyzer и страниц в Google Search Console должно приблизительно совпадать. Это, будет означать, что основные страницы сайта сканируются. Если часть страниц попала в группу «Исключено» вы можете изучить причины исключения страниц. В этом же отчете вы можете познакомиться с историей индексации вашего сайта за последние 3, 6 или 12 месяцев.
  3. Довольно часто в отчете «Покрытие» вы можете увидеть большое количество страниц в статусе «Страница просканирована, но пока не проиндексирована» — это означает, что поисковая система уже получила данные о ваших страницах но пока не обработала их до конца. Так же, страницы могут находиться в этом статусе по причине низкого качества: пустые страницы или страницы с повторяющимся содержанием. Если количество «пока не проиндексированных» страниц не сокращается попробуйте уникализировать, добавить содержание или увеличить количество качественных внешних ссылок на свой сайт.
  4. Если вам нужно массово проверить индексацию страниц вашего сайта, воспользуйтесь онлайн инструментом https://indexchecking.com
  5. Хорошая идея проверить свой сайт с помощью инструментов https://en.ryte.com — это поможет вам понять какие страницы закрыты от индексации. А так же, обнаружить страницы на которых есть технические проблемы.

Проверяем не закрыта ли отдельная страница от индексации

Если перед вами появилась задача, проверить запрет индексации конкретной страницы проще всего использовать инструменты для вебмастеров. Скопируйте адрес страницы которую вы хотите проверить и вставьте в инструмент «Проверка URL на ресурсе».

В результате проверки вы получите информацию о запретах индексации. Обратите внимание на информацию о запретах, статусе страницы и канонический адрес.

 

Как добавить новый сайт в индекс поисковиков?

Сообщите поисковой системе о своем сайте в специальном инструменте Google или Yandex. Поделитесь своим сайтом в социальной сети или создайте на него ссылку с другого, уже проиндексированного сайта.

Узнайте больше о работе поисковой системы

Что делать, если сайт плохо индексируется?

Прежде всего нужно проверить не закрыт ли сайт от индексации. Это можно сделать по инструкции в этой статье чуть выше. Основные способы улучшить индексацию:

  • Создайте карту сайта и загрузите в инструменты для вебмастеров.
  • Обновите старые страницы.
  • Удалите пустые страницы.
  • Поставьте дополнительные ссылки на сайт с сторонних сайтов и соц. сетей.

Как происходит индексация сайта

Для решения проблем нужно разобраться в процессе индексации подробнее. С технической точки зрения “индексацию сайта” правильнее рассматривать как два отдельных процесса:

  1. Сканирование страниц.
  2. Обработка страниц.

Этап 1: Сканирование

Сканирование или “обход” страниц — это основная задача, которую выполняет поисковой бот. Попадая на новую страницу, бот получает со страницы два набора данных:

  1. Содержание самой страницы, информацию о сервере и служебные данные. А именно: ответ сервера, html код страницы, файлы css стилей, скриптов, изображений.
  2. Перечень ссылок, которые находятся на странице.

Полученное содержание передается для дальнейшей обработки и сохранения в базу. Просканированные ссылки так же сохраняются в специальный список — “очередь сканирования”, для дальнейшей обработки.

Когда бот добавляет в очередь индексации страницу, которая уже есть в очереди, эта страница занимает более высокое место в списке и индексируется быстрее. А это значит, что первый способ ускорить сканирование сайта — увеличить количество ссылок на нужные страницы.

Создавая очередь сканирования, google bot, как и другие поисковые боты, изучает карту сайта sitemap и добавляет в очередь ссылки из этой карты. Второй способ улучшить индексацию — создать карту сайта sitemap.xml и сообщить о ней поисковой системе. Карта сайта — самый простой способ отправить на индексацию все страницы в рамках нашего домена.

Есть несколько способов создать карту сайта:
  • Бесплатный онлайн инструмент для сайтов до 500 страниц www.xml-sitemaps.com.
  • Программа для сканирования сайта, с возможностью создания sitemap — xenu links.
  • Библиотека приложений для создания sitemap.
  • Самый популярный плагин для создания карты сайта для WordPress.

Чтобы Google узнал о вашем sitemap, нужно добавить ссылку на карту сайта в инструментах search console или файле robots.txt

Добавление карты сайта в Search Console:
  1. Зайдите в https://search. google.com/search-console/
  2. Добавьте свой сайт или выберите из списка.
  3. Перейдите в раздел Сканирование — Файлы Sitemap.
  4. Выберите “добавить файл sitemap”, вставьте ссылку и добавьте карту сайта.

Добавление sitemap в robots.txt:
  1. Зайдите в корневой каталог сайта через ftp.
  2. Откройте файл robots.txt
  3. Добавьте в конец файла строку “Sitemap: [адрес сайта]/sitemap.xml” и сохраните файл.

Третий способ ускорить индексацию — сообщить поисковому боту о дате последнего изменения страницы. Для получения даты и времени изменения страницы боты используют данные из заголовка ответа сервера lastmod. Сообщить наличие изменений на странице можно с помощью кода ответа not modify.

Инструмент проверки заголовка lastmod и ответа сервера not modify.

Наличие настроек lastmod и not modify позволяют поисковой системе быстро получить информацию о том, изменилась ли страница с даты последнего сканирования. Благодаря этому поисковой бот ставит в приоритет новые и измененные страницы, а новые страницы быстрее индексируются.

Для настройки lastmod и not modify вам нужно будет обратиться к веб разработчику.

Этап 2: Обработка данных

Перед тем как сохранить информацию в базу данных, она проходит обработку и структуризацию, которая необходима для ускорения дальнейшего поиска.

В первом шаге обработки программа-индексатор формирует страницу с учетом всех стилей, скриптов и эффектов. В этот момент программа-индексатор понимает расположение элементов на странице, определяет видимые и невидимые пользователю части, разделяет страницу на навигацию и содержание.

Важно чтобы google bot имел полный доступ к css и js файлам, ведь без них индексатор не сможет понять структуру страницы. Для проверки доступности всех служебных файлов зайдите в Google Search Console, отчет “Посмотреть как Googlebot” в разделе “Сканирование”. Проверьте с помощью этого инструмента основные страницы сайта, обратите внимание на различия между тем, как вашу страницу видит поисковой бот и как ее видит пользователи. Изучите таблицу из отчета. Все ресурсы, которые размещены на вашем домене, должны быть открыты для сканирования.

Сейчас Google использует алгоритм индексации, который называется Caffeine. Он был запущен в 2009 году. Основные задачи этого алгоритма:

  • Обработка современных страниц, использующих сложные js и css элементы.
  • Максимально быстрое сканирование всех страниц в Интернете.
Анализ текста при индексации

После разделения страницы на зоны и определения их важности, алгоритм выделяет из содержания основные элементы для дальнейших расчетов. Так одним из самых популярных показателей, которые поисковая система извлекает из страницы, является частота упоминания ключевого слова.

Стоит отметить, что перед расчетом частоты упоминания слова, индексатор проводит упрощение слов к элементарной форме. Этот процесс называется стеминг. Такое упрощение позволяет учитывать слово в разных словоформах как одно слово.

Частота упоминания (Term frecency, ТА) слова рассчитывается как отношение упоминания слова к общему количеству слов страницы. Пример: если на странице 100 слов и слово “машина” встречалось на ней 2 раза — частота упоминания слова “машина” будет равна TF=0,02

Самый простой поисковой индекс легко представить в виде огромной таблицы, в столбцах которой перечислены все слова языка, а в строках — адреса всех страниц. При этом в ячейках указаны частоты слов на соответствующих страницах.

Именно такая таблица позволяет поисковой системе быстро находить страницы, которые содержат нужные слова. Конечно современные поисковые системы учитывают не только частоту упоминания слов, но и более сложные факторы. Поисковой индекс Google значительно сложнее чем приведенный пример.

Анализируя содержание поисковая система проверяет уникальность страницы. Тексты и прочее содержание, которое уже было проиндексировано на других страницах, не несет ценности для системы, так как не добавляет в базу новой информации. А это значит, что страницы с низкой уникальностью могут быть не проиндексированы. Проверить уникальность достаточно просто с помощью бесплатных инструментов.
Старайтесь создавать максимально уникальный и полезный контент и он точно будет проиндексирован.

От чего зависит индексация сайта?

  1. Доступность сайта для индексации — если сканирование сайта запрещено поисковая система не сможет получить его страницы. Подробнее о инструментах управления индексацией: youtube.com Внутренняя оптимизация: robots.txt, sitemap
  2. Количество ссылок на ваш сайт — ссылки, это пути которые приводят поисковых роботов к вам на сайт. Чем больше ссылок с популярных ресурсов вы получаете, тем чаще будут сканироваться страницы вашего сайта.
  3. Частота обновления сайта. Поисковые системы всегда ищут новый интересный контент, чем чаще вы публикуете новое уникальное содержание, тем быстрее поисковая система будет его сканировать.
  4. Наличие сайта в инструментах поисковых систем. Видео в тему: Как зарегистрировать сайт в Google Search Console.

Подведем итоги

  • Индексация — это процесс сканирования и обработки содержания для хранения в базе данных поисковой системы.
  • Ускорить индексацию можно с помощью ссылок, карты сайта и настроек сервера.
    Чтобы поисковая система понимала ваши страницы, все ресурсы вашего сайта должны быть доступны поисковому боту.

Мы можем проверить и настроить индексацию вашего сайта за вас.

SEO аудит с рекомендациями за 10 дней.

Надеюсь у вас больше не возникнет вопрос: “Что такое индексация сайта”.

Руководитель отдела продвижения SEO7. Ведущий Youtube канала Школа SEO. Автор блога о поисковой оптимизации seo-sign.com

Google API проверить количество проиндексированных страниц?



Есть ли Google API, похожий на Yahoo и API Bing, чтобы проверить количество индексированных страниц в указанном домене?

Например, для Yahoo, если я наберу следующее URL:

http://search.yahooapis.com/SiteExplorerService/ В1/pageData?идентификатор AppID=MTSlade&query=http://ВСП.Дэйв-sellers.co.uk&domain_only=1&results=1

Затем он вернет некоторые XML, детализирующие количество страниц, проиндексированных как ‘totalResultsAvailable’

Есть идеи?

Спасибо

api search
Поделиться Источник Probocop     01 апреля 2010 в 09:19

2 ответа




3

Я не уверен насчет API, но вы можете просмотреть страницы, проиндексированные Google, выполнив поиск примерно так:

site:http://thesitesurl.com

Вот пример . Вы можете применить некоторую логику к разбиению на страницы и количеству элементов на странице и т. Д. (Или просто использовать «Результаты 1 — 100 из примерно 9 100 000»). Вы даже можете выбрать отображение 100 элементов на странице, используя такой синтаксис . Я не уверен, что это будет соответствовать вашим точным требованиям, но это лучше, чем ничего.

Поделиться Sam152     01 апреля 2010 в 09:21



2

С помощью все еще работающего, но устаревшего поиска Google api вы можете сделать это:

http://ajax.googleapis.com/ajax/services/search/web?v=1.0&q=www.bbc.co.uk

Возвращаемый результат имеет тип «text/javascript», который вы можете проанализировать как JSON. Поле, которое вам нужно, — estimatedResultCount . Похоже, что нет возможности вернуть результаты как XML, но все, что вам нужно сделать, это преобразовать JSON в XML. Я не знаю, какой язык вы используете, но для этого обязательно должны быть утилиты.

Если вы не хотите использовать устаревший API, используйте новый пользовательский Search API, но вам нужно будет зарегистрироваться для ключа API:

http://code.google.com/api/customsearch/v1/обзор.html

а вот подробная информация о том, как построить свой запрос:

http://code.google.com/api/customsearch/v1/using_rest.html

Поделиться Richard H     20 января 2011 в 12:13


Похожие вопросы:


Использование VBA в Excel для поиска Google по ключевому слову и возврата проиндексированных страниц в google

Этот вопрос очень похож на использование VBA в Excel для поиска Google в IE и возврата гиперссылки первого результата Только вместо первой ссылки-есть ли способ вставить количество…


Google plus API-х годов, чтобы получить количество страниц компании +1

Есть ли google plus API, чтобы вытащить количество страниц компании +1? например, страница компании: https://plus.google.com/111883881632877146615/ посты Я хочу получить количество + 1(подписчиков…


C# — узнать количество проиндексированных страниц сайта в Google?

Я хотел знать, есть ли способ получить количество страниц веб-сайта, проиндексированных в Google. с ASP.net, C# Я проверил этот пост , но не получил его! Я не знаю, как использовать Google API или…


SEO помощь со страниц проиндексированных Google

Я работаю над оптимизацией своего сайта для поисковой системы Google, и в последнее время я заметил, что при выполнении запроса site:www.joemajewski.com я получаю результаты для страниц, которые…


Как написать скрипт PHP, чтобы найти количество проиндексированных страниц в Google?

Мне нужно найти количество проиндексированных страниц в google для определенного доменного имени, как мы это делаем с помощью скрипта PHP? Так, foreach ($allresponseresults as $responseresult) {…


Программно получить количество проиндексированных страниц в Google?

В качестве метрики SEO я хотел бы программно получить количество проиндексированных Google страниц. (если я ищу site:mydomain.com, я хочу получить количество найденных страниц). Есть ли для этого…


Google Search Console: какие из моих AMP страниц уже проиндексированы?

В поисковой консоли Google есть возможность посмотреть, сколько AMP страниц уже проиндексировано и сколько содержит некоторые ошибки. Когда я открываю определенную ошибку, я вижу, какая страница…


Редирект со старых проиндексированных страниц с url переписать

У меня есть несколько старых проиндексированных страниц в Google,которые нужно перенаправить на новые места. Пример: Google показывает wwww.domain.com/pages/subpages/page.php , который теперь…


Как рассчитать количество просмотров страниц в каждом сеансе? Гугл Analytics API

Я хочу рассчитать количество просмотров страниц в каждом из сеансов в интернете с помощью Google Analytics API. Индикатор PageviewsperSession получает среднее количество страниц за сеанс, но не…


Почему количество удобных для мобильных устройств страниц в отчете Google Search Console Mobile Usability report меньше, чем количество проиндексированных страниц?

Отчет об удобстве использования мобильных устройств для одного из веб-сайтов, которые я поддерживаю, в настоящее время показывает 215 действительных (удобных для мобильных устройств страниц) . В то…

3 способа определить количество страниц на веб-сайте

Как узнать количество страниц на сайте?

  1. Использование XML Sitemap веб-страницы.
  2. Использование оператора site: в поиске Google.
  3. Из Google Search Console (для вашего собственного сайта).

1. XML-карта сайта

XML Sitemap – это точный способ легко и без особых усилий подсчитать количество страниц. Поскольку карта сайта доступна всем пользователям, вы можете использовать этот метод для любого веб-сайта. Получив URL-адрес сайта, откройте файл Sitemap в браузере, используя один из следующих URL-адресов:

http://sitename.com/sitemap.xml – Для сайта с одним файлом Sitemap.

http://sitename.com/sitemap_index.xml – Для сайта, имеющего несколько файлов Sitemap.

Если сайт использует расширенные плагины Sitemap (например, Yoast WordPress SEO), будет показано количество URL-адресов в каждом файле Sitemap.

Определение количества страниц веб-сайта в XML-карте сайта

Если счетчик не отображается в Sitemap, возможно, вам придется подсчитать вручную один за другим или скопировать XML в лист Excel и подсчитать его. Вы также можете использовать онлайн-карту сайта или инструменты для проверки битых ссылок, когда размер сайта меньше.

2. Использование сайта: Оператор

Откройте поиск Google и введите указанный ниже поисковый запрос, заменив имя сайта своим:

site: sitename.com

Вы увидите результаты, как показано ниже, с количеством проиндексированных страниц в Google. Хотя это может быть не фактическое количество веб-страниц на сайте, оно дает представление о количестве проиндексированных страниц в Google.

Использование Оператора сайта в поиске Google

3. Search Console

Подобно оператору «site:», в консоли поиска Google есть возможность увидеть общее количество проиндексированных страниц в Google. Но вы должны быть подтвержденным владельцем сайта, чтобы использовать Search Console, иначе владелец должен пригласить вас для доступа к данным. В аккаунте Search Console перейдите к «Индекс Google> Статус индекса», Чтобы увидеть общее количество проиндексированных страниц.

Общее количество проиндексированных страниц веб-сайта в Google

Общее количество проиндексированных страниц в поиске Google и Search Console включает разные типы страниц на сайте. Например, один URL-адрес может быть проиндексирован с помощью прямого URL-адреса, категории, тега, архивов и т. Д., Что приведет к многократному появлению в поисковых системах. Вы также можете просмотреть подробную информацию об общем количестве отправленных и проиндексированных страниц из XML Sitemap, отправленного в Google, в разделе «Сканирование> Карта сайта»В аккаунте Search Console.

Как я могу узнать, сколько страниц моего домена проиндексировано Google?

Google предоставляет два простых варианта определения количества проиндексированных страниц вашего домена. Общее количество проиндексированных страниц может сильно отличаться от общего количества страниц, которые у вас действительно есть в домене.

Вариант №1: сайт Google: -запрос

Используя простой поисковый запрос с так называемым оператором «site:» и вашим доменом, вы можете получить приблизительное количество страниц, проиндексированных Google.

В маске поиска Google введите следующее:

  сайт: www.my-domain.com  

Результат поискового запроса должен выглядеть следующим образом: Красные метки указывают количество проиндексированных страниц.

Отмечено красным — приблизительное количество проиндексированных страниц.

Если в индексе много страниц, результат site: -query может быть отфильтрован с использованием различных параметров:

  • site: www.my-domain.com/subdirectory /
    Отображает только проиндексированные страницы в каталоге / подкаталоге /
  • сайта: www.my-domain.com Фраза по выбору
    Отображает только те проиндексированные страницы, которые содержат фразу по вашему выбору.
  • site: www.my-domain.com inurl: фраза
    Отображает только те проиндексированные страницы, которые содержат слово «фраза» в URL
  • site: www.my-domain.com intitel: фраза
    Отображает только те проиндексированные страницы, которые содержат слово «фраза» в заголовке.
  • site: www.my-domain.com filetype: pdf
    Отображает только те проиндексированные страницы. файлы с выбранным типом файла (другие возможные типы файлов: doc, pdf, ps, xls, rtf, swf и т. д.)

Вариант № 2: Использование Google Search Console

Вы можете легко получить обзор проиндексированных страниц вашего домена в Google Search Console.

Если вы еще не используете Google Search Console, вы можете бесплатно активировать свой веб-сайт (www.google.com/webmasters/tools/?hl=en) всего за несколько минут. Это позволяет вам также использовать следующую опцию, чтобы получить обзор статуса индексации.

Анализ статуса индексации вашего веб-сайта с помощью Google Search Console:

  • Войдите в Google Search Console и выберите желаемый веб-сайт.
  • Нажмите «Google Index» в левой навигационной панели.
  • Нажмите «Index» Статус »в подменю

Теперь вам отображается график« Статус индекса »для вашего домена, где вы также можете добавлять фильтры, например, также отображать график для страниц, заблокированных роботами.текст.

Количество проиндексированных страниц, а также страниц, заблокированных файлом robots.txt в Google Search Console.

Поисковая система Bing также предоставляет собственные инструменты для веб-мастеров, которые также позволяют оценить количество проиндексированных страниц в Bing.

История проиндексированных страниц в инструментах для веб-мастеров bing (http://www.bing.com/toolbox/webmaster)

Оценка с помощью SISTRIX Toolbox

В модуле SEO SISTRIX Toolbox вы можете проанализировать историю проиндексированных страницы домена более подробно.На графике будет показана история показателей индекса от Google. Мы очень регулярно отслеживаем большинство доменов, но для более регулярного обновления этого показателя вы можете добавить домен в свой список наблюдения.

  • История проиндексированных страниц домена:
SISTRIX Toolbox SEO-модуль: историческая диаграмма проиндексированных страниц домена

Проиндексированных и неиндексированных страниц для Google | Отправленные и проиндексированные страницы в Инструментах для веб-мастеров

Любая компания, у которой есть веб-сайт, должна уже рассматривать этот домен в качестве торгового представителя в Интернете — при правильном выполнении кампании контент-маркетинга он может привлечь трафик и потенциальных клиентов.Следующим шагом с этим веб-сайтом должно быть подтверждение того, что Google распознает этот веб-сайт. Король поиска делает это, находя, просматривая и индексируя отдельные веб-страницы.

Google находит веб-страницу (уникальные URL-адреса) с помощью ссылок и XML-файлов Sitemap, отправленных в Инструменты Google для веб-мастеров. Google сканирует веб-страницы, которые он находит, чтобы определить ценность содержания на странице, поскольку оно связано с поисковыми пользователями и их запросами. Затем он индексирует страницу на основе этих определений (представьте себе огромную библиотеку веб-страниц, каталогизированную Google).

Если вы правильно настроили свой веб-сайт в Инструментах Google для веб-мастеров, значит, вы уже отправили карту сайта в формате XML (или за вас это сделала такая замечательная маркетинговая компания, как Blue Corona).

Но что происходит, когда вы отправляете карту сайта и есть проиндексированные и не проиндексированные страницы? К счастью для вас, я здесь ради этого!

Что означает «проиндексированные страницы»?

проиндексированных страниц были обнаружены поисковыми роботами (такими как пауки для Google) и считаются достаточно качественными для релевантных поисковых фраз.Проиндексированные страницы будут отображаться в результатах поиска и могут привлекать на ваш сайт обычный трафик.

В приведенном ниже примере вы можете видеть, что 137 страниц веб-сайта этой компании были проиндексированы Google:

Что означает «неиндексированные страницы»?

Google не гарантирует, что он просканирует (или, таким образом, проиндексирует) каждый URL вашего веб-сайта. Если ваш веб-сайт новый или вы недавно добавили на него много новых страниц, возможно, они еще не проиндексированы. При наличии миллионов доменов Google требуется время, чтобы просканировать и проиндексировать каждый из них, чтобы получить максимальную выгоду для своих поисковых пользователей.Если вы недавно добавляли или обновляли карту сайта, подождите, пока новые страницы не будут проиндексированы.

Если прошло какое-то время, а Google все еще перечисляет многие страницы в вашей карте сайта как «не проиндексированные», возможно, существует более серьезная проблема либо с качеством ваших страниц, либо со структурой вашей карты сайта. Страницы, которые Google часто не индексирует, включают:

  • Страницы категорий блога
  • Страницы авторов блога
  • Страницы, проиндексированные в другом домене (www.example.com, а не example.com)
  • Страницы с ошибками 404 или сервера
  • Страницы с кодировкой или каноническим тегом, который говорит Google игнорировать его
  • Некачественные страницы или дублирующийся / идентичный контент на разных страницах

Как заставить Google индексировать больше страниц?

Вместо того, чтобы зацикливаться на том, сколько страниц «не проиндексировано», сосредоточьтесь на том, чтобы каждая страница вашего сайта имела высококачественный контент, который пользователи сочтут ценным. Но если вы обнаружите, что количество отправленных вами страниц не соответствует количеству проиндексированных Google страниц, вы можете сделать несколько вещей, чтобы гарантировать, что Google ценит каждую страницу вашей карты сайта:

  • Включите релевантное содержание на каждую страницу своего веб-сайта
  • Повысьте авторитет своего сайта, получив больше ссылок с авторитетных сайтов
  • Сделайте страницы вашего веб-сайта удобными для поиска Google
  • Отправьте обновленные карты сайта в Инструменты для веб-мастеров Google
  • Сосредоточьтесь на создании и распространении замечательного контента

Подробнее об улучшении статуса вашего сайта в индексе »

В основном я говорю вам, что да, иногда у вас будут и проиндексированные, и не проиндексированные страницы в статусе индексирования ваших инструментов Google для веб-мастеров.Сосредоточение внимания на этом несоответствии должно лишь высветить более серьезную проблему — Google не придает значения неиндексированным страницам. Это означает, что они не смогут ранжировать, привлекать посетителей вашего сайта и (главная цель всех них) превращать посетителей в потенциальных клиентов из обычного поискового трафика.

Если вам нужна помощь в управлении веб-сайтом вашей компании, инструментами Google для веб-мастеров или картой сайта, свяжитесь с нами сегодня. Мы будем рады помочь вам и убедиться, что ваше присутствие в Интернете способствует развитию вашего бизнеса.Звоните нам сегодня!

Сколько страниц моего сайта проиндексировал Google? Индексация места измерения

Что такое индексация?

Меня заинтересовал сбор данных, которые могли бы помочь мне понять уровни индексации на веб-сайте.

На самом деле определение значения индексации — это важный первый шаг. Поисковые системы, такие как Google, «обходят», «индексируют» и «занимают позицию». Просканирование не означает, что вы проиндексированы, а индексирование не означает, что вы занимаетесь рейтингом. Но такие вопросы, как количество страниц в индексе, важны, потому что вы можете измерить степень работоспособности сайта.

Допустим, вы проверили файлы журналов своего сервера (руководство по анализу файлов журналов здесь) и обнаружили, что количество URL-адресов, просканированных роботом Googlebot, сильно отличается от количества проиндексированных URL-адресов. Наверное, это нехорошо; на самом деле мы обнаруживаем, что это обычно снижает производительность, поскольку выделенная для вашего сайта полоса пропускания для сканирования используется неэффективно. Мы находим сайты, которые потребляют большую полосу пропускания сканирования, но гораздо меньше ценных страниц, как правило, подвергаются риску штрафов Panda.

Проще говоря, если количество просканированных страниц намного превышает количество проиндексированных страниц, вам следует присмотреться.

В отчете «Статистика сканирования» Search Console будет указано, сколько страниц сканируется ежедневно, но правильный анализ файла журнала даст вам окончательное представление.

Итак, где мы можем найти лучшие номера индексации?

Используйте URLprofiler и ScreamingFrog

Я большой поклонник хорошей работы наших друзей из URLprofiler и ScreamingFrog.С их помощью вы можете создать действительно исчерпывающий набор данных о профилях ссылок, состоянии сайта и так далее. Сегодня мы воспользуемся некоторыми данными сканирования, извлеченными из ScreamingFrog в URLprofiler, чтобы увидеть, какие URL-адреса проиндексированы.

Предполагая, что вы запустили сканирование Screamingfrog и у вас есть список URL-адресов для сканирования, вам нужно открыть URLprofiler и настроить прокси:

После этого импортируйте свой список как обычно и запустите профилировщик.

Это тип данных, которые вы получите:

В экспорте вы увидите следующие полезные данные:

    • Проиндексировано Google: «Да», «Нет» или «Альтернативный URL»

Информация Google: проиндексировано: проверяется только при «Да» в индексировании Google.«Да», «Нет», «Не проверено» или «Альтернативный URL».

  • Индекс Google: в каком индексе находится URL. «Базовый», «Глубокий» или «Нет».
  • Альтернативный URL, проиндексированный Google: здесь отображается альтернативный URL, если он был найден в любом из результатов.
  • Дата кеширования Google: последняя дата кеширования для каждого URL-адреса.

Обычно результат, который вы ожидаете, будет проиндексирован Google: «Да» с URL-адресом, появляющимся в базовом индексе. Иногда вы получаете URL-адреса, которые не проиндексированы в базовом индексе.Затем URLprofiler выполнит запрос Info :, который может указывать на то, что URL находится в глубоком индексе. Насколько может судить сам URLprofiler, URL-адреса в «глубоком» индексе не появляются при обычных обстоятельствах, не входят в базовый индекс и никогда не принесут вам никакого трафика.

Если вы видите много альтернативных URL, у вас может быть проблема с канонизацией в структуре URL. В качестве примера возьмем этот запрос:

Запрос info: выглядит так:

info: https: //www.amazon.com / Skullcandy-S2DUDZ-003-Jib-Earbuds-Black / dp / B004MWL1TQ / ref = sr_1_1? s = aht & ie = UTF8 & qid = 1466155314 & sr = 1-1 & fasteners = p_89% 3ASkullcandy

и альтернативный URL-адрес:

. https://www.amazon.com/Skullcandy-S2DUDZ-003-Jib-Earbuds-Black/dp/B004MWL1TQ

Реальным примером этой ситуации может быть то, что URL-адреса, которые вы обнаружили во внутренних ссылках через ваш сканер Screamingfrog не соответствует проиндексированной канонической версии URL.Или что URL-адреса вашей карты сайта не соответствуют каноническому.

Следующие шаги

С полным видом на. сколько страниц генерирует ваш сайт и b. сколько из них проиндексировано, у вас есть отличный набор данных, на котором можно основывать свои собственные технические изменения. Как правило, такие проблемы, как URL-адреса, появляющиеся в качестве альтернативных, или страницы, исключенные из базового индекса, будут вызваны проблемами во внутренних ссылках, проблемами оптимизации полосы пропускания сканирования, такими как программные страницы 404, непреднамеренные внутренние переадресации 301, ошибки сервера и проблемы с дублированием контента через параметры запроса.

Я бы рекомендовал объединить эти данные с данными аудита вашего файла журнала для максимального использования.

Как более точно измерять проиндексированные страницы

Если возникает необходимость проверить, сколько страниц сайта проиндексировано (т. Е. Тех URL-адресов, которые возвращаются в результатах поиска), первая реакция многих оптимизаторов поисковых систем — вернуться на сайт: query, но на самом деле этот запрос возвращает все URL-адреса, о которых знает Google, включая канонизированные страницы, поэтому, вероятно, он неточен.

Имея это в виду, давайте рассмотрим несколько более точных способов поиска проиндексированных страниц, а затем метод их объединения, чтобы найти более точную окончательную цифру.


Search Console

Отчет о статусе индекса

(Индекс Google> Статус индекса)

Этот высокоуровневый отчет покажет вам количество страниц в индексе, которое можно сравнить с вашим собственным подсчетом, хотя он может включать дубликаты, которые могут быть отфильтрованы из «реальных» результатов поиска.


Счетчик индексации файлов Sitemap (Сканирование> Файлы Sitemap)

Показывает счетчик индексации ваших файлов Sitemap.Если количество отправленных страниц совпадает с количеством проиндексированных страниц, вы знаете, что проиндексированы 100% URL-адресов. Если у вас есть файлы Sitemap с меньшим количеством файлов в каждом, вы с большей вероятностью сможете использовать эту информацию.


Уникальный URL-адрес Число индексаций файла Sitemap

Джон Мюллер из Google рекомендует создать файл Sitemap, содержащий все ваши уникальные URL, а затем отправить его в Search Console. Это даст вам более точную информацию о количестве уникальных проиндексированных URL.

страницы с показами поисковой выдачи (поисковый трафик> поисковая аналитика)

Все, что вызывает поисковый показ, должно быть проиндексировано.

Google Analytics

Каждая страница, которую Google посещал за последнее время, почти наверняка все еще проиндексирована. Хотя он не на 100% надежен, он очень точен, в зависимости от периода, который вы измеряете.

Рейтинговая проверка

Любой URL-адрес, который занимает место в результатах поиска, должен быть проиндексирован: используйте предпочитаемую вами программу проверки рейтинга, чтобы загрузить больше проиндексированных URL-адресов, которые могут быть не обнаружены другими способами.

Информация: запрос

Это более точный способ проверить, проиндексирована ли страница, однако его можно использовать только для проверки одного URL за раз.


Комбинации

1. Загрузите и объедините все URL-адреса из этих источников в Excel, затем удалите дубликаты:


2. Просканируйте URL-адреса в режиме сканирования списка, чтобы получить количество уникальных страниц:

Вы можете вставить до 2000 URL-адресов в виде списка или загрузить файл.


3. Затем вы можете сравнить это количество уникальных URL-адресов с числом, указанным в счетчике проиндексированных страниц в Search Console.

Индексация: дополнительная литература

Автор

Теги

Сканирование и индексирование

Причины, по которым ваш веб-сайт не индексируется Google

Уменьшение количества проиндексированных веб-страниц Google и другими поисковыми системами является серьезной проблемой.Если вы хотите получить какой-либо органический трафик на свой сайт из Google, то его индексирование — одна из важнейших задач SEO. Если такое произойдет, вам необходимо исправить эту проблему как можно раньше, иначе ни один пользователь не сможет найти ваш веб-сайт или контент, поскольку они не будут частью поискового индекса Google. Вам следует начать с определения проблемы индексации. Если ваш веб-сайт новый или имеет проблемы с техническим SEO или контентом, это может быть основной причиной ограниченного количества проиндексированных веб-страниц.

Для достижения рейтинга в поисковой выдаче получение большего количества проиндексированных веб-страниц важно и важно. Веб-страницы, не индексируемые Google, могут быть признаком того, что Google либо не нравится ваша страница, либо не может легко ее просканировать. Мы понимаем вашу озабоченность, поэтому здесь мы обсудим 3 основные причины, по которым Google может не проиндексировать ваш веб-сайт.

  • Время загрузки вашей страницы медленное

Ваш веб-сайт должен выдать код ответа сервера 200 (OK), чтобы его проиндексировала любая поисковая система.

  • Проблема дублирования внутреннего и внешнего содержимого

Эта проблема может сбить с толку поисковые системы и привести к уменьшению индексации URL-адресов. 301 и канонизация могут быть решениями.

  • Изменение структуры URL

Изменение домена, поддомена или папки может произойти из-за модификации CMS, настроек сервера или внутреннего программирования, и это может изменить URL-адрес сайта.

Некоторые другие распространенные причины могут заключаться в том, что ваш веб-сайт подвергся санкциям со стороны Google; Google сочла ваши веб-страницы нерелевантными; Google не может сканировать веб-страницы и т. Д. Давайте кратко обсудим некоторые из этих распространенных причин —

  • Ваш веб-сайт новый, не проверенный, и Google его еще не нашел

Если ваш веб-сайт новый, вы должны дать ему некоторое время для индексации, а также убедиться, что ваша карта сайта создана и отправлена.

  • Сайт или некоторые страницы заблокированы с помощью robots.txt

Это может произойти, если ваш редактор или разработчик заблокирует ваш сайт с помощью robots.txt. Не волнуйтесь, вы можете легко исправить это, удалив запись из robots.txt и заставив свой веб-сайт снова появиться в индексе.

  • Наличие sitemap.xml жизненно необходимо

Sitemap.xml — это список направлений, по которым Google будет индексировать ваш веб-сайт. В случае проблем с индексацией вам следует пересмотреть и повторно отправить карту сайта.xml.

Если Google не может сканировать некоторые страницы вашего веб-сайта, он не будет их индексировать. Вам необходимо выявить эти ошибки сканирования и диагностировать неиндексированные страницы.

Итак, это были некоторые из основных факторов, повлиявших на снижение количества индексируемых веб-сайтов Google, и меры, которые вы можете предпринять, чтобы исправить эти проблемы.

Ваши проиндексированные страницы падают — 5 возможных причин, почему

Важно, чтобы ваши веб-страницы были проиндексированы Google (и другими поисковыми системами).Страницы, которые не проиндексированы, не могут ранжироваться.

Как узнать, сколько страниц вы проиндексировали? Можно

Каждый даст разные числа, но почему они разные — это отдельная история.

А пока давайте просто поговорим об анализе уменьшения количества проиндексированных страниц, о которых сообщает Google.

Если ваши страницы не индексируются, это может быть признаком того, что Google может не понравиться ваша страница или что она не сможет легко ее просканировать. Таким образом, если количество проиндексированных страниц начинает уменьшаться, это может быть связано с одной из следующих причин:

  • Вы подверглись штрафу Google.
  • Google считает ваши страницы нерелевантными.
  • Google не может сканировать ваши страницы.

Реклама

Продолжить чтение ниже

Вот несколько советов о том, как диагностировать и исправить проблему уменьшения количества проиндексированных страниц.

1. Правильно ли загружаются страницы?

Убедитесь, что у них правильный статус HTTP-заголовка 200.

У сервера были частые или длительные простои? Срок действия домена недавно истек и был ли продлен с опозданием?

Действие

Вы можете использовать бесплатный инструмент проверки статуса заголовка HTTP, чтобы определить, есть ли там правильный статус.Для крупных сайтов их можно проверить с помощью типичных инструментов сканирования, таких как Xenu, DeepCrawl, Screaming Frog или Botify.

Правильный статус заголовка — 200. Иногда могут появляться ошибки 3xx (кроме 301), 4xx или 5xx — ни одна из них не является хорошей новостью для URL-адресов, которые вы хотите проиндексировать.

2. Изменились ли ваши URL-адреса в последнее время?

Иногда изменение в CMS, внутреннем программировании или настройках сервера, которое приводит к изменению домена, поддомена или папки, может, следовательно, изменить URL-адреса сайта.

Поисковые системы могут запоминать старые URL-адреса, но, если они не перенаправляют должным образом, многие страницы могут быть деиндексированы.

Реклама

Продолжить чтение ниже

Действие

Надеюсь, копию старого сайта все еще можно будет посетить каким-либо образом или в форме, чтобы записать все старые URL-адреса, чтобы вы могли отобразить 301 редиректы на соответствующие URL-адреса .

3. Исправили ли вы проблемы с дублирующимся контентом?

Исправление дублированного контента часто включает в себя использование канонических тегов, 301 редиректов, метатегов noindex или запретов в robots.текст. Все это может привести к уменьшению проиндексированных URL-адресов.

Это один из примеров, когда уменьшение проиндексированных страниц может быть на хорошо .

Действие

Так как это хорошо для вашего сайта, единственное, что вам нужно сделать, это дважды проверить, действительно ли это является причиной уменьшения проиндексированных страниц, а не чего-либо еще.

4. Время ожидания ваших страниц истекает?

Некоторые серверы имеют ограничения по полосе пропускания из-за связанных затрат, связанных с более высокой пропускной способностью; эти серверы могут нуждаться в обновлении.

Иногда проблема связана с оборудованием и может быть решена путем обновления аппаратной обработки или ограничения памяти.

Некоторые сайты блокируют IP-адреса, когда посетители обращаются к слишком большому количеству страниц с определенной скоростью. Этот параметр является строгим способом избежать попыток взлома DDOS, но он также может оказать негативное влияние на ваш сайт.

Обычно это отслеживается при второй настройке страницы, и если порог слишком низкий, нормальное сканирование ботами поисковой системы может достигнуть порогового значения, и боты не смогут сканировать сайт должным образом.

Элемент действия

Если это ограничение пропускной способности сервера, то, возможно, настало подходящее время для обновления услуг.

Если это проблема обработки / памяти сервера, помимо обновления оборудования, дважды проверьте, есть ли у вас какая-либо технология кэширования сервера, это снизит нагрузку на сервер.

Если установлено программное обеспечение для защиты от DDOS, ослабьте настройки или внесите Googlebot в белый список, чтобы он не блокировался в любое время. Однако будьте осторожны, есть несколько поддельных роботов Google; обязательно правильно определите googlebot.Процедура обнаружения Bingbot аналогична.

Реклама

Продолжайте читать ниже

5. По-разному ли поисковые роботы видят ваш сайт?

Иногда то, что видят пауки поисковых систем, отличается от того, что видим мы.

Некоторые разработчики создают сайты предпочтительным образом, не зная о последствиях для SEO.

Иногда предпочтительная готовая к работе система CMS используется без проверки, является ли она удобной для поисковых систем.

Иногда это могло быть сделано специально оптимизатором поисковых систем, который пытался скрыть контент, пытаясь обмануть поисковые системы.

В других случаях веб-сайт был взломан хакерами, которые заставляли Google показывать другую страницу для продвижения своих скрытых ссылок или маскировки 301 перенаправления на свой собственный сайт.

Хуже того, если страницы заражены каким-либо вредоносным ПО, которое Google автоматически деиндексирует страницу сразу после обнаружения.

Action Item

Использование функции выборки и обработки в Google Search Console — лучший способ узнать, видит ли робот Google то же содержание, что и вы.

Вы также можете попытаться перевести страницу в Google Translate, даже если у вас нет намерения переводить язык или проверять кешированную страницу Google, но есть также способы обойти это, чтобы по-прежнему скрывать контент за ними.

Реклама

Продолжить чтение ниже

Индексные страницы не используются в качестве типичных KPI

Ключевые показатели эффективности (KPI), которые помогают измерить успех кампании SEO, часто связаны с органическим поисковым трафиком и рейтингом.KPI, как правило, сосредоточены на целях бизнеса, которые связаны с доходом.

Увеличение количества проиндексированных страниц может увеличить возможное количество ключевых слов, по которым вы можете ранжироваться, что может привести к более высокой прибыли.

Тем не менее, смысл просмотра проиндексированных страниц в основном состоит в том, чтобы увидеть, могут ли поисковые системы правильно сканировать и индексировать ваши страницы.

Помните, ваши страницы не могут ранжироваться, если поисковые системы не могут их видеть, сканировать или индексировать.

Уменьшение проиндексированных страниц не всегда плохо

В большинстве случаев уменьшение проиндексированных страниц может означать плохие вещи, но исправление дублированного контента, тонкого контента или некачественного контента также может привести к уменьшилось количество проиндексированных страниц, что хорошо.

Узнайте, как оценить свой сайт, изучив эти пять возможных причин, по которым ваши проиндексированные страницы падают.

Реклама

Продолжить чтение ниже


Кредиты изображений

Показанное изображение: Пауло Бобита

Получить (приблизительное) количество проиндексированных страниц на нескольких сайтах с Python

Этот пост является частью Полное руководство по Python для SEO

В этом посте мы узнаем, как с помощью Python и Selenium проверить количество проиндексированных страниц на нескольких веб-сайтах в файл CSV.

Остерегайтесь, делая это, вы идете вразрез с рекомендациями Google по парсингу веб-страниц. Постарайтесь не делать этого в массовом порядке.

И я серьезно! Просто прочтите это.

Как извлечь проиндексированные страницы?

Этот скрипт Python выполняет поиск site: , чтобы проверить количество проиндексированных страниц в Google для нескольких сайтов, использующих Selenium и Python.

Я знаю, что это совсем не так. Но при построении стратегии SEO для вас достаточно иметь представление о размерах индекса вашего конкурента.

Код Python для очистки сайта: результаты поиска

 импортировать панды как pd
время импорта
из selenium import webdriver
из параметров импорта selenium.webdriver.chrome.options

urls = [
    'searchchenginejournal.com',
    'moz.com',
    searchchengineland.com
    ]

индексы = {}
xpath = '// * [@ id = "result-stats"]'

def get_index (url, xpath, headless = True):
    '' '
    Запустите Selenium.
    Получить количество проиндексированных страниц.
    url: полный URL-адрес, который вы хотите извлечь
    headless: определите, хотите ли вы, чтобы браузер открывался или нет.'' '
    print (f'Opening {url} ')
    options = Параметры ()
    options.headless = без головы
    драйвер = webdriver.Chrome (параметры = параметры)
    driver.get (URL)
    index = driver.find_element_by_xpath (xpath) .text
    index = index.split ('О программе') [1] .split ('результаты') [0]
    print (f'Index: {index} ')
    driver.quit ()
    индекс возврата

для URL в URL:
    search_url = f'https: //www.google.com/search? q = site% 3A {url} & oq = site% 3A {url} & aqs = chrome..69i57j69i58.6029j0j1 & sourceid = chrome & ie = UTF-8 '
    index = get_index (search_url, xpath, headless = True)
    индексы [url] = индекс
    время.спать (1)

df = pd.DataFrame.from_dict (индексы, orient = 'index', columns = ['indexed_pages'])
df.to_csv ('indexed_pages.csv')
 

Реакции сообщества

Этот пост, хотя и очень простой, вызвал изрядную реакцию сообщества (см. Сообщение linkedin). Большинство комментариев были очень актуальными, поэтому я решил создать этот раздел с предупреждениями, чтобы ответить на некоторые из комментариев.

Возьмите сайт: Оператор с недоверием.

Один из самых важных комментариев сделал Марк Уильямс-Кук, основатель такжеAsked.com.

Поисковый оператор site: дает лишь приблизительную оценку. Принимать деловые решения ненадежно. Отсюда и решение добавить «(приблизительный)» в заголовок статьи.

Еще один интересный комментарий Мартина МакГарри, консультанта SearchAssistance.co.uk.

И замечательная статья Роджера Монтти на сайте searchnginejournal.com. По словам Джона Мюллера:

Оператор site: search может отключаться от десяти до сотни.

Зачем тогда делать этот скрипт? Потому что часто вы просто хотите иметь представление о том, насколько сайт заинтересован на рынке. Примерно сколько страниц имеет дело с 200 или 200M.

За годы работы я узнал, что многое в SEO неточно , и попытки сделать его более точным иногда делают его столь же размытым, как и грубая оценка. Но Марк прав. Оптимизатор SEO должен знать, что стоит за сайтом: мы с оператором решили встать на его сторону.

Почему не запросы?

Дерек Хокинс из Reprise Digital, от которого я довольно много узнал в прошлом, когда спросил меня, почему бы не использовать запросов ?

Без уважительной причины. Он прав. Модуль запрашивает не использует браузер. Вместо этого он выполняет простые HTTP-запросы, которые выполняются быстрее и требуют меньше вычислительных ресурсов.

Вот код для работы с запросами.

 импортировать панд как pd
запросы на импорт
время импорта

из bs4 импорт BeautifulSoup

urls = [
    searchnginejournal.com ',
    'moz.com',
    searchchengineland.com
    ]

индексы = {}

заголовки = {
    «User-Agent»: «Mozilla / 5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit / 537.36 (KHTML, например Gecko) Chrome / 86.0.4240.198 Safari / 537.36»
}

def make_request (URL, заголовки):
    пытаться:
        r = requests.get (URL, заголовки = заголовки)
    кроме request.exceptions.RequestException как e:
        поднять SystemExit (e)
    вернуть г

для URL в URL:
    search_url = f'https: //www.google.com/search? q = site% 3A {url} & oq = site% 3A {url} & aqs = chrome..69i57j69i58.6029j0j1 & sourceid = chrome & ie = UTF-8 '
    r = make_request (search_url, заголовки)
    soup = BeautifulSoup (r.text, "html.parser")
    index = soup.find ('div', {'id': 'result-stats'}). текст
    index = index.split ('О программе') [1] .split ('результаты') [0]
    индексы [url] = индекс
    время сна (1)

df = pd.DataFrame.from_dict (индексы, orient = 'index', columns = ['indexed_pages'])
df.to_csv ('indexed_pages.csv')
 

Избегайте обнаружения ботов

Найл О’Грибин был практичным. Делая это в большом масштабе, вы будете вводить капчу снова и снова.Или забанить свой IP.

Как избежать обнаружения ботами этих «необычных схем трафика»?

Я не профессионал в этих техниках. Но вот несколько хороших руководств, которые помогут избежать обнаружения ботов.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *