Содержание

Что такое релевантность — релевантность поисковых запросов

Релевантность — это соответствие результата ожиданиям. В контексте поисковой выдачи релевантность демонстрирует, насколько точный развернутый ответ пользователь получил на свой запрос.

В результатах поиска наиболее релевантные страницы расположены наверху. То есть, чем лучше, по мнению поисковой системы, ресурс отвечает запросу пользователя — тем более высокую позицию он занимает. Потому одной оптимизацией здесь не обойтись: чтобы поисковик посчитал информацию релевантной, она должна не только содержать соответствующие ключевые слова, но и быть полезной, уникальной и адекватной ожиданиям читателя.

Пример:

Посмотрим поисковую выдачу Google по запросу: «Как написать текст».


Рассмотрим первые три позиции: 

  • На первом месте — интернет-журнал Однако, по ссылке открывается объемный структурированный текст, который полностью раскрывает суть вопроса, грамотно написан и легко читается. Помимо этого, сайт пользуется большим доверием поисковых систем, имеет множество внешних ссылок, зарегистрирован в девяти рубриках Яндекс Каталога и ежедневно имеет почти 6 000 просмотров. 
  • Второе место занимает известный ресурс wikiHOW, который отвечает на заданный вопрос более узконаправленно. По ссылке открывается подробное, хорошо продуманное руководство с изображениями в едином стиле. С позиции поисковиков — рейтинг сайта ниже, чем в первом случае, категория в Яндекс Каталоге всего одна, намного меньше внешних ссылок, но зато — почти 600 000 просмотров в день. 
  • На третьем месте — Лекса Мьюзик. Сайт также предлагает более узко рассмотреть вопрос написания текстов, причем весь ресурс посвящен музыкальной тематике. Текст подробный, информативный, разбит на логические блоки. Практически все показатели — ниже, чем у предыдущих сайтов.

Фактически из трех рассмотренных результатов только первый в большей степени по теме отвечает на заданный вопрос. Остальные два затрагивают более узкие моменты и не пользуются настолько большим расположением поисковых систем. Хотя в каждом из трех случаев претензий к информативности контента — нет.

Особенности оценки релевантности уже прослеживаются. Остановимся на этом подробнее.

Внутренние критерии

Релевантность — один из главных показателей эффективности работы поисковой системы, который определяется по специальному алгоритму. Основные моменты, которые учитываются — количество и качество использованных ключевых слов на странице в соотношении с общим объемом текста, грамотностью распределения, информативностью, тематикой ресурса, репутацией и посещаемостью сайта.

Главное, что зависит в данном случае от вас — качество контента. Важно, как долго пользователь остается на странице сайта: чем больше времени он тратит на изучение раздела, в который перешел со своим запросом — тем больше, по мнению поисковой системы, информация соответствует его ожиданиям. Потому при составлении текста постарайтесь, чтобы подготовленный материал развернуто раскрывал заданную тему, дополните его уникальными тематическими изображениями, видео.

В отношении ключевых слов значение имеет: 

  • Плотность. Не используйте много «ключей», главное — равномерно распределите их по тексту, обеспечьте естественное вхождение, включайте словоформы и синонимы. Избыток ключевых слов поисковик может посчитать спамом и наложить фильтр. Особенно с учетом последних разработок Яндекса и Google: алгоритмы поиска поощряют развернутый, полноценный ответ на вопрос. И это — самое главное. Потому если даже в тексте — всего один ключ, который встречается 1-2 раза в длинном руководстве, попасть в ТОП выдачи вполне реально. 
  • Расположение. Размещайте ключевые слова ближе к началу страницы. Вставляйте не только в сам текст, но также в теги и мета-теги: title, description, h2-h6, keywords, атрибут img. Опять же — заботясь о читабельности, логичности и не особо увлекаясь. Хорошо, если основной «ключ» входит в адрес ссылки на раздел. 

И еще несколько внутренних моментов:

  • Технические составляющие:
    скорость загрузки страниц, доступность ресурса, грамотность кодировки, настройка редиректов, отсутствие страниц с ошибками, битых ссылок и дублей, файлы robots.txt и sitemap.xml — все это влияет на скорость и качество анализа страниц поисковиком.
  • Обновления: помимо качества контента роль играет периодичность его добавления: регулярно размещая на сайте информативные уникальные материалы, можете рассчитывать на то, что поисковый робот будет заходить к вам чаще и со временем проникнется доверием.
  • Удобство навигации: от этого напрямую зависит время пребывания на сайте, глубина просмотров, конверсия. Потому еще на этапе создания сайта важный момент — работа над юзабилити, т.е. удобством пользования ресурсом. К этому пункту относится и внутренняя перелинковка, которая позволяет организовать взаимосвязь между тематическими материалами на сайте, создав из них подробную информационную подборку. И внешний вид материалов. Разместив «простыню» даже самого полезного уникального текста, не рассчитывайте на то, что пользователь будет вникать в суть. Материал должен быть структурирован: состоять из коротких абзацев, иметь маркированные списки, подзаголовки.

Внешние критерии

Основной показатель — популярность, т.е. сколько и какие именно ресурсы ссылаются на ваш сайт. Роль играет не только количество, но и качество: хорошо, если страницы, с которых идут ссылки, родственны вам по тематике, считаются авторитетными и заслуживающими доверия с позиции поисковика. Дополнительный бонус — когда ссылка представлена в виде анкора — текста, включающего нужное ключевое слово.

Каждая поисковая система имеет собственный критерий, определяющий число и качество внешних ссылок: у Яндекса это — тИЦ (тематический индекс цитирования), а Google — PR (page rank).

Заключение

Главный момент, на который стоит ориентироваться при создании оптимизированного сайта — качество наполнения и удобство использования. Можно сделать ресурс идеальным с технической позиции, купить множество тематических внешних ссылок, грамотно включить в текст ключевые слова, но при этом не попасть в ТОП релевантной выдачи, если посетитель не проводит на странице и пяти секунд. Потому что гораздо важнее — работать с юзабилити сайта и заботиться об улучшении поведенческих факторов.

Статью подготовила Виктория Закирова.

Материал подготовила Светлана Сирвида-Льорентэ.

Что такое релевантность страниц сайта и что означает релевантность поиска?

Релевантность — это соответствие страницы поисковому запросу и общим правилам построения сайта. Страница считается релевантной, если она полезна, отвечает на вопрос пользователя и содержит качественный контент.

Релевантность поиска бывает:

  • Формальная — рассчитывается при помощи алгоритмов поисковых систем, без участия человека. По формуле сопоставляется поисковой запрос и документ в индексе поисковой машины.
  • Содержательная — специально обученные сотурдники (асессоры) оценивают качество выдачи по запросам.
  • Пертинентность — термин, обозначающий удовлетворение информационной потребности пользователя. Алгоритмы ранжирования создаются как раз для того, чтобы по запросам была релевантная выдача, которая устроит пользователя. Это то, к чему стремятся все поисковики.

Следует понимать, что такое релевантность страниц сайта и пертинентность результатов поиска. Пертинентность входит в один из критериев релевантности. Если релевантность – это часть ожидаемого пользователем результата, то пертинентность – конечный результат, полное удовлетворение информационной потребности пользователя. Главная цель всех поисковых систем – повышение релевантности и пертинентности выдачи. Поисковые системы оценивают релевантность страниц для ранжирования т.к. от этого параметра зависит прибыль любого поисковика.

Что такое релевантность текста?

Текстовую релевантность еще называют внутренней. Если на странице расположен текст, который отвечает на запросы пользователей и содержит слова, соответствующие поисковому запросу, он считается релевантным. Раньше для того, чтобы поисковик оценивал текст как релевантный, было достаточно, чтобы ключевое слово встречалось в нем как можно чаще. Но SEO изменилось, и теперь важно знать, что такое релевантность текста. Т.е. обязательно наличие естественных вхождений ключевых слов, тематических слов, поисковых подсказок, полезность текста.

Поисковые системы также оценивают:

  • Плотность ключевых слов в тексте
  • Заголовки и подзаголовки на странице
  • Место ключевых слов в тексте
  • Оптимизированные мета-теги
  • Синонимы и тематические слова

Во-первых, не обращайтесь к заданным параметрам. Даже рекомендованные показатели Google не могут быть идеальными. Постарайтесь определить самостоятельно, сколько символов должно был в заголовке, сколько текста должно быть на странице и прочие параметры. Помните, что они зависят от специфики вашего сайта.

Второе. Делайте текст под пользователя. Каждая страница вашего ресурса должна решать проблему, с которой на нее пришел пользователь. Бессмысленный текст не решит проблему, а значит и не удержит внимание потенциального клиента. Чем ближе вы к клиенту, тем выше у вас шанс продать свой товар/услугу.

Несколько моментов, о которых не стоит забывать

  • Заголовки. Пишите яркие и говорящие заголовки. Чем понятнее и точнее заголовок, тем больше вероятность того, что текст будет прочитан до конца.
  • Описание. Не забывайте прописывать description или описание того, о чем будет ваш текст.
  • ТЕКСТ. Относительно самого текста хотелось бы отметить, что наличие списков и терминов значительно улучшит его качество. Не стоит забывать и об уникальности текста, проверять которую можно при помощи такого сервиса, как ADVEGO. Однако увлекаться уникальностью все же не стоит. Рано или поздно ваш отличный уникальный текст «растащат» конкуренты и рекламщики. Поэтому проверяйте уникальность чаще, не зацикливаясь на ее показателях.

Любой текст должен побуждать к действию. В конце текстовой страницы постарайтесь ненавязчиво, но настойчиво предложить клиенту оформить заявку, позвонить консультанту и т. д.

И, конечно, лучше, когда на сайте указаны цены, тогда пользователю проще сориентироваться.

Внутренние и внешние факторы релевантности

Мы уже разобрались с определением, что такое релевантность. Теперь рассмотрим, какие факторы могут повлиять на нее.

Внутренние факторы релевантности страницы:

  • Мета-теги Title (название страницы) и Description (описание). Чтобы страница была релевантной, теги должны быть оптимизированы под запрос. Вписывайте основные ключи в теги. Title не должен дублировать h2.
  • Оптимизация текста под ключевые слова. Текст на странице сайта не должен быть SEO-полотном с ключами. На странице нужен качественный, полезный контент, отвечающий запросу пользователя. При этом важно наличие в тексте ключевых слов, поисковых подсказок, тематических слов. Современные поисковые алгоритмы оценивают содержание и релевантность страницы по мета-тегам, заголовкам h2-H6 и тексту документа.
  • Внутренняя перелинковка. Большое количество ссылок на страницу с этого же сайта увеличивают ее вес, релевантность. Важно проставить анкоры ссылок таким образом, чтобы это были ключевые слова.
  • Наличие ЧПУ – хорошо, если URL короткий, понятный, содержит ключ.
  • Сниппет – то, как сайт отображается по запросу в выдаче. Состоит из Title и Description. Иногда вместо Description подтягивается наиболее релевантная часть текста. Сниппет должен быть информативным и привлекательным, чтобы пользователь видел его в выдаче и переходил на страницу.

Внешний фактор релевантности страницы – ссылочная популярность, цитируемость. Чем больше сайтов ссылается на эту страницу, тем выше ее рейтинг. При этом важно, чтобы ссылки содержали слова из запроса. Чем выше авторитет донора и качество текста около ссылки, тем лучше.

Еще один фактор – количество релевантных страниц. Чем больше на сайте тематических, релевантных текстов, тем лучше. Учитывайте, что создавать контент для сайта не так просто, как может показаться. Это непрерывная, системная работа.

Для повышения релевантности страницы необходимо оптимизировать и улучшать все вышеупомянутые факторы. Они оцениваются поисковыми системами и людьми, которые посещают ваш сайт. Ориентируйтесь на пользу для посетителей сайта, и ваш контент начнет приносить целевой трафик и прибыль.

Релевантность: что это такое, формула: релевантный запрос и факторы

Релевантность — параметр, указывающий на то, насколько результат выдачи поисковой системы соответствует требованиям пользователя, который ввел запрос.

Релевантность высчитывается алгоритмами поисковых систем и  представляет собой отношение количества ключевых слов на странице ресурса к общему числу слов. Каждой странице присваивается свой процент вхождений ключевых слов в тексте. Следует придерживаться золотой середины: небольшое количество пройдет незамеченным для поисковиков, а большое количество будет расценено как спам с последующим наложением фильтра. 

Характеристика

С активным развитием Интернета и стремительным увеличением сайтов возник вопрос о качестве результатов выдачи. В ответ на это поисковые системы внедрили принцип релевантности запроса, обрабатывающий сайты и предоставляющий пользователям их наиболее приемлемые варианты.

 На первом этапе релевантность страниц строилась на основе мета-тегов, плотности ключевых слов, частотности ключевиков в заголовках, способах оформления контента и т.д. С появлением дорвеев, соответствующих этим критериям, необходимо было внедрить и внешние факторы релевантности.

Ниже представлена формула, характеризующая критерии релевантности: R=PR*(T+L).

R – релевантность запроса,

T – уровень текстовой релевантности, насколько внутренние критерии соответствуют требованиям поисковиков,

L – уровень ссылочной релевантности, насколько тексты входящих ссылок  соответствуют поисковому запросу,

PR – ранг ресурса, не зависит от запроса.

Эта формула – лишь условное обоснование эффективности алгоритмов ранжирования, которое демонстрирует  полную картину критериев релевантности.

Внешние критерии релевантности

Внешние критерии релевантности представлены степенью цитируемости (ссылочная популярность). Релевантность сайта зависит от того, сколько сайтов на него ссылается. Чем больше ссылающихся сайтов, тем выше авторитет сайта, и тем качественней его контент.

Поисковые системы имеют свои собственные алгоритмы релевантности, но все они работают по одним и тем же принципам, по сути, это обработанная и усовершенствованная версия самого первого алгоритма (PR), разработанного основателями Google, которая характеризовала только количество внешних ссылок.

Самым первым алгоритмом релевантности считается ИЦ (показатель авторитетности страниц) Апорта, разработанный в 1999 г. ИЦ определял только самую весомую внешнюю ссылку.

В Яндексе  есть свой собственный индекс цитирования, ВИЦ, релиз которого состоялся весной 2001г. ВИЦ  присваивается каждой странице. После 2002г. из-за манипуляций вебмастеров с ВИЦ индекс цитирования был закрыт для общего доступа. Раньше такая услуга предоставлялась в Яндекс. Баре. На сегодняшний день можно просматривать только тИЦ, индекс цитирования для сайтов в каталоге Яндекса.

Осенью 2002г. индекс популярности появился у Рамблера, помимо ссылок, он определял и частоту посещаемости страниц сайта, которую можно было узнать из счетчика Top 100.

Внутренние критерии ранжирования

Самым весомым критерием считается частота ключевого слова на странице. Поисковики способны выделить ключевое слово в тексте. Сайт является релевантным при условии того, что запрос пользователя совпадает с ключевым словом и его формой на сайте.

Положение ключевика также влияет на релевантность сайта, особенно если ключевое слово находится в заголовке. А если запрос окажется идентичным заголовку текста, то поисковая система непременно поставит эту страницу выше других.

К внутренним критериям релевантности относят:

  1. Положение ключевого слова на странице, например, в мета-тегах.
  2. Близость ключевых слов. Не последнюю роль может играть ситуация, когда запрос приравнивается к устойчивой фразе.
  3. Положение в начале страницы. Чем выше находится ключевое слово, тем большим весом оно обладает.
  4. Синонимы ключевиков. Чем больше в тексте  форм и синонимов ключевых слов, тем лучше: это свидетельствует о том, что тематика сайта соответствует изначально заданной тематике.

Что такое релевантность?: публикации CASTCOM

В отношении поисковых машин очень часто можно слышать качественные о «Я пользуюсь Яндексом, потому что он лучше ищет!», «Гугл круче всех» вольно распространенные высказывания. Что такое качество поисковика? Синонимом качества поиска считается его релевантность.

 

В отношении поисковых машин слово «релевантный» — чуть ли не главный термин релевантная выдача, релевантные результаты, у поисковика X релевант выше, чем у поисковика Y, — такие выражения можно слышать постоянно, что они означают?

 

Как уже творилось выше, релевантный — значит относящийся к делу. Релевантность результатов поиска поисковой машины означает, что эти результаты содержат страницы, относящиеся к делу, т.е. к смыслу поискового запроса.

 

Это определение релевантности выглядит очень просто. Казалось бы, из него следует, что если мы введем поисковый запрос и если среди первых результатов поиска окажутся только релевантные сайты, то выдача поисковой машины будет релевантна. Однако это не совсем так. Давайте разберемся с этим вопросом по­дробнее.

 

Не существует релевантности вообще, в вакууме. Ведь кто-то должен определить, действительно ли сайты соответствуют тому, что предполагалось в запросе. Кто? Очевидно, лучше всего это может сделать сам автор запроса, который ввел его и поисковую машину.

 

И вот здесь возникает несколько проблем. Ведь не очень интересно обсуждать за­просы выдуманные, введенные для эксперимента. В «Яндексе», «Рамблере», Google есть десятки миллионов популярных, реальных запросов, которые ежедневно вво­дят реальные пользователи. А с ними далеко не все так ясно.

 

  • Во-первых, большинство запросов — однословные или двухсловные, то есть очень лаконичные. Ясно, что далеко не всегда они полностью задают смысл искомой страницы. Значит, какие-то условия поиска всегда остаются недосказанными, в уме пользователя.
  • Во-вторых, ни поисковик, ни мы с вами не можем знать, что происходит в уме ре­нтного пользователя, вводящего конкретный запрос. Что он на самом деле имел ввиду?
  • В-третьих, у популярных запросов очень много «соавторов» — их вводят совер­шенно разные люди. Всегда ли они имеют в виду одно и то же — неизвестно. Ско­рее всего, нет.

 

Например, что такое запрос «дизайн»? Что имел в виду автор – «веб-дизайн», «дизайн квартир», «ландшафтный дизайн» или «промышленный»? А что делать, если разные авторы этого запроса имели в виду разное? Поэтому, релевантность играет важнейшую роль в поисковом продвижении сайта и поисковой оптимизации сайта

 

Итак, можно сформулировать следующее утверждение: сам по себе поисковый запрос принципиально неполон. Почти для каждого запроса существует не высказанное пользователем явно, но важное для него условие релевантности запроса.

Условие релевантности

Условие релевантности — это не входящее в запрос предположение пользователя  о том, какие страницы будут релевантным ответом на запрос. Фактически — это скрытая постановка задачи поиска в уме пользователя.

 

Например, если пользователь вводит запрос «ногу свело», то в большинстве случаев таким условием релевантности является имеющееся в уме пользователя дополнительное ограничение на поиск – «музыкальная группа».

 

Значит, большинство пользователей поисковика, задавшие запрос «ногу свело», имеют ввиду именно музыкальную группу и будут довольны, если поисковая машина по запросу «ногу свело» выведет их прямиком на сайт группы «Ногу свело», на последний диск или еще на что-то, связанное с этой музыкальной группой. Заметим, что пользователь, как правило, держит это условие релевантности в уме, не сообщая его поисковику.

 

А тот редкий несчастный пользователь, у которого в самом деле свело ногу и который хочет узнать в Интернете, что делать в таком случае, скорее всего, вообще не получит никакой информации на первых страницах выдачи. Выдача будет забита ссылками на разные аспекты деятельности группы «Ногу свело», и ему придется как-то дополнительно уточнять свой «медицинский» запрос.

 

Условие релевантности в уме пользователя прямо зависит от его намерений, цели запроса, от того, что вообще хочет сделать пользователь с найденными по запросу сайтами.

что такое релевантность и как определить

Релевантность – это степень соответствия чего-либо при определенных условиях или в определенный момент времени. Это общее понятие, но что такое релевантность сайта при поисковом продвижении сайта?

Основная задача поисковых систем – дать релевантный ответ на запрос пользователя, чтобы он остался удовлетворенным и не полез искать информацию в других сервисах. Таким образом, степень соответствия запроса странице сайта (документу) является поисковая релевантность. Определяется она благодаря алгоритмам поисковых систем, которые очень сложные, постоянно самообучаются (matrixnet) и допиливаются.

Говоря о MatrixNet: благодаря данной технологии – Яндекс может выстраивать топы в разных нишах по-разному, таким образом значительно усложняя жизнь SEO-оптимизаторам. Асессоры ежедневно посещают огромное множество документов и оценивают их соответствие поисковому запросу, а полученные данные учитывают для усовершенствования алгоритма матрикснета. Кроме этого, он умеет самообучаться на основе сайтов, которые уже в топе. Таким образом, у отечественного поисковика появилась возможность учитывать гораздо больше факторов при построении страниц с результатами поиска. Релевантна ли страница запросу или нет – во многом определяется с помощью данного алгоритма.

В итоге, мы получаем ситуацию, в которой побеждает тот сайт, у которого выше релевантность по определенному запросу. Детально изучив и проанализировав ТОП, можно выявить закономерности и создать документ с лучшим ответом на запрос пользователя. Главное – не перестараться.

Как определить релевантность сайта?

При определении релевантности документа – учитываются различные факторы. При этом, есть сложные запросы, где невозможно определить, что хочет пользователь. К примеру, знакомый многим запрос “создание сайта”:

  • Пользователь хочет заказать создание сайта?
  • Пользователь хочет научиться сам создавать сайты?
  • Пользователь хочет найти конструктор сайтов, где сможет бесплатно и быстро разместить свой сайт?
  • и т.д.

При таком запросе – выдача поисковой системы должна содержать как коммерческие сайты, так и информационные. При этом, один тип сайтов попадают в выдачу благодаря соответствию документа определенным факторам, а другой тип сайтов – по совсем иным правилам.

Например, бизнес-сайтам важно соответствовать по коммерческим факторам ранжирования для получения целевого трафика с поисковых систем. Но только КФ недостаточно, необходимо еще поработать над оптимизацией ресурса в целом.

Что нам поможет повысить релевантность? На самом деле – это и есть основная задача SEO-специалиста, без решения которой просто невозможно получить хороших позиций. Что повысит релевантность?

  • Релевантность заголовков контенту сайта. Если указали в заголовках слово “Цена” – будьте добры дать пользователю информацию про цены на странице!
  • Вхождение ключевого слова в URL – положительно скажется на соответствии сайта запросу
  • Вхождение ключевого слова в доменное имя. В меру, чтобы не создавать длинные непривлекательные названия сайта
  • Тематическая релевантность – видимость проекта в целом по всем запросам в нише
  • Соответствие и качество ссылочного окружения проекта

Сервисы, которые позволяют определить релевантность запроса документу на странице – не существуют. Но попытки есть: кластеризаторы, анализаторы топа и т.д. Главное правило: если поисковая система считает, что топ необходимо выстраивать по определенным правилам, вы сможете лишь подстраиваться под них.  При хорошем анализе топа, логическом мышлении и создании качественного ресурса: рано или поздно вы будете на первом месте.

Релевантность — глоссарий КСК ГРУПП

Степень совпадения ожиданий пользователя при вводе поискового запроса и результатов, выданных программой, называется релевантностью. Эффективность поисковой системы определяется этим параметром. Алгоритм, которому следует робот при обработке запроса, ищет соответствующие требованиям слова на различных ресурсах. Релевантность какой-либо страницы сайта определяется числом фраз, совпадающих с использованными в поисковом запросе предложениями.

Как определяется релевантность?

Различные поисковые системы имеют разные пороги количества слов-ключей при определении релевантности. Для того чтобы страница была признана соответствующей запросу, уровень совпадающих слов должен быть больше пяти процентов. Если доля востребованных слов на сайте меньше пятипроцентного барьера, то такой ресурс признается недостаточно релевантным и просто игнорируется. Однако в том случае, когда площадка содержит намного большее количество искомых фраз, чем нужно для определения соответствия, то ее блокирует спам-фильтр. Поисковые системы открывают пользователям путь во Всемирную сеть. Развитие Интернета отдало главную роль этим программам.

Развитие алгоритма

После создания система поиска информации работала отлично до тех пор, пока не наступил очередной этап развития Интернета. В ответ на запрос пользователя выдавалась не пара тематических сайтов, а тысячи. Быстро определить, что из предоставленного имеет ценность, было невозможно. Среди выдаваемого списка сайтов присутствовали как высококачественные ресурсы, так и бесполезные. Для отсева нужного от ненужного и был разработан алгоритм определения релевантности. За счет него люди вновь могли получить желаемую информацию быстро, не разбирая груду лишних документов.

Сразу после создания программа-поисковик в определении релевантности руководствовалась исключительно внутренними параметрами рассматриваемого сайта. Такими критериями были:

  1. плотность слов-ключей на странице;
  2. частота нужных фраз в метатегах;
  3. искомые выражения в заголовках;
  4. совпадение с терминами в оформлении статьи.

Изобретение и распространение дорвеев (doorway) изменило всё. Эти специальные страницы содержали только слова из популярных запросов. Их цель — поднять рейтинг сайта в таблице выдачи бота. При переходе на такую страницу-наживку пользователь перенаправлялся на другой сайт или страницу. Для борьбы с данным жульничеством потребовалось создать систему оценки внешних критериев портала. Упрощенно данный алгоритм можно описать следующей формулой:
Р = Н × ( В + С ),
где:

  • Р — общая релевантность сайта;
  • Н — репутация сайта, оценка его наружных параметров независимо от запроса человека;
  • В — соответствие наполнения сайта искомой фразе;
  • С — степень совпадения текста ссылок на страницу и введенной пользователем фразы, ссылочное ранжирование.

Обдумав данное математическое выражение, можно понять принцип оценки релевантности современными поисковыми роботами. Реальная работа алгоритма гораздо сложнее, и ее смысл не уместится в формулу, которая лишь дает сведения о главных учитываемых параметрах.

Внутренняя релевантность сайта

Поисковая система оценивает внутреннюю релевантность портала путем подсчета количества искомых фраз на статью. Так, наиболее часто повторяемое слово программа сочтет ключевым.

При совпадении введенной человеком фразы с самой повторяемой последовательностью слов на сайте этот ресурс будет сочтен релевантным. Такое наиболее повторяемое предложение или слово вычисляется поисковиком для каждого портала.

Большое значение имеет не только наличие на странице сайта всех слов, введенных пользователем, но и их последовательность. Кроме того, учитывается расположение фраз в иерархии текста. Наибольшее значение придается словам в названиях. Если статья озаглавлена в той же формулировке, что и запрос посетителя, то релевантность портала для данного запроса будет высокой. Также учитываются и другие критерии важности слов-ключей, представленные ниже.

  1. Количество синонимов искомого слова.
  2. Положение относительно начала текста. Значимость ключа увеличивается в зависимости от того, насколько близок он к первой строке.
  3. Расстояние между словами, составляющими запрошенную фразу. Чем точнее предложение будет повторяться на сайте, тем этот ресурс предпочтительнее.
  4. Включение соответствующих слов в теги, метатеги, заголовки, названия страниц.

А также поисковый робот отмечает тематику ресурса и, если она полностью совпадает с запросом, выдает этот сайт как результат.

Внешняя релевантность сайта

Для оценки этого вида соответствия сайта используется термин ссылочной популярности. Величина этого критерия зависит от цитируемости обследуемого ресурса другими порталами. Авторитетность сайта зависит в данном случае от количества ссылок на него, размещенных на сторонних площадках. Таким образом, популярность в сети напрямую влияет на оценку качества контента. Алгоритм оценки внешней релевантности сохранил суть со времени своего изобретения основателями компании Google. С того момента он подвергся многим доработкам и работает до сих пор. Руководствуясь количеством найденных ссылок на сайт, поисковая система составляет PageRank — коэффициент, отражающий внешнюю релевантность ресурса.

Яндекс обзавелся своим клоном PR. Для составления критерия авторитетности сайта в 2001 году был разработан ВИЦ. Аббревиатура дословно расшифровывается как взвешенный индекс цитирования. Эта величина была ранее доступна, но в 2002 году ее скрыли от глаз пользователей из-за попыток ее накрутки. Сейчас есть возможность ознакомления лишь с критерием ТИЦ, который задействован для упорядочения сайтов в реестре Яндекса.

ИЦ используется и Рамблером тоже. Но данный индекс используется совместно с рейтингом посещений сайта пользователями. Система Рамблер улучшена этой технологией с 2002 года.

Первой программой, включившей в свой алгоритм ИЦ, была система «Апорт». Переменная была введена в 1999 году. В этом поисковике индекс составлялся лишь на основании самой значимой ссылки, полученной с наиболее популярного сайта.

Как повысить релевантность веб страниц

Релевантность веб-страниц — это оценочное понятие, которое активно используется в сфере поискового продвижения и оптимизации сайтов. Проблемы, связанные с поиском соответствующей информации, становятся основной причиной падения уровня конверсии веб-площадок.

Если представитель целевой аудитории не может найти на страницах сайта необходимый ему контент (текст, аудиозапись, видеофайл, изображение), он приступает к поиску альтернативного источника для получения информации. Иными словами, посетитель уходит с сайта к одному из конкурентов, умеющему размещать качественный и актуальный контент.

Причины падения уровня релевантности

Формально исследование релевантности в области информационного поиска началось в середине прошлого века. Новая отрасль изучения позже получила называние библиометрики. Особое внимание в ходе ранних исследований уделялось поиску актуальных и точных текстов, отвечающих на конкретный вопрос.

С развитием и глобализацией Интернета информационный поток значительно увеличился. Появилось огромное количество нерелевантных веб-страниц, которые заточены исключительно под индексацию в поисковых системах. В результате появилось понятие технической релевантности. Во многом именно желание подстроиться под современные требования Яндекса и Google привело к значительному увеличению количества нерелевантных сайтов.

Причины падения релевантности веб-страниц

  1. Использование неуникального контента плохого качества.
  2. Несоответствие представленной информации заданным для ее поиска ключевым запросам.
  3. Размещение устаревшей, неактуальной или ложной информации.
  4. Проблемы с оптимизацией сайта, в том числе ссылочной массой и внутренней перелинковкой.
  5. Превышение оптимального уровня частности слов и прочие проблемы с семантическим ядром.
  6. Недостаточное или неправильное использование инструментов для раскрутки сайта.

В некоторых случаях запрос может иметь неоднозначную интерпретацию или различные правильные ответы, поэтому при оценке полезности веб-страниц учитывается разнообразие результатов. Наиболее релевантные веб-страницы необязательно являются самыми полезными для пользователя. Отображение сайта на первой странице в результатах поиска также не стоит приравнивать к высокому качеству общей релевантности. Временные передовые позиции в поисковой выдаче часто занимают сайты, хорошо оптимизированные с технической стороны.

Релевантность по ключевому запросу с точки зрения обычной поисковой системы — полученное после анализа соотношение количества запросов и остальных слов/словосочетаний в тексте. Качество самого контента при этом не оценивается. Для преодоления подобного недостатка была предложена специальная мера, называемая «максимальной предельной релевантностью» (MMR). В ее рамках рассчитывается актуальность каждого документа только с точки зрения того, сколько новой информации он приносит на фоне и с учетом предыдущих результатов.

Способы повышения релевантности веб-страниц

Релевантность контента влияет на процесс индексации и ранжирования сайта. Проблемы с оптимизацией информации приводят к сокращению уровня конверсии. Даже если страницы оптимизированы под требования поисковика, низкое качество контента со временем приведет к оттоку посетителей. Специалисты в области поискового продвижения предоставляют несколько полезных советов, связанных с повышением уровня релевантности.

Представитель целевой аудитории покинет сайт, на котором предоставлена хоть и хорошо технически оптимизированная, но устаревшая информация. Современные алгоритмы работы роботов поисковых систем учитывают поведенческие факторы, поэтому со временем веб-страница потеряет и свою техническую релевантность (позиции в топе выдачи снизятся).

Методы повышения релевантности сайта

  1. Привлечение профессиональных веб-дизайнеров, которые займутся разработкой сайта. Качественное юзабилити, приятный дизайн и продуманные параметры структуры сделают сайт приятным для аудитории.
  2. Использование ключевых слов в метатегах (title и descriprion), URL и заголовке h Внимание следует уделить описанию (descriprion), поскольку именно оно отображается в списке поисковой выдачи.
  3. Оптимизация изображений на сайте путем использования тегов alt и title. В современном SEO картинки влияют на процесс продвижения веб-страниц. Этот тип контента обязан соответствовать тематике сайта.
  4. Оптимизация частотности ключевых запросов в тексте. Показатель тошноты по слову не должен превышать 3,5%. Ключевые запросы рекомендуется размещать в первых и последних 100 словах текста.
  5. Повышение общего качества контента. Структурированный, уникальный, осмысленный и хорошо написанный текст высоко ценится аудиторией. Допускаются разбивка и изменение по падежам дополнительных ключевых слов. Использовать можно многоступенчатую систему подзаголовков (h3—h9).
  6. Продуманная внутренняя перелинковка и правильный обмен внешними ссылками. Наращивать ссылочную массу рекомендуется постепенно. Внутренние гиперссылки следует проверять на смысловое соответствие. Для обмена ссылками рекомендуется привлекать надежных партнеров, сайты которых считаются авторитетными источниками для получения тематической информации.
  7. Улучшение социальных сигналов с помощью размещения контекстной рекламы, различных маркетинговых объявлений и обзоров на тематических сайтах (виртуальные каталоги, блоги, площадки для размещения отзывов и рецензий). Сюда следует также отнести продвижение в социальных сетях (SMM).

Принцип релевантности предполагает использование на веб-страницах уникальных, полезных, актуальных и интересных текстов, разбавленных тематическим визуальным контентом (изображения, анимация и видеоролики). Поисковик — это роботизированная система, работающая по заранее прописанным алгоритмам. Во время индексации поисковая машина не в состоянии проверить красоту написания или актуальность текста. Реальную оценку релевантности сайта можно получить лишь в процессе личного изучения веб-станиц.

Владельцу сайта рекомендуется проследить за реакцией посетителей. Если речь заходит о площадке, нацеленной на диалог с представителями целевой аудитории, можно запустить опрос, в котором посетители отметят факторы, по их мнению, снижающие уровень релевантности веб-страниц.

Эффективные способы повысить релевантность страницы позволят удержать сайт на лидирующих местах в поисковой выдаче. Оптимизируя площадку под поисковое продвижение, следует также не забывать о прочих инструментах SEO. Только комплексный подход к раскрутке сайта позволит повысить уровень конверсии.

Возврат к списку

что это такое, объяснение простыми словами


Релевантность – насколько текст документа (страницы сайта), изображения или видео совпадает с запросом пользователя поисковой системы. Если релевантность близка к нулевой – сайт не будет находиться в поисковой выдаче по запросу. За переоптимизацию (искусственное увеличение релевантности документа, путем включения в текст избыточного количества запросов) документ понижается вы выдаче или попадает под фильтр.

Релевантность, позволяющая занять топ поисковой выдачи – естественная. Если вы читаете статью из топ-10 по конкурентному запросу, скорее всего она оптимизирована под поисковые системы, но заметить это трудно (текст не режет глаз изобилием повторяющихся фраз и синонимов).

Пример с нашего сайта — страница, релевантная запросу «зачем нужен паспорт для регистрации домена»

Релевантность текста — что это? Объяснение простыми словами

Если Вы ищете рецепт блинов и попадаете на кулинарный сайт, где есть:

  • список ингредиентов;
  • расписан поэтапно весь процесс;
  • есть фото каждого из этапов — что получается до него, что — после;
  • видео всего процесса.

В таком случае этот сайт явно релевантен запросу.

Недорогие домены в зоне RU — быстрая регистрация, более 10 способов оплаты услуг.

Другие примеры релевантности:

  • Запрос о покупке чего-либо? На релевантной странице должна быть цена и способы покупки.
  • Пользователь ищет фото или видео? На странице должно быть фото или видео.

Критерии релевантности страницы сайта поисковым запросам

На что обращают внимание поисковые системы при оценке релевантности документа:

  • Заголовок страницы.
  • Описание страницы.
  • На ключевые слова, по заявлениям представителей поиска, внимание не обращают – но заполнить их – дело 1-й минуты.

Текст:

  • Количество символов.
  • Структура.
  • Наличие заголовков.
  • Уникальность.

Изображения:

  • Уникальность.
  • Теги alt для изображений.

Видео:

  • Просмотры.
  • Уникальность.

Как получить много релевантного текстового контента на страницу?

Пользовательский контент:

— В интернет магазине отзывы пользователей могут занимать в 5 раз больше места, чем описание товара.

— В блогах текст одного комментария может превышать размеры поста в несколько раз.

iPipe – надёжный хостинг-провайдер с опытом работы более 15 лет.

Мы предлагаем:

Что такое релевантность поиска? | Algolia

Релевантность поиска — это мера точности взаимосвязи между поисковым запросом и результатами поиска.

Сегодняшние онлайн-пользователи возлагают большие надежды. Благодаря высокой планке, установленной такими сайтами, как Google, Amazon и Netflix, они ожидают точных, актуальных и быстрых результатов. Однако реальность такова, что многие сайты не имеют оптимизированных страниц результатов, которые понимают намерения пользователя и легко приводят их в соответствие с их потребностями.

Если вы когда-либо искали веб-сайт только для того, чтобы увидеть кучу бесполезных, несвязанных между собой результатов, то вы знаете, что могут чувствовать ваши пользователи: разочарование и стремление перейти на сайт конкурента, чтобы найти результаты. Релевантность поиска является неотъемлемой частью пользовательского опыта.

Владельцы веб-сайтов могут точно настроить свою релевантность для поиска, чтобы упорядочить результаты поиска наиболее полезным для пользователей способом. Это может быть основано на ряде факторов, таких как цель поиска, бизнес-приоритеты, релевантность текста, точность правописания, геолокация пользователя или близость ключевых слов в искомом контенте.

 

Тонкая настройка релевантности поиска для точности

Релевантность может быть трудно определить правильно, поскольку она сильно зависит от контекста и ряда изменяющихся переменных. Например, тип сайта имеет значение: то, как вещи должны ранжироваться на веб-сайте электронной коммерции по сравнению с академическим сайтом, не будет одинаковым. Тип искателя также имеет значение. Результат, релевантный для клиента, может быть неактуален для бизнеса, которому принадлежит поисковая система, и наоборот. Кроме того, у разных людей будут разные способы выразить то, что они ищут, и даже для одного и того же запроса разные пользователи будут ожидать разных результатов.Формула ранжирования результатов должна учитывать эти нюансы.

 

Почему важна релевантность поиска?

Оптимизация релевантности поиска — чрезвычайно важная, но часто упускаемая из виду грань дизайна взаимодействия с пользователем. Исследования показывают, что 43% посетителей веб-сайта сразу же переходят к строке поиска, и эти пользователи в 2-3 раза чаще конвертируются. Когда пользователям предоставляются результаты, соответствующие их запросам и интересам, они будут более удовлетворены, вовлечены и с большей вероятностью совершат конверсию.

Кроме того, современные онлайн-пользователи возлагают большие надежды на удобство использования веб-сайта, поэтому простота использования и простота дизайна являются важными факторами восприятия бренда клиентами.

 

Краткая история релевантности поиска

История релевантности поиска восходит к ранним дням Интернета, когда исследователи пытались выяснить методы поиска информации, а также то, как исследовать весь создаваемый новый контент.Это быстро привело к изобретению поисковой системы.

 

Поисковые системы

Ранние поисковые системы и протоколы, такие как Archie, созданный в 1990 году аспирантом Университета Макгилла, и Gopher, созданный в 1991 году исследователями из Миннесотского университета, стали важными вехами в развитии современных систем релевантности поиска. Они позволили исследователям использовать условия поиска для поиска в файловых системах других учреждений, к которым они были подключены через Интернет.

Тем не менее, они все еще были очень техническими системами, которые требовали от пользователей глубоких знаний о компьютерах и низкоуровневых концепциях Интернета. Однако всего пару лет спустя, в 1993 году, Всемирная паутина начала процветать, когда сотни веб-сайтов начали выходить в сеть, что положило начало целой новой волне поисковых систем.

 

Ранние поисковые системы

Вскоре было изобретено сканирование веб-страниц для автоматической загрузки и обновления веб-страниц в индексах поисковых систем, что позволило искать гораздо больше контента.

Поисковые системы, такие как Excite в 1993 г. и Yahoo в 1994 г., быстро завоевали популярность благодаря простоте использования. Они даже включали некоторые базовые статистические модели, направленные на понимание запросов пользователей и их связи с контентом.

В этих новых ранних системах применялся работающий, но ограниченный метод упорядочивания наиболее релевантных результатов поиска для пользователей. То есть рейтинг релевантности во многом основывался на количестве раз, когда ключевые слова появлялись на веб-страницах, и не учитывал никаких других критериев для оценки качества веб-страниц.

Затем на сцену вышел Google. Компания Google, основанная 4 сентября 1998 года в Менло-Парке, штат Калифорния, значительно улучшила релевантность поиска и окно поиска, создав передовую технологию поиска.

Например, в течение 2000-х годов поисковые системы начали создавать больше статистических систем для интерпретации семантики запросов, прогнозирования взаимосвязей между различными ключевыми словами и использования данных о кликах для динамической корректировки результатов. По мере того, как специалисты по поисковой оптимизации (SEO) начали изучать, как работают эти алгоритмы, поисковые системы также должны были не отставать и защищаться от более изощренных попыток «обмануть» систему, чтобы результаты оставались максимально честными.

 

Создание релевантного поиска документов   

С увеличением количества сайтов росла и потребность в поиске релевантных документов на определенных сайтах и ​​базах данных. Поиск документов был важным предшественником того, как мы сегодня ищем на сайтах.

Традиционные системы ранжирования часто рассматривают частоту ключевых слов в документах, чтобы предсказать их релевантность. Например, классический алгоритм, известный как TF-IDF, будет проверять, сколько раз ключевые слова появлялись в соответствующих документах (частота терминов) и сколько раз ключевые слова появлялись во всех других документах в репозитории (обратная частота документов).Последний анализ помогает отфильтровать общие слова, которые обычно являются шумом, такие как предлоги.

Хотя эти ранние подходы к релевантности, такие как TF-IDF, были хороши для поиска документов общего назначения, они не могли использовать преимущества дополнительной структуры и метаданных, которые предоставляются на большинстве веб-сайтов. Современный контент имеет заголовки, описания, категории, теги и многое другое, что можно использовать для интерпретации контента сайта и повышения релевантности поиска.

 

Релевантность поиска на сегодня

Сегодня, когда веб-сайты расширили свой контент и предлагаемые продукты, оптимизация релевантности поиска является основным фактором для поисковых систем отдельных сайтов.Компании, использующие собственные системы релевантности, должны учитывать свои специфические бизнес-потребности, чтобы сделать поиск полезным.

Например, бренд электронной коммерции может иметь тысячи разнообразных продуктов и клиентов с самыми разными демографическими данными. Таким образом, когда клиент ищет продукт, внутренняя поисковая система должна иметь возможность предоставлять результаты, которые не только связаны с запросом, но и контекстуально релевантны конкретному пользователю.

Кроме того, маркетологи могут захотеть продвигать сезонные товары, аналогичные мерчандайзингу в магазине, или бизнес-операторы могут захотеть продвигать товары с более высокой маржой.Следовательно, релевантная поисковая система также должна учитывать эти факторы и предоставлять настраиваемый рейтинг, который можно со временем корректировать в соответствии с этими потребностями.

Однако многие из этих алгоритмов по-прежнему неуклюжи. Однако некоторые алгоритмы, такие как алгоритм Algolia, учитывают такие факторы, как важность атрибута соответствия и близость ключевых слов. Таким образом, результаты поиска с гораздо большей вероятностью будут релевантны пользователям, чем алгоритмы поиска общего назначения.

В последнее время, чтобы повысить релевантность, дизайнеры поисковых систем работают над созданием большей персонализации и контекстуализации. Это включает в себя такие вещи, как машинное обучение и обработка естественного языка для обеспечения более разговорного поиска, отслеживание пользовательского поиска и истории просмотра, чтобы обеспечить индивидуальную интерпретацию запросов, а также автоматическую пометку и категоризацию веб-страниц для понимания контента на более высоком уровне, чем просто текстовые ключевые слова.

 

Точная настройка релевантности поиска с помощью Algolia 

Оптимизация поисковой релевантности веб-сайта — сложный и непрерывный процесс.Это требует не только предоставления результатов, соответствующих запросам пользователей, но и предоставления персонализированных результатов и удовлетворения конкретных потребностей бизнеса. Кроме того, по мере того, как пользователи все больше переходят на голосовые устройства и цифровых помощников, компаниям придется выяснить, как предоставить новый тип интерфейса, который может естественно общаться с пользователями.

Чтобы предоставить своим клиентам все эти функции, вам потребуется поиск в качестве партнера по обслуживанию, который предлагает все передовые отраслевые практики из коробки.Узнайте, как Algolia может помочь обеспечить персонализированный и релевантный поиск для ваших пользователей.

Что такое релевантность поиска?

Что такое релевантность поиска?

Релевантность поиска — это мера связи между поисковым запросом и результатами поиска.

Однако то, как поисковые системы определяют релевантность, совсем не просто. На релевантность может влиять любое количество факторов — условия поиска, популярность, местоположение, прошлые поиски или история покупок, поведение при просмотре, и это лишь некоторые из них.

Для поисковых систем Google установил стандарт. Безусловно, помогает то, что у Google есть данные почти за два десятилетия с сотнями миллиардов поисковых запросов и тысячами инженеров и специалистов по данным, которые настраивают параметры релевантности.

Поиск на месте может быть более сложным, но, как мы увидим, можно обеспечить очень хорошие результаты поиска и отличный опыт поиска даже с более скромными наборами поисковых данных.

В этой статье мы заглянем внутрь, чтобы увидеть, как мы индексируем содержимое веб-страницы и интерпретируем запросы для получения более релевантных результатов, а также как ИИ и алгоритмы ранжирования могут влиять на релевантность поиска.

Понимание языка

Пример обработки естественного языка.

Более 40% всех поисковых запросов Google состоят из 4 и более слов. Количество терминов запроса выросло за последние пару десятилетий отчасти благодаря появлению встраивания ИИ и голосового поиска. Голосовой поиск также изменил то, как мы ищем: то, как мы печатаем, отличается от того, как мы говорим. С триллионами документов в Интернете люди привыкли писать более длинные поисковые запросы, чтобы сузить результаты.

Поиск по своей природе нечеткий, а язык часто двусмысленный, поскольку запрос и намерение пользователя не всегда очевидны. Поисковая система должна попытаться понять смысл разных слов в запросе, чтобы вернуть релевантные документы. «Банк» — классический пример этого; это означает финансовое учреждение или берег реки? В некоторых случаях использования поиска на сайте электронной коммерции клиенты могут даже вводить симптомы или прилагательные, чтобы найти ответы. Без дополнительного контекста трудно точно понять, что им нужно.

Существует ряд методов, которые платформы поиска по сайту используют для анализа смысла пользовательского поиска, в том числе:

  • Обработка естественного языка (NLP) — это процесс анализа неструктурированного текста для определения структуры и значения.
  • Понимание семантического запроса — это процесс фактической попытки понять назначение запросов.
  • Персонализация для добавления дополнительной информации — прошлой истории поиска, истории покупок, гео и т.д.— на запрос, основанный на человеке, который ищет.
  • Встраивание слов, векторизация, сегментация запроса, область видимости и другие методы доступны, чтобы помочь поисковым системам понять смысл запроса.

Опечатки — еще одна проблема, с которой нужно справиться. Чтобы избежать плохих результатов поиска и повысить релевантность, необходима проверка орфографии. Где-то между 10-25% запросов в окне поиска могут быть написаны с ошибками, и Баймард сообщает, что «27% сайтов не способны обработать опечатку всего одного символа в названии продукта».Это кажется очевидной функцией, которой должны обладать поисковые системы, но многим, если не большинству поисковых систем сегодня не хватает хорошей устойчивости к опечаткам.

Хорошие результаты поиска и релевантность начинаются задолго до того, как кто-либо введет поисковый запрос. Чтобы понять, как можно повысить релевантность поиска, нам нужно начать с индексации поисковых запросов.

Поисковый индекс

Прежде чем поисковая система сможет начать определять релевантность результатов, она должна быть в состоянии проанализировать каждую запись, по которой вы хотите выполнить поиск.Поисковые системы создадут поисковый индекс с помощью поискового робота или API, который получает данные вашего сайта с помощью карты сайта, ссылок сайта или страниц, на которые есть ссылки в хранилище данных.

При индексировании несколько алгоритмов могут оцениваться по каждой проиндексированной записи и добавлять дополнительные поля и информацию в набор данных, которые полезны при выполнении запросов. Например, Sajari теперь включает дополнительную функцию, называемую конвейерами индексов, которая будет обогащать и преобразовывать данные по мере их поступления. Конвейер индексирования имеет некоторые настройки по умолчанию, но его также можно расширить — например, вы можете использовать API Google Vision для автоматического извлечения метаданных цвета из изображений для создания более богатого индекса.

Оценка релевантности

При выполнении поиска Sajari присваивает оценку релевантности каждому документу в вашем индексе. Оценка варьируется от 0 (нет совпадения) до 1 (полное совпадение), а результаты поиска упорядочены, начиная с наивысшей оценки. Оценка релевантности состоит из двух компонентов оценки: оценки индекса и оценки характеристик.

  • Оценка по индексу : Оценка по индексу представляет текстовую релевантность общего балла. Другими словами, насколько текст поиска соответствует содержанию документов.При этом учитываются орфография, синонимы, основа, встраивание слов на основе ИИ и другие особенности языка.
  • Оценка функции : Оценка функции представляет специфику бизнеса; клиенты могут использовать его для корректировки ранжирования, чтобы лучше адаптировать результаты к бизнес-требованиям.

Оценка показателей релевантности

Если поиск по вашему сайту работает хорошо за счет увеличения числа кликов и дохода, это означает, что ваша поисковая система хорошо справляется с предоставлением релевантных результатов поиска.Но есть и другая, более объективная мера релевантности, которую мы можем использовать, чтобы получить представление о том, насколько хорошо работает поиск, и найти способы его улучшения.

Результат моделей ИИ по релевантности может быть измерен с использованием показателей качества ранжирования, таких как:

  • nDCG : Нормализованный дисконтированный кумулятивный выигрыш может определить сходство между тем, насколько хорошо набор результатов запроса упорядочен для конкретного запроса. . Чем выше балл, тем выше актуальность набора.Это метод оценки, который мы используем при проверке релевантности поиска.
  • MRR : Средние обратные ранговые порядки определяются вероятностью правильности. Как следует из названия, он вычисляет обратную величину ранга. Оценка равна 1, если веб-страница была заказана на 1-м месте, 0,5, если она заняла 2-е место, и так далее. Средний взаимный ранг — это среднее значение по запросам.

Кроме того, существуют методы ранжирования по порядку, в том числе:

  • TF-IDF : одна из старейших моделей ранжирования, термин частотно-обратная частотная модель документа — это статистика, которая измеряет, насколько важно слово в документе. в зависимости от того, сколько раз слово появляется в документе (или на веб-странице).
  • Okapi BM25 : Информационно-поисковая система Okapi была разработана в Лондонском городском университете. «BM» означает лучшее совпадение. Есть более новые варианты, но все они работают аналогично TF-IDF.
  • Плотный поиск : Использует векторы (или хэши) для математического поиска релевантности. Это здорово, но sloooooow.
  • Научитесь ранжировать : Использует многоэтапный процесс для изменения порядка результатов на основе лучших моделей релевантности.
  • Гибридное извлечение : Еще один вариант, в котором используется сочетание вышеперечисленного.
  • Научитесь хешировать : это новый метод, который сжимает векторы в «нейронные хэши» для быстрого и умного поиска.

Вы можете узнать больше об оценке релевантности в этом превосходном блоге Moz. Качество записей имеет большое значение. Такой контент, как заголовки, описания, теги, заголовки и метаданные, может сильно повлиять на показатель качества. (Ознакомьтесь с нашим бесплатным отчетом о состоянии поиска, чтобы узнать, насколько хорошо оптимизирован ваш сайт для поисковых систем)

Динамическое повышение, усиление сигнала и машинное обучение

Настройки релевантности Sajari позволяют клиентам повышать результаты, отвечающие потребностям бизнеса.

Оценка релевантности не статична. Оценки могут быть улучшены с течением времени с помощью усиления сигнала, машинного обучения и корректировки алгоритма.

Усиление сигнала — это процесс, с помощью которого поисковые системы используют поведение пользователей, например клики и конверсии, для оптимизации рейтинга результатов поиска.

По мере того, как все больше пользователей нажимают на определенные результаты, система узнает, какие страницы (или продукты, записи и т. д.) наиболее популярны, и присваивает им более высокую оценку релевантности. Точно так же результаты поиска, которые приводят к конверсиям на сайте (регистрация, корзина, доход и т.) оцениваются выше, потому что они приводят к важным результатам.

Усиление сигнала может улучшить ранжирование и релевантность . Это часть нашего алгоритма машинного обучения. До появления ИИ поиск основывался на поиске по ключевым словам, как индекс в конце книги. Это очень быстро, но регулярно пропускает важные элементы. Люди могут писать правила до бесконечности, и все равно будут возникать бесконечные проблемы с точностью. Это стандарт поиска сегодня.

Поиск на основе искусственного интеллекта предлагает огромную мощность благодаря постоянным и автоматическим улучшениям с интеллектуальными петлями обратной связи (усиление сигнала!).ИИ использует векторы, математический подход к представлению слов, который очень эффективно инкапсулирует смысл текста. Ранжирование ИИ требует использования готовых моделей или создания собственных моделей ИИ для преобразования текстовых запросов в векторы.

Sajari предлагает повышенную релевантность сигнала и ИИ (в частности, обучение с подкреплением), объединенные в функцию, называемую динамическим повышением, которая также включает сбор данных, необходимых для повышения релевантности и ранжирования. Эта система автоматически собирает данные с вашего сайта, приложения или магазина для построения модели данных, машинного обучения для определения релевантности и усиления сигналов для улучшения результатов.Основываясь на ваших желаемых целях — конверсиях, подписках, доходах, кликах и т. д. — поисковая платформа сделает все остальное.

Мы также даем клиентам возможность настраивать алгоритм ранжирования для улучшения результатов в соответствии с конкретными потребностями бизнеса, например, придавая большее значение действиям в корзине покупок, чем кликам, или персонализации для повышения релевантности.

Последнее слово

Возможность предложить исключительный пользовательский интерфейс для поиска по сайту сегодня более возможна, чем когда-либо прежде.Но не все поисковые системы одинаковы. Как минимум, поисковая система должна не только включать такие функции, как НЛП, семантическое понимание запросов, устойчивость к опечаткам, искусственный интеллект и обработка сигналов, но и обеспечивать быстрый поиск информации.

Надеемся, что эта статья послужила хорошим пособием по релевантности поиска и некоторыми сведениями о том, как мы разработали современное решение релевантности. Попробуйте внедрить Sajari, чтобы увидеть, как он работает в вашем случае — подпишитесь на бесплатную 14-дневную пробную версию или свяжитесь с нами для индивидуальной демонстрации.

Ранжирование релевантности на основе контекстного анализа с учетом запросов

1. А.Л.Масри, М., Беррут, К., Шевалле, Дж.П.: Сравнение расширения запроса на основе глубокого обучения с псевдорелевантной обратной связью и взаимной информацией. В: Достижения в области информационного поиска (2016)

2. Арианнежад М., Монтазеральгем А., Замани Х., Шакери А. и др. Итеративная оценка оценки релевантности документа для отзывов о псевдорелевантности. В: Jose J, et al., редакторы. Достижения в поиске информации; Чам: Спрингер; 2017.стр. 676–683. [Google Академия]3. Атрея А., Элкан С. Сбой скрытого семантического индексирования (LSI) для коллекций TREC. SIGKDD Исследование. Newsl. 2011;12(2):5–10. дои: 10.1145/1964897.1964900. [Перекрестная ссылка] [Академия Google]4. Blei DM, Ng AY, Jordan MI. Скрытое распределение Дирихле. Дж. Мах. Учить. Рез. 2003; 3: 993–1022. [Google Scholar]

5. Clinchant, S., Gaussier, E.: Информационные модели для ad hoc IR. В: Материалы 33-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр.234–241. ACM (2010)

6. Clinchant, S., Gaussier, E.: Теоретический анализ псевдорелевантных моделей обратной связи. В: ICTIR 2013, стр. 6:6–6:13 (2013)

7. Коллинз-Томпсон, К.: Снижение риска расширения запроса с помощью надежной оптимизации с ограничениями. В: Материалы 18-й конференции ACM по управлению информацией и знаниями, стр. 837–846. ACM (2009)

8. Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R. Индексирование с помощью латентного семантического анализа. Варенье. соц.Инф. науч. 1990;41(6):391–407. doi: 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. [Перекрестная ссылка] [Академия Google]9. Дирвестер С.К., Дюме С.Т., Ландауэр Т.К., Фурнас Г.В., Харшман Р.А. Индексирование с помощью скрытого семантического анализа. Варенье. соц. Инф. науч. Технол. 1990; 41: 391–407. doi: 10.1002/(SICI)1097-4571(199009)41:6<391::AID-ASI1>3.0.CO;2-9. [Перекрестная ссылка] [Академия Google] 10. Диаз, Ф., Митра, Б., Красуэлл, Н.: Расширение запроса с локально обученными вложениями слов. Препринт arXiv arXiv:1605.07891 (2016)

11. Фанг, Х., Тао, Т., Чжай, К.: Формальное исследование эвристики поиска информации. В: Материалы 27-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 49–56. ACM (2004)

12. Fang H, Tao T, Zhai C. Диагностическая оценка моделей поиска информации. АКМ транс. Инф. Сист. 2011;29(2):7:1–7:42. дои: 10.1145/1961209.1961210. [CrossRef] [Google Scholar]

13. Гангули Д., Рой Д., Митра М., Джонс Г.Дж.: Обобщенная языковая модель для поиска информации на основе встраивания слов.В: SIGIR 2015, стр. 795–798 (2015)

14. Хофманн, Т.: Вероятностное скрытое семантическое индексирование. В: SIGIR 1999, стр. 50–57 (1999)

15. Имани А., Вакили А., Монтазер А., Шакери А. Глубокие нейронные сети для расширения запросов с использованием встраивания слов. В: Azzopardi L, Stein B, Fuhr N, Mayr P, Hauff C, Hiemstra D, редакторы. Достижения в поиске информации; Чам: Спрингер; 2019. С. 203–210. [Google Академия] 16. Джонс КС. Автоматическая классификация ключевых слов для поиска информации. Либр. Q. 1971; 41 (4): 338–340.дои: 10.1086/619985. [CrossRef] [Google Scholar]

17. Кузи С., Шток А., Курланд О. Расширение запроса с использованием встраивания слов. В: Материалы 25-й Международной конференции ACM по управлению информацией и знаниями, стр. 1929–1932. ACM (2016)

18. Li, X., Liu, Y., Mao, J., He, Z., Zhang, M., Ma, S.: Понимание распределения внимания при чтении во время оценки релевантности. В: CIKM 2018, pp. 733–742 (2018)

19. Li, X., Mao, J., Wang, C., Liu, Y., Zhang, M., Ma, S.: Научите машину читать: поведение при чтении вдохновило на оценку релевантности. В: SIGIR (2019)

20. Lv, Y., Zhai, C.: Сравнительное исследование методов оценки моделей языка запросов с псевдообратной связью. В: Материалы 18-й конференции ACM по управлению информацией и знаниями, стр. 1895–1898. ACM (2009)

21. Мецлер, Д., Крофт, В.Б.: Марковская модель случайного поля для терминальных зависимостей. В: СИГИР, 2005. С. 472–479 (2005)

22. Миколов Т., Суцкевер И., Чен К., Коррадо Г.С., Дин Дж.: Распределенные представления слов и фраз и их композиционность. В: Достижения в системах обработки нейронной информации, стр. 3111–3119 (2013)

23. Митра, Б., Диас, Ф., Красуэлл, Н.: Обучение сопоставлению с использованием локальных и распределенных представлений текста для веб-поиска. В: Материалы 26-й Международной конференции по всемирной паутине, стр. 1291–1299. Руководящий комитет международных конференций World Wide Web (2017 г.)

24. Монтазеральгем, А., Zamani, H., Shakery, A.: Аксиоматический анализ для улучшения модели логарифмической логистической обратной связи. В: Труды 39-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 765–768 (2016)

. -релевантная обратная связь. В: Материалы 40-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 1085–1088 (2017)

26.Монтазералгхэм, А., Замани, Х., Шакери, А.: Теоретический анализ взаимозависимых ограничений в псевдорелевантной обратной связи. В: 41-я Международная конференция ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 1249–1252 (2018)

27. Пайк, Дж. Х.: Новая схема взвешивания TF-IDF для эффективного ранжирования. В: SIGIR 2013, стр. 343–352 (2013)

28. Пеннингтон, Дж., Сочер, Р., Мэннинг, К.: Перчатка: глобальные векторы для представления слов. В: Материалы конференции 2014 г. по эмпирическим методам обработки естественного языка (EMNLP), стр.1532–1543, октябрь 2014 г.

29. Понте, Дж. М., Крофт, В. Б.: Подход языкового моделирования к поиску информации. В: Труды 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 275–281 (1998)

. 30. Робертсон С.Е., Уокер С. Некоторые простые эффективные приближения к модели 2 Пуассона для вероятностно-взвешенного поиска. . В: Croft BW, van Rijsbergen CJ, редакторы. SIGIR 1994. Лондон: Springer; 1994. С. 232–241. [Google Академия] 31.Солтон Г. Поисковая система SMART — эксперименты по автоматической обработке документов. Река Аппер-Сэдл: Prentice-Hall Inc.; 1971. [Google Scholar]

32. Тао, Т., Чжай, К.: Исследование мер близости в поиске информации. В: Труды 30-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска, стр. 295–302. ACM (2007)

33. Вурхиз Э.М. Расширение запроса с помощью лексико-семантических отношений. В: Croft BW, van Rijsbergen CJ, редакторы.SIGIR 1994. Лондон: Springer; 1994. С. 61–69. [Google Scholar]

34. Вулич, И., Моенс, М.Ф.: Одноязычные и межъязыковые модели поиска информации, основанные на (двуязычных) вложениях слов. В: SIGIR 2015, стр. 363–372 (2015)

35. Wei, X., Croft, W.B.: Модели документов на основе LDA для специального поиска. В: SIGIR 2006, стр. 178–185 (2006)

36. Wu HC, Luk RW, Wong KF, Kwok K. Ретроспективное исследование гибридной модели поиска на основе контекста документа. Инф. Обработать. Управление 2007;43(5):1308–1331.doi: 10.1016/j.ipm.2006.10.009. [CrossRef] [Google Scholar]

37. Сюй Дж., Крофт В.Б.: Расширение запроса с использованием локального и глобального анализа документов. В: SIGIR 1996, стр. 4–11 (1996)

38. Конг, Ю.К., Лук, Р., Лам, В., Хо, К.С., Чанг, Ф.Л.: Поиск на основе проходов на основе параметризованных нечетких операторов. В: Семинар SIGIR 2004 по математическим/формальным методам поиска информации (2004)

39. Zamani, H., Croft, WB: Модели языка запросов на основе встраивания. В: ICTIR 2016, стр.147–156 (2016)

40. Чжай, К., Лафферти, Дж.: Исследование методов сглаживания для языковых моделей, применяемых для поиска информации ad hoc. В: Форум ACM SIGIR, vol. 51, стр. 268–276. ACM (2017)

41. Чжэн Г., Каллан Дж.: Обучение переоценке терминов с помощью распределенных представлений. В: SIGIR 2015, стр. 575–584 (2015)

Определение релевантности: как оценивается сходство

Мнения автора полностью принадлежат ему (за исключением маловероятного случая гипноза) и могут не всегда отражать взгляды млн унций

Современные поисковые системы имеют сложные способы измерения того, связана ли веб-страница с заданным запросом, основанные на десятилетиях исследований в области информационного поиска. Присоединяйтесь ко мне, когда я исследую внутреннюю работу механизма релевантности поисковой системы и объясняю, что это значит для SEO-специалистов.

Определение релевантности

Когда пользователь отправляет запрос в поисковую систему, первое, что она должна сделать, это определить, какие страницы в индексе связаны с запросом, а какие нет.В этом посте я буду называть это проблемой «релевантности». Более формально мы можем сформулировать это следующим образом:

Для заданного поискового запроса и документа вычислите показатель релевантности, который измеряет сходство между запросом и документом.

«Документ» в этом контексте может также относиться к таким вещам, как тег заголовка, метаописание, входящий якорный текст или что-либо еще, что, по нашему мнению, может помочь определить, относится ли запрос к странице. На практике поисковая система вычисляет ряд оценок релевантности, используя различные элементы страницы, и взвешивает их все, чтобы получить единую окончательную оценку.

Проблема релевантности очень хорошо изучена в исследовательском сообществе. Первые работы датируются несколькими десятилетиями, и это все еще является активной областью исследований. В этом посте я сосредоточусь на наиболее влиятельных подходах, выдержавших испытание временем.

Релевантность и ранжирование

Концептуально мы можем отделить определение релевантности от ранжирования релевантных документов, даже если они реализованы как один шаг внутри поисковой системы. В этой ментальной структуре шаг релевантности сначала принимает бинарное решение (Истина/Ложь) для каждой страницы, затем шаг ранжирования приказывает вернуть документы пользователю.

Позже в этом посте я представлю некоторые данные, которые наглядно иллюстрируют это разделение и то, как оно соотносится с различными сигналами ранжирования.

Модели запросов и документов

Преобразование запроса и документа из необработанных строк во что-то, с чем мы можем выполнять вычисления, является первым препятствием в вычислении показателя сходства. Для этого мы используем «модели запросов» и «модели документов». «Модели» здесь — просто причудливый способ сказать, что строки представлены каким-то другим способом, который делает возможным вычисление.

Изображение выше иллюстрирует этот процесс для запроса «philadelphia phillies» и страницы Википедии о Phillies. Последний шаг в вычислении оценки подобия запускает представление запроса и документа через функцию оценки.

Модели запросов

На следующем рисунке показаны некоторые различные типы моделей запросов:

Строительные блоки в нижней части включают такие вещи, как токенизация (разбиение строки на слова), нормализация слов (например, выделение корней, когда удаляются общие окончания слов) и исправление орфографии (если запрос содержит слово с ошибкой, поисковая система исправляет его и возвращает результаты для исправленного слова).

Поверх этих строительных блоков построены такие вещи, как классификация запросов и намерения. Если поисковая система определяет, что конкретный запрос чувствителен ко времени, она возвращает результаты новостей, или если она считает, что намерение запроса является транзакционным, она отображает результаты покупок.

Наконец, на вершине пирамиды находятся более абстрактные представления запроса, такие как извлечение сущностей или представления скрытых тем (LDA). Действительно, Google знает, что «Филадельфия Филлис» является бейсбольной командой высшей лиги, и, поскольку сейчас бейсбольный сезон, возвращает вчерашний счет вверху результатов поиска (в дополнение к диаграмме знаний справа).

Модели документов

Как и модели запросов, существует несколько различных типов моделей документов, обычно используемых при поиске.

TF-IDF — один из старейших и наиболее известных подходов, который представляет каждый запрос и документ в виде вектора и использует некоторый вариант косинусного сходства в качестве функции оценки. Языковая модель кодирует некоторую информацию о статистике языка и включает в себя такие знания, как фраза «поисковая оптимизация» гораздо более распространенная, чем «поисковая прогулка».«Языковые модели широко используются в машинном переводе и распознавании речи, а также в других приложениях. Они также чрезвычайно полезны при поиске информации. Еще один класс моделей использует принцип вероятностного ранжирования, который напрямую моделирует вероятность релевантности для данного запроса и документа. Из них наиболее эффективным оказался Okapi BM25

Корреляционное исследование

К настоящему времени вы, вероятно, задаетесь вопросом, действительно ли поисковые системы используют какие-либо из этих вещей, и если да, то какие из них наиболее важны.Чтобы изучить это, мы разработали корреляционное исследование, подобное тем, которые мы проводили в прошлом (см. здесь некоторые сведения об общем подходе). В этом случае мы собрали 50 лучших результатов Google-US примерно по 14 000 ключевых слов. В результате мы просканировали около 600 000 страниц и использовали их для вычисления ряда различных показателей сходства.

Как видите, подход с использованием языковой модели показал наилучшие результаты при средней корреляции Спирмена 0,10, что согласуется с результатами, опубликованными в исследовательской литературе.

Если мы сначала выполним определение корней как запроса, так и документа, а затем перевычислим, корреляции немного увеличатся по всем направлениям:

Это говорит о том, что Google действительно выполняет некоторый тип нормализации слов или определения корней при расчете их релевантности.

Пересмотр релевантности и ранжирования

Сравнивая эти корреляции с авторитетом страницы (совокупный показатель внутренних ссылок в нашем индексе Mozscape) на одном и том же наборе данных, мы видим существенную разницу:

Напрашивается вопрос: настолько полезны, почему корреляции не выше? Ответ заключается в концептуальной релевантности и разделении рейтинга, о котором я говорил ранее.

Чтобы убедиться в этом, я построил эксперимент, как показано ниже:

Для проведения эксперимента я сначала взял 450 случайных страниц из нашего набора данных, стратифицированных по 50 лучшим результатам (так, чтобы они включали девять страниц с рейтингом №1, девять страниц №2). ранжированные страницы и др.). Затем я добавил 450 случайных страниц в первые 50 страниц каждого результата поиска, чтобы создать одну группу из 500 страниц для каждого ключевого слова. Поскольку 50 из этих страниц есть в результатах поиска, а 450 нет, 10% из них релевантны ключевому слову, а 90% — нет (здесь предполагается, что если страница появляется в поиске Google, значит, она релевантна).Затем для каждого ключевого слова я собрал показатель сходства авторитета страницы и языковой модели и отсортировал их по каждому (таблицы в середине).

Наконец, я вычислил точность в 50, которая представляет собой процент 50 лучших результатов, отсортированных по оценке PA/Language Model, которые фактически находятся в результатах поиска. Это напрямую измеряет степень, в которой PA или языковая модель могут отделить релевантные страницы от нерелевантных. Поскольку 10 % из 500 документов находятся в результатах поиска, мы можем добиться 10-процентной точности, отсортировав их случайным образом.Эта 10-процентная точность является нашей базовой линией (нижние серые полосы на изображении).

Результаты поразительны. Точность PA очень близка к базовому уровню, что говорит о том, что оно не лучше, чем случайное число, при определении релевантности, хотя оно хорошо справляется с ранжированием 50 лучших, когда известно, что они релевантны. С другой стороны, точность языковой модели близка к 100%. Иными словами, языковая модель почти идеально определяет, какие из 500 страниц находятся в результатах поиска, но плохо справляется с фактическим ранжированием соответствующих документов.

Выводы

Этот тип оценки сходства запроса и документа хорошо известен в исследовательской литературе и лежит в основе каждой современной информационно-поисковой системы. Таким образом, поиск имеет фундаментальное значение и невосприимчив к изменению алгоритма.

Поскольку поисковые системы используют сложные модели запросов и документов, нет необходимости проводить отдельную оптимизацию для схожих ключевых слов. Например, любая страница с таргетингом на «обзоры фильмов» также будет настроена на «обзоры фильмов».

Наконец, вы можете использовать концептуальное разделение между релевантностью и ранжированием в своем рабочем процессе.При создании или изменении существующего контента сначала сосредоточьтесь на том, чтобы сделать страницу релевантной широкому набору связанных ключевых слов. Затем сконцентрируйтесь на увеличении позиции поиска.

Скоро появятся дополнительные результаты Ranking Factors

Это первые результаты, которые мы опубликовали в рамках проекта Ranking Factors 2013 года. Как и в прошлые годы, проект включает в себя как отраслевой обзор, так и крупное корреляционное исследование. Я представлю результаты на MozCon в этом году (так что приобретайте билеты, если вы еще этого не сделали!), а позже этим летом мы опубликуем полный отчет.

Чтобы копнуть глубже

Вот все слайды из моего доклада SMX Advanced:

Я настоятельно рекомендую книгу Introduction to Information Retrieval Manning et al. Он доступен для бесплатного онлайн-чтения на их сайте и содержит исчерпывающее описание всего, что обсуждалось в этом посте (и многое, многое другое). В частности, см. главы 2, 6, 11 и 12.

Спасибо за внимание. Жду продолжения обсуждения в комментариях ниже!

Повышение релевантности поиска с помощью оптимизации запросов на основе данных

При создании возможностей полнотекстового поиска, таких как поиск часто задаваемых вопросов или поиск в вики, существует несколько способов решить эту проблему с помощью Elasticsearch Query DSL.Для полнотекстового поиска существует относительно длинный список возможных типов запросов, начиная от простейшего запроса совпадений и заканчивая мощным запросом интервалов .

Независимо от типа запроса, который вы выберете, вы также столкнетесь с пониманием и настройкой списка параметров. Хотя Elasticsearch использует хорошие значения по умолчанию для параметров запроса, их можно улучшить на основе документов в базовом индексе (корпусе) и определенных типах строк запроса, с которыми пользователи будут выполнять поиск.3″, «сообщение» ] } } }

Здесь мы используем параметр повышения поля, чтобы указать, что оценки с совпадениями в поле темы должны быть увеличены и умножены на коэффициент три. Мы делаем это в попытке улучшить общую релевантность запроса — документы, которые являются наиболее значимыми по отношению к запросу, должны быть как можно ближе к началу результатов. Но как выбрать подходящее значение для повышения? Как мы можем установить параметр boost не для двух полей, а для дюжины полей?

Процесс настройки релевантности заключается в понимании влияния этих различных параметров.Из всех параметров, которые вы могли бы настроить и настроить, какие следует попробовать, с какими значениями и в каком порядке? Хотя глубокое понимание оценки и настройки релевантности не следует игнорировать, как мы можем применить более принципиальный подход к оптимизации наших запросов? Можем ли мы использовать данные о кликах пользователей или явной обратной связи (например, о положительном или отрицательном результате) для настройки параметров запроса для повышения релевантности поиска? Мы можем, так что давайте погрузимся!

В дополнение к этому сообщению в блоге мы собрали несколько примеров кода и блокнотов Jupyter, которые проведут вас через этапы оптимизации запроса с помощью методов, описанных ниже.Сначала прочитайте этот пост, затем перейдите к коду и посмотрите все части в действии. На момент написания этого поста мы использовали Elasticsearch 7.10, и все должно работать с любой лицензией Elasticsearch.

Знакомство с MS MARCO

Чтобы лучше объяснить принципы и результаты настройки параметров запроса, мы будем использовать общедоступный набор данных под названием MS MARCO. Набор данных MS MARCO — это большой набор данных, курируемый Microsoft Research, содержащий 3,2 миллиона документов, извлеченных с веб-страниц, и более 350 000 запросов, полученных из реальных поисковых запросов Bing.MS MARCO имеет несколько поднаборов данных и связанных с ними проблем, поэтому в этом посте мы сосредоточимся конкретно на проблеме ранжирования документов, поскольку она наиболее точно соответствует традиционному поиску. Задача состоит в том, чтобы эффективно обеспечить наилучшее ранжирование релевантности для набора выбранных запросов из набора данных MS MARCO. Задача открыта для общественности, и любой исследователь или практик может принять участие, представив свои собственные попытки придумать наилучший возможный рейтинг релевантности для набора запросов.Позже в этом посте вы увидите, насколько успешно мы добились успеха, используя описанные здесь методы. Чтобы узнать текущее положение дел, вы можете проверить официальную таблицу лидеров.

Наборы данных и инструменты

Теперь, когда у нас есть приблизительная цель повышения релевантности путем настройки параметров запроса, давайте посмотрим на инструменты и наборы данных, которые мы собираемся использовать. Сначала давайте наметим более формальное описание того, чего мы хотим достичь, и данных, которые нам понадобятся.

  • Дано:
    • Корпус (документы в индексе)
    • Поисковый запрос с параметрами
    • Набор данных релевантности с метками
    • Метрика для измерения релевантности
  • Найти: Значения параметра запроса, которые максимизируют выбранную метрику

Метка

Теперь вы можете подумать: «Подождите, подождите, подождите, что же такое набор данных релевантности

, помеченный как , и где его взять?!» Короче говоря, помеченный набор данных релевантности — это набор запросов с результатами, которые были помечены как с рейтингом релевантности.Вот пример очень маленького набора данных с одним запросом:

 {
  "id": "запрос1",
  "value": "настройка релевантности Elasticsearch",
  "Результаты": [
    { "rank": 1, "id": "doc2", "label_id": 2, "label": "актуально" },
    { "rank": 2, "id": "doc1", "label_id": 3, "label": "очень актуально" },
    { "rank": 3, "id": "doc8", "label_id": 0, "label": "не актуально" },
    { "rank": 4, "id": "doc7", "label_id": 1, "label": "связанные" },
    { "rank": 5, "id": "doc3", "label_id": 3, "label": "очень актуально" }
  ]
}
 

В этом примере мы использовали метки релевантности: ( 3 ) очень актуально, ( 2 ) релевантно, ( 1 ) связано и ( 0 ) не релевантно.Эти метки произвольны, и вы можете выбрать другой масштаб, но четыре метки выше довольно распространены. Один из способов получить эти ярлыки — получить их от судей-людей. Группа людей может просматривать журналы ваших поисковых запросов и присваивать каждому результату метку. Это может занять довольно много времени, поэтому многие люди предпочитают собирать эти данные напрямую от своих пользователей. Они регистрируют пользовательские клики и используют модель кликов для преобразования активности кликов в метки релевантности.

Детали этого процесса выходят далеко за рамки этого поста в блоге, но посмотрите презентации и исследования по моделям кликов 123 .Для начала хорошо бы собрать события кликов для целей аналитики, а затем изучить модели кликов, как только у вас будет достаточно данных о поведении пользователей. Взгляните на недавнюю запись в блоге Анализ показателей релевантности онлайн-поиска с помощью Elasticsearch и Elastic Stack, чтобы узнать больше.

Набор данных документов MS MARCO

Как обсуждалось во введении, в целях демонстрации мы собираемся использовать задачу ранжирования документов MS MARCO и связанный набор данных, в котором есть все, что нам нужно: корпус и помеченный набор данных релевантности.

MS MARCO был впервые создан для целей сравнительного анализа систем вопросов и ответов (Q&A), и все запросы в наборе данных на самом деле являются вопросами той или иной формы. Например, вы не найдете запросов, похожих на типичные ключевые запросы, такие как «правила Лиги чемпионов». Вместо этого вы увидите строки запроса, такие как «Каковы футбольные правила для Лиги чемпионов УЕФА?». Поскольку это набор данных, отвечающих на вопрос, набор данных с маркировкой релевантности также выглядит немного иначе.Поскольку вопросы , как правило, имеют только один лучший ответ, результаты имеют только один «соответствующий» ярлык ( 1 ) и больше ничего. Документы довольно просты и состоят всего из трех полей: url , title , body . Вот пример (фрагмент) документа:

  • ID: D2286643
  • URL: http://www.answers.com/Q/Why_is_the_Manhattan_Proj…
  • Title: Чем важен Манхэттенский проект?
  • Тело: Ответы.com ® Wiki Answers ® Категории История, политика и общество История Война и военная история Вторая мировая война Это был второй самый секретный проект войны (первым был криптографический проект). Это был самый приоритетный проект войны, ему было присвоено кодовое слово «серебристый», которое перевешивало все другие приоритеты военного времени. Это стоило 2 000 000 000 долларов. <фрагмент> Редактировать Майк М 656 Ответы на вопросы В США во время Второй мировой войны Почему Манхэттенский проект был назван Манхэттенским проектом? Первые части Манхэттенского проекта приняли участие в подвале здания, расположенного на Манхэттене.Редактировать Пэт Ши Ответы на 3370 публикаций в книге «Война и военная история» Что такое секретный проект Манхэттенского проекта? Манхэттенский проект был кодовым названием проекта Второй мировой войны по созданию первого ядерного оружия, атомной бомбы. Редактировать

Как видите, документы почищены и HTML-разметка удалена, однако иногда они могут содержать всевозможные метаданные. Это особенно верно для пользовательского контента, как мы видели выше.

Измерение релевантности поиска

Наша цель в этом сообщении блога — установить систематический способ настройки параметров запроса для повышения релевантности результатов поиска.Чтобы измерить, насколько хорошо мы справляемся с этой целью, нам нужно определить метрику, которая отражает, насколько хорошо результаты данного поискового запроса удовлетворяют потребности пользователя. Другими словами, нам нужен способ измерения релевантности. К счастью, у нас уже есть инструмент для этого в Elasticsearch, который называется Rank Evaluation API. Этот API позволяет нам взять наборы данных, описанные выше, и рассчитать одну из многих метрик релевантности поиска.

Для достижения этого API выполняет все запросы из помеченного набора данных релевантности и сравнивает результаты каждого запроса с помеченными результатами для расчета показателя релевантности, такого как точность , отзыв, или средний обратный ранг (MRR) .В нашем случае задача ранжирования документов MS MARCO уже выбрала средний обратный рейтинг (MRR) в лучших 100 результатах ([email protected]) в качестве метрики релевантности. Это имеет смысл для набора данных вопросов и ответов, поскольку MRR заботится только о первом релевантном документе в наборе результатов. Он берет обратного ранга ( 1 / ранг ) первого релевантного документа и усредняет их по всем запросам.

Рисунок 1: Формула MRR

Для тех, кто склонен к зрению, вот пример расчета MRR для небольшого набора запросов:

Рисунок 2: пример расчета MRR

Шаблоны поиска

Теперь, когда мы установили, как мы хотели бы измерять релевантность с помощью API оценки ранга, нам нужно посмотреть, как предоставить параметры запроса, чтобы мы могли попробовать разные значения.3″, «сообщение» ] } } }

Когда мы используем API оценки ранга, мы указываем метрику, помеченный набор данных релевантности и, при необходимости, шаблоны поиска, которые следует использовать для каждого запроса. Метод, который мы опишем ниже, на самом деле довольно мощный, поскольку мы можем полагаться на шаблоны поиска. По сути, мы можем превратить все, что мы можем параметризовать в шаблоне поиска, в параметр, который мы можем оптимизировать. Вот еще один запрос multi_match , но с использованием реальных полей из набора данных документа MS MARCO и предоставлением параметра повышения для каждого.{{body_boost}}» ] } } }

query_string будет заменен, когда мы запустим API оценки ранга, но эти другие параметры boost будут устанавливаться каждый раз, когда мы хотим протестировать новые значения параметров. Если вы используете запросы с другими параметрами, например tie_breaker , вы можете использовать тот же шаблон для предоставления параметра. Дополнительные сведения см. в документации по шаблонам поиска.

Оптимизация параметров: Собираем все вместе

Хорошо, оставайтесь со мной здесь! Наконец пришло время собрать все эти кусочки воедино.Мы видели каждый из необходимых компонентов:

  • Корпус
  • Помеченный набор данных релевантности
  • Метрика для измерения релевантности
  • Шаблон поиска с параметрами

организовать рабочий процесс. Рабочий процесс довольно прост: отправьте вызов Rank Evaluation API с некоторыми значениями параметров, чтобы попробовать, получите оценку метрики ([email protected]), запишите значения параметров, которые дали эту оценку метрики, и выполните итерацию, выбирая новые значения параметров для пробы.В конце мы возвращаем значения параметров, дающие наилучшие показатели. Этот рабочий процесс представляет собой процедуру оптимизации параметров, в которой мы максимизируем метрическую оценку.

Рисунок 3: Рабочий процесс оптимизации параметров

В рабочем процессе на рисунке 3 мы видим, где используются все наши наборы данных и инструменты, при этом API оценки ранга занимает центральное место для выполнения запросов и измерения релевантности с помощью предоставленной метрики. Единственное, чего мы еще не коснулись, — это как выбрать значения параметров, которые будут проверяться на каждой итерации.В следующих разделах мы обсудим два разных метода выбора значений параметров: поиск по сетке и байесовскую оптимизацию. Прежде чем мы поговорим о методах, нам нужно ввести концепцию пространства параметров .

Пространства параметров.Пространство параметров — это мир возможных значений всех объединенных параметров. В контексте оптимизации параметров (выбор значений параметров, которые максимизируют некоторую метрику или оценку) у нас есть параметры плюс оценка метрики. Давайте возьмем простой пример пространства параметров размера два или двумерного пространства параметров с параметрами x и y. Поскольку у нас есть только два измерения, мы можем легко построить это пространство параметров на трехмерном графике. В этом случае мы используем контурный график, где третье измерение, цветовой градиент, представляет собой метрическую оценку.Градиент цвета идет от синего, который является самой низкой метрической оценкой, и от желтого, который является самым высоким (чем выше, тем лучше).

Рисунок 4: Изолиния пространства параметров

Поиск по сетке

Чтобы создать график, как мы видели выше, мы вызываем API оценки ранга со всеми возможными перестановками двух параметров и каждый раз сохраняем возвращенную метрическую оценку. В псевдокоде это может выглядеть примерно так:

 для x в [1, 2, 3, 4, 5]:
    для у в [1, 2, 3, 4, 5]:
       параметры = {‘х’: х, ‘у’: у}
       оценка = оценка_ранга (шаблон_поиска, данные_релевантности,
                         метрика, параметры)
 

В результате этого двойного цикла будет получена таблица показателей:

 1 2 3 4 5
5: 0 5 7 3 0
4: 5 7 9 7 5
3: 0 7 9 10 4
2: 0 5 7 9 0
1:0 2 6 5 2
 

Пространство параметров, показанное на рис. 4, где x и y представляют собой диапазон размера 5, означает, что мы вызываем API оценки ранга 25 ( 5*5 ) раз.Если мы удвоим размер каждого диапазона параметров до 10 , мы получим пространство параметров размером 100 ( 10*10 ). Если мы добавим к количеству параметров, скажем, размерность z, но оставим диапазон прежним, мы получим еще большее количество запусков API оценки ранга — 125 ( 5*5*5 ).

Когда пространство параметров невелико, поиск по сетке является хорошим вариантом, поскольку он исчерпывающий — он проверяет все возможные комбинации. Однако из-за быстрого, а иногда и экспоненциального роста числа вызовов API оценки ранга с большим пространством параметров поиск по сетке становится непрактичным, поскольку он может увеличить время, необходимое для оптимизации запроса, до часов или даже дней.Помните, что при вызове Rank Evaluation API будут выполняться все запросы в нашем наборе данных. Это могут быть сотни или тысячи запросов, которые необходимо выполнять при каждом вызове, а также для больших корпусов или сложных поисковых запросов, которые могут занимать очень много времени даже в большом кластере Elasticsearch.

Байесовская оптимизация

Более эффективным с вычислительной точки зрения подходом к оптимизации параметров является Байесовская оптимизация . Вместо того, чтобы пробовать все возможные комбинации значений параметров, как при поиске по сетке, байесовская оптимизация принимает решения о том, какие значения параметров пробовать дальше, на основе предыдущих оценок метрик.Байесовская оптимизация будет искать области пространства параметров, которые она еще не видела, но которые, похоже, могут содержать лучшие метрические оценки. В качестве примера возьмем следующее пространство параметров.

Рис. 5: Изолиния пространства параметров с метками измеренных параметров

На рис. 5 мы случайным образом разместили десять черных меток X . Красный X отмечает место в пространстве параметров с максимальной метрической оценкой. Основываясь на случайных черных метках X , мы уже можем немного узнать о пространстве параметров.Отметки X в нижнем левом и нижнем правом углах не выглядят многообещающими областями, и, вероятно, не стоит тестировать дополнительные значения параметров в этой окрестности. Если мы посмотрим на верхнюю часть пространства параметров, мы увидим несколько точек с гораздо более высокими метрическими показателями. Мы видим особенно высокие значения в четырех метках X посередине, и это выглядит гораздо более многообещающей областью, в которой можно найти максимальную метрическую оценку. Байесовская оптимизация будет использовать эти начальные случайные точки плюс любые последующие точки, которые она пробует, и применит некоторую статистику, чтобы выбрать следующие значения параметров для проверки.Статистика усердно работает на нас — спасибо Байесу за это!

Результаты

Используя изложенные здесь методы и основанные на серии оценок с помощью различных анализаторов, типов запросов и оптимизаций, мы внесли некоторые улучшения по сравнению с базовыми неоптимизированными запросами в рейтинге документов MS MARCO 4 задача . Все эксперименты с полной информацией и пояснениями можно найти в указанной записной книжке Jupyter, но ниже вы можете увидеть сводку 5 наших результатов.Мы видим прогресс от простых и неоптимизированных запросов к запросам с более высокими показателями [email protected] (чем выше, тем лучше, лучшие результаты для каждого блокнота выделены красным) за счет оптимизации параметров. Это показывает нам, что мы действительно можем использовать данные и принципиальный подход для повышения релевантности поиска путем оптимизации параметров запроса!

Справочник Эксперимент МРР@100
0 - Анализаторы Анализаторы по умолчанию, объединенные для каждого поля совпадение es 0.2403
Пользовательские анализаторы, комбинированные по полям соответствуют es 0,2504
Анализаторы по умолчанию, multi_match cross_fields (параметры по умолчанию) 0,2475
Пользовательские анализаторы, multi_match cross_fields (параметры по умолчанию) 0,2683
Анализаторы по умолчанию, multi_match best_fields (параметры по умолчанию) 0.2714
Пользовательские анализаторы, multi_match best_fields (параметры по умолчанию) 0.2873
1 - Настройка запроса 0,2683 0.2841
multi_match cross_fields настроено (пошагово): все параметры 0.3007
multi_match cross_fields настроено (все-в-одном v1): все параметры 0,2945
multi_match cross_fields настроено (все-в-одном v2, уточненное пространство параметров): все параметры 0,2993
multi_match cross_fields настроено (все-в-одном v3, случайно): все параметры 0.2966
2 - Настройка запроса - best_fields multi_match best_fields baseline: параметры по умолчанию 0,2873
multi_match best_fields настроено (все в одном): все параметры 0,3079
Обновление (25 ноября 2020 г.): Наша официальная заявка принята, и мы получили оценку по оценочному набору запросов @1s (используется только для таблицы лидеров) 0.268 . Это дает нам лучший результат для не-нейронного (не использующего глубокое обучение) рейтинга в таблице лидеров! Следите за обновлениями.

Обновление (20 января 2021 г.): Мы улучшили нашу первую отправку, добавив технику под названием doc2query (T5), а также некоторые другие мелкие исправления и улучшения. Благодаря новому представлению мы получили оценку по набору оценочных запросов [email protected] 0,300. Это на +0,032 больше, чем в предыдущем представлении! Более подробную информацию можно найти в файле README проекта и прилагаемых блокнотах Jupyter.

Рекомендации по достижению успеха

Теперь мы рассмотрели два подхода к оптимизации запросов и какие результаты мы можем достичь в задаче ранжирования документов MS MARCO. Чтобы помочь вам добиться успеха в оптимизации ваших собственных запросов, вот несколько советов и общих рекомендаций, о которых следует помнить.

  • Поскольку эти подходы основаны на данных, очень важно, чтобы у вас было достаточно качественных данных. Эти подходы хороши ровно настолько, насколько хороши ваши данные.«Достаточно» обычно означает как минимум сотни запросов с помеченными результатами. «Качество» означает, что данные должны быть точными и отражать типы запросов, которые вы пытаетесь улучшить и оптимизировать.
  • Это не полная замена ручной настройке релевантности: отладка оценок, создание хороших анализаторов, понимание ваших пользователей и их информационных потребностей и т. д.
  • Байесовская оптимизация чувствительна к собственным параметрам. Понаблюдайте, сколько всего итераций вам нужно и сколько случайных инициализаций нужно использовать для заполнения процесса.Если у вас есть большое пространство параметров, вам следует рассмотреть пошаговый подход к его разбиению.
  • Остерегайтесь переобучения с большими пространствами параметров. Подумайте о перекрестной проверке, чтобы исправить это, но имейте в виду, что пока вам нужно будет сделать это самостоятельно в Python.
  • Параметры будут настроены для конкретного корпуса и набора запросов. Скорее всего, они не будут перенесены, если общая статистика другого корпуса и набора запросов не будет достаточно похожей. Это также может означать, что вам необходимо регулярно выполнять повторную настройку, чтобы поддерживать оптимальные параметры.

Заключение

В этом посте блога много всего, и мы надеемся, что вам удавалось следить за нами до сих пор! Примеры кода и записные книжки Jupyter очень конкретно показывают, как выполнить и настроить запрос. Принципы не ограничиваются параметрами запроса, поэтому есть также пример блокнота, показывающий, как настраивать параметры BM25. Мы надеемся, что у вас будет возможность ознакомиться с этими примерами и поэкспериментировать самостоятельно. Мы добились наибольшего успеха, используя изолированные крупномасштабные кластеры Elastic Cloud, которые мы раскручиваем и выключаем, когда они нам нужны.Теперь идите вперед и используйте свои собственные данные для оптимизации ваших запросов! Не забудьте поделиться своими вопросами или историями успеха на наших дискуссионных форумах.

Источники

1 Модели кликов для веб-поиска Александра Чуклина, Ильи Маркова и Мартена де Рийке

2 Модели преобразования: построение обучения для ранжирования обучающих данных Дуг Тернбулл

3 Динамическая байесовская сетевая модель кликов для ранжирования веб-поиска Оливье Шапель

4 Мы ранжируем все документов на одном этапе ранжирования, а затем выбираем 100 лучших для MRR.Это считается подходом «полного ранжирования», в отличие от «повторного ранжирования», при котором пытаются повторно ранжировать только 1000 лучших документов-кандидатов из предварительно заданного списка результатов.

5 Эти результаты актуальны на дату публикации этого сообщения, но проект README будет содержать актуальные результаты, если мы продолжим экспериментировать с новыми методами.

Справочное руководство Apache Solr 6.6

Релевантность — это степень, в которой ответ на запрос удовлетворяет пользователя, который ищет информацию.

Релевантность ответа на запрос зависит от контекста, в котором был выполнен запрос. Одно и то же поисковое приложение может использоваться в разных контекстах пользователями с разными потребностями и ожиданиями. Например, поисковая система климатических данных может использоваться университетским исследователем, изучающим долгосрочные климатические тенденции, фермером, заинтересованным в расчете вероятной даты последних весенних заморозков, инженером-строителем, интересующимся характером осадков и частотой наводнений. , и студент колледжа, планирующий отпуск в регионе и размышляющий, что взять с собой.Поскольку мотивы этих пользователей различаются, релевантность любого конкретного ответа на запрос также будет различаться.

Насколько полными должны быть ответы на запросы? Как и релевантность в целом, ответ на этот вопрос зависит от контекста поиска. Стоимость , а не нахождения определенного документа в ответ на запрос высока в некоторых контекстах, например, при юридическом поиске в электронном виде в ответ на повестку в суд, и довольно низка в других, например, при поиске рецепта торта на веб-сайте. веб-сайт с десятками или сотнями рецептов тортов.При настройке Solr следует сопоставлять полноту с другими факторами, такими как своевременность и простота использования.

Примеры электронных открытий и рецептов демонстрируют важность двух концепций, связанных с релевантностью:

  • Точность — процент релевантных документов в возвращаемых результатах.

  • Отзыв — процент релевантных результатов, возвращенных из всех релевантных результатов в системе.Достичь идеального отзыва тривиально: просто возвращайте каждый документ в коллекции для каждого запроса.

Возвращаясь к приведенным выше примерам, важно, чтобы поисковое приложение электронного обнаружения имело 100% отзыв всех документов, имеющих отношение к повестке в суд. Однако гораздо менее важно, чтобы приложение с рецептами обеспечивало такую ​​степень точности. В некоторых случаях возврат слишком большого количества результатов в случайных контекстах может ошеломить пользователей. В некоторых случаях лучшим подходом может быть возврат меньшего количества результатов, которые имеют более высокую вероятность релевантности.

Используя концепции точности и полноты, можно количественно оценить релевантность для пользователей и запросов для коллекции документов. Идеальная система будет иметь 100% точность и 100% отзыв для каждого пользователя и каждого запроса. Другими словами, он извлечет все соответствующие документы и ничего больше. С практической точки зрения, говоря о точности и полноте в реальных системах, обычно сосредотачиваются на точности и полноте при определенном количестве результатов, наиболее распространенными (и полезными) являются десять результатов.

Благодаря фасетированию, фильтрам запросов и другим компонентам поиска приложение Solr может быть гибко настроено, чтобы помочь пользователям точно настроить свои поиски, чтобы возвращать наиболее релевантные результаты для пользователей. То есть Solr можно настроить так, чтобы сбалансировать точность и полноту для удовлетворения потребностей конкретного сообщества пользователей.

Конфигурация приложения Solr должна учитывать:

  • потребности различных пользователей приложения (которые могут включать простоту использования и скорость отклика в дополнение к чисто информационным потребностям)

  • категории, которые имеют значение для этих пользователей в их различных контекстах (т.г., даты, категории продуктов или регионы)

  • любая присущая документам релевантность (например, может иметь смысл обеспечить, чтобы официальное описание продукта или часто задаваемые вопросы всегда возвращались вверху результатов поиска)

  • независимо от того, имеет ли значение возраст документов (в некоторых контекстах самые последние документы всегда могут быть самыми важными)

Учитывая все эти факторы, на этапах планирования развертывания Solr часто бывает полезно набросать типы ответов, которые, по вашему мнению, должно возвращать приложение поиска для примеров запросов.После того, как приложение запущено и запущено, вы можете использовать ряд методологий тестирования, таких как фокус-группы, внутреннее тестирование, тесты TREC и A/B-тестирование, чтобы точно настроить конфигурацию приложения, чтобы наилучшим образом удовлетворить потребности его пользователей. .

Как поисковая система может определить релевантность поисковой системы по связанным запросам

Совместное использование означает заботу!

Интересно посмотреть, как поисковая система может вычислять релевантность результатов поиска и находить похожие запросы.

В недавно выданном патенте Yahoo исследуется подход, который может помочь определить, насколько релевантными могут быть результаты, отображаемые для искателей, и насколько вероятно, что эти результаты будут показывать разные результаты, когда искатель использует термин запроса, который может охватывать ряд тем.

Прежде чем представить свой автоматизированный подход к проверке релевантности и разнообразия, патент сообщает нам о некоторых ограничениях в использовании ручных обзоров или данных о кликах, чтобы определить, насколько релевантными могут быть результаты.

Рецензенты-люди

Одним из вариантов проверки релевантности результатов поиска может быть ручной просмотр результатов для каждого запроса. Это может занять довольно много времени, включать в себя возможность человеческой ошибки и не похоже, что это даже начнет охватывать все запросы, которые выполняются в Интернете.

Несколько недель назад я видел в Craig's List рекламу от Lionbridge Technologies, Inc., в которой предлагалось нанять сотрудников, работающих неполный рабочий день, для работы в качестве интернет-судей. Небольшое расследование в Интернете показало, что Google, возможно, использовал Lionbridge в прошлом, чтобы нанимать людей для ранжирования релевантности результатов поиска, хотя в публикации Craig’s List не был указан конечный работодатель.Из описания вакансии из объявления:

Описание должности

Измерение релевантности является основой всех поисковых систем. Без него никто не может сказать, сделало ли изменение систему лучше или хуже. Как интернет-судья, вы будете ключевым участником в определении релевантности поисковых систем. Мы ищем интернет-судей, которые будут работать из дома; просматривать и оценивать веб-сайты на основе объективного набора рекомендаций. Кандидаты должны быть заядлыми интернет-энтузиастами.Если вы любите просматривать веб-страницы и можете следовать определенному набору рекомендаций по оценке веб-сайтов, мы хотим услышать от вас.

Поисковые системы используют ручных рецензентов. Как и бейсбол. Они никогда не ошибаются, не так ли?

Отслеживание кликов

В недавнем посте я описал патентную заявку от Yahoo, где они представили метод ранжирования изображений, основанный на методе прогнозирования кликов изображений на разных позициях в результатах поиска.

Предположение, стоящее за этим подходом, заключалось в том, что изображения, которые казались релевантными для запроса, будут нажиматься, и что коэффициент прогнозирования для изображений на определенных позициях в результатах поиска может использоваться для выявления изображений, которые оказались более эффективными, в зависимости от того, где они появились. результаты и перемещать их вверх, а также находить изображения, которые неэффективны в зависимости от их положения, и перемещать их вниз в результатах. С результатами поиска изображений, показывающими миниатюру изображения, это может хорошо работать для изображений.

Будет ли отслеживание количества кликов по результатам веб-поиска, когда они появляются в результатах поиска, показать, что эти результаты релевантны условиям запроса, по которым они ранжируются? Что они могут быть связанными запросами?

Проблема с этим подходом заключается в том, что поисковики видят только заголовок страницы, аннотацию (или фрагмент) и URL-адрес для веб-страниц, и они могут не точно отражать содержание, которое появляется на страницах, которые они представляют. Это ограничение означает, что клики по результатам поиска для веб-страниц могут не быть хорошим показателем того, насколько релевантны эти результаты для конкретного запроса.

Изображение выше взято из патента на автоматизированную систему судейства в бейсболе. Хотя он может хорошо справляться с вызовами мячей и ударами, он, вероятно, не будет полезен для других задач, таких как определение того, попал ли мяч в нападающего или находится ли бегун в безопасности или в ближней игре на тарелке. .

Алгоритм определения релевантности и разнообразия результатов поиска

Запатентованный процесс Yahoo использует недавние поисковые запросы, чтобы определить, совпадают ли результаты поиска с поисковыми запросами людей в поисковой системе.

Автоматическая проверка релевантности и разнообразия для сетевых и вертикальных поисковых систем
Изобретен Джигнашу Г. Парих
Переуступлен Yahoo
Патент США 7,558,787
Выдан 7 июля 2009 г.
Подана 5 июля 2006 г. обеспечивается актуальность и разнообразие результатов поиска.

Запрос отправлен в поисковую систему, которая использует алгоритм поиска для получения результатов поиска на основе запроса. Идентифицируется набор из n лучших связанных терминов для запроса.Для каждого связанного термина в наборе терминов определяется его относительная частота относительно всех терминов. Если термин не встречается ни в одном из результатов, то произошла потеря разнообразия, пропорциональная относительной частоте термина для термина.

В противном случае релевантность результатов поиска рассчитывается путем сравнения доли результатов, содержащих термин, с относительной частотой термина для термина. Этот процесс повторяется для всех терминов в наборе связанных терминов для получения общего разнообразия и релевантности.

Когда кто-то выполняет поиск в поисковой системе, он вводит условие запроса в поле поиска и нажимает Enter.

Возвращаются результаты поисковой системы, которая ранжирует эти результаты в соответствии с алгоритмами поиска. Фактические алгоритмы, используемые для ранжирования этих результатов, обычно включают элементы, которые измеряют как релевантность, так и важность страниц, соответствующих искомому запросу.

В этой патентной заявке описывается тестовый интерфейс, который разработчики поисковых алгоритмов и поисковых систем могут использовать для проверки связанных запросов.

Как я уже отмечал в начале этого поста, интересно посмотреть, как поисковая система может попытаться определить, насколько релевантными могут быть результаты поиска.

Использование связанных терминов

Этот процесс определения релевантности и разнообразия результатов поиска начинается с определения терминов в связанных запросах.

Кто-то ищет [Amazon], и поисковая система извлекает результаты, связанные с запросом, и отображает результаты искателю.

Появившиеся результаты могут иметь отношение к интернет-магазину «Amazon.com» или «река Амазонка».

На самом деле невозможно автоматически определить, хочет ли искатель получить информацию об одном, о другом или даже о чем-то другом.

Но поисковая система может просматривать журналы запросов и данные поиска на основе сеансов, а также другие наборы данных, чтобы определить подконцепции для запроса.

Эти подконцепции могут быть теми, которые вы видите в предложениях поисковых систем. См. мою предыдущую публикацию «Как поисковые системы могут принимать решения и оптимизировать предложения по запросу», чтобы узнать, как поисковая система может идентифицировать и оптимизировать предложения для конкретного запроса.

Тот же тип данных, который Yahoo может использовать для предложения запросов типа «Также попробуйте» или прогнозирующих поисковых предложений Yahoo, также может использоваться для определения наборов связанных терминов для запроса пользователя.

Поисковая система также отслеживает отправку запросов в поисковую систему, что может помочь определить срочные запросы.

Связанные термины могут быть собраны из данных журнала запросов поисковой системы за последнюю неделю, а не за последний год, чтобы обеспечить своевременность информации.

Итак, если землетрясение произошло пару месяцев назад, журналы запросов примерно в это время могли включать много поисков по запросу [Землетрясение на Амазонке]

Через месяц или около того поисков по этому термину может быть намного меньше, и [землетрясение на Амазонке] может не считаться связанным запросом, как это было бы недавно после времени события.

Поиск в последних журналах запросов может показать, сколько раз в этих данных появлялись запросы, которые включали или совпадали с «Amazon».Таким образом, связанные запросы, такие как «книги амазонки», «река амазонки» и «тропические леса амазонки», могут быть определены как связанные запросы, если они достаточно часто появляются в проверяемых журналах запросов.

Поисковая система может также просматривать сеансы поиска от искателей в журналах запросов, чтобы увидеть, как часто другие запросы появляются в тех же сеансах поиска, что и запросы для или содержащие «Amazon».

Сеанс поиска может быть определен как многократный поиск от искателя в течение определенного промежутка времени, например часа или дня.

Относительная частота терминов и проверка на релевантность

Как только поисковая система выработает набор связанных терминов для запроса, она может рассчитать относительную частоту каждого из этих связанных терминов по сравнению с исходным запросом искателя в поисковой выдаче. журналы запросов проверяются для выявления связанных запросов. Вот пример того, как этот расчет может работать из подачи заявки на патент.

Например, в таблице 216 термин F термина «книги» равен 25, что означает, что «книги» встречались вместе с «Амазон» 25 раз в выбранной части журнала запросов 210, представленной по таблице 212.Кроме того, общее количество F равно 50, что соответствует общему количеству совпадений для всех терминов в наборе таблицы 216.

Таким образом, можно сделать вывод, что F относительный термин книги» составляет 25/50 или 50%. Таблица 216 дополнительно содержит относительную частоту всех других терминов в наборе связанных терминов. В частности, частота термина «тропический лес» составляет 12/50, или 24 %, «река» — 8/50, или 16 %, а «рыба» — 5/50, или 10 %.

Относительная частота каждого связанного термина в наборе используется для определения релевантности и разнообразия результатов поиска по основному запросу, как описано далее в настоящем документе.

Эти соотношения можно использовать при просмотре результатов поиска по исходному поисковому запросу.

Если вы посмотрите на заголовки и фрагменты (или фактическое содержание) первых десяти результатов поиска [amazon], половина этих результатов содержит слово «книги», как в исследованных журналах запросов? В четверти из них есть слово «тропический лес»? Есть ли упоминание слова «река» в одном или двух из них? Есть ли в нем хоть раз слово «рыба»?

Если соотношения между журналами запросов и результатами поиска совпадают, это может означать, что релевантность этих результатов достаточно высока.Это также может указывать на то, что разнообразие результатов также является хорошим.

Патент предупреждает, что некоторые результаты поиска могут быть очень релевантными, но также могут совершенно не иметь разнообразия, если поисковый запрос содержит много подтем или связанных терминов, затрагивающих разные темы.

Заключение

Мне показалось интересным, что в этом патенте описывается поиск связанных запросов, которые очень похожи на метод, описанный в патентной заявке Microsoft в моем последнем посте.

Также стоит подумать о том, что частота появления слов из связанных запросов может измерять релевантность и разнообразие результатов запроса пользователя.

Если половина людей, использующих [amazon] в своих поисках, включает слово «книги» в эти поиски, должна ли половина результатов поиска по запросу [amazon] содержать слово «книги?» Если 20% пользователей, которые ищут [amazon], включают слово «тропический лес» в эти поисковые запросы, должны ли два из десяти первых результатов поиска быть результатами о тропических лесах Амазонки?

В настоящее время первые десять результатов поиска на Yahoo для [amazon] содержат два результата для домена .com книжного магазина, затем два результата для версии книжного магазина .ca, затем страница Wikipedia для amazon.com, запись о реке Амазонка, пара страниц о веб-сервисах Amazon, результат для co. uk Amazon store и окончательный результат для сервисов продавцов Amazon, которые позволяют людям продавать свои товары через Amazon.

Отражают ли эти результаты недавние поиски в журналах запросов Yahoo, включающие слово «Amazon», или они появляются в тех же сеансах поиска, что и поиск [Amazon]?

Должна ли релевантность результатов поиска основываться на частоте связанных терминов в последних журналах запросов? Является ли это хорошей мерой того, насколько релевантными могут быть эти результаты?

Я уже писал об этом патенте ранее, когда он был опубликован как патентная заявка в январе 2008 года.Я не понимал этого, пока не закончил большую часть этого поста, но я думаю, что эти два поста на самом деле дополняют друг друга, поэтому я решил продолжить и опубликовать этот пост.

Я думаю, что эти два поста хорошо подчеркивают важность попытки понять, что поисковая система может рассматривать как «связанные запросы» для конкретного запроса, и как они могут не только влиять на то, какие поисковые подсказки могут отображаться в наборе. результатов поиска, но также и насколько релевантной поисковая система может считать эти результаты поиска основанными на этих связанных запросах.

Добавить комментарий

Ваш адрес email не будет опубликован.