8-800-500-89-91

14 ноября

Статья прочитана 3561 раз

Новый алгоритм «Палех»: умный Яндекс ищет по смыслу

Традиционно ближе к Новому году Яндекс порадовал вебмастеров новым алгоритмом. И название у нового алгоритма красивое – «Палех», и штука сама по себе полезная!

Основная функция «Палеха» – помогать Яндексу находить страницы не только по ключевым словам из запроса, но и просто по смыслу. Получается умный поиск. Что это значит? Давайте разбираться.

Сказка про жар-птицу

Вы уже знаете, что все поисковые запросы можно разделить на три группы в зависимости от частоты употребления в поиске: высоко-, средне- и низкочастотные. Если ничего не слышали про такое или подзабыли, освежите знания тут.

Ежедневно, как говорит сам Яндекс, обрабатывается около 280 тыс. поисковых запросов пользователей. Примерно 40% из которых – низкочастотные.

При чем тут жар-птица? Сейчас все будет. Смотрите, Яндекс применяет единую систему поиска ответа на запросы пользователя, не важно при этом, какой частотности запрос. Но ответы на запросы получаются не всегда одинаково хорошими. Почему так происходит?

На основании статистики Яндекс пришел к выводу, что все запросы, вводимые в строке поиска, можно представить в виде жар-птицы, у которой:

Вот по этим самым «хвостам» чаще всего в Яндексе и бывают низко релевантные ответы. Подробнее о типах ответов читайте в нашей группе ВКонтакте.

Поскольку низкочастотных запросов оказывается достаточно много в общей массе, около 100 тыс. в день, проблема получения максимально релевантного ответа, как говорится, встала ребром и потребовала безотлагательного решения. Самое логичное, что можно было переделать в этом случае – алгоритм ответа.

Так и возник «Палех». К слову, он пришел на смену, или правильнее сказать в помощь, машинному обучению «Матрикснет».

Как и прочие алгоритмы, «Палех» работает для всех типов запросов. Но лучше всего его работу можно отследить именно на редких низкочастотных запросах.

Зачем нужен «Палех» или почему «Матрикснет» без него не справляется?

Раньше, когда человек вводил запрос, поисковая выдача формировалась на основе ключевых слов, из которых состояла фраза. Если запрос был высокочастотным, то пользователь чаще всего находил нужную информацию легко и быстро. Ну а если запрос был с «длинным хвостом», то найти полезную информацию не всегда удавалось с первого раза.

Возникает резонный вопрос: почему?

Чтобы понять, получил ли пользователь релевантный ответ, Матрикснет использует «мудрость толпы» и на ее основе строит формулу ранжирования. Если большинству ответ нравится – значит, он релевантный.

Фишка в том, что по ВЧ запросам данных о поведении пользователей намного больше, чем по НЧ, и машина, сопоставляя их, достаточно просто находит релевантный ответ. Система «рассуждает» примерно так: «Люди, которые искали этот запрос, переходили из поиска на этот сайт. В поиск больше не возвращались. На сайте находились долго. Значит, они находили на сайте то, что искали. Значит, всем остальным правильно будет показать этот же сайт в результатах выдачи по этому запросу».

В случае с НЧ таких данных мало (ну какая статистика, если запрос всего один раз в жизни вводили в строке поиска), поэтому и тратилось много времени и у Яндекса, чтобы определить релевантность ответа запросу, и у человека на поиск нужного ответа.

Раз помощи от данных по поведенческим факторам ждать не приходится, а понимать, какая страница релевантна запросу, надо, Яндекс для решения этой проблемы обратился за помощью к технологии нейронных сетей. В результате мир увидел новый алгоритм «Палех».

Как работает «Палех»?

Если раньше поиск проводился преимущественно по ключам (в запросе есть слово «помидоры» и на сайте есть слово «помидоры», значит это оно), то в «Палехе» не все решают одинаковые слова.

Перед поиском стоит задача не найти похожие выражения, а понять смысл запроса и ответить именно на него. При этом слова могут быть разные в запросе и в ответе. Докопаться до истинного смысла Яше помогают нейронные сети.

Искусственные нейронные сети – один из популярных методов машинного обучения на сегодняшний день. Технология уже используется в распознавании многих видов информации. Скажем, картинок или музыки. В нашем же случае речь идет о распознавании текста.

Суть в том, что обученная на положительных и отрицательных примерах система сопоставляет запросы пользователей и заголовки страниц и находит максимально релевантный ответ.

Что значит обученная на примерах система? В нашем случае пример – это пара «заголовок и запрос». Они выбираются из накопленной поисковой системой информации. Люди ж ежедневно вводят запросы. Нейронная система анализирует эти примеры и обучается на поведении пользователей понимать, как соответствуют друг другу запросы и заголовки найденных ответов по смыслу, а не по одинаковым словам.

Чтобы система могла сопоставлять запросы с заголовками, они переводятся в специальное трехсотмерное пространство, где каждому запросу и заголовку соответствует группа из трехсот чисел. Все, о чем мы очень упрощенно и на пальцах сейчас рассказали, называется «семантическим вектором».

Дальше все элементарно. Человек вводит хвостатый запрос в поисковую строку. Алгоритм размещает его в трехсотмерном пространстве на соответствующих параллелях и выдает ответ, который максимально близко находится к этому запросу в смоделированной системе координат.

Пока система обрабатывает в поисках ответа не весь текст ресурса, но в будущем планируется перевести в семантические вектора контент полностью. Это позволит еще лучше понимать, удовлетворяет ли требованиям пользователя сайт, и формировать максимально релевантные результаты поиска.

Немного примеров, или «Палех» в действии

В теории кажется все сложно, но на практике, если не мучить мозг и не пытаться представить это самое трехсотмерное пространство, все даже очень полезно и круто.

Вот скажем, вы хотите найти «тот рассказ, в котором раздавили бабочку». Раньше вы бы потратили тонну времени и результат оказался бы неутешительным. А вот сегодня это будет сделать гораздо проще вместе с «Палехом».

Вбиваем в поиск «тот рассказ, в котором раздавили бабочку» и получаем в ответ информацию о книге «И грянул гром» Рэя Брэдбери, а не сайты с «левыми» энциклопедиями и рассказами про бабочек:

Поисковая выдача. сформированная с учетом алгоритма «Палех»

Еще пример. Скажем, вы хотите найти для своего ребенка «фильм, в котором доктор дал девочке конфеты смеха».

Пусть не на первом месте, но в ТОП-10 есть правильный ответ «Приключения желтого чемоданчика»:

А без «Палеха» вся выдача была бы забита ненужными сайтами в стиле видеоролика со второго места «мистер зубастик кушает конфеты». Так как до «Палеха» ответ считался релевантным, если содержал искомые ключевые фразы.

Вместо вывода

Если говорить про влияние алгоритма на продвижение сайтов, то «Палех» еще раз напоминает, что времена, когда ТОП можно было покорить исключительно ссылками и оптимизированными текстами, проходят.

Только лишь технической оптимизации сегодня недостаточно. Поисковики все больше стремятся выдавать релевантные ответы на качественных сайтах. Не надо по 10 раз повторять ключи в тексте, просто пишите интересно и для людей. А «Палех» позаботится о том, чтобы понять смысл и показать релевантный ответ.

Заметите ли вы «Палех»? Пока сложно сказать, надо время, чтобы в ваших системах статистики накопились данные. Пока мы никаких изменений не наблюдаем, если что-то появится – как обычно, сразу поделимся.

Сейчас в Сети появились опасения, что недобросовестные сеошники начнут множить страницы и оптимизировать их под НЧ. Но с другой стороны, какой в этом смысл? НЧ так много, что под все не подстроишься. И потом, если на страницах будет полезная информация – почему бы нет. =)

В любом случае пишите тексты для людей, делайте сайт максимально удобным, работайте над внешней, внутренней оптимизацией и, конечно, улучшайте юзабилити ресурса (другие факторы ранжирования никто не отменял же). И будет вам счастье!

алгоритмы яндекса, ключевые слова, копирайтинг, методы продвижения

Автор Валерия Смолина
Специалист отдела развития

Понравилась статья?



Правила комментирования блога

Подпишитесь на рассылку и получайте свежие хаки об интернет-маркетинге и SEO

ДА!

1 письмо
в неделю

3 статьи
в письме

Бонус «для своих»
в каждом письме