Получи бесплатный аудит сайта
30
Контактный телефон
Время работы
Пн-Пт, с 10:00 до 19:00
По любым интрересующим вас вопросам
Для СМИ и партнёров

Алгоритм «Палех»

Метод машинного обучения поисковой системы «Яндекс» под названием «Матрикснет» дополнили фактором для поиска документов, подходящих по смыслу к запросу.

Пример: Вам необходимо найти «келлская книга», но именно это словосочетание вы никак не можете вспомнить. Зато знаете смысл своего запроса. И в поисковике вбиваете «ирландские иллюстрированные Евангелия».

Основная направленность нововведения — редкие низкочастотные запросы («скачать реферат по обществознанию на тему семьи»), плохо сформулированные или неконкретные запросы («слушать песню из фильма «Карты, деньги, два ствола»).

Цель алгоритма: введение дополнительного фактора, который будет учитывать смысловую связанность слов, чтобы находить документы, в которых нет точного вхождения слов запроса, но есть прямо связанная с запросом текстовая информация, выраженная другими словами.

Всем известно об эпохе машинного обучения и нейросетях, но мало кому понятно, как эти «гости из будущего» влияют на наш стандартный день.

Поисковые системы используют нейронные сети — технологию, которую называют искусственным интеллектом, так как она непрерывно обучается сама по себе, а также основана на принципе передачи информации и принятия решений, которые схожи с нейронами человеческого мозга.

Нейросетевые технологии предназначены для воспроизведения неосознанных мыслительных усилий человека (например, человек плохо знает, как он распознает цвет предмета). Такого рода технологии используются для распознавания каких-либо событий или предметов. С их помощью можно воспроизвести многочисленные связи между множеством объектов.

И этот самый машинный интеллект со многими задачами справляется лучше, чем такие алгоритмы, как BM25, которые просто анализируют соответствие запроса тексту заголовка.

Сейчас нейросети крайне эффективны при поиске картинок и распознавании звуков в словах — графическая (или аудио-) информация преобразуется в вектор в N-мерном пространстве, и этот вектор сравнивают со многими другими векторами, которые также являются графической (или аудио-) информацией. Таким образом и находят подходящие картинки, преобразуют запись в написанный текст.

Однако при поиске текстовой информации все несколько иначе. Нельзя просто перевести текст в вектор. Так, сначала текст разбивается на триграммы (палех = па, але, лех, ех), для каждой полученной единицы вводится свой уникальный код, и полученная информация уже представляется в виде вектора. Между различными векторами появляются неочевидные связи различной жесткости. Добавляя в нейронную сеть в качестве входящих данных пользовательский запрос и заголовки документов, алгоритм уже дает первые результаты. Затем модель многократно тренируется на различных входных данных, в том числе и на результатах прошлых тренировок.

В конечном итоге могут устанавливаться связи между словами запроса, всем запросом целиком и документами в поисковом индексе, а, поскольку алгоритм работает с векторами, соответствие может быть установлено даже между различными языками.

Итог:

— чем больше вхождений слов запроса, тем больше значение фактора в алгоритме ранжирования, принцип схож со стандартным алгоритмом BM25 (подробнее по ссылке);

— чем больше вхождений слов, которые связаны со словами запроса по смыслу, тем больше значение фактора;

— чем больше связаны между собой слова из запроса и документа, тем больше значение фактора;

— из информации «Яндекса» следует, что алгоритм пока начинает работать с заголовками документа (title), а не с содержимым;

— качество алгоритма измерялось поведенческими метриками удовлетворенности пользователей.

Вывод

Нужно меньше воды в текстах, больше смысла, больше контент-маркетинга. Следует наиболее широко и одновременно глубоко охватывать тему. Рано или поздно алгоритм будет работать и на текстах документов. Контент-маркетинг продолжает рулить.

Что дальше:
Позвоним
Проведем
аналитику
Разработаем
прогноз
Презентуем
стратегию
Подпишем
договор
Запустим
проект
Подпишись сейчас и получи подарок
Большой и эксклюзивный чек-лист: 100+ коммерческих факторов, влияющих на ранжирование сайта
Спасибо за заявку.
Наш менеджер свяжется с вами в ближайшее время.
Кликните в любом месте для закрытия окна.