Самым последним существенным изменением в таком поисковом гиганте как MSN, была инокуляция “нейронных сетей” в собственный поисковый механизм, именно то, что исследователи компании называют “RankNet”. Изменение было произведено в конце июня 2005 года. Этот алгоритм оригинальный и становится предметом обсуждения для множества оптимизаторов. В этой статье Дженифер Салливан продолжает свои обзоры поисковых механизмов и их алгоритмов и в данном случае это MSN RankNet.

MSN RankNet: Что это?

RankNet это “самообучающаяся машина”, которая берет в рассмотрение шаблоны поиска, которыми пользуются люди и учится на их основе, для того, чтобы обеспечить более релевантные результаты в следующий раз. За начало берется некоторый базовый прогноз, который представляет собой входные данные для их нейронной сети. Крис Бёргес говорит: “Мы берем блок данных, “размножаем” его (обычно берем блок взвешенных сумм входных данных и перемешиваем их между собой) и именно эти величины подаем на вход сети.”

Предсказывание производится с контролируемым обучением, что подразумевает следующее, “…методика вычислительного обучения для получения результата на основании тренировочных данных. Обучающие данные состоят из пар входных объектов (обычно векторов) и желаемых выходных данных. Результирующие данные могут представлять собой непрерывную величину (регрессия) или же могут предсказать классовую метку входного объекта (классификация). Задача контролируемого “ученика” - предсказать значение данных на выходе для любого действительного входного объекта после просмотра небольшого числа тренировочных примеров (т.е. пар входных данных и целевых результирующих данных). Чтобы достигнуть этого, “ученик” должен на основании предоставленных данных сделать определенный вывод для любых невидимых ситуаций “разумным” способом.”

В процессе контролируемого обучения и тренировки алгоритм MSN использует 569 различных обобщенных свойства для прогнозирования релевантности документа. Будет неверным сказать, что это 569 различных факторов, которые оцениваются при определении релевантности определенного документа конкретному запросу, это определение характеристик документа, которые могли бы делать его релевантным и именно эти данные используются в дальнейшем.

Далее: Секреты технологии RankNet (часть 2) »


Вы прочитали статью и она Вам понравилась?
Подпишитесь на обновления!

Распечатать статью Распечатать статью