Подумаем о функции ранжирования Okapi BM25? |
В последнее время в окружении SEO - специалистов все чаще начали говорить о формуле расчета кворума, хотя впервые тот же Яндекс заявил о ней семь лет назад на РОМИП-200. И так в данном SEO материал мы поговорим о BM25 - узнаем что это, кто придумал и с чем собственно это есть (материал нудный, но нужный для прочтения и ознакомления единожды). Okapi BM25 - это специальная функция ранжирования в информационном поискеВ информационном поиске, Okapi BM25 - это специальная функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу. Она основывается на вероятностной модели, разработанной в 1970-х и 1980-х годах Стивеном Робертсоном, Карен Спарк Джоунс и другими. Сама функция носит название BM25 (BM от англ. best match), но её часто называют «Okapi BM25», по названию поисковой системы Okapi, созданной в Лондонском городском университете в 1980-х и 1990-х годах, в которой эта функция была впервые применена, ну а затем чуть-чуть "переделана (о ссылочном ранжировании Брином и иже с ним из Google)". BM25 и его различные более поздние модификации (например, BM25F) представляют собой современные TF-IDF-подобные функции ранжирования, широко используемые на практике в поисковых системах. В веб-поиске эти функции ранжирования часто входят как компоненты более сложной, часто машинно-обученной, функции ранжирования. Функция ранжирования BM25 - это (как уже было выше сказано) поисковая функция на неупорядоченном множестве термов («мешке слов») и множестве документов, которые она оценивает на основе встречаемости слов запроса в каждом документе, без учёта взаимоотношений между ними (например, близости). Это не одна функция, а семейство функций с различными компонентами и параметрами. Одна из распространенных форм этой функции описана ниже. Пусть дан запрос Q, содержащий слова q1,...,qn, тогда функция BM25 даёт следующую оценку релевантности документа D запросу Q: где f(qi,D) есть частота слова (англ. term frequency, TF) qi в документе D, | D | есть длина документа (количество слов в нём), а avgdl - средняя длина документа в коллекции. k1 и b - свободные коэффициенты, обычно их выбирают как k1 = 2.0 и b = 0.75. IDF(qi) есть обратная документная частота (англ. inverse document frequency, IDF) слова qi. Есть несколько толкований IDF и небольших вариации его формулы. Классически, она определяется как: где N есть общее количество документов в коллекции, а n(qi) - количество документов, содержащих qi. Но чаще применяются «сглаженные» варианты этой формулы, например: Заметим, что вышеуказанная формула IDF имеет следующий недостаток. Для слов, входящих в более чем половину документов из коллекции, их IDF отрицателен, поэтому для любых почти идентичных документов, в одном из которых есть слово, а в другом - нет, второй может получить бо́льшую оценку. Иными словами, частовстречающиеся слова испортят окончательную оценку документа. Это нежелательно, поэтому во многих приложениях вышеприведённая формула может быть скорректирована следующими способами: Игнорировать вообще все отрицательные слагаемые в сумме (что эквивалентно занесению в стоп-лист и игнорированию всех соответствующих высокочастотных слов); Налагать на IDF некоторую нижнюю границу : если IDF меньше , то считать её равной. Использовать другую формулу IDF, не принимающую отрицательных значений. PS. При экстремальных значениях коэффициента b в функции BM25 получаются функции ранжирования, известные под названиями BM11 (при b = 1) и BM15 (при b = 0) PS. Формула конечно же крутая, но не было 30 лет назад ГС-ов :) |
Если Вы нашли опечатку, или ошибку на сайте о продвижении и оптимизации сайтов под поисковые системы в Беларуси, то выделите текст и нажмите Shift + Enter!
Комментарии
Но непонятно используется ли она или ее модификация в реальной выдаче. Есть доказательства?