ТОП SEO Мысли в слух Подумаем о функции ранжирования Okapi BM25?
Подумаем о функции ранжирования Okapi BM25?

В последнее время в окружении SEO - специалистов все чаще начали говорить о формуле расчета кворума, хотя впервые тот же Яндекс заявил о ней семь лет назад на РОМИП-200. И так в данном SEO материал мы поговорим о BM25 - узнаем что это, кто придумал и с чем собственно это есть (материал нудный, но нужный для прочтения и ознакомления единожды).

Okapi BM25 - это специальная функция ранжирования в информационном поиске

В информационном поиске, Okapi BM25 - это специальная функция ранжирования, используемая поисковыми системами для упорядочивания документов по их релевантности данному поисковому запросу. Она основывается на вероятностной модели, разработанной в 1970-х и 1980-х годах Стивеном Робертсоном, Карен Спарк Джоунс и другими. Сама функция носит название BM25 (BM от англ. best match), но её часто называют «Okapi BM25», по названию поисковой системы Okapi, созданной в Лондонском городском университете в 1980-х и 1990-х годах, в которой эта функция была впервые применена, ну а затем чуть-чуть "переделана (о ссылочном ранжировании Брином и иже с ним из Google)".

BM25 и его различные более поздние модификации (например, BM25F) представляют собой современные TF-IDF-подобные функции ранжирования, широко используемые на практике в поисковых системах. В веб-поиске эти функции ранжирования часто входят как компоненты более сложной, часто машинно-обученной, функции ранжирования.

Функция ранжирования BM25 - это (как уже было выше сказано) поисковая функция на неупорядоченном множестве термов («мешке слов») и множестве документов, которые она оценивает на основе встречаемости слов запроса в каждом документе, без учёта взаимоотношений между ними (например, близости). Это не одна функция, а семейство функций с различными компонентами и параметрами. Одна из распространенных форм этой функции описана ниже.

Пусть дан запрос Q, содержащий слова q1,...,qn, тогда функция BM25 даёт следующую оценку релевантности документа D запросу Q:

функция ранжирования Okapi BM25

где f(qi,D) есть частота слова (англ. term frequency, TF) qi в документе D, | D | есть длина документа (количество слов в нём), а avgdl - средняя длина документа в коллекции.

IDF

k1 и b - свободные коэффициенты, обычно их выбирают как k1 = 2.0 и b = 0.75. IDF(qi) есть обратная документная частота (англ. inverse document frequency, IDF) слова qi. Есть несколько толкований IDF и небольших вариации его формулы. Классически, она определяется как:

IDF (qi)

где N есть общее количество документов в коллекции, а n(qi) - количество документов, содержащих qi. Но чаще применяются «сглаженные» варианты этой формулы, например: Заметим, что вышеуказанная формула IDF имеет следующий недостаток.

Для слов, входящих в более чем половину документов из коллекции, их IDF отрицателен, поэтому для любых почти идентичных документов, в одном из которых есть слово, а в другом - нет, второй может получить бо́льшую оценку. Иными словами, частовстречающиеся слова испортят окончательную оценку документа. Это нежелательно, поэтому во многих приложениях вышеприведённая формула может быть скорректирована следующими способами: Игнорировать вообще все отрицательные слагаемые в сумме (что эквивалентно занесению в стоп-лист и игнорированию всех соответствующих высокочастотных слов); Налагать на IDF некоторую нижнюю границу : если IDF меньше , то считать её равной. Использовать другую формулу IDF, не принимающую отрицательных значений.

PS. При экстремальных значениях коэффициента b в функции BM25 получаются функции ранжирования, известные под названиями BM11 (при b = 1) и BM15 (при b = 0)

PS. Формула конечно же крутая, но не было 30 лет назад ГС-ов :)



Комментарии 

0 Dima 20.12.2014 22:46 #
Сегалович из Яндекса когда-то упоминал об этой функции в контексте проверки дубликатов.
Но непонятно используется ли она или ее модификация в реальной выдаче. Есть доказательства?
Ответить | Ответить с цитатой | Цитировать
Добавить комментарий


Защитный код Обновить

Если Вы нашли опечатку, или ошибку на сайте о продвижении и оптимизации сайтов под поисковые системы в Беларуси, то выделите текст и нажмите Shift + Enter!

ТОР5 похожих публикаций на сайте о продвижении и оптимизации в Беларуси

Оптимизация и продвижение


Июль 2017
ПВСЧПСВ
     12
3456789
10111213141516
17181920212223
24252627282930
31      

В какой поисковой системе региональная выдача адекватнее?
 

Думaй, чтo гoвoришь и cмoтри, нa кoгo ccылaeшьcя (об акцепторах)

SEO контакты и сообщества

seo twitter Беларуси seo сообщество Беларуси seo на facebook seo сообщество Беларуси seo сообщество Беларуси seo в GG

ТОП 10 материалов по