minhash.

Красота математики и ML (part 1-2): алгоритм MinHash

Вернулся к одному из своих исследований в области векторизации текста. Возможно, расскажу о нём позже, а пока, в поисках ответа на вопрос насколько моё исследование повторяет уже существующие разработки, изучил два интересных алгоритма.SimHash: про то, как векторизовать текст в плотный вектор из нулей и единиц.MinHash: про то, как транслировать разряжённый (sparse) бинарный вектор в компактный отпечаток, состоящий из целых чисел.Кроме того, что оба алгоритма работают с бинарными векторами, у них есть еще одна общая черта. Они оба гениальны в своей простоте и потому потрясающе красивы!

продолжить чтение