machinelearning.

Красота математики и ML (part 1-2): алгоритм MinHash

Вернулся к одному из своих исследований в области векторизации текста. Возможно, расскажу о нём позже, а пока, в поисках ответа на вопрос насколько моё исследование повторяет уже существующие разработки, изучил два интересных алгоритма.SimHash: про то, как векторизовать текст в плотный вектор из нулей и единиц.MinHash: про то, как транслировать разряжённый (sparse) бинарный вектор в компактный отпечаток, состоящий из целых чисел.Кроме того, что оба алгоритма работают с бинарными векторами, у них есть еще одна общая черта. Они оба гениальны в своей простоте и потому потрясающе красивы!

продолжить чтение

Я залез в исходники Claude Code. Фичи, которых нет в документации

Комментарий от эксперта Александра Шустанова

продолжить чтение

Как работает адаптивный RAG, которому вообще не нужна LLM

продолжить чтение

Выделение одного значащего признака из набора данных с помощью машинного обучения. Используется Apache Spark

Описание задачиВ первой части была создана инфраструктура для запуска машинного обучения. Там же была создана БД с данными для использования в примерах.В данной части будет искаться, какой тип файлов вызывает увеличение нагрузки. При этом, зная, какой именно тип файла был указан как вызывающий нагрузку.Будет использоваться машинное обучение в Apache Spark.Выборка исходных данных из БДНачать работу необходимо с выборки исходных данных для анализа. Структура БД описана в

продолжить чтение

AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику

Как компьютер превращает текст в числа и почему TF–IDF десятилетиями оставался основой поисковых систем. Разбираем Bag of Words, TF–IDF и поиск похожих документов на чистом PHP.Это шестая часть проекта.Часть 5: От массивов к GPU: как PHP-экосистема приходит к настоящему MLЧасть 4: Практическое использование TransformersPHPЧасть 3: Практика без Python и data scienceЧасть 2: Собираем простейшую RAG-систему на PHP с Neuron AI за вечерЧасть 1:

продолжить чтение

AGI: это правда закат человечества? Обзор технологии, которой нас запугали

СМИ подали слова учёных так, будто человечеству осталось совсем недолго: мол, уже к середине 2030-х нас вытеснит суперинтеллект. Имя этой угрозы — AGI. По сути, речь идет о следующем этапе развития искусственного интеллекта. И если вас уже сейчас впечатляет то, что умеют нейросети, то масштабы того, что приписывают AGI, выглядят куда тревожнее. По мнению многих, это уже не просто инструмент, а потенциальная замена человеку. 

продолжить чтение

Топ вопросов по математике для ML и Data Science собесов: линейная алгебра и матан

Математикой часто пугают новичков ML и Data Science. В этой статье разберем, что спрашивают и до какой глубины изучать математику для собеседований.Статья не рассчитана на изучение математики до уровня вышмата в вузе - но для трудоустройства это и не является обязательным критерием. Тем не менее материал может послужить отправной точкой изучения математики и неким роадмапом, что важно, а что нет.Содержание:Линейная алгебравектора, матрицы, операции над ними и дрМатематический анализпространство, градиент, апроксимация и дрПолезные материалы

продолжить чтение

Курсы по машинному обучению в 2026 году: топ-6 для жаждущих практики

Представьте: через годик-полтора вы на собеседовании в топовом бигтехе. Вас спрашивают не про теорему Байеса, а про то, как вы чистили данные для модели, почему выбрали CatBoost вместо XGBoost и как развернули пайплайн в Docker. Вы уверенно отвечаете — потому что делали это на курсе. Не в теории, а в проекте, который теперь лежит в вашем GitHub. Мы нашли 6 программ в каталоге Хабр Курсов, которые моделируют именно такой путь: от первого import pandas до оффера на позицию Junior ML Engineer.Содержание

продолжить чтение

30 паттернов инженерии ИИ-систем

В Островке мы используем ИИ в разных задачах — от автоматизации внутренних процессов до продуктовых сценариев — и периодически рассказываем об этом на Хабре. Например, как строим вспомогательные системы на ��азе LLM и RAG или

продолжить чтение

Как собрать Physical AI-конвейер на манипуляторе за 30 тысяч рублей: ROS2, LeRobot и end-to-end imitation learning

продолжить чтение

123456...8