Красота математики и ML (part 1-2): алгоритм MinHash
Вернулся к одному из своих исследований в области векторизации текста. Возможно, расскажу о нём позже, а пока, в поисках ответа на вопрос насколько моё исследование повторяет уже существующие разработки, изучил два интересных алгоритма.SimHash: про то, как векторизовать текст в плотный вектор из нулей и единиц.MinHash: про то, как транслировать разряжённый (sparse) бинарный вектор в компактный отпечаток, состоящий из целых чисел.Кроме того, что оба алгоритма работают с бинарными векторами, у них есть еще одна общая черта. Они оба гениальны в своей простоте и потому потрясающе красивы!
Я залез в исходники Claude Code. Фичи, которых нет в документации
Комментарий от эксперта Александра Шустанова
Выделение одного значащего признака из набора данных с помощью машинного обучения. Используется Apache Spark
Описание задачиВ первой части была создана инфраструктура для запуска машинного обучения. Там же была создана БД с данными для использования в примерах.В данной части будет искаться, какой тип файлов вызывает увеличение нагрузки. При этом, зная, какой именно тип файла был указан как вызывающий нагрузку.Будет использоваться машинное обучение в Apache Spark.Выборка исходных данных из БДНачать работу необходимо с выборки исходных данных для анализа. Структура БД описана в
AI для PHP-разработчиков. Часть 6: Bag of Words и TF–IDF – как компьютер превращает текст в математику
Как компьютер превращает текст в числа и почему TF–IDF десятилетиями оставался основой поисковых систем. Разбираем Bag of Words, TF–IDF и поиск похожих документов на чистом PHP.Это шестая часть проекта.Часть 5: От массивов к GPU: как PHP-экосистема приходит к настоящему MLЧасть 4: Практическое использование TransformersPHPЧасть 3: Практика без Python и data scienceЧасть 2: Собираем простейшую RAG-систему на PHP с Neuron AI за вечерЧасть 1:
AGI: это правда закат человечества? Обзор технологии, которой нас запугали
СМИ подали слова учёных так, будто человечеству осталось совсем недолго: мол, уже к середине 2030-х нас вытеснит суперинтеллект. Имя этой угрозы — AGI. По сути, речь идет о следующем этапе развития искусственного интеллекта. И если вас уже сейчас впечатляет то, что умеют нейросети, то масштабы того, что приписывают AGI, выглядят куда тревожнее. По мнению многих, это уже не просто инструмент, а потенциальная замена человеку.
Топ вопросов по математике для ML и Data Science собесов: линейная алгебра и матан
Математикой часто пугают новичков ML и Data Science. В этой статье разберем, что спрашивают и до какой глубины изучать математику для собеседований.Статья не рассчитана на изучение математики до уровня вышмата в вузе - но для трудоустройства это и не является обязательным критерием. Тем не менее материал может послужить отправной точкой изучения математики и неким роадмапом, что важно, а что нет.Содержание:Линейная алгебравектора, матрицы, операции над ними и дрМатематический анализпространство, градиент, апроксимация и дрПолезные материалы
Курсы по машинному обучению в 2026 году: топ-6 для жаждущих практики
Представьте: через годик-полтора вы на собеседовании в топовом бигтехе. Вас спрашивают не про теорему Байеса, а про то, как вы чистили данные для модели, почему выбрали CatBoost вместо XGBoost и как развернули пайплайн в Docker. Вы уверенно отвечаете — потому что делали это на курсе. Не в теории, а в проекте, который теперь лежит в вашем GitHub. Мы нашли 6 программ в каталоге Хабр Курсов, которые моделируют именно такой путь: от первого import pandas до оффера на позицию Junior ML Engineer.Содержание
30 паттернов инженерии ИИ-систем
В Островке мы используем ИИ в разных задачах — от автоматизации внутренних процессов до продуктовых сценариев — и периодически рассказываем об этом на Хабре. Например, как строим вспомогательные системы на ��азе LLM и RAG или

