machine learning. - страница 3

NER не про токены: почему span важнее BIO

Дисклеймер.Все примеры текстов и сущностей в статье являются синтетическими и не содержат реальных персональных данных. Любые совпадения с реальностью случайны.ИнтроВ последние годы системы детекции и очистки персональных данных стали неотъемлемой частью NLP-пайплайнов, особенно в сценариях, где тексты передаются во внешние LLM-провайдеры и используются в LLM-агентах.На практике такие системы решают задачу детекции и маскирования персональных данных, среди них можно выделить: Presidio, LLM Guard,

продолжить чтение

Query Prediction, или как мы отказались от ANN и полюбили обратный индекс

продолжить чтение

Чистим аудиокниги от шума нейросетями

TL;DR: Классические фильтры (FFmpeg, Audacity) плохо справляются со сложным шумом в аудиокнигах. Нейросети для source separation работают в разы лучше. Написал обертку над audio-separator, которая умеет обрабатывать многочасовые файлы без вылетов по памяти.В прошлой статье я рассказывал про go-audio-converter — конвертер аудио на чистом Go без FFmpeg. Сегодня — про следующий инструмент в моей аудио-экосистеме: очистку аудиокниг от шума с помощью нейросетей.Проблема

продолжить чтение

Оптимизация маршрутов доставки заказов маркетплейса или как мы победили в E-CUP 2025

Хабр, привет! Недавно завершилось ML-соревнование E-CUP 2025. Наша команда из X5 Tech заняла первое место в треке «Логистика: автопланирование курьеров», где было нужно оптимизировать время, затрачиваемое курьерами на доставку 20 000 заказов. В статье расскажем про подходы, которые использовали для решения этой задачи. Посмотрим, во сколько раз можно сжать JSON с матрицей расстояний. Какой код мы использовали для быстрого решения задачи TSP с помощью LKH-3. Обсудим, на что обращать внимание при кластеризации заказов.Постановка задачи

продолжить чтение

Покоряем гору временных рядов: делаем прогноз для 200+ рядов с библиотекой Etna

Я работаю дата-сайентистом 5 лет и до сих пор испытываю боль, когда нужно сделать MVP по временным рядам. Начиная с того, как построить несколько графиков одновременно без «слипшихся» меток по осям, заканчивая поиском подходящего метода очистки ряда от аномалий. И всё это венчает цикл по каждому ряду с бесконечным жонглированием данными между numpy, pandas, sklearn, yet_another_library.

продолжить чтение

Как 17-летний писал RAG-алгоритм для хакатона AI for Finance Hack: ретроспектива

Привет, Хабр! Мой путь в мире IT официально начался относительно недавно: в октябре 2025 года. До этого программирование вообще не выходило за рамки увлечений. Но однажды я решил испытать удачу и выйти на тропу приключений, после которой я уже не вернулся прежним...

продолжить чтение

«Привет! Я [0.44, -0.91, 0.66…]» или как научить машину чувствовать смысл слов

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом». Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Любой цифровой объект можно представить как некое число: картинку, текст, аудио или видеофайл — практически всё что угодно.

продолжить чтение

«Привет! Я [0.44, -0.91, 0.66…]» или как научить машину понимать смысл слов

Я уверен, вы видели модели машинного обучения, которые принимают текст и предсказывают, является ли он спамом. Аналогично модель может проанализировать отзыв о фильме и определить его тональность — положительную или отрицательную, понимать что «груша» связана с «яблоком» куда больше, чем с «теплоходом». Первое правило обучения любой модели машинного обучения — это преобразование входных данных в числа. Любой цифровой объект можно представить как некое число: картинку, текст, аудио или видеофайл — практически всё что угодно.

продолжить чтение

ML на Мосбирже — почему мой грааль не работает?

Время после нового года решил провести с пользой и окунуться в машинное обучение. Заняться Machine Learning — и посмотреть получится что‑то или нет с российским рынком акций на Московской бирже.Моей целью было построить такую систему, которая будет учиться на истории и в перспективе торговать лучше чем случайное блуждание 50/50. Но из‑за комиссий и спреда подобные блуждания изначально отрицательны — чтобы выйти в плюс надо как минимум покрывать комиссии.Если говорить о результатах очень кратко, то технически всё работает, но вот финансовый результат на грани безубыточности.

продолжить чтение

AI для PHP-разработчиков: практика без Python и data science

Про AI сейчас пишут много, мягко говоря. Причём пишут буквально все, кому не лень. Но если вы PHP-разработчик, то, скорее всего, ощущение примерно такое: тема вроде бы важная, но почти всё – не для вас, а двигаться в эту сторону нужно, ибо... ну, вы и сами понимаете.Большинство материалов сразу уезжают в Python, Jupyter, PyTorch, обучение моделей, математику и датасеты. Даже когда речь идёт не про data science, а про практику – примеры всё равно из другого мира.

продолжить чтение

123456...10...15
Rambler's Top100