Пока все смотрят на LLM: почему классический ML годами зарабатывает сотни миллионов?. data analyst.. data analyst. data science.. data analyst. data science. junior.. data analyst. data science. junior. machine learning.. data analyst. data science. junior. machine learning. как стать data scientist.. data analyst. data science. junior. machine learning. как стать data scientist. карьера в it.. data analyst. data science. junior. machine learning. как стать data scientist. карьера в it. классический ML.. data analyst. data science. junior. machine learning. как стать data scientist. карьера в it. классический ML. Машинное обучение.. data analyst. data science. junior. machine learning. как стать data scientist. карьера в it. классический ML. Машинное обучение. Собеседование.. data analyst. data science. junior. machine learning. как стать data scientist. карьера в it. классический ML. Машинное обучение. Собеседование. собеседование data scientist.

В ленте сплошные языковые модели и агенты, а инвесторы спорят про окупаемость GenAI. Тем временем «скучный» классический ML: градиентный бустинг, аплифт модели, recsys, поведенческая биометрика, до сих пор тихо приносит реальную выручку.

Я Senior Data Scientist, работаю в финтехе, а также являюсь спикером по карьере и аналитике/ML в ИТМО и ВШЭ. В статье решил разобрать на реальных примерах зрелых компаний, которые уже доказали окупаемость, и одной из новой волны, что классика все еще жива и нужно знать истоки ML.

Почему стоит об этом говорить

Информационный фон создает ощущение, что весь Data Science теперь — это промптинг и языковые модели. Те, кто входит в профессию, нередко думают, что классический ML устарел. Каждый второй студент говорит о том, что хочет в CV, NLP, часто при этом не зная как построить ROC-кривую или почему градиентный бустинг до сих пор выигрывает на табличных данных. Человек метит в продвинутую тему, не закрыв фундамент, на котором эта тема стоит.

Я не виню в этом студентов, так просто устроен информационный поток. О новой языковой модели напишут все, о том как градиентный бустинг на табличных данных годами приносит банку миллионы просто уже не тренд рассказывать. В результате формируется искаженная карта профессии: яркое и хайповое кажется большим, а основа — маленькой и устаревшей. Реальность ровно обратная.

И тут эта искаженная картинка очень сильно влияет, когда человек выбирает, что учить, он пропускает то, за что рынок на самом деле платит чаще всего и стабильнее всего. Поэтому дальше рассмотрим четыре компании на классическом ML. Три уже прошли путь до доказанной окупаемости, одна — представитель новой волны. У всех под капотом не языковая модель, а та самая «скучная» классика.

Часть 1. Публичные компании — цифры из отчетности

1. Riskified — антифрод для ecommerce

Основана в 2013 · NYSE: RSKD (IPO 2021) Выручка FY2025 — $344,6 млн · впервые GAAP-прибыль в Q4 2025 (чистая прибыль $5,8 млн) · EBITDA за 2025 — $26,7 млн

Riskified берет на себя гарантию по чарджбэкам: одобряет транзакцию, и если она оказалась мошеннической, то убыток несет сама. По итогам 2025 года компания впервые в истории показала квартальную GAAP-прибыль (спустя более десяти лет после основания и четыре года после IPO). Это и есть наглядная «окупаемость»: момент, когда бизнес на классическом ML перешел из убытков в плюс.

Почему здесь работает классика. Задача, где LLM бесполезна, а классический ML незаменим. Решение «фрод / не фрод» нужно принять за миллисекунды на табличных признаках транзакции, оно должно быть воспроизводимым и объяснимым для аудита. В своей отчетности рост прибыли компания прямо связывает с улучшением технических характеристик модели . Здесь качество ML напрямую конвертируется в маржу.

Источники: результаты Q4 и FY2025 (выручка $344,6 млн, чистая прибыль Q4 $5,76 млн, Adjusted EBITDA $26,7 млн) — официальная отчетность Riskified, форма 6-K, поданная в SEC.

2. Upstart — кредитный скоринг и андеррайтинг

Область: кредитный скоринг · основана в 2012 · NASDAQ: UPST (IPO 2020). Рост выручки за 2025 — +64% год к году · возврат к устойчивой GAAP-прибыли · более 90% займов одобряются автоматически.

Upstart — маркетплейс кредитования: его ML-модели оценивают кредитный риск заемщика, а выдают займы более 100 банков и кредитных союзов, подключенных к платформе. В 2025 году компания выросла по выручке на 64% и вернулась к устойчивой GAAP-прибыли. Более 90% займов одобряются полностью автоматически, без участия человека.

Почему здесь работает классика. Кредитный скоринг — задача классического ML: оценка вероятности дефолта по табличным признакам заёмщика. Ключевое требование — не «креативность», а точность, стабильность и объяснимость: отказ в кредите нужно уметь обосновать перед регулятором. Именно поэтому выбирают интерпретируемые модели на структурированных данных, а не языковая модель.

Источник: официальная отчетность Upstart, формы 8-K, результаты кварталов и полного 2025 года, поданные в SEC (EDGAR, CIK 0001647639).

Группа 2. Частные компании, выручка оценочная

3. Algolia — поиск и рекомендации как сервис

Область: поиск и рекомендации · основана в 2012 · частная компания. Выручка 2024 — около $100 млн · оценка (пик 2021) $2,25 млрд · привлечено около $335 млн

Algolia — это поиск по сайту и рекомендательные карусели «вам может понравиться», предоставляемые как API. По оценкам агрегаторов, выручка прошла путь от ~$40 млн (2018) к ~$100 млн (2024). Честная оговорка: оценка компании в 2022-м корректировалась вниз, так как рынок проходил переоценку, но выручка при этом продолжала расти.

Почему здесь работает классика. Рекомендации «похожие товары» и «с этим покупают» — это классические алгоритмы (коллаборативная фильтрация, ранжирование) на поведенческих данных. Ценность для клиента измеримая: больше страниц за визит, выше кросс-продажи и конверсия. Языковая модель для ранжирования каталога тут не требуется.

Источники: оценки выручки — агрегатор GetLatka; суммы раундов и оценка $2,25 млрд — публичные данные о финансировании.

4. o9 Solutions — прогноз спроса и планирование

Область: прогноз спроса · основана в 2009 · частная компания. Выручка 2024 — около $157 млн · оценка $3,7 млрд · привлечено около $500+ млн

o9 Solutions — платформа планирования для крупных предприятий: прогноз спроса, управление запасами, планирование цепочки поставок. Среди клиентов — Nike, PepsiCo и другие глобальные компании. По оценкам агрегаторов, выручка выросла с ~$120 млн (2023) до ~$157 млн (2024) при оценке компании $3,7 млрд.

Почему здесь работает классика. Прогноз спроса — это работа с временными рядами и табличными данными: сезонность, тренды, влияние промо. Под капотом o9 стоит графовая модель данных (Enterprise Knowledge Graph) и ML-форсайтинг. Ценность снова измерима в деньгах клиента: меньше избыточных запасов, меньше списаний. Один из клиентов сообщает о сокращении брака примерно на 50% за счёт точного прогноза. Это область, где ошибка прогноза прямо конвертируется в замороженный капитал и где классические методы десятилетиями остаются основой.

Источники: оценки выручки 2024 и 2023 — агрегатор GetLatka; оценка $3,7 млрд и суммы раундов — пресс-релиз o9 Solutions, ссылка

Часть 3. Новая волна

5. Sardine — риск-платформа: фрод, комплаенс, андеррайтинг

Основана в 2020 · частная компания. Оценка (2025) — $660 млн · привлечено около $145 млн · рост выручки +130% год к году

Sardine — единственная компания в подборке моложе пяти лет. Основана в 2020-м выходцами из риск-команд Coinbase, Revolut, Uber и PayPal. В феврале 2025 года закрыла Series C на $70 млн (всего привлечено ~$145 млн), оценка $660 млн.

Важная честная оговорка: у Sardine нет публичной прибыли, так как компания на стадии роста, и ее «окупаемость» пока не доказана, в отличие от Riskified. Однако компания сообщает о росте годовой выручки (ARR) на 130% за год и почти удвоении клиентской базы. Это заявка на будущую окупаемость, а не сама окупаемость (важно не путать одно с другим).

Почему здесь работает классика. Под капотом Sardine — device intelligence и поведенческая биометрика: классические ML-подходы к распознаванию мошенника по тому, как он печатает, держит телефон, ведет себя на сайте. Компания сообщает о профилировании более 2 млрд устройств — и это снова про данные как актив. В маркетинге Sardine сейчас активно использует слово «AI-агенты», но ядро, на котором детектируется фрод, именно классический ML на поведенческих и device-сигналах.

Источники: Series C $70 млн, оценка $660 млн, общая сумма ~$145 млн — Bloomberg и Crunchbase News; год основания, состав основателей, рост ARR +130% — официальный анонс Sardine.

Так почему классика ?

Если свести разборы воедино, видно несколько причин, почему «скучный» ML переживет любой цикл хайпа.

  1. Задача определяет инструмент, а не мода. Антифрод — это классификация и ранжирование на табличных и поведенческих данных, с требованием миллисекундной скорости и объяснимости. Языковая модель здесь не нужна и часто прямо противопоказана: медленнее, дороже на инференсе, хуже поддается аудиту. Какой бы мощной ни была новая LLM, она не станет правильным инструментом для задачи, где нужно принять решение за 50 миллисекунд и потом объяснить регулятору, почему.

  2. Результат измерим и продается. У всех четырех ценность сводится к числу: спасенные от чарджбэка деньги, отыгранные ложные отказы. За измеримый ROI клиент платит предсказуемо и долго. Это контраст с частью GenAI-продуктов, где ценность формулируется расплывчато («повышает продуктивность»). Классический ML живет ровно в тех нишах, где результат оцифровывается, и именно поэтому у него предсказуемая выручка, а не венчурные качели.

  3. Данные — это барьер, который не копируется. Сетевой эффект Signifyd, cross-merchant dataset Forter, 2 млрд устройств Sardine. Модель повторить можно за месяц, накопленный датасет нет. Сами модели стали почти товаром массового потребления (открытые веса, доступные API), конкурентное преимущество окончательно сместилось с алгоритма на данные. Это переворачивает привычную для новичка картину «кто знает более модную архитектуру, тот и сильнее». На рынке выигрывает не тот, у кого изощреннее модель, а тот, у кого есть проприетарные данные и умение их готовить. Классические ML-компании поняли это десять лет назад, поэтому устойчивы.

  4. Окупаемость — это марафон. И здесь главное наблюдение из контраста двух частей статьи. Riskified шла к первой GAAP-прибыли больше десяти лет. Sardine, которой пять лет, показывает мощный рост, но прибыли еще нет. И это нормальный цикл: сильный ML-бизнес сначала растет на инвесторских деньгах и только потом окупается. Поэтому «доказанная окупаемость» и «свежий стартап» — почти всегда разные стадии одного пути. Не стоит путать отсутствие прибыли сегодня с отсутствием жизнеспособности.

    Классика и LLM — не конкуренты, а разные слои. Обратите внимание: все четыре компании сегодня добавляют в продукт LLM-агентов — Sardine прямо строит «AI-агентов для риск-команд». Но агенты у них стоят сверху, как слой автоматизации рутины аналитика, а решение «фрод или не фрод» по-прежнему принимает классическая модель на поведенческих сигналах. Это и есть здоровая архитектура: классический ML — фундамент, отвечающий за точность и скорость, LLM — надстройка, отвечающая за удобство. Противопоставление «классика против LLM», которое создает информационный фон, оказывается ложным. Вопрос не «что победит», а «что для какого слоя».

Что из этого следует, если вы метите в Data Science

Главный вывод для тех, кто входит в профессию: не списывайте классический ML со счетов ради хайпа. Рынок, где платят за бустинг и поведенческую биометрику, огромен и устойчив. В нем все еще сохраняется спрос на специалистов, которые умеют не промптить, а строить модель, измерять ее вклад и доводить до продакшена.

На собеседованиях в сильные команды это и проверяют: дисбаланс классов, отложенная выборка, A/B-тест, интерпретация, дрифты, лик. Это фундамент, и он не устаревает. LLM — полезный инструмент в арсенале, но начать строить карьеру стоит точно на фундаменте.

Практичный порядок такой: сначала фундамент — статистика, классические модели, валидация, метрики, умение довести решение до продакшена. Потом уже специализация в той области, которая нравится, будь то CV, NLP или те же рекомендательные системы. LLM при этом осваивается как рабочий инструмент по ходу, а не вместо всего остального. Скучная часть, которую хочется пропустить ради интересной, эта та, за которую платят сотни миллионов компании из этой статьи. И на собеседовании спросят именно про нее.

Если хотите освоить машинное обучение и увереннее проходить собеседования — напишите мне в личку тг @bimchine_work, рассмотрим ваш случай и куда вам стоит двигаться. Разборы рынка и задач регулярно выкладываю в телеграм-канале.

А вы на чьей стороне: классика или LLM ?

Автор: Bimchine

Источник