сравнение моделей.

Почему +0.3% к ROC‑AUC почти всегда шум, и как это проверить

Вы поменяли набор признаков, прогнали кросс‑валидацию, ROC‑AUC вырос с 0.871 до 0.874. Изменение уезжает в продакшен как улучшение, в чате ставят плюсы, через месяц на свежих данных «улучшенная» модель работает не лучше прежней, а иногда хуже. Прирост на третьем знаке утонул в шуме самой процедуры валидации, и отличить его от настоящего сдвига по одному числу было нельзя с самого начала.

продолжить чтение

Нужно ли использовать Qwen? Качество и цена

Текст носит юмористический характер и написан для @mahmud90 и @MountainGoatКитайские модели стоят в разы дешевле западных — и каждый месяц кто-нибудь спрашивает: а можно ли просто пересесть на Qwen и не платить за Claude с GPT? Я взял одну реальную задачу и прогнал её через три модели сразу, а потом свёл качество с ценой. Ниже — что получилось и кому Qwen реально подойдёт.Задача одна на всех: разобрать топ-10 heap alloc_objects

продолжить чтение

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ЭпиграфЭксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.Может быть это соревнование, которого не должно было быть?Это приглашение к репликации.Спрятать иголку в стоге сена? Да!Добро пожаловать на мой маленький тестовый полигон.

продолжить чтение

Смогут ли LLM выжить во время катастрофы? Gemini, ChatGPT и другие играют в «Бункер» (анализ поведения)

продолжить чтение

Цифровой аудит против галлюцинаций по ГОСТу. Как понять, когда ответу ИИ нельзя верить?

Все мы привыкли, что нейросети — это про креатив, быстрый поиск и «накидай мне презу на завтра», но что происходит, когда вы выводите LLM из зоны комфорта написания стишков, саммари и поздравлений для бухгалтерии, в зону ответственности, такую как анализ сложных документов, комплаенс, медицина, право, аудит или стратегическое планирование и финансы? Там начинается серая зона, где ИИ не просто ошибается, он совершает ложные декларирования исполнения. То есть говорит: «Я прочитал и проверил», хотя на самом деле: «Я сгенерировал текст, похожий на отчет о проверке».

продолжить чтение

GLM 5.1 vs. DeepSeek V3.2: сравниваем топовые китайские модели

В Veai мы регулярно тестируем и сравниваем модели, которые доступны у нас в плагине. Каждая модель, которую мы добавляем проходит через наш собственный бенчмарк, прежде чем попасть в продакшн. Недавно тестированию подверглись GLM 5.1 и DeepSeek V3.2. Делимся результатами.

продолжить чтение

Я vs. машина

Прошёл примерно год с тех пор, как я начал активно использовать Claude Code для разработки, и, как я уже писал, это существенно изменило мои рабочие процессы. Продуктивность действительно выросла — но в основном по ощущениям, а они у меня примерно такие же надёжные, как мои эстимейты (то есть никакие, и лучше не станут). Так что я решил, что пора проверить своё чутьё абсолютно научно пуленепробиваемым способом (со статистически высокозначимой контрольной группой из меня, себя и моей собственной персоны).Эксперимент, о котором никто не просил

продолжить чтение

Руководство по PyTorch для новичков: создаём модель множественной регрессии с нуля

TL;DRАвтор берёт датасет Abalone и проводит подробный EDA: проверяет распределения, выбросы, мультиколлинеарность и видит выраженную гетероскедастичность целевой переменной.Строится базовая линейная регрессия (c лог-преобразованием целевой), фильтруются выбросы, добавляются полиномиальные признаки — качество улучшается, но упирается в ограничения самой постановки.Далее реализуется полносвязная нейросеть в PyTorch с подбором гиперпараметров, обучением на mini-batch и валидацией по RMSE.

продолжить чтение

Как бесплатно использовать и сравнивать топовые платные ИИ-модели (на примере Seedream v4)

Перед тем, как платить за доступ к моделям (особенно дорогим), полезно «пощупать» их на своих задачах. В этой статье я продемонстрировала рабочий способ бесплатно сравнить топовые модели ИИ на примере платной Seedream v4 (ByteDance) и Nano Banana (Google) через сайт Yupp.ai. Эта платформа показывает два ответа разных моделей, вы выбираете лучший, оставляете короткий фидбек и зарабатываете кредиты, которыми «оплачиваете» последующие прогоны.Что такое Yupp.aiYupp.ai

продолжить чтение

SQL и нейросети: изучаем логику моделей через анализ и визуализацию весов

SQL — это не только про базы данных. В машинном обучении его используют для анализа весов, поиска аномалий, сравнения моделей и визуализации их логики. SQL помогает определить значимость признаков, заметить переобучение и оценить работу модели.

продолжить чтение

12