benchmark.

Иллюзия 99% F1 в Time Series: как искажаются метрики в детекции аномалий и что показывает реальный тест 14 архитектур

Я занимаюсь внедрением ML в промышленности, поэтому задача детекции аномалий во временных рядах для меня близка и имеет огромную важность. В рамках исследовательского проекта мы искали адекватное SOTA-решение для мониторинга телеметрии (водоочистка, турбины, химические установки).Изучая свежие работы с конференций уровня A*, я обратил внимание на статью про Sub-Adjacent Transformer (SAT). В аннотации авторы заявляли метрику F1 в районе 99%.

продолжить чтение

Локальный запуск openai-gpt-oss-20b MXFP4 GGUF на ноутбуке без дискретной видеокарты: практический тест на 32 GB RAM

Запустил openai/gpt-oss-20b в варианте MXFP4 GGUF на обычном ноутбуке без дискретной видеокарты: CPU, встроенная Radeon 780M и общая оперативная память.Тест проводился на ASUS Vivobook S 16 M3607HA. Точную модель указываю не ради привязки статьи к конкретному ноутбуку, а для воспроизводимости, здесь важны 32 GB DDR5 5600, Ryzen 7 260, встроенная Radeon 780M и shared memory.Главный вопрос был практический: можно ли реально пользоваться локальной 20B-моделью на ноутбуке с 32 GB RAM, если отдельной видеокарты нет?

продолжить чтение

Поиск черной кошки в 2000-мерной темной комнате. Турнир алгоритмов машинного обучения

ЭпиграфЭксперимент завершен. Результаты выглядят так, будто я немного сломал законы физики привычного табличного ML.Может быть это соревнование, которого не должно было быть?Это приглашение к репликации.Спрятать иголку в стоге сена? Да!Добро пожаловать на мой маленький тестовый полигон.

продолжить чтение

Я попробовал считать нейросетевой слой в конечном поле Галуа GF(137): 4x по памяти, ARM NEON и честные ограничения

В современных нейросетях критически важно, сколько физической памяти занимает каждый параметр. В этой работе я попытался уйти от классического float32 в нейросетевом слое к uint8 без квантования. Для этого все вычисления проводились сразу по правилам арифметики остатков в конечном поле Галуа GF(137).Стоит сказать, что это не замена обычному инференсу и не попытка доказать, что все должны срочно переписать модели на вычеты по модулю 137. Я взял небольшой слой, байтовые веса, нативное ядро, ARM NEON и несколько базовых реализаций для сравнения.

продолжить чтение

Что нового в Swift: Май 2026 года

«Что нового в Swift» — кураторский дайджест релизов, видео и обсуждений в проекте и сообществе Swift.Для начала мы остановимся на некоторых локальных группах встреч, которые делятся контентом о Swift:"По всему миру локальные группы встреч и конференции объединяют разработчиков Swift, и некоторые из них появились даже раньше самого Swift! У многих есть каналы на YouTube, где они публикуют видео со своих мероприятий, так что вы можете подключаться удалённо. Давайте выделим несколько.В мае на встрече SF Swift прошёл доклад Дэна Федермана «Agentify Your Swift Repo»

продолжить чтение

Как тестируют кодинг-агентов в 2026 — и почему вашему продакшну нужен свой бенчмарк

Ни для кого не секрет, что эра «спросить что-то у GPT» постепенно уходит в прошлое. На смену генеративному AI приходит Agentic AI, который не просто проконсультирует, а по вашему запросу придёт и сделает все сам. То же самое и с кодовыми агентами, они не просто отвечают на вопросы,  они читают документацию, работают в терминале, дёргают API, правят файлы и в идеале закрывают задачу целиком, от тикета до мёрж-реквеста.

продолжить чтение

Перевод: LLMs Corrupt Your Documents When You Delegate от Microsoft

Это перевод научной статьи от исследователей компании Microsoft. Статья была опубликована 17 апреля 2026 года. См. источник

продолжить чтение

ChatGPT не промахнулся ни в одном из пяти медицинских кейсов. И всё равно проиграл. Разбираем, почему

TL;DRВ эксперимент мы шли с уверенностью, что ChatGPT хотя бы раз из пяти промахнётся с главным диагнозом. Не промахнулся. Пять из пяти: метаболический синдром, субклинический гипотиреоз, перименопауза, MGUS, статин-индуцированный рабдомиолиз. Ставка проиграна, но самое интересное оказалось не здесь.

продолжить чтение

Малоресурсный язык ломает коммерческие embedding: R@1 0,83 (LaBSE) vs 0,21 (OpenAI) на армянском EPG

Текст написан автором и отредактирован с помощью ИИTL;DR: Платные модели embedding плохо работают с малоресурсными языками. OpenAI text-embedding-3-large набирает R@1 = 0,21 на армянском -- уровень случайного угадывания. Причина -- токенизатор: cl100k_base не содержит армянских токенов и разбивает текст побайтово, раздувая его в 10 раз по сравнению с английским. Бесплатные мультиязычные модели с SentencePiece/WordPiece-токенизаторами не имеют этой проблемы. Протестировано 19 моделей на 245 триплетах EN/RU/HY из TMDB. Лучший retrieval -- LaBSE (R@1 = 0,83), лучший alignment -- multilingual-e5-large (0,86).

продолжить чтение

Embedder для ИТ-крестьянина

Я - Дмитрий Черняк, владелец компании, производящей цифровых консультантов "Нейроботник" и архитектор этого решения. Наиболее простой и ходовой вариант нашего продукта - консультант на сайте, с подключенной моделью и RAG-базами. Простые задачи ограничиваются одной базой, более сложные - несколькими, совмещающими семантический поиск с целевым - по ключевым словам и фразам, с многошаговым ответом. Для большинства задач в данной нише этого достаточно.Эта статья посвящена предновогоднему тесту эмбеддеров (табличка результатов прилагается).

продолжить чтение

123