Если вы когда-нибудь пытались натравить классическую LSTM на минутные свечи волатильных активов, вы знаете эту боль. Сначала Loss красиво падает на трейне, вы предвкушаете покупку острова, а на тесте модель превращается в тыкву. Она либо предсказывает скользящую среднюю со сдвигом на один шаг, либо упирается в «стену» Loss = 0.693 (то есть −ln(0.5)), сводя всё к подбрасыванию монетки.

Оставлено в

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Код: https://github.com/fanat503/Induction-Heads-TinystoriesВведениеИсследования Induction Heads и SAE очень важны, чтобы разобраться в современных моделях и понять, что же в них происходит. Цель эксперимента — проверить формирование Induction Heads на датасете TinyStories. Почему был выбран именно такой датасет? Потому что он очень простой и понятный, что позволяет изолировать влияние сложности данных на формирование механизмов.Архитектура и методология

продолжить чтение

Оставлено в

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Сейчас каждый второй стартап пилит ИИ-агентов. Мы оборачиваем LLM в цикл Промпт -> Вызов инструмента (API/Поиск) -> Чтение -> Ответ и ждем, что нейросеть сама расследует инцидент, найдет баг или напишет фичу. Но на практике автономные агенты часто ходят по кругу, галлюцинируют и застревают в бесконечных циклах.Индустрия пытается лечить это экстенсивно: наращивает контекстное окно до миллионов токенов или пишет в системном промпте заклинания вроде «подумай шаг за шагом и будь максимально объективен».

продолжить чтение

Оставлено в

Достаточно подробно изучаем, что происходит внутри Feed-Forward Neural Networks, и реализуем в коде

Нейронные сети сегодня уже не какая-то магия из научных статей. Они стоят за рекомендациями в сервисах, распознаванием изображений и, конечно, за LLM-моделями, которыми мы пользуемся каждый день. Но знакомство с ними у многих происходит через готовые библиотеки такие, как PyTorch или TensorFlow: написал пару строк кода — модель обучилась — всё работает. А что именно произошло внутри обычно остаётся загадкой.

продолжить чтение

Оставлено в

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Привет! Я Дмитрий Колесников, Team Lead DS-команды «Платформа модерации» в Wildberries & Russ. В этой статье по мотивам моего доклада на HighLoad расскажу, как у нас получилось превратить сотни Computer Vision моделей в единый масштабируемый пайплайн, который ежедневно обрабатывает 15 млн карточек товаров (50+ млн изображений и 500K видео).Что еще будет в статье?Computer Vision‑архитектура системы модерации Wildberries: как мы унифицировали модели через TensorRT и DALI, перешли к шаблонной архитектуре «общий бэкбон - легкие головы» и построили ансамбль в Triton, чтобы снизить нагрузку и ускорить деплой.

продолжить чтение

Оставлено в

Как подбирать аугментации: гипотезы, протокол и метрики

Одно и то же изображение под разными аугментациями

продолжить чтение

Оставлено в

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Привет, Хабр! Меня зовут Vlad, я начинающий Python-разработчик и энтузиаст изучения языков. Недавно я столкнулся с классической проблемой полиглота-самоучки: учебники дают теорию, аудиокурсы — пассивное восприятие, но нет главного — обратной связи по произношению. Репетиторы дороги, а разговорные клубы требуют уровня, которого у меня еще не было. Я решил закрыть эту боль кодом. Моя цель была амбициозной: создать Telegram-бота, который: Слушает голосовые сообщения и распознает речь без дорогих облачных API.Оценивает точность произношения в процентах, сравнивая с эталоном.

продолжить чтение

Оставлено в

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Привет, Хабр!

продолжить чтение

Оставлено в

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Статья о том, почему «лучшие хиты Queen» и «что-нибудь под пробежку» – это принципиально разные запросы, и что с этим делать ML-инженеру музыкального стриминга

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

machine learning.

ИИ из Иннополиса научился взвешивать свиней по видео без контакта

Укрощаем рыночный хаос: Пишем Liquid Neural Network (LNN) на PyTorch для алготрейдинга

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Иллюзия логики: как я доказал, что LLM-агенты игнорируют факты, и почему Chain-of-Thought делает только хуже

Достаточно подробно изучаем, что происходит внутри Feed-Forward Neural Networks, и реализуем в коде

Как мы автоматизировали модерацию карточек товаров с помощью Computer Vision в Wildberries

Как подбирать аугментации: гипотезы, протокол и метрики

Испанский в кармане: Архитектура Telegram-бота с локальным Whisper.cpp, AI-диалогами и оценкой произношения

Как я собрал русскоязычного ИИ-рентгенолога: скрещиваем ViT и ruGPT-3 в условиях Kaggle

Как научить плейлист-генератор не лезть с персонализацией куда не просят

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

machine learning.