ML на Мосбирже — почему мой грааль не работает?
Время после нового года решил провести с пользой и окунуться в машинное обучение. Заняться Machine Learning — и посмотреть получится что‑то или нет с российским рынком акций на Московской бирже.Моей целью было построить такую систему, которая будет учиться на истории и в перспективе торговать лучше чем случайное блуждание 50/50. Но из‑за комиссий и спреда подобные блуждания изначально отрицательны — чтобы выйти в плюс надо как минимум покрывать комиссии.Если говорить о результатах очень кратко, то технически всё работает, но вот финансовый результат на грани безубыточности.
Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум
В прошлых статьях я разбирал основы апскейлинга дома и
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A-B-тестирования
Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты работы нашей команды каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.WildBERT основан на классической архитектуре Bidirectional Encoder Representations from Transformers (BERT), улучшенной под задачи и проблемы, с которыми сталкивается маркетплейс. Скорее, это не одна конкретная модель, а концепция, которую мы применяем в разных процессах:
GR00T N1.5: архитектура, данные и эволюция VLA-моделей
Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.
Momentum Attention: когда внимание получает инерцию
В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.
Умный Learning Rate Scheduler: Управляем скоростью обучения, анализируя ускорение
Мы привыкли использовать ReduceLROnPlateau если val_loss не улучшается N эпох подряд - режем learning_rate. Это работает. Мы ждем, пока обучение врежется в стену, и только потом реагируем.А что, если мы могли бы увидеть эту стену заранее? Что, если бы мы могли сбросить скорость плавно, еще на подходе к плато, и снова нажать на газ, если впереди откроется новый спуск?Я хочу поделиться концепцией умного LR шедулера, который управляет скоростью обучения, анализируя не сам loss, а скорость его изменения.Проблема ReduceLROnPlateau: Мы реагируем на симптом, а не на причину
Полезные задачи на Kaggle ( LLM, Diffusion Models)
В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:🌍 более 13 миллионов участников из разных стран;🏆 сотни активных соревнований ежегодно;📊 миллионы доступных датасетов и готовых ноутбуков.
Играемся с видеокартой Tesla H100 (GH100)
Продолжаем статьи про практические тесты актуальных картонок от Nvidia (RTX 5090, A5000 Ada, A100, 3090 и A10
Обучаем GigaAM-Emo распознавать ещё больше эмоций
Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry, sad, neutral, positive. Для некоторых задач бывает недостаточно распознавать 4 класса и возникает необходимость расширения этого списка. В данной статье мы рассмотрим:существующие корпуса данных, предназначенных для распознавания эмоций;ключевые возможности разработанного пайплайна для дообучения GigaAM с использованием библиотек hydra и Pytorch Lightning;результаты экспериментов с различными архитектурами и функциями потерь.Демо можно попробовать
Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах
Примерно год назад мы запустили

