deep learning.

ML на Мосбирже — почему мой грааль не работает?

Время после нового года решил провести с пользой и окунуться в машинное обучение. Заняться Machine Learning — и посмотреть получится что‑то или нет с российским рынком акций на Московской бирже.Моей целью было построить такую систему, которая будет учиться на истории и в перспективе торговать лучше чем случайное блуждание 50/50. Но из‑за комиссий и спреда подобные блуждания изначально отрицательны — чтобы выйти в плюс надо как минимум покрывать комиссии.Если говорить о результатах очень кратко, то технически всё работает, но вот финансовый результат на грани безубыточности.

продолжить чтение

Оставлено в

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

В прошлых статьях я разбирал основы апскейлинга дома и

продолжить чтение

Оставлено в

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A-B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты работы нашей команды каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.WildBERT основан на классической архитектуре Bidirectional Encoder Representations from Transformers (BERT), улучшенной под задачи и проблемы, с которыми сталкивается маркетплейс. Скорее, это не одна конкретная модель, а концепция, которую мы применяем в разных процессах:

продолжить чтение

Оставлено в

GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Начинаем серию разборов современных Vision-Language-Action (VLA) моделей для манипуляции. Несмотря на то, что им всего около года (π₀ была представлена ровно год назад — 31 октября 2024), текущие системы уже можно считать вторым поколением VLA-подходов. Их ключевое отличие — появление дополнительного модуля action head, который представляет собой не просто голову над представлениями, а отдельный диффузионный трансформер, обучаемый по задаче flow matching.Сегодня — разбор GR00T от NVIDIA, который с момента релиза N1 уже успел обновиться до версии N1.5, а на днях ожидается N1.6.

продолжить чтение

Оставлено в

Momentum Attention: когда внимание получает инерцию

В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

продолжить чтение

Оставлено в

Умный Learning Rate Scheduler: Управляем скоростью обучения, анализируя ускорение

Мы привыкли использовать ReduceLROnPlateau если val_loss не улучшается N эпох подряд - режем learning_rate. Это работает. Мы ждем, пока обучение врежется в стену, и только потом реагируем.А что, если мы могли бы увидеть эту стену заранее? Что, если бы мы могли сбросить скорость плавно, еще на подходе к плато, и снова нажать на газ, если впереди откроется новый спуск?Я хочу поделиться концепцией умного LR шедулера, который управляет скоростью обучения, анализируя не сам loss, а скорость его изменения.Проблема ReduceLROnPlateau: Мы реагируем на симптом, а не на причину

продолжить чтение

Оставлено в

Полезные задачи на Kaggle ( LLM, Diffusion Models)

В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:🌍 более 13 миллионов участников из разных стран;🏆 сотни активных соревнований ежегодно;📊 миллионы доступных датасетов и готовых ноутбуков.

продолжить чтение

Оставлено в

Играемся с видеокартой Tesla H100 (GH100)

Продолжаем статьи про практические тесты актуальных картонок от Nvidia (RTX 5090, A5000 Ada, A100, 3090 и A10

продолжить чтение

Оставлено в

Обучаем GigaAM-Emo распознавать ещё больше эмоций

Модель распознавания эмоций в речи GigaAM-Emo умеет классифицировать 4 эмоции: angry, sad, neutral, positive. Для некоторых задач бывает недостаточно распознавать 4 класса и возникает необходимость расширения этого списка. В данной статье мы рассмотрим:существующие корпуса данных, предназначенных для распознавания эмоций;ключевые возможности разработанного пайплайна для дообучения GigaAM с использованием библиотек hydra и Pytorch Lightning;результаты экспериментов с различными архитектурами и функциями потерь.Демо можно попробовать

продолжить чтение

Оставлено в

Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах

Примерно год назад мы запустили

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

deep learning.

ML на Мосбирже — почему мой грааль не работает?

Archivist: Как я учил нейросеть понимать физику плёнки, вместо того чтобы просто размывать шум

Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A-B-тестирования

GR00T N1.5: архитектура, данные и эволюция VLA-моделей

Momentum Attention: когда внимание получает инерцию

Умный Learning Rate Scheduler: Управляем скоростью обучения, анализируя ускорение

Полезные задачи на Kaggle ( LLM, Diffusion Models)

Играемся с видеокартой Tesla H100 (GH100)

Обучаем GigaAM-Emo распознавать ещё больше эмоций

Виртуальный рассказчик 2.0: эволюция нейросетевого рассказчика в Яндекс Книгах

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

deep learning.