Машинное обучение.

ML Q & AI. Глава 8. Успех трансформеров

← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.Механизм внимания

продолжить чтение

Оставлено в

Schema Guided Reasoning: метод структурированного рассуждения AI

😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾ВведениеВ начале февраля 2025 года было опубликовано исследование Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System arXiv:2502.03450, которое представило SG² (Schema-Guided Scene-Graph Reasoning), обзор на этот фреймворк мы писали вот тут

продолжить чтение

Оставлено в

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель

продолжить чтение

Оставлено в

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce

продолжить чтение

Оставлено в

Anthropic ограничивает доступ китайских компаний к услугам ИИ

Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.

продолжить чтение

Оставлено в

Очеловечить компьютер: как развивалось машинное обучение в середине XX века

Согласно хрестоматийной хронологии машинного обучения, в 1952 году, то есть спустя год после того, как Минский и Эдмондс собрали и испытали

продолжить чтение

Оставлено в

Интерпретация и оптимизация перцептрона Розенблатта

В прошлой статье на хабре "На дворе LLM, а книгу о перцептроне так никто и не открыл!?

продолжить чтение

Оставлено в

Tesla предлагает Илону Маску пакет вознаграждения на триллион долларов

продолжить чтение

Оставлено в

Методы интерпретации на основе вмешательства в CV: RISE implementation

Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб. ВведениеМетоды интерпретации на основе вмешательства основаны на идее ответа на вопрос: на вопрос:

продолжить чтение

Оставлено в

Стартап OpenPipe присоединился к CoreWeave

Облачный провайдер CoreWeave объявил о покупке стартапа OpenPipe. Этот проект известен своим open-source инструментом ART (Agent Reinforcement Trainer), который помогает разработчикам создавать кастомных AI-агентов через обучение с подкреплением.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.

ML Q & AI. Глава 8. Успех трансформеров

Schema Guided Reasoning: метод структурированного рассуждения AI

Долгая дорога к DiT (часть 1)

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Anthropic ограничивает доступ китайских компаний к услугам ИИ

Очеловечить компьютер: как развивалось машинное обучение в середине XX века

Интерпретация и оптимизация перцептрона Розенблатта

Tesla предлагает Илону Маску пакет вознаграждения на триллион долларов

Методы интерпретации на основе вмешательства в CV: RISE implementation

Стартап OpenPipe присоединился к CoreWeave

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

Машинное обучение.