Машинное обучение. - страница 167

ML Q & AI. Глава 8. Успех трансформеров

← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.Механизм внимания

продолжить чтение

Schema Guided Reasoning: метод структурированного рассуждения AI

😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾ВведениеВ начале февраля 2025 года было опубликовано исследование Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System arXiv:2502.03450, которое представило SG² (Schema-Guided Scene-Graph Reasoning), обзор на этот фреймворк мы писали вот тут

продолжить чтение

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель

продолжить чтение

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce

продолжить чтение

Anthropic ограничивает доступ китайских компаний к услугам ИИ

Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.

продолжить чтение

Очеловечить компьютер: как развивалось машинное обучение в середине XX века

Согласно хрестоматийной хронологии машинного обучения, в 1952 году, то есть спустя год после того, как Минский и Эдмондс собрали и испытали

продолжить чтение

Интерпретация и оптимизация перцептрона Розенблатта

В прошлой статье на хабре "На дворе LLM, а книгу о перцептроне так никто и не открыл!?

продолжить чтение

Tesla предлагает Илону Маску пакет вознаграждения на триллион долларов

продолжить чтение

Методы интерпретации на основе вмешательства в CV: RISE implementation

Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб. ВведениеМетоды интерпретации на основе вмешательства основаны на идее ответа на вопрос: на вопрос:

продолжить чтение

Стартап OpenPipe присоединился к CoreWeave

Облачный провайдер CoreWeave объявил о покупке стартапа OpenPipe. Этот проект известен своим open-source инструментом ART (Agent Reinforcement Trainer), который помогает разработчикам создавать кастомных AI-агентов через обучение с подкреплением.

продолжить чтение

Rambler's Top100