Schema Guided Reasoning: метод структурированного рассуждения AI
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾ВведениеВ начале февраля 2025 года было опубликовано исследование Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System arXiv:2502.03450, которое представило SG² (Schema-Guided Scene-Graph Reasoning), обзор на этот фреймворк мы писали вот тут
Мои «университеты» и мои «наставники»
Какое-то время назад я опубликовал заметку https://habr.com/ru/articles/800659/ о своем личном опыте "вкатывания" в IT. Возвращаться к этой теме я не предполагал, считая, что она (для меня, по-крайней мере) исчерпана и сказать мне больше нечего, но вот завершающая фраза о преимуществах обучения под руководством наставникаХороший наставник не даст вам залезть в дебри или пойти не в ту сторону. С ним вы сэкономите массу драгоценного времени, а время — ресурс невосполнимый
Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇Архитектура системы и методологияSG² (Schema-Guided Scene-Graph Reasoning – рассуждения по графам сцены на основе схемы) представляет собой многоагентную структуру, которая устраняет фундаментальные ограничения больших языковых моделей при выполнении пространственных рассуждений на сложных графах сцены. Система работает по итеративной парадигме «Рассуждай-пока-извлекаешь», где специализированные агенты сотрудничают для решения задач, никогда не обрабатывая полный граф сцены напрямую.
Snapchat запустила инструмент для генерации изображений по промптам
В приложении Snapchat появится новый инструмент на базе искусственного интеллекта под названием Imagine Lens. Компания позиционирует его как «линзу для генерации изображений по промптам».
Долгая дорога к DiT (часть 1)
Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель
Microsoft готовится изменить цены на Copilot для бизнеса
Microsoft готовится привлечь больше клиентов Copilot, внедрив систему пакетных предложений. Это снизит стоимость использования ИИ-помощника.
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Генерация изображений: краткий обзор на PlayGround AI
Доброго времени суток, «Хабр»!Сегодня мы обсудим Playground AI — это многофункциональная онлайн-платформа, позволяющая создавать и свободно редактировать разнообразные изображения при помощи искусственного интеллекта. Сервис представляет собой уникальный инструмент для тех, кто хочет быстро и достаточно качественно получать различные изображения.
Anthropic ограничивает доступ китайских компаний к услугам ИИ
Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.

