Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇Архитектура системы и методологияSG² (Schema-Guided Scene-Graph Reasoning – рассуждения по графам сцены на основе схемы) представляет собой многоагентную структуру, которая устраняет фундаментальные ограничения больших языковых моделей при выполнении пространственных рассуждений на сложных графах сцены. Система работает по итеративной парадигме «Рассуждай-пока-извлекаешь», где специализированные агенты сотрудничают для решения задач, никогда не обрабатывая полный граф сцены напрямую.
Snapchat запустила инструмент для генерации изображений по промптам
В приложении Snapchat появится новый инструмент на базе искусственного интеллекта под названием Imagine Lens. Компания позиционирует его как «линзу для генерации изображений по промптам».
Долгая дорога к DiT (часть 1)
Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель
Microsoft готовится изменить цены на Copilot для бизнеса
Microsoft готовится привлечь больше клиентов Copilot, внедрив систему пакетных предложений. Это снизит стоимость использования ИИ-помощника.
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Генерация изображений: краткий обзор на PlayGround AI
Доброго времени суток, «Хабр»!Сегодня мы обсудим Playground AI — это многофункциональная онлайн-платформа, позволяющая создавать и свободно редактировать разнообразные изображения при помощи искусственного интеллекта. Сервис представляет собой уникальный инструмент для тех, кто хочет быстро и достаточно качественно получать различные изображения.
Anthropic ограничивает доступ китайских компаний к услугам ИИ
Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.
Нужно ли учитывать ментальные особенности, делая инклюзивный дизайн
В России с депрессией живёт больше людей, чем с нарушениями зрения и слуха вместе взятых. Но интерфейсы до сих пор инклюзивны только для глаз и ушей.Ментальные особенности влияют на то, как мы воспринимаем информацию, доверяем окружающему миру и взаимодействуем с цифровыми интерфейсами. То, что может показаться нормальным для одного человека, может быть сложным или болезненным для другого.
Волки стали гейткиперами?
Времена, когда лидер сообщества плотно работал в IT, разбирался с проблемами айтишников позади. Реальность меняется, а его советы не особо, так что они уже не радуют.Сухие факты, почему на рынке есть новые проблемы (что-то с причинно-следственными связями, но не суть) (попыталась сохранить хронологический порядок):уход зарубежных компаний,экономический кризис,влияние существования волков на HR-сферу,инфляция опыта,ИИ всех заменит,изменения в налогообложении компаний,уменьшение числа вакансий,зарплаты становятся меньше,новая волна сокращений,
