«Яндекс» представил программу конференции Practical ML Conf 2025
Компания «Яндекс» представила
Какое в Китае есть ИИ-железо. Насколько эти чипы мощные в сравнении с моделями Nvidia – AMD
Статья - частичный перевод поста на Rest Of World: China’s chip startups are racing to replace Nvidia и собственного дополнения (характеристики и сравнения с ближайшими аналогами от Nvidia). Для сбора информации о железе использовался в том числе Perplexity Deep Research. После введения экспортного контроля США за чипами ИИ, китайские инвесторы присматриваются к локальным стартапам-производителям ИИ-чипов. А те на инвестициях переманивают экс-сотрудников Nvidia.
Anthropic выплатит авторам $1,5 млрд в рамках мирового соглашения по делу об ИИ
Компания Anthropic достигла соглашения о выплате авторам «как минимум» $1,5 млрд и процентов в качестве компенсации по делу об использовании их работ для обучения систем ИИ.
В 4 раза быстрее, в 10 раз больше уязвимостей: Apiiro оценила эффекты помощников для написания кода
Десятикратный прирост числа обнаруженных уязвимостей. ApiiroИзраильская Apiiro
ИИ как соавтор: как агенты меняют науку прямо сейчас
Зачем вообще говорить об агентной науке
ML Q & AI. Глава 8. Успех трансформеров
← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.Механизм внимания
Schema Guided Reasoning: метод структурированного рассуждения AI
😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾ВведениеВ начале февраля 2025 года было опубликовано исследование Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System arXiv:2502.03450, которое представило SG² (Schema-Guided Scene-Graph Reasoning), обзор на этот фреймворк мы писали вот тут
Долгая дорога к DiT (часть 1)
Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Anthropic ограничивает доступ китайских компаний к услугам ИИ
Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.

