Машинное обучение. - страница 225

«Яндекс» представил программу конференции Practical ML Conf 2025

Компания «Яндекс» представила

продолжить чтение

Какое в Китае есть ИИ-железо. Насколько эти чипы мощные в сравнении с моделями Nvidia – AMD

Статья - частичный перевод поста на Rest Of World: China’s chip startups are racing to replace Nvidia и собственного дополнения (характеристики и сравнения с ближайшими аналогами от Nvidia). Для сбора информации о железе использовался в том числе Perplexity Deep Research. После введения экспортного контроля США за чипами ИИ, китайские инвесторы присматриваются к локальным стартапам-производителям ИИ-чипов. А те на инвестициях переманивают экс-сотрудников Nvidia.

продолжить чтение

Anthropic выплатит авторам $1,5 млрд в рамках мирового соглашения по делу об ИИ

Компания Anthropic достигла соглашения о выплате авторам «как минимум» $1,5 млрд и процентов в качестве компенсации по делу об использовании их работ для обучения систем ИИ. 

продолжить чтение

В 4 раза быстрее, в 10 раз больше уязвимостей: Apiiro оценила эффекты помощников для написания кода

Десятикратный прирост числа обнаруженных уязвимостей. ApiiroИзраильская Apiiro

продолжить чтение

ИИ как соавтор: как агенты меняют науку прямо сейчас

Зачем вообще говорить об агентной науке

продолжить чтение

ML Q & AI. Глава 8. Успех трансформеров

← Предыдущая глава | В чём секрет успеха трансформеров?В последние годы трансформеры стали самой успешной архитектурой нейронных сетей, особенно в задачах обработки естественного языка. Теперь они близки к тому, чтобы стать SOTA для задач компьютерного зрения тоже. Успех трансформеров обусловлен несколькими ключевыми факторами: их механизм внимания, возможность легкой параллелизации, предварительное обучение без учителя и большое количество параметров.Механизм внимания

продолжить чтение

Schema Guided Reasoning: метод структурированного рассуждения AI

😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾ВведениеВ начале февраля 2025 года было опубликовано исследование Schema-Guided Scene-Graph Reasoning based on Multi-Agent Large Language Model System arXiv:2502.03450, которое представило SG² (Schema-Guided Scene-Graph Reasoning), обзор на этот фреймворк мы писали вот тут

продолжить чтение

Долгая дорога к DiT (часть 1)

Это лето обрадовало нас прорывом в обработке изображений с помощью нейросетей. Одна за другой выходят такие модели как Flux.1 Kontext, Qwen-Image-Edit, Gemini 2.4 Flash Image Preview (Nano Banana) демонстрируя недостижимый до сих пор уровень манипуляции цифровым контентом. Это не замена Фотошопу, а технология, открывающая врата в бесконечные визуальные миры и всё благодаря мощи Diffusion Transformer (DiT) архитектуры. Впечатлившись, я решил поближе познакомиться с диффузными трансформерами - собственноручно натренировать свою собственную DiT-модель. Об этом и будет эта статья.Но начать стоит с малого.Базовая модель

продолжить чтение

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce

продолжить чтение

Anthropic ограничивает доступ китайских компаний к услугам ИИ

Anthropic заблокирует свои услуги для китайских компаний, чтобы предотвратить опасности, связанные с развитием искусственного интеллекта и созданием угрозы национальной безопасности США.

продолжить чтение

Rambler's Top100