Машинное обучение. - страница 13

CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?

В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента?Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning. Подробнее о их решении — в данной статье.

продолжить чтение

Команда In2AI — победитель MindGames Arena на NeurIPS 2025

Соревнование MindGames Arena проводится как часть одной из ключевых конференций в области ИИ NeurIPS 2025 и проверяет, могут ли агенты демонстрировать социально‑стратегические способности — моделировать убеждения других, обнаруживать обман, координироваться и планировать в многоходовых взаимодействиях — все это, общаясь на естественном языке. Команда In2AI Института AIRI, стартапа Coframe и Университета Иннополис заняла первое место в треке Generalization в двух категориях:Efficient: модели с открытым исходным кодом до 8 миллиардов параметров.

продолжить чтение

CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве. Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях. 

продолжить чтение

Хотите, чтобы ваш текст выглядел живым? Перестаньте делать эти 5 вещей, которые выдают ChatGPT

продолжить чтение

Google достигнет AdGI уже в 2026 году: компания интегрирует рекламу в Gemini

До Artificial General Intelligence индустрии еще далеко, а вот Ad General Intelligence — рекламный общий интеллект — может стать реальностью уже в 2026 году. По данным

продолжить чтение

Могут ли нейросети понять самих себя?

Большие языковые модели остаются загадкой даже для собственных создателей. Исследователи постепенно раскрывают отдельные механизмы: модели используют специфические паттерны активации для различения знакомых и незнакомых людей, оценки правдивости утверждений, кодирования пространственно-временных координат. Но знают ли сами модели об этих внутренних представлениях? Способны ли они описать собственный мыслительный процесс?

продолжить чтение

Представитель «Яндекса» объяснил галлюцинации в ответах ИИ-ассистента «Алисы»

Руководитель бизнес‑группы поисковых сервисов и искусственного интеллекта «Яндекса» Дмитрий Масюк рассказал РБК, что многие галлюцинации в ответах ИИ‑ассистента «Алисы» устраняются, но полностью их избежать не получится.Основные моменты из пояснения Масюка:проблемы с неточными ответами и «выдумками» нейросетей существуют, но каждый год они кратно сокращаются;стопроцентного отсутствия таких галлюцинаций не получится добиться никогда;

продолжить чтение

Как я с DeepSeek писал информационную систему (электронный журнал) для образовательного центра за пару дней

Данная статья не инструкция к действию, а просто моя история из жизни. В прошлых материалах я упоминал, что работаю преподавателем в центре для одарённых школьников.Центров этих в районе десятка по стране. И до этого года все они работали на базе общей информационной системы.❯ Что было в этой системеНа самом деле система не очень сложная. По сути электронный журнал с дополнительными фишками. Был личный кабинет для админа, преподавателя и обучающихся. Список учебных программ и мониторинг успеваемости. Написана она была на django, но что было под капотом я не знаю, т.к. доступа у меня не было.

продолжить чтение

Гибридный подход к контексту: как сделать LLM-агентов быстрее и дешевле

Команда AI for Devs подготовила перевод статьи о том, как AI-агенты на базе LLM тратят лишние деньги из-за разрастающегося контекста и как простое маскирование наблюдений нередко работает лучше сложного LLM-суммирования. Авторы предлагают гибридный метод, который делает агентов дешевле и надёжнее без дообучения модели.

продолжить чтение

GigaMemory на AI Journey Contest 2025: итоги

Приветствуем всех! С вами снова ML-команда RnD для B2C SberAI. Этой осенью в рамках AI Journey Contest 2025 мы представили задачу GigaMemory: global memory for LLM. Её цель — создание автономного модуля долговременной памяти для языковых моделей, способного накапливать и использовать знания о конкретном пользователе, по сути наделяя ИИ способностью «помнить» своего собеседника.Пришло время объявить результаты! Но для начала — кратко напомним детали соревнования.

продолжить чтение

Rambler's Top100