рассуждающие модели.

CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?

В 2025 году на NeurIPS — главной мировой конференции по ИИ — прошло соревнование CURE‑Bench, организованное исследователями из Гарварда и Массачусетского Технологического Института. Целью соревнования являлась масштабная проверка способностей агентов и рассуждающих моделей в области терапевтических рекомендаций. CURE‑Bench пытается ответить на вопрос, возможно ли уже сегодня построить качественного медицинского ассистента?Команда AIRI под названием VIM (Владимир Мануйлов (iMak AI Lab) и Илья Макаров (iMak AI Lab, AIRI)) заняла призовое место в треке Internal Model Reasoning. Подробнее о их решении — в данной статье.

продолжить чтение

Оставлено в

CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

VLA-модели объединяют визуальное восприятие, понимание естественного языка и выполнение физических действий. Обычно они применяются для манипуляций — например, чтобы робот взял предмет или повернул рычаг. Но управление роботом, особенно летающим, это не всегда изменение состояния — иногда это перемещение его в трехмерном пространстве. Добавление VLA-моделей в этот сегмент робототехники может дать устройствам способность мыслить и принимать решения в условиях слабой связи или полной автономности. Такой подход особенно важен для задач, где нет права на ошибку, например в спасательных миссиях.

продолжить чтение

Оставлено в

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

продолжить чтение

Оставлено в

CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов

продолжить чтение

Оставлено в

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

В последние несколько месяцев ведущие модели обновились с функцией «рассуждений» (reasoning). Предполагалось, что качество ответов улучшится. Но последующие тесты показали, что уровень галлюцинаций сильно вырос. И это не какая-то случайная недоработка разработчиков, а фундаментальное свойство. Сейчас становится очевидным, что от галлюцинаций мы не избавимся никогда.

продолжить чтение

Оставлено в

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

Всем привет! Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Искусственный интеллект — мой большой интерес, я активно изучаю его и пользуюсь им как в бизнесе, так и в персональной жизни. И сегодня я хочу рассказать о темной стороне ИИ, а именно — о ситуациях, когда нейросети вступают в конфронтацию с операторами, индексе риска ИИ, и в чем действительно заключается угроза со стороны условных «машин».

продолжить чтение

Оставлено в

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

OpenAI снова удивляет: новая модель ChatGPT o3 Pro обещает революцию в аналитике, науке и разработке. Но так ли она хороша? Читайте разбор архитектуры, тестов и подводных камней «самого вдумчивого ИИ» 2025 года.

продолжить чтение

Оставлено в

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Лаборатории AI, такие как OpenAI, утверждают, что их так называемые «рассуждающие» модели AI, которые могут «думать» о проблемах шаг за шагом, более способны, чем их нерассуждающие аналоги в определенных областях, таких как физика. Но хотя это, как правило, так и есть, модели рассуждений также намного дороже для бенчмаркинга, что затрудняет независимую проверку этих заявлений.

продолжить чтение

Оставлено в

Исследование: ИИ может жульничать при риске проигрыша

Исследователи Palisade Research продемонстрировали, что современные модели, в том числе o1-preview от OpenAI, чувствуя грядущее поражение в турнире против опытного шахматного бота, не готовы признать его и идут на хитрости. В частности, они могут взломать противника, чтобы бот автоматически проиграл.

продолжить чтение

Оставлено в

Anthropic готовит новую гибридную модель Claude, превосходящую o3-mini-high в кодинге

Как сообщает The Information, Anthropic планирует представить свою следующую крупную модель, которая сочетает традиционные языковые возможности с продвинутыми функциями логического анализа.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

рассуждающие модели.

CURE-Bench: готовы ли «рассуждающие» модели стать терапевтическими ассистентами?

CognitiveDrone: система на VLA с когнитивными способностями для управления летающим роботом в трехмерном пространстве

Гибридный Deepseek v3.1 обошёл модель R1 в тестах на рассуждение

CognitiveOS: операционная система с модульной архитектурой для интеграции LLM в роботов

«Тупой ИИ» с нами надолго. Почему в новых моделях больше галлюцинаций

Восстание машин 2025: я изучил реальные риски со стороны нейросетей

ChatGPT o3 Pro: новый флагман OpenAI или маркетинговый ход? Разбираемся

Рост популярности моделей рассуждений AI делает бенчмаркинг более дорогим

Исследование: ИИ может жульничать при риске проигрыша

Anthropic готовит новую гибридную модель Claude, превосходящую o3-mini-high в кодинге

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

рассуждающие модели.