MIT взломал «мозг» LLM: модели научились рассуждать как люди. ai.. ai. llm.. ai. llm. mit.. ai. llm. mit. Блог компании BotHub.. ai. llm. mit. Блог компании BotHub. Будущее здесь.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. llm. mit. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
MIT взломал «мозг» LLM: модели научились рассуждать как люди - 1

MIT представил исследование, которое может изменить наше понимание того, как обучаются большие языковые модели. Учёные доказали, что если правильно подать материал, то LLM способны к логическим рассуждениям, а не только к генерации текста по шаблону.

 Подход PDDL-INSTRUCT состоит из трех фаз: двух фаз обучения (начальной и обучения инструкциям с цепочкой рассуждений) и фазы оценки. Основное новшество заключается во второй фазе: обучении инструкциям с цепочкой рассуждений (выделено красной рамкой). Изначально настроенная большая языковая модель (LLM) дополнительно обучается с использованием структурированного процесса инструкций, который подчеркивает полные логические цепочки рассуждений.
Подход PDDL-INSTRUCT состоит из трех фаз: двух фаз обучения (начальной и обучения инструкциям с цепочкой рассуждений) и фазы оценки. Основное новшество заключается во второй фазе: обучении инструкциям с цепочкой рассуждений (выделено красной рамкой). Изначально настроенная большая языковая модель (LLM) дополнительно обучается с использованием структурированного процесса инструкций, который подчеркивает полные логические цепочки рассуждений.

Для этого они предложили новый метод обучения — PDDL-INSTRUCT. Его суть в том, что модель больше не угадывает правильный ответ, а учится пошагово решать задачи с внешней проверкой.

Как это работает:
 1) Сначала модели показывают правильные и неправильные планы действий с пояснениями.
 2) Затем она сама строит рассуждения шаг за шагом.
 3) Полученные рассуждения проверяет внешний инструмент (VAL), который указывает, где ошибка и почему. Таким образом, модель получает чёткую обратную связь, а не формальное «правильно/неправильно».

Результаты впечатляют. У Llama-3-8B точность выполнения задач планирования выросла с 28% до 94%. Такой скачок объясняется именно качеством обратной связи: модель не просто копирует паттерны, а учится логике, фактически осваивая роль символического планировщика.

Важно, что LLM в этой схеме не заменяет классические системы, а работает в тандеме с ними — сохраняя внешнюю проверку и при этом перенимая навыки пошагового мышления.

Главная интрига: если метод масштабировать, то можно раскрыть скрытые способности моделей в самых разных областях — от сложной математики и программирования до планирования процессов в бизнесе. Получается, что многие ограничения LLM связаны не с их природой, а с тем, как их обучают.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: cognitronn

Источник

Rambler's Top100