обучение с подкреплением.

Любопытство как операционная система

Как эволюция и инженеры строят сознаниеНесколько дней назад на Хабре вышла статья Андрея Вечернего «Концепция байесовского мозга, или Почему этот заголовок в моменте — ваша галлюцинация». https://habr.com/ru/companies/ru_mts/articles/1029856/

продолжить чтение

Знания без практики — мертвы | Разница между «декларативной» и «процедурной» памятью у LLM

Дисклеймер: Я думаю, что любой человек понимает и чувствует на кончиках пальцев разницу между «заучить» и «набить руку». Каждый это проживал много раз, каждый знает, как это происходит и почему именно так и никак иначе прививаются «навыки и экспертиза». В этой статье я попытаюсь:1) поднять вопрос о том, почему текущие подходы к обучению LLM заставляют модель «заучивать ответ»2) объясню со своей точки зрения, где и в каком виде я вижу разницу между «декларативной» и «процедурной» памятью у LLM3)

продолжить чтение

Нехватка CUDA-памяти при обучении с GRPO: как перестать гадать и начать считать

Недавно я собирал для заказчика модель обучения с подкреплением с использованием GRPO и

продолжить чтение

«Мозг в пробирке» и новая вычислительная парадигма: почему нейроморфные системы и биокомпьютеры уже не фантастика

Когда в медиа появилась

продолжить чтение

Математическое программирование vs RL: может ли ИИ догнать классику в оптимизации?

продолжить чтение

Ацетилхолин определяет роль дофамина

На протяжении десятилетий нейробиологи пытались объяснить, как один нейромедиатор, дофамин, может одновременно выполнять две совершенно разные задачи. С одной стороны, он подкрепляет обучение, основанное на вознаграждении. С другой – запускает физическую активность. Новое исследование проливает свет на переключатель функций дофамина.

продолжить чтение

Нам не подошла ни одна среда для MARL в непрерывном пространстве — поэтому мы сделали CAMAR

Представьте задачу: есть куча роботов, и им всем надо куда‑то добраться, не столкнувшись с собратьями, а мы должны придумать для этого алгоритм. Это, если упрощать, и называется многоагентным планированием или MAPF — Multi‑Agent Pathfinding. 

продолжить чтение

А если агенту не платить? Альтернативная механика обучения с подкреплением

продолжить чтение

От дашбордов к дофамину: как мозг измеряет эффективность поведения

"Симпсоны", сезон 12, серия 9 "HOMR" (2001) В предыдущих статьях мы разбирались, как измеряют эффективность в менеджменте и на производстве. Количество, скорость, стабильность, глубина. Разные эпохи, разные метрики.

продолжить чтение

Обучение ИИ в 2026 году: Как обучаются современные модели?

Доброго времени суток, «Хабр»!Вы когда-нибудь задумывались, что такое машинное обучение и как оно вообще учится? Чем это может отличаться от обычного программирования с его главным правилом: не трогай, пока работает? Где заканчивается простой код и где он переходит во что-то более мощное - в ИИ-модели, которые мы используем сегодня.Сегодня мы разберем основы ИИ - обучение моделей. Посмотрим какие способы обучения бывают, зачем их применяют и как они показывают, на что модель способна.Принимайте стратегически удобное положение, ну а я перехожу к своему повествованию.

продолжить чтение

123