обучение с подкреплением.

От дашбордов к дофамину: как мозг измеряет эффективность поведения

"Симпсоны", сезон 12, серия 9 "HOMR" (2001) В предыдущих статьях мы разбирались, как измеряют эффективность в менеджменте и на производстве. Количество, скорость, стабильность, глубина. Разные эпохи, разные метрики.

продолжить чтение

Обучение ИИ в 2026 году: Как обучаются современные модели?

Доброго времени суток, «Хабр»!Вы когда-нибудь задумывались, что такое машинное обучение и как оно вообще учится? Чем это может отличаться от обычного программирования с его главным правилом: не трогай, пока работает? Где заканчивается простой код и где он переходит во что-то более мощное - в ИИ-модели, которые мы используем сегодня.Сегодня мы разберем основы ИИ - обучение моделей. Посмотрим какие способы обучения бывают, зачем их применяют и как они показывают, на что модель способна.Принимайте стратегически удобное положение, ну а я перехожу к своему повествованию.

продолжить чтение

Кубик Рубика как универсальная среда для исследования интеллекта

Кубик Рубика давно перестал быть просто головоломкой. Его используют как метафору сложных систем без очевидных решений – от политики и управления до социальных процессов и человеческого интеллекта. Уже более полувека этот простой на вид объект остается символом задачи, требующей анализа, терпения и системного мышления.Почти сразу после своего появления кубик Рубика привлек внимание пионеров ИИ. Уже в начале 1980-х математики и программисты увидели в нем идеальный формализованный дискретный мир: со строгими правилами и гигантским пространством поиска.

продолжить чтение

TSP трансформеры

Трансформеры — это больше, чем кажется на первый взглядВозможно кто-то догадался, что заголовок выше — это перевод первых строк темы из ламповых сюжетов мульсериала 80-х:The TransformersMore than meets the eye

продолжить чтение

Инженеры из Disney Research Hub рассказали, как создавали робоверсию снеговика Олафа из мультфильма «Холодное сердце»

Инженеры из Disney Research Hub показали процесс создания

продолжить чтение

Реализуем Q learning на Python

Обучение с подкреплением является (Reinforcement learning) одним из направлений ML. Суть этого метода заключается в том, что обучаемая система или агент учится принимать оптимальные решения через взаимодействие со средой. В отличие от других подходов, Reinforcement learning (RL) не требует заранее подготовленных данных с правильными ответами или явной структуры в них. 

продолжить чтение

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым.

продолжить чтение

Qwen3-MT — Alibaba выпускает еще одну модель для машинного перевода

Это обновление основано на мощной модели Qwen3, использующей триллионы многоязычных токенов и токенов для перевода, что позволяет значительно улучшить многоязычное понимание и возможности перевода модели. Благодаря интеграции методов обучения с подкреплением модель значительно повышает точность перевода и беглость речи.

продолжить чтение

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов.   Мультиагентное обучение на основе мутаций, скрещивания и эволюции,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

продолжить чтение

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.

продолжить чтение

12
Rambler's Top100