обучение с подкреплением.

Реализуем Q learning на Python

Обучение с подкреплением является (Reinforcement learning) одним из направлений ML. Суть этого метода заключается в том, что обучаемая система или агент учится принимать оптимальные решения через взаимодействие со средой. В отличие от других подходов, Reinforcement learning (RL) не требует заранее подготовленных данных с правильными ответами или явной структуры в них. 

продолжить чтение

Почему молчит умный счетчик? Побеждаем коллизии в сетях NB-IoT

IoT-сети проектировали для миллионов устройств, но они захлебываются уже от тысяч. Когда в нашем районе на секунду моргнул свет, 10 000 умных счетчиков одновременно потеряли связь и начали переподключаться. Три четверти так и не смогли выйти в эфир. Проблема в RACH — канале случайного доступа. При массовых подключениях он превращается в узкое горлышко, куда каждый пытается прорваться первым.

продолжить чтение

Qwen3-MT — Alibaba выпускает еще одну модель для машинного перевода

Это обновление основано на мощной модели Qwen3, использующей триллионы многоязычных токенов и токенов для перевода, что позволяет значительно улучшить многоязычное понимание и возможности перевода модели. Благодаря интеграции методов обучения с подкреплением модель значительно повышает точность перевода и беглость речи.

продолжить чтение

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов.   Мультиагентное обучение на основе мутаций, скрещивания и эволюции,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

продолжить чтение

Исследователи обучают ИИ генерировать длинные тексты, используя только метод обучения с подкреплением

Исследовательская группа из Сингапура и Китая представила LongWriter-Zero — модель искусственного интеллекта, которая использует обучение с подкреплением для написания текстов объёмом более 10 000 слов без использования синтетических обучающих данных.

продолжить чтение

Добро пожаловать в эру опыта: почему обучение с подкреплением изменит мир

Исследователи из Google DeepMind опубликовали интересную статью "Welcome to the Era of Experience"

продолжить чтение

Глубокое Q-обучение (DQN)

вкалывают роботы...Немного контекстаПодходит к завершению серия моих заметок про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP). Я последовательно разобрал некоторые классические решения TSP и далее рассказал

продолжить чтение

Вышла Llama 4 с контекстным окном в 10M токенов (в 50 раз больше конкурентов)

Meta представила новое поколение открытых моделей искусственного интеллекта — семейство Llama 4. Это первые нативно мультимодальные модели с открытыми весами, которые объединяют понимание изображений, видео и текста в единой архитектуре.P.S кратко написал об этом в Телеграм канале, ссылка на постКлючевые особенности новых моделей1. Llama 4 Scout

продолжить чтение

А не пора ли нам подкрепиться?

Краткое содержание предыдущих серийВ заметке про Pointer Network было много всего: нетривиальная архитектура кодировщика (энкодера) и декодера, механизм внимания, а также совсем немного про обучение с подкреплением. В общем, много-много всякого, нужного для охвата пазла целиком. Далее, в следующей заметке

продолжить чтение

Исследователи из Стэнфорда обучили ИИ играть в Among Us: их агенты выигрывают людей уже в 45% случаев

Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us, при этом не используя вообще никаких размеченных людьми данных. Вместо этого они применяли только обучение с подкреплением и несколько этапов файнтюнинга, в ходе которых агенты учились общаться, убеждать, лгать или предсказывать предателя (импостера).

продолжить чтение

12
Rambler's Top100