функция награды.

Создаем собственные окружения в Reinforcement Learning

Привет, Хабр! Меня зовут Андрей Бирюков. Я — независимый эксперт в области ИТ и ИБ, преподаю в учебных центрах и пишу статьи и книги. Обучение с подкреплением (Reinforcement Learning) сейчас переживает ренессанс. Мы видим впечатляющие демонстрации успехов искусственного интеллекта: алгоритмы, обыгрывающие чемпионов в го и StarCraft, управляющие роботами‑гуманоидами и оптимизирующие дата‑центры. Но за этими успехами часто стоит жесткая привязка к конкретному окружению. Стоит немного изменить правила игры, и агент теряется.

продолжить чтение