reinforcement-learning. - страница 2

LLM на прокачку: практический гайд по Alignment

Мы в Точка Банке делаем свою LLM. Чтобы она работала хорошо, недостаточно просто обучить её на куче текстов. Для получения осмысленного и предсказуемого поведения модели, нужен Alignment — дообучение с учётом предпочтений и ограничений. В статье расскажу, какие методы применяют в современных моделях, и как мы адаптировали их под себя.

продолжить чтение

GSPO (Qwen RL Algorithm by Alibaba Cloud)

😎 Следуй за белым кроликом 💊📌 Telegram @TheWeeklyBrief — краткие обзоры и подкасты 📰🎧🐇📌 GitHub Pages — углублённый разбор статей, ныряем в кроличью нору 📝💻🐾СодержаниеВведениеПроблема существующих методовМетодология GSPOКлючевые алгоритмические различияРезультаты экспериментовПрактическое применение и преимущества для инфраструктурыЗначение и будущие последствия1. Введение

продолжить чтение

RL-агент для алгоритмической торговли на Binance Futures: архитектура, бэктест, результаты

продолжить чтение

«Скайнет» наоборот: как вырастить и обучить ИИ с помощью Дарвин-Гёдель машины для улучшения человеческой демографии

Разрабатываем и растим «цифрового губера» - консультанта по вопросам государственного политического управления, демографии и миграции. Решаем задачу оптимизации экономики и миграционной политики для устойчивого демографического роста в 89 регионах с помощью   взаимодействующих друг с другом и обменивающихся опытом ИИ-агентов.   Мультиагентное обучение на основе мутаций, скрещивания и эволюции,  Multi-Agent Deep Deterministic Policy Gradient и Darwin Gödel Machine.

продолжить чтение

Как мы обучили беспилотники в симуляции для гонок в смешанной реальности

продолжить чтение

Контекстные бандиты в ценообразовании

Всем привет! На связи команда аналитиков X5 Tech. Мы продолжаем исследовать подходы Reinforcement Learning для ценообразования. В этой статье мы рассмотрим применение контекстных многоруких бандитов на примере модельной задачи, опишем несколько реализаций и сравним их.В предыдущих двух статьях мы разбирали вопрос применения Reinforcement Learning (RL) в виде многоруких бандитов (multi-armed bandits) для поиска оптимальных цен в задаче ценоообразования. В первой статье сравнили популярные стратегии многоруких бандитов для поиска оптимальной цены на один товар. Во

продолжить чтение

12
Rambler's Top100