Perplexity раскрыла, как обучает поискового AI-агента на Qwen. ai.. ai. perplexity.. ai. perplexity. qwen.. ai. perplexity. qwen. Блог компании BotHub.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное.. ai. perplexity. qwen. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. машинное+обучение. научно-популярное. нейросети.
Perplexity раскрыла, как обучает поискового AI-агента на Qwen - 1

Команда Perplexity AI опубликовала техотчёт о создании своего поискового агента на базе моделей Qwen3.5.

Результаты выглядят неожиданно сильными:
модель Qwen3.5-397B после SFT и RL достигает 73,9% точности на FRAMES при стоимости около 2 центов за запрос.

Для сравнения:
• GPT-5.4 — 67,8% и ~8,5 цента
• Sonnet 4.6 — 62,4% и ~15,3 цента

То есть лучше и значительно дешевле.

Perplexity раскрыла, как обучает поискового AI-агента на Qwen - 2

Как это сделал?

Система обучения разделена на два этапа:
сначала SFT фиксирует «поведение» — формат ответа, следование инструкциям, корректные отказы
затем RL с GRPO дообучает именно поиск — точность и эффективность вызовов инструментов

Попытка объединить это в один этап ломает баланс: либо страдает качество поиска, либо продакшен-требования.

Perplexity раскрыла, как обучает поискового AI-агента на Qwen - 3

Данные для обучения:

Используются два типа данных:
• синтетические многошаговые вопросы с проверяемыми ответами
• диалоги, разбитые на чёткие критерии (формат, логика, структура)

Пропорция 90 к 10 в пользу проверяемых задач, чтобы модель училась именно находить правильный ответ, а не просто красиво отвечать.

Ключевая фишка — система наград

Reward устроен так, что «красивый» ответ не засчитывается, если он неправильный.
Сначала проверяется фактологическая корректность, и только потом учитывается стиль и качество формулировок.

Perplexity раскрыла, как обучает поискового AI-агента на Qwen - 4

Также добавлен штраф за неэффективность:
модель оптимизируется по числу вызовов инструментов и длине ответа относительно лучших решений внутри группы, а не по фиксированному лимиту.

Что это даёт?

Даже при одном вызове инструмента модель уже обгоняет конкурентов, а в диапазоне 2–7 вызовов (типичный продакшен) разрыв становится ещё больше.

Дополнительно Perplexity снижает стоимость за счёт оптимизаций инференса — кэширование, квантование и переиспользование вычислений.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: Spectrumm

Источник