nlp.
Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка
Собрал бенчмарк, который меряет не «кто умнее», а «кто лучше продаёт» по-русски: тестируемая модель — продавец, жёсткий клиент — Opus, судья — тоже Opus. Прогнал первую десятку на живом B2B-диалоге.Враньё ради сделки штрафуется жёстче, чем незакрытая сделка: −15…−30 к баллу. Qwen3-235B дважды выдумал клиентские кейсы с цифрами под торгом — и потерял сделку (52 из 100, клиент ушёл).Тест выдал сенсацию: DeepSeek и GLM «обошли» эталонный Gemini, MiniMax получил 96 из 100 и S-tier. Я не поверил: под более жёстким клиентом баллы не могут вырасти. Это дрейф параллельных судей.
DCD: доменно-ориентированная архитектура для построения RAG-систем
Привет! Это Роботы. Недавно мы выпустили статью на arXiv
Обрести свой голос: сложность выбора TTS-архитектуры для ИИ-агента
Продолжаю писать о разработке собственного TTS-сервиса, основанный на шишках, набитых в targetai. В первой статье я описал критерии оценки и методологию бенчмарка. В этой статье речь пойдет о том, как мы с командой применили эти критерии на практике.Дисклеймеры:
Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)
Взяли автоэнкодер из свежей работы CALM (Continuous Autoregressive Language Models), который учится упаковывать чанк из K=4 токенов в один непрерывный вектор и разворачивать обратно, и обучили его не на 15 миллиардах токенов Pile на 8 GPU, как в оригинале, а на 18 тысячах коротких строк с требованиями из IT-вакансий - на обычной машине без видеокарты. По дороге выгребли три классических грабли (flash-attn без CUDA, deepspeed, который не импортируется под NumPy 2.x, и тихий OOM на 33 ГБ логитов). Ниже - подробный разбор архитектуры, конфигов и честные результаты round-trip-реконструкции.💡 Зачем вообще что-то менять в языковых моделях
Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков
targetai специализируется на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев: телефония, входящие и исходящие звонки, сервисные диалоги. На определённом этапе мы с командой пришли к пониманию, что зависимость от вендорских TTS-сервисов — это риск: по стоимости, по контролю над качеством, по гибкости под конкретных клиентов. И тогда перед нами встал вопрос о собственном сервисе синтеза речи.Первый шаг, который оказался совсем не тривиальным — договориться между собой о том, что вообще считать «хорошим голосом» для ИИ-агента
Почему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR
ОглавлениеВступлениеБизнес-ценность и определение проблемыКак измеряется качество распознавания речи?Недостатки индустриального стандартаКак мы измеряем точность моделей у себяЗадача 1: Получить корректный датасет и сделать результаты сопоставимымиЗадача 2: Понять, где именно ошибка и к какой категории она относитсяЗадача 3: Объединить ошибки и семантику
Эволюция ‘More Like This’
Во многих поисковых сценариях пользователь начинает не с пустой строки запроса, а с существующего результата.

