nlp.

nlp.

Когда нейросети заменят живых продавцов? Тест 10 LLM на умение продавать для русского рынка

Собрал бенчмарк, который меряет не «кто умнее», а «кто лучше продаёт» по-русски: тестируемая модель — продавец, жёсткий клиент — Opus, судья — тоже Opus. Прогнал первую десятку на живом B2B-диалоге.Враньё ради сделки штрафуется жёстче, чем незакрытая сделка: −15…−30 к баллу. Qwen3-235B дважды выдумал клиентские кейсы с цифрами под торгом — и потерял сделку (52 из 100, клиент ушёл).Тест выдал сенсацию: DeepSeek и GLM «обошли» эталонный Gemini, MiniMax получил 96 из 100 и S-tier. Я не поверил: под более жёстким клиентом баллы не могут вырасти. Это дрейф параллельных судей.

продолжить чтение

RAG не только для вопросов и ответов: почему он естественно подходит для рекомендаций

Retrieval-Augmented Generation (RAG) чаще всего рассматривается в контексте вопросно-ответных систем и чат-ботов поверх базы знаний. Большинство публикаций и руководств по RAG посвящено схеме «вопрос – ответ с опорой на документы». Однако внутренняя механика RAG – семантический поиск в сочетании с генерацией ответа на основе найденного – хорошо ложится и на другую задачу, которую традиционно решают иными методами: на рекомендации.

продолжить чтение

DCD: доменно-ориентированная архитектура для построения RAG-систем

Привет! Это Роботы. Недавно мы выпустили статью на arXiv

продолжить чтение

Обрести свой голос: сложность выбора TTS-архитектуры для ИИ-агента

Продолжаю писать о разработке собственного TTS-сервиса, основанный на шишках, набитых в targetai. В первой статье я описал критерии оценки и методологию бенчмарка. В этой статье речь пойдет о том, как мы с командой применили эти критерии на практике.Дисклеймеры:

продолжить чтение

Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)

Взяли автоэнкодер из свежей работы CALM (Continuous Autoregressive Language Models), который учится упаковывать чанк из K=4 токенов в один непрерывный вектор и разворачивать обратно, и обучили его не на 15 миллиардах токенов Pile на 8 GPU, как в оригинале, а на 18 тысячах коротких строк с требованиями из IT-вакансий - на обычной машине без видеокарты. По дороге выгребли три классических грабли (flash-attn без CUDA, deepspeed, который не импортируется под NumPy 2.x, и тихий OOM на 33 ГБ логитов). Ниже - подробный разбор архитектуры, конфигов и честные результаты round-trip-реконструкции.💡 Зачем вообще что-то менять в языковых моделях

продолжить чтение

Как мы голос для ИИ-ассистента выбирали или критерии оценки TTS-движков

targetai специализируется на создании ИИ-ассистентов для клиентского сервиса. И голосовые агенты для нас — один из ключевых сценариев: телефония, входящие и исходящие звонки, сервисные диалоги. На определённом этапе мы с командой пришли к пониманию, что зависимость от вендорских TTS-сервисов — это риск: по стоимости, по контролю над качеством, по гибкости под конкретных клиентов. И тогда перед нами встал вопрос о собственном сервисе синтеза речи.Первый шаг, который оказался совсем не тривиальным — договориться между собой о том, что вообще считать «хорошим голосом» для ИИ-агента

продолжить чтение

Одна строка — много объектов: как агрегировать эмбеддинги для ML-моделей

КороткоИногда в задаче машинного обучения одна строка датасета соответствует не одному объекту, а целому набору связанных объектов.Например:день по акции -> много новостей пользователь -> много комментариев товар -> много фотографий клиент -> много обращений в поддержку сессия -> много событийКаждый такой объект можно представить эмбеддингом. Новость — текстовым эмбеддингом, картинку — визуальным эмбеддингом, событие — вектором признаков или embedding‑представлением.

продолжить чтение

Почему Word Error Rate (WER) недостаточно: Семантическая декомпозиция ошибок ASR

ОглавлениеВступлениеБизнес-ценность и определение проблемыКак измеряется качество распознавания речи?Недостатки индустриального стандартаКак мы измеряем точность моделей у себяЗадача 1: Получить корректный датасет и сделать результаты сопоставимымиЗадача 2: Понять, где именно ошибка и к какой категории она относитсяЗадача 3: Объединить ошибки и семантику

продолжить чтение

Эволюция ‘More Like This’

Во многих поисковых сценариях пользователь начинает не с пустой строки запроса, а с существующего результата.

продолжить чтение

Как мы боремся с галлюцинации AI Master: гибридный Guard на Embedding + LLM Extractor на примере AI-RPG «Стирая Грань»

Каждый, кто пробовал создавать текстовые RPG или симуляторы на базе LLM (будь то GPT-4, DeepSeek или локальная 70B), сталкивался с проблемой «Yes-And» проклятия. По своей природе современные языковые модели — это идеальные импровизаторы. Они обучены поддакивать пользователю и развивать его мысль.В контексте игры это превращается в легальные читы. Игрок пишет: «Я достаю из кармана дымовую шашку и кидаю в охрану» или «Вообще-то я полковник ФСБ, пропустите». Что делает классический AI GM? Он послушно кивает: «Охрана кашляет в дыму, вы проходите»

продолжить чтение

123456...1020...20