nlp.

Какую LLM ставить в production для контента на русском? Протестировали 18 моделей — одна в 130× дешевле при 91% качества

Battle test на русском и английском: цена, качество и артефакты — открытый лидербордLLM-судья оценивает сам себя. Что могло пойти не так?127 баллов из 100. Не опечатка.

продолжить чтение

Оставлено в

Что не так с оценкой RAG-системи какое решение предлагает динамический бенчмарк DRAGOn

Привет, Хабр! В этот раз предлагаю разбор научной статьи DRAGOn: Designing RAG On Periodically Updated Corpus

продолжить чтение

Оставлено в

Agent Harness: одна LLM, разные результаты — в чем секрет?

Использование кодовых агентов (Codex, Cursor, Claude Code) стало обыденностью. Внутри разных AI-агентов могут использоваться одни и те же модели, но результаты будут сильно отличаться. Например, есть мнение, что Cursor лучше и быстрее справится с написанием качественного UI, Claude Code покажет себя лучше в проектировании архитектуры приложения, а WindSurf лучше остальных создаст прототип системы. Почему одна и та же модель в разных агентах дает разный результат? Давайте разбираться.

продолжить чтение

Оставлено в

«Сожжение за ересь» в цифровую эпоху: почему ИИ не новый римский папа, а просто очень большая Википедия

Дисклеймер для модераторов и читателей. Да, мы продолжаем тему на стыке веры и технологий. Нет, автор не планирует основывать новую техноцерковь или заменять Святого Духа GPU-кластером. Просто далеко не везде об этом можно поговорить, а техничный Хабр позволяет обсуждать столь сложные вещи. Хорошо, что мы живём не в XVI веке (хотя у нас и своих забот хватает), и за оценку новых технологических возможностей максимум грозит, что какая-то добрая душа из местных охранителей заботливо принесёт горящий уголёк в карму минусов. Как видно, и на такое можно реагировать без негатива, а скорее с долей юмора.

продолжить чтение

Оставлено в

В DeepPavlov добавят модули для борьбы с галлюцинациями и избыточным поиском

продолжить чтение

Оставлено в

Телефонный звонок → структурированный JSON: строим STT + LLM пайплайн на Python

Каждый день в российском бизнесе происходят миллионы телефонных звонков. Колл-центры, клиники, юридические конторы, отделы продаж — везде, где есть телефон, есть поток неструктурированных данных, который никто не обрабатывает. Менеджер повесил трубку, записал в CRM «клиент интересовался» — и 80% информации из разговора потерялось.Я потратил полгода на то, чтобы построить пайплайн, который берёт аудиозапись телефонного звонка и выдаёт структурированный JSON: кто звонил, чего хотел, какие суммы называл, что договорились делать дальше. В процессе набил достаточно шишек, чтобы написать эту статью.

продолжить чтение

Оставлено в

Заставляем голосовых ассистентов Марусю и Салют материться без принуждения и спецсредств

Всем привет! Не такую первую публикацию я планировал сделать на Хабр: есть пара более серьёзных и интересных тем, которыми я планирую поделиться, но перфекционизм пока не даёт их добить.А тут получилась спонтанная и короткая история из разряда «поигрался - проиграл задумался», которая неожиданно упёрлась в этику и безопасность.

продолжить чтение