Добавил Claude к YandexGPT в анализатор договоров — нашёл в 2.5 раза больше рисков
Почему одной LLM недостаточно, как двухслойная валидация ловит ошибки модели, и сколько бизнес экономит на проверке договоров.Что было в первой версииПару недель назад я рассказывал, как построил модульную систему промптов для YandexGPT. 32 тематических промпта, детекторы паттернов, калибровка по рынку. Система работала, находила риски, но вылезли проблемы:Ложные срабатывания — LLM иногда «видела» асимметрию там, где её не былоПропуски — некоторые паттерны (типа «1% в день за невывоз») проскакивали мимоНет второго мнения
Я сделал AI-анализатор договоров и проверил его на 5 кейсах, где люди потеряли 1,6 млн
Как я построил модульную систему промптов для YandexGPT, почему GPT из коробки галлюцинирует на юридических документах, и что из этого получилось.ПредысторияГод назад я чуть не потерял 200 тысяч на аренде офиса. Договор выглядел стандартно, но в п. 5.3 мелким шрифтом было написано: «Депозит не возвращается при расторжении по инициативе Арендатора». Заметил случайно, когда перечитывал в третий раз.После этого я стал параноиком: читал каждую запятую, гуглил каждый пункт. А потом подумал — почему бы не автоматизировать эту паранойю?Проблема: GPT из коробки не работает
Укрощаем зоопарк API: универсальный Python-клиент для GigaChat, YandexGPT и локальных моделей (v0.5.0)
Привет, Хабр! 👋Если вы пробовали внедрять российские LLM в свои проекты, то наверняка сталкивались с "зоопарком" API. У GigaChat — OAuth2 и свои эндпоинты, у YandexGPT — IAM-токены и gRPC/REST, у локальных моделей через Ollama — третий формат.В какой-то момент мне надоело писать бесконечные if provider == 'gigachat': ... elif provider == 'yandex': ..., и я решил создать универсальный слой абстракции.Так появился Multi-LLM Orchestrator — open-source библиотека, которая позволяет работать с разными LLM через единый интерфейс, поддерживает умный роутинг и автоматический fallback (переключение на другую модель при ошибке).
Протестировал 8 брендов LLM на честность, логику и креатив. Claude победил, но Алиса неожиданно в топ-3
Бенчмарки LLM множатся как грибы после дождя, но обычному пользователю от них мало толку. Оценки программирования, математики, этики — всё это важно для разработчиков, но что, если вы просто хотите получить помощь в повседневных задачах?Я решил проверить популярные модели на том, что действительно важно:- Креативность без потери здравого смысла - Логика без галлюцинаций - Внимание к деталям без педантизма Все промпты — в статье. Можете повторить и проверить мои выводы.
Как мы искали лучшие способы классификации
Всем привет!В предыдущих статьях мы уже рассказывали о том, какими метриками можно пользоваться для оценки ответов AI-продуктов.В большом количестве метрик для решения такой задачи предварительно надо оценить, к какой категории относится тот или иной ответ.В этой статье мы преследовали две цели:На примере показать, как применяются такие метрики и как с помощью них можно оценить качество работы модели.
ReVu — Open Source AI-ревьюер для ваших Pull Request
Всем привет!Недавно мы с приятелем обсуждали, как устроены рабочие процессы в бигтех-компаниях и какую роль в них уже играет ИИ. Речь в основном шла о зарубежных компаниях — у него там есть знакомые, которые делились опытом изнутри. Один из самых любопытных моментов — использование искусственного интеллекта для предварительного код-ревью в Pull Request: прежде чем коллеги возьмутся проверять изменения, PR уже анализирует ИИ и указывает на потенциальные проблемы.
Как ContentCapture и LLM автоматизируют обработку судебных приказов, определений и постановлений ФССП
Ранее мы уже делились опытом использования LLM для обработки юридических документов и доверенностей. Сегодня расскажем о другом подходе, который применил наш технологический партнер ООО «ЕСМ-Консалтинг». При реализации нескольких показательных кейсов для крупных российских энергосбытовых компаний мы автоматизировали в них обработку судебных документов с помощью платформы ContentCapture и больших языковых моделей (LLM).

