Как мы заставили ИИ-агентов судиться и почему не зашла архитектура китайцев

В конце 2025 года исследователи из Университета Цинхуа выкатили препринт «Chinese Court Simulation with LLM‑Based Agent System». Они доказали то, о чем многие догадывались давно. Одиночный прогон промта в юридических задачах работает плохо.

Классический RAG-пайплайн формата «запрос пользователя > поиск по базе > генерация ответа» страдает от склонности к подтверждению. Нейросеть цепляется за первый найденный аргумент и начинает игнорировать факты ради сохранения логики своего ответа. У нее нет внешнего критика.

Китайские коллеги решили эту проблему через состязательную симуляцию (Adversarial Debate). Они стравили прокурора и адвоката на базе нейросетей. Итог оказался показательным. Количество галлюцинаций резко упало, так как выдуманные адвокатом факты тут же опровергались прокурором. В споре моделей родилась истина.

Мы в АйЮрист параллельно строили мультиагентную систему для российских арбитражных судов на базе нашей опенсорсной модели Ken1.0. Когда мы попытались переложить пару академических наработок на B2B, стало понятно, что в суровой реальности архитектура полностью рассыпается.

Ниже приведен разбор того, как устроена первая в России система судебных симуляций, в чем просчитались исследователи из Цинхуа и как мы заставили 10 агентов судиться так, чтобы корпоративные юристы получали реальную пользу.

Ошибка первая. Двухуровневая память и потеря контекста

В архитектуре SimCourt используется классический паттерн обхода лимита токенов: краткосрочная и долгосрочная память ^[1] через саммаризацию. После каждой стадии суда модель сжимает диалог в краткую выжимку и кладет в долгосрочную память. Для уголовного дела формата “Ударил ножом? Да. В тюрьму” это работает отлично.

Но мы делаем симулятор арбитража. На 50 круге первой симуляции заседания судья может поймать юриста на слове и заявить, что в начале заседания тот отрицал подписание акта, а сейчас ссылается на его пятый пункт.

Как эту проблему решили мы. Саммаризация неизбежно ведет к потере контекста. Мы полностью отказались от нее в пользу архитектуры постоянного добавления (Append-Only). Агенты получают весь транскрипт заседания от первой до последней буквы. Чтобы наша модель Ken1.0 не теряла факты в середине длинного контекста, мы жестко размечаем промт.

Можете справедливо спросить про стоимость вычислений при перегонке огромного контекста на каждом шаге :) Архитектура в некоторых наших тестах завязана на кеширование контекста. Неизменяемая часть кешируется в оперативной памяти сервера один раз. Чтобы складывалась юнит-экономика вынужденно посмотрели в сторону АП, так как там точно будут те, кому мы сможем сэкономить круглую сумму.

Ошибка вторая. Реактивность против скрытых мыслей

В китайском исследовании агенты просто реагируют друг на друга. В реальности юрист в суде думает одно, а говорит совершенно другое. Ему нужно найти слабую сторону оппонента, но не выдать свою собственную уязвимость))

Чтобы симуляция выдавала клиенту полезный дашборд с рисками, мы внедрили паттерн разделения управления состоянием на внутренний монолог и публичную речь.

Судья и другие агенты получают в свой контекст только поле public_speech. Поле vulnerability_scan уходит напрямую в защищенную базу.

Паттерн секретаря заседания как генератор ценности

В конце симуляции накапливается гигантский лог публичных выступлений и скрытых мыслей. Читать длинный лог чата корпоративным юристам некогда. Поэтому мы ввели скрытого системного агента. Мы назвали его Секретарем.

На выходе юрист получает не просто переписку ботов, а структурированную аналитику. Клиент видит стресс-тест позиции, прогнозный вердикт судьи с обоснованием по АПК РФ и готовую тактику ведения дела.

Инфраструктура. Зачем нам своя модель Ken1.0

Исследователи из Цинхуа тестировали систему на облачных нейросетях. Модели отличные, но при разработке корпоративного продукта возникает серьезный барьер. Арбитражный суд всегда связан с конфликтами, ответственностью, активами и банкротствами.

При тестах на шаблонных делах мы также попробовали API ведущих LLM. Облачные модели отказывались симулировать поведение ^[2] недобросовестного директора, помечая запросы как неэтичные или нарушающие правила платформы.

Поэтому для корпоративного сегмента вся логика ^[3] работает на нашей локальной open-source модели Ken1.0. Модель дообучена на 30 миллионах документов + в марте будет добавлено в RAG базу около 27-35млн дел (в том числе работа агентов будет опираться на анализ практики из базы)

Самое важное преимущество заключается в том, что система разворачивается on-premise в закрытом контуре заказчика без доступа к интернету. Службы безопасности банков и холдингов получают полный контроль над коммерческой тайной. В ближайшем будущем думаем о дообучении более крупных моделей 400B (надеемся найдутся заказчики с оборудованием)

Итог

Академические исследования доказали возможную работоспособность подобных систем в юриспруденции. Мы доказали, что эти концепты можно упаковать в коммерческий продукт, который решает задачи юристов до похода в зал суда.

Сейчас мы тестируем бету. В симуляции участвуют до 10 агентов, можно задать параметры каждому из них и вообще много чего настраивать по заданному делу.

Автор: KenKoiushov

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26000

URLs in this post:

[1] память: http://www.braintools.ru/article/4140

[2] поведение: http://www.braintools.ru/article/9372

[3] логика: http://www.braintools.ru/article/7640

[4] Источник: https://habr.com/ru/articles/1002112/?utm_campaign=1002112&utm_source=habrahabr&utm_medium=rss

Нажмите здесь для печати.