- BrainTools - https://www.braintools.ru -
В конце 2025 года исследователи из Университета Цинхуа выкатили препринт «Chinese Court Simulation with LLM‑Based Agent System». Они доказали то, о чем многие догадывались давно. Одиночный прогон промта в юридических задачах работает плохо.
Классический RAG-пайплайн формата «запрос пользователя > поиск по базе > генерация ответа» страдает от склонности к подтверждению. Нейросеть цепляется за первый найденный аргумент и начинает игнорировать факты ради сохранения логики своего ответа. У нее нет внешнего критика.
Китайские коллеги решили эту проблему через состязательную симуляцию (Adversarial Debate). Они стравили прокурора и адвоката на базе нейросетей. Итог оказался показательным. Количество галлюцинаций резко упало, так как выдуманные адвокатом факты тут же опровергались прокурором. В споре моделей родилась истина.
Мы в АйЮрист параллельно строили мультиагентную систему для российских арбитражных судов на базе нашей опенсорсной модели Ken1.0. Когда мы попытались переложить пару академических наработок на B2B, стало понятно, что в суровой реальности архитектура полностью рассыпается.
Ниже приведен разбор того, как устроена первая в России система судебных симуляций, в чем просчитались исследователи из Цинхуа и как мы заставили 10 агентов судиться так, чтобы корпоративные юристы получали реальную пользу.
В архитектуре SimCourt используется классический паттерн обхода лимита токенов: краткосрочная и долгосрочная память [1] через саммаризацию. После каждой стадии суда модель сжимает диалог в краткую выжимку и кладет в долгосрочную память. Для уголовного дела формата “Ударил ножом? Да. В тюрьму” это работает отлично.
Но мы делаем симулятор арбитража. На 50 круге первой симуляции заседания судья может поймать юриста на слове и заявить, что в начале заседания тот отрицал подписание акта, а сейчас ссылается на его пятый пункт.
Как эту проблему решили мы. Саммаризация неизбежно ведет к потере контекста. Мы полностью отказались от нее в пользу архитектуры постоянного добавления (Append-Only). Агенты получают весь транскрипт заседания от первой до последней буквы. Чтобы наша модель Ken1.0 не теряла факты в середине длинного контекста, мы жестко размечаем промт.
Можете справедливо спросить про стоимость вычислений при перегонке огромного контекста на каждом шаге :) Архитектура в некоторых наших тестах завязана на кеширование контекста. Неизменяемая часть кешируется в оперативной памяти сервера один раз. Чтобы складывалась юнит-экономика вынужденно посмотрели в сторону АП, так как там точно будут те, кому мы сможем сэкономить круглую сумму.
В китайском исследовании агенты просто реагируют друг на друга. В реальности юрист в суде думает одно, а говорит совершенно другое. Ему нужно найти слабую сторону оппонента, но не выдать свою собственную уязвимость))
Чтобы симуляция выдавала клиенту полезный дашборд с рисками, мы внедрили паттерн разделения управления состоянием на внутренний монолог и публичную речь.
Судья и другие агенты получают в свой контекст только поле public_speech. Поле vulnerability_scan уходит напрямую в защищенную базу.
В конце симуляции накапливается гигантский лог публичных выступлений и скрытых мыслей. Читать длинный лог чата корпоративным юристам некогда. Поэтому мы ввели скрытого системного агента. Мы назвали его Секретарем.
На выходе юрист получает не просто переписку ботов, а структурированную аналитику. Клиент видит стресс-тест позиции, прогнозный вердикт судьи с обоснованием по АПК РФ и готовую тактику ведения дела.
Исследователи из Цинхуа тестировали систему на облачных нейросетях. Модели отличные, но при разработке корпоративного продукта возникает серьезный барьер. Арбитражный суд всегда связан с конфликтами, ответственностью, активами и банкротствами.
При тестах на шаблонных делах мы также попробовали API ведущих LLM. Облачные модели отказывались симулировать поведение [2] недобросовестного директора, помечая запросы как неэтичные или нарушающие правила платформы.
Поэтому для корпоративного сегмента вся логика [3] работает на нашей локальной open-source модели Ken1.0. Модель дообучена на 30 миллионах документов + в марте будет добавлено в RAG базу около 27-35млн дел (в том числе работа агентов будет опираться на анализ практики из базы)
Самое важное преимущество заключается в том, что система разворачивается on-premise в закрытом контуре заказчика без доступа к интернету. Службы безопасности банков и холдингов получают полный контроль над коммерческой тайной. В ближайшем будущем думаем о дообучении более крупных моделей 400B (надеемся найдутся заказчики с оборудованием)
Академические исследования доказали возможную работоспособность подобных систем в юриспруденции. Мы доказали, что эти концепты можно упаковать в коммерческий продукт, который решает задачи юристов до похода в зал суда.
Сейчас мы тестируем бету. В симуляции участвуют до 10 агентов, можно задать параметры каждому из них и вообще много чего настраивать по заданному делу.
Автор: KenKoiushov
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/26000
URLs in this post:
[1] память: http://www.braintools.ru/article/4140
[2] поведение: http://www.braintools.ru/article/9372
[3] логика: http://www.braintools.ru/article/7640
[4] Источник: https://habr.com/ru/articles/1002112/?utm_campaign=1002112&utm_source=habrahabr&utm_medium=rss
Нажмите здесь для печати.