- BrainTools - https://www.braintools.ru -

Как мы научили ИИ за 3 минуты делать работу патентного поверенного: путь от «обертки» до победы в «ОСНОВА-2026»

Как мы научили ИИ за 3 минуты делать работу патентного поверенного: путь от «обертки» до победы в «ОСНОВА-2026» - 1

Меня зовут Кирилл, я партнер брендингового агентства «Бунов+Устинов». Пока индустрия спорит, заменит ли ИИ кожаных мешков, мы с архитектором проекта Сергеем Либединским решили проверить это на самой «душной», долгой и дорогой части нейминга – юридическом скрининге товарных знаков.

Это история о том, как превратить галлюцинирующую LLM в строгий экспертный инструмент, пережить «догфудинг» собственной нейронкой и получить награду «ОСНОВА-2026» за автоматизацию процессов в брендинге.

Боль: 3 дня ожидания или риск на миллионы

Если вы когда-нибудь придумывали название для компании или продукта, вы знаете этот цикл боли [1]. Креатор выдает 20–50 гениальных вариантов, команда выбирает шорт-лист, а затем несет его патентному поверенному.

Здесь вскрывается классическая проблема: время и деньги. Ручной скрининг занимает 2–3 рабочих дня. В деньгах проверка пачки названий может стоить 15 000 – 30 000 рублей. Если все варианты отваливаются (что бывает часто), итерация повторяется, а темп работы креативной команды умирает.

Казалось бы, на дворе эра ИИ – закинь варианты в ChatGPT! Но попытки использовать LLM «в лоб» провалились сразу по двум критическим причинам:

  1. Галлюцинации. На запрос: «Проверь название “Кипрей” для ЖК» любая модель выдает уверенную и складную чушь: «Название свободно, прямых конфликтов нет, рекомендуется к регистрации». А в реальности в реестре ФИПС под 36 классом МКТУ (недвижимость) уже лежит свежая заявка с точно таким же фонетическим сходством. Модель об этом не знает, так как её база не обновляется в реальном времени.

  2. Конфиденциальность (Blind spot большинства AI-стартапов). Сливать строго конфиденциальные, еще не анонсированные имена продуктов в публичные чаты типа ChatGPT – прямой путь к утечкам. Для энтерпрайза это абсолютное табу.

Мы поняли: просто «промпт в чат» – это билет в суд. Нужна своя система, которая работает через API с zero-data-retention политиками (без обучения [2] на данных пользователей) и не угадывает факты, а сверяет их.

Архитектура: Разделяй и властвуй

Чтобы победить галлюцинации, мы создали xyma.ru [3]. Главный принцип работы: детерминированная часть – на классике, нечеткая – на ИИ.

Как мы научили ИИ за 3 минуты делать работу патентного поверенного: путь от «обертки» до победы в «ОСНОВА-2026» - 2

Наш стек: бэкенд на Java (нам нужен был надежный асинхрон для работы с тяжелыми API), а ИИ-ядро спроектировано как модельно-независимое. Мы не привязаны ни к OpenAI, ни к Anthropic, ни к Яндексу. Под капотом стоит роутер, раздающий задачи: одна модель лучше/дешевле делает summary, другая лучше классифицирует юридические тексты.

Самое важное звено пайплайна – прямые запросы к актуальным реестрам, особенно к свежим заявкам за последние 30 дней. Это та самая «слепая зона», на которой горят даже опытные юристы: знак еще нигде не светится, но уже подан и потенциально блокирует вас.

Борьба со сходством: от Левенштейна до эмбеддингов

Главный вызов при скрининге – поиск сходства «до степени смешения».

Здесь мы запускаем двухступенчатый фильтр. Сначала классические строковые алгоритмы (расстояние Левенштейна, совпадение префиксов/суффиксов, индекс Jaro-Winkler) отсекают очевидный мусор и находят графические совпадения.

Но дальше начинается боль – фонетика и семантика. Как понять, что кириллическое «Хума», латинское «Xyma» и даже «Ксима» – это конфликт [4]? Для классических алгоритмов это разные строки. Для эксперта Роспатента – одно и то же.

Мы внедрили метод эмбеддингов, переводя названия из реестров в векторное пространство для поиска пересечений по смыслу и звучанию.

Псевдокод упрощенной ветки в Java выглядит примерно так:

// 1. Получаем кандидатов (узкий пул по МКТУ)
List<Trademark> candidates = rospatentClient.search(classes, brand);
List<Trademark> risks = new ArrayList<>();

// 2. Считаем разные типы сходства
for (Trademark tm : candidates) {
    double phon = cosine(phoneticEmbed(brand), phoneticEmbed(tm.name));
    double sem  = cosine(semanticEmbed(brand), semanticEmbed(tm.name));
    double graph = graphicDistance(brand, tm.name); // Левенштейн + Jaro-Winkler

    if (phon > 0.82 || sem > 0.85 || graph > 0.78) {
        risks.add(tm);
    }
}

// 3. Отдаем в LLM сырые факты для анализа по 1483 ГК РФ
String verdict = legalLLM.classify(brand, risks, GK_RF_1483_RULES);

Как мы ограничиваем LLM: промпт-инжиниринг и логика

Чтобы машина не фантазировала, мы запретили ей принимать решения «на глазок». Мы передаем ей жесткую формулу скоринга рисков. Модель получает сырые найденные факты и обязана вернуть не эссе, а строгий JSON, который программно валидируется:

{
  "risk_level": "medium",
  "protectability": {
    "score": 0.62,
    "issues": ["possible descriptiveness"]
  },
  "conflicts": [
    {
      "source": "Rospatent",
      "mark": "NEBULA",
      "risk": "high",
      "reason": "В базе выявлены действующие компании с идентичным названием, что может создать риски претензий по фирменному наименованию."
    }
  ]
}

Что видит пользователь

Вместо унылых юридических выписок и 3 дней ожидания, система за 3 минуты генерирует PDF-отчет, состоящий из 4 ключевых блоков:

  1. Защищаемость (описательность, различительная способность, соответствие нормам морали).

  2. Конфликты (найденные риски по базам Роспатента/WIPO/ЕГРЮЛ по нужным классам).

  3. Домены (свободны ли .ru.com.tech и т.д.).

  4. SEO и Wordstat (забит ли поиск одноименными конкурентами).

Защищаемость и Конфликты

Защищаемость и Конфликты
Домены и SEO

Домены и SEO
Самари по анализу

Самари по анализу

Догфудинг: проверяем сами себя

Имя нашего сервиса мы проверяли через собственный, тогда еще безымянный пайплайн. Для нас семантика имени была важна: xyma = птица счастья Хума из мифологии + human (человек) + ум.

Это был стресс-тест в чистом виде: короткое название на латинице, с кучей вариантов прочтения. Если бы система нашла критический конфликт в ЕГРЮЛ или свежих заявках, пришлось бы переделывать всё – от логотипа до доменов. Но xyma прошла проверку (что потом подтвердил и живой поверенный). Это было лучшее доказательство жизнеспособности продукта.

Честные факапы и “где машина проигрывает человеку”

Чтобы не выглядеть инфоцыганами, поделюсь нашими проблемами:

  1. Стоимость инференса. Гонять несколько тяжелых LLM и считать эмбеддинги на каждый запрос – это дорого. В API-токенах один глубокий репорт обходится нам в сумму, которая на порядки больше обычного чат-запроса (хотя всё равно в 100 раз дешевле 15 000 рублей за поверенного).

  2. Государственные API. Реестры иногда «виснут». В моменты их падений наши 3 минуты элегантно превращаются в 5, коннекты отваливаются, а на бэкенде начинают потеть ретраи.

  3. Культурный контекст и юмор [5]. Это главное слепое пятно алгоритмов. Допустим, вы называете логистическую компанию «Песец» или «Ёшкин Кот». Машина поймет это буквально – как животное или фольклорный персонаж. А вот живой эксперт сразу увидит двусмысленность, игру слов и возможные риски отказа по этическим соображениям. Там, где идиомы и мемы сплетаются воедино, человек пока стабильно выигрывает.

Притопали к признанию: что дальше?

За два месяца после релиза мы прогнали тысячи проверок. А главным подтверждением того, что мы не просто «сделали обертку», стала победа на брендинговом фестивале ОСНОВА-2026 в номинации «Технологии: Автоматизация процессов в брендинге».

Сейчас xyma.ru [3] работает в бете – полностью бесплатно и без ограничений. Вы можете зайти, попробовать.

В планах на второй квартал – добавление генерации «чистых» (уже проверенных) неймов, командные кабинеты и бесшовная подача заявки в Роспатент прямо из интерфейса. (Кстати, на базе этого опыта [6] маршрутизации моделей и RAG мы сейчас еще и собираем кастомных ИИ-ассистентов под сложные B2B-задачи).

Заходите потестить и ломайте наш алгоритм. Давайте обсудим холиварный вопрос: где еще, помимо культурного контекста, автоматика неизбежно проиграет живому юристу, а где мы можем прямо сейчас разогнать процессы в 100 раз?

Автор: Devsett

Источник [7]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/30476

URLs in this post:

[1] боли: http://www.braintools.ru/article/9901

[2] обучения: http://www.braintools.ru/article/5125

[3] xyma.ru: http://xyma.ru

[4] конфликт: http://www.braintools.ru/article/7708

[5] юмор: http://www.braintools.ru/article/3517

[6] опыта: http://www.braintools.ru/article/6952

[7] Источник: https://habr.com/ru/articles/1036998/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1036998

www.BrainTools.ru

Rambler's Top100