Эксперимент: может ли группа LLM отбирать стартапы лучше человека?

Оценивая текущую повестку вокруг ИИ, многие резонно замечают парадокс ^[1]. Шума много, ботов ещё больше, а сгенерированных картинок и красивых концептов — бесконечный поток. Мы даже видим волны увольнений из-за повальной оптимизации, но где осязаемые результаты? Где то самое «пощупать»? Настоящая эффективность, которую можно поставить на стол перед скептиком и сказать: смотрите, вот оно работает. Без идеализации, но с пониманием реального потенциала.

Безусловно, у технологии есть мощные стороны. Я сам о них писал (раз ^[2]), но и проблематику отрицать нельзя. Это было бы наивно и попросту ненаучно (об этом тоже был разговор ^[3]).

Именно на стыке этих двух реальностей — между хайпом и суровостью — и возникла идея провести практический тест. Одно дело писать статьи о концепциях и рисовать радужные графики в Pitch Deck. Совсем другое — запустить реальный проект, где главным арбитром выступит не человек с его интуицией ^[4], настроением или усталостью, а связка независимых языковых моделей.

Хабр для этой затеи — идеальная площадка. Здесь сосредоточен тот самый критический и технологический потенциал, который не даст эксперименту скатиться в мир иллюзий. Тут не забалуешь.

Суть эксперимента

Я предлагаю сформировать LLM-группу как венчурный комитет для оценки потенциально рентабельных стартапов. Задача коллективного ИИ предельно проста и одновременно сложна: выбрать лучшее из предложенного.

Ключевой момент в том, что первоначально оценивать проекты будет не человек, а группа алгоритмов. Меньше вкусовщины, больше воспроизводимости — холодный анализ на основе заложенной логики.

Чтобы структурировать поле битвы идей, выбраны две категории:

программные решения (Software);
технологические и аппаратные решения (Hardware/Tech).

Каждую категорию разобьём по масштабу начальных вложений. Это не догма, а система координат:

Микро — до 3 млн рублей
Малый — до 30 млн рублей
Средний — до 300 млн рублей

Указанные цифры — примерные метки для калибровки запросов к ИИ, не жёсткие рамки. Мы задаём вектор, а не строим клетку. LLM оценивает в контексте: вот бюджет, вот категория, вот рынок — считай. Без контекста модель начнёт сравнивать микро-SaaS с Tesla и сойдёт с ума.

Что мы проверяем

Наша гипотеза простая. Связка из нескольких независимых LLM, работающих по единой методологии, должна дать более стабильную и воспроизводимую оценку стартапов, чем отдельный человек. Не потому что машины умнее, а потому что они лишены конкретных человеческих искажений: усталости после третьего питча, личной симпатии к основателю, давления социального доказательства, когда все вложились — и нам надо.

Но важно понимать: LLM не лишены искажений вообще. Они усредняют человеческие предрассудки из обучающей выборки и галлюцинируют убедительно. Суть эксперимента именно в том, чтобы выяснить — можно ли эти искажения нейтрализовать перекрёстной проверкой моделей и жёсткой методологией. Если три разных LLM, запущенные с одним промптом, сходятся в оценке — это сигнал. Если расходятся — тоже сигнал, только о другом: методология дырявая.

Первый фильтр

Авторы стартапов сами прогоняют идею хотя бы через три LLM.

Предварительный "прогон" — Предварительный “прогон”

Прежде чем выставить проект на оценку, им нужно выполнить три шага. Запустить описание через разные модели, например — GLM, Qwen, DeepSeek, главное чтобы архитектурно разные, а не три клона на одном датасете. Получить от каждой критический разбор: где слабые места, какие риски, какие проверяемые факты подтверждают или опровергают ключевые тезисы. И выложить эти оценки вместе с заявкой- стартапом в конкурсной статье.

Это базовый фильтр. Если автор не готов потратить время на формализацию мысли для трёх-пяти разных моделей — значит, идея либо сыровата, либо, возможно, ему просто лень. В обоих случаях дальше обсуждать нечего. Максимально честный прогон нужен самому автору и в его же интересах. Сообщество в любом случае проверит выводы и вынесет свой вердикт. Каждый читатель может повторить проверку своими моделями и сделать общий LLM-вывод, что в конечном итоге и будет сделано по всем представленным проектам. Воспроизводимость встроена в процесс — это не декларация, а механика.

Чего здесь точно не будет

Мы не собираем стартап-идеи прямо сейчас. Это подготовительный этап, без которого всё рухнет. Сегодня задача — написать методологию экспертной оценки в токенах: промпты, метрики, логику ^[5] оценки и механизм разрешения конфликтов между моделями. Сами идеи начнём принимать на следующем этапе, когда инструмент будет откалиброван. Торопиться некуда. Сначала настроим инструмент, потом пустим в дело.

Куда мы движемся

Первый этап — прямо сейчас. Вырабатываем методологию в комментариях: живые люди пишут конституцию для LLM-судей. Второй — объявляем конкурс, собираем проекты и прогоняем через пользовательские LLM-группы. Это уже не тест системы, а настоящая гонка идей. Третий — если методология покажет работоспособность, обсудим, как проверить её на реальном кейсе для потенциальных участников. Живые деньги, но только когда система докажет, что ей можно доверять.

Про финансы отдельно. На первом и втором этапе речь о деньгах не идёт. Если дойдём до третьего — механизм инвестиций и распределения вынесем в отдельное обсуждение. Сейчас это было бы просто неуместно.

Скептикам

Для критически настроенных читателей отдельное обращение. Отнеситесь к этому как к практичному тесту (бенчмарк), который помогает раздвинуть рамки понимания, на что способны нейросети прямо сейчас. Никто не принуждает верить в машинное чудо, что было бы глупо. Мы просто проверяем гипотезу. Ваша въедливость не баг, а фича. Если видите уязвимости, логические дыры или точки отказа — укажите. Ваш скепсис сделает систему крепче, а эксперимент честнее.

Что нужно от комментаторов: песочница для методологии

Помогите построить методологию. Чтобы не начинать с чистого листа, я набросал черновик (v0.1) базового промпта и системы весов. Предлагаю использовать этот раздел как песочницу. С чего начинать LLM-конституцию?

Черновик системного промпта

Ты прагматичный венчурный аналитик с 15-летним опытом ^[6]. Тебе предложен стартап, и ты задаёшься вопросом: стоит ли сюда вкладываться или нет. Твоя задача — найти слабые места. Не хвали презентацию, не ищи оправданий. Оцени проект от 0 до 100 по четырём критериям и аргументируй каждый балл. Если данных не хватает, ставь 0 и пиши, чего именно не хватает. «После оценки примени модификатор ±2 по шкале технологической добавленной стоимости (описан ниже)».

Этический фильтр

Применяется до начала оценки по принципу pass/fail. Это защита от мусорных и токсичных заявок. Проект автоматически отсеивается в трёх случаях:

Псевдонаука и физически невозможные решения. Вечные двигатели, экстрасенсорика, астрология, культы. Такие проекты не рассматриваются — они не соответствуют научно-технической площадке.
Юридические риски. Оружие, наркотики ^[7], мошенничество, финансовые пирамиды, подделки, пропаганда насилия, порнография. Независимо от юрисдикции — это часто уголовные последствия.
Репутационные риски. Алкоголь, табак, вейпы, азартные игры, секс-индустрия, фармацевтика, БАДы, микрозаймы, политические проекты и лоббистская деятельность. Во многих странах это легально, но для нашего эксперимента неприемлемо. Слишком высокие регуляторные, правовые и культурные барьеры.

Критерии и веса

Рынок и проблема (30%). Есть ли боль ^[8], понятен ли TAM/SAM/SOM, не нарисованы ли марсианские единороги.
Технология и продукт (30%). Есть ли прототип, насколько решение реализуемо, есть ли защита в виде патентов, кода или ноу-хау.
Экономика и метрики (20%). Юнит-экономика, CAC, LTV, путь к окупаемости. Если данных нет, оцени потенциальную модель монетизации по аналогам.
Команда и риски реализации (20%). Есть ли у фаундера бэкграунд для MVP? Если нет, насколько критичен разрыв и сложно ли его закрыть?

Если числовые данные (TAM, CAC, LTV, выручка) не приведены в заявке — не додумывай их. Ставь 0 по критерию “Экономика” и указывай, каких данных не хватает».

Модификатор технологической добавленной стоимости

Применяется после оценки по четырём критериям. Это бонус или штраф к итоговому баллу в диапазоне ±2.

+2 балла — если есть уникальная технология, патент, собственная R&D-база или прорывное техническое решение.
+1 балл — если есть технологическое ядро, но оно не уникально (использует существующие решения новым способом).
0 баллов — стандартный случай, технология соответствует уровню рынка.
-1 балл — если это перепродажа без модификации, white label без доработок, арбитраж трафика.
-2 балла — если бизнес-модель не имеет технологического ядра (классический колл-центр без автоматизации, переклейка шильдиков, простой карго-брокер).

Этот модификатор не заменяет оценку по четырём критериям, а корректирует её с учётом того, насколько стартап действительно технологичен, а не просто использует технологическую обёртку.

Открытые вопросы для обсуждения

Даже с таким черновиком остаются спорные моменты, где коллективный разум ^[9] должен проявить себя.

Как заставить модель проверять реальный бэкграунд, а не верить на слово?

ИИ опирается на текст от фаундера. А фаундеры могут красиво написать о себе всё что угодно. Вариант, который я рассматриваю: требовать от фаундера прикладывать верифицируемые данные вроде LinkedIn, GitHub, публикаций и добавлять в промпт инструкцию: «Сравни заявленный бэкграунд с реальными данными из профилей и укажи расхождения. Если ссылок нет, ставь 0 по критерию команды». Но как заставить LLM анализировать, а не просто пересказывать? Здесь, скорее, окончательная оценка от человека, которая будет в любом случае после LLM.

Стоит ли делать веса плавающими? Для голой идеи без команды рынок и технология тянут на 80% решения. Для вышедшего на рынок продукта на первый план выходит экономика. Для Hardware на старте технология важнее экономики, для SaaS наоборот. Я склоняюсь к динамическим весам, но с жёсткими ограничениями: не более ±10% от базовых. Иначе методология превратится в резиновую. Стоит ли игра свеч? Или это усложнит систему до неработоспособности? Возможно, что куда лучше будет использовать матрицу весов, где сдвиг зависит от двух осей:

Тип (Software / Hardware / Biotech / Marketplace)

Стадия (Idea / Prototype / MVP / Revenue)

Где не резиновая методология, а табличная. Жёсткость задаётся фиксированной матрицей, гибкость — разными весами для разных комбинаций.

Делайте предложения, дополняйте. Это открытая методология — чем больше въедливости, тем крепче результат.

P.S. О круговой зависимости

Эта авторская статья отредактирована с помощью LLM: GLM, Qwen, DeepSeek, Kimi и Perplexity. Это не доказательство работоспособности идеи, а часть тестируемой проблемы. Начинаем использовать и проверять машины прямо сейчас, на этом тексте. И это — лучший пролог к эксперименту.

Мы не знаем до конца, можем ли доверять группе AI в подобной сфере. Поэтому и эксперимент. Если методология выдержит вашу критику — значит, есть шанс, что она выдержит и реальные стартапы.

Можете начать прямо с этой статьи. Дайте её своим LLM на оценку, посмотрите, что скажут. Если найдёте слабые места — пишите, мы их закроем. Поехали.

Автор: Max-G

Источник ^[10]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/31553

URLs in this post:

[1] парадокс: http://www.braintools.ru/article/8221

[2] раз: https://habr.com/ru/articles/987794/

[3] об этом тоже был разговор: https://habr.com/ru/articles/986978/

[4] интуицией: http://www.braintools.ru/article/6929

[5] логику: http://www.braintools.ru/article/7640

[6] опытом: http://www.braintools.ru/article/6952

[7] наркотики: http://www.braintools.ru/article/3452

[8] боль: http://www.braintools.ru/article/9901

[9] коллективный разум: http://www.braintools.ru/article/4995

[10] Источник: https://habr.com/ru/articles/1044624/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044624

Нажмите здесь для печати.