- BrainTools - https://www.braintools.ru -
Оценивая текущую повестку вокруг ИИ, многие резонно замечают парадокс [1]. Шума много, ботов ещё больше, а сгенерированных картинок и красивых концептов — бесконечный поток. Мы даже видим волны увольнений из-за повальной оптимизации, но где осязаемые результаты? Где то самое «пощупать»? Настоящая эффективность, которую можно поставить на стол перед скептиком и сказать: смотрите, вот оно работает. Без идеализации, но с пониманием реального потенциала.
Безусловно, у технологии есть мощные стороны. Я сам о них писал (раз [2]), но и проблематику отрицать нельзя. Это было бы наивно и попросту ненаучно (об этом тоже был разговор [3]).
Именно на стыке этих двух реальностей — между хайпом и суровостью — и возникла идея провести практический тест. Одно дело писать статьи о концепциях и рисовать радужные графики в Pitch Deck. Совсем другое — запустить реальный проект, где главным арбитром выступит не человек с его интуицией [4], настроением или усталостью, а связка независимых языковых моделей.
Хабр для этой затеи — идеальная площадка. Здесь сосредоточен тот самый критический и технологический потенциал, который не даст эксперименту скатиться в мир иллюзий. Тут не забалуешь.
Я предлагаю сформировать LLM-группу как венчурный комитет для оценки потенциально рентабельных стартапов. Задача коллективного ИИ предельно проста и одновременно сложна: выбрать лучшее из предложенного.
Ключевой момент в том, что первоначально оценивать проекты будет не человек, а группа алгоритмов. Меньше вкусовщины, больше воспроизводимости — холодный анализ на основе заложенной логики.
Чтобы структурировать поле битвы идей, выбраны две категории:
программные решения (Software);
технологические и аппаратные решения (Hardware/Tech).
Каждую категорию разобьём по масштабу начальных вложений. Это не догма, а система координат:
Микро — до 3 млн рублей
Малый — до 30 млн рублей
Средний — до 300 млн рублей
Указанные цифры — примерные метки для калибровки запросов к ИИ, не жёсткие рамки. Мы задаём вектор, а не строим клетку. LLM оценивает в контексте: вот бюджет, вот категория, вот рынок — считай. Без контекста модель начнёт сравнивать микро-SaaS с Tesla и сойдёт с ума.
Наша гипотеза простая. Связка из нескольких независимых LLM, работающих по единой методологии, должна дать более стабильную и воспроизводимую оценку стартапов, чем отдельный человек. Не потому что машины умнее, а потому что они лишены конкретных человеческих искажений: усталости после третьего питча, личной симпатии к основателю, давления социального доказательства, когда все вложились — и нам надо.
Но важно понимать: LLM не лишены искажений вообще. Они усредняют человеческие предрассудки из обучающей выборки и галлюцинируют убедительно. Суть эксперимента именно в том, чтобы выяснить — можно ли эти искажения нейтрализовать перекрёстной проверкой моделей и жёсткой методологией. Если три разных LLM, запущенные с одним промптом, сходятся в оценке — это сигнал. Если расходятся — тоже сигнал, только о другом: методология дырявая.
Авторы стартапов сами прогоняют идею хотя бы через три LLM.
Прежде чем выставить проект на оценку, им нужно выполнить три шага. Запустить описание через разные модели, например — GLM, Qwen, DeepSeek, главное чтобы архитектурно разные, а не три клона на одном датасете. Получить от каждой критический разбор: где слабые места, какие риски, какие проверяемые факты подтверждают или опровергают ключевые тезисы. И выложить эти оценки вместе с заявкой- стартапом в конкурсной статье.
Это базовый фильтр. Если автор не готов потратить время на формализацию мысли для трёх-пяти разных моделей — значит, идея либо сыровата, либо, возможно, ему просто лень. В обоих случаях дальше обсуждать нечего. Максимально честный прогон нужен самому автору и в его же интересах. Сообщество в любом случае проверит выводы и вынесет свой вердикт. Каждый читатель может повторить проверку своими моделями и сделать общий LLM-вывод, что в конечном итоге и будет сделано по всем представленным проектам. Воспроизводимость встроена в процесс — это не декларация, а механика.
Мы не собираем стартап-идеи прямо сейчас. Это подготовительный этап, без которого всё рухнет. Сегодня задача — написать методологию экспертной оценки в токенах: промпты, метрики, логику [5] оценки и механизм разрешения конфликтов между моделями. Сами идеи начнём принимать на следующем этапе, когда инструмент будет откалиброван. Торопиться некуда. Сначала настроим инструмент, потом пустим в дело.
Первый этап — прямо сейчас. Вырабатываем методологию в комментариях: живые люди пишут конституцию для LLM-судей. Второй — объявляем конкурс, собираем проекты и прогоняем через пользовательские LLM-группы. Это уже не тест системы, а настоящая гонка идей. Третий — если методология покажет работоспособность, обсудим, как проверить её на реальном кейсе для потенциальных участников. Живые деньги, но только когда система докажет, что ей можно доверять.
Про финансы отдельно. На первом и втором этапе речь о деньгах не идёт. Если дойдём до третьего — механизм инвестиций и распределения вынесем в отдельное обсуждение. Сейчас это было бы просто неуместно.
Для критически настроенных читателей отдельное обращение. Отнеситесь к этому как к практичному тесту (бенчмарк), который помогает раздвинуть рамки понимания, на что способны нейросети прямо сейчас. Никто не принуждает верить в машинное чудо, что было бы глупо. Мы просто проверяем гипотезу. Ваша въедливость не баг, а фича. Если видите уязвимости, логические дыры или точки отказа — укажите. Ваш скепсис сделает систему крепче, а эксперимент честнее.
Помогите построить методологию. Чтобы не начинать с чистого листа, я набросал черновик (v0.1) базового промпта и системы весов. Предлагаю использовать этот раздел как песочницу. С чего начинать LLM-конституцию?
Ты прагматичный венчурный аналитик с 15-летним опытом [6]. Тебе предложен стартап, и ты задаёшься вопросом: стоит ли сюда вкладываться или нет. Твоя задача — найти слабые места. Не хвали презентацию, не ищи оправданий. Оцени проект от 0 до 100 по четырём критериям и аргументируй каждый балл. Если данных не хватает, ставь 0 и пиши, чего именно не хватает. «После оценки примени модификатор ±2 по шкале технологической добавленной стоимости (описан ниже)».
Применяется до начала оценки по принципу pass/fail. Это защита от мусорных и токсичных заявок. Проект автоматически отсеивается в трёх случаях:
Псевдонаука и физически невозможные решения. Вечные двигатели, экстрасенсорика, астрология, культы. Такие проекты не рассматриваются — они не соответствуют научно-технической площадке.
Юридические риски. Оружие, наркотики [7], мошенничество, финансовые пирамиды, подделки, пропаганда насилия, порнография. Независимо от юрисдикции — это часто уголовные последствия.
Репутационные риски. Алкоголь, табак, вейпы, азартные игры, секс-индустрия, фармацевтика, БАДы, микрозаймы, политические проекты и лоббистская деятельность. Во многих странах это легально, но для нашего эксперимента неприемлемо. Слишком высокие регуляторные, правовые и культурные барьеры.
Рынок и проблема (30%). Есть ли боль [8], понятен ли TAM/SAM/SOM, не нарисованы ли марсианские единороги.
Технология и продукт (30%). Есть ли прототип, насколько решение реализуемо, есть ли защита в виде патентов, кода или ноу-хау.
Экономика и метрики (20%). Юнит-экономика, CAC, LTV, путь к окупаемости. Если данных нет, оцени потенциальную модель монетизации по аналогам.
Команда и риски реализации (20%). Есть ли у фаундера бэкграунд для MVP? Если нет, насколько критичен разрыв и сложно ли его закрыть?
Если числовые данные (TAM, CAC, LTV, выручка) не приведены в заявке — не додумывай их. Ставь 0 по критерию “Экономика” и указывай, каких данных не хватает».
Применяется после оценки по четырём критериям. Это бонус или штраф к итоговому баллу в диапазоне ±2.
+2 балла — если есть уникальная технология, патент, собственная R&D-база или прорывное техническое решение.
+1 балл — если есть технологическое ядро, но оно не уникально (использует существующие решения новым способом).
0 баллов — стандартный случай, технология соответствует уровню рынка.
-1 балл — если это перепродажа без модификации, white label без доработок, арбитраж трафика.
-2 балла — если бизнес-модель не имеет технологического ядра (классический колл-центр без автоматизации, переклейка шильдиков, простой карго-брокер).
Этот модификатор не заменяет оценку по четырём критериям, а корректирует её с учётом того, насколько стартап действительно технологичен, а не просто использует технологическую обёртку.
Даже с таким черновиком остаются спорные моменты, где коллективный разум [9] должен проявить себя.
Как заставить модель проверять реальный бэкграунд, а не верить на слово?
ИИ опирается на текст от фаундера. А фаундеры могут красиво написать о себе всё что угодно. Вариант, который я рассматриваю: требовать от фаундера прикладывать верифицируемые данные вроде LinkedIn, GitHub, публикаций и добавлять в промпт инструкцию: «Сравни заявленный бэкграунд с реальными данными из профилей и укажи расхождения. Если ссылок нет, ставь 0 по критерию команды». Но как заставить LLM анализировать, а не просто пересказывать? Здесь, скорее, окончательная оценка от человека, которая будет в любом случае после LLM.
Стоит ли делать веса плавающими? Для голой идеи без команды рынок и технология тянут на 80% решения. Для вышедшего на рынок продукта на первый план выходит экономика. Для Hardware на старте технология важнее экономики, для SaaS наоборот. Я склоняюсь к динамическим весам, но с жёсткими ограничениями: не более ±10% от базовых. Иначе методология превратится в резиновую. Стоит ли игра свеч? Или это усложнит систему до неработоспособности? Возможно, что куда лучше будет использовать матрицу весов, где сдвиг зависит от двух осей:
Тип (Software / Hardware / Biotech / Marketplace)
Стадия (Idea / Prototype / MVP / Revenue)
Где не резиновая методология, а табличная. Жёсткость задаётся фиксированной матрицей, гибкость — разными весами для разных комбинаций.
Делайте предложения, дополняйте. Это открытая методология — чем больше въедливости, тем крепче результат.
Эта авторская статья отредактирована с помощью LLM: GLM, Qwen, DeepSeek, Kimi и Perplexity. Это не доказательство работоспособности идеи, а часть тестируемой проблемы. Начинаем использовать и проверять машины прямо сейчас, на этом тексте. И это — лучший пролог к эксперименту.
Мы не знаем до конца, можем ли доверять группе AI в подобной сфере. Поэтому и эксперимент. Если методология выдержит вашу критику — значит, есть шанс, что она выдержит и реальные стартапы.
Можете начать прямо с этой статьи. Дайте её своим LLM на оценку, посмотрите, что скажут. Если найдёте слабые места — пишите, мы их закроем. Поехали.
Автор: Max-G
Источник [10]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/31553
URLs in this post:
[1] парадокс: http://www.braintools.ru/article/8221
[2] раз: https://habr.com/ru/articles/987794/
[3] об этом тоже был разговор: https://habr.com/ru/articles/986978/
[4] интуицией: http://www.braintools.ru/article/6929
[5] логику: http://www.braintools.ru/article/7640
[6] опытом: http://www.braintools.ru/article/6952
[7] наркотики: http://www.braintools.ru/article/3452
[8] боль: http://www.braintools.ru/article/9901
[9] коллективный разум: http://www.braintools.ru/article/4995
[10] Источник: https://habr.com/ru/articles/1044624/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1044624
Нажмите здесь для печати.