Когда две головы лучше, чем одна: ученые экспериментируют с коллективной работой нейросетей. chatgpt.. chatgpt. deepseek.. chatgpt. deepseek. gemini.. chatgpt. deepseek. gemini. grok.. chatgpt. deepseek. gemini. grok. Grok 4.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект. исследование.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. Машинное обучение.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. Машинное обучение. машинное+обучение.. chatgpt. deepseek. gemini. grok. Grok 4. Sakana. Будущее здесь. ИИ. искусственный интеллект. исследование. Исследования и прогнозы в IT. Машинное обучение. машинное+обучение. нейросети.

Меня зовут Кирилл Пшинник, я научный сотрудник Университета Иннополис и CEO Онлайн-Университета «Зерокодер», а также автор книги «Искусственный интеллект: путь к новому миру». Как можно понять, я интересуюсь нейросетями и разными сторонами их использования: читаю новости, научные работы, пишу статьи сам.

Сегодня я хочу рассказать о японском стартапе Sakana AI, который изобрел open-source фреймворк TreeQuest. Он позволяет использовать сразу несколько разных больших языковых моделей для того, чтобы получить более точный результат.

Но начну я с голубей.

Коллективный разум голубей-онкологов

Оказывается, голуби могут отличать злокачественные опухоли от доброкачественных. Причем делают это с высокой точностью и даже в команде — и в команде, что характерно, им это удается лучше.

Исследование провела команда из Университета штата Айова. В роли подопытных — обычные сизые голуби, привычные всем нам жители улиц и голубятен. Им показывали гистологические срезы и маммограммы, а правильный ответ (рак или нет) подкрепляли едой — классическое оперантное обучение, только без слов, разметки и объяснений.

Через некоторое время отдельные птицы начали демонстрировать стабильную точность в 80–85% на новых изображениях. Более того, они обобщали знания — могли переносить навык на незнакомые снимки, не виденные во время обучения.

Однако ключевая находка ученых заключается в том, что групповая точность оказалась существенно выше индивидуальной.

Метод назвали flock-sourcing: если хотя бы несколько голубей в команде из четырех считали снимок злокачественным, система принимала это за сигнал «рак». Совместная точность взлетела до 99%, что существенно выше, чем у любого отдельного участника эксперимента (в среднем 0.73–0.85). Единственная зона, где птицы уступали, — это особо сложные маммограммы с тонкими массами, на которых даже опытные радиологи часто ошибаются.

Факт, что группа «неспециалистов» показывает результат, сравнимый с профессионалами, пусть и в узком сценарии — сам по себе интересен. Но еще важнее то, что коллективная перцепция (своеобразное «усредненное мнение») может использоваться в реальных задачах.

Например:

для оценки качества медицинских изображений,
как вспомогательный фильтр при тестировании систем визуализации,
или даже как аналог голосования в ансамблях нейросетей.

Исследование с голубями было первым из серии. Но спустя годы появились и работы, где коллективная точность используется уже в мире машинного обучения — с похожими результатами. А это наводит на мысли: возможно, нам стоит внимательнее присматриваться не только к архитектурам и метрикам, но и к «поведению в стае».

Ансамблевое обучение

Ensemble learning, или ансамблевое обучение, — это подход в машинном обучении, при котором несколько моделей объединяются, чтобы получить более точный и устойчивый результат, чем каждая из них по отдельности. Принцип тот же, что и с голубями: групповое мнение надежнее индивидуального.

Как это работает на практике? Есть несколько методов.

1. Бэггинг (bagging), при котором модели обучаются независимо на разных подвыборках данных. Классический пример — Random Forest: это много деревьев решений, каждое обучено на случайной части данных. Итоговый ответ — голосование (классификация) или усреднение (регрессия).

2. Бустинг (boosting) — модели обучаются последовательно: каждая новая старается исправить ошибки предыдущей. Самый известный пример — XGBoost или CatBoost. Здесь слабые модели (обычно деревья) «усиливают» друг друга.

3. Стекинг (stacking) — модели обучаются параллельно, а сверху добавляется мета-модель, которая учится на их выходах. Например: логистическая регрессия объединяет результаты SVM, дерева и нейросети.

Ансамбли работают, потому что разные модели совершают разные ошибки, эти самые ошибки сглаживаются при объединении, а сильные стороны отдельных моделей дополняют друг друга.

Это похоже на голосование экспертов: один может ошибиться, но если большинство согласно — итог будет надежнее.

TreeQuest: как модели перестали конкурировать и начали работать вместе

Именно механизм ансамблевого обучения решил использовать стартап Sakana AI из Японии. Тогда как большинство разработчиков LLM заняты примерно одним: сделать одну большую модель, которая умеет все — быстрее, точнее, глубже, Sakana AI предлагает другой подход: не соревноваться, а кооперироваться.

Они разработали алгоритм Adaptive Branching Monte Carlo Tree Search (AB‑MCTS), который позволяет нескольким крупным языковым моделям решать задачи совместно — как команда, где каждый агент вносит вклад. Этот алгоритм лежит в основе TreeQuest — нового open-source фреймворка, уже доступного под Apache 2.0.

Sakana AI считает, что у каждой LLM свои сильные стороны: одна лучше логически структурирует, другая — генерирует текст, третья — делает качественные обобщения. Вместо того чтобы пытаться создать единую «идеальную» модель, в TreeQuest задействуются разные LLM одновременно, как агенты в общем поиске решений.

Идеология проста: «Мы воспринимаем уникальные особенности каждой модели не как ограничения, а как ресурсы для формирования коллективного интеллекта».

Ключ — в том, на каком этапе объединяются модели. Здесь речь не о fine-tuning или pretraining, а о выводе (inference). Алгоритм AB‑MCTS организует поиск так:

одни агенты углубляют текущие гипотезы (поиск вглубь),
другие предлагают альтернативы (поиск вширь),
все это — с учетом предыдущих ответов, как в дереве решений.

Получается итеративный перебор вариантов с обратной связью между моделями. Каждая из них может использовать ответы других как подсказку и «догадать» решение.

Что показывает практика

TreeQuest протестировали на ARC‑AGI‑2 — бенчмарке для оценки «обобщающего интеллекта». Вариант с тремя моделями (o4‑mini + Gemini 2.5 Pro + DeepSeek‑R1‑0528) решил свыше 30% задач, в то время как одиночный o4‑mini справился только с 23%.

Интересные выводы:

o4‑mini ошибается,
DeepSeek и Gemini используют эту ошибку как частичную подсказку,
результат — корректное решение через пару итераций.

То есть неправильный ответ одной модели может стать топливом для правильного вывода у другой.

TreeQuest рассчитан на задачи, где нужно поэтапное, многошаговое решение, особенно в условиях ограниченного количества вызовов к API моделей. Примеры: автоматическая генерация и рефакторинг кода, улучшение точности ML-моделей через повторную интерпретацию данных, снижение галлюцинаций в генеративных системах, оптимизация вычислительных сервисов и пайплайнов.

Все это можно подключать через открытый API, с поддержкой кастомных метрик качества решений.

Интересная параллель: все это напоминает эксперименты с голубями, где стая определяла диагноз точнее, чем отдельные птицы. Здесь — та же история, но вместо голубей: ChatGPT, Gemini и DeepSeek.

Grok4 Heavy: как устроена «учебная группа» из нейросетей

Пока индустрия соревнуется в создании мощных универсальных моделей, в компании Илона МАска xAI решили пойти другим путем. Недавно они представили Grok4 Heavy — архитектуру, в которой нейросети работают не в одиночку, а кооперативно, как студенты, готовящиеся к экзамену в группе.

Результаты — впечатляющие: модель превзошла не только базовую Grok4, но и флагманские решения от OpenAI и Google на ряде бенчмарков. Но дело тут не просто в мощности, а в архитектурной идее, которая ближе к коллективному разуму, чем к классическому inference.

Когда две головы лучше, чем одна: ученые экспериментируют с коллективной работой нейросетей - 1

Grok4 Heavy запускает несколько агентов параллельно. Каждый решает задачу самостоятельно, без знания о подходах остальных. А затем начинается самое интересное:

агенты сравнивают свои выводы;
обмениваются идеями;
и коллективно формируют итоговый ответ.

Важно: это не просто голосование по большинству. Иногда только один агент находит правильный путь и объясняет его остальным. Это делает финальное решение не просто усредненным, а прошедшим внутреннюю интерпретацию и проверку.

По сути, Grok4 Heavy реализует механизм коллективной интерпретации: каждая модель дает свою версию решения, но итоговая версия — это результат диалога между ними.

Такая архитектура требует существенно больше вычислений на этапе вывода по сравнению с обычным запуском одной модели. Но xAI делает ставку на то, что качество важнее стоимости запроса, особенно в задачах, где цена ошибки высока: медицина, наука, робототехника.

С учетом того, что затраты на ИИ все ближе к стоимости электроэнергии, ставка выглядит оправданной.

Коллективные ИИ: новая парадигма

Grok4 Heavy и TreeQuest от Sakana AI — разные реализации одной идеи: отказ от одиночной «супермодели» в пользу взаимодействующей команды агентов.

В первом случае — координация внутри архитектуры, во втором — между разными внешними моделями (например, o4-mini, Gemini и DeepSeek).

Но вывод один: многоголовый интеллект работает. Причем в ряде задач он обходит одиночные модели, даже если каждая из них сильна сама по себе.

Такой подход открывает перспективы для гибких ИИ-систем, в которых:

разные модели специализируются на своих задачах: код, визуальный анализ, логика, язык;
они взаимодействуют, подсказывают и «проверяют» друг друга;
возникает новый тип надежности и адаптивности, особенно в нестабильных или междисциплинарных задачах.

На практике это может привести к архитектурам, где сложные инженерные задачи решаются «советом» моделей, автоматизированные ассистенты могут пересматривать свои же гипотезы и менять мнение, важные решения проходят не одну, а серии фильтраций и переосмыслений.

Пример с голубями, TreeQuest и Grok4 Heavy показывает: коллективный интеллект — не метафора, а рабочий технический механизм. Мы только начали его использовать в ИИ, но уже видим рост точности, устойчивости и контекстной гибкости.

Следующий шаг, судя по всему, — не создание еще одной «самой большой модели», а формирование среды, где разные модели могут учиться друг у друга. Как в природе у некоторых видов: выживает не тот, кто сильнее, а тот, кто способен работать в команде.

Автор: kpshinnik

Источник

Запись добавлена: 30.07.2025 в 11:40
Оставлено в

Когда две головы лучше, чем одна: ученые экспериментируют с коллективной работой нейросетей

Меню навигации

На главную

Главное

Рубрики

Методики

Информация