- BrainTools - https://www.braintools.ru -

Привет! Меня зовут Валера Ковальский, я CEO NDT by red_mad_robot. Недавно я протестировал ведущие AI-системы, которые способны проводить глубокие исследования, и делюсь с вами результатами.
В мире появляется всё больше сильных AI-моделей, но не каждая справляется с серьёзными аналитическими задачами. Мне хотелось понять, насколько успешно модели помогают в реальных бизнес-кейсах, поэтому я задал им пять разных вопросов, охватывающих аналитику финансовых рынков, исследование технологий и поиск перспективных AI-стартапов.
В качестве участников теста выступили OpenAI, Grok, Perplexity и NDT Deep Research — наша собственная разработка.
В основе NDT Deep Research — LangGraph, Tavily, несколько моделей LLM и кастомизированный пайплайн. Я переписал промпты, добавил поддержку Structured Output и запустил свой сервер с vLLM, чтобы ускорить работу. Это позволило снизить стоимость генерации вывода в 3 раза и сократить задержки на 40%.
Кроме того, мы использовали гибридный подход: комбинацию retrieval-augmented generation (RAG) и многослойного поиска с анализом первоисточников. Это полезно при обработке сложных аналитических запросов, где требуется агрегировать данные из разных источников.
Хотите потестировать облегчённую версию NDT Deep Research? Заглядывайте на наш GitHub [1] — там мы делимся свежими разработками и выкладываем обновления.
Чтобы сделать оценку работы моделей максимально объективной, я использовал универсальный промпт, автоматизировал сбор ответов и проверил их вручную. А чтобы избежать возможных ошибок — подключил к процессу Claude 3.5 Sonnet, который помог оценить результаты по пяти ключевым критериям:
Глубина анализа — количество источников и полнота ответа
Структурированность — логика [2], связность и разделение информации
Актуальность — свежие данные, тренды, прогнозы
Методология — процесс, воспроизводимость, корректность выборки
Ценность — применимость данных, возможность использовать их в работе
Вопросы для теста были выбраны так, чтобы протестировать разные аспекты интеллектуального поиска. Например, я попросил системы:
Спрогнозировать курс биткоина с учётом ончейн-аналитики и макроэкономических факторов
Предложить лучшие SAST-анализаторы на 2025 год, оценив их на основе CVE-баз данных
Уточнить бюджет проекта ITER и провести сравнительный анализ с аналогичными инициативами
Найти перспективные AI-стартапы с инвестициями уровня seed и series A
Проанализировать адаптивные интерфейсы с AI-функциями, выявив основные UX-подходы

Каждый запрос требовал от моделей не только выдачи фактов, но и осмысленного анализа данных, чтобы можно было реально использовать эти ответы в работе.
Одним из сюрпризов стало то, что OpenAI оказалась единственной системой, которая уточняла вводные данные перед тем, как дать ответ. Это позволило ей улучшить результаты и повысить точность анализа.
Grok, в свою очередь, показал высокую скорость, но нередко выдавал упрощённые ответы. Особенно это было заметно при анализе сложных финансовых данных — он скорее резюмировал уже известные факты, чем проводил глубокий разбор.
Perplexity удивил тем, что в 70% случаев давал ссылки на первоисточники, что делало его выводы наиболее проверяемыми. Однако при генерации выводов на нестандартные темы он иногда допускал логические ошибки [3].
NDT Deep Research показал себя достойно, если учитывать, что я строил его один и использовал 7B-модель. Благодаря кастомным механизмам reranking удалось повысить точность ответов на 15% по сравнению с базовыми моделями.

Время обработки запроса у разных моделей:
OpenAI тратила до 6 минут
NDT справлялась за 3-4 минуты
Grok выдавал ответ менее чем за минуту
Perplexity работал ещё быстрее, но за счёт упрощения деталей
По результатам теста места распределились следующим образом:
Grok — быстро, точно, бесплатно, но поверхностно;
OpenAI — мощно, но дорого и медленно;
Perplexity — хороший баланс скорости и качества;
NDT Deep Research — достойный результат для кастомной разработки в рамках бизнес-задач.

Разница между моделями оказалась не такой уж большой, но если вы ищете оптимальное решение для глубокого исследования, выводы сделать несложно.
Я продолжу тестировать AI и улучшать нашу систему. Если хотите участвовать в следующем раунде экспериментов — пишите в комментарии.
Над материалом работали:
текст — Валера Ковальский
редактура — Игорь Решетников
иллюстрации — Петя Галицкий
Это блог red_mad_robot. Мы запускаем цифровые бизнесы и помогаем компаниям внедрять AI. Здесь наша команда разработки на собственных кейсах рассказывает о том, что происходит с AI сегодня, а стратегические аналитики подсказывают, что будет завтра. Мы бы подписались.
Наш телеграм канал (там всё другое, а ещё есть анонсы мероприятий): t.me/redmadnews [4]
Автор: kekslop
Источник [5]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/13263
URLs in this post:
[1] GitHub: https://github.com/kekslop/ndt-deep-researcher
[2] логика: http://www.braintools.ru/article/7640
[3] ошибки: http://www.braintools.ru/article/4192
[4] t.me/redmadnews: https://t.me/redmadnews
[5] Источник: https://habr.com/ru/companies/redmadrobot/articles/891970/?utm_source=habrahabr&utm_medium=rss&utm_campaign=891970
Нажмите здесь для печати.