
Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.
Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.
В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT (3.5) не справился с уровнями I и II. GPT-4 смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.
Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.
Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.
Gemini и GPT-5 лидируют в этом списке.
Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro – 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.
GPT-5 заняла лидирующую позицию на втором уровне, который проверяет применение и анализ на основе тематических исследований, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro – 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты». Проблема оказалась в этических аспектах. Исследователи сообщили об относительном уровне ошибок от 17 до 21 процента на втором уровне, даже для моделей с наилучшими результатами.
На третьем уровне – самом сложном этапе, сочетающем вопросы с множественным выбором и вопросы с открытым ответом – Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Однако Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%, что является значительным скачком по сравнению с 82,8% у его предшественника.
|
Уровень |
Лучшая модель |
Результат |
|---|---|---|
|
Уровень I (тест с множественным выбором) |
Gemini 3.0 Pro |
97,6% |
|
Уровень II (тест с множественным выбором) |
ГПТ-5 |
94,3% |
|
Уровень III (тест с множественным выбором) |
Gemini 2.5 Pro |
86,4% |
|
Уровень III (ответы в развернутой форме) |
Gemini 3.0 Pro |
92,0% |
|
Общий рейтинг |
Gemini 3.0 Pro |
1-е место |
В исследовании использованы пробные экзамены CFA, составленные на основе официального практического пакета CFA Institute (уровни I и II) и пробных экзаменов AnalystPrep (уровень III). Для уровней I и II использовались официальные материалы, а для уровня III – пробные экзамены сторонних организаций, чтобы обеспечить сопоставимость с предыдущими исследованиями.
Модель o4-mini автоматизировала оценку открытых ответов. В исследовании отмечается, что это приводит к ошибкам измерения и возможному смещению в сторону многословности, когда подробные ответы получают более высокие баллы. Следовательно, результаты служат приближенными оценками, основанными на модели.
Проходные баллы были определены на основе предыдущих исследований: для уровня I требуется не менее 60 процентов по каждой теме и 70 процентов в целом. Для уровня II требуется не менее 50 процентов по каждой теме и 60 процентов в целом. Для уровня III требуется средний балл не менее 63 процентов по разделам с вопросами с множественным выбором и вопросами с развернутым ответом.
Сдать тест не означает выполнять работу.
Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена. В то время как выпускники магистратуры уже освоили кодифицированные знания уровней I и II, последнее поколение сейчас развивает навыки сложного синтеза, необходимые для уровня III.
Следует помнить об обычных оговорках. Бенчмарки – особенно тесты с несколькими вариантами ответа – лишь намекают на производительность и потенциальное экономическое влияние. Прохождение теста не означает, что модель способна справиться с повседневной работой финансового аналитика, которая включает в себя встречи с клиентами, оценку рыночных настроений и принятие решений при неполной информации.
В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами, которые часто требуют понимания контекста и принятия решений. Экзамены проверяют отдельные знания, а не способность применять их в сложных, меняющихся ситуациях реального мира.
Исследователи также не могут исключить загрязнение данных. Хотя они использовали актуальные платные материалы, вопросы могли проникнуть в обучающие данные через перефразированный контент в общедоступных наборах данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.
Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора, похоже, вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Автор: MrRjxrby


