- BrainTools - https://www.braintools.ru -

Новое исследование показывает, что современные модели логического мышления [1] способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.
Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.
В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT [2] (3.5) не справился с уровнями I и II. GPT-4 [3] смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.
Новое исследование, [4] проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.
Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.
Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro – 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.
GPT-5 заняла лидирующую позицию на втором уровне, который проверяет применение и анализ на основе тематических исследований, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro – 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты». Проблема оказалась в этических аспектах. Исследователи сообщили об относительном уровне ошибок от 17 до 21 процента на втором уровне, даже для моделей с наилучшими результатами.
На третьем уровне – самом сложном этапе, сочетающем вопросы с множественным выбором и вопросы с открытым ответом – Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Однако Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%, что является значительным скачком по сравнению с 82,8% у его предшественника.
|
Уровень |
Лучшая модель |
Результат |
|---|---|---|
|
Уровень I (тест с множественным выбором) |
Gemini 3.0 Pro |
97,6% |
|
Уровень II (тест с множественным выбором) |
ГПТ-5 |
94,3% |
|
Уровень III (тест с множественным выбором) |
Gemini 2.5 Pro |
86,4% |
|
Уровень III (ответы в развернутой форме) |
Gemini 3.0 Pro |
92,0% |
|
Общий рейтинг |
Gemini 3.0 Pro |
1-е место |
В исследовании использованы пробные экзамены CFA, составленные на основе официального практического пакета CFA Institute (уровни I и II) и пробных экзаменов AnalystPrep (уровень III). Для уровней I и II использовались официальные материалы, а для уровня III – пробные экзамены сторонних организаций, чтобы обеспечить сопоставимость с предыдущими исследованиями.
Модель o4-mini автоматизировала оценку открытых ответов. В исследовании отмечается, что это приводит к ошибкам измерения и возможному смещению в сторону многословности, когда подробные ответы получают более высокие баллы. Следовательно, результаты служат приближенными оценками, основанными на модели.
Проходные баллы были определены на основе предыдущих исследований: для уровня I требуется не менее 60 процентов по каждой теме и 70 процентов в целом. Для уровня II требуется не менее 50 процентов по каждой теме и 60 процентов в целом. Для уровня III требуется средний балл не менее 63 процентов по разделам с вопросами с множественным выбором и вопросами с развернутым ответом.
Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена. В то время как выпускники магистратуры уже освоили кодифицированные знания уровней I и II, последнее поколение сейчас развивает навыки сложного синтеза, необходимые для уровня III.
Следует помнить об обычных оговорках. Бенчмарки – особенно тесты с несколькими вариантами ответа – лишь намекают на производительность и потенциальное экономическое влияние. Прохождение теста не означает, что модель способна справиться с повседневной работой финансового аналитика, которая включает в себя встречи с клиентами, оценку рыночных настроений и принятие решений при неполной информации.
В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами, которые часто требуют понимания контекста и принятия решений. Экзамены проверяют отдельные знания, а не способность применять их в сложных, меняющихся ситуациях реального мира.
Исследователи также не могут исключить загрязнение данных. Хотя они использовали актуальные платные материалы, вопросы могли проникнуть в обучающие данные через перефразированный контент в общедоступных наборах данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.
Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора, похоже, вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.
Делегируйте часть рутинных задач вместе с BotHub! [5] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [6] вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник [7]
Автор: MrRjxrby
Источник [8]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23157
URLs in this post:
[1] мышления: http://www.braintools.ru/thinking
[2] ChatGPT: https://the-decoder.com/chatgpt-is-a-gpt-3-chatbot-from-openai-that-you-can-test-now/
[3] GPT-4: https://the-decoder.com/open-ai-gpt-4-announcement/
[4] исследование,: https://arxiv.org/abs/2512.08270
[5] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=REASONING_MODELS_CAN_EASILY_PASS_ALL_THREE_LEVELS_OF_THE_CFA_EXAM
[6] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7
[7] Источник: https://the-decoder.com/reasoning-models-now-ace-all-three-cfa-exam-levels/
[8] Источник: https://habr.com/ru/companies/bothub/news/976518/?utm_source=habrahabr&utm_medium=rss&utm_campaign=976518
Нажмите здесь для печати.