Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA. ai.. ai. cfa.. ai. cfa. Claude.. ai. cfa. Claude. deepseek.. ai. cfa. Claude. deepseek. gemini.. ai. cfa. Claude. deepseek. gemini. gpt.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь. ИИ.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть.. ai. cfa. Claude. deepseek. gemini. gpt. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть. финансы.
Рассуждающие модели с легкостью могут сдать все три уровня экзамена CFA - 1

Новое исследование показывает, что современные модели логического мышления способны пройти сложный тест для финансовых аналитиков. Gemini 3.0 Pro установил рекорд, набрав 97,6% на первом уровне.

Сертификация Chartered Financial Analyst (CFA) широко считается одной из самых сложных квалификаций в финансовой сфере. Трехэтапный экзамен проверяет навыки, постепенно усложняющиеся от фундаментальных знаний до их применения, анализа и сложного построения инвестиционного портфеля.

В 2023 году ведущие языковые модели того времени уже могли отвечать на некоторые вопросы экзамена CFA. Однако результаты были неоднозначными. ChatGPT (3.5) не справился с уровнями I и II. GPT-4 смог пройти уровень I, но не справился с уровнем II. В конце концов, GPT-4o, работающий как чистая языковая модель, успешно прошел все три уровня.

Новое исследование, проведенное учеными из Колумбийского университета, Политехнического института Ренсселера и Университета Северной Каролины, показывает, что нынешнее поколение моделей рассуждений проходит все три уровня, иногда с почти идеальными результатами.

Исследователи протестировали шесть моделей логического мышления, ответив на 980 экзаменационных вопросов: три экзамена первого уровня (540 вопросов с множественным выбором), два экзамена второго уровня (176 вопросов, основанных на конкретных примерах) и три экзамена третьего уровня (264 вопроса, включая вопросы с открытым ответом). Результат: Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 и DeepSeek-V3.1 прошли все уровни на основе установленных критериев.

Gemini и GPT-5 лидируют в этом списке.

Gemini 3.0 Pro показал рекордный результат в 97,6% на первом уровне, базовом тесте, состоящем из независимых вопросов с несколькими вариантами ответа. За ним следует GPT-5 с результатом 96,1%, а Gemini 2.5 Pro – 95,7%. Даже самая слабая из протестированных моделей, DeepSeek-V3.1, набрала 90,9%.

GPT-5 заняла лидирующую позицию на втором уровне, который проверяет применение и анализ на основе тематических исследований, набрав 94,3 процента. Gemini 3.0 Pro достигла 93,2 процента, а Gemini 2.5 Pro – 92,6 процента. Исследователи отметили, что модели показали здесь «почти идеальные результаты». Проблема оказалась в этических аспектах. Исследователи сообщили об относительном уровне ошибок от 17 до 21 процента на втором уровне, даже для моделей с наилучшими результатами.

На третьем уровне – самом сложном этапе, сочетающем вопросы с множественным выбором и вопросы с открытым ответом – Gemini 2.5 Pro показал лучшие результаты в вопросах с множественным выбором, набрав 86,4%. Однако Gemini 3.0 Pro превзошел конкурентов в вопросах с развернутым ответом, набрав 92,0%, что является значительным скачком по сравнению с 82,8% у его предшественника.

Уровень

Лучшая модель

Результат

Уровень I (тест с множественным выбором)

Gemini 3.0 Pro

97,6%

Уровень II (тест с множественным выбором)

ГПТ-5

94,3%

Уровень III (тест с множественным выбором)

Gemini 2.5 Pro

86,4%

Уровень III (ответы в развернутой форме)

Gemini 3.0 Pro

92,0%

Общий рейтинг

Gemini 3.0 Pro

1-е место

В исследовании использованы пробные экзамены CFA, составленные на основе официального практического пакета CFA Institute (уровни I и II) и пробных экзаменов AnalystPrep (уровень III). Для уровней I и II использовались официальные материалы, а для уровня III – пробные экзамены сторонних организаций, чтобы обеспечить сопоставимость с предыдущими исследованиями.

Модель o4-mini автоматизировала оценку открытых ответов. В исследовании отмечается, что это приводит к ошибкам измерения и возможному смещению в сторону многословности, когда подробные ответы получают более высокие баллы. Следовательно, результаты служат приближенными оценками, основанными на модели.

Проходные баллы были определены на основе предыдущих исследований: для уровня I требуется не менее 60 процентов по каждой теме и 70 процентов в целом. Для уровня II требуется не менее 50 процентов по каждой теме и 60 процентов в целом. Для уровня III требуется средний балл не менее 63 процентов по разделам с вопросами с множественным выбором и вопросами с развернутым ответом.

Сдать тест не означает выполнять работу.

Исследователи утверждают, что результаты свидетельствуют о том, что модели рассуждений превосходят уровень знаний, требуемый от финансовых аналитиков начального и среднего уровня, и в будущем могут достичь уровня финансовых аналитиков высшего звена. В то время как выпускники магистратуры уже освоили кодифицированные знания уровней I и II, последнее поколение сейчас развивает навыки сложного синтеза, необходимые для уровня III.

Следует помнить об обычных оговорках. Бенчмарки – особенно тесты с несколькими вариантами ответа – лишь намекают на производительность и потенциальное экономическое влияние. Прохождение теста не означает, что модель способна справиться с повседневной работой финансового аналитика, которая включает в себя встречи с клиентами, оценку рыночных настроений и принятие решений при неполной информации.

В исследовании также отмечается, что модели по-прежнему испытывают наибольшие трудности с этическими вопросами, которые часто требуют понимания контекста и принятия решений. Экзамены проверяют отдельные знания, а не способность применять их в сложных, меняющихся ситуациях реального мира.

Исследователи также не могут исключить загрязнение данных. Хотя они использовали актуальные платные материалы, вопросы могли проникнуть в обучающие данные через перефразированный контент в общедоступных наборах данных. Это означает, что существует вероятность того, что модели просто знали ответы, а не анализировали их.

Тем не менее, скачок от неудачного к почти идеальному всего за два года подчеркивает стремительное развитие ИИ в специализированных областях. Для финансового сектора, похоже, вопрос уже не в том, может ли ИИ освоить материал, а в том, как интегрировать эти знания в реальные рабочие процессы.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Rambler's Top100