- BrainTools - https://www.braintools.ru -

ByteDance анонсировал Seed-Thinking-v1.5, многообещающую модель AI, но пока недоступную для использования

Все началось с анонса модели OpenAI o1 [1] в сентябре 2024 года, но настоящий рывок произошел с выпуском DeepSeek R1 в январе 2025 года [2]. Теперь, похоже, большинство основных поставщиков и тренеров моделей AI включились в новую гонку, чтобы предоставить лучшие, быстрые и дешевые модели языка «рассуждений» AI — то есть такие, которые, возможно, потребуют немного больше времени для ответа пользователю-человеку, но в идеале будут давать лучшие, более полные, более «аргументированные» ответы, которые эти классы моделей получают, выполняя «цепочку мыслей», размышляя над собственными выводами и проверяя их на достоверность перед ответом.

ByteDance анонсировал Seed-Thinking-v1.5, многообещающую модель AI, но пока недоступную для использования - 1

ByteDance, китайский интернет-гигант, родитель TikTok, присоединился к вечеринке, объявив и [3] опубликовав техническую статью [4] по Seed-Thinking-v1.5 — будущей большой языковой модели (LLM), предназначенной для повышения эффективности рассуждений в областях науки, техники, математики [5] и инженерии (STEM), а также в областях общего назначения.

Модель пока недоступна для загрузки или использования, и неясно, какими будут условия лицензирования — будет ли она проприетарной/с закрытым исходным кодом, с открытым исходным кодом/бесплатной для всех, чтобы использовать и изменять по желанию, или где-то посередине. Тем не менее, технический документ содержит некоторые примечательные детали, которые стоит рассмотреть сейчас и заранее, когда они станут доступны.

Как и новая Llama 4 от Meta [6] и предыдущая Mixtral от Mistral [7], Seed-Thinking-v1.5 построен с использованием архитектуры Mixture-of-Experts (MoE). Эта архитектура разработана для повышения эффективности моделей. По сути, она объединяет возможности нескольких моделей в одну, каждая из которых специализируется в своей области.

В этом случае архитектура MoE означает, что Seed-Thinking-v1.5 использует только 20 миллиардов из 200 миллиардов параметров одновременно. ByteDance в своей технической статье, опубликованной на GitHub, [4] сообщает, что Seed-Thinking-v1.5 отдает приоритет структурированному рассуждению и генерации продуманных ответов.

Результаты почти говорят сами за себя: Seed-Thinking-v1.5 превосходит DeepSeek R1 и приближается к недавно выпущенному Google Gemini 2.5 Pro и o3-mini-high reasoner от OpenAI по многим сторонним оценкам. Он даже превосходит эти два в случае с бенчмарком ARC -AGI [8], который измеряет прогресс в направлении искусственного интеллекта [9] в целом, рассматриваемого как цель AI. Эта модель превосходит людей по большинству экономически значимых задач, согласно определению OpenAI.

ByteDance анонсировал Seed-Thinking-v1.5, многообещающую модель AI, но пока недоступную для использования - 2

Позиционируемый как компактная, но способная альтернатива более крупным современным моделям, Seed-Thinking-v1.5 достигает конкурентоспособных результатов бенчмарков. Он представляет инновации в области обучения [10] с подкреплением [11] (RL), курирование данных для обучения и инфраструктуру AI.

Seed-Thinking-v1.5 демонстрирует высокую производительность в наборе сложных задач, набрав 86,7% на AIME 2024, 55,0% pass@8 на Codeforces и 77,3% на научном бенчмарке GPQA. Эти результаты приближают его или ставят в один ряд с такими моделями, как o3-mini-high от OpenAI и Gemini 2.5 Pro от Google по определенным метрикам рассуждения.

При выполнении задач, не требующих рассуждений, модель оценивалась путем сравнения с предпочтениями человека и показала на 8,0% более высокий процент побед по сравнению с DeepSeek R1, что говорит о том, что ее сильные стороны выходят за рамки задач на логику [12] или сложные математические задачи.

Чтобы справиться с перенасыщением в стандартных бенчмарках, таких как AIME, ByteDance представил BeyondAIME, новый, более сложный математический бенчмарк с кураторскими задачами, разработанными для сопротивления запоминанию [13] и лучшей дискриминации производительности модели. Ожидается, что этот набор и набор оценок Codeforces будут опубликованы для поддержки будущих исследований.

Источник [14]

Автор: dilnaz_04

Источник [15]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/14245

URLs in this post:

[1] модели OpenAI o1: https://venturebeat.com/ai/forget-gpt-5-openai-launches-new-ai-model-family-o1-claiming-phd-level-performance/

[2] выпуском DeepSeek R1 в январе 2025 года: https://venturebeat.com/ai/why-everyone-in-ai-is-freaking-out-about-deepseek/

[3] и: https://x.com/eric_haibin_lin/status/1910433772782444904

[4] техническую статью: https://github.com/ByteDance-Seed/Seed-Thinking-v1.5/blob/main/seed-thinking-v1.5.pdf

[5] математики: http://www.braintools.ru/article/7620

[6] новая Llama 4 от Meta: https://venturebeat.com/ai/metas-answer-to-deepseek-is-here-llama-4-launches-with-long-context-scout-and-maverick-models-and-2t-parameter-behemoth-on-the-way/

[7] Mixtral от Mistral: https://venturebeat.com/ai/mistral-ai-drops-new-mixture-of-experts-model-with-a-torrent-link/

[8] -AGI: https://arcprize.org/arc-agi

[9] интеллекта: http://www.braintools.ru/article/7605

[10] обучения: http://www.braintools.ru/article/5125

[11] подкреплением: http://www.braintools.ru/article/5528

[12] логику: http://www.braintools.ru/article/7640

[13] запоминанию: http://www.braintools.ru/article/722

[14] Источник: https://venturebeat.com/ai/now-its-tiktok-parent-bytedances-turn-for-a-reasoning-ai-enter-seed-thinking-v1-5/

[15] Источник: https://habr.com/ru/companies/bothub/news/900838/?utm_source=habrahabr&utm_medium=rss&utm_campaign=900838

www.BrainTools.ru

Rambler's Top100