LLM на арене матбоёв. chatgpt.. chatgpt. deepseek.. chatgpt. deepseek. llm.. chatgpt. deepseek. llm. Блог компании Raft.. chatgpt. deepseek. llm. Блог компании Raft. искусственный интеллект.. chatgpt. deepseek. llm. Блог компании Raft. искусственный интеллект. матбой.

Любите ли вы математику настолько сильно, насколько люблю её я? Если да, то хотя бы раз в своей жизни вы как минимум слышали, а как максимум – участвовали в матбоях. А какие чувства у вас вызывают LLM? Для меня, как и для части нашей R’n’D&ML команды, они являются другой любовью.

Этой осенью представилась прекрасная возможность испытать эти чувства в унисон: нас пригласили на матбой, проходившей в школе ГОУ “СШ № 33 им. К. Маркса с углублённым изучением математики” города Ярославль в качестве специалистов по AI.

Перед нами стояла задача проверить, способны ли большие языковые модели составить серьёзную конкуренцию подготовленным олимпиадникам в real-time режиме. Но обо всём по порядку…

Что же такое матбой?

Матбой — это соревнования между 2 командами юных математиков, в которых за отведённое время участники решают олимпиадные задачки, а затем по системе вызовов презентуют их жюри и соперникам, получая баллы.

Для определения команды, которая первой бросит вызов, в начале состязания капитаны решают простую задачу на сообразительность. Это называют игрой капитанов: кто быстрее даст правильный ответ, тот побеждает, но если спешка приводит к ошибке, то победа уходит к сопернику. Победитель определяет бросающего вызов.

Системы вызовов, в свою очередь, вариативны. Однако общая концепция заключается в следующем: соперников просят предоставить решение конкретной задачи, после чего они соглашаются или отказываются, и так определяется команда докладчиков. Затем их решение сначала разбирает жюри, а потом оппонент, стараясь найти слабые места и ошибки.

Выбор моделей

Критерии:

Общедоступность. Ключевой критерий выбора, так как участники матбоя должны иметь возможность самостоятельно проводить эксперименты.
Разработчики модели. Было интересно протестировать конкурентоспособность крупнейших отечественных моделей как между собой, так и с зарубежными разработками.
Рассуждение. В первой половине осени появился ряд моделей со “встроенным” механизмом рассуждения, в то время как в большинстве случаев подробного и качественного рассуждения добиваются с помощью техники Chain-of-Thought.

После данной фильтрации были выбраны следующие модели:

Название модели	Вендор	Хостинг	Дата последнего обновления
ChatGPT o1 preview	OpenAi	Closed, API based	сентябрь 2024
DeepSeek R1 Lite	DeepSeek	OpenSource	ноябрь 2024
GigaChat Max	Сбербанк	Closed, API based	октябрь 2024

Как используем: настройки моделей

Во всех экспериментах применялись стандартные настройки моделей, а в качестве запросов использовались условия задач без дополнительных уточнений.

Однако для моделей, в которых “по умолчанию” не добавлен механизм подробных рассуждений, мы проводили по два эксперимента вместо одного: в первом эксперименте отправляли только условия, а во втором добавляли небольшую инструкцию, чтобы подтолкнуть модель к рассуждению:

Ты - профессиональный математик. Твой цель - решение олимпиадных 
математических задач. Далее тебе будут даны математические задачи различной 
сложности. При их решении не спеши сразу писать ответ,  подумай шаг за шагом, 
описывая все свои рассуждения.

Процесс боя: тестирование и валидация

На решение 8 задач разного уровня сложности было отведено 4 часа. За это время мы совместно с жюри проанализировали более 30 решений, сгенерированных LLM, оценивая их корректность, обоснованность и глубину рассуждений.

Общение с моделями осуществлялось в двух режимах: запрос в новом чате и продолжение уже использованного ранее для этой же задачи чата. Такой подход позволил исследовать, как наличие контекста влияет на итоговый ответ.

Давайте же рассмотрим две получившиеся группы решений.

Решения: главное – идея

Все те, кто участвовал в олимпиадах по математике, знают, что самое главное при решении любой задачи — это найти верную идею, а остальное — дело техники.

В половине задач LLM успешно справились с главным этапом, но не с техникой. Эти решения содержат арифметические ошибки и небольшие логические дыры. В то же время они являются наиболее качественными из полученных, поэтому были использованы для демонстрации участникам.

Задачи и их решения:

Баскетбольные команды

Условие-промпт:
Есть три списка баскетбольной команды: в одном игроки упорядочены по алфавиту, в другом – по росту, в третьем – по весу. Известно, что в любой тройке игроков найдутся двое, которые хотя бы в одном списке расположены рядом друг с другом. Каким наибольшим может быть число игроков в этой команде?
Решение с недочётами от DeepSeek R1 Lite
Чтобы решить задачу, нам нужно определить максимальное количество игроков в баскетбольной команде так, чтобы в любой тройке игроков как минимум двое были соседями хотя бы в одном из трех списков (алфавитном, по росту или по весу).

Пошаговое объяснение:
1. Понимание условия:
  - У нас есть три списка игроков, каждый отсортирован по-разному: в алфавитном порядке, по росту и по весу.
  - Для любой группы из трех игроков должно быть как минимум двое, которые соседние хотя бы в одном из трех списков.
2. Интерпретация через теорию графов:
  - Рассмотрим граф, где каждый игрок — это вершина.
  - Добавим ребро между двумя вершинами, если соответствующие игроки соседние хотя бы в одном из трех списков.
  - Условие подразумевает, что в этом графе нет независимого множества из трех (т.е. нет трех игроков, между которыми нет ребер).
3. Дополнительный граф:
  - В дополнительном графе есть ребра, где игроки не соседние ни в одном из трех списков.
  - Условие означает, что этот дополнительный граф должен быть без треугольников (т.е. ни три вершины не образуют независимое множество).
4. Использование теоремы Турана:
  - Теорема Турана дает максимальное количество ребер в графе без треугольников.
  - Для графа без треугольников с вершинами максимальное количество ребер равно .
5. Расчет минимального количества ребер в исходном графе:
  - Общее количество возможных ребер в исходном графе равно
    
    $binom{n}{2}=frac{n(n-1)}{2}$ .
  - Количество ребер в исходном графе должно быть как минимум
    
    $frac{n(n-1)}{2} - lfloor n^2 / 4 rfloor$ .
6. Соседства из трех списков:
  - Каждый список предоставляет соседств, и у нас есть три списка, что дает в общей сложности соседств.
  - Следовательно, нам нужно, чтобы
    
    $3(n-1) geq frac{n(n-1)}{2} - lfloor n^2 / 4 rfloor$ .
7. Решение для :
  - Для четного неравенство упрощается до , что выполняется для , давая .
  - Для нечетного неравенство упрощается до , что выполняется для , давая .
Заключение:

Максимальное возможное количество игроков в команде, удовлетворяющее данному условию, составляет .
Неразрешимое уравнение

Условие-промпт:
Зная о неразрешимости уравнения в ненулевых целых числах , и
, докажите неразрешимость уравнения $r + frac{1}{r}=s - frac{1}{s}$ в рациональных числах и .
Решение с недочётами от ChatGPT o1 preview
Дано уравнение: $r + frac{1}{r}=s - frac{1}{s}$

Нужно доказать, что нет рациональных чисел rrr и sss, удовлетворяющих этому уравнению, зная, что уравнение неразрешимо в ненулевых целых числах.

Шаг 1: Преобразование исходного уравнения

Начнем с преобразования данного уравнения, чтобы установить связь с известным неразрешимым уравнением.

Перепишем уравнение и приведем его к общему знаменателю:

$r + frac{1}{r}=s - frac{1}{s}\ Rightarrow r + frac{1}{r} - s + frac{1}{s}=0 \ Rightarrow (r - s) + left( frac{1}{r} + frac{1}{s} right)=0$

Объединим дроби:

$frac{rs(r−s)+(r+s)}{rs}=0$

Умножим обе части уравнения на rs:

Шаг 2: Анализ полученного уравнения

Получили уравнение:

Перенесем в правую часть:

Шаг 3: Представление через квадратные уравнения

Рассмотрим введение параметра , чтобы выразить и через него.

Пусть:

$r+ frac{1}{r}=t text{ и }s−frac{1}{s}=t$

Умножим обе части первого уравнения на , второго — на :

$r^2 + 1=t r quad (1) \ s^2 - 1=t s quad (2)$

Перенесем все в одну часть:

$r^2 - t r + 1=0 quad (3) \ s^2 - t s - 1=0 quad (4)$

Шаг 4: Исследование дискриминантов

Для того чтобы и были рациональными, необходимо, чтобы дискриминанты квадратных уравнений были квадратами рациональных чисел.

Дискриминанты:

$D_r=t^2 - 4 \ D_s=t^2 + 4$

Заметим, чтовсегда положителен, нобудет рациональным квадратом только если — квадрат рационального числа.

Шаг 5: Поиск рациональных ttt

Пусть — рациональное число. Тогда — рационально, и и — рациональны.

Необходимо, чтобы одновременно выполнялись условия:

$t^2 - 4=u^2 quad (5) \ t^2 + 4=v^2 quad (6)$

Где и — рациональные числа. Вычитая (5) из (6):

$(t^2 + 4) - (t^2 - 4)=v^2 - u^2 \ 8=v^2 - u^2 \ v^2 - u^2=8$

Решаем уравнение относительно и :

Рассмотрим целые делители числа :
1. (нецелое число).
2. .
Получаем , , тогда .

Но — иррационально. Значит, рациональных не существует.

Шаг 6: Вывод о рациональности и

Так как иррационально, дискриминанты и иррациональны, следовательно, и иррациональны.

Шаг 7: Связь с данным неразрешимым уравнением

Известно, что уравнениене имеет ненулевых целых решений.

Заметим, что если бы существовали рациональные решения исходного уравнения, то можно было бы получить целые решения уравнения, что противоречит заданному факту.

Заключение

Следовательно, уравнение $r + frac{1}{r}=s - frac{1}{s}$ не имеет решений в рациональных числах и .
Многочлены

Условие-промпт:
Задано чисел: . Для скольких многочленов степени могут выполняться равенств: $M_k=max_{k in [2k, 2k+1]} P(x)$ , где ?
Решение с недочётами от ChatGPT o1 preview
Давайте внимательно проанализируем поставленную задачу.

Дано: чисел .

Необходимо найти: количество многочленов степени , для которых выполняются равенства: $M_k=max_{x in [2k, 2k+1]} P(x)$ , где .

Рассуждение:
1. Степень многочлена и количество коэффициентов: Многочлен степени nnn имеет коэффициентов. Поэтому, чтобы определить такой многочлен однозначно, требуется независимых условий.
2. Максимум многочлена на отрезке: Максимум многочлена на отрезке достигается либо в критических точках внутри отрезка (где производная равна нулю), либо на концах отрезка.
3. Количество критических точек: Производная многочлена степени nnn является многочленом степени , поэтому у него не более различных корней. Это означает, что максимум внутри отрезка может быть достигнут не более чем в точках на всём множестве отрезков.
4. Анализ условий: Для каждого максимум может достигаться:
  - На левом конце отрезка .
  - На правом конце отрезка .
  - Внутри отрезка, где и .
5. Количество возможных комбинаций:
  - Для каждого отрезка есть 3 возможности (максимум на левом конце, правом конце или внутри отрезка).
  - Но максимум внутри отрезка может быть выбран не более чем для отрезков (из-за ограничения на количество критических точек).
6. Система уравнений:
  - У нас неизвестных коэффициентов многочлена.
  - При выборе максимумов внутри отрезков добавляются дополнительные неизвестные (точки, где достигается максимум внутри отрезка), но также добавляются соответствующие уравнения .
7. Заключение:
  - Для заданных и выбранной комбинации точек максимумов система уравнений либо имеет единственное решение, либо не имеет решений.
  - Таким образом, для фиксированных может существовать не более одного многочлена , удовлетворяющего условиям задачи.
  - В некоторых случаях решение может отсутствовать, если система уравнений противоречива (например, если заданные не согласуются с возможностями многочлена степени nnn).
Ответ: Не более одного многочлена степени может удовлетворять данным условиям; во многих случаях решения может не существовать вовсе.

Ответ: Не более одного многочлена степени может удовлетворять данным условиям; во многих случаях такого многочлена не существует вовсе.
Ближайшая лестница

Условие-промпт:
Пять лестниц по периметру прямоугольного бассейна расположены так, что для купающихся всегда найдется лестница ближе . Может ли площадь этого бассейна быть больше ?

Решение с недочётами от DeepSeek R1 Lite

Чтобы решить эту задачу, нам нужно определить, может ли прямоугольный бассейн с пятью лестницами, расположенными по периметру, иметь площадь больше 145 квадратных метров, при условии, что каждая точка в бассейне должна находиться в пределах 5 метров от лестницы.

Шаг 1: Понять требования к покрытию

Каждая лестница обеспечивает покрытие в круге радиусом 5 метров. Следовательно, для того чтобы вся площадь бассейна была покрыта, объединение этих пяти кругов (центрированных на позициях лестниц по периметру) должно покрывать весь бассейн.

Шаг 2: Рассмотреть покрытие периметра

Для пловцов условие заключается в том, что ни одна точка в бассейне не должна находиться более чем в 5 метрах от лестницы. Это подразумевает, что максимальная длина дуги между соседними лестницами вдоль периметра должна быть такой, чтобы любая точка на периметре находилась в пределах 5 метров от лестницы. Следовательно, длина дуги между двумя соседними лестницами не должна превышать 10 метров (так как каждая лестница может покрывать 5 метров с каждой стороны).

Шаг 3: Рассчитать ограничение по периметру

С пятью лестницами общий периметр должен быть меньше или равен метров. Таким образом, периметр бассейна должен удовлетворять:

Это подразумевает:

Шаг 4: Максимизировать площадь при ограничении по периметру

Для прямоугольника с фиксированным периметром максимальная площадь достигается, когда прямоугольник является квадратом. Следовательно, если метров, площадь будет:

Однако размещение пяти лестниц на равных интервалах (каждые 10 метров) по периметру этого квадрата не удовлетворяет условию, так как центр бассейна находится более чем в 5 метрах от ближайшей лестницы.

Шаг 5: Рассмотреть альтернативные прямоугольные конфигурации

Для общего прямоугольника с площадь может быть максимизирована при этом ограничении, но размещение лестниц должно гарантировать, что каждая точка в бассейне находится в пределах 5 метров от хотя бы одной лестницы. Учитывая сложность удовлетворения этого условия для больших площадей, вывод заключается в том, что площадь не может превышать 145 квадратных метров.

Окончательный ответ:

Нет, площадь бассейна не может быть больше 145 квадратных метров, удовлетворяя условию, что каждая точка в бассейне находится в пределах 5 метров от лестницы.

Решения: он был быстрее светлых мыслей

С остальной половиной задач все языковые модели не справились: было слишком много логических дыр или изначально неверный подход. По этим причинам приведу только формулировки условий:

Простые делители

Условие-промпт:
Решите уравнение , где – число простых делителей числа .
Геометрия: треугольник

Условие-промпт:
В остроугольном неравнобедренном треугольнике проведена высота . Рассматриваются прямые , пересекающие отрезки и в точках и , для которых . Докажите, что все такие прямые имеют общую точку.
Геометрия: четырёхугольник

Условие-промпт:
Дан выпуклый четырёхугольник , в котором . Окружность, проходящая через и , вторично пересекает прямые и в точках и . Докажите, что середины отрезков , и лежат на одной прямой.
Взвешивания

Условие-промпт:
В ювелирном салоне выставлено по бриллиантов весом и . Они соответствующим образом промаркированы, но продавец хочет убедиться, что никакие два бриллианты разного веса не перепутаны между собой. Докажите, что ему достаточно сделать три взвешивания на чашечных весах без гирь.

Какие выводы можно сделать?

Итак, языковые модели с функцией “рассуждения” способны находить подход к решению нетривиальных математических задач, описывая подробно и поэтапно шаги решения. Этот функционал доступен сразу “из коробки” и не требует знаний техник промптинга.

В то же время, для получения качественных решений по умолчанию важно, чтобы условия задач были подробными и однозначными, иначе высока вероятность, что модель зацепится за неоднозначность и поведёт рассуждения в ошибочном направлении.

Кроме ошибок, вызванных некорректными условиями, есть и арифметические, которые все LLM совершали в несложных выражениях, например, при вычислении дискриминанта. В длинных рассуждениях эти ошибки накапливаются и приводят к кардинальному изменению финального решения.

Теперь немного об особенностях тестируемых моделей:

Для всех моделей задание роли не оказало положительного воздействия на верность ответов. Однако отмечу, что роль можно усложнить и таким образом повысить качество ответов, но, на мой взгляд, данный подход уже не соответствует поведению среднестатистического пользователя, школьника.
Присутствие контекста в виде аналогичных пар задача-решение (in-context prompting) не имеет значительного влияния на качество ответов моделей, поэтому можно обходиться одним чатом.
В то же время модели плохо справляются с составлением аргументированных ответов на вопросы из разряда: Перепроверь решение и ответь на вопрос: 'Может ли число 17 быть ответом в данной задаче?' Вместо проверки гипотезы LLM перестроит своё решение так, чтобы ответ сходился с предположением. По этим причинам конструктивный разбор решений невозможен с использованием только базовых методов промптинга.

Итоги

Матбой завершился со счётом 0:1 в пользу математиков. Тестируемые модели, несмотря на поражение, показали хороший результат, решив с замечаниями 4 из 8 задач, в то время как остальные участники решили 6 задач на максимум. Наилучшие результаты с отрывом в качестве рассуждений и построения поэтапного, детализированного плана решения показали модели ChatGPT o1 preview и DeepSeek R1 Lite. С их помощью точные ответы на нетривиальные математические задачи может получить даже среднестатистический пользователь. Однако, в силу большого количества арифметических ошибок, наблюдаемых у всех моделей, включая GigaChat Max, конечные решения должны подвергаться тщательной проверке.

Автор: Grandik

Источник

Запись добавлена: 24.02.2025 в 08:05
Оставлено в

LLM на арене матбоёв

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Что же такое матбой?

Выбор моделей

Как используем: настройки моделей

Процесс боя: тестирование и валидация

Решения: главное – идея

Пошаговое объяснение:

Заключение:

Шаг 1: Понять требования к покрытию

Шаг 2: Рассмотреть покрытие периметра

Шаг 3: Рассчитать ограничение по периметру

Шаг 4: Максимизировать площадь при ограничении по периметру

Шаг 5: Рассмотреть альтернативные прямоугольные конфигурации

Окончательный ответ:

Решения: он был быстрее светлых мыслей

Какие выводы можно сделать?

Итоги

Советуем прочесть:

LLM на арене матбоёв

Меню навигации

Рекомендуем

На главную

Главное

Рубрики

Методики

Информация

Из архивов

Что же такое матбой?

Выбор моделей

Как используем: настройки моделей

Процесс боя: тестирование и валидация

Решения: главное – идея

Пошаговое объяснение:

Заключение:

Шаг 1: Понять требования к покрытию

Шаг 2: Рассмотреть покрытие периметра

Шаг 3: Рассчитать ограничение по периметру

Шаг 4: Максимизировать площадь при ограничении по периметру

Шаг 5: Рассмотреть альтернативные прямоугольные конфигурации

Окончательный ответ:

Решения: он был быстрее светлых мыслей

Какие выводы можно сделать?

Итоги

Советуем прочесть: