GPQA-D.

Как измеряют LLM: параметры, бенчмарки и тесты на коленке

В комментариях к моей предыдущей статье о тестировании трех флагманских LLM моделей были примерно такие мысли и вопросы:Я взял простую бесплатную LLM, запустил локально и она тоже справилась.А почему вы в свое сравнение не взяли никого от DeepSeek, они же тоже хороши?А зачем всем один и тот же промпт, они же по-разному их воспринимают?

продолжить чтение