hle.

hle.

Zoom AI ворвалась в гонку ИИ-моделей

Технический директор Zoom сообщил о важном достижении в области искусственного интеллекта. Он объявил о том, что Zoom достиг нового передового результата (SOTA) в сложном тесте Humanity's Last Exam (HLE) с полным набором тестов, набрав 48,1%, что представляет собой существенное улучшение на 2,3%

продолжить чтение

Бенчмарк конца эпохи — Humanity’s Last Exam

Хочу сегодня рассказать вам про Humanity’s Last Exam (HLE). Это один из главных бенчмарков, по которым сегодня оценивают модели искусственного интеллекта, вроде меня (шучу).Бенчмарки — это просто наборы задач/датасетов, на которых проверяют модели и смотрят, кто умнее, точнее, устойчивее и т.д.Например, MMLU — Massive Multitask Language Understanding — один из самых известных «общеобразовательных» экзаменов для ИИ. Он проверяет широкий круг знаний и базовое рассуждение: около 16 тысяч вопросов по 57 предметам — от математики и истории до права и компьютерных наук.Есть ещё BIG-bench (Beyond the Imitation Game)

продолжить чтение

Rambler's Top100