Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ. ai.. ai. arc.. ai. arc. gemini.. ai. arc. gemini. gpt.. ai. arc. gemini. gpt. Poetiq.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub. Будущее здесь.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub. Будущее здесь. ИИ.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное.. ai. arc. gemini. gpt. Poetiq. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. научно-популярное. нейросеть.
Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ - 1

Годами тест ARC считался практически непреодолимым препятствием для нейросетей, настоящим испытанием гибкого интеллекта, а не простого запоминания. Но новые результаты показывают, что даже этот барьер рушится под неустанной оптимизационной работой современных лабораторий искусственного интеллекта.

«Корпус абстракции и рассуждений», позже переименованный в ARC-AGI, изначально был разработан для отделения истинного обучения от статистического повторения. Теперь его постигла та же участь, что и многие предыдущие бенчмарки: новые методы его просто подавляют.

Новые результаты компании Poetiq, занимающейся разработкой ИИ, свидетельствуют об успешном решении исходного бенчмарка ARC-AGI-1. В недавнем заявлении компания утверждает, что её системы, построенные на моделях OpenAI и Google, достигли максимальной производительности на первом наборе данных. Более того, сообщается, что система превзошла средний человеческий результат в 60% на значительно более сложном наборе данных ARC-AGI-2.

Результаты Poetiq показывают, что исходный тест ARC-AGI-1 был в значительной степени решен, в то время как производительность на более сложном наборе данных ARC-AGI-2 теперь превышает средние человеческие показатели

Результаты Poetiq показывают, что исходный тест ARC-AGI-1 был в значительной степени решен, в то время как производительность на более сложном наборе данных ARC-AGI-2 теперь превышает средние человеческие показатели
Падение бенчмарка ARC стало очередной жертвой неустанной оптимизации ИИ - 3

Подход Poetiq сочетает в себе передовые языковые модели, включая Gemini 3 и GPT-5.1, с моделями с открытым исходным кодом, интегрированными в специализированную архитектуру. Согласно Poetiq , система работает по итеративному циклу: генерирует предлагаемые решения, оценивает обратную связь и уточняет ответы посредством самопроверки перед отправкой финального результата.


Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Автор: MrRjxrby

Источник

Rambler's Top100