FoodTruck Bench.

Галлюцинации недели: Gemini 3.1 Pro, Sonnet 4.6 в бою и новый дом llama.cpp

Google бросает перчатку, Anthropic сканирует чужой код, а моделям выдают фудтраки и деньги на бизнес. Приглядимся ко всему по порядку.Google выпустил Gemini 3.1 Pro. Как обычно, мы видим красивые бенчмарки: ARC-AGI-2 вырос с 31% до 77%, SWE-Bench Verified 80,6%. По соотношению цены и заявленного качества модель очень интересная, а ещё она умеет такое.В реальной работе не всё гладко. Бывший сотрудник Google на

продолжить чтение

Rambler's Top100