-
OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.
-
Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.
-
Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.
-
Adobe пришла в ChatGPT: Photoshop, Acrobat и Express теперь работают прямо в чате — базовое редактирование фото и PDF бесплатно.
-
Google представила Gemini 3 Pro: прорыв в vision — SOTA на MMMU Pro и Video MMMU, понимание документов, видео и пространства для робототехники и медицины.
-
NYT подала в суд на Perplexity: обвинения в извлечении контента из‑под paywall’а — Perplexity в центре юридического давления от крупнейших медиа мира.
OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня на GDPval и набрала 100% на AIME 2025
OpenAI представила GPT-5.2 — флагманскую модель для сложных рабочих задач. На бенчмарке GDPval (реальные задачи из 44 профессий) GPT-5.2 Thinking обходит или не уступает экспертам в 70.9% случаев. На математической олимпиаде AIME 2025 — 100%.
Ключевые результаты GPT-5.2 Thinking:
-
GDPval: 70.9% побед и ничьих против экспертов (было 38.8% у GPT-5).
-
SWE‑Bench Verified: 80.0% (было 76.3%).
-
GPQA Diamond: 92.4% (было 88.1%).
-
AIME 2025: 100% (было 94%).
-
ARC‑AGI-2: 52.9% (было 17.6% — рост в 3×).
-
Галлюцинации: на 30% меньше ошибок в ответах.
-
Длинный контекст: первая модель, которая почти достигает 100% точности на 4-needle MRCR до 256K токенов.
Три версии:
-
GPT-5.2 Instant: быстрая модель для повседневных задач, улучшенный тон общения.
-
GPT-5.2 Thinking: для сложных задач — код, длинные документы, математика, планирование.
-
GPT-5.2 Pro: максимальное качество для трудных вопросов, где важен результат, а не скорость.
Что улучшено:
-
Spreadsheets и презентации: существенно выше качество генерации, +9.3% на задачах инвестбанкинга.
-
Vision: ошибки сократились вдвое на графиках и интерфейсах.
-
Tool calling: 98.7% на Tau2-bench Telecom.
-
Фронтенд: заметно сильнее в сложном UI и 3D‑элементах.
-
Безопасность: улучшены ответы в чувствительных темах (ментальное здоровье, самоповреждения, эмоциональная зависимость от модели).
API‑цены:
-
GPT-5.2: $1.75 / $14 за млн токенов (вход/выход), скидка 90% на кэш.
-
GPT-5.2 Pro: $21 / $168 за млн токенов.
Доступность:
-
ChatGPT: выкатывается сегодня для платных тарифных планов (Plus, Pro, Go, Business, Enterprise).
-
API: доступно всем разработчикам.
OpenAI делает ставку на экономическую ценность: на задачах GDPval модель выдаёт результаты экспертного уровня в 11× быстрее и за <1% стоимости работы профессионалов.
Anthropic и OpenAI вместе передали ключевые AI-стандарты в новый фонд Agentic AI Foundation под эгидой Linux Foundation
Anthropic, OpenAI и Block создали Agentic AI Foundation (AAIF) — фонд под эгидой Linux Foundation для развития открытых стандартов агентного AI. Anthropic передаёт Model Context Protocol (MCP), OpenAI — формат AGENTS.md, Block — фреймворк goose. Google, Microsoft, AWS, Cloudflare и Bloomberg выступили поддерживающими участниками.
Что передано в фонд:
-
MCP (Anthropic): универсальный протокол подключения AI к внешним системам — 10 000+ публичных серверов, 97 млн+ загрузок SDK в месяц, принят ChatGPT, Cursor, Gemini, VS Code, Microsoft Copilot.
-
AGENTS.md (OpenAI): формат Markdown‑файла с инструкциями для AI‑агентов в репозиториях — принят в 60 000+ open‑source проектов и агентных фреймворках включая Cursor, Devin, GitHub Copilot, Jules.
-
goose (Block): открытый агентный фреймворк.
Зачем это нужно:
-
Проблема: без общих стандартов экосистема агентов фрагментируется на несовместимые силосы.
-
Решение: нейтральное управление под Linux Foundation (как у Kubernetes, PyTorch, Node.js).
-
Цель: интероперабельность, безопасность и переносимость агентов между платформами.
Участники:
-
Сооснователи: Anthropic, OpenAI, Block.
-
Поддержка: Google, Microsoft, AWS, Cloudflare, Bloomberg.
Редкий случай прямой кооперации главных конкурентов в AI: Anthropic и OpenAI совместно создают инфраструктуру, которая может стать «USB‑стандартом» для AI‑агентов.
Подробнее (Anthropic) → | Подробнее (OpenAI) → | AAIF →
Mistral AI выпустила Devstral 2 — открытую модель для кодинга с 72.2% на SWE-bench и CLI-агент Vibe для терминала
Mistral представила семейство coding‑моделей Devstral 2 (123B) и Devstral Small 2 (24B) с открытыми лицензиями. Флагман показывает 72.2% на SWE‑bench Verified — один из лучших результатов среди open‑weight моделей. Параллельно выпущен Vibe CLI — терминальный агент для автономной работы с кодом.
-
Devstral 2 (123B):
-
Производительность: 72.2% на SWE‑bench Verified.
-
Контекст: 256K токенов.
-
Эффективность: до 7× дешевле Claude Sonnet на реальных задачах.
-
Размер: в 5× меньше DeepSeek V3.2, в 8× меньше Kimi K2.
-
Лицензия: modified MIT.
-
API‑цена (после бесплатного периода): $0.40 / $2.00 за млн токенов (вход/выход).
-
-
Devstral Small 2 (24B):
-
Производительность: 68.0% на SWE‑bench Verified — конкурирует с моделями в 5× крупнее.
-
Развёртывание: работает на потребительских GPU и даже CPU‑only конфигурациях.
-
Мультимодальность: поддержка изображений.
-
Лицензия: Apache 2.0.
-
API‑цена: $0.10 / $0.30 за млн токенов.
-
-
Mistral Vibe CLI:
-
Назначение: терминальный агент для автономного решения задач разработки.
-
Возможности: навигация по кодовой базе, multi‑file orchestration, Git‑интеграция, автокомплит файлов через @
-
Интеграция: доступен как расширение в IDE Zed, поддерживает Agent Communication Protocol.
-
Лицензия: Apache 2.0.
-
-
Независимая оценка (human evaluation через Cline):
-
Devstral 2 vs DeepSeek V3.2: 42.8% побед vs 28.6% поражений.
-
Devstral 2 vs Claude Sonnet 4.5: Claude по‑прежнему предпочтительнее — разрыв с закрытыми моделями сохраняется.
-
Mistral усиливает позиции в open‑source сегменте для разработчиков: компактные модели с производительностью на уровне гигантов и полноценный CLI‑агент — прямая конкуренция Claude Code и Cursor.
Подробнее → | Devstral API → | Vibe CLI на GitHub →
Adobe интегрировала Photoshop, Acrobat и Express в ChatGPT: базовое редактирование фото и PDF бесплатно, прямо внутри чата
OpenAI и Adobe запустили приложения Photoshop, Acrobat и Express прямо внутри ChatGPT. Пользователи могут редактировать изображения и PDF через текстовые команды без переключения между приложениями.
Как работает:
-
Загрузить файл + написать команду: «Adobe Photoshop, blur the background of this image».
-
После первого вызова имя приложения можно не повторять в рамках сессии.
-
Результаты: либо варианты на выбор, либо UI‑элементы (слайдеры яркости, контраста).
Возможности Photoshop в ChatGPT:
-
Редактирование отдельных участков изображения.
-
Применение творческих эффектов.
-
Настройка яркости, контраста, экспозиции.
Возможности Acrobat в ChatGPT:
-
Редактирование существующих PDF.
-
Конвертация документов в PDF.
-
Извлечение текста и таблиц.
-
Сжатие и объединение файлов.
Возможности Express в ChatGPT:
-
Генерация и редактирование дизайнов: постеры, приглашения, графика для соцсетей.
-
Замена текста, изображений, изменение цветов, анимация элементов.
Доступность:
-
Бесплатно для пользователей ChatGPT (ограниченный функционал по сравнению с десктопными версиями).
-
Desktop, web, iOS — глобально.
-
Android: Express уже доступен, Photoshop и Acrobat — «coming soon».
-
Проекты можно продолжить в нативных приложениях Adobe.
Adobe делает ставку на conversational UI как способ снизить порог входа в профессиональные инструменты, а OpenAI получает мощный аргумент против Gemini, который добавил редактирование изображений в мае.
Google представила Gemini 3 Pro — мультимодальную модель с прорывом в понимании документов, видео и пространства
Google выпустила Gemini 3 Pro — флагманскую модель с фокусом на визуальное и пространственное рассуждение. Модель устанавливает SOTA на бенчмарках MMMU Pro и Video MMMU, а на CharXiv Reasoning (работа с графиками и таблицами) превосходит человеческий baseline с результатом 80.5%.
-
Понимание документов:
-
Derendering: обратное преобразование визуальных документов в структурированный код (HTML, LaTeX, Markdown).
-
OCR: распознавание рукописного текста, сложных таблиц, математических формул, включая документы XVIII века.
-
Multi‑step reasoning: анализ длинных отчётов с таблицами и графиками.
-
-
Пространственное понимание:
-
Pointing: вывод pixel‑precise координат для указания на объекты.
-
Open vocabulary: идентификация объектов и намерений без заранее заданного словаря.
-
Применение: робототехника (планирование действий), AR/XR‑устройства.
-
-
Понимание экрана:
-
Работа с desktop и mobile UI для автоматизации задач.
-
Применение: computer use agents, QA‑тестирование, UX‑аналитика.
-
-
Понимание видео:
-
High frame rate: анализ быстрых действий при >1 fps (например, механика удара в гольфе).
-
Thinking mode: причинно‑следственные рассуждения во времени.
-
Video‑to‑code: извлечение знаний из длинных видео и конвертация в работающий код.
-
-
Применение в индустриях:
-
Образование: визуальные задачи от средней школы до университета, интеграция с Nano Banana Pro.
-
Медицина: SOTA на MedXpertQA‑MM, VQA‑RAD, MicroVQA (радиология, микроскопия).
-
Право и финансы: анализ сложных контрактов с redlines, работа с отчётами.
-
-
Для разработчиков:
-
Новый параметр
media_resolution— баланс между качеством и стоимостью. -
Сохранение нативного aspect ratio изображений.
-
Доступен в Google AI Studio.
-
Google делает ставку на vision как ключевой дифференциатор: Gemini 3 Pro — не просто распознавание, а полноценное визуальное рассуждение с применением от робототехники до медицинской диагностики.
Подробнее → | Google AI Studio → | Документация →
New York Times подала в суд на Perplexity за нарушение авторских прав
NYT обвиняет Perplexity в использовании контента без разрешения и компенсации. Иск — рычаг для переговоров о лицензионных сделках.
Суть претензий:
-
RAG‑продукты Perplexity генерируют «дословные или почти дословные воспроизведения» контента NYT.
-
Perplexity извлекает контент из‑под paywall’а и доставляет его пользователям бесплатно.
-
Поисковик галлюцинирует информацию и ложно приписывает её NYT.
Позиция Perplexity:
-
«Издатели судятся с технологическими компаниями уже сто лет — это никогда не работало».
-
Запущен Publishers’ Program с долей рекламного дохода для партнёров.
-
Заключена лицензионная сделка с Getty Images.
Контекст:
-
NYT уже судится с OpenAI и Microsoft (один иск, со‑ответчики).
-
Против Perplexity также подали иски News Corp, Chicago Tribune, Encyclopedia Britannica, Nikkei, Reddit.
-
Cloudflare подтвердил: Perplexity скрейпит сайты, запретившие AI‑краулинг.
-
Прецедент: Anthropic согласилась на settlement в $1.5 млрд по иску о пиратских книгах.
Perplexity в центре юридического давления со стороны крупнейших медиа мира — иски формируют правовую базу для всей индустрии.
GPT-5.2 обходит экспертов, OpenAI и Anthropic жмут друг другу руки, а NYT жмёт Perplexity в суде — и всё это за одну неделю.
Что зацепило? Делитесь в комментариях!
Автор: tochka_team


