OpenAI выкатывает GPT-5.2 экспертного уровня, конкуренты объединяются ради стандартов: главное новости AI за неделю. ai.. ai. chatgpt.. ai. chatgpt. perplexity.. ai. chatgpt. perplexity. Блог компании Точка Банк.. ai. chatgpt. perplexity. Блог компании Точка Банк. ИИ.. ai. chatgpt. perplexity. Блог компании Точка Банк. ИИ. искусственный интеллект.. ai. chatgpt. perplexity. Блог компании Точка Банк. ИИ. искусственный интеллект. Машинное обучение.. ai. chatgpt. perplexity. Блог компании Точка Банк. ИИ. искусственный интеллект. Машинное обучение. новости.. ai. chatgpt. perplexity. Блог компании Точка Банк. ИИ. искусственный интеллект. Машинное обучение. новости. новости технологий.
  • OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня — обходит или не уступает профессионалам в 70.9% задач на GDPval (44 профессии), 100% на AIME 2025, 80% на SWE‑Bench Verified, галлюцинаций на 30% меньше, работает в 11× быстрее за <1% стоимости.

  • Anthropic и OpenAI передали ключевые стандарты в новый Agentic AI Foundation: MCP и AGENTS.md теперь под управлением Linux Foundation — редкая кооперация конкурентов ради общей инфраструктуры для AI‑агентов.

  • Mistral выпустила Devstral 2: открытая coding‑модель с 72.2% на SWE‑bench, в 5× меньше DeepSeek V3.2, плюс CLI‑агент Vibe для терминала.

  • Adobe пришла в ChatGPT: Photoshop, Acrobat и Express теперь работают прямо в чате — базовое редактирование фото и PDF бесплатно.

  • Google представила Gemini 3 Pro: прорыв в vision — SOTA на MMMU Pro и Video MMMU, понимание документов, видео и пространства для робототехники и медицины.

  • NYT подала в суд на Perplexity: обвинения в извлечении контента из‑под paywall’а — Perplexity в центре юридического давления от крупнейших медиа мира.

OpenAI выпустила GPT-5.2: модель впервые достигла экспертного уровня на GDPval и набрала 100% на AIME 2025

OpenAI представила GPT-5.2 — флагманскую модель для сложных рабочих задач. На бенчмарке GDPval (реальные задачи из 44 профессий) GPT-5.2 Thinking обходит или не уступает экспертам в 70.9% случаев. На математической олимпиаде AIME 2025 — 100%.

Ключевые результаты GPT-5.2 Thinking:

  • GDPval: 70.9% побед и ничьих против экспертов (было 38.8% у GPT-5).

  • SWE‑Bench Verified: 80.0% (было 76.3%).

  • GPQA Diamond: 92.4% (было 88.1%).

  • AIME 2025: 100% (было 94%).

  • ARC‑AGI-2: 52.9% (было 17.6% — рост в 3×).

  • Галлюцинации: на 30% меньше ошибок в ответах.

  • Длинный контекст: первая модель, которая почти достигает 100% точности на 4-needle MRCR до 256K токенов.

Три версии:

  • GPT-5.2 Instant: быстрая модель для повседневных задач, улучшенный тон общения.

  • GPT-5.2 Thinking: для сложных задач — код, длинные документы, математика, планирование.

  • GPT-5.2 Pro: максимальное качество для трудных вопросов, где важен результат, а не скорость.

Что улучшено:

  • Spreadsheets и презентации: существенно выше качество генерации, +9.3% на задачах инвестбанкинга.

  • Vision: ошибки сократились вдвое на графиках и интерфейсах.

  • Tool calling: 98.7% на Tau2-bench Telecom.

  • Фронтенд: заметно сильнее в сложном UI и 3D‑элементах.

  • Безопасность: улучшены ответы в чувствительных темах (ментальное здоровье, самоповреждения, эмоциональная зависимость от модели).

API‑цены:

  • GPT-5.2: $1.75 / $14 за млн токенов (вход/выход), скидка 90% на кэш.

  • GPT-5.2 Pro: $21 / $168 за млн токенов.

Доступность:

  • ChatGPT: выкатывается сегодня для платных тарифных планов (Plus, Pro, Go, Business, Enterprise).

  • API: доступно всем разработчикам.

OpenAI делает ставку на экономическую ценность: на задачах GDPval модель выдаёт результаты экспертного уровня в 11× быстрее и за <1% стоимости работы профессионалов.

Подробнее → | System Card →

Anthropic и OpenAI вместе передали ключевые AI-стандарты в новый фонд Agentic AI Foundation под эгидой Linux Foundation

Anthropic, OpenAI и Block создали Agentic AI Foundation (AAIF) — фонд под эгидой Linux Foundation для развития открытых стандартов агентного AI. Anthropic передаёт Model Context Protocol (MCP), OpenAI — формат AGENTS.md, Block — фреймворк goose. Google, Microsoft, AWS, Cloudflare и Bloomberg выступили поддерживающими участниками.

Что передано в фонд:

  • MCP (Anthropic): универсальный протокол подключения AI к внешним системам — 10 000+ публичных серверов, 97 млн+ загрузок SDK в месяц, принят ChatGPT, Cursor, Gemini, VS Code, Microsoft Copilot.

  • AGENTS.md (OpenAI): формат Markdown‑файла с инструкциями для AI‑агентов в репозиториях — принят в 60 000+ open‑source проектов и агентных фреймворках включая Cursor, Devin, GitHub Copilot, Jules.

  • goose (Block): открытый агентный фреймворк.

Зачем это нужно:

  • Проблема: без общих стандартов экосистема агентов фрагментируется на несовместимые силосы.

  • Решение: нейтральное управление под Linux Foundation (как у Kubernetes, PyTorch, Node.js).

  • Цель: интероперабельность, безопасность и переносимость агентов между платформами.

Участники:

  • Сооснователи: Anthropic, OpenAI, Block.

  • Поддержка: Google, Microsoft, AWS, Cloudflare, Bloomberg.

Редкий случай прямой кооперации главных конкурентов в AI: Anthropic и OpenAI совместно создают инфраструктуру, которая может стать «USB‑стандартом» для AI‑агентов.

Подробнее (Anthropic) → | Подробнее (OpenAI) → | AAIF →

Mistral AI выпустила Devstral 2 — открытую модель для кодинга с 72.2% на SWE-bench и CLI-агент Vibe для терминала

Mistral представила семейство coding‑моделей Devstral 2 (123B) и Devstral Small 2 (24B) с открытыми лицензиями. Флагман показывает 72.2% на SWE‑bench Verified — один из лучших результатов среди open‑weight моделей. Параллельно выпущен Vibe CLI — терминальный агент для автономной работы с кодом.

  • Devstral 2 (123B):

    • Производительность: 72.2% на SWE‑bench Verified.

    • Контекст: 256K токенов.

    • Эффективность: до 7× дешевле Claude Sonnet на реальных задачах.

    • Размер: в 5× меньше DeepSeek V3.2, в 8× меньше Kimi K2.

    • Лицензия: modified MIT.

    • API‑цена (после бесплатного периода): $0.40 / $2.00 за млн токенов (вход/выход).

  • Devstral Small 2 (24B):

    • Производительность: 68.0% на SWE‑bench Verified — конкурирует с моделями в 5× крупнее.

    • Развёртывание: работает на потребительских GPU и даже CPU‑only конфигурациях.

    • Мультимодальность: поддержка изображений.

    • Лицензия: Apache 2.0.

    • API‑цена: $0.10 / $0.30 за млн токенов.

  • Mistral Vibe CLI:

    • Назначение: терминальный агент для автономного решения задач разработки.

    • Возможности: навигация по кодовой базе, multi‑file orchestration, Git‑интеграция, автокомплит файлов через @

    • Интеграция: доступен как расширение в IDE Zed, поддерживает Agent Communication Protocol.

    • Лицензия: Apache 2.0.

  • Независимая оценка (human evaluation через Cline):

    • Devstral 2 vs DeepSeek V3.2: 42.8% побед vs 28.6% поражений.

    • Devstral 2 vs Claude Sonnet 4.5: Claude по‑прежнему предпочтительнее — разрыв с закрытыми моделями сохраняется.

Mistral усиливает позиции в open‑source сегменте для разработчиков: компактные модели с производительностью на уровне гигантов и полноценный CLI‑агент — прямая конкуренция Claude Code и Cursor.

Подробнее → | Devstral API → | Vibe CLI на GitHub →

Adobe интегрировала Photoshop, Acrobat и Express в ChatGPT: базовое редактирование фото и PDF бесплатно, прямо внутри чата

OpenAI и Adobe запустили приложения Photoshop, Acrobat и Express прямо внутри ChatGPT. Пользователи могут редактировать изображения и PDF через текстовые команды без переключения между приложениями.

Как работает:

  • Загрузить файл + написать команду: «Adobe Photoshop, blur the background of this image».

  • После первого вызова имя приложения можно не повторять в рамках сессии.

  • Результаты: либо варианты на выбор, либо UI‑элементы (слайдеры яркости, контраста).

Возможности Photoshop в ChatGPT:

  • Редактирование отдельных участков изображения.

  • Применение творческих эффектов.

  • Настройка яркости, контраста, экспозиции.

Возможности Acrobat в ChatGPT:

  • Редактирование существующих PDF.

  • Конвертация документов в PDF.

  • Извлечение текста и таблиц.

  • Сжатие и объединение файлов.

Возможности Express в ChatGPT:

  • Генерация и редактирование дизайнов: постеры, приглашения, графика для соцсетей.

  • Замена текста, изображений, изменение цветов, анимация элементов.

Доступность:

  • Бесплатно для пользователей ChatGPT (ограниченный функционал по сравнению с десктопными версиями).

  • Desktop, web, iOS — глобально.

  • Android: Express уже доступен, Photoshop и Acrobat — «coming soon».

  • Проекты можно продолжить в нативных приложениях Adobe.

Adobe делает ставку на conversational UI как способ снизить порог входа в профессиональные инструменты, а OpenAI получает мощный аргумент против Gemini, который добавил редактирование изображений в мае.

Подробнее →

Google представила Gemini 3 Pro — мультимодальную модель с прорывом в понимании документов, видео и пространства

Google выпустила Gemini 3 Pro — флагманскую модель с фокусом на визуальное и пространственное рассуждение. Модель устанавливает SOTA на бенчмарках MMMU Pro и Video MMMU, а на CharXiv Reasoning (работа с графиками и таблицами) превосходит человеческий baseline с результатом 80.5%.

  • Понимание документов:

    • Derendering: обратное преобразование визуальных документов в структурированный код (HTML, LaTeX, Markdown).

    • OCR: распознавание рукописного текста, сложных таблиц, математических формул, включая документы XVIII века.

    • Multi‑step reasoning: анализ длинных отчётов с таблицами и графиками.

  • Пространственное понимание:

    • Pointing: вывод pixel‑precise координат для указания на объекты.

    • Open vocabulary: идентификация объектов и намерений без заранее заданного словаря.

    • Применение: робототехника (планирование действий), AR/XR‑устройства.

  • Понимание экрана:

    • Работа с desktop и mobile UI для автоматизации задач.

    • Применение: computer use agents, QA‑тестирование, UX‑аналитика.

  • Понимание видео:

    • High frame rate: анализ быстрых действий при >1 fps (например, механика удара в гольфе).

    • Thinking mode: причинно‑следственные рассуждения во времени.

    • Video‑to‑code: извлечение знаний из длинных видео и конвертация в работающий код.

  • Применение в индустриях:

    • Образование: визуальные задачи от средней школы до университета, интеграция с Nano Banana Pro.

    • Медицина: SOTA на MedXpertQA‑MM, VQA‑RAD, MicroVQA (радиология, микроскопия).

    • Право и финансы: анализ сложных контрактов с redlines, работа с отчётами.

  • Для разработчиков:

    • Новый параметр media_resolution — баланс между качеством и стоимостью.

    • Сохранение нативного aspect ratio изображений.

    • Доступен в Google AI Studio.

Google делает ставку на vision как ключевой дифференциатор: Gemini 3 Pro — не просто распознавание, а полноценное визуальное рассуждение с применением от робототехники до медицинской диагностики.

Подробнее → | Google AI Studio → | Документация →

New York Times подала в суд на Perplexity за нарушение авторских прав

NYT обвиняет Perplexity в использовании контента без разрешения и компенсации. Иск — рычаг для переговоров о лицензионных сделках.

Суть претензий:

  • RAG‑продукты Perplexity генерируют «дословные или почти дословные воспроизведения» контента NYT.

  • Perplexity извлекает контент из‑под paywall’а и доставляет его пользователям бесплатно.

  • Поисковик галлюцинирует информацию и ложно приписывает её NYT.

Позиция Perplexity:

  • «Издатели судятся с технологическими компаниями уже сто лет — это никогда не работало».

  • Запущен Publishers’ Program с долей рекламного дохода для партнёров.

  • Заключена лицензионная сделка с Getty Images.

Контекст:

  • NYT уже судится с OpenAI и Microsoft (один иск, со‑ответчики).

  • Против Perplexity также подали иски News Corp, Chicago Tribune, Encyclopedia Britannica, Nikkei, Reddit.

  • Cloudflare подтвердил: Perplexity скрейпит сайты, запретившие AI‑краулинг.

  • Прецедент: Anthropic согласилась на settlement в $1.5 млрд по иску о пиратских книгах.

Perplexity в центре юридического давления со стороны крупнейших медиа мира — иски формируют правовую базу для всей индустрии.

Подробнее →


GPT-5.2 обходит экспертов, OpenAI и Anthropic жмут друг другу руки, а NYT жмёт Perplexity в суде — и всё это за одну неделю.

Что зацепило? Делитесь в комментариях!

Автор: tochka_team

Источник

Rambler's Top100