мультимодальность.

Gemini 3.1 Pro: Google выкатила новую «базовую» модель для сложных задач и агентных сценариев

Google продолжает прокачивать линейку Gemini и сегодня выкатила Gemini 3.1 Pro — модель, которую позиционируют как «базовую умную силу» для задач, где обычного ответа «вот ссылка / вот краткий совет» уже не хватает. Речь про многошаговые рассуждения, сведение данных в единую картину, объяснения сложных тем «с картинкой в голове» и генерацию более «инженерного» результата, а не просто текста. Неделю назад Google обновила Gemini 3 Deep Think

продолжить чтение

ByteDance приостановила работу опции генерации голоса по фото в Seedance 2

В начале февраля китайская Bytedance выпустила Seedance 2.0 — генератор видео на основе искусственного интеллекта, который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.

продолжить чтение

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.

продолжить чтение

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

ВведениеКластеризация представляет собой одну из ключевых и востребованных задач в области машинного обучения. В общем смысле, её можно описать как процесс разделения группы объектов на подгруппы таким образом, чтобы схожие объекты оказались в одной и той же подгруппе. Эта задача актуальна в различных областях, таких как биология, психология, маркетинг, социология, лингвистика и компьютерная безопасность. В прошлом посте

продолжить чтение

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

продолжить чтение

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial, MERA Code и SWE-MERA

продолжить чтение

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision

продолжить чтение

GPT-5 и API Responses: зачем нужен ещё один стандарт?

Команда AI for Devs подготовила перевод статьи о новом API /v1/responses от OpenAI, который объединяет простоту Chat Completions и мощь Assistants, и при этом сохраняет состояние рассуждений, мультимодальность и встроенные инструменты. Это шаг к агентам будущего — и, похоже, к новому стандарту работы с моделями OpenAI.GPT-5 уже вышел, и мы хотим подробнее рассказать о наилучших способах его интеграции, об API Responses и о том, почему Responses идеально подходит для моделей рассуждения и для будущего, ориентированного на программных агентов.

продолжить чтение

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных

продолжить чтение

12
Rambler's Top100