мультимодальность.

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

ВведениеКластеризация представляет собой одну из ключевых и востребованных задач в области машинного обучения. В общем смысле, её можно описать как процесс разделения группы объектов на подгруппы таким образом, чтобы схожие объекты оказались в одной и той же подгруппе. Эта задача актуальна в различных областях, таких как биология, психология, маркетинг, социология, лингвистика и компьютерная безопасность. В прошлом посте

продолжить чтение

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

продолжить чтение

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial, MERA Code и SWE-MERA

продолжить чтение

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision

продолжить чтение

GPT-5 и API Responses: зачем нужен ещё один стандарт?

Команда AI for Devs подготовила перевод статьи о новом API /v1/responses от OpenAI, который объединяет простоту Chat Completions и мощь Assistants, и при этом сохраняет состояние рассуждений, мультимодальность и встроенные инструменты. Это шаг к агентам будущего — и, похоже, к новому стандарту работы с моделями OpenAI.GPT-5 уже вышел, и мы хотим подробнее рассказать о наилучших способах его интеграции, об API Responses и о том, почему Responses идеально подходит для моделей рассуждения и для будущего, ориентированного на программных агентов.

продолжить чтение

Данные не кончатся: как LLM навсегда изменили сбор и разметку мультимодальных данных и привели нас к SynthOps

Привет! Эта статья посвящена синтетическим данным и тому, как сбор данных и их разметка изменились навсегда. Поговорим про мультимодальную синтетику (аудио и изображения), генераторы, валидаторы, примеры классных генераций, датасеты, роль LLMок в этих процессах и трансформацию привычных пайпланов в концепцию SynthOps, которая требует других подходов по работе с данными. Я достаточно долгое время разрабатывал софт для разметки всего и вся любой сложности, рассказывал про то как LLMки пришли на замену (или помощь) людям в текстовых и мультимодальных данных

продолжить чтение

Как изменится поиск: новые функции Google на базе искусственного интеллекта

Новый режим искусственного интеллекта Google, функции агентов и мультимодальные инструменты намекают на грядущие большие изменения в сфере поиска.

продолжить чтение

Как мы научили GigaChat слышать: погружение в аудиомодальность

В конце прошлого года мы рассказывали про эксперименты с аудиомодальностью GigaChat, эксклюзивно показывали стенд на нашей конференции. Теперь аудиомодальность GigaChat доступна всем — в веб-интерфейсе giga.chat и Telegram-боте!Сегодня мы расскажем, почему ушли от классической схемы ASR (Automatic Speech Recognition) + LLM и построили end-to-end модель, которая понимает речь; как устроена наша новая модель; на каких данных мы её обучали; и что из этого получилось.

продолжить чтение

Cohere выпускает Embed 4: новая модель для работы с большими объёмами данных

Расширенная генерация на основе поиска (RAG) по-прежнему является неотъемлемой частью современного увлечения агентским ИИ. Воспользовавшись сохраняющимся интересом к агентам, Cohere выпустила последнюю версию своей модели встраивания с более длинными контекстными окнами и большей мультимодальностью.

продолжить чтение

12
Rambler's Top100