мультимодальность.

Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG

Мультимодальность в ИИ-агентахНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru

продолжить чтение

От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде

Агент 1С-консультант: от RAG-прототипа до агента в продакшнеНа связи Сергей Смирнов, AI-инженер LLMStart.ru

продолжить чтение

Gemini 3.1 Pro: Google выкатила новую «базовую» модель для сложных задач и агентных сценариев

Google продолжает прокачивать линейку Gemini и сегодня выкатила Gemini 3.1 Pro — модель, которую позиционируют как «базовую умную силу» для задач, где обычного ответа «вот ссылка / вот краткий совет» уже не хватает. Речь про многошаговые рассуждения, сведение данных в единую картину, объяснения сложных тем «с картинкой в голове» и генерацию более «инженерного» результата, а не просто текста. Неделю назад Google обновила Gemini 3 Deep Think

продолжить чтение

ByteDance приостановила работу опции генерации голоса по фото в Seedance 2

В начале февраля китайская Bytedance выпустила Seedance 2.0 — генератор видео на основе искусственного интеллекта, который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.

продолжить чтение

Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки

Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.

продолжить чтение

GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU

ВведениеКластеризация представляет собой одну из ключевых и востребованных задач в области машинного обучения. В общем смысле, её можно описать как процесс разделения группы объектов на подгруппы таким образом, чтобы схожие объекты оказались в одной и той же подгруппе. Эта задача актуальна в различных областях, таких как биология, психология, маркетинг, социология, лингвистика и компьютерная безопасность. В прошлом посте

продолжить чтение

Визуально-языковые модели: следующий шаг эволюции LLM

Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

продолжить чтение

Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ

Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial, MERA Code и SWE-MERA

продолжить чтение

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке

Компания Tencent анонсировала новую мультимодальную модель HunyuanVision

продолжить чтение

12