Мультимодальность в ИИ-агентах: картинки на вход, картинки на выход и отказ от Multimodal RAG
Мультимодальность в ИИ-агентахНа связи Сергей Смирнов, AI-инженер и основатель LLMStart.ru
От RAG-прототипа к агенту в продакшн: путь по метрикам, а не по моде
Агент 1С-консультант: от RAG-прототипа до агента в продакшнеНа связи Сергей Смирнов, AI-инженер LLMStart.ru
Gemini 3.1 Pro: Google выкатила новую «базовую» модель для сложных задач и агентных сценариев
Google продолжает прокачивать линейку Gemini и сегодня выкатила Gemini 3.1 Pro — модель, которую позиционируют как «базовую умную силу» для задач, где обычного ответа «вот ссылка / вот краткий совет» уже не хватает. Речь про многошаговые рассуждения, сведение данных в единую картину, объяснения сложных тем «с картинкой в голове» и генерацию более «инженерного» результата, а не просто текста. Неделю назад Google обновила Gemini 3 Deep Think
ByteDance приостановила работу опции генерации голоса по фото в Seedance 2
В начале февраля китайская Bytedance выпустила Seedance 2.0 — генератор видео на основе искусственного интеллекта, который обрабатывает до четырёх типов входных данных одновременно: изображения, видео, аудио и текст. Теперь компания приостановила работу опции генератора из соображений безопасности.
Google Gemini 3 Pro впервые обогнал GPT-5: результаты бенчмарков показали нового лидера ИИ-гонки
Ноябрь 2025 года стал поворотной точкой в истории ИИ. Без громких анонсов и традиционного хайпа Google представил Gemini 3 Pro.
GaMAC: Открытая библиотека для автоматической кластеризации мультимодальных данных под GPU
ВведениеКластеризация представляет собой одну из ключевых и востребованных задач в области машинного обучения. В общем смысле, её можно описать как процесс разделения группы объектов на подгруппы таким образом, чтобы схожие объекты оказались в одной и той же подгруппе. Эта задача актуальна в различных областях, таких как биология, психология, маркетинг, социология, лингвистика и компьютерная безопасность. В прошлом посте
Визуально-языковые модели: следующий шаг эволюции LLM
Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.
Развитие бенчмарка MERA: от текстовых задач к мультимодальному тестированию ИИ
Всем привет, с вами команда MERA! Этот год стал для нас по-настоящему прорывным. Мы запустили MERA Industrial, MERA Code и SWE-MERA
Тencent представила мультимодальную модель, объединяющую зрение и язык в одном фреймворке
Компания Tencent анонсировала новую мультимодальную модель HunyuanVision

