мультимодальные модели.

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AiConf X и HighLoad++ от «Онтико».

продолжить чтение

Оставлено в

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

Пример работы нашей модели. Только текстовые запросы — никаких масок!

продолжить чтение

Оставлено в

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?

продолжить чтение

Оставлено в

Ollama 0.7.0 теперь поддерживает мультимодальные модели на своем «движке»

Вышла Ollama версии 0.7.0, которая расширила поддержку мультимодальных моделей с помощью нового специально разработанного движка. Теперь Ollama не зависит от проекта ggml-org/llama.cpp, сосредоточившись вместо этого на создании собственной надёжной основы для мультимодальных систем.

продолжить чтение

Оставлено в

Trassir и Airi исследуют возможность использования ИИ‑моделей для улучшенного поиска краж и контроля сервиса по видео

Специалисты компании Trassir и института Airi провели первый этап исследований по использованию мультимодальных моделей искусственного интеллекта для анализа видео. Цель работы — создание систем, которые помогут расследовать кражи в магазинах. Об этом пресс‑служба Airi сообщила информационной службе Хабра.

продолжить чтение

Оставлено в

DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B

Китайская компания DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B. Она нужна для распознавания и генерации изображений. В бенчмарках нейросеть опережает DALL-E 3 от OpenAI и Stable Diffusion.

продолжить чтение

Оставлено в

Промпт-инжиниринг: как разговаривать с нейросетью на одном языке

продолжить чтение

Оставлено в

Обзор уязвимостей для LLM. Часть 2. Защита

В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.

продолжить чтение

Оставлено в

В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision

В Ollama наконец то появилась долгожданная поддержка мультимодальной модели Llama3.2-vision. Эта модель оптимизирована для распознавания изображений, создания описаний к ним и ответов на общие вопросы об изображении.

продолжить чтение

Оставлено в

Google призналась, что демонстрация мультимодальности Gemini — это постановка

6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

мультимодальные модели.

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Ollama 0.7.0 теперь поддерживает мультимодальные модели на своем «движке»

Trassir и Airi исследуют возможность использования ИИ‑моделей для улучшенного поиска краж и контроля сервиса по видео

DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B

Промпт-инжиниринг: как разговаривать с нейросетью на одном языке

Обзор уязвимостей для LLM. Часть 2. Защита

В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision

Google призналась, что демонстрация мультимодальности Gemini — это постановка

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

мультимодальные модели.