Правит картинки силой слов: редактор изображений от Сбера с попиксельной точностью
Пример работы нашей модели. Только текстовые запросы — никаких масок!
VLM против вмятин: Как нейросети оценивают повреждения авто по фото
Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?
Ollama 0.7.0 теперь поддерживает мультимодальные модели на своем «движке»
Вышла Ollama версии 0.7.0, которая расширила поддержку мультимодальных моделей с помощью нового специально разработанного движка. Теперь Ollama не зависит от проекта ggml-org/llama.cpp, сосредоточившись вместо этого на создании собственной надёжной основы для мультимодальных систем.
Trassir и Airi исследуют возможность использования ИИ‑моделей для улучшенного поиска краж и контроля сервиса по видео
Специалисты компании Trassir и института Airi провели первый этап исследований по использованию мультимодальных моделей искусственного интеллекта для анализа видео. Цель работы — создание систем, которые помогут расследовать кражи в магазинах. Об этом пресс‑служба Airi сообщила информационной службе Хабра.
DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B
Китайская компания DeepSeek выпустила мультимодальную нейросеть Janus-Pro-7B. Она нужна для распознавания и генерации изображений. В бенчмарках нейросеть опережает DALL-E 3 от OpenAI и Stable Diffusion.
Обзор уязвимостей для LLM. Часть 2. Защита
В первой части статьи мы разобрали, что такое безопасность в контексте нейросетей, и чем safety отличается от security. Во второй части посмотрим, как защищаться от этих и других видов уязвимостей.Привет, Хабр! Меня зовут Евгений Кокуйкин и я — руководитель AI-продуктов в Raft. Запускаю лабораторию AI Security в AI Talent Hub/ИТМО и пишу про безопасность ИИ на собственном телеграм-канале.
В Ollama добавлена поддержка мультимодальной модели Llama3.2-vision
В Ollama наконец то появилась долгожданная поддержка мультимодальной модели Llama3.2-vision. Эта модель оптимизирована для распознавания изображений, создания описаний к ним и ответов на общие вопросы об изображении.
Google призналась, что демонстрация мультимодальности Gemini — это постановка
6 декабря вместе с семейством моделей Gemini компания Google показала видеоролик, где человек взаимодействует с мультимодальной языковой моделью. На видео пользователь общается голосом, рисует и показывает жесты, а Gemini распознаёт увиденное и всячески развлекает. Как заметили наблюдатели и как позже признала Google, видеоролик преувеличивает технические способности ИИ.

