vlm.

vlm.

Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.Звучало странно. Трансформеры используют позиционное кодирование, но модель видит те же пиксели и те же слова. Порядок не должен так сильно влиять. Я проверил, оказалось, автор был прав.| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса

продолжить чтение

От 0 до 10 миллионов ИИ-проверок в месяц: как мы продуктивизировали CV в Пятёрочке за 8 месяцев

Привет, Хабр! Меня зовут Иван Попов, я руковожу командой компьютерного зрения CV Hub в дирекции искусственного интеллекта X5 Tech. А ещё у нас в команде есть Иваныч. Так пользователи «Пятёрочки» ласково называют нашу CV-систему, которая модерирует фотографии в «Клубе тайных покупателей». Когда анкета закрывается за час, в комментариях пишут: «Иваныч сегодня хорошо работает». Имя дали сами пользователи, совпадение с моим именем чистая случайность, опыт Amazon Go не повторяем))

продолжить чтение

Finetune Lora Qwen3vl и прочие приключения

У меня была видеокарта NVIDIA A100 с максимальным объёмом памяти 79,254 Гб. Нужно было извлечь ключевую информацию (задача Question Answering) из 6 тыс. многостраничных документов. Всего было 15 полей разного типа:

продолжить чтение

От OCR к смыслу: как мы научили модель понимать, кто кому отец, мать, жених и свидетель

продолжить чтение

Как Vision-Language Models учатся работать с 3D-миром

продолжить чтение

Axera AX650N: архитектура Edge ML SoC под CNN, LLM и VLM

Maix4 HAT

продолжить чтение

Робот, способный создать себя сам. Режим «Инженера» в робототехнике

Футурологи часто предвещали будущее, в котором роботы способны сами проектировать и создавать себе апгрейды, прошивать новые модули, настраивать стороннюю технику и даже создавать себе подобных. Насколько это близко к реальности? С текущим темпом развития ИИ вопросы отпадают всё быстрее. Вряд ли кто-то сегодня усомнится, что ИИ способен написать код, самостоятельно отладить и протестировать его. Но с какими ограничениями и рисками придётся столкнуться на практике? Расскажу на примере реализации в проекте OpenGrall.

продолжить чтение

Как гибрид IDP и VLM экономит миллионы на верификации данных

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

продолжить чтение

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

продолжить чтение

VK внедрила визуально-языковые модели ИИ в поиск своих сервисов

Компания VK начала внедрять в поиск своих продуктов визуально‑языковые модели (VLM). VLM) представляют собой искусственный интеллект, который одновременно анализирует текст, изображения, звук и видеоряд. Технология уже работает в «VK Видео». Она появится в других сервисах компании, где есть поисковые системы.

продолжить чтение