vlm.

vlm.

Робот, способный создать себя сам. Режим «Инженера» в робототехнике

Футурологи часто предвещали будущее, в котором роботы способны сами проектировать и создавать себе апгрейды, прошивать новые модули, настраивать стороннюю технику и даже создавать себе подобных. Насколько это близко к реальности? С текущим темпом развития ИИ вопросы отпадают всё быстрее. Вряд ли кто-то сегодня усомнится, что ИИ способен написать код, самостоятельно отладить и протестировать его. Но с какими ограничениями и рисками придётся столкнуться на практике? Расскажу на примере реализации в проекте OpenGrall.

продолжить чтение

Как гибрид IDP и VLM экономит миллионы на верификации данных

Последние 2 года мы в Content AI активно тестируем Vision Language Models (VLM) для обработки документов. Модели вроде Qwen2.5-VL или Gemini 2.5 отлично работают с простыми формами — чеками, типовыми договорами. Но на документах со сложными фонами, многоуровневыми таблицами или нестандартной версткой VLM часто галлюцинирует, теряет строки и путается в реквизитах.В одной из предыдущих статей мы пришли к выводу, что будущее за комбинированным подходом, когда VLM усиливает IDP-решения.

продолжить чтение

WACV 2026 в Тусоне: конференция, пустыня и немного экзистенции

Привет, Хабр! Я — Максим Куркин из лаборатории FusionBrain AIRI. Когда мне сказали «поедешь на WACV», первая мысль была — отлично, конференция. Вторая мысль — Тусон, Аризона. Пустыня Сонора. Кактусы‑сагуаро высотой с двухэтажный дом. +25°C в начале марта, когда в Москве ещё лежит снег. Круто!В итоге я провёл в командировке девять дней — с 5 по 13 марта. Два дня дороги в каждую сторону, пять дней конференции, немного пустыни вокруг. Поездка получилась насыщенной: и по науке, и по ощущениям, и очень хочется поделиться увиденным!

продолжить чтение

VK внедрила визуально-языковые модели ИИ в поиск своих сервисов

Компания VK начала внедрять в поиск своих продуктов визуально‑языковые модели (VLM). VLM) представляют собой искусственный интеллект, который одновременно анализирует текст, изображения, звук и видеоряд. Технология уже работает в «VK Видео». Она появится в других сервисах компании, где есть поисковые системы.

продолжить чтение

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

продолжить чтение

Будущее дронов: встроенный ИИ

продолжить чтение

Зрение машин в эпоху сжатия: как оценить и улучшить понимание изображений?

Автор: Денис АветисянНовое исследование предлагает всесторонний анализ возможностей современных моделей, объединяющих зрение и язык, при работе со сжатыми изображениями.

продолжить чтение

  • Оставлено в

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

продолжить чтение

La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар

ИнтроЕсли вам интересен мир ИИ и вы хотите не просто делать fit, predict на удаленной ВМ, а изучать что-то локально, экспериментировать и упрощать себе жизнь, запуская модели прямо на своем девайсе — скорее всего, вам понадобится достаточно мощное железо.Эта статья - попытка ответить на вопрос эффективности железа для популярных AI задач: LLM, VLM, эмбэддинги.Она будет полезна как ML/AI Инженерам, так и просто Энтузиастам, которые выбирают себе железо для локального инференса gpt-oss.TL;DR:M4 Max - лучший по эффективности энергопотребления

продолжить чтение

Тело AI-агентов: технический обзор робота 1X Neo

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

продолжить чтение

123