Автор: Денис АветисянНовое исследование предлагает всесторонний анализ возможностей современных моделей, объединяющих зрение и язык, при работе со сжатыми изображениями.

Оставлено в
- vlm

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

Привет, Хабр! Каждый, кто хоть раз пытался вытащить данные из скана акта или старого отчета, знает эту боль. Классические OCR-инструменты, вроде старого доброго Apache Tika, отлично справляются с простым печатным текстом, но пасуют перед реальными вызовами: таблицами со сложной вёрсткой, рукописными пометками, мелким курсивом и разными шрифтами в одном документе.Чтобы не быть голословными, давайте посмотрим на типичный «сложный» документ и что с ним делает Tika.

продолжить чтение

Оставлено в

La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар

ИнтроЕсли вам интересен мир ИИ и вы хотите не просто делать fit, predict на удаленной ВМ, а изучать что-то локально, экспериментировать и упрощать себе жизнь, запуская модели прямо на своем девайсе — скорее всего, вам понадобится достаточно мощное железо.Эта статья - попытка ответить на вопрос эффективности железа для популярных AI задач: LLM, VLM, эмбэддинги.Она будет полезна как ML/AI Инженерам, так и просто Энтузиастам, которые выбирают себе железо для локального инференса gpt-oss.TL;DR:M4 Max - лучший по эффективности энергопотребления

продолжить чтение

Оставлено в

Тело AI-агентов: технический обзор робота 1X Neo

На днях по AI пабликам завирусился робот 1X Neo, который заявляется разработчиками как человекоподобный робот для помощи по дому. Мне стало жутко интересно покопаться в устройстве и начинке этого робота, потому что скрещивание VLM и механизмов может привести к огромному прорыву в индустрии и новым большим изменениям.Поговорим про устройство робота, железо и софт на борту, прикладные задачи и ближайшее будущее.

продолжить чтение

Оставлено в

Когда фантастика 1939 года становится реальностью 2025-го

Вчера вечером я впервые после детства взяла в руки рассказ «Я, робот» Эндо Биндера, опубликованный в январе 1939 года в журнале Amazing Stories.Именно Эндо Биндера (псевдоним братьев Эрла и Отто Биндеров) — а не Айзека Азимова. Это тот самый рассказ, чьё название Азимов «позаимствовал» одиннадцать лет спустя для своего знаменитого сборника 1950 года, причём сам Азимов протестовал против этого решения издателя, понимая, что название уже занято. А фильм 2004 года с Уиллом Смитом сняли по мотивам азимовского цикла о Трёх законах роботехники, так что связь с оригинальным рассказом Биндера только в названии.

продолжить чтение

Оставлено в

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

продолжить чтение

Оставлено в

Зачем бизнесу GPT-платформа, а не просто LLM: опыт JET & Yandex GPT Lab

Меня зовут Антон Чикин, я руковожу отделом интеллектуального анализа в «Инфосистемы Джет». В статье я попробую показать на практическом примере, почему корпоративный ИИ нельзя свести к установке готовой LLM — и что именно приходится выстраивать вокруг неё, чтобы получить реальную ценность для бизнеса.Этот материал будет полезен тем, кто отвечает за внедрение ИИ в компаниях среднего и крупного масштаба: ИТ-директорам, архитекторам корпоративных систем, специалистам по информационной безопасности и тем, кто рассматривает генеративный ИИ как инструмент автоматизации бизнес-процессов.

продолжить чтение

Оставлено в

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

vlm.

Классический IDP и VLM в обработке документов: почему выигрывает комбинация подходов

Будущее дронов: встроенный ИИ

Зрение машин в эпоху сжатия: как оценить и улучшить понимание изображений?

Современные OCR для сложных документов: сравниваем 6 open-source моделей на реальном кошмаре инженера

La Perf — бенчмарк локального ИИ, или M-серия наносит ответный удар

Тело AI-агентов: технический обзор робота 1X Neo

Когда фантастика 1939 года становится реальностью 2025-го

VLM vs IDP (хайп vs конвейер): кто выигрывает в гонке за точностью и эффективностью

Зачем бизнесу GPT-платформа, а не просто LLM: опыт JET & Yandex GPT Lab

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

vlm.