Привет, Хабр! На связи команда Lenta tech (ИТ-бренд «Группы Лента»). В 2025 году мы протестировали видеоаналитику полок в восьми супермаркетах Москвы. Стационарные камеры следили за напитками, водой и молочными продуктами: если товар заканчивался, сотрудник получал сигнал и подходил к полке. Робот показал себя отлично, в пилоте это сэкономило до 40% времени, которое раньше уходило на выкладку, и мы начали думать о том, как начать использовать его еще чаще и получить максимум пользы. Первостепенной задачей, конечно же, оставалась видеоаналитика товаров и цен.

Оставлено в

Почему найти ценник мало: разбираем ML-задачу с движущейся камеры

Привет, Хабр! На связи команда Lenta tech (ИТ-бренд «Группы Лента»). В 2025 году мы протестировали видеоаналитику полок в восьми супермаркетах Москвы. Стационарные камеры следили за напитками, водой и молочными продуктами: если товар заканчивался, сотрудник получал сигнал и подходил к полке. Технология показала себя отлично, в пилоте это сэкономило до 40% времени, которое раньше уходило на выкладку, и мы начали думать о том, как начать использовать ее еще чаще и получить максимум пользы. Первостепенной задачей, конечно же, оставалась видеоаналитика товаров и цен.

продолжить чтение

Оставлено в

Как математическая модель победила нейросеть: ректификация документов, сложенных втрое

Сегодня практически любую задачу компьютерного зрения пытаются решить нейронной сетью. Геометрическая ректификация документов — не исключение: современные модели умеют распрямлять даже скомканные листы бумаги.Реальность устроена иначе: никто не комкает деловые документы перед распознаванием, гораздо чаще их просто складывают пополам или втрое для удобства хранения или транспортировки. Поэтому большие нейросетевые модели на самом деле представляют скорее лишь научный интерес, а для практических целей куда полезнее придумать простой, но эффективный и быстрый алгоритм. В

продолжить чтение

Оставлено в

Библиография тоже умеет галлюцинировать: что изменилось после защиты диплома

В апреле я уже писала на Хабр о своем дипломном проекте — системе для проверки подлинности источников в научных публикациях. Тогда до защиты оставалось около двух месяцев, проект еще был в состоянии живого прототипа, а я пыталась понять, что из задуманного получится довести до нормального рабочего вида.С тех пор проект успел заметно измениться.Во-первых, я защитила диплом. На 5. Работу еще отметили как лучшую в день защиты, так что этот факт я тоже оставлю здесь — не каждый день такое случается.

продолжить чтение

Оставлено в

Как мы разрушили последний бастион бюрократии в HR и сократили время оформления сотрудников до нескольких секунд

Самый дорогой сотрудник для компании — тот, который уже найден, но еще не может приступить к работе.Каждый час между принятием решения о найме и фактическим выходом сотрудника означает потерянное рабочее время, дополнительную нагрузку на HR и задержку бизнес-процессов.И хотя кадровый документооборот давно стал электронным, само оформление сотрудников редко можно назвать быстрым. Причина проста — документы по-прежнему приходится получать, проверять, сопоставлять и переносить в корпоративные системы.

продолжить чтение

Оставлено в

Почему промпты для VLM работают наоборот: как это исправить

Недавно я пытался выжать максимум из корпоративной OCR-модели, перебирая промпты и гиперпараметры, когда наткнулся на issue в репозитории Qwen-3-VL. Автор утверждал, что точность задачи выросла просто от изменения порядка: сначала изображение, потом текст. Просто перестановка блоков.Звучало странно. Трансформеры используют позиционное кодирование, но модель видит те же пиксели и те же слова. Порядок не должен так сильно влиять. Я проверил, оказалось, автор был прав.| Если вам интересна тема AI‑агентов и внедрения нейросетей, заглядывайте в мой Telegram‑канал ДругОпенсурса

продолжить чтение

Оставлено в

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

В первой части локальная Gemma 4 на мыльной таблице сочинила целую строку зарплат, а на гигантской — насыпала гладких круглых тысяч вместо реальных чисел. В комментариях читатель сказал: для OCR таблиц бери специальную модель, GLM‑OCR, она и меньше, и точнее. Я взял. На той же строке, которую Gemma выдумала, GLM прочитала всё верно.Откуда это вообще взялосьСтатью я писал не про «Gemma — лучший OCR» (она им не является), а про карту: где у общего локального VLM ломается зрение и как это ловить. И в комментарии badsynt

продолжить чтение

Оставлено в

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

MacBook M3, 16 гигабайт, никакого облака. Свежая Gemma 4 берёт с картинки график и отдаёт CSV. Первые три кейса — идеально. На четвёртом модель начала врать. И врать аккуратнее, чем говорила правду.ВводнаяВышла Gemma 4 12B Unified — мультимодальная модель, которая читает не только текст, но и картинки. В квантованном виде она помещается на обычный ноутбук, и мне стало любопытно, что это даёт на практике, а не в бенчмарках.

продолжить чтение

Оставлено в

Как и зачем мы сделали собственный OCR-бенчмарк

Однажды нам понадобилось выбрать OCR-модель для RAG-пайплайна. Казалось бы, задача простая: смотришь на лидерборды, берешь лучшую, PROFIT. Но быстро выяснилось, что, во-первых, то, что прекрасно срабатывает на каких-нибудь английских юридических документах, может не потянуть такие штуки как научные формулы, паспортные данные и таблицы на русском языке. А во-вторых, даже если крутой по всем параметрам бенчмарк для оценки качества распознавания говорит, «всё прочитали правильно, я проверил», точность ответов пользователю, который совершает запрос к чат-боту с RAG под капотом, может страдать.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

ocr.

Как выбрать OCR в 2026-м: тестируем девять моделей на трех движках инференса на рукописном русском

Как мы превратили видео с робота в ML-хакатон по Computer Vision в ретейле

Почему найти ценник мало: разбираем ML-задачу с движущейся камеры

Как математическая модель победила нейросеть: ректификация документов, сложенных втрое

Библиография тоже умеет галлюцинировать: что изменилось после защиты диплома

Как мы разрушили последний бастион бюрократии в HR и сократили время оформления сотрудников до нескольких секунд

Почему промпты для VLM работают наоборот: как это исправить

Специалист против универсала: GLM‑OCR читает таблицы, которые Gemma 4 выдумывала

Локальная Gemma 4 на MacBook читает графики и таблицы — и врёт красивее, чем говорит правду

Как и зачем мы сделали собственный OCR-бенчмарк

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

ocr.