vlm. - страница 2

vlm.

MWS Vision Bench: первый русскоязычный бенчмарк для бизнес‑OCR в эпоху мультимодалок

продолжить чтение

Vision Language World Model: язык как картина мира

продолжить чтение

Пишем отчет о пентесте за 1 час на локальной LLM. Часть 1

В этой статье мы рассмотрим как на оборудовании стоимостью от 1000$, с полностью локальными LLM и VLM на основе скриншотов и коротких пояснений генерировать грамотно написанные отчеты об уязвимостях самого широкого спектра, начиная от Web/мобилок, заканчивая инфрастурктурными уязвимостями Active Directory, k8s и так далее. Заглянем под капот VLM (Vision Language Model) и рассмотрим различные подходы к описанию уязвимостей.

продолжить чтение

Это не BDD, это другое. Путь от кода к BugBuster — платформе автоматизации тестирования на естественном языке

Ручные тест-кейсы копятся быстрее, чем их успевают автоматизировать. Селекторы ломаются после каждого обновления вёрстки. А код автотестов остаётся понятным только разработчикам. В этой статье я разберу ключевые проблемы автотестов и расскажу, как их можно решить.

продолжить чтение

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).В этой статье расскажем, как мы делали из идеи продукт:от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;как дообучали модели распознавания лиц под детский домен;

продолжить чтение

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.

продолжить чтение

Как ИИ научился думать картинками

продолжить чтение

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Привет Хабр!Это научный дайджест и сегодня на нашем столе:

продолжить чтение

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?

продолжить чтение

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

продолжить чтение

Rambler's Top100