vlm. - страница 2

vlm.

Как мы строили KidFolio — цифровую платформу для родителей и детских садов

Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).В этой статье расскажем, как мы делали из идеи продукт:от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;как дообучали модели распознавания лиц под детский домен;

продолжить чтение

Какая GPT-модель лучше распознаёт аннотации книг?

Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.

продолжить чтение

Как ИИ научился думать картинками

продолжить чтение

ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей

Привет Хабр!Это научный дайджест и сегодня на нашем столе:

продолжить чтение

VLM против вмятин: Как нейросети оценивают повреждения авто по фото

Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?

продолжить чтение

VideoGameBench: 20 рандомных ретро-игр против нейросети — кто кого?

продолжить чтение

Как мы учили Алису видеть мир с помощью мультимодальной нейросети Яндекса

продолжить чтение

Всё про инференс на Sophon NPU (TPU)

Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время. 

продолжить чтение

Технический отчет мультимодальной Qwen2.5-VL: прорыв в анализе документов и управлении интерфейсами

Привет, Хабр! Вчера команда Qwen (Alibaba) представила долгожданный техрепорт

продолжить чтение

Меньше надзора, больше эффективности: AI модели обобщают данные сами

Исследование Гонконгского университета и Калифорнийского университета в Беркли показало, что языковые модели лучше обобщают, если им позволить самостоятельно находить решения. Это касается как больших языковых моделей

продолжить чтение

Rambler's Top100