vlm.
Как мы строили KidFolio — цифровую платформу для родителей и детских садов
Мы — Даврон Ихматуллаев и Михаил Назаров — выпускники онлайн-магистратуры «Науки о данных» Центра «Пуск» МФТИ. В рамках дипломной работы и студенческого стартап-проекта мы разработали KidFolio — цифровую платформу, которая автоматически отправляет родителям персонализированные фото- и видеоотчеты из детского сада, используя технологии компьютерного зрения (CV) и мультимодальных языковых моделей (VLM).В этой статье расскажем, как мы делали из идеи продукт:от гипотезы и интервью с воспитателями до запуска MVP в виде телеграм-бота;как дообучали модели распознавания лиц под детский домен;
Какая GPT-модель лучше распознаёт аннотации книг?
Какая из современных мультимодальных GPT-моделей лучше и дешевле распознаёт текст с фотографий книжных аннотаций и правильнее выделяет оттуда структурированную информацию? Проведём сравнительное тестирование 28 моделей от Anthropic, Google, Meta, Mistral AI, OpenAI, Qwen и попытаемся ответить на эти вопросы не написав ни одной строчки кода самостоятельно.
ИИ проектирует оптическое оборудование, продвинутый роевой интеллект с LLM и VLM и социальные нормы LLM моделей
Привет Хабр!Это научный дайджест и сегодня на нашем столе:
VLM против вмятин: Как нейросети оценивают повреждения авто по фото
Когда вы смотрите на фотографию автомобиля с помятым бампером, то вы сразу понимаете, что скорее всего случилось. А может ли также "понять" картинку Искусственный Интеллект?
Всё про инференс на Sophon NPU (TPU)
Easter Egg is incomingВ этой статье мы поговорим про ML на базе плат Sophon. Наверное это один из производителей которые набрали больше всего популярнсти в AI последнее время.
Технический отчет мультимодальной Qwen2.5-VL: прорыв в анализе документов и управлении интерфейсами
Привет, Хабр! Вчера команда Qwen (Alibaba) представила долгожданный техрепорт
Меньше надзора, больше эффективности: AI модели обобщают данные сами
Исследование Гонконгского университета и Калифорнийского университета в Беркли показало, что языковые модели лучше обобщают, если им позволить самостоятельно находить решения. Это касается как больших языковых моделей

