обработка аудио.

Мультимодальные LLM: ключик к AGI или зачем бизнесу модели, которые видят, слышат и понимают?

Мультимодальные модели — звучит как что-то для исследовательских лабораторий и презентаций на AI-конференциях. Но на самом деле они уже работают здесь и сейчас: анализируют документы, пишут тексты, создают рекламу, генерируют видео, помогают врачам и юристам.Привет, Хабр! Это интервью с Александром Капитановым. Саша руководит исследовательскими ML-командами в Сбере. Активный контрибьютор в Open Source. А ещё он член программного комитета AiConf X и HighLoad++ от «Онтико».

продолжить чтение

Rambler's Top100