VK внедрила визуально-языковые модели ИИ в поиск своих сервисов
Компания VK начала внедрять в поиск своих продуктов визуально‑языковые модели (VLM). VLM) представляют собой искусственный интеллект, который одновременно анализирует текст, изображения, звук и видеоряд. Технология уже работает в «VK Видео». Она появится в других сервисах компании, где есть поисковые системы.
VK внедряет VLM в поиск VK Видео
VK начала внедрять в поиск своих продуктов визуально-языковые модели (VLM) — искусственный интеллект, который одновременно анализирует текст, изображения, звук и видеоряд. Технология уже работает в VK Видео и поэтапно появится в других сервисах, где есть поисковые системы.
Визуально-языковые модели: следующий шаг эволюции LLM
Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.

