Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио

Google выпустила Gemini Embedding 2 – новую модель на базе архитектуры Gemini. Это не генеративная нейросеть и не чат-бот. Ее задача – переводить данные разных типов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.

Модель работает с текстом, изображениями, видео, аудио и документами. Она переводит весь этот контент в единое embedding-пространство – набор числовых векторов, где близость объектов означает сходство их смысла.

Ранее Google предлагала embedding-модели в основном для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может работать одновременно с визуальными, аудио- и текстовыми данными.

Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI.

Gemini Embedding 2 – что умеет и как работает

Embedding-модели используют для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сравнивать: если данные близки по смыслу, их embeddings располагаются рядом.

Gemini Embedding 2 делает это сразу для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в единое пространство смыслов.

Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио - 2

Это позволяет напрямую сопоставлять разные форматы. Например, искать изображения по текстовому запросу или находить фрагмент видео по его описанию.

Модель поддерживает более 100 языков и может принимать смешанные входные данные. В одном запросе можно передать несколько типов контента – например текст вместе с изображением.

Технические ограничения модели:

текст – до 8192 входных токенов
изображения – до 6 файлов PNG или JPEG в одном запросе
видео – до 120 секунд в формате MP4 или MOV
аудио – принимается напрямую, без обязательной транскрибации
документы – PDF до 6 страниц

Модель использует технику Matryoshka Representation Learning. Она позволяет уменьшать размер embedding-вектора без полного пересчета представления. Базовый размер – 3072 измерения, но его можно уменьшать. Google рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и объему хранения.

Делегируйте часть рутинных задач вместе с BotHub! ^[1] Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке ^[2] вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник ^[3]

Автор: MrRjxrby

Источник ^[4]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/26988

URLs in this post:

[1] BotHub!: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GEMINI_EMBEDDING_2

[2] По ссылке: https://bothub.chat/?invitedBy=iTNi-351UcHgc1BxGFWim

[3] Источник: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-embedding-2/

[4] Источник: https://habr.com/ru/companies/bothub/news/1009292/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1009292

Нажмите здесь для печати.