Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио. ai.. ai. data.. ai. data. gemini.. ai. data. gemini. gemini embedding.. ai. data. gemini. gemini embedding. Блог компании BotHub.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь. ИИ.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное.. ai. data. gemini. gemini embedding. Блог компании BotHub. Будущее здесь. ИИ. искусственный интеллект. Машинное обучение. научно-популярное. нейросеть.
Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио - 1

Google выпустила Gemini Embedding 2 – новую модель на базе архитектуры Gemini. Это не генеративная нейросеть и не чат-бот. Ее задача – переводить данные разных типов в числовые представления, чтобы системы могли находить и сопоставлять информацию по смыслу.

Модель работает с текстом, изображениями, видео, аудио и документами. Она переводит весь этот контент в единое embedding-пространство – набор числовых векторов, где близость объектов означает сходство их смысла.

Ранее Google предлагала embedding-модели в основном для текста. Gemini Embedding 2 расширяет эту концепцию: embeddings становятся мультимодальными, и модель может работать одновременно с визуальными, аудио- и текстовыми данными.

Gemini Embedding 2 уже доступна в формате Public Preview через Gemini API и Vertex AI.


Gemini Embedding 2 – что умеет и как работает

Embedding-модели используют для семантического поиска и анализа данных. Они не генерируют ответы, а преобразуют информацию в числовые векторы. Эти векторы можно сравнивать: если данные близки по смыслу, их embeddings располагаются рядом.

Gemini Embedding 2 делает это сразу для нескольких типов контента. Текст, изображения, аудио, видео и PDF-документы переводятся в единое пространство смыслов.

Google представила Gemini Embedding 2 — нейросеть для поиска и сопоставления текста, изображений, видео и аудио - 2

Это позволяет напрямую сопоставлять разные форматы. Например, искать изображения по текстовому запросу или находить фрагмент видео по его описанию.

Модель поддерживает более 100 языков и может принимать смешанные входные данные. В одном запросе можно передать несколько типов контента – например текст вместе с изображением.

Технические ограничения модели:

  • текст – до 8192 входных токенов

  • изображения – до 6 файлов PNG или JPEG в одном запросе

  • видео – до 120 секунд в формате MP4 или MOV

  • аудио – принимается напрямую, без обязательной транскрибации

  • документы – PDF до 6 страниц

Модель использует технику Matryoshka Representation Learning. Она позволяет уменьшать размер embedding-вектора без полного пересчета представления. Базовый размер – 3072 измерения, но его можно уменьшать. Google рекомендует использовать 3072, 1536 или 768 измерений в зависимости от требований к качеству и объему хранения.


Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 300 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Автор: MrRjxrby

Источник

Rambler's Top100