- BrainTools - https://www.braintools.ru -

Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной

Google тестирует новый тип языковой модели под названием Gemini Diffusion — экспериментальную систему, которая генерирует текст с помощью методов диффузии вместо традиционного пословного прогнозирования.

Gemini Diffusion могла бы стать самой важной новостью Google, но осталась незамеченной - 1

Вместо того чтобы генерировать текст по одному слову за раз, как это делают традиционные языковые модели, Gemini Diffusion заимствует технику из области создания изображений: устранение шума в несколько этапов.

Система начинает со случайного шума и постепенно преобразует его в полноценные фрагменты текста, что позволяет вносить исправления в процессе и лучше контролировать результат. В DeepMind утверждают, что такой подход приводит к более последовательному и логически связанному результату, что делает его особенно эффективным для таких задач, как генерация кода и редактирование текста, где ключевыми являются точность, связность и итеративность.

Gemini Diffusion генерирует целые фрагменты текста одновременно — и делает это намного быстрее, чем традиционные авторегрессионные модели, которые работают слева направо. DeepMind сообщает о скорости 1479 токенов в секунду (без учёта накладных расходов) с начальной задержкой всего 0,84 секунды.

Брендан О’Донохью [1], исследователь из DeepMind, говорит, что модель может обрабатывать до 2000 токенов в секунду при выполнении задач по программированию, даже с учётом таких затрат, как токенизация, предварительное заполнение и проверки безопасности.

Ориол Виньялс [2], вице-президент по исследованиям, руководитель отдела глубокого обучения [3] в Google DeepMind и соруководитель проекта Gemini, назвал выпуск Gemini Diffusion личной вехой в своей карьере. 

«Я давно мечтал избавиться от необходимости генерировать текст «слева направо», — сказал он. Во время демонстрации модель работала так быстро, что им пришлось замедлить видео, чтобы его можно было смотреть.

В тестах Gemini Diffusion в целом работает примерно так же, как Gemini 2.0 Flash Lite. В таких задачах программирования, как HumanEval (89,6% против 90,2%) и MBPP (76,0% против 75,8%) — двух распространённых тестах на кодирование — результаты практически идентичны.

На самом деле, Gemini Diffusion немного опережает LiveCodeBench (30,9% против 28,5%) и LBPP (56,8% против 56,0%). Но в других областях она уступает, набирая меньше баллов в тесте на научное мышление [4] GPQA Diamond (40,4% против 56,5%) и в многоязычном тесте Global MMLU Lite (69,1% против 79,0%).

Благодаря Gemini Diffusion языковая модель на основе диффузии впервые достигает производительности, сравнимой с современными моделями, несмотря на то, что Gemini 2.0 Flash-Lite — это более старая бюджетная модель от Google.

Благодаря Gemini Diffusion языковая модель на основе диффузии впервые достигает производительности, сравнимой с современными моделями, несмотря на то, что Gemini 2.0 Flash-Lite — это более старая бюджетная модель от Google.

Джек Рэй [5], главный научный [6] сотрудник Google DeepMind, назвал эти результаты «знаковым моментом». До сих пор авторегрессионные модели неизменно превосходили диффузионные модели по качеству текста, и было неясно, можно ли когда-нибудь устранить этот разрыв. Рэй считает, что прорыв стал возможен благодаря целенаправленным исследованиям и решению «множества» технических проблем.

В настоящее время Gemini Diffusion доступна только в качестве экспериментальной демоверсии. А протестировать все популярные модели прямо сейчас без ограничений можно на платформе BotHub [7]. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке [8] вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник [9]

Автор: mefdayy

Источник [10]


Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/15513

URLs in this post:

[1] Брендан О’Донохью: https://x.com/bodonoghue85/status/1924930186858135632

[2] Ориол Виньялс: https://x.com/OriolVinyalsML/status/1924952304324837469

[3] обучения: http://www.braintools.ru/article/5125

[4] мышление: http://www.braintools.ru/thinking

[5] Джек Рэй: https://x.com/jack_w_rae/status/1924938784526975426

[6] научный: http://www.braintools.ru/article/7634

[7] BotHub: https://bothub.chat/?utm_source=contentmarketing&utm_medium=habr&utm_campaign=news&utm_content=GEMINI_DIFFUSION_COULD_BE_GOOGLE

[8] По ссылке: https://bothub.chat/?invitedBy=m_aGCkuyTgqllHCK0dUc7

[9] Источник: https://the-decoder.com/gemini-diffusion-could-be-googles-most-important-i-o-news-that-slipped-under-the-radar/

[10] Источник: https://habr.com/ru/companies/bothub/news/912198/?utm_source=habrahabr&utm_medium=rss&utm_campaign=912198

www.BrainTools.ru

Rambler's Top100