Визуально-языковые модели: следующий шаг эволюции LLM
Ранее мы разбирали методы самосупервизируемого обучения в компьютерном зрении, которые преобразуют изображения и видео в информативные векторные представления (эмбеддинги). Несмотря на их мощь, такие представления обычно требуют дообучения последующих моделей под конкретные задачи. В отличие от этого, большие языковые модели (LLM) блестяще справляются с zero-shot- и few-shot-задачами без какого-либо дообучения. Мы хотим добиться таких же возможностей для визуальных данных.
Исследователи Яндекса представили RATE — новый метод для оценки и улучшения машинного перевода
Наши исследователи разработали новый метод оценки качества машинного перевода. Эту разработку можно использовать для совершенствования моделей, которые уже переводят тексты довольно точно, но делают это не всегда естественно. Например, в неформальном диалоге модель может перевести «sorry, my bad» как «приношу извинения, это моя вина» вместо «извини, ошиблась». Пользователь заметит, что нейросеть выбрала излишне официальный тон, но существующие системы оценки перевода такие ошибки игнорируют. Новый метод помогает обращать внимание нейросетей на такие недочёты.Новая система оценки Яндекса называется
Nano Banana 2 vs ChatGPT: сравниваем эволюцию в генерации AI изображений за полгода
Прошло полгода с момента релиза прорывной на тот момент генеративной модели от OpenAI и 5 месяцев с того момента, как я выложил статью 20+ кейсов с изображениями в ChatGPT. Или экономим 100,000₽+ на дизайнерахВ этой большой статье хочу показать то, как улучшилась генерация за это времяПрелюдияСразу с момента релиза у генераций ChatGPT были проблемы в этих направлениях ⤵️Консистентная перегенирация лиц или других объектов, если хочется делать стабильно. На фоне этого было создано огромное кол-во стартапов, тот же higgsfield.ai со своим Soul ID

