T-LoRA: дообучить диффузионную модель на одной картинке и не переобучиться
Вы когда‑нибудь мечтали стать лучшей версией себя? Моложе, красивее, идеальнее… А вот LoRA уже стала!Меня зовут Вера Соболева, я научный сотрудник лаборатории FusionBrain Института AIRI, а также стажер‑исследователь Центра глубинного обучения и байесовских методов НИУ ВШЭ. Cегодня я расскажу про наше свежее исследование T‑LoRA: Single Image Diffusion Model Customization Without Overfitting. Мы с коллегами придумали эффективный способ как файнтюнить диффузионные модели с помощью LoRA всего по одной картинке.
20+ кейсов с изображениями в ChatGPT. Или экономим 100,000₽+ на дизайнерах
С момента, как OpenAI выпустила свой новый генератор картинок, прошло уже почти 3 месяца. Хайп уже давно прошел, а у меня дошли руки до статьи на ХабреЭта статья про полезные юзкейсы генерации картинок, с которыми каждый из вас может сталкиваться.Постарался найти такие юзкейсы, которые у графических дизайнеров будут стоить десятки тысяч рублей 💫Начнем с небольшого вступления ⤵️Ниже я сделал 3 примера одного баннера, но в разных стилях Пример с баннерами
Spring AI научился видеть! Показываю, как заставить GPT находить бананы на картинках
Новый перевод от команды Spring АйО расскажет вам о работе с мультимодальностью при работе со Spring AI и о различных вариантах работы с графическими изображениями с использованием искусственного интеллекта.Эта статья научит вас, как создать Spring Boot приложение, которое работает с графикой и текстом, используя мультимодальность в Spring AI. Мультимодальность - это способность понимать и обрабатывать информацию одновременно из разных источников. Это определение охватывает текст, графические изображения, аудиофайлы и другие форматы данных. Исходный код

