clip.

Как я учил компьютер понимать 122 000 фотографий — и почему сложностью оказались не нейронки, а слова

Как я вообще туда попалЯ крайне редко на фрилансе получал заказы связанные с DS/ML, специалистов для таких задач обычно ищут не там. Причины разные: они требуют долгой интеграции, заказчик сам не понимает задачу, DS более конфиденциален, DS часто возникают внутри продукта, да и в последнее время этот сегмент на фрилансе съедается при помощи LLM: AI integration, RAG боты например. По отдельности эти факторы не страшны, но их совокупность уменьшает количество таких проектов на российском фрилансе почти до 0.Но, внезапно, мне в личку постучались с таким проектом.

продолжить чтение

Нейропоисковик на 17 миллионов картинок: OpenCLIP, Qdrant и ZeroTier вместо облаков

Как я собрал семантический поиск по 17 миллионам картинок, не разорившись на AWSЗачем это всёЯ занимаюсь визуальными искусствами и фронтендом более 10 лет. Для креативной работы мне постоянно нужны референсы, причём основанные на ощущении, визуальном стиле, том, что на английском (да и у нас зачастую) называют vibe.Был замечательный проект same.energy, который решал именно эту задачу. Когда он перестал работать, я почувствовал себя без рук. И, как инженер, решил не ждать, а собрать свой инструмент.Задача звучала амбициозно: проиндексировать датасет на

продолжить чтение

Литературный обзор на статью: StyleGAN-NADA: CLIP-Guided Domain Adaptation of Image Generators

StyleGAN-NADA (No Annotation Domain Adaptation) - метод, разработанный специалистами из Tel Aviv University и NVIDIA Research, позволяющий адаптировать генеративную модель (StyleGAN2) к новому домену без единого изображения, использующий только семантическую силу больших моделей, предварительно обученных контрастивным методом на тексте и изображениях (СLIP). На рисунке 1 представлены возможности метода StyleGAN-NADA.

продолжить чтение

RecSys + DSSM + FPSLoss is all you need

Упрощать и искать похожие детали, очень полезный навык! Предлагаю быстро пробежаться и попробовать найти ту самую серебряную пулю в RecSys !Введение

продолжить чтение

CLIP или SigLIP. База по Computer vision собеседованиям. Middle-Senior

Вопросы о CLIP-моделях встречаются почти на каждом техническом собеседовании.Неважно, занимаетесь ли вы видеоаналитикой, создаёте генеративные модели или работаете над поиском по изображениям — CLIP и его потомки (BLIP , SigLIP

продолжить чтение

Rambler's Top100