Что «под капотом» у DeepSeek-V3.2-Exp? Китайцы нашли способ удешевить нейросети
У китайцев вышла новинка — DeepSeek-V3.2-Exp, экспериментальная версия последней модели DeepSeek-V3.1-Terminus. Цели и задачи у них вполне определенные: сделать архитектуру трансформеров еще более эффективной. Причем на сайте Hugging Face говорится, что особый акцент стартап делает на повышение вычислительной эффективности при обработке длинных текстовых последовательностей. Привет, Хабр! Китай снова выпустил кое-что интересное, так что давайте разбираться. Что там интересного
Как с помощью локальной LLM автоматизировать рутину и облегчить жизнь себе и коллегам
Привет, на связи Алексей Дубинец, Павел Беспалов и Глеб Гладков — BI-аналитики Авито. В тексте делимся идеями и промптами для использования локальной LLM в своих повседневных задачах, а ещё расскажем, как настроить инхаус модель в LM-Studio.Статья будет полезна аналитикам разных грейдов, которые сталкиваются с задачами, где нужно собрать, классифицировать и систематизировать большие объёмы информации. Особенно текст будет полезен аналитикам из крупных компаний, которые не могут использовать публичные LLM-модели для решения рутинных рабочих задач.
AI-движки на примере Knowledge Distillation, GAN, Reinforcement learning
Привет хабр! Я хочу поделиться своими наблюдениями и размышлениями на тему работы сеток-дуэтов в современных архитектурах нейросетей.Возьму как пример 3 подхода :Архитектура GAN, основанная на состязательности нейросетейАрхитектура Knowledge Distillation, основанная на совместном обучении и дистилляции Архитектура Reinforcement learning, основанная на последовательной или разделенной обработке 1. GAN - Генеративно - состязательные сети.
Что было самого интересного про компьютерное зрение на Я Железо 2025
Что с точки зрения CV-инженера, в основном обучающего модели компьютерного зрения, было интересно на конференции Я Железо 2025?Закаливание детектора автомобиля радарными точкамиссылкаМетрики. С - камера, L - лидар, R - радар
Без тренировки, но с обучением: имплицитная динамика in-context learning
АннотацияОдной из наиболее примечательных особенностей Large Language Models (LLM) является их способность к in-context learning — обучению в контексте. В частности, на этапе инференса LLM может усваивать новые паттерны без какого-либо дополнительного обновления весов, если эти паттерны представлены в виде примеров в промпте, даже если эти паттерны не встречались во время обучения. Механизмы, за счёт которых это возможно, всё ещё во многом остаются неизвестными.
Обратная сторона ИИ: подводные камни передачи процессов нейросетям
Искусственный интеллект потихоньку делает жизнь проще, но он же становится источником рисков, особенно когда речь идет о нейросетях как о новом подрядчике. Когда компании их интегрируют, не всегда получается досконально продумать то, чем это может быть чревато. Сегодня я пытаюсь понять реальные риски внедрения нейросетей в рабочие процессы. Надеюсь на твои комментарии, наблюдения и страхи, Хабр!Нейросеть — новый подрядчик
Полезные задачи на Kaggle ( LLM, Diffusion Models)
В мире Data Science и Data Engineering ценится не только теория, но и практический опыт: умение работать с реальными данными, строить модели и доводить решения до результата. Однако получить такой опыт непросто: рабочие проекты часто закрыты NDA, а учебные кейсы не отражают сложность реальных задач.Именно поэтому платформа Kaggle заняла особое место в индустрии. Это крупнейшее мировое сообщество специалистов по данным:🌍 более 13 миллионов участников из разных стран;🏆 сотни активных соревнований ежегодно;📊 миллионы доступных датасетов и готовых ноутбуков.
Перевод датасета для оценки эмпатии на русский язык: подход, проблемы, результаты
Привет. Меня зовут Нафиса Валиева. Я младший разработчик в MWS AI и Пситехлабе, студентка 3го курса ПМ-ПУ СПбГУ. Этот пост — текстовый вариант моего выступления на Дата Фесте. Я расскажу вам, как мы в команде Пситехлаб переводили интересный датасет с английского на русский с помощью больших языковых моделей (далее - БЯМ). Сам подход основан на ранней работе нашего руководителя. Отличие в том, что здесь мы детально анализируем поведение различных БЯМ. Зачем это вообще и что за датасет такой
Методы интерпретации на основе вмешательства в CV: RISE implementation
Привет, друзья! Добро пожаловать в новый туториал из серии практических материалов по explanable AI (интерпретируемости моделей). Он посвящен методу интерпретации на основе вмешательства — RISE. В этом материале разобрана теоретическая постановка метода, подчеркнуты красивые математические идеи и переходы, и, конечно, реализован код для практики. Приглашаю к чтению! Ноутбук к туториалу доступен на гитхаб. ВведениеМетоды интерпретации на основе вмешательства основаны на идее ответа на вопрос: на вопрос:

