Рекомендательная система для вашего каталога научных работ (и не только!)
Используем обработку естественного языка и теорию графов для сравнения и рекомендации различных типов документов. ВведениеПочти все проекты начинаются с одного важного этапа — активных исследований. Инвестировать в то, что уже было сделано другими, в развитие их работы — это один из путей к повышению ценности вашего проекта. Важно не только извлечь уроки из опыта других, но и понять, чего не стоит делать в своем проекте, чтобы повысить его шансы на успех.
ML-эксперименты проще с ClearML
В этой статье поговорим про мощный инструмент для организации ML-экспериментов (и не только) с помощью платформы ClearML. Как с помощью нее проводить исследования «по фэншую». Но для начала давайте ответим на следующий вопрос...Зачем вообще нужен менеджер экспериментов?Кто имеет четкое понимание по этому вопросу, могут скипнуть эту секцию. Начать стоит с того, что обучение моделей — это всегда эксперименты с непредсказуемым исходом. Да, докинув новых данных или взяв нейронку пожирнее, мы можем рассчитывать
Когда обучение не идет. Loss is NaN. Причины и решения
Привет, это моя первая статья на Хабре. И я хочу рассказать вам о проблеме, на решение которой когда-то давно у меня ушло довольно много времени.Часто бывает, что при обучении (или тестировании) модели нейронной сети (NN) функция потерь (loss) возвращает значение NaN (Not a Number). Это приводит к тому, что фаза обучения "срывается". Обычно неясно, почему это происходит. Я расскажу вам о возможных причинах и рекомендациях по решению этой проблемы.Взрыв градиентаСуществует две основные проблемы с градиентами на этапе обучения: исчезновение (vanishing) и взрыв (explosion) градиент. Первая описана в этих статьях:
Как LLM выучивают факты и почему они галлюцинируют?
🔥Не пропустите важные обновления и углубленные материалы!🔥 Хотите быть в курсе самых свежих обзоров и исследований в мире ML и AI? Переходите по ссылкам ниже, чтобы получить доступ к эксклюзивному контенту: 📌 Глубокий обзор с математической формализацией ждет вас на нашей странице GitHub Pages 🐙 📌 Все обзоры и аудио подкасты также доступны в нашем Telegram канале TheWeeklyBrief 📢Не упустите шанс глубже погрузиться в мир технологий! 🚀СодержаниеВведениеТрехфазный процесс обучения
SPL – мультиязычный вычислительный граф и локальный FaaS на вашем ноутбуке
Привет, Хабр!Хочу рассказать вам про пет-проект, над которой мы сейчас работаем с товарищем. Основная идея заключается в создании мультиязычного вычислительного графа с возможностью быстрого развертывания собственной мини-FaaS (Function as a Service) платформы прямо на локальной машине. То есть возможность совмещать наработки из разных источников (на самом деле не только их, а еще и различные сторонние утилиты) посредством локального фреймворка и сервера. Сейчас мы называем этот проект SPL (Smart Pipe Lime).
Vision Transformer-применение трансформеров в задачах компьютерного зрения
Привет, чемпионы! 🎉 Готов окунуться в мир Vision Transformer (ViT) и узнать, как трансформеры, изначально созданные для обработки текста, завоевали признание в компьютерном зрении? Тогда приступим!Данная работа полезна, если для вас "внимание-это все, что вам нужно" и вас интересует, как стали использовать трансформеры в других областях глубокого обучения.ВведениеСверточные нейронные сети (CNN) долгое время были основой компьютерного зрения, эффективно справляясь с задачами классификации и детекции объектов. Однако у них есть свои ограничения:Локальность обработки
Коротко про библиотеку TSFresh
Привет, Хабр!Сегодня в коротком формате познакомимся с библиотекой TSFresh. TSFresh берет на себя две основные задачи:Извлечение признаков: функция extract_features() генерирует огромный набор статистик по заданным временным рядам. Внутри неё используются так называемые FeatureCalculators — функции, рассчитывающие конкретные признаки. Например, автокорреляция, энтропия, число нулевых пересечений.Отбор признаков: функция select_features()
Применение ML Pricing в ритейле: хвост виляет собакой
Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование». В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.
Группировка объявлений в карточки: как мы разметили 20 000 товаров
Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.
Состояние моделей рассуждения LLM
Часть 1: Методы масштабирования вычислительной мощности во время выводаУлучшение способностей к рассуждению больших языковых моделей (LLM) стало одной из самых обсуждаемых тем в 2025 году – и не без оснований. Улучшенные навыки рассуждения позволяют моделям решать более сложные задачи, что делает их полезными в самых разных областях, интересных пользователям.

