обучение нейронных сетей.

Много нас, а он один: распределение GPU между ML-инженерами с помощью Dev Cluster

За последние десять лет в мире машинного обучения произошёл взрывной рост. Если в 2012 году мощную модель можно было обучить на нескольких GPU, то сегодня бигтехам нужны тысячи. Вместе с железом выросла и головная боль: как дать всем ML-инженерам доступ к дефицитному ресурсу так, чтобы это не превращалось в постоянные просьбы из разряда «пожалуйста, почистите диск!!!».Расскажу про Dev Cluster — инструмент, который создали в команде ML Platform (Yandex Infrastructure) для гибкого распределения GPU между ML-разработчиками. GPU сложно шерить 

продолжить чтение

Как и почему умирает ИИ-внедрение: пять bottlenecks

Привет, Хабр. Меня зовут Виктор Овчинников, я руковожу разработкой интеграционной платформы Digital Q.Integration в компании Диасофт. Больше двадцати лет моя команда занимается обменом данными между корпоративными системами, и про то, как именно этот слой убивает ИИ-проекты, я уже подробно разбирал в предыдущей статье на Хабре. 

продолжить чтение

Два игрока на весь российский рынок ИИ: что показал ЦИПР-2026

продолжить чтение

Как связывание эмбеддингов душит трансформеры и уничтожает градиенты

Если вы когда-нибудь собирали языковую модель с нуля, вы наверняка знаете про Weight Tying (Связывание весов). Этот трюк был предложен в 2016 году в статье "Using the Output Embedding to Improve Language Models" и популяризован OpenAI в архитектуре GPT-2.Суть предельно проста и математически изящна: мы берем матрицу входных эмбеддингов Win (размером Vocab_Size × Hidden_Dim) и используем её же транспонированную версию как выходной слой классификатора Wout

продолжить чтение

Вспомнить всё. Спектр весов нейросети

В данной публикации попробуем сформировать простейшую нейросеть. Будем использовать Colab. Данный выбор также хорош тем, что то, что позволено Юpyтеру не позволено быку. Иметь локальные вычислительные мощности. В принципе довольно неплохая инфраструктура для проверки базовых алгоритмов налету. Если есть что то подобное на других платформах или можно сделать с использованием иных агентов, пожалуйста, прокомментируйте.

продолжить чтение

Достаточно подробно изучаем, что происходит внутри Feed-Forward Neural Networks, и реализуем в коде

Нейронные сети сегодня уже не какая-то магия из научных статей. Они стоят за рекомендациями в сервисах, распознаванием изображений и, конечно, за LLM-моделями, которыми мы пользуемся каждый день. Но знакомство с ними у многих происходит через готовые библиотеки такие, как PyTorch или TensorFlow: написал пару строк кода — модель обучилась — всё работает. А что именно произошло внутри обычно остаётся загадкой.

продолжить чтение

Почему AI-проекты ломаются на данных: как качественные датасеты повышают NPS, CTR и конверсию

В гонке за внедрение AI компании всё чаще упираются не в характеристики модели, а в данные. Именно качество датасетов сегодня определяет, насколько быстро, точно и экономично работают интеллектуальные решения. Ошибка на этом этапе напрямую бьёт по бизнес-метрикам — от времени ответа в поддержке до конверсии в интернет-магазине.О том, как бизнесу выстроить работу с данными и где искать реальную экономию, мы поговорили с Ильнуром Файзиевым, руководителем юнита Data LLM в Doubletapp

продолжить чтение

Microsoft несколько месяцев советовала обучать ИИ на пиратских книгах о Гарри Поттере

Microsoft в течение нескольких месяцев советовала обучать

продолжить чтение

ИИ-геополитика 2026: смерть аутсорсинга, 1 ГВт для OpenAI и китайский вызов от Alibaba

На прошлой неделе в Нью-Дели завершился India AI Impact Summit 2026. Это событие стало маркером тектонического сдвига: фокус ИИ-индустрии окончательно смещается в сторону Глобального Юга. Пока регуляторы в ЕС и США буксуют в судебных исках, Индия превращается из «мировой бэк-офис фермы» в крупнейший полигон для обкатки ИИ-инфраструктуры.Революция «с человеческим лицом» или конец эпохи джунов?

продолжить чтение

Нужно ли обучать YOLO с нуля? Практические выводы

Для меня машинное обучение - это прежде всего экспериментальная наука. Выигрывает не тот, кто придумал самую сложную архитектуру, а тот, кто быстрее проходит итерации (анализирует кривые потерь, меняет гипотезы и снова запускает обучение).И именно в этой постоянной гонке я всё чаще задаю себе один и тот же вопрос, а нужно ли вообще обучать модель с нуля?Когда я говорю «обучать с нуля», я имею в виду именно пустые веса. Не fine-tuning и не до обучение, а старт с нулевой инициализацией (PyTorch-модель без пред обученных параметров или YOLO с отключёнными pretrained-весами).

продолжить чтение

12