глубокое обучение.

Сжать четыре токена в один вектор: запускаем автоэнкодер CALM на доменных данных (и на одном CPU)

Взяли автоэнкодер из свежей работы CALM (Continuous Autoregressive Language Models), который учится упаковывать чанк из K=4 токенов в один непрерывный вектор и разворачивать обратно, и обучили его не на 15 миллиардах токенов Pile на 8 GPU, как в оригинале, а на 18 тысячах коротких строк с требованиями из IT-вакансий - на обычной машине без видеокарты. По дороге выгребли три классических грабли (flash-attn без CUDA, deepspeed, который не импортируется под NumPy 2.x, и тихий OOM на 33 ГБ логитов). Ниже - подробный разбор архитектуры, конфигов и честные результаты round-trip-реконструкции.💡 Зачем вообще что-то менять в языковых моделях

продолжить чтение

Основы глубокого обучения. Часть 1

🙂 Приветствую всех! Эта статья будет первой в серии статей про основы глубокого обучения. В этой части я расскажу про то, что такое модели, искусственный интеллект (ИИ), машинное (МО) и глубокое обучение (ГО), про виды этапа обучения моделей, что такое нейронные сети, градиентный спуск и обратное распространение. В конце затронем теорию свёрточных нейронных сетей.Модель — это функция, закодированная в виде программы (по сути слова синонимы).Искусственный интеллект

продолжить чтение

Когда автоматизация становится умнее: как трансформеры изменили AutoDL в Альфа-Банке

Всем привет! С вами Артемий Лямин (@lyaminartemiy) и Иван Тренёв (@123-39

продолжить чтение

Как я создал альтернативу трансформерам

В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:

продолжить чтение

Краткий справочник про внимания (self-attention, cross-attention, multi-head attention)

Механизм внимания (Attention) - это метод в искусственном интеллекте, который позволяет нейросети динамически определять, какие части входных данных наиболее важны для текущей задачи. Он работает через вычисление весов важности для разных элементов входа: более важные элементы получают больший вес, а менее важные - меньший. Затем модель формирует взвешенную сумму представлений, создавая новый контекстный вектор.

продолжить чтение

Большие языковые модели на практике – международный бестселлер теперь на русском языке

продолжить чтение

YOLOE: детектим что угодно без дотренировок

Всем привет! Представьте, сколько всего нужно сделать, чтобы дотренировать модель компьютерного зрения:Поиск и сборка датасетов. Хорошо, если есть открытые и с допустимой лицензией. Но часто приходится собирать «с миру по нитке», дополнять и балансировать данные самостоятельно.Разметка и аугментация. Качественный датасет — залог хороших метрик. Придётся корпеть над точными detection-боксами, перепроверять, думать над нестандартными ситуациями во входных данных.Обучение и валидация.

продолжить чтение

Книга: «Интервью по машинному обучению. 151 вопрос от FAANG»

Привет, Хаброжители! Хотите построить карьеру в области ML? Воспользуйтесь опытом и советами Пенга Шао, чтобы научиться тому, как успешно пройти собеседование по машинному обучению.

продолжить чтение

FAQ по TAPe‑детекции объектов (как мы учимся детектить объекты одномоментно и в десятки раз эффективней-дешевле ML)

Этот текст не претендует на «академический» обзор TAPe и не заменяет будущие формальные бенчмарки на COCO‑подобных датасетах. Скорее это рабочие ответы на самые частые вопросы инженеров и исследователей, которые всерьёз присматриваются к проекту. О чем речьМы делаем TAPe‑модель (вот здесь понятней, о чем речь: тыц, другой тыц

продолжить чтение

Производство теряло деньги каждую смену. До внедрения видеоаналитики с ИИ никто не знал где

Привет! На связи Олег Чебулаев, CEO Mad Brains. Хочу поделиться историей из практики — как обучить модель YOLO, запустить видеомониторинг на пищевом производстве и через неделю обнаружить кое-что, о чём на заводе предпочитали не говорить вслух. Signal Tower: лампочка, которой доверяют слишком сильно

продолжить чтение