Правда ли KAN лучше MLP? Свойство разделения глубины между двумя архитектурами
ВведениеПрошлым летом в свет вышла новая архитектура нейронных сетей под названием Kolmogorov-Arnold Networks (KAN). Основная статья есть в открытом доступе на архиве по следующей ссылке. На момент выхода статьи эта новость произвела фурор в мире машинного обучение, так как KAN показывали существенный прирост в качестве аппроксимации различных сложных функций. На фото ниже видно, что ошибка новых сетей падает значительно быстрее при увеличении числа параметров.
Я построил Vision Transformer с нуля — и научил его обращать внимание
Vision Transformer (ViT) — это архитектура, которая буквально произвела революцию в том, как машины «видят» мир.В этой статье я не просто объясню, что такое ViT — я покажу вам, как создать эту магию своими руками, шаг за шагом, даже если вы никогда раньше не работали с трансформерами для задач с изображениями.Для начала давайте взглянем на архитектуру Vision Transformer:
Глубокое обучение для квантовой химии. Часть II. Предсказание электронной плотности
Всем привет! На связи снова Константин Ушенин из AIRI, и мы продолжаем говорить о глубоком обучении в квантовой химии. В прошлом посте мы немного разобрались в том, что такое молекула, как её представлять в компьютере, и как работают графовые нейронные сети.В этот же раз я расскажу о том, какие результаты в этой области получила наша команда. Речь пойдет о новой архитектуре для предсказания электронной плотности LAGNet, про которую у нас недавно вышла статья в Journal of Cheminformatics
Это камень? Это ветка? Это нос! Разбираем подходы, помогающие ИИ распознавать лица на картинках с низким разрешением
"Распознать бы этого шакала"
Глубокое обучение для квантовой химии. Часть I. Основы
Всем привет! Меня зовут Константин, и я занимаюсь вопросами глубокого обучения в естественных науках в AIRI.Среди всех достижений глубокого обучения большие языковые модели — пожалуй, самые заметные. Однако помимо работы с текстами у нейросетей есть хорошие перспективы в области биологии, химии, физики и других наук. Можно вспомнить, например, последние Нобелевские премии за архитектуру AlphaFold. Мы в AIRI активно интересуемся этим прогрессом, в особенности применением глубокого обучения для квантовой химии. Недавно нашу статью про предсказание электронной плотности с помощью нейросетей приняли в Journal of Cheminformatics
Хорошая девушка LoRA! А чем же она хороша?
Поговорим об методике дообучения LLM… спортсменке, комсомолке и просто красавице - LoRA, которая если и не снимается в кино, то может сделать фильмы качественней и интереснее для зрителя. Исторические данные проката и состава творческих групп в перспективе позволяют работать с ансамблевыми моделями машинного обучения для прогнозирования сборов и просмотров в кино, и улучшать данные и путем их подбора «гиперпараметров»
Играемся с RTX 5090 (GB202) для инференса
Настраиваю карточку для тестов (шутка)Продолжаем статьи про практические тесты актуальных картонок от Nvidia (A5000 Ada, A100, 3090 и A10
Как мы научились сохранять тембр и интонацию спикера при переводе видео в Яндекс Браузере
Осенью 2021 года мы впервые представили
Обзор решений для создания AI-аватаров. История развития и практическое применение
Всем привет! Меня зовут Александр, я COO в SaaS-платформе аналитики данных. Последний год активно изучаю внедрение AI-решений в кросс-функциональные процессы. Делюсь материалами, которые помогают:Продуктовым менеджерам — интегрировать AI без перегрузки команд;Разработчикам — выбирать инструменты под конкретные бизнес-задачи;Специалистам по данным — избегать ошибок в production-развертывании.У себя в телеграм-канале делюсь сжатыми и структурированными саммери статей.Сегодняшний перевод — AI Avatars Escape the Uncanny Valley
NoProp: Реальный опыт обучения без Backprop – от провала к 99% на MNIST
Всем привет! Обучение нейронных сетей с помощью обратного распространения ошибки (backpropagation) — это стандарт де‑факто. Но у него есть ограничения: память, последовательные вычисления, биологическая неправдоподобность. Недавно я наткнулся на интересную статью «NOPROP: TRAINING NEURAL NETWORKS WITHOUT BACK‑PROPAGATION OR FORWARD‑PROPAGATION» (Li, Teh, Pascanu, arXiv:2403.13 502), которая обещает обучение вообще без сквозного backprop и даже без полного прямого прохода во время обучения! Идея показалась захватывающей, и мы (я и ИИ‑ассистент Gemini) решили попробовать ее реализовать на PyTorch для MNIST.

