Обратное распространение ошибки: от интуиции до кода
Введение.Современные нейросети часто воспринимаются как черная магия. Вы закидываете в черный ящик датасет, ждете пару часов, и вот уже модель пишет за вас код, генерирует картины и безошибочно отличает собаку от выпечки. Но под капотом нет никаких заклинаний. Вся эта вычислительная мощь держится на одном элегантном алгоритме, основы которого были заложены еще в 1970-х годах — обратном распространении ошибки (Backpropagation).Сейчас порог входа в машинное обучение низок как никогда. Чтобы заставить сеть учиться, достаточно написать loss.backward() в PyTorch или вызвать model.fit()
Запрещённая математика в твоём autograd: бесконечно малые, дуальные числа и нестандартный анализ
TL;DRКогда вы пишете loss.backward(), ваш autograd делает то, что 200 лет считалось математической ересью: оперирует бесконечно малыми как настоящими числами. В 1960 году Абрахам Робинсон формализовал эту «ересь» в виде нестандартного анализа. Forward-mode автодифференцирование, на котором держатся JAX, PyTorch и пол-индустрии — это его обрезанная версия. В этой статье разберём гиперреалы и монады, реализуем дуальные числа в коде.Проблема, о которой не говорятОткройте любой учебник термодинамики. Найдите там первое начало:dU=δQ−δAОдин значок прямой, другой — кривой. Спросите автора учебника, чем δQ
Пять мыслей о возможностях и ограничениях LLM
О фундаментальных ограничениях больших языковых моделей одни говорят, что трансформеры, обученные предсказывать следующий токен (NTP), - тупиковый путь для создания интеллектуальных машин: язык слишком беден, это лишь плоская проекция реального мира, машины ничего не понимают. Другие говорят , что та же задача, повторённая триллионы раз, может вызвать появление сложного поведения примерно как простой механизм эволюции породил всё многообразие жизни.Ниже представлены наблюдения по этим вопросах. | Если вам интересна тема AI-агентов и внедрения нейросетей, заглядывайте в мой Telegram-канал
DeepSeek V4: Обзор нейросети, бенчмарки и тесты
Нейросети не стоят на месте и постоянно развиваются. Так, 23 апреля мир увидел ChatGPT 5.5. Но лично я с большим нетерпением ждал именно DeepSeek V4. Сколько времени прошло с того момента, как появились первые слухи о будущем релизе от китайской компании? Предыдущая версия запомнилась мне хорошим показателем в повседневных задачах и, что немаловажно, полной бесплатностью.
Топ вопросов по математике для ML и Data Science собесов: линейная алгебра и матан
Математикой часто пугают новичков ML и Data Science. В этой статье разберем, что спрашивают и до какой глубины изучать математику для собеседований.Статья не рассчитана на изучение математики до уровня вышмата в вузе - но для трудоустройства это и не является обязательным критерием. Тем не менее материал может послужить отправной точкой изучения математики и неким роадмапом, что важно, а что нет.Содержание:Линейная алгебравектора, матрицы, операции над ними и дрМатематический анализпространство, градиент, апроксимация и дрПолезные материалы
Как я создал альтернативу трансформерам
В этой статье я хочу остановиться на разборе предложенной мной архитектуры декодера и тех вариантов, с которыми я сравниваю её в исследовании, но сделать это проще и интуитивнее, чем в самой работе. На мой взгляд, существующие объяснения архитектур декодеров часто подаются разрозненно. Каждый подход описывают отдельно, без общей опоры. А ведь всё можно свести к одному фундаменту, и тогда становятся гораздо заметнее как сильные стороны каждого решения, так и их ограничения. Для начала приведу все необходимые ссылки.Само исследование: https://arxiv.org/abs/2604.18580Код:
BPMSoft будет учить работать с ИИ и low-code студентов Центрального университета
Привет! На связи команда BPMSoft, и у нас полезные новости для будущих студентов и их родителей. Команда
Slow Feature Analysis. Разбор метода и реализация на Python с нуля
Привет, Хабр!В этой статье я хочу рассказать про метод обучения без учителя - “Анализ медленных признаков” (Slow Feature Analysis), далее SFA. Метод был разработан в 2002 году Лоренцом Вискоттом и Терренсом Сейновски.SFA можно использовать для выделения стабильных сигналов на фоне шума, такие как отслеживание объектов на видео, трендов цен из финансовых данных, признаков износа по вибрациям оборудования.SFA

