attention.

Как сделать нейросети понятнее: эксперимент OpenAI с разреженными моделями

Команда AI for Devs подготовила перевод исследования OpenAI о том, как обучение разреженных моделей может сделать ИИ более прозрачным. Авторы показывают: если заставить модель использовать меньше связей, внутри неё появляются понятные цепочки вычислений, которые можно изучать и проверять. Это может стать шагом к созданию мощных, но интерпретируемых систем.

продолжить чтение

Momentum Attention: когда внимание получает инерцию

В классическом self-attention каждый токен смотрит на другие токены, чтобы понять, что важно в данный момент.Внимание распределяется мгновенно:Именно этот механизм сделал трансформеры тем, чем они стали.Но вот в чём проблема - внимание не имеет памяти.

продолжить чтение

Эволюция внимания в LLM: от квадратичной сложности к эффективным оптимизациям

Мы живём в эпоху больших языковых моделей — инструментов вроде ChatGPT, Gemini, Claude, которые поражают своими способностями: они пишут тексты, отвечают на сложные вопросы, генерируют код и даже ведут осмысленные диалоги. Но задумывались ли вы, как им удаётся не просто понимать отдельные фразы, но и удерживать смысл длинных документов, многочасовых бесед или даже целых книг?В статье разберём путь от понимания человеческого восприятия до современных оптимизаций механизма внимания в LLM. Сложность человеческой речиПрежде чем погружаться в технические детали, сначала — про масштаб задачи. 

продолжить чтение

Яндекс победил шум

Бывало с вами так - лежишь в ванной, хочешь посмотреть видео с конями, кричишь "Алиса!", а колонка тебя не слышит из-за льющейся воды, работающего телевизора, пылесоса, чайника, соседа с перфоратором, блядской стройки за окном?Один из способов - жениться на женщине по имени Алиса, но тогда вам придется растить детей, убирать срач в доме и ездить в глупые отели в эмирате Дубай. Должно существовать более эффективное решение, не требующее обратной дискриминации мужчин.Инженеры (ни в коем случае не рисёчеры) из Яндекса посмотели на эту проблему, и, похоже, нашли элегантное решение. Почитать подробней пейпер можно

продолжить чтение

Нейросетевой подход для классификации событий отслеживаемых сверхширокополосным радаром

В данной статье речь пойдёт о том, как используя разные архитектуры нейронных сетей классифицировать данные полученные со сверхширокополосного радара " XETHRU by NOVELDA X4M02 290056-010 ". Моя работа основана на публикации " UWB-gestures, a public dataset of dynamic hand gestures acquired using impulse radar sensors

продолжить чтение

Пишем свой Transformer

Захотелось более детально разобраться и попробовать самостоятельно написать Transformer на PyTorch, а результатом поделиться здесь. Надеюсь, так же как и мне, это поможет ответить на какие-то вопросы в данной архитектуре. Оставляю ссылку на свой канал: not_magic_neural_networks0 IntroВпервые архитектуру трансформер предложили использовать в 2017 году в статье Google

продолжить чтение

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

Все современные LLM построены на архитектуре трансформера. GPT-4o от OpenAI, Gemini от Google, Claude Sonet от Anthropic, Grok от xAI... перечислять можно долго. Трансформер – действительно очень мощная архитектура (и кстати тоже была придумала в Google), но и в ней есть свои недостатки.

продолжить чтение

Temporal Fusion Transformer: улучшение прогнозирования в ритейле с минимальными затратами

Всем привет! Меня зовут Дмитрий Поляков, я работаю аналитиком данных в команде ad-hoc аналитики X5 Tech. В этой статье мы хотели бы рассмотреть задачу прогнозирования, которая является чрезвычайно важной задачей в ритейле. Точные прогнозы позволяют оптимально планировать объёмы товаров и запасы, распределять бюджет, устанавливать бизнес-цели и решать множество других задач. В X5 применяются десятки моделей прогнозирования, каждая из которых помогает решать конкретные задачи.

продолжить чтение

Rambler's Top100