mixture of experts.

Два пути из Тирании Квадрата: Сравнительный разбор MoE и SSM как наследников Трансформера

Архитектура Трансформеров, без сомнения, гениальна. Ее механизм внимания позволил моделям увидеть связи и зависимости в данных с невиданной ранее глубиной. Однако у этой конструкции есть врожденный порок, фундаментальный изъян, который из технической детали превратился в главный тормоз на пути к AI, способному на настоящее глубинное понимание. Имя этому пороку — «Тирания Квадрата».Технически это описывается как сложность O(n²): для обработки последовательности длиной n токенов требуется n*n

продолжить чтение

Mixture of Experts: когда нейросеть учится делегировать

Привет, чемпионы!

продолжить чтение

ИИ простыми словами, часть 1. Архитектура Mixture of Experts (MoE)

Когда я пишу новости про ИИ, то часто сталкиваюсь с проблемой: они пестрят техническими терминами, которые не всегда понятны даже людям использующим ИИ регулярно. SFT, MoE, RL/RLHF/DPO, миллионы их.Я захотел описать самые популярные термины простым русским языком, чтобы каждый, даже нетехнический человек, мог разобраться в самой главной технологии современности. Чтобы, когда я пишу на Хабр или куда-то ещё, для сложных терминов я сразу мог бы дать ссылку на понятное и простое объяснение.

продолжить чтение

Rambler's Top100