Слишком опасный, чтобы его продавать: почему Fable (он же Mythos) всё-таки выйдет, и почему я выиграю спор
Неделю назад мы сидели вчетвером, и трое из них хоронили Mythos.Картина маслом. Один листал запрещенную соцсеть, где люди скриншотят последние ответы Fable перед отключением, как фотографии с поминок. Второй на серьёзных щах объяснял, что всё, поезд ушёл, модель забрали по требованию регулятора, больше не вернётся, обещали ведь доступ до 22 июля, а вырубили раньше срока. Третий просто молчал и доливал.Я сказал: выйдет. Причём скоро. Мы поспорили.
Induction Heads на TinyStories: почему простой датасет мешает In-context Learning
Код: https://github.com/fanat503/Induction-Heads-TinystoriesВведениеИсследования Induction Heads и SAE очень важны, чтобы разобраться в современных моделях и понять, что же в них происходит. Цель эксперимента — проверить формирование Induction Heads на датасете TinyStories. Почему был выбран именно такой датасет? Потому что он очень простой и понятный, что позволяет изолировать влияние сложности данных на формирование механизмов.Архитектура и методология
Разработка LLM с нуля. Новые модели
Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.
В OpenAI изучили работу GPT-2 при помощи GPT-4 и попытались объяснить поведение нейронов
Специалисты из OpenAI опубликовали исследование, в котором описали, как при помощи языковой модели GPT-4 они пытались объяснить работу нейронов её предшественницы, GPT-2. Сейчас разработчики компании стремятся продвинуться в «интерпретируемости» нейросетей и понять, почему те создают именно тот контент, который мы получаем.

