gpt-2.

Слишком опасный, чтобы его продавать: почему Fable (он же Mythos) всё-таки выйдет, и почему я выиграю спор

Неделю назад мы сидели вчетвером, и трое из них хоронили Mythos.Картина маслом. Один листал запрещенную соцсеть, где люди скриншотят последние ответы Fable перед отключением, как фотографии с поминок. Второй на серьёзных щах объяснял, что всё, поезд ушёл, модель забрали по требованию регулятора, больше не вернётся, обещали ведь доступ до 22 июля, а вырубили раньше срока. Третий просто молчал и доливал.Я сказал: выйдет. Причём скоро. Мы поспорили.

продолжить чтение

Induction Heads на TinyStories: почему простой датасет мешает In-context Learning

Код: https://github.com/fanat503/Induction-Heads-TinystoriesВведениеИсследования Induction Heads и SAE очень важны, чтобы разобраться в современных моделях и понять, что же в них происходит. Цель эксперимента — проверить формирование Induction Heads на датасете TinyStories. Почему был выбран именно такой датасет? Потому что он очень простой и понятный, что позволяет изолировать влияние сложности данных на формирование механизмов.Архитектура и методология

продолжить чтение

Разработка LLM с нуля. Новые модели

Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.

продолжить чтение

Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

Исследователи из Копенгагенского университета по-новому взглянули на гипотезу «мировой модели Othello», задавшись вопросом, могут ли LLM усвоить правила и структуру доски в Othello, просто анализируя последовательности ходов.

продолжить чтение

В OpenAI изучили работу GPT-2 при помощи GPT-4 и попытались объяснить поведение нейронов

Специалисты из OpenAI опубликовали исследование, в котором описали, как при помощи языковой модели GPT-4 они пытались объяснить работу нейронов её предшественницы, GPT-2. Сейчас разработчики компании стремятся продвинуться в «интерпретируемости» нейросетей и понять, почему те создают именно тот контент, который мы получаем.

продолжить чтение