Разработка LLM с нуля. Новые модели
Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.
В OpenAI изучили работу GPT-2 при помощи GPT-4 и попытались объяснить поведение нейронов
Специалисты из OpenAI опубликовали исследование, в котором описали, как при помощи языковой модели GPT-4 они пытались объяснить работу нейронов её предшественницы, GPT-2. Сейчас разработчики компании стремятся продвинуться в «интерпретируемости» нейросетей и понять, почему те создают именно тот контент, который мы получаем.

