- BrainTools - https://www.braintools.ru -
ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил [1] nanochat — это открытый проект полного цикла создания LLM. Обучение [2] модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.

Nanochat — проект для курса LLM101n от Eureka Labs. В репозитории есть всё необходимое для обучения языковой модели, включая собственный токенизатор на Rust, систему подкачки датасета FineWeb-EDU, скрипты для файнтюнинга, инференса и сбора метрик. Проект поставляется со встроенным веб-интерфейсом, чтобы с готовой моделью можно было пообщаться.
Для обучения модели нужен инстанс с 8 видеокартами Nvidia H100. Обучение в таком случае займёт около четырёх часов. Если арендовать мощности у облачного провайдера, то час в среднем будет стоить 24 доллара, а полный цикл — примерно 100 долларов. Процесс обучения запускается с помощью скрипта speedrun.sh, а веб-чат — командой python -m scripts.chat_web.

С помощью команды cat report.md можно вывести подробный отчёт обучения. В терминале появится примерно такая таблица:

Карпатый отмечает, что главная цель проекта — создать компактный, но полный цикл обучения языковой модели, который можно запустить всего одной командой. Это удобно для обучения и доработки. На базе nanochat можно строить более мощные нейросети и добавлять интеграции. Глобальная цель проекта заключается в том, чтобы улучшить качество микромоделей с бюджетом на обучение до тысячи долларов.
Код nanochat открыт и доступен [1] на GitHub. В репозитории есть все необходимые файлы и инструкции.
Автор: daniilshat
Источник [3]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/20636
URLs in this post:
[1] представил: https://github.com/karpathy/nanochat
[2] Обучение: http://www.braintools.ru/article/5125
[3] Источник: https://habr.com/ru/news/956200/?utm_source=habrahabr&utm_medium=rss&utm_campaign=956200
Нажмите здесь для печати.