Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов. llm.. llm. nanochat.. llm. nanochat. искусственный интеллект.. llm. nanochat. искусственный интеллект. Машинное обучение.. llm. nanochat. искусственный интеллект. Машинное обучение. модели.. llm. nanochat. искусственный интеллект. Машинное обучение. модели. нейросети.. llm. nanochat. искусственный интеллект. Машинное обучение. модели. нейросети. языковые модели.

ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил nanochat — это открытый проект полного цикла создания LLM. Обучение модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов - 1

Nanochat — проект для курса LLM101n от Eureka Labs. В репозитории есть всё необходимое для обучения языковой модели, включая собственный токенизатор на Rust, систему подкачки датасета FineWeb-EDU, скрипты для файнтюнинга, инференса и сбора метрик. Проект поставляется со встроенным веб-интерфейсом, чтобы с готовой моделью можно было пообщаться.

Для обучения модели нужен инстанс с 8 видеокартами Nvidia H100. Обучение в таком случае займёт около четырёх часов. Если арендовать мощности у облачного провайдера, то час в среднем будет стоить 24 доллара, а полный цикл — примерно 100 долларов. Процесс обучения запускается с помощью скрипта speedrun.sh, а веб-чат — командой python -m scripts.chat_web.

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов - 2

С помощью команды cat report.md можно вывести подробный отчёт обучения. В терминале появится примерно такая таблица:

Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов - 3

Карпатый отмечает, что главная цель проекта — создать компактный, но полный цикл обучения языковой модели, который можно запустить всего одной командой. Это удобно для обучения и доработки. На базе nanochat можно строить более мощные нейросети и добавлять интеграции. Глобальная цель проекта заключается в том, чтобы улучшить качество микромоделей с бюджетом на обучение до тысячи долларов. 

Код nanochat открыт и доступен на GitHub. В репозитории есть все необходимые файлы и инструкции.

Автор: daniilshat

Источник

Rambler's Top100