- BrainTools - https://www.braintools.ru -
Энтузиаст выложил [1] на GitHub проект Z80-μLM — языковой модели, которая весит всего 40 КБ. Её можно запускать на 8-битном процессоре Z80.

Z80-μLM — это 2-битная квантованная языковая модель, работающая на процессоре Z80 с 64 КБ ОЗУ. Вся система: вывод, веса, интерфейс чата — помещается в файл .COM размером 40 КБ.
Из-за ограничений автор пошёл на компромиссы: хеширование триграмм (устойчивое к опечаткам, но с нарушением порядка слов), применил 16-битную целочисленную математику [2] и тщательную обработку обучающих данных.
Ключевым моментом стало обучение [3] с учетом квантования, точно моделирующее ограничения кода вывода. Цикл обучения выполняет параллельные проходы с квантованием как чисел с плавающей запятой, так и целых, оценивая модель по тому, насколько хорошо её знания сохраняются после квантования. Веса постепенно смещаются в сторону 2-битной сетки с помощью прямых оценок, при этом штрафы за переполнение соответствуют ограничениям 16-битного Z80. К концу обучения модель адаптируется к своим ограничениям, отметил автор..
По его словам, всего было потрачено несколько долларов на API Claude, чтобы сгенерировать данные для 20 вопросов.
Автор отмечает, что модель можно обучать на Python, а также экспортировать в виде бинарных файлов CP/M .COM.
«Она не будет писать вам электронные письма, но её можно обучить играть в упрощённую версию игры “20 вопросов”, и иногда она способна поддерживать иллюзию простых, но лаконичных разговоров с ярко выраженной индивидуальностью», — заключил он.
Автор: maybe_elf
Источник [4]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/23863
URLs in this post:
[1] выложил: https://github.com/HarryR/z80ai
[2] математику: http://www.braintools.ru/article/7620
[3] обучение: http://www.braintools.ru/article/5125
[4] Источник: https://habr.com/ru/news/981780/?utm_source=habrahabr&utm_medium=rss&utm_campaign=981780
Нажмите здесь для печати.