трансформеры.

Твой ИИ тебя понимает? Разбираем тайны внутреннего мира языковых моделей

Современные крупные языковые модели, такие как ChatGPT, Claude или Gemini, поражают своими возможностями. Но главный вопрос остаётся открытым: как именно они думают?

продолжить чтение

Клон ChatGPT в 3000 байтах на C, основанный на GPT-2

Эта программа представляет собой свободную от зависимостей реализацию GPT-2. Она загружает матрицу весов и файл BPE из оригинальных файлов TensorFlow, токенизирует вывод при помощи простого энкодера, работающего по принципу частотного кодирования, реализует базовый пакет для линейной алгебры, в котором заключены математические операции над матрицами, определяет архитектуру трансформера, выполняет инференс трансформера, а затем очищает вывод от токенов при помощи BPE-декодера. Всё это — примерно в 3000 байт на C.

продолжить чтение

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

Все современные LLM построены на архитектуре трансформера. GPT-4o от OpenAI, Gemini от Google, Claude Sonet от Anthropic, Grok от xAI... перечислять можно долго. Трансформер – действительно очень мощная архитектура (и кстати тоже была придумала в Google), но и в ней есть свои недостатки.

продолжить чтение

Rambler's Top100