Как я обучил GPT с нуля на русском языке — и что из этого получилось
Всё началось с наивной мысли: зачем платить за API или тащить 7B-модель, если мне нужна маленькая модель для простых разговоров на одном языке? Логика казалась железной — большие модели умеют всё и на всех языках сразу, но это же избыточно. 0.7B, заточенная под один язык и один стиль общения, должна справляться не хуже.Спойлер: это было наивно. Но путь оказался ценнее результата.В этой статье — как я прошёл путь от стандартного nanoGPT до кастомной архитектуры с RoPE/SwiGLU/GQA, собрал русскоязычный корпус с нуля, и придумал распределённое обучение на бесплатных Colab-воркерах через Google Drive.Почему не взять готовую модель?
На шаг ближе к Скайнету: научились ли нейросети умножать?
Занимаясь созданием систем искусственного интеллекта, не перестаешь удивляться, из каких порой «костылей» состоят настоящие чудеса прогресса. Например, знаете ли вы, что даже самые современные нейросети фундаментально не умеют перемножать два числа? Они не считают в привычном нам смысле, а скорее запоминают и аппроксимируют ответы.Как так вышло, что ИИ пишет код и сочиняет стихи, но буксует на таблице умножения? Давайте разбираться.Фундаментальная проблема: сложение вместо умножения

