Разработка LLM с нуля. Новые модели
Крупное обновление в моем курсе Разработка LLM с нуля.Напомню, в курсе мы с нуля разрабатываем модель GPT-1 и все необходимые для ее работы компоненты: токенизатор, эмбединги, механизм внимания и т.д. Вся разработка ведется на Python и низкоуровневых компонентах PyTorch.
DeepSeek vs Mixtral: что безопаснее использовать для корпоративного чат-бота?
Языковая модель DeepSeek R1 наделала много шума в начале этого года. Сначала в AI-сообществе с восхищением обсуждали, как китайцам удалось получить качество генерации текста на уровне передовых западных моделей при меньших затратах на обучение. Затем восторг сменился жёсткой критикой о политической предвзятости, копировании моделей OpenAI и доступности истории запросов

