Базовый минимум. Часть 1: большие языковые модели
Дисклеймер: данная лекция подготовлена в первую очередь для непрофильных студентов магистратуры и аспирантуры, которые используют ИИ в учебной, исследовательской и профессиональной деятельности. Материал носит вводный характер и содержит намеренные упрощения. В то же время лекция может быть полезна и более широкой аудитории пользователей ИИ. Буду признателен за замечания и предложения по улучшению.Серия «Базовый минимум» (4 части): Базовый минимум. Часть 1: большие языковые модели (вы здесь);Базовый минимум. Часть 2: промпт-инжиниринг;Базовый минимум. Часть 3: RAG-системы;
Энтузиаст представил «разговорный ИИ» весом 40 КБ
Энтузиаст выложил на GitHub проект Z80-μLM — языковой модели, которая весит всего 40 КБ. Её можно запускать на 8-битном процессоре Z80.
Геймер построил языковую модель с 5 млн параметров в Minecraft
Ютубер sammyuri построил в Minecraft большую языковую модель CarftGPT с 5 млн параметров. В конструкции используется более 438 млн блоков. Проект автор реализовал без модов и дата-паков. В основе только схемы из красного камня.
Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение
Автор оригинала: Грант СандерсонЧто такое модель GPT?Формально говоря, GPT — это Generative Pre-Trained Transformer (генеративный предобученный трансформер). Первые два слова говорят сами за себя: generative означает, что модель генерирует новый текст; pre-trained означает, что модель была обучена на больших объёмах данных. На чём мы сосредоточимся, так это на transformer-аспекте языковой модели — главном двигателе недавнего бума в области ИИ.Что такое Трансформер (Transformer)?
Fine-tune Qwen3 Embeddings для классификации категорий товаров
Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce
Google представляет новую модель Gemini, которая может работать на локальных роботах
Во вторник компания Google DeepMind представила новую языковую модель, получившую название Gemini Robotics On-Device. Эта модель способна выполнять локальные задачи на роботах без необходимости подключения к интернету.
Забудьте про Hugging Face и CLI — ставим Gemma 3 12B за 15 минут
Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft
15 минут — и у тебя свой LLM, который не утекает в облако и не стоит $20 в месяц
Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft
15 минут — и у тебя бесплатная ИИ-модель для генерации кода, текста, чтения иллюстраций
Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft
За 15 минут установил Gemma 3 12B на Mac — было проще, чем с DeepSeek
Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft

