языковая модель.

Базовый минимум. Часть 1: большие языковые модели

Дисклеймер: данная лекция подготовлена в первую очередь для непрофильных студентов магистратуры и аспирантуры, которые используют ИИ в учебной, исследовательской и профессиональной деятельности. Материал носит вводный характер и содержит намеренные упрощения. В то же время лекция может быть полезна и более широкой аудитории пользователей ИИ. Буду признателен за замечания и предложения по улучшению.Серия «Базовый минимум» (4 части): Базовый минимум. Часть 1: большие языковые модели (вы здесь);Базовый минимум. Часть 2: промпт-инжиниринг;Базовый минимум. Часть 3: RAG-системы;

продолжить чтение

Оставлено в

Энтузиаст представил «разговорный ИИ» весом 40 КБ

Энтузиаст выложил на GitHub проект Z80-μLM — языковой модели, которая весит всего 40 КБ. Её можно запускать на 8-битном процессоре Z80.

продолжить чтение

Оставлено в

Геймер построил языковую модель с 5 млн параметров в Minecraft

Ютубер sammyuri построил в Minecraft большую языковую модель CarftGPT с 5 млн параметров. В конструкции используется более 438 млн блоков. Проект автор реализовал без модов и дата-паков. В основе только схемы из красного камня.

продолжить чтение

Оставлено в

Трансформеры: технология, лежащая в основе больших языковых моделей | Глубокое обучение

Автор оригинала: Грант СандерсонЧто такое модель GPT?Формально говоря, GPT — это Generative Pre-Trained Transformer (генеративный предобученный трансформер). Первые два слова говорят сами за себя: generative означает, что модель генерирует новый текст; pre-trained означает, что модель была обучена на больших объёмах данных. На чём мы сосредоточимся, так это на transformer-аспекте языковой модели — главном двигателе недавнего бума в области ИИ.Что такое Трансформер (Transformer)?

продолжить чтение

Оставлено в

Fine-tune Qwen3 Embeddings для классификации категорий товаров

Мы взяли размеченный корпус товаров из Web Data Commons, дообучили Qwen3 Embedding с помощью LoRA и получили лёгкий чекпойнт на ~615M параметров, который сопоставляет «сырые» названия товаров с 6 верхнеуровневыми категориями с результатом macro-F1 = 0.836, может работать в реальном времени на одной видеокарте. Код доступен в гитхабе так же английская версия этого поста. Почему именно Web Data Commons и зачем это e-commerce

продолжить чтение

Оставлено в

Google представляет новую модель Gemini, которая может работать на локальных роботах

Во вторник компания Google DeepMind представила новую языковую модель, получившую название Gemini Robotics On-Device. Эта модель способна выполнять локальные задачи на роботах без необходимости подключения к интернету.

продолжить чтение

Оставлено в

Забудьте про Hugging Face и CLI — ставим Gemma 3 12B за 15 минут

Недавно решил покопаться в локальных языковых моделях и наткнулся на новинку от Google DeepMind — Gemma 3 12B. Модель мощная, с открытой лицензией и, что особенно порадовало, спокойно запускается прямо на ноутбуке. Без серверов, клаудов и трат на аренду GPU.Чтобы всё это заработало без плясок с настройками, я взял LM Studio — простой и удобный интерфейс для работы с LLM, который буквально делает «запустил и поехали».Я написал этот материал для блога Minervasoft

продолжить чтение