gemma4.

Доверенный ИИ на практике: RAG, который ссылается на источник — или честно отказывается

Поднял за выходные решение, которое давно хотел проверить руками: RAG, который отвечает строго по корпусу и к каждому утверждению ставит ссылку на пункт правил — или честно пишет «В корпусе нет основания для ответа». Корпус — приказ Минспорта России №834, «Правила вида спорта “волейбол”» (плюс немного про баскетбол). Модель — Gemma-4, локально, через Ollama (сделано нарочно на Ollama, знаю про vLLM / SGLang, здесь было целью - проверить гипотезу быстро и дешево). На слое инференса ни одного внешнего вызова: можно физически отключить сеть — оно продолжает работать.Это не «ещё один чат с PDF». Цель была узкая и проверяемая:

продолжить чтение

Три попытки обогнать в бенче базовую Gemma 4 дообучением — и все три мимо

У нас есть открытый бенчмарк https://github.com/csylabs-org/lii-sport-bench-ru для оценки русскоязычных LLM на спортивном домене — ЛИИ-Спорт-Bench-RU, 655 экспертных вопросов по 35 видам спорта. В прошлой статье мы выбрали базовую модель: Gemma 4 31B. После этого начался главный вопрос — как сделать её лучше под домен.Две недели мы пытались обогнать собственную базу. Файнтюном. Потом ещё раз файнтюном на переделанном корпусе. Потом — RAG. Все три раунда базовая версия выиграла.

продолжить чтение

Локальные LLM в реальной работе: Gemma 4, Qwen 3.6 и Qwen Coder

Gemma 4 обыграла Qwen Coder в задачах программирования, а режим мышления заставил модели хуже следовать инструкциям. Рассказываю почему.Зачем я это затеялПривет, меня зовут Вячеслав. Я интересуюсь локальными LLM и тем, как они ведут себя в реальных задачах — не на синтетических бенчмарках, а когда нужно написать работающий код, отрефакторить файл с багами или вытащить данные из HTML.

продолжить чтение

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

продолжить чтение