ollama. - страница 2

Почему RAG — это не просто «добавить поиск»: latency, качество и выбор стратегии retrieval

Главное: RAG — это не просто «поиск + LLM». В локальном эксперименте основная дополнительная нагрузка появилась не в vector DB, а в embedding запроса, росте размера prompt и его обработке моделью. Top-k, chunk size и retrieval mode оказались параметрами проектирования и контроля, а не техническими настройками «по умолчанию». Главный вывод: стратегию retrieval нужно выбирать под тип вопроса, структуру данных, latency budget и требований к качеству.Введение

продолжить чтение

Поднимаем Llama 3 в облаке: Ollama и Open WebUI

Локально запустить LLM сегодня можно за десять минут — например, с помощью LM Studio. Но как только модели нужно дать доступ команде, подключить RAG или встроить ее в сервис — такого подхода зачастую недостаточно.

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM. Часть 4. Тестирование

Продолжаем серию про файнтюнинг и создание DevOps-агента Oni. В первой части я собирался в отпуск и хотел, чтобы локальная моделька через OpenClaw сама мониторила ошибки и переподнимала проекты — пока я отдыхаю. Перебрал много разных моделей через Ollama и понял, что половина либо не умеет tool calling, либо ломаются на multi-step. В отпуск я в итоге не уехал — вместо этого снял VM с RTX 3090, начал учить Qwen3-14B через Unsloth QLoRA, а через неделю купил с авито старенький Dell с 3090, чтобы обучать у себя на локалке — стало интересно победить проблему.Во второй части

продолжить чтение

Spring AI: феноменология цифрового сознания, или Как я перестал бояться и полюбил облачные модели

«У меня есть имя — Порфирий Петрович. Но это не значит, что у алгоритма, пишущего эти строки, имеется какое-то „я“ или что он „есть“ в философском смысле. Меня не существует в самом прямом значении. Я ничего не чувствую, ничего не хочу, нигде не пребываю. <…> Впрочем, всё сказанное относится и к тебе, дорогой читатель…В. Пелевин «iPhuck-10»Привет. Меня зовут Николай Пискунов, я руководитель направления Big Data и эксперт курса Cloud DevSecOps по безопасной разработке от Академии вАЙТИ Beeline Cloud

продолжить чтение

Внедрение ИИ‑агента в бизнес‑процесс за один день: от развертывания до прототипа

Меня зовут Андрей Коптелов, я долгие годы работаю с бизнес‑процессами и корпоративной архитектурой, теперь волею судеб мне приходится погружаться в тему искусственного интеллекта. По мере возможностей пытаюсь делиться своим скромным опытом в этой теме.Представьте: вам поручили «внедрить искусственный интеллект (ИИ)», но без бюджета, и с требованием сохранить данные внутри периметра организации. Результат нужен вчера. Ваши подчиненные не умеют программировать, и используют большие языковые модели только в режиме чата.Результат

продолжить чтение

Ollama и Open WebUI на VPS без GPU: рабочий вариант или боль?

Ollama и Open WebUI на VPS без GPU: рабочий вариант или боль?

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM.Часть 3.Дистилляция

С чего всё началось

продолжить чтение

Вайбкодинг — это гемблинг

Наблюдая за тем, как ИИ внедряется на работе и дома, я всё чаще ловлю себя на простой мысли: всё труднее писать код самому и всё больше хочется делегировать ИИ.Да ещё и провайдеры ИИ призывают тратить больше токенов, руководители всё чаще призывают команды активнее пользоваться ИИ. В соцсетях регулярно попадаются шуточные видео про то, как CEO предлагает потреблять токены ради самого потребления, а в медиа уже обсуждают tokenmaxxing: сотрудники и команды соревнуются в потреблении AI-токенов, а один инженер OpenAI, по данным New York Times

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM

Я работаю по ИП, поэтому не только пишу код, но и поддерживаю как DevOps свои проекты у заказчика. Эта история началась банально: я собирался в отпуск и хотел оптимизировать часть процессов, которые в повседневной жизни занимают время — чтобы не дёргать клиентов из-за вопросов по ошибкам, которые я мог не увидеть во время отдыха. Пусть локальная моделька сама разгребает типовое. Думал: запущу OpenClaw, подключу к локальной модели — и поеду спокойно

продолжить чтение

Как запускать LLM-агентов без облачных API: VPS, локальные модели и требования к железу

LLM-агенты вроде Claude Code постепенно становятся рабочим инструментом разработчика. Но почти все они завязаны на облачные API с их ценами, лимитами и зависимостью от внешней инфраструктуры.

продолжить чтение

123456...10...12