ollama.

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 2: делаем консольный чат

В первой части мы сделали самый важный стартовый шаг: подняли локальную модель через Ollama, подключили её к Python через LiteLLM и получили первый осмысленный ответ из кода.Но пока это ещё не чат. Наш main.py умел только одно: отправить один заранее заданный вопрос, вывести ответ и завершиться.Для учебного эксперимента этого достаточно. Для приложения — уже нет.Во второй части превратим этот одноразовый скрипт в маленький консольный чат

продолжить чтение

Как мы внедрили ИИ для обработки рекламаций на производстве

Где бы вы ни работали и каким идеальным продуктом или сервисом вы бы ни занимались, вас всегда будут сопровождать жалобы и рекламации от клиентов.Рекламации — это вежливо-агрессивная форма общения между заказчиком и поставщиком, где каждая сторона добивается максимально приемлемого для себя результата. Потребитель, в идеале, хочет замену товара без дополнительных затрат, а производитель — соблюсти баланс между полным отзывом по гарантийному случаю , или вежливым ответом: «ваше обращение очень важно для нас, но помочь ничем не можем — вот вам промокод в размере 2% на последующие покупки».

продолжить чтение

Маленький LLM-чат на Python с Ollama и LiteLLM. Часть 1: ставим окружение и пишем первый запрос

Во многих туториалах по LLM всё начинается с API-ключей, платных токенов и облачных сервисов. Это рабочий путь, но для первого знакомства он не самый удобный: нужно регистрироваться, разбираться с биллингом и постоянно помнить, что каждый эксперимент что-то стоит.Здесь пойдём проще. В этой серии мы соберём маленький LLM-чат на Python, который сначала будет работать локально: модель запускается через Ollama, а Python-код общается с ней через LiteLLM.Это хороший стартовый маршрут по трём причинам:не нужны API-ключи;не нужен интернет для каждого запроса;

продолжить чтение

Запускаем LLM на AMD RX580: разбор проблем ROCm, Ollama и реальный GPU inference

TL;DRМы пытались запустить LLM inference на старой AMD RX580 (8 VRAM) через ROCm в Kubernetes. GPU корректно определялся, VRAM использовалась, но inference падал с ошибками вида:hipMemGetInfo(free, total) CUDA error: invalid argumentПосле серии экспериментов с ROCm userspace, Docker‑образами и Kubernetes deployment выяснилось, что проблема лежит на границе:kernel → ROCm runtime → ggml backendФинальное решение включало:переход на kernel 6.8стабилизацию ROCm runtimeиспользование llama.cpp + ROCmgrammar‑constrained decoding для strict sanity promptsВ итоге мы получили стабильный GPU inference:~42 токен/секgpu_busy_percent → до 100%

продолжить чтение

Облачные модели Ollama в задачах code review — честное сравнение на примерах

С недавних пор AI-инструменты стали важной частью разработки. Такие решения, как Cursor, Codex и Claude Code позволяют разработчикам генерировать код, ускорять написание функций и автоматизировать рутинные задачи. Это существенно повышает скорость разработки. Однако у такого подхода есть и обратная сторона: код начинает появляться быстрее, чем команды успевают его качественно проверять. В результате нагрузка на процесс code review

продолжить чтение

Пора переезжать на локальные LLM. Или нет?

Нет большой разницы в инструментах, когда речь идет о создании простеньких чат-ботов. Но когда вы работаете над продуктом посерьезнее, например создаете сложного AI-агента или работаете с чувствительными данными, облачные LLM начинают выставлять счета. И не только финансовые.Что если переход на локальную инфраструктуру (вроде Ollama) это решение, которое не просто поможет сэкономить, но изменит саму динамику разработки?Налог на итерацию

продолжить чтение

Эволюция Telegram-бота на локальной LLM от болтуна до мини-игр, генерации фото, возможности выбора модели

Хочу поделиться историей создания Telegram-бота, работающего полностью на локальной ИИ. В качестве языковой основы используется Ollama, а для генерации изображений — AUTOMATIC1111. Весь код написан на Python с библиотекой python-telegram-bot. Почему выбрал именно Ollama? Потому что она бесплатна, есть множество открытых моделей и её очень просто развернуть в своем проекте. Если брать облачные решения от других компаний, например ChatGPT, то тут можно уперется в то, что за них нужно платить. Модели я подбирал под свой компик: 5070 и 32 гб оперативы. Сервера своего нету, поэтому бот работает только когда я дома.

продолжить чтение

Умная колонка своими руками

В этой статье я расскажу, как сделать своими руками две умные колонки, полностью поддерживающие русский язык:1) На микроконтроллере esp32s3, используя XiaoZhi

продолжить чтение

Как мы сделали AI code review через Ollama без облака?

TL;DR: Собрали CLI, который гоняет ревью кода на локальной LLM (Ollama): никаких API-ключей в облаке, код не уходит из машины, один diff - одна команда. В статье - зачем это нужно, как устроено и как попробовать за пять минут.ПроблемаРевью кода вручную отнимает время, а статический анализ (линтеры, SAST) ловит только то, что зашито в правила. Контекст проекта, типичные баги и «запахи» кода они не видят. Облачные AI-ревью (типа CodeRabbit) удобны, но код уходит в чужое API - для внутренних репозиториев или строгого комплаенса это не всегда ок.Хотелось чего-то среднего: умное ревью с контекстом, но полностью локально

продолжить чтение

Какие LLM потянет ваше железо?

Всем привет,Продолжаю разбираться с ИИ - вычислениями ...Спасибо t.me/prog_stuff за наводку на llm-checker — CLI, который сканирует железо и говорит, какие модели потянет Ollama. Сканирует GPU, RAM, CPU и оценивает каждую модель по скорости, качеству и совместимости. 35+ моделей от 1B до 32B, список модерируется вручную.Ссылка репозитарий на GitHub, установка командой: npm install -g llm-checker.Проверил на своем MacAir (M1, 16 Гб), получил такую рекомендацию - qwen2.5 - coder, 7B. Буду пробовать.

продолжить чтение

123456...8
Rambler's Top100