локальная LLM.

Как мы сделали AI code review через Ollama без облака?

TL;DR: Собрали CLI, который гоняет ревью кода на локальной LLM (Ollama): никаких API-ключей в облаке, код не уходит из машины, один diff - одна команда. В статье - зачем это нужно, как устроено и как попробовать за пять минут.ПроблемаРевью кода вручную отнимает время, а статический анализ (линтеры, SAST) ловит только то, что зашито в правила. Контекст проекта, типичные баги и «запахи» кода они не видят. Облачные AI-ревью (типа CodeRabbit) удобны, но код уходит в чужое API - для внутренних репозиториев или строгого комплаенса это не всегда ок.Хотелось чего-то среднего: умное ревью с контекстом, но полностью локально

продолжить чтение

GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц

С выходом Open-Source модели от OpenAI, появилось очень много новостей и обсуждений бенчмарков, но реальной статистики, гайдов запуска, и загрузочных тестов, лично я не встречал. В этой статье я покажу максимальную производительность GPT-OSS 20B, которую можно добиться на современной H100, чтобы сэкономить время тем, кто вдруг решит ее разворачивать локально на своем оборудовании!С чего начнем? Установите Ubuntu 22.04.5 LTSСначала скачаем контейнер под vLLM для gpt-oss-20b. Он отличается тем, что внутри него конкретная версия vllm 0.10.1 и другие важные зависимости.

продолжить чтение

GPT-OSS-20B – 120B: Сухие цифры после реальных тестов

OpenAI выпустила GPT-OSS модели (https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки производительности найти сложно. В этой статье представлены результаты нашего практического тестирования на арендованном железе через RunPod с использованием Ollama.Ремарка: Тесты проводились на Ollama для быстрого деплоя. Если будете использовать vLLM, то производительность будет примерно +30%, но он слабо адаптирован под консьюмерские GPU, за исключением RTX 5090. Что тестировалось:

продолжить чтение

Rambler's Top100