ollama.

Укрощаем зоопарк API: универсальный Python-клиент для GigaChat, YandexGPT и локальных моделей (v0.5.0)

Привет, Хабр! 👋Если вы пробовали внедрять российские LLM в свои проекты, то наверняка сталкивались с "зоопарком" API. У GigaChat — OAuth2 и свои эндпоинты, у YandexGPT — IAM-токены и gRPC/REST, у локальных моделей через Ollama — третий формат.В какой-то момент мне надоело писать бесконечные if provider == 'gigachat': ... elif provider == 'yandex': ..., и я решил создать универсальный слой абстракции.Так появился Multi-LLM Orchestrator — open-source библиотека, которая позволяет работать с разными LLM через единый интерфейс, поддерживает умный роутинг и автоматический fallback (переключение на другую модель при ошибке).

продолжить чтение

Как я установил Ollama на Ubuntu 24.04 и начал обучать локальную LLM под свои задачи

В какой-то момент я понял, что хочу иметь свой личный ChatGPT прямо на ноутбуке — локальный, безопасный, работающий без интернета и полностью под моим контролем.

продолжить чтение

Пишем LLM бенчмарк для GPU-серверов с картами NVIDIA в Ollama

Автор: Александр Казанцев, руководитель направления по работе с документацией и контентом HOSTKEYПри сборке GPU-серверов или при проблемах с ними, которые сообщают наши клиенты, нам необходимо проводить их тестирование. Так как разворачивание LLM-моделей в Ollama является одним из сценариев их использования и мы предлагаем готовые панели с моделями на её основе, то нам необходимо также проверять машины на работоспособность и под нагрузкой в инференсе через нее и иметь результаты для сравнения.GPU-серверы — почасовая тарификация

продолжить чтение

Подключаем LLMку в свой Java-Kotlin проект через Docker

Всем привет, сегодня я расскажу как подключить LLMку через докер в ваш проект под разные задачи: от рабочих до бытовых.Мы будем использовать Java/Kotlin + Docker + Ollama.Немного о Ollama Ollama — это платформа для локального запуска и управления LLM (больших языковых моделей) на своём компьютере. Она нужна, чтобы использовать и тестировать модели вроде GPT или LLaMA без облака, хранить их локально и интегрировать в свои приложения. Я же сегодня буду вам показывать пример на llama3:8b. В первую очередь Llama 3‑8B оптимизирована для общего текстового интеллекта: от ответов на вопросы до прочих повседневных задач.

продолжить чтение

Делаем свой ChatGPT за 10$ в месяц: разворачиваем LLM на облаке. Подробный гайд на VPS + API-обертка

Еще недавно поиск в Google или Яндекс был главным инструментом инженера. Сегодня все изменилось: AI-помощники вроде ChatGPT, Gemini или Claude, понимающие запросы на естественном языке, кардинально меняют подход к работе. Однако их использование упирается в серьезные преграды: вопросы конфиденциальности корпоративных данных, географические блокировки и лимиты бесплатных тарифов стали новой головной болью.

продолжить чтение

Краткий обзор 10 локальных UI для LLM

Если вы хотите поиграться с LLM у вас есть несколько вариантов: можно задействовать LLM через код, можно воспользоваться чатом одного из облачных провайдеров, а можно развернуть у себя UI-клиента для работы с LLM. Их довольно много. И функционал у них может сильно различаться. В самом простом виде есть только чат. У наиболее продвинутых есть встроенные базы знаний, работа с изображениями и много других функций.Ниже краткий обзор 9 таких клиентов (отсортированы по предпочтению автора):Open WebUILM StudioMsty StudioLibrechat

продолжить чтение

Вайбуем в закрытом корпконтуре с Android Studio, Continue и Ollama в локальном режиме

продолжить чтение

Как я построил RAG-систему за вечер с помощью 5 open source-инструментов

Команда Python for Devs подготовила практическое руководство по сборке полноценной RAG-системы из пяти open source-инструментов. MarkItDown, LangChain, ChromaDB, Ollama и Gradio превращают разрозненные документы в умную базу знаний с потоковой генерацией ответов. Всё локально, без облаков и с открытым кодом — попробуйте собрать свой ChatGPT прямо у себя.Бывало, вы тратили по полчаса, просматривая ветки Slack, вложения к письмам и общие диски, лишь чтобы найти ту самую техническую спецификацию, о которой коллега упоминал на прошлой неделе?

продолжить чтение

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

AI Review кода за 30 минут: локальная LLM прямо в CI-CD

В этой статье я покажу, как всего за 30 минут подключить автоматическое AI-ревью кода в вашем проекте — бесплатно, без токенов, без OpenAI и полностью локально.В основе решения — три компонента: Ollama, AI Review и GitHub Actions. Ollama отвечает за запуск локальной LLM прямо внутри CI/CD без интернета и внешних API. AI Review — опенсорсный инструмент, который анализирует изменения в Pull Request и оставляет комментарии прямо в GitHub. GitHub Actions обеспечивает автоматический запуск ревью при каждом изменении кода.

продолжить чтение

Rambler's Top100