gguf.

Обзор Msty: умные ассистенты и их интеграция с BotHub

продолжить чтение

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

продолжить чтение

Теперь Grok 2.5 можно запускать локально

Инженеры Unsloth представили оптимизированную версию модели Grok 2.5, которая теперь может работать локально на Mac с 128 ГБ оперативной памяти. В тестах достигли скорости около пяти токенов в секунду при размере модели в 270 миллиардов параметров.

продолжить чтение

Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

Предыдущая статья с подборкой моделей для русскогоdraw a cat which choosing LLM model

продолжить чтение

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

ВведениеПосле сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.

продолжить чтение

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?

продолжить чтение

На сколько Ollama готова для Production?

Некоторое время назад я был в восторге от Ollama: простое скачивание моделей одной консольной командой, наличие SDK для NodeJS и Python, OpenAI-подобное API. Однако, так как отрасль рынка активно развивается, инструмент с каждым днем становится менее конкурентноспособнымПроблемы OllamaПункты ниже заставят вас задуматься рассмотреть другой инструмент запуска GGUF, например: LMStudio, LocalAI, KoboldCPP, vLLM или llama-server

продолжить чтение

Rambler's Top100