gguf.

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Проблема: Галлюцинации в инженерных расчетахЯ занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутренний язык CADINP. Это мощный, но старый процедурный язык с жестким синтаксисом: строгая последовательность модулей (AQUA -> SOFIMSHC -> ASE), специфичные команды фиксации узлов и неявные зависимости.SOTA-модели (ChatGPT-4o, Claude 3.5 Sonnet) справляются с CADINP посредственно. Основные проблемы при генерации кода general-purpose моделями:Синтаксический шум: Выдумывание несуществующих аргументов функций.Потеря контекста:

продолжить чтение

Оставлено в

Обзор Msty: умные ассистенты и их интеграция с BotHub

продолжить чтение

Оставлено в

GGUF: квантизация с калибровкой (imatrix)

Привет, хабровчане!Признаюсь, я не большой любитель vLLM, Triton Inference Server и всяких там NeMo, вместо них я предпочитаю ollama вообще и llama.cpp

продолжить чтение

Оставлено в

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

продолжить чтение

Оставлено в

Теперь Grok 2.5 можно запускать локально

Инженеры Unsloth представили оптимизированную версию модели Grok 2.5, которая теперь может работать локально на Mac с 128 ГБ оперативной памяти. В тестах достигли скорости около пяти токенов в секунду при размере модели в 270 миллиардов параметров.

продолжить чтение

Оставлено в

Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

Предыдущая статья с подборкой моделей для русскогоdraw a cat which choosing LLM model

продолжить чтение

Оставлено в

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

ВведениеПосле сборки домашнего сервера для работы с LLM DeepSeek-R1 подробно о нём можно прочитать в статье Локальный DeepSeek-R1-0528. Когда скорость улитки – не приговор, а точка старта возникла потребность сравнить разные квантизации для оптимизации скорости/качества работы. Запуская работу с разными моделями, я заметил что квантизация зачастую приводит к ускорению генерации токенов.

продолжить чтение

Оставлено в

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

Зачем?У меня возникло желание запустить локальную версию DeepSeek R1 и V3. Это связано с необходимостью избежать рисков связанных с блокировками доступа и утечкой данных. Ещё добавилось желание протестировать разнообразные настройки LLM. До этого момента я пробовал запускать разные небольшие модели исключительно на cpu. А вот опыта с большими моделями не было.Где?

продолжить чтение

Оставлено в

На сколько Ollama готова для Production?

Некоторое время назад я был в восторге от Ollama: простое скачивание моделей одной консольной командой, наличие SDK для NodeJS и Python, OpenAI-подобное API. Однако, так как отрасль рынка активно развивается, инструмент с каждым днем становится менее конкурентноспособнымПроблемы OllamaПункты ниже заставят вас задуматься рассмотреть другой инструмент запуска GGUF, например: LMStudio, LocalAI, KoboldCPP, vLLM или llama-server

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

gguf.

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Обзор Msty: умные ассистенты и их интеграция с BotHub

GGUF: квантизация с калибровкой (imatrix)

Локальный AI: Прагматичное руководство по запуску LLM на своем железе

Теперь Grok 2.5 можно запускать локально

Русскоязычные LLM для вызова инструментов, переводов и финансовой аналитики

Ускорение DeepSeek-R1 с подвохом: Когда токены в секунду врут о реальной скорости

Локальный DeepSeek-R1: Когда скорость улитки – не приговор, а точка старта

На сколько Ollama готова для Production?

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

gguf.