локальные нейросети.

Google объяснила увеличение объёма занятой памяти на Android после обновлений системы

Google объяснила, почему объём памяти Android AICore иногда резко возрастает. Система позволяет запускать функции генеративного ИИ непосредственно на аппаратном обеспечении Android-смартфона или планшета.

продолжить чтение

Оставлено в

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

продолжить чтение

Оставлено в

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Я инженер, и у меня есть эдакий фетиш - все, что важно, должно находиться под моим контролем. Локально, в железе, которое можно измерить осциллографом, нагрузить до упора и при необходимости перепаять. Когда ты привык работать со схемами, сигналами и источниками питания, становится странно отдавать вычисления куда-то наружу и надеяться, что там “все нормально работает”.

продолжить чтение

Оставлено в

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Проблема: Галлюцинации в инженерных расчетахЯ занимаюсь расчетами строительных конструкций в комплексе SOFiSTiK. Основной инструмент взаимодействия с ним — внутренний язык CADINP. Это мощный, но старый процедурный язык с жестким синтаксисом: строгая последовательность модулей (AQUA -> SOFIMSHC -> ASE), специфичные команды фиксации узлов и неявные зависимости.SOTA-модели (ChatGPT-4o, Claude 3.5 Sonnet) справляются с CADINP посредственно. Основные проблемы при генерации кода general-purpose моделями:Синтаксический шум: Выдумывание несуществующих аргументов функций.Потеря контекста:

продолжить чтение

Оставлено в

Большим GPU не нужны большие PC

Raspberry Pi eGPU vs PC GPUС тех пор, как я научил графические карты AMD, Intel и Nvidia работать с Raspberry Pi, меня мучил вопрос:

продолжить чтение

Оставлено в

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

Разработчики llama.cpp добавили поддержку router mode — режима, с помощью которого можно динамически загружать, выгружать и переключать несколько моделей без перезагрузки сервера. В блоге Hugging Face отмечают, что чаще всего пользователи просили реализовать именно эту функцию.

продолжить чтение

Оставлено в

Microsoft представила функцию копипасты на базе локального ИИ

Функция копирования и вставки Microsoft на базе искусственного интеллекта теперь может использовать локальные ИИ-модели вместо подключения к облаку. Инструмент Advanced Paste представлен в PowerToys для Windows 11.

продолжить чтение

Оставлено в

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

продолжить чтение

Оставлено в

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

Новое семейство Qwer3 представлено в виде Dense: 0.6B,1.7B, 4B, 8B, 14B, 32B, и в виде MoE: 30B-A3B, 235B-A22B. Каждая модель поддерживать гибридный режим работы: обычный и размышление. Поддерживает 119 языков и диалектов.

продолжить чтение

Оставлено в

Цензура в DeepSeek работает при локальном запуске модели

Некоторые эксперты в области искусственного интеллекта считали, что хорошо задокументированная цензура DeepSeek существует только на уровне приложения и не работает, если запустить приложение локально на устройстве. Теперь выяснилось, что это не так.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

локальные нейросети.

Google объяснила увеличение объёма занятой памяти на Android после обновлений системы

Выжать больше из локальных LLM. Ollama медленнее llama.cpp в 3 раза. UD_Q4_K_XL лучше чем Q4_K_M, а вес тот же и т.д

Сборка дешевого домашнего вычислительного кластера на двух процессорах и 6 «почти» RTX3080

Fine-tuning Qwen-8B под проприетарный синтаксис (CADINP) на одной RTX 3090: опыт инженера-конструктора

Большим GPU не нужны большие PC

В llama.cpp добавили функцию для динамического переключения моделей без перезагрузки сервера

Microsoft представила функцию копипасты на базе локального ИИ

Запускаем GPT-OSS-120B на 6 Гб GPU и ускоряем до 30 t-s. Вам нужна RAM, а не VRAM. Параметр -cmoe для ускорения MoE LLM

Вышла Qwen3. Весит мало, работает быстро. Обходит LLama4 402B Maverick и конкурирует с DeepSeek R1

Цензура в DeepSeek работает при локальном запуске модели

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

локальные нейросети.