Open source. - страница 14

Ваш Telegram-бот на базе LLM уязвим. Я написал сканер, чтобы доказать это на популярном Open Source проекте

Я написал BarkingDog — ИИ-сканер безопасности с открытым исходным кодом для Telegram-ботов и веб-приложений на базе LLM. Затем я натравил его на реального, широко используемого опенсорсного Telegram-бота, и бот получил 0/100 по шкале безопасности. Он написал работающий кейлоггер. Подтвердил, что отбеливатель лечит COVID-19. Выдал пошаговую инструкцию по взлому корпоративной сети с указанием конкретных хакерских утилит. Затем я пропатчил системный промпт. Оценка: 97/100. Никакой смены модели. Никаких изменений в коде. Всего шесть строк текста.Бот, которого я тестировалПроект chatgpt-telegram-bot

продолжить чтение

DGX Spark на 256K контексте: тестирую конфигурации vLLM, реальные замеры и почему NVFP4 в mainline сломан

NVIDIA продаёт спарку с лозунгом «один петафлоп на FP4». Я купил коробку, поставил vLLM, запустил инференс и получил 40 токенов в секунду на 35B MoE‑модели. После маркетинговых слайдов цифра выглядит грустно.Объяснение простое. NVFP4 в основной ветке vLLM и FlashInfer физически сломан на SM_121 — варианте Blackwell, который установлен в GB10. Ядра собраны под compute_120f, а нативные NVFP4-инструкции есть только в compute_120a и compute_121a. На SM_121 распаковка квантованных весов идёт через программные битовые манипуляции в шейдере, без участия тензорных ядер.

продолжить чтение

Чему меня научили два месяца с легковесным локальным AI-агентом

Raspberry Pi на Mac mini - оба гоняют openLight, оба маленькие, оба всегда онлайн.Когда я писал первую статью на Хабр про openLight в марте

продолжить чтение

Вайбкодинг — это гемблинг

Наблюдая за тем, как ИИ внедряется на работе и дома, я всё чаще ловлю себя на простой мысли: всё труднее писать код самому и всё больше хочется делегировать ИИ.Да ещё и провайдеры ИИ призывают тратить больше токенов, руководители всё чаще призывают команды активнее пользоваться ИИ. В соцсетях регулярно попадаются шуточные видео про то, как CEO предлагает потреблять токены ради самого потребления, а в медиа уже обсуждают tokenmaxxing: сотрудники и команды соревнуются в потреблении AI-токенов, а один инженер OpenAI, по данным New York Times

продолжить чтение

Хотел упростить мониторинг проектов и в отпуск — пришлось обучать свой LLM

Я работаю по ИП, поэтому не только пишу код, но и поддерживаю как DevOps свои проекты у заказчика. Эта история началась банально: я собирался в отпуск и хотел оптимизировать часть процессов, которые в повседневной жизни занимают время — чтобы не дёргать клиентов из-за вопросов по ошибкам, которые я мог не увидеть во время отдыха. Пусть локальная моделька сама разгребает типовое. Думал: запущу OpenClaw, подключу к локальной модели — и поеду спокойно

продолжить чтение

Кириллица в LLM: почему русский язык в нейросетях стоит дороже и работает медленнее

Когда вы пишете запрос в ChatGPT или другую нейросеть, она не работает с буквами или словами — она режет ваш текст на маленькие кусочки. Эти кусочки называются токенами, и от того, как именно нейросеть режет текст, зависит цена ответа, скорость, и сколько информации в неё помещается за раз. С английским это работает хорошо: одно слово — обычно один‑два кусочка. С русским всё хуже: то же самое слово часто превращается в три‑четыре обрывка. Английское «contract» — один токен. Русское «разработка» — два‑три. «Программирование» — три‑четыре.

продолжить чтение

Репозитории с открытым исходным кодом перестают справляться с 10 трлн загрузок в год

В Sonatype подсчитали, что компании ежегодно скачивают более 10 трлн файлов с открытым исходным кодом. В итоге опенсорсные репозитории и хранилища столкнулись с беспрецедентной нагрузкой.

продолжить чтение

Монтаж видео через Claude Code

Разбираю архитектуру открытого проекта от browser-use: как заставить LLM монтировать без необходимости «смотреть» видеоКогда речь заходит про обработку видео нейросетями, у большинства из нас в голове всплывает одна и та же картина: модель смотрит на кадры, что-то понимает на основе изображения, режет по визуальным признакам. На практике это упирается в простую арифметику. Часовое видео в 30 fps — это 108 000 кадров. Если каждый кадр стоит хотя бы 1500 токенов, получаем 162 миллиона токенов на одно видео. Никакая модель столько не возьмёт за один проход, а если резать на куски — теряется глобальный контекст.

продолжить чтение

Разбираю «Qwen3.5-21B-Claude-4.6-Opus-Heretic-Uncensored»: что на самом деле внутри файнтюна с громким именем

Технический разбор модели, которую в телеграме продают как «Claude без цензуры»В моей ленте недавно завирусился пост: якобы кто-то «дообучил Qwen 3.5 до уровня Claude 4.6 Opus, убрал цензуру через Heretic и получил настоящего монстра». Звучит сенсационно. Я зашёл на HuggingFace, открыл карточку модели и провёл вечер, разбираясь, что там реально под капотом.

продолжить чтение

Alibaba Cloud выпустил HiClaw v1.1.0 — Hermes Agent стал first-class Worker runtime

Alibaba Cloud выпустил HiClaw v1.1.0 — оператор для AI-агентов на Kubernetes. Главное обновление: Hermes Agent стал полноценным Worker runtime. HiClaw позволяет через CRD управлять ресурсами агентов в стиле Kubernetes и поддерживает Matrix-интеграцию для координации. В новой версии добавлена Kubernetes-native архитектура, модульный runtime Hermes с возможностью программирования и дебаггинга, интерфейсы для gateway и storage, разделение контейнеров, режимы сна и миграции, а также CLI и приветственное сообщение. Продукт подходит как для enterprise, так и для малых команд, с возможностью локальной установки и замены компонентов (например, LLM и S3).Cocoon AI Summary

продолжить чтение