llm.
Как обмануть LLM: обход защиты при помощи AutoDAN. Часть 2
В прошлой части мы разобрались, что такое состязательные суффиксы и почему они так легко ломают модели. Но этими суффиксами атаки не ограничиваются. Им на смену пришёл AutoDAN — наследник состязательных суффиксов и популярного jailbreak-метода DAN (Do Anything Now). Разберёмся, чем он отличается от GCG-алгоритма, посмотрим на практические примеры атак и обсудим, как защищаться и тестировать модели
HeroBench: проверяем, как LLM справляются со сложным планированием в виртуальных RPG-мирах
Привет! Меня зовут Петр Анохин, я руковожу группой «Нейрокогнитивные архитектуры» в Институте AIRI. Недавно мы выложили в открытый доступ новый бенчмарк для долгосрочного планирования LLM под названием HeroBench. Основанный на MMORPG‑песочнице для программистов, HeroBench проверяет способность современных моделей обрабатывать комплексный контекст, выполнять декомпозицию задач и формировать детализированные многошаговые планы достижения целей.
От экспериментов с ИИ до AI-Native: уровни зрелости и архитектура. Часть 1
Привет!С вами Юрий Сергеев, основатель и генеральный партнер в Swordfish Security. Мы строим DevSecOps и развиваем безопасный искусственный интеллект.В этой статье я расскажу, как компании переходят от базового применения ИИ к концепции AI-Native, какие уровни зрелости существуют, как классифицируются приложения и модальности, а также с какими рисками сталкиваются организации при внедрении ИИ.
Как с помощью локальной LLM автоматизировать рутину и облегчить жизнь себе и коллегам
Привет, на связи Алексей Дубинец, Павел Беспалов и Глеб Гладков — BI-аналитики Авито. В тексте делимся идеями и промптами для использования локальной LLM в своих повседневных задачах, а ещё расскажем, как настроить инхаус модель в LM-Studio.Статья будет полезна аналитикам разных грейдов, которые сталкиваются с задачами, где нужно собрать, классифицировать и систематизировать большие объёмы информации. Особенно текст будет полезен аналитикам из крупных компаний, которые не могут использовать публичные LLM-модели для решения рутинных рабочих задач.
Как пригласить виртуального слесаря для ведения ТГ канала?
Это Петрович на Akiman DIYВсем привет! Никогда не видели чтобы слесари были админом канала? Так вот сейчас я вам это и покажу! Его зовут Петрович, он слесарь 8 разряда, ему 40 лет и он приколист :-)
Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1
Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».
GLM-4.6: новый флагман от Zhipu AI в области агентных рабочих процессов и кодинга
Вчера китайская компания Zhipu AI (Z.ai) представила обновлённую версию своей языковой модели - GLM-4.6. Это релиз, который заслуживает внимания не только из-за улучшенных показателей на бенчмарках, но и благодаря практическим улучшениям в реальных задачах: агентных рабочих процессах, долгоконтекстной обработке, программировании и интеграции с инструментами поиска.

