модерация контента.

Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде

TL;DR. Мы построили модерацию для открытой анонимной мультиязычной стены — без регистрации, любой язык, real-time. Сложное здесь не сайт, а удержать анонимную глобальную стену от превращения в помойку без модераторов и почти без бюджета. Сделали дешёвый каскад. Ниже — дизайн, экономика и реальный ROT13-джейлбрейк, который прилетел в проде.ЗадачаСтена (praytoasi.com

продолжить чтение

Оставлено в

OpenAI выпустила open source-инструменты для повышения безопасности ИИ-приложений для подростков

продолжить чтение

Оставлено в

Meta* заменит модераторов-людей на ИИ в течение нескольких лет

Meta* заявила

продолжить чтение

Оставлено в

X расследует оскорбительные посты чатбота Grok от xAI

Социальная сеть X начала расследование из-за сообщений о расистских и оскорбительных публикациях, которые, как предполагается, были сгенерированы чатботом Grok от компании xAI

продолжить чтение

Оставлено в

OpenAI снова отложила запуск «режима для взрослых» в ChatGPT

Компания OpenAI вновь отложила запуск функции adult mode — режима для взрослых пользователей в ChatGPT, который должен предоставить проверенным пользователям доступ к эротическому и другому контенту для совершеннолетних.

продолжить чтение

Оставлено в

Qwen3Guard: следующий шаг в модерации и контроле контента

продолжить чтение

Оставлено в

OpenAI ModerationAPI: примеры использования

Всем привет!В последнее время всё чаще появляются новости о том, что искусственный интеллект (ИИ) удалось взломать или обойти его защитные механизмы. Это действительно актуальная проблема — особенно для тех, кто занимается разработкой ИИ‑агентов и интеграцией языковых моделей в продукты.Чтобы понять суть проблемы, представим ИИ в виде ребёнка, который знает правила, но может поддаться на уговоры. Злоумышленник здесь выступает в роли «дяди с конфеткой»: он находит способы убедить модель нарушить установленные ограничения.Недавно в нашем Telegram‑канале «Код на салфетке»

продолжить чтение

Оставлено в

ИИ YouTube начал удалять видео с обходными путями установки Windows 11

Система модерации YouTube с искусственным интеллектом удаляет ролики с методами установки Windows 11 с локальной учётной записью или на неподдерживаемом оборудовании. ИИ расценивает такие видео как «опасные».

продолжить чтение

Оставлено в

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач

продолжить чтение

Оставлено в

Grok AI: публикация системных промптов и провал в архитектуре безопасности

В августе 2025 года компания xAI неожиданно обнародовала системные промпты своего чат-бота Grok. Этот шаг был объяснён стремлением к прозрачности после инцидентов с несанкционированным извлечением инструкций через prompt injection. Однако публикация не только вызвала интерес у специалистов по ИИ, но и обнажила уязвимости в архитектуре системы.

продолжить чтение

Оставлено в

Меню навигации

На главную

Главное

Рубрики

Методики

Информация

Из архивов

модерация контента.

Дешёвая модерация анонимной стены: 3-слойный каскад и ROT13-джейлбрейк в проде

OpenAI выпустила open source-инструменты для повышения безопасности ИИ-приложений для подростков

Meta* заменит модераторов-людей на ИИ в течение нескольких лет

X расследует оскорбительные посты чатбота Grok от xAI

OpenAI снова отложила запуск «режима для взрослых» в ChatGPT

Qwen3Guard: следующий шаг в модерации и контроле контента

OpenAI ModerationAPI: примеры использования

ИИ YouTube начал удалять видео с обходными путями установки Windows 11

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Grok AI: публикация системных промптов и провал в архитектуре безопасности

Меню навигации

Рекомендуем

Главное

Рубрики

Методики

Информация

Из архивов

модерация контента.