модерация контента.

Qwen3Guard: следующий шаг в модерации и контроле контента

продолжить чтение

OpenAI ModerationAPI: примеры использования

Всем привет!В последнее время всё чаще появляются новости о том, что искусственный интеллект (ИИ) удалось взломать или обойти его защитные механизмы. Это действительно актуальная проблема — особенно для тех, кто занимается разработкой ИИ‑агентов и интеграцией языковых моделей в продукты.Чтобы понять суть проблемы, представим ИИ в виде ребёнка, который знает правила, но может поддаться на уговоры. Злоумышленник здесь выступает в роли «дяди с конфеткой»: он находит способы убедить модель нарушить установленные ограничения.Недавно в нашем Telegram‑канале «Код на салфетке»

продолжить чтение

ИИ YouTube начал удалять видео с обходными путями установки Windows 11

Система модерации YouTube с искусственным интеллектом удаляет ролики с методами установки Windows 11 с локальной учётной записью или на неподдерживаемом оборудовании. ИИ расценивает такие видео как «опасные».

продолжить чтение

Ловим «взрослые» сцены на видео: как ИИ помогает редакторам

Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач

продолжить чтение

Grok AI: публикация системных промптов и провал в архитектуре безопасности

В августе 2025 года компания xAI неожиданно обнародовала системные промпты своего чат-бота Grok. Этот шаг был объяснён стремлением к прозрачности после инцидентов с несанкционированным извлечением инструкций через prompt injection. Однако публикация не только вызвала интерес у специалистов по ИИ, но и обнажила уязвимости в архитектуре системы.

продолжить чтение

Pinterest признала массовую блокировку аккаунтов из-за «внутренней ошибки»

В Pinterest извинились за недавнюю волну деактивации аккаунтов. Компания заявила, что это была «внутренняя ошибка», но не сообщила, что её вызвало и была ли она устранена. 

продолжить чтение

Модерация: ручная, автоматическая или гибридная? Делимся опытом Data Light

А вы знали, что 55% бизнесов сталкиваются с убытками из-за онлайн-мошенничества, вызванного недостаточным контролем публикаций? А о том, что 88% пользователей доверяют отзывам как личным рекомендациям, и, столкнувшись с фейковым контентом, редко возвращаются на платформу? Только налаженная система модерации способна предотвратить такие ситуации и обеспечить безопасный и качественный контент.

продолжить чтение

Rambler's Top100