OpenAI ModerationAPI: примеры использования
Всем привет!В последнее время всё чаще появляются новости о том, что искусственный интеллект (ИИ) удалось взломать или обойти его защитные механизмы. Это действительно актуальная проблема — особенно для тех, кто занимается разработкой ИИ‑агентов и интеграцией языковых моделей в продукты.Чтобы понять суть проблемы, представим ИИ в виде ребёнка, который знает правила, но может поддаться на уговоры. Злоумышленник здесь выступает в роли «дяди с конфеткой»: он находит способы убедить модель нарушить установленные ограничения.Недавно в нашем Telegram‑канале «Код на салфетке»
ИИ YouTube начал удалять видео с обходными путями установки Windows 11
Система модерации YouTube с искусственным интеллектом удаляет ролики с методами установки Windows 11 с локальной учётной записью или на неподдерживаемом оборудовании. ИИ расценивает такие видео как «опасные».
Ловим «взрослые» сцены на видео: как ИИ помогает редакторам
Поводом для написания этой заметки стало обсуждение на недавнем отраслевом мероприятии задач
Grok AI: публикация системных промптов и провал в архитектуре безопасности
В августе 2025 года компания xAI неожиданно обнародовала системные промпты своего чат-бота Grok. Этот шаг был объяснён стремлением к прозрачности после инцидентов с несанкционированным извлечением инструкций через prompt injection. Однако публикация не только вызвала интерес у специалистов по ИИ, но и обнажила уязвимости в архитектуре системы.
Pinterest признала массовую блокировку аккаунтов из-за «внутренней ошибки»
В Pinterest извинились за недавнюю волну деактивации аккаунтов. Компания заявила, что это была «внутренняя ошибка», но не сообщила, что её вызвало и была ли она устранена.
Модерация: ручная, автоматическая или гибридная? Делимся опытом Data Light
А вы знали, что 55% бизнесов сталкиваются с убытками из-за онлайн-мошенничества, вызванного недостаточным контролем публикаций? А о том, что 88% пользователей доверяют отзывам как личным рекомендациям, и, столкнувшись с фейковым контентом, редко возвращаются на платформу? Только налаженная система модерации способна предотвратить такие ситуации и обеспечить безопасный и качественный контент.

