Как ИИ начинает понимать чёрный юмор

Шутка шутке рознь. Чистый юмор ^[1] держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а смысл рождается на стыке. До недавнего времени не было хорошего мультимодального набора данных именно по чёрному юмору, и модели путались между иронией, сарказмом и откровенной агрессией. Команда D‑Humor закрывает пробел: они собрали датасет из мемов и предложили способ учить модели рассуждать — не просто смотреть и читать, а ещё и объяснять, что именно делает шутку тёмной.

Зачем всё это нужно

Понимание чёрного юмора — не про цензуру, а про контекст. Платформам важно отличать злонамеренную речь от юмористического, пусть и жёсткого, комментария. Исследователям — видеть, какие группы чаще становятся мишенью. Для создателей ИИ — проверять, где модель ошибается из‑за культурных различий или неоднозначных визуальных намёков.

Как собрали данные

Авторы собрали 4 397 мемов с Reddit, сохранив изображение и извлечённый OCR‑текст. Каждый мем размечался по трём осям:

есть ли чёрный юмор;
цель шутки: гендер/секс, психическое здоровье, насилие/смерть, раса/этничность, инвалидность, другое;
интенсивность: мягкая, умеренная, высокая.

Разметку делали три аннотатора с обучением ^[2] и регулярными сверками. Баланс по чёрному/нечёрному юмору близок к равномерному. Чаще всего мишенью выступают гендер/секс и категория «другое», а по уровню интенсивности преобладают более мягкие случаи. Команда отдельно подчёркивает этическую сторону: данные чувствительны, доступ — по соглашению, без персональных данных.

⚠️ Осторожно: примеры из датасета могут содержать оскорбительный контент

Пример: чёрный юмор; цель — гендер/секс; высокая интенсивность

Пример: чёрный юмор; цель — раса/этничность; высокая интенсивность

Как работает предложенный подход

Ключевая идея — добавить к картинке и тексту ещё один слой: структурированное объяснение, которое модель формирует сама. Авторы берут VLM (Qwen‑2.5‑7B) и просят её кратко расписать мем по шести полям: что на нём происходит, где скрыт шутливый панч, как построен нарратив, какое вызывает чувство, какие тёмные признаки есть и кто потенциальная мишень. Затем запускают итеративное самоулучшение: модель “примеряет” роль автора мема, критикует собственное объяснение и уточняет его. В среднем хватает трёх итераций, чтобы объяснение стало более полным и связным.

Схема системы: изображение + OCR‑текст → объяснение → объединение в TCRNet для предсказаний

Петля обратной связи с «сменой роли»: модель дописывает и исправляет собственное объяснение

Дальше — извлечение признаков. Текст из OCR прогоняют через BERT, объяснение — через S‑BERT, изображение — через ViT. На их стыке работает Tri‑stream Cross‑Reasoning Network (TCRNet): она сопоставляет попарно текст, картинку и объяснение, вылавливает несоответствия и склеивает общее представление. Именно эти несостыковки часто и рождают чёрный юмор, поэтому улавливать их критично.

Что показали эксперименты

Базовые языковые модели уже неплохи в распознавании чёрного юмора, но слабеют в определении цели и особенно интенсивности. Визуальные модели — ещё хуже. Zero‑shot VLM без дообучения тоже не справляются стабильно: им не хватает выравнивания между модальностями.

Когда к OCR‑тексту добавляют структурированные объяснения, результаты заметно растут: у DistilBERT Macro‑F1 по цели увеличивается примерно с 56% до 63%, а корреляция по интенсивности — с 26% до 33%. Лучшие показатели даёт TCRNet, который явно совмещает изображение, текст и рассуждение:

распознавание чёрного юмора: accuracy 75,0%;
предсказание цели: взвешенная F1 64,2%;
предсказание интенсивности: accuracy 62,7%, корреляция Пирсона 38,6%.

Абляция честно подтверждает важность объяснений: удалите канал рассуждения — и Macro‑F1 по цели падает с ~60,5% до ~35,1%, а взвешенная F1 по факту наличия чёрного юмора — с ~74,1% до ~67,3%.

Что это меняет

Научный ^[3] вклад — в двух вещах. Во‑первых, сообщество получает открытый мультимодальный датасет, где чётко размечены не только факт чёрного юмора, но и его цель и уровень интенсивности. Во‑вторых, показано, что модели начинают лучше понимать тонкие мемы, когда их заставляют объяснять шутку и сопоставлять это объяснение с картинкой и текстом. Не просто «узнать паттерн», а собрать причинную картинку: кто шутит, над чем, за счёт какого контраста и почему это воспринимается как темно.

Где ограничения

Данные — с Reddit и на английском, поэтому перенос на другие платформы и культуры может быть неровным, а распределение по уровням интенсивности несбалансировано. И, конечно, любые модели на деликатные темы нуждаются в ответственных протоколах использования: от психологической безопасности аннотаторов до аккуратного доступа к данным.

Итог

D‑Humor предлагает реалистичный путь к пониманию чёрного юмора: добавить к мультимодальности явное рассуждение и научить модель выравнивать факты и интерпретации. Такой подход делает решения прозрачнее и полезнее — как для исследований, так и для прикладной модерации.

📜 Полная статья ^[4]

💾 Код ^[5]

***

Если вам интересна тема ИИ, ^[6]подписывайтесь на мой Telegram-канал ^[7] ^[8]– там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Автор: andre_dataist

Источник ^[9]

Сайт-источник BrainTools: https://www.braintools.ru

Путь до страницы источника: https://www.braintools.ru/article/19392

URLs in this post:

[1] юмор: http://www.braintools.ru/article/3517

[2] обучением: http://www.braintools.ru/article/5125

[3] Научный: http://www.braintools.ru/article/7634

[4] 📜 Полная статья: https://arxiv.org/abs/2509.06771

[5] 💾 Код: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning

[6] : https://t.me/+mP35nQPhgXZmZDYy

[7] подписывайтесь на мой Telegram-канал: https://t.me/+7eZ0zbDUPwE5NTU6

[8] : https://t.me/+9nDCqOqSLiM3NTVi

[9] Источник: https://habr.com/ru/articles/946016/?utm_source=habrahabr&utm_medium=rss&utm_campaign=946016

Нажмите здесь для печати.