- BrainTools - https://www.braintools.ru -

Шутка шутке рознь. Чистый юмор [1] держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а смысл рождается на стыке. До недавнего времени не было хорошего мультимодального набора данных именно по чёрному юмору, и модели путались между иронией, сарказмом и откровенной агрессией. Команда D‑Humor закрывает пробел: они собрали датасет из мемов и предложили способ учить модели рассуждать — не просто смотреть и читать, а ещё и объяснять, что именно делает шутку тёмной.
Понимание чёрного юмора — не про цензуру, а про контекст. Платформам важно отличать злонамеренную речь от юмористического, пусть и жёсткого, комментария. Исследователям — видеть, какие группы чаще становятся мишенью. Для создателей ИИ — проверять, где модель ошибается из‑за культурных различий или неоднозначных визуальных намёков.
Авторы собрали 4 397 мемов с Reddit, сохранив изображение и извлечённый OCR‑текст. Каждый мем размечался по трём осям:
есть ли чёрный юмор;
цель шутки: гендер/секс, психическое здоровье, насилие/смерть, раса/этничность, инвалидность, другое;
интенсивность: мягкая, умеренная, высокая.
Разметку делали три аннотатора с обучением [2] и регулярными сверками. Баланс по чёрному/нечёрному юмору близок к равномерному. Чаще всего мишенью выступают гендер/секс и категория «другое», а по уровню интенсивности преобладают более мягкие случаи. Команда отдельно подчёркивает этическую сторону: данные чувствительны, доступ — по соглашению, без персональных данных.
Ключевая идея — добавить к картинке и тексту ещё один слой: структурированное объяснение, которое модель формирует сама. Авторы берут VLM (Qwen‑2.5‑7B) и просят её кратко расписать мем по шести полям: что на нём происходит, где скрыт шутливый панч, как построен нарратив, какое вызывает чувство, какие тёмные признаки есть и кто потенциальная мишень. Затем запускают итеративное самоулучшение: модель “примеряет” роль автора мема, критикует собственное объяснение и уточняет его. В среднем хватает трёх итераций, чтобы объяснение стало более полным и связным.
Дальше — извлечение признаков. Текст из OCR прогоняют через BERT, объяснение — через S‑BERT, изображение — через ViT. На их стыке работает Tri‑stream Cross‑Reasoning Network (TCRNet): она сопоставляет попарно текст, картинку и объяснение, вылавливает несоответствия и склеивает общее представление. Именно эти несостыковки часто и рождают чёрный юмор, поэтому улавливать их критично.
Базовые языковые модели уже неплохи в распознавании чёрного юмора, но слабеют в определении цели и особенно интенсивности. Визуальные модели — ещё хуже. Zero‑shot VLM без дообучения тоже не справляются стабильно: им не хватает выравнивания между модальностями.
Когда к OCR‑тексту добавляют структурированные объяснения, результаты заметно растут: у DistilBERT Macro‑F1 по цели увеличивается примерно с 56% до 63%, а корреляция по интенсивности — с 26% до 33%. Лучшие показатели даёт TCRNet, который явно совмещает изображение, текст и рассуждение:
распознавание чёрного юмора: accuracy 75,0%;
предсказание цели: взвешенная F1 64,2%;
предсказание интенсивности: accuracy 62,7%, корреляция Пирсона 38,6%.
Абляция честно подтверждает важность объяснений: удалите канал рассуждения — и Macro‑F1 по цели падает с ~60,5% до ~35,1%, а взвешенная F1 по факту наличия чёрного юмора — с ~74,1% до ~67,3%.
Научный [3] вклад — в двух вещах. Во‑первых, сообщество получает открытый мультимодальный датасет, где чётко размечены не только факт чёрного юмора, но и его цель и уровень интенсивности. Во‑вторых, показано, что модели начинают лучше понимать тонкие мемы, когда их заставляют объяснять шутку и сопоставлять это объяснение с картинкой и текстом. Не просто «узнать паттерн», а собрать причинную картинку: кто шутит, над чем, за счёт какого контраста и почему это воспринимается как темно.
Данные — с Reddit и на английском, поэтому перенос на другие платформы и культуры может быть неровным, а распределение по уровням интенсивности несбалансировано. И, конечно, любые модели на деликатные темы нуждаются в ответственных протоколах использования: от психологической безопасности аннотаторов до аккуратного доступа к данным.
D‑Humor предлагает реалистичный путь к пониманию чёрного юмора: добавить к мультимодальности явное рассуждение и научить модель выравнивать факты и интерпретации. Такой подход делает решения прозрачнее и полезнее — как для исследований, так и для прикладной модерации.
📜 Полная статья [4]
💾 Код [5]
***
Если вам интересна тема ИИ, [6]подписывайтесь на мой Telegram-канал [7] [8]– там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.
Автор: andre_dataist
Источник [9]
Сайт-источник BrainTools: https://www.braintools.ru
Путь до страницы источника: https://www.braintools.ru/article/19392
URLs in this post:
[1] юмор: http://www.braintools.ru/article/3517
[2] обучением: http://www.braintools.ru/article/5125
[3] Научный: http://www.braintools.ru/article/7634
[4] 📜 Полная статья: https://arxiv.org/abs/2509.06771
[5] 💾 Код: https://github.com/Sai-Kartheek-Reddy/D-Humor-Dark-Humor-Understanding-via-Multimodal-Open-ended-Reasoning
[6] : https://t.me/+mP35nQPhgXZmZDYy
[7] подписывайтесь на мой Telegram-канал: https://t.me/+7eZ0zbDUPwE5NTU6
[8] : https://t.me/+9nDCqOqSLiM3NTVi
[9] Источник: https://habr.com/ru/articles/946016/?utm_source=habrahabr&utm_medium=rss&utm_campaign=946016
Нажмите здесь для печати.