Нейросети научились лучше распознавать юмор

Сегодня голосовые помощники могут рассказать готовый анекдот, но придумать свой или распознать шутливый тон они не в состоянии. При этом пользователи голосовых помощников, созданных на основе технологии искусственного интеллекта, хотят от них большей человечности — способности распознать шутку и пошутить в ответ. С середины 2000-х годов учёные занимаются распознаванием юмора как задачей классификации «смешно — не смешно», в этой же рамке собираются и размечаются датасеты (набор данных). Группа российских учёных из НИУ ВШЭ предложила изменить подходы к формированию таких датасетов — сделать их более разнообразными и не очень большими. Текст исследования доступен по ссылке.

Задача распознавания юмора сложна ещё и потому, что отсутствуют формальные критерии для определения того, что смешно, а что нет. Сейчас большинство датасетов для обучения и оценки моделей распознавания юмора содержат каламбуры (puns). Сарказм и ирония ещё более сложны, как и ситуативный юмор, требующий знания широкого контекста или культурного кода. Учёные хотели оценить переносимость и устойчивость моделей, обученных на разных датасетах. Переносимость — это то, насколько обученная на датасете с одним типом юмора модель хорошо определяет другой тип юмора. Было совсем не очевидно, как будет работать обучение, потому что юмор бывает разным.

Устойчивость же учёные проверяли атаками — попытками заставить нейросеть увидеть юмор там, где его нет. Нейросеть получала несмешной, но формально похожий на юмористический текст — вместо каламбура в диалоге использовалось «неправильное» созвучное слово. Чем меньше сеть попадается в такие ловушки, тем она более устойчива. Исследователи обучали модели на стандартных датасетах с разным юмором и на датасетах, состоящих из примеров с различными типами юмора. Кроме того, модели проходили проверку диалогами из «Алисы в Стране чудес» Льюиса Кэрролла, «Лавки древностей» Чарльза Диккенса, «Трое в лодке, не считая собаки» Джерома К. Джерома, сериалов «Ходячие мертвецы», «Друзья» и коллекцией ироничных твитов. Оказалось, что некоторые модели переобучаются и из-за этого начинают считать смешным всё.

Модели, натренированные на каламбурах, чаще ошибаются, если в несмешном тексте одно слово заменено на созвучное. Также выяснилось, что нейросети, натренированные на небольших частях разных датасетов, распознают юмор лучше, чем обученные на большом количестве однотипных данных. Авторы делают вывод, что существующие датасеты слишком узкие, юмор в каждом из них сильно ограничен и это снижает качество распознавания шуток. Исследователи предложили изменить подход к обучению и оценке моделей распознавания юмора. Нужны новые датасеты, более разнообразные и близкие к обычным разговорам, естественному общению. Большие языковые модели, например ChatGPT, обученные на огромных массивах данных разных типов, в среднем хорошо справляются с распознаванием юмора, и учёные предполагают, что дело именно в разнообразии данных, на которых они учились.

Алексей Клёсов

Вам также может понравиться

Банк ВТБ запустил чат-бот в WhatsApp

В Ханты-Мансийске создали первого в России робота-диагноста для детских садов

Создана электромеханическая нейросеть из блоков с переменной жёсткостью