Международная группа учёных разработала инструмент на основе искусственного интеллекта, способный интерпретировать значение звуков, которые издают собаки. Нейросеть продемонстрировала способность распознавать отдельных собак по их лаю, достигнув точности в 50%. Также искусственный интеллект научился отличать агрессивный лай от обычного. Результаты показывают, что звуки и модели, полученные из человеческой речи, могут служить основой для анализа и понимания акустических моделей других звуков, таких как вокализация животных. Исследование опубликовано на arXiv.
Учёные собрали набор данных о лае 74 собак. Животные в возрасте от пяти до 84 месяцев со средним возрастом 35 месяцев преимущественно были представлены породами чихуахуа, французскими пуделями и шнауцерами. Исследователи подвергали собак воздействию различных стимулов, призванных вызвать различные типы вокализации. Эти стимулы включали такие ситуации, как присутствие незнакомца, игровое общение, ласковые разговоры владельца и даже имитацию нападения на хозяина. Затем аудиоклипы разделили на короткие фрагменты продолжительностью от 0,3 до пяти секунд и вручную аннотировали в зависимости от контекста.
В основе анализа лежало использование сложной модели искусственного интеллекта, известной как Wav2Vec2, изначально разработанной для распознавания человеческой речи. Исследователи доработали эту модель с помощью своего набора данных о вокализации собак, исследуя несколько задач. Эти задачи включали в себя идентификацию отдельных собак по их лаю, определение породы собаки на основе её вокализации, предсказание пола собаки и сопоставление лая с конкретным контекстом.