Нейросеть научилась узнавать птиц по их пению

Исследовательская группа Google представила нейросеть, которая быстро классифицирует птиц по их пению. Алгоритм неконтролируемого разделения звуков на аудиозаписях MixIT поможет не только определять виды птиц, но также исследовать состояние коралловых рифов, отмечают разработчики. Результаты исследования Google Research Team опубликованы в двух научных статьях (1 и 2), а исходный код алгоритмов выложен на GitHub.

Экологи используют птиц для изучения пищевых систем и здоровья лесов: например, популяции дятлов коррелируют с большим количеством сухостоя в лесах. Эффективнее всего идентифицировать птиц на слух, поскольку они отмечают территорию песнями и криками. Эксперты могут распознать в 10 раз больше птиц по аудиозаписям, чем по фотографиям.

Пение птиц записывают на автономные записывающие устройства (ARU), которые обычно устанавливают в лесу. Такие «бесшумные» станции могут работать от нескольких недель до нескольких месяцев: они оснащены чувствительными микрофонами, мощными аккумуляторами и хранилищем данных. Аналогичные приборы, более дорогие и защищённые от воздействия воды, используют для изучения биоразнообразия в океане.

Записи, сделанные ARU, как правило, распознают орнитологи — они прослушивают звуки природы и классифицируют птиц «на слух». Процесс идентификации ранее отнимал много времени, в том числе из-за дефицита специалистов, которые могут справиться с этой задачей, отмечают в Google Research Team. Орнитологи пытались ускорить идентификацию с помощью нейросетей, но выяснилось, что алгоритмы не всегда справляются со сложными задачами.

Нейросети ошибаются, анализируя записи «рассветного хора», сделанные в утренние часы, когда птицы наиболее активны. В это время можно одновременно услышать хор, в котором участвуют птицы самых разных видов.
Точность автоматизированного распознавания снижается из-за звуков ветра, шума насекомых и других обитателей живой природы.
Модели, как правило, обученные для поиска редких птиц, «не слышат» голоса распространённых видов. Они обучались на неполных наборах данных.

В Лаборатории Google решили эти проблемы с использованием алгоритма неконтролируемого разделения звуков (MixIT). Записи с ARU обработали MixIT, — один звуковой файл был разделён на несколько изолированных «партий», в каждой из которых содержалась трель одной птицы. Затем исследователи Google доработали алгоритм распознавания голосов EfficientNet (разработчики называют его «классификатором»): отмечается, что его обучали без разделённого аудио — по наборам данных, собранных в горах Сьерра-Невада и в северной части штата Нью-Йорк.

В классификатор внесли данные о разных видах птиц, согласно их рангу, а затем каждому виду присваивали образцы голосов. Этот метод назвали таксономическим обучением. Для улучшения результатов распознавания также использовали случайную фильтрацию низких частот, поскольку звуки в нижней части спектра затухают позже высокочастотных — это помогает улавливать голоса птиц на большем расстоянии. Подход оказался эффективным — тестирование по трём наборам записей звуковых ландшафтов показало высокую точность классификации птиц, пишут сотрудники лаборатории.

«Разделённый звук можно использовать для создания акустических индексов: они помогут измерять здоровье экосистемы, анализируя активность птиц, насекомых и амфибий без идентификации конкретных видов», — говорят сотрудники Google Research Team Том Дентон и Скотт Уисдом.

С помощью алгоритмов исследователи из лаборатории Google планируют изучать изменение биоразнообразия после лесных пожаров, случившихся в Калифорнии в августе 2020 года. Алгоритмы также помогут по-новому взглянуть на состояние коралловых рифов.

Алексей Клёсов

Вам также может понравиться

Виртуальная реальность помогает пациентам восстанавливаться после инсульта

Международный технологический конкурс «Битва искусственных интеллектов»

Машинное обучение поможет упростить разработку нефтяных месторождений