19.04.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросети научились лучше распознавать паралингвистические явления

Паралингвистика Нейросети

Российские учёные совместно с голландскими и немецкими коллегами разработали новые технологии по обучению нейросетей и создали системы для распознавания эмоций пожилых людей, анализа дыхания человека и определения наличия маски по речи. Исследователи стали двукратными победителями ежегодных международных соревнований по компьютерной паралингвистике Computational Paralinguistics ChallengE. Две статьи (1, 2) с результатами исследований опубликованы в трудах 21-й международной конференции INTERSPEECH-2020.

«Мы смогли существенно увеличить количественные показатели распознавания паралингвистических явлений в речи благодаря правильному выбору предварительно обученных нейросетевых моделей с их последующим дообучением на имеющихся ограниченных данных, а также комплексированию различных архитектур нейронных сетей. Компьютерные технологии и системы, разработанные в рамках данного исследования, в дальнейшем могут применяться в медицине, например для контроля состояния здоровья и психоэмоционального состояния людей, а также для выявления больных пневмонией с целью предупреждения распространения пандемии», — объясняет руководитель проекта по гранту Российского научного фонда Алексей Карпов.

Паралингвистика — раздел языкознания, изучающий невербальные (внеязыковые) средства, передающие информацию в тексте или речи вместе с вербальными средствами. Компьютерная паралингвистика занимается автоматическим распознаванием естественных эмоциональных и психофизиологических состояний и характеристик говорящего человека, включая его возраст, пол, диалект, заболевания, эмоции и прочее.

Учёные из СПб ФИЦ РАН и Университета ИТМО совместно с коллегами из Ульмского и Утрехтского университетов приняли участие в международных соревнованиях ComParE, где решали задачи, касающиеся обработки разговорной речи, при помощи методов искусственного интеллекта, цифровой обработки сигналов, аффективных и поведенческих моделей. Учёные заняли первые места в конкурсах «Распознавание эмоций пожилых людей» и «Определение фазы дыхания человека по речи». Третьей задачей организаторы объявили «Распознавание наличия медицинской маски по речи диктора».

В рамках первой задачи становится возможным следить за психоэмоциональным состоянием людей пожилого возраста, чтобы при необходимости оперативно оказать медицинскую помощь. Учёные считают, что акустические особенности речевых сигналов и эмоциональных выражений у пожилых людей значительно отличаются от характеристик других возрастных групп. При решении второй задачи учёные искали способ анализа непрерывной речи для сопоставления с дыхательными сигналами от пьезоэлектрического ремня, закреплённого на человеке. Для решения третьей задачи был использован метод на основе ансамбля современных нейронных сетей глубокого обучения, обученных на предоставленных организаторами соревнований аудиоданных речи немецких врачей в хирургических масках.