Нейросеть научилась расшифровывать речь на тоновом языке

Китайские учёные разработали многопоточную модульную нейронную сеть, которая напрямую синтезирует тоновую речь из данных с отделов коры головного мозга. Исследование опубликовано в журнале Science Advances.

Введение

Речевые интерфейсы мозг-компьютер (ИМК) используются для лечения пациентов нетоновой языковой принадлежности с коммуникативными расстройствами. ИМК для тоновых языков — это сложная задача из-за дополнительного контроля движений гортани при создании лексических тонов. Устройство должно выделять данные из отделов коры головного мозга, отвечающих за тоновую речь. Разработанная многопоточная модульная нейросеть смогла напрямую синтезировать тоновую речь из внутричерепных записей, а также декодировать лексические тона и базовые слоги. Речь синтезировалась соединением тоновых слоговых меток c нейронной активностью, не различающей речь.

Недавние исследования показали в нетоновых языках, таких как английский и японский, возможность синтеза акустического звучания коротких предложений и специфичных слов из записи электрокортикограммы (ЭКоГ). Американские исследователи разработали прототип инвазивного устройства-декодера, позволяющего синтезировать речь по активности мозга при движении органов речевого тракта. Причём в одном эксперименте им удалось воспроизвести беззвучную речь, хотя и с потерей качества. При значительных различиях в артикуляции динамики высоты тона между тоновыми и нетоновыми языками соответствующие алгоритмы нейронного декодирования также различаются. По этой причине не так просто адаптировать результаты исследований ИМК нетоновых языков к тоновым. Структуры ИМК и алгоритмы декодирования разрабатываются специально для тоновых языков.

Более 60% языков в мире являются тоновыми. Около 2 миллиардов человек говорят на тоновых языках, включая большинство сино-тибетских языков, всю семью тай-кадайских языков и т.д. Важная характеристика этих языков — использование высоты тона для различения лексического и грамматического значения. Слог с одинаковыми сегментными элементами (согласные и гласные), но с разным характерным контуром высоты тона, может представлять разные слова. Точное воспроизведение и определение тонов имеет решающее значение для устного общения на тоновых языках.

Цель исследования

Китайские учёные в своем исследовании ставили цель синтезировать речь тоновых языков из инвазивных нейронных записей с помощью ЭКоГ высокой плотности. Была выдвинута гипотеза о том, что тон и базовый слог отдельно декодируются из нейронной активности. Далее тоновая речь синтезируется, используя комбинацию декодированного тона и базового слога. Для проверки этой гипотезы была разработана многопоточная модульная модель нейронной сети. Использовались разные модули нейросети, нацеленные на функционально разные нейронные популяции в областях мозга, связанных с речью. Эти модули параллельно декодировали тоновые метки и базовые слоговые метки, а затем синтезировали тоновую слоговую речь, комбинируя выходы модулей тона и слога.

Суть эксперимента

Первым шагом к развитию речевого ИКС для тоновых языков стало понимание того как лексические тона и тоновые слоги представлены в коре головного мозга во время речеобразования тоновых языков. Для этого учёные записали нейронную активность 5 носителей севернокитайского языка (4 мужчины и 1 женщина в возрасте от 37 до 54 лет), которым провели операции по удалению опухоли мозга в состоянии сознания. Во время эксперимента участники должны были произнести 8 тоновых слогов.

Активность головного мозга была записана с помощью установленной сетки ЭКоГ высокой плотности. Также индивидуально рассчитали амплитуду сигнала электрода в диапазоне высоких частот (70-150 Гц) для определения локальной нейронной активности. На основе статистики дифференциальных откликов электроды разделили на 5 категорий:

распознающие тона,
распознающие слоги,
распознающие тона и слоги,
не распознающие,
безответные.

В итоге у участников было обнаружено 46 электродов, распознающих тон, 44 — распознающих слоги, 14 — и тоны, и слоги. Большинство нейронных популяций, распознающих тона, не зависели от нейронных популяций, распознающих слоги. Средняя разность между тонами в электродах, различающих тона, была меньше средней разности слогов в электродах, различающих слоги.

Модель

Для преобразования сигналов из записей ECoG обратно в речь использовалась модель многопоточной свёрточной нейросети (CNN) с модулями долгой краткосрочной памяти (LSTM). Модель состояла из двух частей — генератора и синтезатора. Генератор меток включал в себя генератор тоновых меток и генератор слоговых меток. Генератор тоновых меток декодировал тоновые метки из электродов, различающих тона, и из электродов, различающих тона и слоги. Генератор слоговых меток декодировал слоговые метки с электродов, различающих слоги, и электродов, различающих тона и слоги.

Для создания меток слогов использовалась последовательная сеть CNN-LSTM, а для создания меток тонов — параллельная сеть CNN-LSTM, то есть тона и базовые слоги декодировались отдельно. В результате средняя точность декодирования тонального слога увеличилась до 55,7–75,6 %. Максимальный уровень точности декодирования тонового слога составил 91,4%.

Синтезатор воспроизводил речь. Этот модуль объединял выходные метки с различающих электродов и входные метки с неразличающих речь электродов для генерации мел-спектрограммы речи. Далее мел-спектрограмма была преобразована в звуковую волну с помощью алгоритма Гриффина-Лима. Искажение синтезированной речи участников эксперимента оценивалось с помощью показателя мел-кепстрального искажения речи (MCD) и составлял 2,67 — 3,19 дБ. Распознавание речи происходит при показателях ＜ 8дБ. Средний показатель разборчивости носителями языка для синтезированных тонов составил 81,7 — 92,3% у носителей языка, а для реальной человеческой речи 85,3 — 93,1%.

Выводы

Разработка многопоточной модульной нейронной сети позволила синтезировать тоновую языковую речь из нейронного декодирования тонов и слогов, используя ЭКоГ высокой плотности. Амплитуда сигналов тона в электродах, распознающих тона, значительно меньше амплитуды сигналов слога в электродах, распознающих слоги, и связана с меньшей амплитудой движения гортани по сравнению с другими артикуляционными органами (язык, губы, челюсть). Поэтому кодирование движения гортани должно быть расширено и рассматриваться отдельно от других органов артикуляции.

Такие акустические параметры как тембр, интенсивность звука и длительность значимы для целостности синтезированной речи. В ходе работы учёные обнаружили сложные механизмы производства тона и выдвинули предположение, что трактовка тоновой и акустико-фонетической информации базовых слогов опирается на параллельные и независимые нейронные популяции и разные пространственно-временные кодовые комбинации. Данные исследования с использованием ИМК технологий для тоновых языков применимы для восстановления речи при дизартрии и афазии.

Введение

Цель исследования

Суть эксперимента

Модель

Выводы

Ольга Ларионова

Вам также может понравиться

В России создали платформу с ИИ по диагностике коронавируса и туберкулёза

Сбер Еаптека приглашает на онлайн-хакатон по разработке сервисов для клиентов аптек

«SmartDev 2021» — первая технологическая онлайн-конференция Сбера