20.04.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть научилась восстанавливать речь по артикуляции

Нейросеть научилась восстанавливать речь по артикуляции

Российские учёные разработали мобильное приложение, которое поможет улучшить речевые навыки пациентов. С его помощью они смогут самостоятельно проводить логопедические занятия, контролируя при этом как произношение, так и артикуляцию. Такие возможности программы обеспечат нейросети, настроенные на распознавание звука и изображений. Технологию предлагают использовать для реабилитации людей после инсульта, коррекции произношения звуков у детей. Дальнейшее её развитие может привести к созданию систем видеоаналитики, которые смогут читать по губам. Это может пригодиться, например, при расшифровке разговоров с камер видеонаблюдения.

Правильное произношение различных звуков зависит от артикуляции, которая определяется положением губ и языка человека. Проследить за ней сейчас может только логопед, который контролирует данные параметры при работе с людьми с нарушениями речи. Российские учёные разработали программу анализа артикуляции и соединили её с решением для распознавания звука с помощью нейросетей.

«Создаваемая нами программа будет оценивать изображение с видеокамеры, определяя, каким образом пациент устанавливает губы и язык при произношении какого-либо звука или слога. Одновременно с этим она будет записывать и распознавать получившийся звук и сопоставлять его с заранее определенным идеальным образцом, оценивая качество речи», — рассказал декан факультета педагогики и психологии Педагогического института ВятГУ Вячеслав Утёмов.

По словам учёного, изначально программа будет настроена на контроль 12 проблемных звуков. Точность её работы составит около 90%. Таких результатов разработчикам удалось добиться за счёт использования нейросетей. Причём если для анализа звука подобных систем существует уже довольно много, то для контроля артикуляции разработчикам пришлось задействовать нестандартное решение.

«Для определения правильности положения губ и языка пациента мы используем нейронную сеть, которая изначально прошла обучение на большом массиве изображений из открытой базы и способна их классифицировать. Далее мы провели специализированное обучение системы на фотографиях, связанных с артикуляцией. Это позволило её доработать под наши цели и добиться высокой точности», — пояснил Вячеслав Утёмов.

Таким образом, в условиях реального применения новая система искусственного интеллекта будет способна самостоятельно выбирать время для производства снимка, а после фиксации изображения проанализирует его, оценив правильность артикуляции. Выводы о точности использованных нейросетей были сделаны после их тестирования на 8000 образцов, созданных с помощью алгоритмической обработки 300 реальных записей пациентов.

В реальной практике система будет показывать человеку правильную артикуляцию и проводить занятие по заранее составленной программе. После её завершения она сможет составить аналитический отчёт и отразить в нём все речевые проблемы пациента. Это позволит логопедам корректировать программу занятий для ускорения прогресса в лечении.

По мнению разработчиков, данный подход даст возможность значительно ускорить прогресс в исправлении звукопроизношения за счёт проведения самостоятельных занятий с помощью смартфона или другого устройства, на которое может быть установлена программа.

Новую программу оценили специалисты Кировской областной клинической психиатрической больницы им. В.М. Бехтерева, которые собирали данные для обучения задействованных нейросетей.

«Данная разработка, конечно, не сможет полностью заменить логопеда, особенно на стадии первичной диагностики, когда от специалиста требуется проявить индивидуальный подход к пациенту, чтобы назначить правильное лечение. Однако она будет весьма полезна на этапе выполнения пациентом самостоятельной работы», — подчеркнула логопед больницы Валерия Караваева.

Также эксперт подчеркнула, что на сегодняшний день создаваемая система является единственным русскоязычным решением, которое учитывает параметры артикуляции человека. Среди иностранных аналогов можно выделить китайское приложение, но его вряд ли можно адаптировать под европейские языки.

«Разработка действительно уникальна для России, однако нужно учитывать, что сейчас самостоятельные занятия пациенты проводят, глядя в зеркало, что позволяет им отслеживать свою артикуляцию. Поэтому телефон во время выполнения упражнений должен, помимо прочего, также показывать лицо. Именно визуальный самоконтроль способствует эффективной выработке правильных речевых рефлексов», — отметила заведующая кафедрой логопедии Московского государственного областного университета Елена Шилова.

Ожидается, что представленная система пройдёт клинические испытания на базе одной из больниц города Кирова уже в 2021 году. Разработчики не исключают и других направлений возможного развития используемых в программе нейросетей. В частности, в будущем новая система искусственного интеллекта сможет распознавать речь человека по его артикуляции, записанной на видео, что может пригодиться, например, при расшифровке разговоров, полученных с камер наблюдения.

Ссылка на источник.