21.06.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть воссоздала объёмную 3D-модель языка по фотографии

3D human tongue reconstruction

Британские разработчики научили нейросеть восстанавливать 3D-модель языка по фотографии человека. Потенциально такая разработка может увеличить реалистичность компьютерных 3D-аватаров, рассказывают авторы статьи, опубликованной на arXiv.org. Сам проект выложен на GitHub.

Существуют алгоритмы, создающие по фотографии 3D-модель лица или набор из нескольких десятков ключевых точек, довольно точно описывающих лицо человека и его динамику. Однако они работают лишь с основными частями лица, которые видны постоянно, и не умеют корректно восстанавливать форму языка, во многом из-за того, что в датасетах для их обучения мало фотографий с высунутым языком. Вместе с этим язык играет важную роль в мимике и передачи эмоций и речи, поэтому исправление этого пробела в алгоритмах — важная задача.

Разработчики из Имперского колледжа Лондона и компании Huawei во главе со Стефаносом Зафериу (Stefanos Zafeiriou) создали датасет для обучения алгоритмов, состоящий из фотографий и 3D-моделей людей с высунутым языком, и обучили на нем нейросеть, восстанавливающую объёмную форму языка.

Авторы работы собрали датасет в лондонском Музее науки, используя стенд 3dMD, состоящий из нескольких камер и источников света, установленных с разных сторон от человека. С помощью него и 700 добровольцев они собрали около 1800 фотографий и соответствующих им 3D-моделей. Также они попросили художников создать 720 синтетических 3D-моделей головы с разными формами высунутого языка. Разработчики сделали датасеты доступными по запросу для других исследователей.

После сбора датасета разработчики создали алгоритм. Сначала они обучили автокодировщик, который создаёт из полной 3D-модели сжатую версию, по данным которой можно восстановить почти идентичную модель. Затем они создали на основе свёрточной нейросети и этого автокодировщика модуль, создающий сжатое 3D-представление из фотографии, и добавили к нему ещё один алгоритм, создающий из сжатого представления полноценную 3D-модель. Последнюю часть модуля они создали на основе своей предыдущей разработки — системы создания трансформируемых 3D-моделей головы, описываемых параметрами, а не только трёхмерной сеткой.

Обучив алгоритм и проверив его работу на датасете с фотографиями знаменитых людей, авторы наглядно показали, что она, в отличие от передовых алгоритмов создания модели лица, способна качественно передавать форму языка.