28.03.2024
Подписывайтесь на Telegram-канал по ссылке

Нейросеть Nvidia «оживляет» аватары-фотографии на видеоконференциях

Vid2Vid Cameo AI Nvidia

Компания Nvidia представила новый продукт, построенный на глубоком обучении нейросетей — алгоритм Vid2Vid Cameo AI. Он разработан с целью упростить и усовершенствовать рабочие процессы в условиях карантина. Vid2Vid Cameo берёт статичную фотографию пользователя и анимирует её мимикой в режиме реального времени, заменяя получившимся синтетическим видео потоковую видеотрансляцию. Технология кратно сокращает нагрузку на каналы связи и упрощает подготовку к видеосовещаниям — внешний вид перестаёт быть важным, достаточно иметь в запасе пару презентабельных фотографий.

С пользовательской точки зрения Vid2Vid Cameo работает просто. Участник видеоконференции выбирает свою фотографию или изображение любого персонажа, загружает её на платформу и подключается к видеоконференции. Нейросеть создаёт наиболее комфортные условия для удалённой работы — пользователь может общаться в пижаме с растрепанным волосами, но будет говорить от лица представительного бизнесмена в костюме, объяснили разработчики.

Алгоритмы Nvidia используют обычную веб-камеру для наблюдения за мимикой и эмоциями пользователя, а затем переносят входные данные в популярный сервис конференций, такой как Zoom или Skype. Трансляция проходит с минимальными задержками, так как передаётся не видеопоток, а только данные изменения мимики, которые «на лету» программно накладываются на аватар. За счёт того, что обработкой изображений занимается нейросеть на облачной платформе Nvidia, пользователь может общаться с «имитацией видео» даже с плохим интернет-соединением — без лишних артефактов и помех.

«Многие люди имеют ограниченную пропускную способность интернета, но все же хотят беспрепятственно общаться по видеосвязи с друзьями и семьей. Помимо помощи им, лежащая в основе технология может также использоваться для помощи аниматорам, фоторедакторам и разработчикам игр», — объяснил соавтор разработки Минг-Ю Лю.

Vid2Vid Cameo требует всего двух элементов для создания реалистичной «говорящей головы»: один снимок внешнего вида человека и данные о том, как изображение должно быть анимировано. Модель была обучена с помощью набора данных из 180 тыс. высококачественных видео с разными пользователями. Нейросеть научилась определять 20 ключевых точек, которые можно использовать для моделирования движения лица — система идентифицирует любые изменения, включая движения глаз, рта, щёк и носа.

Как сообщают разработчики, Vid2Vid Cameo не будет самостоятельным продуктом, а войдет в комплексную платформу Nvidia Maxine. Последняя включает набор программных решений с поддержкой искусственного интеллекта для модернизации удалённой работы и создания нового контента. Maxine уже поддерживает алгоритмы для общения в дополненной реальности, обработку естественного языка и ряд дополнительных функций, вроде голосовых помощников и систем для быстрой расшифровки звука в текст.