25.04.2024
Подписывайтесь на Telegram-канал по ссылке

Looking to Listen — технология Google AI, позволяющая улучшить речь в историях YouTube

Looking to Listen

Google AI представила новую функцию в YouTube Stories (iOS), которая позволяет пользователям улучшать селфи-видео за счёт автоматического усиления голоса и уменьшения шума. Новая функция основана на технологии машинного обучения (ML) Google «Looking to Listen», которая использует как визуальные, так и звуковые подсказки для выделения и отделения речи объекта видео от фоновых звуков.

YouTube Stories, представленный в ноябре 2017 года, позволяет каналам с более чем 10 000 подписчиков делиться короткими видео только для мобильных устройств.

Чтобы добавить свою технологию Looking to Listen на YouTube, исследователи Google преодолели ряд трудных задач:

  • вся обработка должна была выполняться на устройстве в клиентском приложении (никакое аудио или видео не отправлялась на серверы для обработки);
  • модель должна была сосуществовать с другими алгоритмами машинного обучения в приложении YouTube;
  • алгоритм должен был работать на устройстве быстро и эффективно при минимальном потреблении энергии.

Looking to Listen обеспечивает самые современные результаты в разделении и улучшении речи, а использование визуальных подсказок значительно улучшает производительность по сравнению с подходами к обработке только звука, когда говорят несколько человек. Исследователи оптимизировали и улучшили приложение Looking to Listen, чтобы оно могло поместиться в YouTube Stories. Новая модель эффективно работает на мобильных устройствах, а также значительно улучшает обработку данных с 10-кратного реального времени на настольном компьютере до 0,5-кратного реального времени на телефоне. Команда провела обширное тестирование, чтобы убедиться, что технология стабильно работает в разных условиях перекодирования.

В интересах справедливости и инклюзивности команда протестировала модель по ряду речевых и визуальных атрибутов, чтобы убедиться, что она может обрабатывать разные голоса, языки и акценты, а также визуальные различия в возрасте, цвете кожи и так далее.