Учёные предложили новый метод кодирования видеофайлов с помощью машинного обучения

Сотрудники факультета ВМК МГУ представили новый метод кодирования видеофайлов. Разработанный алгоритм позволяет прогнозировать лучший вариант параметров кодирования из доступных параметров кодека, что поможет значительно ускорить работу с видео в будущем. Результаты работы были представлены на симпозиуме по кодированию видео в Бристоле. Работа выполнена в рамках научно-образовательной школы МГУ «Мозг, когнитивные системы, искусственный интеллект».

Согласно отчёту Ericsson Mobility Report 2020, видео будет потреблять около 76% глобальной пропускной способности беспроводной сети к 2025 году. В настоящее время доля видео в Интернете составляет 63%. Такая огромная доля обусловлена увеличением продолжительности передаваемого контента и развитием новых форматов высокого разрешения. Огромный объём видеоданных стимулирует создание новых стандартов кодирования видео и новых кодеков, а существующие алгоритмы сжатия становятся всё более сложными. Современные видеокодеки имеют в настройках более 50 параметров, что безусловно мешает сделать пользователю оптимальный выбор. При этом полный перебор параметров распространённого кодека x264 на одном видео размером 20 секунд на обычном компьютере займет порядка 1013 веков или более 500 тысяч возрастов Земли. В 99.9% случаев для сжатия видео выбирают стандартные пресеты.

В рамках исследования было проанализировано более 1 миллиона видео, загруженных пользователями на большинство популярных видео наборов, предназначенных для разработки и тестирования видеокодеков. Для каждого видео была посчитана пространственная и временная сложность и выяснилось, что большинство видео, предназначенных для тестирования видеокодеков, сильно отличаются от видео, которые передаются в сети Интернет.

Используя собранный набор видео, учёные МГУ предложили метод, который путём многочисленных запусков создаёт по кодеку его модель методами машинного обучения. Это позволяет в итоге прогнозировать более эффективные конфигурации кодирования для нового входного видео.

«Наш метод не зависит от архитектуры и реализации кодека и применим к различным кодекам и стандартам сжатия видео. В результате апробации наш метод позволил сэкономить битрейт на дополнительные 17.8% для популярного кодека x264 и 7.9% для x265 при том же времени кодирования по сравнению со стандартными пресетами», — подчеркнул заведующий лабораторией компьютерной графики и мультимедиа факультета ВМК МГУ Дмитрий Ватолин.

Данный результат, продолжение длительной цепочки совместных проектов, направленных на повышение степени сжатия видео, заинтересовал компанию Intel, а позднее и Huawei. В качестве значимого промежуточного результата стоит отметить «Физтех Лекторий» МФТИ, где благодаря тому, что большая часть видео представлено в формате «говорящей головы», удалось получить двукратное сокращение трафика и затрат на хранение данных при одинаковом качестве и затратах времени на сжатие. Новый результат позволяет получить экономию на более широком спектре входных данных.

Алексей Клёсов

Вам также может понравиться

Искусственный интеллект научился предсказывать новые химические реакции

Специалисты 1С обсудят трендовые направления и кейсы разработки, внедрения и управления проектами

В Бурятии нейросеть будет диагностировать COVID-пневмонию