Нейросеть для рендеринга фотографий научилась удалять шум и создавать HDR-снимки

Исследователи из Google Research предложили новый подход к нейросетевому ренденрингу объёмных сцен на основе обычных плоских фотографий. Они показали, что использование «сырых» кадров без предобработки позволяет добиться гораздо большего динамического диапазона и снизить уровень шума, благодаря чему это можно использовать для подавления шума и создания HDR-снимков, а не только создания снимков с новых ракурсов. Статья опубликована на arXiv.org.

В 2020 году группа американских исследователей, в составе которой был и руководитель новой работы Джонатан Бэррон (Jonathan Barron), представила метод нейросетевого рендеринга NeRF, который показал отличные результаты и завоевал популярность среди других исследователей. В отличие от большинства нейросетевых алгоритмов, NeRF-модель обучается не на множестве разных данных, чтобы хорошо работать в разных условиях, а на нескольких десятках или сотнях фотографий одной и той же сцены или объекта, снятых с разных ракурсов. Благодаря этому модель очень хорошо запоминает именно эту сцену и может генерировать её снимки с новых ракурсов, сохраняя при этом форму объектов, отражения, прозрачность и другие свойства. При генерации новой фотографии модель получает точку в пространстве и угол наблюдения, а в ответ выдает значения плотности и цвета пространства вдоль получающегося луча. Так формируется один пиксель, затем то же самое повторяется для остальных.

Раньше для обучения NeRF-моделей использовали обычные фотографии, которые уже прошли предобработку в камере. Группа исследователей из Google Research под руководством Бэррона предложила использовать для обучения NeRF-моделей «сырые» данные в формате RAW. Такие фотографии имеют больше шума и на них ещё не проведена дебайеризация, при которой алгоритм интерполирует цвета каждого пикселя (в фотоматрицах перед каждым фотодиодом стоит фильтр одного из трёх основных цветов, поэтому они регистрируют интенсивность лишь одного цвета). Однако в них содержатся максимально достоверные, а не «усредненные» данные, к тому же, в более широком динамическом диапазоне.

По сути, исследователи использовали тот же подход, который уже применяется в смартфонах для съёмки при плохом освещении: камера делает несколько снимков с большим уровнем шума, а затем создаёт из них один кадр, в который попадает полезная информация из отдельных зашумленных снимков. NeRF изначально разработана для формирования единого представления сцены из множества отдельных кадров, поэтому исследователи предположили, что она сумеет таким же образом вычленять полезную информацию из зашумленных фотографий, и оказались правы.

Авторы обучали модели для разных сцен на сотне снимков с разных ракурсов, а затем сравнили их с алгоритмами для подавления шума на основе алгоритмов машинного обучения. Оказалось, что NeRF-модели, обученные на одной сцене, показывают сравнимый результат с алгоритмами, обученными на огромных датасетах. Кроме того, авторы показали, как модели позволяют управлять экспозицией и создавать HDR-снимки, а также менять фокус.

Алексей Клёсов

Вам также может понравиться

Бесплатный онлайн-интенсив «Чат-бот с искусственным интеллектом на Python»

Миниатюрный робот-панголин умеет останавливать кровотечение внутри тела

Нейросеть научили выращивать искусственные органы для пересадки