25.05.2024
Подписывайтесь на Telegram-канал по ссылке

Искусственный интеллект научился понимать отношения между объектами изображений

Relation Transformer Graph Generation

Генеративные модели искусственного интеллекта могут создавать изображения по текстовым запросам. Эти модели лучше всего работают, когда они создают изображения одиночных объектов. Создание полных сцен всё ещё сложно. Учёные из университета Твенте в Нидерландах разработали новый метод искусственного интеллекта, способный построить сцены из картинок, которые могут служить основой для генерации реалистичных и согласованных изображений. Результаты работы опубликованы в журнале IEEE Transactions on Pattern Analysis and Machine Intelligence.

Люди отлично определяют отношения между объектами. Мы можем видеть, что стул стоит на полу, а собака идёт по улице. Модели искусственного интеллекта находят это сложным. Улучшение способности компьютера обнаруживать и понимать визуальные отношения необходимо для генерации изображений, но также может помочь для улучшения восприятия автономных транспортных средств и роботов. В настоящее время существуют методы для построения семантического понимания изображения, но они медленные. Эти методы используют двухэтапный подход. Сначала они отображают все объекты на сцене. На втором шаге некоторая специфическая нейронная сеть проходит через все возможные соединения и затем помечает их правильным отношением. Количество соединений, через которые этот метод должен пройти, возрастает экспоненциально с количеством объектов.

Новая модель делает всего один шаг. Она автоматически предсказывает субъекты, объекты и их отношения одновременно. Для этого одноэтапного метода модель смотрит на визуальные характеристики объектов на сцене и фокусируется на наиболее важных деталях для определения отношений. Она выделяет важные области, где объекты взаимодействуют или связаны друг с другом. Эти техники и относительно небольшие данные для обучения достаточны для определения наиболее важных отношений между разными объектами. Остаётся только сгенерировать описание того, как они связаны.