Microsoft создала модель ИИ, которая умеет описывать изображения

Исследователи Microsoft создали систему искусственного интеллекта, которая может создавать подписи к изображениям. Это особенно важно для слепых или слабовидящих людей и является важной вехой в стремлении Microsoft сделать свои продукты инклюзивными и доступными для всех пользователей.

Новая модель искусственного интеллекта доступна клиентам через предложение Azure Cognitive Services Computer Vision, которое является частью Azure AI, что позволяет разработчикам использовать эту возможность в своих собственных сервисах. Также её внедрили в приложение Seeing AI, которое умеет описывать фотографии.

Команда Microsoft обучила модель ИИ на большом наборе данных изображений в паре со словесными тегами, причём каждый тег был сопоставлен с определённым объектом на изображении. Такой подход наполнил модель так называемым визуальным словарем. Это похоже на обучение детей чтению, когда используют книжку с картинками, в которой отдельные слова связываются с изображениями, например, изображение яблока со словом «яблоко», картинка кота со словом «кот» и так далее.

Затем предварительно обученная модель дорабатывается для добавления подписей к набору данных изображений с подписями. На этом этапе обучения модель учится составлять предложения. При получении изображения, содержащего новые объекты, система ИИ использует визуальный словарь для создания точной подписи.

Согласно результатам, представленным в исследовательской работе, система искусственного интеллекта делала более точные и содержательные подписи, чем подписи для аналогичных изображений, которые писали люди.

Алексей Клёсов

Вам также может понравиться

Бесплатный онлайн-интенсив «Профессия Data Scientist: учимся обработке и анализу данных за 3 дня»

Чемпионат по созданию навыков для голосового помощника Маруся

Сбер и Microsoft создали уникальную ИИ-систему управления роботами