Создана мультимодальная модель, способная распознавать текст и решать головоломки

Исследователи из Microsoft представили мультимодальную модель машинного обучения Kosmos-1, которая способна анализировать изображения, решать визуальные головоломки, распознавать текст, проходить визуальные тесты IQ и понимать инструкции на естественном языке. Статья с исследованием опубликована на arXiv.

Учёные считают, что мультимодальный искусственный интеллект, который объединяет различные режимы ввода, такие как текст, аудио, изображения и видео, станет ключевым шагом к созданию универсального искусственного интеллекта. В Microsoft продемонстрировали, как модель анализирует изображения и отвечает на вопросы о них, читает текст с изображения, пишет подписи к изображениям и проходит визуальный тест IQ с точностью 22–26%.

Исследователи назвали систему «мультимодальной моделью большого языка» (MLLM). Kosmos-1 принимает входную информацию в виде серии токенов. Специальные маркеры и указывают на начало и конец встраивания закодированного изображения. Например, «document </g>» — это текстовый ввод, а «<s> paragraph <image> Image Embedded </image> paragraph </s>» — это чередующийся ввод изображения и текста.

Модуль внедрения применяется для кодирования текстовых токенов и других модальностей ввода в векторы. Затем вложения подаются в декодер. Для входных токенов используется таблица поиска, чтобы сопоставить их с вложениями. Microsoft обучила Kosmos-1, используя данные из интернета, в том числе выдержки из The Pile (текстовый ресурс на английском языке объемом 800 ГБ) и веб-архива Common Crawl.

После обучения исследователи оценили способности Kosmos-1 понимать язык, генерировать текст, классифицировать его без оптического распознавания символов, генерировать подписи к изображениям, визуальные ответы на вопросы, ответы на вопросы веб-страниц и классифицировать изображения. По данным Microsoft, во многих из этих тестов модель превзошла современные аналоги.

Kosmos-1 смогла правильно ответить на вопрос теста Raven только в 22% случаев (в 26% в случае с тонкой настройкой). Однако это больше процента случайных правильных ответов (17%). Исследователи говорят, что они планируют увеличить размер модели, а также интегрировать голосовые возможности. Microsoft обещает, что откроет Kosmos-1 для разработчиков.

Алексей Клёсов

Вам также может понравиться

Технологическая конференция UIC Dev 2022

Акселератор технологических стартапов в Югре

ИИ прогнозирует эпилептические припадки до появления симптомов