Математик РУДН разработал метод машинного обучения, который позволяет автоматически распознавать снимки со спутников и авиационных радаров. Алгоритм может определить, какой вид растений посажен на полях, точнее, чем существовавшие ранее разработки. Результаты опубликованы в журнале International Journal of Image and Data Fusion.
Системы современных спутников и радаров можно использовать для автоматического мониторинга землетрясений, извержений вулканов, пожаров и других катаклизмов, а также чтобы следить за состоянием почв, растительности, рек. Чтобы автоматизировать этот процесс, нужны сложные алгоритмы распознавания и классификации объектов, позволяющие компьютеру по набору пикселей понять, что изображено на снимке. Для этих целей используют машинное обучение — компьютер «просматривает» тысячи примеров и таким образом учится распознавать изображения самостоятельно.
Чтобы улучшить результаты машинного обучения, часто используют комбинацию нескольких обучающих алгоритмов. Это даёт более точные решения, чем каждый из них в отдельности. Математик РУДН разработал такой ансамблевый метод с использованием трех алгоритмов для обработки данных из нескольких источников.
Математики использовали данные пяти мини-спутников RapidEye и авиационного радара UAVSAR за 5 и 7 июля 2012 года — они снимали один и тот же участок местности в Канаде. Съёмка RapidEye велась в пяти диапазонах светового спектра: синем (B), зеленом (G), красном (R), ближнем инфракрасном (NIR) и области, называемой «красный край» (RE), в которой происходит резкое усиление отражения зелёной растительности. Данные содержали 38 характеристик — спектральные каналы, индексы растительности, текстурные параметры и так далее. Их пространственное разрешение — то есть минимальный размер объекта, различимый на снимках, — около пяти метров. Радиолокационные изображения UAVSAR включали 49 различных характеристик, их пространственное разрешение — около 15 метров.
Математики сопоставили полученные снимки со справочными данными об этой территории, собранными летом 2012 года. В них выделили семь типов растений — широколиственные растения, рапс, кукуруза, овес, горох, соя и пшеница. Новый алгоритм «обучили» на основе примеров полученных изображений и данных о типе посадок, а затем сравнили его предсказание с результатами работы других программ, устроенных по похожему принципу.
Новый метод показал более высокую точность интерпретации изображений, причем как на больших, так и на ограниченных объёмах примеров для обучения алгоритмов. Если обучение проходило на 5% от всех данных, то новый алгоритм распознавал изображения верно в не менее 65% случаев, другие алгоритмы — в 52-60%. С увеличением доли обучающих данных до 50% от общего объема точность нового алгоритма повышалась до почти 90%, а других — до 75-86%. Таким образом, применение нового алгоритма было признано более эффективным.
«Наш метод может быть предложен для системы классификации землепользования и растительного покрова с помощью данных, полученных из разных источников. Например, спутников Landsat или Sentinel constellation», — говорит кандидат технических наук Владимир Разумный, доцент департамента механики и мехатроники РУДН.