Специалисты по искусственному интеллекту из Google AI использовали машинное обучение, чтобы разметить почти весь африканский континент, выделив на нём местоположение, размеры и другую информацию о 516 млн жилых домов и других строений. База создавалась с использованием спутниковых фотографий, и уже выложена в открытый доступ под названием Open Buildings. Детали распознавания подробно описаны в работе, выложенной на сайте arXiv.
Целей подобной разметки домов на карте может быть много – оценка количества жителей, планирование развития городов, развитие наук об окружающей среде, гуманитарные миссии. После какого-нибудь стихийного бедствия властям нужно прикинуть, сколько домов пострадало. В идеале для таких вещей требуется база данных с актуальными сведениями, полученными во время переписи. В реальности подобные данные быстро устаревают, а то и вовсе не собираются. Тогда альтернативным источником информации может послужить база с данными о местоположении зданий и плотности застройки.
Спутниковые фотографии – идеальный материал для сбора подобных данных, однако автоматический сбор информации при помощи систем компьютерного зрения сопряжён с определёнными трудностями. Компьютер не всегда может правильно распознать здания на снимках, сделанных из космоса, даже при высоком (30-50 см на пиксель) разрешении. Проблем распознаванию также доставляют неформальные поселения, дома, сливающиеся с окружением из-за использования природных материалов, а также природные образования, похожие на дома.
Применив машинное обучение, специалисты собрали базу из 516 млн зданий почти по всему африканскому континенту. База устроена так, что подойдёт для нескольких видов использования в практических, научных и гуманитарных целях – от реакции на катастрофы до демографической разметки и планирования. Для построения обучающего набора данных исследователи вручную разметили порядка 1,75 млн зданий на более чем 100 000 изображениях.
Учитывались особенности африканского континента, которые могут запутать компьютер. К примеру, в сельской местности нужно было описывать различные типы жилья и отличать их от природных объектов. В городах нужно было разработать свои правила разметки для очень плотной застройки или длинных структур. Обучение модели шло «снизу вверх», когда каждый пиксель относят либо к зданию, либо не к зданию, а потом пиксели группируются. Распознавание работало при помощи популярной для разбора спутниковых снимков модели U-Net.