Как правило, для обучения нейросетей нужно собрать набор фотографий с нужными объектами, например с котами, которые надо разметить в специальных прямоугольниках. Модель потом сама сможет определять объекты (котов) на новых входных данных, то есть новых изображениях.
Специалисты Facebook смогли сделать так, чтобы набор фотографий не приходилось размечать заранее — компьютер сам «видит» на нём то, что нужно. Разработчики использовали метод так называемого «полу-контролируемого» обучения. Он позволяет избавиться от этапа разметки объектов. Система DINO способна сама находить интересующие предметы в фотографиях и видеороликах с людьми и животными без каких-либо разметок.
Утверждается, что такая система работает даже лучше по сравнению с традиционным обучением. DINO может «понять», что собаки и кошки, например, визуально похожи друг на друга. У системы в памяти есть контекст и метаданные.