Российские учёные разработали новый способ прогнозирования предпочтений пользователей мобильных устройств. Метод, который точнее известных аналогов на 2–12%, основан на одновременном распознавании объектов, лиц и сцен в фотогалерее смартфона и на удалённом сервере. В будущем алгоритм может использоваться для персонализации сервисов и услуг, а также максимально подходящих под конкретного человека рекомендаций. Статья опубликована в журнале Pattern Recognition.
В основе работы рекомендательных систем лежат алгоритмы, моделирующие пользовательское поведение, исходя из той информации, которая указана в профиле человека. Традиционные рекомендательные системы используют только структурированные и текстовые данные. Исследователи НИУ ВШЭ в Нижнем Новгороде и Санкт-Петербургского отделения Математического института им. В.А. Стеклова РАН разработали модель, которая использует для таких задач фотографии.
«На мобильном устройстве каждого человека хранится огромное количество фотоснимков, которые можно использовать для определения его увлечений, а также предпочтений в еде, одежде, автомобилях. Использование современных методов распознавания фотографий в галерее смартфона позволяет решить проблему «холодного старта», которая случается у новых пользователей. Другими словами, если человек не совершал покупок, не смотрел рекомендованные фильмы, система о нём ничего не знает и не может что-либо предложить», — считает один из авторов статьи профессор НИУ ВШЭ Андрей Савченко.
Однако, как отмечают исследователи, обработка фотографий требует защиты конфиденциальности пользователей. Большинство фотографий содержит персональные данные, обработку которых человек может запретить на удалённом сервере. Следовательно, аналитические системы должны быть установлены на самом устройстве. А это технически сложно реализуемая задача, так как для обработки одного изображения сверхглубоким сверточным нейронным сетям (CNN), которые применяются в такой обработке, требуется много времени и энергии.
Авторы статьи предложили новый метод, который позволяет быстро находить объекты, лица и определённые сцены и с высокой точностью распознавать события на фотографиях за счёт одновременного анализа визуальных признаков и классификации найденных объектов с помощью нейронных сетей небольшого размера, специально разработанных для мобильных устройств. На обработку одной фотографии в них уходит от 30 до 100 мс.
За распознавание объектов и лиц отвечает детектор объектов, за определение сцен — вторая нейронная сеть-классификатор. В исследовании использовались наборы данных — PEC (Photo Event Collection) и WIDER (Web Image Dataset for Event Recognition). PEC содержит 14 классов сцен (дни рождения, свадьбы, праздники и др.), WIDER — 61 класс (встречи, танцы, пресс-конференции и др.).
Определение сцен позволяет извлечь информацию о предпочтениях человека, таких как искусство и театры, ночная жизнь, спорт. А детектор объектов может распознавать продукты питания, музыкальные инструменты, транспортные средства и другое, а также по лицам людей проводить анализ демографии (возраст, семья) и определять социальное положение. Все найденные на фотографиях лица проходят кластеризацию: алгоритм группирует в отдельные кластеры лицо каждого человека (самого пользователя на селфи, его родных и близких). Затем все фотографии с лицами помечаются как приватные (содержащие персональную информацию о пользователе и его знакомых), а остальные фотографии (в том числе и без лиц) — как потенциально общедоступные.
Таким образом, предусматривается защита персональных данных: все приватные фото и видео обрабатываются только на телефоне в автономном режиме. Другие фотографии могут быть отправлены на удалённый сервер для классификации сцен и обнаружения объектов с помощью вычислительно сложных нейронных сетей, которые характеризуются высокой точностью.
«Благодаря тому, что мы выделили приватные, а также публичные фотографии, которые обрабатываются на удалённом сервере, мы получили результат на 2–4% точнее, чем при использовании только нейронных сетей для мобильных устройств, и всего на 0,5% менее точный, чем при обработке всех фотографий с помощью сложных серверных моделей», — поясняет Андрей Савченко.
Предлагаемое решение реализовано в мобильном приложении для операционной системы Android. Экспериментальные результаты показывают возможность эффективной обработки изображений с улучшением точности на 2–12% по сравнению с аналогами за счёт того, что учитываются сцены и объекты одновременно. Цифровой профиль человека сохраняется в виде гистограммы интересов, на основе которой могут работать рекомендательные системы. Например, учёные уже разработали рекомендательную систему ресторанов. На основании местоположения и информации о предпочтениях в еде система предлагает топ-10 ресторанов, которые соответствуют профилю пользователя и у которых максимальный средний рейтинг.