08.12.2024
Подписывайтесь на Telegram-канал по ссылке

Яндекс открыл датасеты беспилотных автомобилей, Погоды и Переводчика

Датасеты беспилотных автомобилей, Яндекс.Погоды и Переводчика

Компания Яндекс опубликовала набор данных беспилотных автомобилей, а также данные Яндекс.Переводчика и Погоды. Это самый большой в мире массив данных такого типа в открытом доступе: он содержит более 1600 часов движения, разбитых на 600 000 размеченных фрагментов поездок на дорогах России, Израиля и США в хорошую погоду, в снег и в дождь.

Датасет опубликовали для конкурса Shifts Challenge, который Яндекс проведёт в рамках международной конференции NeurIPS 2021 совместно с учёными из Оксфорда и Кембриджа. Задача конкурса — привлечь внимание к проблеме «сдвига данных» в машинном обучении. Подробные условия, тайминг и описания доступных датасетов можно найти на сайте конкурса. Детали датасетов, метрик оценки и бенчмарков есть в статье. Ссылки на данные доступны в репозитории на GitHub. Чтобы помочь начать работу, Яндекс загрузил туда примеры и сделал базовые модели доступными для скачивания.

«Если вы привыкли водить машину в небольшом городе, то в Москве вы не сразу адаптируетесь к трафику и, скорее всего, поначалу будете более осторожны на дороге. Это и есть сдвиг данных. Вы можете оценить его масштаб и скорректировать свои действия. Машинно-обученные модели должны уметь делать то же самое — оценивать величину сдвига и эффективно действовать в новых условиях. От того, насколько хорошо алгоритм может работать при сдвиге данных, будет зависеть широта его применения», — говорит старший исследователь Yandex Research Андрей Малинин.

Сдвиг данных возможен везде, где модели машинного обучения сталкиваются с неопределённостью — незнакомыми ситуациями и неизвестными данными. Для Shifts Challenge Яндекс выбрал три области: предсказание траектории движения транспорта и пешеходов на дороге, прогнозирование погоды и машинный перевод текстов. Участники конкурса должны будут создать устойчивые к сдвигу модели. Например, такую модель машинного перевода, которая обучалась на художественной литературе, но может качественно переводить и твиты, и ролики на YouTube.

Конкурс позволит не только привлечь внимание к проблеме сдвига, но и даст учёным доступ к уникальным данным, позволяющим оценить качество работы моделей машинного обучения в реальном мире. Для конкурса исследователи Яндекса вместе с командами Яндекс.Погоды, Яндекс.Переводчика и беспилотных технологий предоставили данные сервисов, решающих практические задачи и часто сталкивающихся со сдвигом. Такие разнородные данные помогут ускорить разработку алгоритмов, способных адаптироваться к новым условиям быстрее и лучше сегодняшних.

Все данные обезличены. Так, датасет по беспилотным автомобилям содержит высокоточные карты маршрутов и треки всех окружающих машин и пешеходов (их положение, скорость, ускорение и пр.), но не использует видео, где были бы видны номера машин или лица прохожих. Исследователи должны будут обучить алгоритмы на предоставленных данных, а затем проверить качество их работы в условиях сдвига. Создатели алгоритмов, которые покажут лучшее качество, получат денежные призы.