13 апреля 2021 года Яндекс проведёт бесплатный онлайн-митап, на котором эксперты расскажут о методах и инструментах скоринга входных данных, их агрегации и создании единой системы в офлайн- и онлайн-ритейле, банкинге и облачных сервисах. На примерах покажут, как с помощью данных оптимизируются устоявшиеся бизнес-процессы в компаниях.
Программа
- 19:00 — Начало регистрации.
- 19:00 — Создание Data Platform в Леруа Мерлен. Дмитрий Ибрагимов расскажет об архитектуре Data Platform Леруа Мерлен, а также сделает обзор новинок и инструментов для работы с данными и их обработки, покажет, как они пользуемся ими. Детально обсудим: способы и инструменты интеграции нереляционных источников данных (Kafka/Nifi/Object Storage/Spark); потоковую обработку CDC на платформе Apache Flink; снижение порога вхождения для работы с данными с помощью Apache Superset.
- 19:20 — Данные в S3: поддержка S3 storage в ClickHouse, а также как выполнить select-запрос к файлу, не имея никакой СУБД. Всеволод Грабельников расскажет о поддержке хранения и обработки данных в СУБД ClickHouse в S3. Впервые представит новый функционал по поддержке select-запросов для parquet/csv файлов в S3 (Yandex Object Storage). Объяснит, чем одно отличается от другого.
- 19:40 — Витрины данных в Авито и их применение в бизнес-задачах. Илья Салманов расскажет о витринах данных в Авито и о том, как упростить жизнь аналитиков и дата-инженеров. Детально обсудим, какие бывают витрины; как создать/поправить витрину (отличия от вью, код витрины, проверки витрин); как произвести пересчёт витрины за нужную дату, мониторинг, качество данных (чекеры), выгрузки; как произвести регламентный расчёт (дерево зависимостей, парсинг кода, потоки, SLA витрины); как пересчитать части дерева, удалить, архивировать; как решить задачи распределения времени 14 дата-инженеров на потребности более 100 аналитиков и сайентистов, задачи постановки витрины на регламент за 1 день, задачи корректировки день в день.
- 20:00 — От анализа данных до внедрения в прод: как инфраструктура помогает обучать и внедрять ML-модели. Михаил Сеткин расскажет о платформе данных Райффайзенбанка Data Lake. Обсудим, как с её помощью произвести моделирование тендеров для закупок — моделирование разных параметров и подходов к ценообразованию у заказчика для нахождения оптимального предложения. Как обработать гипотезу по оптимизации расстановки мест для банкоматов с помощью JupyterHub на основе данных транзакционной активности клиентов, исторических данных с банкоматов, а также данных Open Street Map. Как создать чат-бот, научиться распознавать паспорта, 2-НДФЛ и отчёты об оценке залогов для ускоренного ввода данных в систему с помощью виртуальной машины в виртуальном частном облаке VMWare, по cenb такой IAAS, есть шаблоны с CPU/GPU. А также про два паттерна вывода в prod: модель как бэк в веб-сервисе (автоматическая классификация текста жалоб клиентов); модель как UDF-функция в режиме пакетной обработки на Spark (предсказание спроса на наличные в банкоматах).
- 20:20 — Cветофор 2.0: страх и ненависть на пути от экселя к градиентному бустингу. Ксения Блажевич расскажет о «Светофоре» — сервисе по точечному выявлению проблемных поставок от поставщиков, работающему для оптимизации приемки в магазинах и распределительных центрах Леруа Мерлен Россия. Поделится, с какими трудностями столкнулась их команда во время разработки. Расскажет про ключевые факторы для успешного внедрения ML-продукта в компании с большим количеством офлайн-процессов и о том, как применить модель lightGBM (сервинг Kubernetes), переобучить на Airflow, DVC, custom model registry.