30.04.2024
Подписывайтесь на Telegram-канал по ссылке

Яндекс открыл исходный код своей платформы для работы с большими данными

YTsaurus

Компания Яндекс опубликовала исходный код YTsaurus. Это платформа для хранения и обработки больших данных, с которой работает большинство сервисов Яндекса. Платформа подходит для широкого круга задач, от аналитики до обучения сложных моделей с миллиардами параметров. Например, Поиск строит с помощью YTsaurus поисковый индекс, а беспилотные автомобили используют платформу, чтобы обрабатывать данные о поездках и улучшать свои алгоритмы. YTsaurus управляет суперкомпьютерами Яндекса, распределяя нагрузку так, чтобы их вычислительные мощности использовались наиболее эффективно.

YTsaurus — отказоустойчивая и легко масштабируемая платформа. В Яндексе она развёрнута на десятках тысяч серверов и обрабатывает эксабайты данных; с ней работает каждый второй сотрудник компании. YTsaurus можно использовать как классическую MapReduce-систему, при этом она поддерживает и другие популярные подходы к обработке данных. Например, у неё есть интеграции с ClickHouse и Apache Spark. Исходный код и документация YTsaurus доступны на GitHub. Код распространяется под лицензией Apache 2.0. Использовать платформу или доработать её под себя может любой желающий.

«Платформа YTsaurus отлично зарекомендовала себя в Яндексе. Теперь мы сделали её доступной и за его пределами. Наибольшую пользу YTsaurus может принести крупным компаниям, которые обрабатывают гигантские объёмы данных на тысячах серверов в условиях постоянно возрастающей нагрузки. Мы уверены, что публикация кода выведет платформу на новый виток развития, как это уже было с другими нашими продуктами», — говорит Алексей Башкеев, руководитель Yandex Cloud.