30.01.2023
Наш канал в Telegram: https://t.me/berzaru

QIWI запустила сервис с машинным обучением для поиска утечек исходного кода

Код

Qiwi создала и запустила платформу Leak-Search, позволяющую находить утекший исходный код на открытых репозиториях. Сервис использует алгоритмы машинного обучения. Он сканирует публичные репозитории на предмет кода или конфигураций, которые изначально не предполагались для размещения в открытом доступе.

За основу сервиса была использована распределенная система сбора данных. Она имитирует немашинный поиск и содержит в себе индикаторы потенциально чувствительной информации для отслеживания ее в открытом доступе. За счёт алгоритмов машинного обучения, которые анализируют ложные срабатывания, Leak-Search исключает попадание ошибочных результатов поиска в итоговую выборку.

По заверениям Qiwi, в работе Leak-Search используются технологии искусственного интеллекта. В частности, в системе реализован алгоритм кластеризации содержимого утечек данных в различных источниках поиска — таких, как Github, Gist, Gitlab, Bitbucket. В основе кластеризации утечек лежит метод LSA (Latent semantic analysis).

Leak-Search ищет в открытых источниках программный код или его части на основе тех данных, что пользователь вводит в строке поиска. В случае обнаружения искомой информации сервис просигнализирует об этом пользователю путем отправки ему оповещения.

Leak-Search не предоставляет возможность по удалению кода непосредственно из своего интерфейса – это исключительно поисковый сервис. Если код или его часть будут обнаружены на репозиториях, пользователь должен будет самостоятельно убедиться в этом и удалить эту информацию из открытого доступа. Платформа по умолчанию работает с такими источниками как github и gist, с возможностью подключить новые типы в течение короткого времени.

Ссылка на источник.