Немецкие учёные разработали эволюционный алгоритм, который позволяет выявлять структуры в молекуле, наиболее значимые для конкретных исследований. Эти структуры используются для кодирования свойств молекул в различных моделях машинного обучения. Разработка опубликована в журнале Chem. Алгоритм, основанный на принципах эволюции — включая механизмы воспроизводства, мутации и отбора, — позволяет создавать индивидуализированные «молекулярные отпечатки». Эти отпечатки уже использовались для предсказания химических реакций с высокой точностью. Метод также подходит для прогнозирования квантово-химических свойств и токсичности молекул.
Исследователи подчёркивают, что для использования машинного обучения необходимо сначала преобразовать молекулы в формат, считываемый компьютером. Различные научные группы уже решали эту задачу, разрабатывая разные методы. Однако сложно предсказать, какой из методов лучше всего подойдёт для ответа на определённый вопрос, например, о вредности химического соединения для человека. Новый алгоритм помогает находить оптимальный молекулярный отпечаток для каждого случая. Для этого алгоритм постепенно выбирает отпечатки, которые показывают лучшие результаты в прогнозировании из множества случайно сгенерированных.
Преимущество метода в том, что он позволяет понять, почему модель делает тот или иной прогноз. Например, можно выявить, какие части молекулы положительно или отрицательно влияют на предсказание реакции, что позволяет исследователям целенаправленно изменять эти структуры. Учёные отмечают, что их метод не всегда даёт наилучшие результаты. Однако одна из основных целей исследования заключалась в разработке метода кодирования молекул, который можно применять к любому набору молекулярных данных и который не требует специализированных знаний о лежащих в основе связях.