Российские химики с помощью искусственного интеллекта научились предсказывать спектры сложных органических молекул, которые встречаются как в дыме костра, так и в далеком межзвёздном пространстве. Исследование демонстрирует, как методы ИИ помогают в экологических исследованиях на Земле и в разгадке химических тайн Вселенной. Результаты работы опубликованы в журнале Journal of Chemical Information and Modeling.
Полициклические ароматические углеводороды (ПАУ) — органические молекулы, содержащие два и более конденсированных бензольных колец, — образуются на Земле в результате природных процессов и деятельности человека при сжигании топлива, мусора и других органических веществ, а также широко распространены в космосе: от пылевых облаков до атмосфер планет. Именно этот факт породил гипотезу, что ПАУ могли участвовать в синтезе РНК в «первичном бульоне» ранней Земли, став основой для зарождения жизни. Как следствие изучение ПАУ является одной из ключевых задач экологических исследований, при изучении процессов горения и в астрохимии.
Одним из основных методов исследования ПАУ является инфракрасная (ИК) спектроскопия. Однако интерпретация спектров – сигналов из межзвёздного пространства, загрязнённого воздуха или продуктов сгорания – остаётся крайне сложной задачей. Это связано с тем, что экспериментальные спектры известны лишь для ограниченного числа молекул ПАУ, а теоретический расчёт требует огромных ресурсов. В новом исследовании предложен инновационный подход на основе методов машинного обучения для предсказания ИК-спектров ПАУ. Особенностью работы было особое внимание к кодированию структуры молекулы, чтобы учесть и её заряд.
В данной работе впервые была решена задача предсказания спектров одновременно и заряженных, и нейтральных молекул. Такая постановка задачи позволила использовать для обучения моделей все известные к настоящему времени спектры ПАУ. Универсальность модели обеспечила высокую точность предсказаний спектров нейтральных и ионизованных молекул ПАУ. Полученные результаты открывают путь к более точному моделированию спектров смесей ПАУ, что критически важно для анализа состава межзвёздной среды, атмосфер планет и других астрономических объектов.