Искусственный интеллект находит новые химические реакции в архивах данных
20 марта 2025

В совместном проекте между ИОХ РАН и Сколтехом исследовательская группа под руководством академика РАН Валентина Ананикова разработала уникальную поисковую систему на основе машинного обучения для анализа огромных массивов данных высокоразрешающей масс-спектрометрии. Машинное обучение позволяет исследовать терабайты накопленных данных без необходимости новых экспериментов. Разработанный алгоритм ускоряет поиск новых соединений, снижает затраты и повышает экологичность исследований. Статья опубликована в журнале Nature Communications.

В типичной лаборатории за несколько лет накапливаются терабайты данных, например, при проведении экспериментальных измерений высокоразрешающей масс-спектрометрии, но из-за ограничений ручного анализа учёные рассматривают лишь небольшую часть информации. До 95% накопленных данных остаются неизученными, что приводит к потере потенциально важных открытий. Ручная обработка такого объёма информации заняла бы сотни лет, тогда как новые алгоритмы на основе ИИ способны выполнять анализ в течение нескольких дней.

«В основе нашей работы лежит инновационный алгоритм, сочетающий машинное обучение и анализ распределения сигналов в масс-спектрах, что позволило значительно снизить количество ложных срабатываний при идентификации химических соединений. Новый поисковый алгоритм успешно проверил исторические данные по реакции Мизороки-Хека и выявил не только уже известные, но и совершенно новые химические трансформации. Среди них — уникальный процесс кросс-сочетания, ранее не зафиксированный в научной литературе», — прокомментировал работу научный руководитель исследования Валентин Анаников. 

Во время органического синтеза химики выбирают конкретные экспериментальные условия для оптимизации реакции и достижения максимального результата. Далее проводят реакцию и пробоподготовку, после чего определяют и характеризуют химический состав с помощью аналитической системы. Для реализации этой стратегии часто используют масс-спектрометрию высокого разрешения — она отличается высокой скоростью анализа, чувствительностью и простотой сбора данных. Метод широко используется в аналитической химии, органической и неорганической химии, протеомике, метаболомике, материаловедении, а также во многих других областях.

Разработанная технология открывает новые возможности в химических исследованиях. Поисковая система способна анализировать данные различных областей химии, делая возможным открытие новых реакций, катализаторов и механизмов. Это не только ускоряет научный прогресс, но и снижает затраты на проведение экспериментов, делая науку более экологичной за счёт использования уже имеющихся данных. 

Работа выполнена в Институте органической химии им. Н. Д. Зелинского РАН и в Центре энергетических технологий Сколтеха.