Химики используют искусственный интеллект для предсказания будущего (химических реакций): использование машинного обучения для предсказания результатов многомерных реакций.

В идеальном мире химики хотели бы предсказать, какая комбинация химических веществ обеспечит наибольший выход продукта и позволит избежать непреднамеренных побочных продуктов или других потерь, но предсказать исход этих многомерных реакций оказалось непросто.Группа исследователей во главе с Эбигейл Дойл, профессором химии им.

А. Бартона Хепберна в Принстонском университете, и доктором Спенсером Дреером из исследовательских лабораторий Merck, нашла способ точно предсказать выход реакции, варьируя до четырех компонентов реакции, используя применение искусственного интеллекта, известного как машинное обучение. Они превратили свой метод в программное обеспечение, которое они сделали доступным другим химикам. Они опубликовали свое исследование 15 февраля в журнале Science.

«Программное обеспечение, которое мы разработали, может работать с любой реакцией, любым субстратом», — сказал Дойл. «Идея заключалась в том, чтобы позволить кому-нибудь применить этот инструмент и, надеюсь, развить его с другими реакциями».По ее словам, на создание синтетических молекул тратятся огромные ресурсы и время, часто в значительной степени специальным образом.

Используя это новое программное обеспечение, химики могут более дешево и эффективно идентифицировать высокоэффективные комбинации химикатов и субстратов.«Мы надеемся, что это станет ценным инструментом для ускорения синтеза новых лекарств», — сказал Дерек Анеман, защитивший докторскую диссертацию по химии. в лаборатории Дойла в 2017 году и сейчас работает в IBM.«Многие из этих алгоритмов машинного обучения существуют уже довольно давно, — сказал Хесус Эстрада, аспирант лаборатории Дойла, который участвовал в исследовании и написании статьи. «Однако в сообществе синтетической органической химии мы действительно не воспользовались захватывающими возможностями, которые предлагает машинное обучение».«Как химики, мы традиционно уклонялись от многомерного анализа», — сказал Дойл. «Мы смотрим только на одну переменную за раз или на один набор условий для ряда субстратов».

Когда Анеман сказал Дойлу, что хочет использовать машинное обучение для решения многомерной проблемы, она подбодрила его. «Я всегда — особенно для моих самых талантливых студентов — пытаюсь дать им полную свободу действий в последний год их докторской степени», — сказала она. «Это проект, который он мне предложил».Дойл и Анеман намеревались смоделировать выход реакции, изменяя при этом четыре различных компонента реакции, что в геометрической прогрессии было труднее, чем изменение одной переменной за раз.

«С самого начала мы знали, что нам предстоит преодолеть множество проблем», — сказал Анеман. «Мы не были уверены, что это вообще возможно».Исторически сложилось так, что одним из препятствий на пути разработки многомерных моделей был сбор достаточного количества данных об отдаче реакции, чтобы построить эффективный «обучающий набор», — сказал он. Но недавно компания Merck изобрела роботизированные системы, которые могут запускать тысячи реакций в течение нескольких дней.Другой проблемой было вычисление количественных дескрипторов для каждого химического вещества, которые можно было бы использовать в качестве входных данных для модели.

Эти дескрипторы обычно вычислялись один за другим, что было бы непрактично для большого количества химических комбинаций, которые они хотели использовать.Они преодолели это ограничение, написав код, который использовал существующую программу Spartan для вычисления и последующего извлечения дескрипторов для каждого химического вещества, используемого в модели.Получив количественные дескрипторы, они попробовали несколько статистических подходов. Во-первых, они использовали линейную регрессию, промышленный стандарт, но обнаружили, что она не может точно предсказать выход реакции.

Затем они исследовали несколько распространенных моделей машинного обучения и обнаружили, что одна из них под названием «случайный лес» дает поразительно точные прогнозы урожайности.Модель случайного леса работает путем случайного выбора небольших выборок из набора обучающих данных и использования этой выборки для построения дерева решений.

Каждое отдельное дерево решений затем прогнозирует урожайность для данной реакции, а затем результат усредняется по деревьям для генерации общего прогноза урожайности.Еще один прорыв произошел, когда исследователи обнаружили, что в случайных лесах «выход реакции можно точно предсказать, используя результаты« только »сотен реакций (вместо тысяч), число, которое химики без роботов могут выполнить сами», — сказал Анеман.Они также обнаружили, что модели случайного леса могут предсказывать урожайность химических соединений, не включенных в обучающий набор.

«Используемые методы полностью соответствуют последнему слову техники», — сказала Хлоя-Агата Азенкотт, исследователь машинного обучения из Центра вычислительной биологии Парижского университета науки и литературы, которая не принимала участия в исследовании. «Графики корреляции в статье достаточно хороши, и я думаю, что мы можем представить себе, полагаясь на эти прогнозы в будущем, что ограничит потребность в дорогостоящих лабораторных экспериментах».«Эти результаты впечатляют, потому что они предполагают, что этот метод можно использовать для прогнозирования выхода для реакций, в которых исходный материал никогда не производился, что поможет свести к минимуму потребление химикатов, на изготовление которых уходит много времени», — сказал Анеман. «В целом, эта методология является многообещающей для (1) прогнозирования выхода реакций с использованием еще не приготовленных исходных материалов и (2) прогнозирования оптимальных условий для реакции с известным исходным материалом и продуктом».После того, как Анеман получил степень, Эстрада продолжил исследования. По словам Дойла, цель заключалась в создании программного обеспечения, доступного не только компьютерным экспертам, таким как Анеман и Эстрада, но и более широкому сообществу синтетической химии.

Она объяснила, как работает программное обеспечение: «Вы рисуете структуры — исходные материалы, катализаторы, основы — и программа вычисляет общие дескрипторы для всех из них. Это ваш вклад.

Результатом являются выходы реакций. Машинное обучение сопоставляет все эти дескрипторы с доходами с целью, которую вы можете поместить в любую структуру, и оно сообщит вам результат реакции.

«Идея состоит в том, чтобы помочь людям ориентироваться в многомерном пространстве, в котором невозможно интуитивно понять результаты», — сказал Дойл.


Портал обо всем