Алгоритмы извлекают биологическую структуру из ограниченных данных

Однако определение трехмерной структуры из этих экспериментов по дифракции одиночных частиц является серьезным препятствием. Например, текущая скорость сбора данных очень ограничена и обычно дает менее 10 полезных снимков в минуту, что ограничивает количество функций, которые могут быть разрешены. Кроме того, изображения часто сильно искажены шумом и другими экспериментальными артефактами, что затрудняет правильную интерпретацию данных.

Для решения этих задач группа исследователей из Национальной лаборатории Лоуренса в Беркли (Berkeley Lab) разработала новую алгоритмическую структуру, называемую многоуровневым итеративным фазированием (M-TIP), в которой используются передовые математические методы для определения трехмерной молекулярной структуры из очень редких наборов. шумных одночастичных данных. Такой подход позволяет исследователям извлекать больше информации из экспериментов с ограниченными данными. Прикладные математики Джеффри Донателли и Джеймс Сетиан, а также физик-биолог Питер Цварт представили эту основу, расширив алгоритм, который они первоначально разработали для решения реконструкции из связанного эксперимента по рассеянию рентгеновских лучей, называемого флуктуационным рассеянием рентгеновских лучей.

Документ, описывающий структуру M-TIP, был опубликован 26 июня в Proceedings of the National Academy of Sciences.«Такой подход может произвести революцию в этой области», — говорит Цварт. «Учитывая, что трудно получить много хороших данных, подходы, которые сокращают объем данных, необходимых для успешного изображения трехмерных нанообъектов, скорее всего, встретят теплый прием».

Донателли, Сетиан и Цварт являются частью CAMERA (Центр продвинутой математики для приложений энергетических исследований), чья миссия состоит в создании современной математики, необходимой для обработки данных из многих самых передовых научных объектов Министерства энергетики. CAMERA совместно финансируется программами перспективных научных исследований в области вычислительной техники и фундаментальных энергетических наук в Управлении науки Министерства энергетики США.Дифракция одиночных частиц

Недавнее появление рентгеновских лазеров на свободных электронах (XFEL) позволило использовать несколько новых экспериментальных методов для изучения биомолекул, которые были невозможны с традиционными источниками света. Одним из таких методов является дифракция одиночных частиц, при которой собирается большое количество снимков дифракции рентгеновских лучей только с одной частицей в луче. Используя исключительную мощность XFEL, исследователи могут собирать измеримые сигналы даже от мельчайших частиц.Одним из больших преимуществ этого метода дифракции одиночных частиц является возможность изучать, как разные копии молекулы изменяются или меняют форму.

Поскольку каждое изображение происходит от одной частицы, эти вариации могут быть зафиксированы в эксперименте, в отличие от традиционных методов визуализации, таких как кристаллография или малоугловое рассеяние рентгеновских лучей, где исследователи могут измерять только среднее значение по всем различным состояниям молекулярного образца. .Однако определение трехмерной структуры по данным дифракции одиночных частиц является сложной задачей. Для начала, когда каждая частица отображается, ее ориентация неизвестна, и ее необходимо восстановить, чтобы правильно объединить данные в трехмерный дифракционный объем. Эта проблема усугубляется, если молекула может принимать разные формы, что требует дополнительной классификации изображений.

Кроме того, фазовая информация не записывается в дифракционных изображениях и должна быть восстановлена ​​для завершения реконструкции. Наконец, даже с мощными XFEL, количество рассеянных фотонов очень мало, что приводит к чрезвычайно зашумленным изображениям, которые могут быть дополнительно загрязнены систематическим фоном и проблемами считывания детектора.Предыдущие подходы основывались на решении задачи реконструкции на отдельных этапах, где каждая отдельная проблема решалась отдельно. К сожалению, недостатком этих последовательных подходов является то, что они не позволяют легко использовать ранее известные особенности того, как выглядит молекула.

Кроме того, любая ошибка, совершенная на одном этапе, распространяется на следующий, что приводит к дальнейшему увеличению ошибки. Этот «снежный ком ошибок» в конечном итоге ухудшает качество реконструкции, полученной на последнем этапе.Лучшее из обоих мировВместо того чтобы решать вычислительные задачи в отдельные шаги, алгоритм команды M-TIP решает все части проблемы одновременно.

Этот подход использует предварительную информацию о структуре, чтобы значительно уменьшить степень свободы проблемы на всех этапах и, следовательно, уменьшить требуемую информацию, необходимую для достижения трехмерной реконструкции.«Стандартные методы оптимизации черного ящика могут включать предварительные знания в реконструкцию, но отбрасывать всю структуру проблемы, в то время как ее решение в полностью отдельных последовательных подшагах использует структуру проблемы, но отбрасывает почти всю предыдущую информацию о том, какое решение может выглядеть так, "сказал Донателли. «M-TIP использует лучшее из обоих миров, используя структуру проблемы, чтобы разбить вычисления на несколько управляемых фрагментов, а затем итеративно уточняя все эти фрагменты, чтобы прийти к решению, которое согласуется как с данными, так и с любыми структурными ограничения ".

Используя этот метод, команда смогла определить трехмерную структуру по чрезвычайно малому количеству изображений из смоделированных данных, от 6 до 24 изображений для данных без шума и 192 изображений из сильно загрязненных данных.Новые возможности

Эта работа является частью новой инициативы сотрудничества между Национальной ускорительной лабораторией SLAC, CAMERA, Национальным научно-вычислительным центром энергетических исследований (NERSC) и Лос-Аламосской национальной лабораторией в рамках проекта DOE Exascale Computing Project (ECP). Целью проекта является разработка вычислительных инструментов, необходимых для выполнения анализа данных в реальном времени из экспериментов, проводимых на источнике когерентного света (LCLS) линейного ускорителя SLAC.

После обновления канала передачи данных LCLS-II планирует генерировать несколько терабайт данных в секунду, что, например, позволит ученым значительно расширить возможности текущих экспериментов с одной частицей. Для анализа всех этих данных в режиме реального времени потребуются новые алгоритмы и большие вычислительные машины.

Алгоритм M-TIP будет частью этого процесса.«Это одни из самых сложных проблем в области вычислительной науки о данных», — говорит Сетиан. «Чтобы справиться с ними, нам необходимо использовать ряд технологий, в том числе новые архитектуры экзафлопсных вычислений, сложные высокоскоростные сети и самые продвинутые доступные математические алгоритмы. Объединение ученых CAMERA вместе с проектами эксафлопсных приложений открыло двери для создания инструментов для подхода некоторые актуальные проблемы биологии и материаловедения ».Исследователи отмечают, что это только первые шаги.

Чтобы метод был готов к развертыванию, необходимо преодолеть другие препятствия.«Экспериментальная наука — беспорядок», — говорит Цварт. «Есть дополнительные экспериментальные эффекты, которые необходимо учитывать, чтобы мы могли получить наилучшие возможные результаты».«К счастью, M-TIP — это очень модульный метод, — добавляет Донателли, — поэтому он хорошо подходит для моделирования многих из этих дополнительных эффектов без необходимости изменения базовой алгоритмической структуры».

Команда в настоящее время работает над изучением этих эффектов в рамках инициативы Single Particle Initiative, большого межведомственного сотрудничества, посвященного решению теоретических и практических проблем в визуализации одиночных молекул на основе X-FEL, что в конечном итоге приведет к предоставлению научному сообществу инструменты, необходимые для выхода на новый уровень в биологии, медицине и энергетике.