Исследователи недавно опубликовали свои выводы в Proceedings of the National Academy of Sciences.«Геномы даже простых организмов, таких как плодовая муха, содержат ДНК стоимостью 120 миллионов букв, большая часть которой еще не расшифрована, потому что подсказки, которые она дает, были слишком тонкими для существующих инструментов, чтобы их можно было уловить», — сказал Ричард Манн, доктор философии. , главный научный сотрудник Колумбийского института психического и мозгового поведения Мортимера Б. Цукермана и старший автор статьи. «Но наш новый алгоритм позволяет нам просматривать эти миллионы строк генетического кода и улавливать даже самые слабые сигналы, что дает гораздо более полную картину того, что кодирует ДНК».
Генетики давно искали способы разгадать загадки, скрытые в ДНК. Одна из таких загадок связана с особенно широко распространенным классом генов, известным как Hox-гены.«Hox-гены — главные архитекторы тела; они управляют некоторыми из самых ранних и наиболее важных аспектов роста и дифференциации, например, где в развивающемся эмбрионе должны располагаться голова и конечности», — сказал доктор Манн, который также является Хиггинсами. Профессор биохимии и молекулярной биофизики (в области системной биологии) в Медицинском центре Ирвинга Колумбийского университета. «Hox-гены делают это, производя белки, называемые факторами транскрипции, которые связываются с последовательностями ДНК, чтобы включать или выключать большие когорты генов; например, переключая тысячи переключателей в правильном порядке».
Но десятилетия исследований Hox-генов выявили парадокс: даже несмотря на то, что каждый отдельный Hox-ген определяет разные особенности роста, все факторы транскрипции Hox прочно и явно связываются с одним и тем же набором легко идентифицируемых последовательностей ДНК.В 2015 году доктор Манн и его команда обнаружили, что факторы транскрипции Hox также связываются во многих других местах — только более дискретно в так называемых «сайтах с низким сродством». Ученые полагали, что эти сайты связывания с низким сродством являются ключом к тому, что факторы транскрипции Hox могут управлять одним аспектом развития по сравнению с другим.
Осталась проблема, как расшифровать эти сайты из генома.Чтобы решить эту проблему, доктор Манн и его лаборатория объединили свои усилия с лабораторией Хармена Буссемейкера, доктора философии, профессора Колумбийского департамента биологических наук и системной биологии и эксперта в построении вычислительных моделей генетической активности.
Несколько лет назад обе лаборатории разработали метод генетического секвенирования под названием SELEX-seq для систематической характеристики всех сайтов связывания Hox. Но их подход все же имел ограничения: требовалось, чтобы один и тот же фрагмент ДНК секвенировался снова и снова.
С каждым новым раундом открывались новые части головоломки, но информация об этих критических сайтах связывания с низким сродством оставалась скрытой.«Это было похоже на запуск одного и того же абзаца через Google Translate несколько раз, но в итоге только десять процентов слов переводятся точно», — сказал доктор Манн.Чтобы преодолеть эту проблему, доктор Бассемейкер и его команда разработали новый сложный компьютерный алгоритм, который впервые смог объяснить поведение всех последовательностей ДНК в эксперименте SELEX-seq.
Они назвали этот алгоритм No Read Left Behind, или NRLB."Проще говоря, NRLB позволяет нам охватить весь спектр сайтов связывания — от самого высокого до самого низкого сродства — с гораздо большей степенью чувствительности и точности, чем любой существующий метод, включая современное глубокое обучение. алгоритмы ", — сказал доктор Буссемейкер, который был другим старшим автором статьи. «Опираясь на этот фундамент, мы теперь надеемся разработать более глубокие биологические и вычислительные модели, которые помогут ответить на самые сложные вопросы о геноме».
«Например, такие заболевания, как шизофрения, болезнь Паркинсона и аутизм, были сопоставлены с определенными участками ДНК, которые, по-видимому, не имеют четкой функции», — сказал доктор Манн. «С помощью NRLB ученые потенциально могут собрать воедино, как факторы транскрипции связываются с этими областями и активируют их. Это будет иметь решающее значение для поиска способов манипулирования этой активностью, чтобы в один прекрасный день снизить риск заболевания».
