Базы данных экспрессии генов могут раскрыть терапевтические цели, биологические процессы

Команда, возглавляемая Зивом Бар-Джозефом из Университета Карнеги-Меллона, сообщает в октябрьском выпуске журнала Nature Methods, что инструмент под названием ExpressionBlast позволяет выполнять поиск, основанный непосредственно на экспериментальных значениях, а не на ключевых словах.Исследователи уже использовали ExpressionBlast, чтобы раскрыть интригующие подсказки о SIRT6, первом гене, который, как было показано, продлевает продолжительность жизни мышей и, следовательно, является потенциально важной мишенью для лекарств. Анализируя экспериментальные данные, хранящиеся в общедоступном репозитории под названием Gene Expression Omnibus (GEO), поддерживаемом Национальным центром биотехнологической информации, они обнаружили, что SIRT6 может быть задействован в функциях, которые включают иммунный ответ, метаболизм и регуляцию генов, специфичных для пола.«Поскольку о SIRT6 известно так мало, было бы сложно выполнять поиск в сотнях тысяч наборов данных GEO с использованием ключевых слов, а без других указаний было бы практически невозможно найти другие эксперименты с паттернами экспрессии генов, подобными SIRT6», — сказал Бар. -Джозеф, доцент кафедры вычислительной биологии и машинного обучения. «ExpressionBlast позволил нам взять данные об экспрессии гена SIRT6 всего из двух экспериментов на мышах и найти другие экспериментальные данные в GEO с аналогичными паттернами экспрессии».

Инструмент доступен в Интернете. Поисковая машина позволяет исследователям искать образцы выражения, которые похожи или противоположны их собственным результатам, и могут выполнять поиск внутри и между видами.Гай Зинман, Шошана Найман, Ярив Канфи и Хаим Коэн из Университета Бар-Илан работали с Бар-Джозефом над разработкой ExpressionBlast и являются соавторами отчета журнала. Их намерением было разработать инструмент для запросов на экспрессию генов, который был бы эквивалентом Blast, инструмента для поиска в базах данных последовательностей генов двадцатилетней давности, который остается одним из наиболее широко используемых инструментов в биоинформатике.

Гены кодируют информацию, необходимую для жизни, а экспрессия генов — это процесс, с помощью которого эта генетическая информация преобразуется в белки и регулируется генами. Таким образом, понимание экспрессии генов имеет решающее значение для понимания биологических и болезненных процессов.

Эта информация настолько важна, что в течение последнего десятилетия или около того большинство ведущих журналов требовали от исследователей, публикующих статьи о экспрессии генов, отправлять свои экспериментальные данные в общедоступные репозитории, такие как GEO.Только GEO хранит данные более чем с 1 миллиона микроматриц. Каждый из этих микромассивов может содержать до 40 000 числовых значений, которые указывают, какие гены чрезмерно или недоэкспрессированы, и на сколько. Таким образом, GEO и система ArrayExpress Европейского института биоинформатики представляют собой кладезь потенциальных открытий.

Но существующие поисковые запросы часто зависят от сводок ключевых слов, представленных каждым исследователем, или требуют ручного сравнения микромассивов.ExpressionBlast использует новые, автоматизированные и масштабируемые алгоритмы анализа текста для преобразования неструктурированных данных в GEO, чтобы их можно было систематически искать. К настоящему времени исследователи обработали десятки тысяч рядов выражений, представляющих сотни тысяч индивидуальных массивов нескольких видов.

После обработки таким образом к данным можно легко получить доступ через графический интерфейс.