Система помогает защитить конфиденциальность в геномных базах данных: система помогает гарантировать, что базы данных, используемые в медицинских исследованиях, не будут пропускать личную информацию пациентов

Но поскольку они зависят от баз данных, содержащих истории болезней людей, они несут риски для конфиденциальности. Злоумышленник, вооруженный генетической информацией о ком-то, например, из образца кожи, может запросить в базе данных медицинские данные этого человека. Даже без образца скина злоумышленник, которому было разрешено делать повторные запросы, каждый из которых был проинформирован о результатах последнего, в принципе мог извлечь личные данные из базы данных.В последнем выпуске журнала Cell Systems исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института и Университета Индианы в Блумингтоне описывают новую систему, которая разрешает запросы к базе данных для общегеномных ассоциативных исследований, но снижает вероятность нарушения конфиденциальности почти до нуля.

Он делает это, добавляя немного дезинформации к возвращаемым результатам запроса. Это означает, что исследователи, использующие систему, могут начать поиск мишеней для лекарств с немного неточными данными.

Но в большинстве случаев ответы, возвращаемые системой, будут достаточно близкими, чтобы быть полезными.А онлайн-база данных генетических данных с возможностью мгновенного поиска, даже та, которая возвращает немного неточную информацию, может сделать биомедицинские исследования намного более эффективными.«Прямо сейчас многие люди, включая NIH, в течение долгого времени берут все свои данные, в том числе, зачастую, совокупные данные, статистику, которую мы заинтересованы в защите, и помещаем их в репозитории, — говорит Шон Симмонс, постдок по математике Массачусетского технологического института и первый автор новой статьи. «И вам нужно пройти длительный процесс, чтобы получить к ним доступ».Этот процесс включает в себя множество документов, включая объяснения того, как исследования, проводимые с помощью репозиториев, будут способствовать общественному благу, что требует тщательной проверки. «Мы месяцами ждали, чтобы получить доступ к различным репозиториям», — говорит Бонни Бергер, профессор математики Саймонса в Массачусетском технологическом институте, которая была научным руководителем Симмонса и является автором статьи. "Месяцы."

Принесите шумПолногеномные исследования ассоциаций обычно основываются на генетических вариациях, называемых однонуклеотидными полиморфизмами или SNP (произносится как «обрезки»). SNP — это вариант одного нуклеотида или «буквы» ДНК в определенном месте в геноме.

Миллионы SNP были идентифицированы в человеческой популяции, и определенные комбинации SNP могут служить заместителями для более крупных участков ДНК, которые, как правило, сохраняются среди людей.Новая система, которую Бергер и Симмонс разработали вместе с Дженком Сахиналпом, профессором информатики в Университете Индианы, реализует технику, называемую «дифференциальная конфиденциальность», которая в последние годы была основным направлением криптографических исследований.

Методы дифференциальной конфиденциальности добавляют немного шума или случайных вариаций к результатам поиска в базе данных, чтобы запутать алгоритмы, которые будут стремиться извлекать личную информацию из результатов нескольких индивидуальных последовательных поисков.Требуемый уровень шума зависит от силы гарантии конфиденциальности — насколько низко вы хотите установить вероятность утечки личной информации — а также от типа и объема данных. Чем больше людей, чьи данные содержит база данных SNP, тем меньше шума нужно добавить системе; по сути, в толпе легче потеряться. Но чем больше SNP записывает система, тем больше у злоумышленника гибкости при построении поисков, нарушающих конфиденциальность, что увеличивает требования к шуму.

Исследователи рассмотрели два типа общих запросов. В одном из них пользователь запрашивает статистическую корреляцию между конкретным SNP и конкретным заболеванием.

В другом случае пользователь запрашивает список SNP в определенной области генома, которые лучше всего коррелируют с конкретным заболеванием.В первом случае система возвращает широко используемую меру корреляции, называемую p-значением. Здесь значение p будет изменено — увеличено или уменьшено некоторым случайным фактором — для обеспечения конфиденциальности.Во втором случае система имеет некоторый шанс вернуть не самые высоко оцененные SNP в данном регионе, а несколько лучших SNP и, возможно, один или два низко оцененных.

Чтобы рассчитать вероятность того, что данный SNP попадет в результаты, исследователи используют меру, называемую расстоянием Хэмминга, которое показывает, насколько далеко SNP с более низкой оценкой находится от того, который он заменяет. Оказывается, это дает более полезные результаты, чем полагаться на p-значение. Поиск эффективного алгоритма для вычисления расстояний Хэмминга на лету — одно из главных нововведений системы.Сглаживание различий

Во-вторых, система исправляет распространенную в популяционной генетике проблему, называемую стратификацией населения. «Стандартный пример — то, что конкретный SNP тесно связан с непереносимостью лактозы», — объясняет Симмонс. «Предположим, что люди в Восточной Азии с большей вероятностью будут иметь непереносимость лактозы, чем кто-либо, скажем, в Северной Европе. Но также северные европейцы, как правило, выше, чем люди из Восточной Азии.

Наивный метод предполагает, что этот конкретный SNP имеет эффект по высоте, но это действительно ложная корреляция ».Алгоритм исследователей предполагает, что самые большие вариации в данной популяции являются результатом различий между субпопуляциями, отфильтровывает эти различия и оттачивает те, которые остались.


Портал обо всем