Система искусственного интеллекта просматривает веб-страницы, чтобы улучшить свою производительность: система извлечения информации помогает превращать простой текст в данные для статистического анализа.

Таким образом, извлечение информации — или автоматическая классификация элементов данных, хранящихся в виде простого текста — является основной темой исследований в области искусственного интеллекта. На прошлой неделе на конференции Ассоциации компьютерной лингвистики по эмпирическим методам обработки естественного языка исследователи из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института получили награду за лучший доклад за новый подход к извлечению информации, который переворачивает традиционное машинное обучение с ног на голову.

Большинство систем машинного обучения работают, просматривая обучающие примеры и выискивая шаблоны, соответствующие классификации, предоставленной аннотаторами. Например, люди могут маркировать части речи в наборе текстов, а система машинного обучения будет пытаться идентифицировать шаблоны, которые разрешают двусмысленность — например, когда «она» — это прямой объект, а когда — прилагательное.Как правило, специалисты по информатике стараются передать своим системам машинного обучения как можно больше обучающих данных. Это обычно увеличивает шансы того, что система сможет справиться со сложными проблемами.

В своей новой статье, напротив, исследователи из Массачусетского технологического института обучают свою систему скудным данным, потому что в сценарии, который они исследуют, обычно это все, что доступно. Но тогда они находят, что ограниченная информация — это простая проблема.«При извлечении информации, традиционно при обработке естественного языка, вам дается статья, и вам нужно делать все возможное, чтобы правильно извлечь из этой статьи», — говорит Регина Барзилай, профессор электротехники и информатики компании Delta Electronics, старший преподаватель. автор новой статьи. «Это сильно отличается от того, что сделали бы вы или я. Когда вы читаете статью, которую не понимаете, вы собираетесь зайти в Интернет и найти ту, которую вы можете понять».Повышение уверенности

По сути, новая система исследователей делает то же самое. Система машинного обучения обычно присваивает каждой из своих классификаций показатель достоверности, который является мерой статистической вероятности того, что классификация верна, с учетом закономерностей, обнаруженных в данных обучения. В новой системе исследователей, если показатель достоверности слишком низкий, система автоматически генерирует поисковый запрос в Интернете, предназначенный для поиска текстов, которые могут содержать данные, которые она пытается извлечь.

Затем он пытается извлечь соответствующие данные из одного из новых текстов и согласовывает результаты с результатами его первоначального извлечения. Если показатель достоверности остается слишком низким, выполняется переход к следующему тексту, отображаемому строкой поиска, и так далее.«Базовый экстрактор не меняется», — говорит Адам Яла, аспирант факультета электротехники и информатики Массачусетского технологического института (EECS) и один из соавторов новой статьи. «Вы найдете статьи, которые легче понять этому экстрактору. Итак, у вас есть что-то, что очень слабый экстрактор, и вы просто находите в Интернете данные, которые автоматически подходят к нему».

Вместе с Ялой и Барзилаем в работе появился первый автор Картик Нарасимхан, также аспирант EECS.Примечательно, что каждое решение, которое принимает система, является результатом машинного обучения. Система учится генерировать поисковые запросы, оценивать вероятность того, что новый текст имеет отношение к задаче извлечения, и определять лучшую стратегию объединения результатов нескольких попыток извлечения.Просто факты

В экспериментах исследователи применили свою систему для решения двух задач извлечения. Одним из них был сбор данных о массовых расстрелах в США, который является важным ресурсом для любого эпидемиологического исследования воздействия мер контроля над огнестрельным оружием. Другой — сбор аналогичных данных о случаях заражения пищевых продуктов. Система обучалась отдельно для каждой задачи.

В первом случае — базе данных массовых расстрелов — системе было предложено извлечь имя стрелка, место стрельбы, количество раненых и количество убитых. В случае заражения пищевых продуктов он извлекал тип пищи, тип загрязнителя и местонахождение. В каждом случае система была обучена примерно на 300 документах.

Из этих документов он узнал кластеры поисковых запросов, которые, как правило, были связаны с элементами данных, которые он пытался извлечь. Например, имена массовых стрелков соотносились с такими терминами, как «полиция», «идентифицированный», «арестованный» и «обвиняемый».

Во время обучения для каждой статьи, которую просили проанализировать, система извлекала в среднем еще девять или 10 новостных статей из Интернета.Исследователи сравнили производительность своей системы с производительностью нескольких экстракторов, обученных с использованием более традиционных методов машинного обучения.

По каждому элементу данных, извлеченному в обеих задачах, новая система превосходила своих предшественников, как правило, примерно на 10 процентов.