Более 50 лет лингвисты и компьютерные ученые пытались научить компьютеры понимать человеческий язык, запрограммировав семантику как программное обеспечение. Первоначально эти усилия были вызваны усилиями по переводу русских научных текстов во время холодной войны (а в последнее время — ценностью инструментов поиска информации и анализа данных), но они увенчались переменным успехом. Система Watson от IBM, удостоенная награды Jeopardy, и Google Translate являются широко известными и успешными приложениями языковых технологий, но юмористические ответы и неправильные переводы, которые они иногда дают, свидетельствуют о сохраняющейся сложности проблемы.
Наша способность легко различать значения нескольких слов основана на жизненном опыте.
Используя контекст, в котором используется слово, внутреннее понимание синтаксиса и логики, а также чувство намерения говорящего, мы интуитивно понимаем, что нам говорит другой человек.
«В прошлом люди пытались вручную кодировать все эти знания», — объяснила Катрин Эрк, профессор лингвистики Техасского университета в Остине, уделяя особое внимание лексической семантике. "Я думаю, будет справедливо сказать, что это не увенчалось успехом. Люди знают слишком много мелочей."
Другие попытки пытались использовать словарные значения, чтобы научить компьютеры лучше понимать язык, но эти попытки также натолкнулись на препятствия. Словари имеют свои собственные смысловые различия, которые кристально ясны для создателя словарей, но неясны для читателя словаря.
Более того, нет двух словарей, содержащих одинаковый набор значений — неприятно, верно?
Наблюдение за тем, как комментаторы пытаются понять противоречивые определения, заставило Эрк попробовать другую тактику. Вместо того, чтобы жестко кодировать человеческую логику или расшифровывать словари, почему бы не проанализировать огромное количество текстов (которые являются отражением человеческих знаний) и использовать неявные связи между словами для создания взвешенной карты отношений — словаря без словаря?
«Интуиция для меня заключалась в том, что можно визуализировать различные значения слова в виде точек в пространстве», — сказала она. «Их можно представить как иногда далекие друг от друга, как заряд батареи и уголовные обвинения, а иногда как близкие друг к другу, как уголовные обвинения и обвинения» (газета опубликовала обвинения…"). Значение слова в определенном контексте — это точка в этом пространстве. Тогда нам не нужно говорить, сколько смыслов имеет слово.
Вместо этого мы говорим: «Это использование слова близко к использованию в другом предложении, но далеко от третьего использования.’"
Чтобы создать модель, которая может точно воссоздать интуитивную способность различать значения слов, требуется много текста и много аналитических мощностей.
«Нижним пределом для такого рода исследований является текстовый сборник из 100 миллионов слов», — пояснила она. "Если бы вы могли дать мне несколько миллиардов слов, я был бы намного счастливее.
Но как мы можем обработать всю эту информацию? Вот где пригодятся суперкомпьютеры и Hadoop."
Применение вычислительной мощности
Изначально Эрк проводила исследования на настольных компьютерах, но примерно в 2009 году она начала использовать системы параллельных вычислений в Техасском центре передовых вычислений (TACC).
Доступ к специальной оптимизированной для Hadoop подсистеме на суперкомпьютере Longhorn компании TACC позволил Эрк и ее сотрудникам расширить сферу своих исследований. Hadoop — это программная архитектура, хорошо подходящая для анализа текста и интеллектуального анализа неструктурированных данных, которая также может использовать преимущества больших компьютерных кластеров.
Вычислительные модели, запуск которых на настольном компьютере занимает недели, на Longhorn могут выполняться за несколько часов. Это открыло новые возможности.
"В простом случае мы подсчитываем, как часто слово встречается в непосредственной близости от других слов.
Если вы делаете это с одним миллиардом слов, у вас есть пара дней, чтобы подождать, чтобы выполнить вычисление? Это не весело, — сказал Эрк. "С Hadoop на Longhorn мы могли получать данные, необходимые для ускорения языковой обработки.
Это позволило нам использовать большие объемы данных и разрабатывать более совершенные модели."
Согласно Эрк, отношение к словам реляционным, нефиксированным способом соответствует возникающим психологическим представлениям о том, как разум взаимодействует с языком и концепциями в целом. Вместо жестких определений у концепций есть «нечеткие границы», где значение, ценность и пределы идеи могут значительно варьироваться в зависимости от контекста или условий.
Эрк берет эту идею языка и воссоздает ее модель из сотен тысяч документов.
Скажи это по-другому
Итак, как мы можем описать значения слов без словаря?
Один из способов — перефразировать. Хороший пересказ — это такой, который «близок» к значению слова в том многомерном пространстве, которое описал Эрк.
«Мы используем гигантское пространство в 10 000 измерений со всеми этими разными точками для каждого слова, чтобы предсказывать перефразирование», — пояснил Эрк. «Если я дам вам предложение вроде« Это умный ребенок », модель автоматически скажет вам, какие пересказы хорошие (« умный ребенок »), а какие — плохие (« вопиющий ребенок »). Это очень полезно в языковых технологиях."
Языковые технологии уже помогают миллионам людей выполнять практические и ценные задачи каждый день с помощью веб-поиска и систем вопросов-ответов, но они готовы к еще более широкому распространению.
Автоматическое извлечение информации — это приложение, в котором исследование перефразирования Эрка может иметь решающее значение. Скажем, например, вы хотите извлечь список заболеваний, их причин, симптомов и способов лечения из миллионов страниц медицинской информации в Интернете.
«Исследователи используют несколько иные формулировки, когда говорят о болезнях, поэтому знание хороших перефразировок может помочь», — сказал Эрк.
В статье, которая будет опубликована в журнале ACM Transactions on Intelligent Systems and Technology, Эрк и ее сотрудники продемонстрировали, что они могут достичь самых современных результатов с их подходом автоматического перефразирования.
Недавно Эрк и Рэй Муни, профессора информатики из Техасского университета в Остине, получили грант от Управления перспективных исследовательских проектов Министерства обороны США на объединение распределенного многомерного пространственного представления значений слов Эрка с методом определения структуры. предложений на основе логических сетей Маркова.
"Язык грязный", — сказал Муни. "Все время почти нет ничего правдивого. "Когда мы спрашиваем:" Насколько это предложение похоже на другое предложение? "?Наша система превращает этот вопрос в вероятностную задачу доказательства теорем, и эта задача может быть очень сложной в вычислительном отношении."
В своей статье «Монтегю встречает Маркова: глубокая семантика с вероятностной логической формой», представленной на Второй совместной конференции по лексической и вычислительной семантике (STARSEM2013) в июне, Эрк, Муни и его коллеги объявили о своих результатах по ряду сложных задач из область искусственного интеллекта.
В одной задаче Лонгхорну дали предложение, и он должен был сделать вывод о том, является ли другое предложение истинным, основываясь на первом.
Используя набор различных синтаксических анализаторов предложений, моделей значений слов и реализаций марковской логики, система Муни и Эрка предсказала правильный ответ с точностью 85%. Это один из лучших результатов в этой задаче.
Они продолжают работать над улучшением системы.
В мире машинного обучения есть известная поговорка: «Нет данных лучше, чем больше данных."Хотя больше данных помогает, использование этих данных является ключевым моментом.
"Мы хотим достичь того момента, когда нам не нужно изучать компьютерный язык, чтобы общаться с компьютером. Мы просто скажем, что делать на естественном языке, — сказал Муни. «Мы все еще далеки от того, чтобы иметь компьютер, который понимал бы язык так же хорошо, как человек, но мы добились определенного прогресса в достижении этой цели."
