Вместо того, чтобы жестко кодировать человеческую логику или расшифровывать словари, чтобы попытаться научить компьютерному языку, Эрк решил попробовать другую тактику: скормить компьютерам огромное количество текстов (которые являются отражением человеческих знаний) и использовать неявные связи между словами для создать карту взаимоотношений.«Мне казалось, что можно визуализировать различные значения слова в виде точек в пространстве», — говорит Эрк, профессор лингвистики, проводящая свои исследования в Техасском центре передовых вычислений. «Вы можете думать о них как о порой далеких друг от друга, как заряд батареи и уголовные обвинения, а иногда как о близких друг к другу, как уголовные обвинения и обвинения (« газета опубликовала обвинения… »). Значение слова в определенном контексте — это точка в этом пространстве.
Тогда нам не нужно говорить, сколько значений имеет слово. Вместо этого мы говорим: «Такое использование слова близко к этому использованию в другом предложении, но далеко от третьего использования». "Чтобы создать модель, которая может точно воссоздать интуитивную способность различать значения слов, требуется много текста и много аналитических сил.
«Нижняя граница для такого рода исследований — это текстовый сборник из 100 миллионов слов», — объясняет она. «Если бы вы могли дать мне несколько миллиардов слов, я был бы намного счастливее. Но как мы можем обработать всю эту информацию?
Вот где нужны суперкомпьютеры».
