Но использование только стандартного английского языка исключило целые сегменты общества, использующие диалекты и нестандартные разновидности английского языка, и это упущение становится все более проблематичным, говорят исследователи Брендан О’Коннор, эксперт по обработке естественного языка (НЛП) из Университета им. Массачусетс Амхерст и Лиза Грин, директор Центра изучения афроамериканского языка на территории кампуса. Недавно они вместе с докторантом информатики Су Линь Блоджетт провели исследование диалекта в онлайн-разговорах афроамериканцев в Твиттере.Подробности появляются в их статье, размещенной в Интернете перед их презентацией на конференции «Эмпирические методы в НЛП» 2-5 ноября в Остине, штат Техас.
Авторы полагают, что их исследование создало самый большой на сегодняшний день набор данных для изучения афро-американского английского посредством онлайн-общения, изучив 59 миллионов твитов от 2,8 миллиона пользователей.Как объясняет О’Коннор: «Сейчас у нас есть огромное количество цифровой информации, которой у нас не было раньше, и многие различные демографические группы теперь используют новые технологии. поисковые системы, такие как Google, и компьютер должен иметь возможность анализировать текст, чтобы понять, о чем они спрашивают ".В социальной сфере, добавляет Грин, люди из многих разных социальных групп используют язык, отличный от того, который используется в основных средствах массовой информации, особенно случайно или между собой.
Она отмечает: «Новую семантику можно очень быстро расширить, если более широкое сообщество заимствует какое-то выражение из диалекта. Как лингвисты, мы всегда заинтересованы в том, как меняется язык, и теперь мы видим, что некоторые изменения происходят очень быстро. Например, рассмотрим выражение "бодрствовать" в Твиттере ".
О’Коннор говорит: «Что интересно сейчас, так это то, что все эти важные текстовые данные генерируются в менее формальном контексте. Если мы хотим проанализировать, например, мнения о выборах, мы по-прежнему используем инструменты НЛП для этого, но прямо сейчас , все инструменты предназначены для стандартного формального английского языка. В технологиях статус-кво явно есть недостатки ".Чтобы расширить возможности НЛП и научить компьютеры распознавать слова, фразы и языковые шаблоны, связанные с афроамериканским английским, исследователи проанализировали диалекты афроамериканцев, найденные в Твиттере.
Они идентифицировали этих пользователей с помощью данных переписи населения США и геолокационных данных Twitter, чтобы сопоставить их с афроамериканскими районами с помощью статистической модели, которая предполагает мягкую корреляцию между демографическими данными и языком.Они подтвердили модель, сравнив ее со знаниями из предыдущих лингвистических исследований, показав, что она может успешно определять закономерности афроамериканского английского языка.
Грин, лингвист, который является экспертом в синтаксисе и языке афроамериканского английского языка, десятилетиями изучает сообщество на юго-западе Луизианы. Она говорит, что есть четкие закономерности в звуке и синтаксисе, в том, как составляются предложения, которые характеризуют этот диалект, на котором говорят некоторые, но не все, афроамериканцы. Он имеет интересные отличия от стандартного американского английского; например, «они в магазине» может означать «они часто бывают в магазине».
Исследователи также выявили «новые явления, которые малоизвестны в литературе, такие как аббревиатуры и акронимы, используемые в Твиттере, особенно те, которые используются афроамериканцами», — отмечает Грин. добавляет: «Это пример мощи крупномасштабных онлайн-данных. Размер нашего набора данных позволяет нам охарактеризовать широту и глубину языка».Наконец, исследователи сравнили свою модель с существующими языковыми классификаторами, чтобы определить, насколько хорошо существующие инструменты НЛП работают при анализе афроамериканского английского языка на уровне пользователя и на уровне сообщений. О’Коннор говорит, что в настоящее время широко используемые инструменты идентифицируют афроамериканский английский как «не английский» чаще, чем ожидалось.
Тестируя лучшее программное обеспечение для классификации языков с открытым исходным кодом и собственный идентификатор языка Twitter, они обнаружили, что система с открытым исходным кодом была почти в два раза хуже для афроамериканского английского языка, чем для онлайн-английского языка, связанного с белыми в США. Исследователи также обнаружили аналогичные проблемы с государственным: современный грамматический синтаксический анализатор SyntaxNet.Он добавляет: «Эти методы используются Google и другими компаниями на миллионах веб-страниц каждый день для извлечения смысла для таких систем, как поисковые системы. Поскольку афро-американский английский плохо анализируется, это означает, что доступ к информации хуже для текстов, созданных афроамериканцами.
Люди, говорящие на американском английском. Проблема справедливости и равноправия в методах искусственного интеллекта вызывает все большую озабоченность, поскольку они имеют решающее значение для технологий, которые мы используем каждый день, таких как поисковые системы ".Кроме того, О’Коннор заявляет: «У технологических компаний есть хорошо известные проблемы с разнообразием.
Например, Facebook и Google недавно сообщили, что только 2 процента их сотрудников являются афроамериканцами. Надеемся, что усилия по увеличению разнообразия среди технологов могут помочь привлечь внимание. к решению проблем справедливости в искусственном интеллекте ".Со своей стороны, Грин надеется, что новая модель покажет, что «у молодых афроамериканцев, говорящих по-английски, могут появиться новые возможности внести свой вклад в обработку естественного языка.
Мы можем надеяться на привлечение большего числа афроамериканцев, говорящих по-английски, и членам других недопредставленных групп, инженерным наукам и информатике ". Авторы планируют выпустить свою новую модель в следующем году, чтобы лучше идентифицировать английский язык, написанный на этих диалектах, используя общедоступные данные из Twitter.
