Создание надежных алгоритмов больших данных

Одним из ведущих алгоритмов больших данных для поиска связанных тем в неструктурированном тексте (область, называемая тематическим моделированием) является скрытое распределение Дирихле (LDA). Но когда профессор Северо-Западного университета Луис Амарал решил протестировать LDA, он обнаружил, что он не был таким точным и воспроизводимым, как должен быть ведущий алгоритм тематического моделирования.Используя свой опыт сетевого анализа, Амарал, профессор химической и биологической инженерии Северо-Западной школы инженерии и прикладных наук Маккормика, разработал новый алгоритм моделирования тем, который показал очень высокую точность и воспроизводимость во время испытаний. Его результаты, опубликованные в соавторстве с Конрадом Кордингом, доцентом кафедры физической медицины и реабилитации, физиологии и прикладной математики Северо-Западного университета, были опубликованы 29 января в Physical Review X.

Алгоритмы тематического моделирования берут неструктурированный текст и находят набор тем, которые можно использовать для описания каждого документа в наборе. Они — рабочие лошадки науки о больших данных, используемые в качестве основы для систем рекомендаций, фильтрации спама и обработки цифровых изображений.

Алгоритм тематического моделирования LDA был разработан в 2003 году и широко используется для академических исследований и коммерческих приложений, таких как поисковые системы.Когда Амарал исследовал, как работает LDA, он обнаружил, что алгоритм каждый раз дает разные результаты для одного и того же набора данных, причем часто неточно.

Амарал и его группа протестировали LDA, запустив его на созданных ими документах, написанных на английском, французском, испанском и других языках. Таким образом они смогли предотвратить наложение текста в документах.

«В этом простом случае алгоритм должен работать со 100-процентной точностью и воспроизводимостью», — сказал он. Но когда использовался LDA, он разделил эти документы на похожие группы с точностью всего 90 процентов и воспроизводимостью 80 процентов. «Хотя эти цифры могут показаться хорошими, на самом деле они очень плохие, так как они предназначены для чрезвычайно легкого случая», — сказал Амарал.

Чтобы создать лучший алгоритм, Амарал применил сетевой подход. Результат, называемый TopicMapping, начинается с предварительной обработки данных для замены слов их основой (так что «звездочка» и «звездочки» будут считаться одним и тем же словом). Затем он создает сеть соединяющих слов и определяет «сообщество» связанных слов (точно так же, как можно было бы искать сообщества людей в Facebook). Слова внутри данного сообщества определяют тему.

Алгоритм смог идеально разделить документы по языку и воспроизвести его результаты. Он также имел высокую точность и воспроизводимость при разделении 23 000 научных статей и 1,2 миллиона статей Википедии по темам.По словам Амарала, эти результаты показывают необходимость большего тестирования алгоритмов больших данных и дополнительных исследований, чтобы сделать их более точными и воспроизводимыми.«Компании, которые производят продукты, должны показать, что их продукты работают», — сказал он. «Они должны быть сертифицированы.

Для алгоритмов нет такого случая. У нас есть много неосведомленных потребителей алгоритмов больших данных, которые используют инструменты, которые не были протестированы на воспроизводимость и точность».