Создание надежных алгоритмов больших данных

Одним из ведущих алгоритмов больших данных для поиска связанных тем в неструктурированном тексте (область, называемая тематическим моделированием) является скрытое распределение Дирихле (LDA). Но когда профессор Северо-Западного университета Луис Амарал решил протестировать LDA, он обнаружил, что он не был таким точным и воспроизводимым, как должен быть ведущий алгоритм тематического моделирования.Используя свой опыт сетевого анализа, Амарал, профессор химической и биологической инженерии Северо-Западной школы инженерии и прикладных наук Маккормика, разработал новый алгоритм моделирования тем, который показал очень высокую точность и воспроизводимость во время испытаний. Его результаты, опубликованные в соавторстве с Конрадом Кордингом, доцентом кафедры физической медицины и реабилитации, физиологии и прикладной математики Северо-Западного университета, были опубликованы 29 января в Physical Review X.

Алгоритмы тематического моделирования берут неструктурированный текст и находят набор тем, которые можно использовать для описания каждого документа в наборе. Они — рабочие лошадки науки о больших данных, используемые в качестве основы для систем рекомендаций, фильтрации спама и обработки цифровых изображений.

Алгоритм тематического моделирования LDA был разработан в 2003 году и широко используется для академических исследований и коммерческих приложений, таких как поисковые системы.Когда Амарал исследовал, как работает LDA, он обнаружил, что алгоритм каждый раз дает разные результаты для одного и того же набора данных, причем часто неточно.

Амарал и его группа протестировали LDA, запустив его на созданных ими документах, написанных на английском, французском, испанском и других языках. Таким образом они смогли предотвратить наложение текста в документах.

«В этом простом случае алгоритм должен работать со 100-процентной точностью и воспроизводимостью», — сказал он. Но когда использовался LDA, он разделил эти документы на похожие группы с точностью всего 90 процентов и воспроизводимостью 80 процентов. «Хотя эти цифры могут показаться хорошими, на самом деле они очень плохие, так как они предназначены для чрезвычайно легкого случая», — сказал Амарал.

Чтобы создать лучший алгоритм, Амарал применил сетевой подход. Результат, называемый TopicMapping, начинается с предварительной обработки данных для замены слов их основой (так что «звездочка» и «звездочки» будут считаться одним и тем же словом). Затем он создает сеть соединяющих слов и определяет «сообщество» связанных слов (точно так же, как можно было бы искать сообщества людей в Facebook). Слова внутри данного сообщества определяют тему.

Алгоритм смог идеально разделить документы по языку и воспроизвести его результаты. Он также имел высокую точность и воспроизводимость при разделении 23 000 научных статей и 1,2 миллиона статей Википедии по темам.По словам Амарала, эти результаты показывают необходимость большего тестирования алгоритмов больших данных и дополнительных исследований, чтобы сделать их более точными и воспроизводимыми.«Компании, которые производят продукты, должны показать, что их продукты работают», — сказал он. «Они должны быть сертифицированы.

Для алгоритмов нет такого случая. У нас есть много неосведомленных потребителей алгоритмов больших данных, которые используют инструменты, которые не были протестированы на воспроизводимость и точность».

7 комментариев к “Создание надежных алгоритмов больших данных”

  1. Фонвизина Жанна

    Боренька долпоеп сам налоги не платит, но очень хочет, чтобы платили другие)))).

Оставьте комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *