Одним из показателей, который может способствовать процессам сегментации, является «переходная вероятность» (TP), которая обеспечивает оценку вероятности одновременного появления двух слогов в одном и том же слове на основе частоты, с которой они обнаруживаются связанными в данном языке. На практике, если каждый раз, когда я слышу слог «ТА», за ним неизменно следует слог «DA», тогда переходная вероятность для «DA» с учетом «TA» равна 1 (наивысшая).
Если, с другой стороны, всякий раз, когда я слышу слог «BU», за ним в половине случаев следует слог «DI», а в половине случаев — «FI», тогда переходная вероятность «DI» (и «FI» "), учитывая" BU ", составляет 0,5 и так далее. Когнитивная система могла бы неявно вычислять это значение, полагаясь на лингвистическую память, из которой она извлекала бы частоты.В исследовании, проведенном Амандой Саксидой, научным сотрудником Международной школы перспективных исследований (SISSA) в Триесте, в сотрудничестве с Аланом Лангусом, научным сотрудником SISSA, под руководством профессора SISSA Марины Неспор, TP использовался для сегментации естественного языка. используя два разных подхода.
На основе ритмаИсследование Саксиды основано на работе с корпусами, то есть корпусами текстов, специально собранных для лингвистического анализа. В данном случае корпуса состояли из транскрипций «языковой звуковой среды», которой подвергаются младенцы. «Мы хотели получить пример того типа языковой среды, в которой развивается язык ребенка, — поясняет Саксида. — Мы задались вопросом, работает ли низкоуровневый механизм, такой как переходная вероятность, с реальными языковыми сигналами, которые сильно отличаются от искусственные реплики, обычно используемые в лаборатории, которые являются более схематичными и свободными от источников «шума». Более того, вопрос заключался в том, одинаково ли эффективны одни и те же низкоуровневые реплики для разных языков ». Саксида и его коллеги использовали корпуса не менее чем на 9 различных языках, и к каждому они применили две разные модели на основе TP.
Сначала они вычислили значения TP для каждой точки языкового потока для всех корпусов, а затем «сегментировали» поток, используя два разных метода. Первый был основан на абсолютном пороговом значении: было установлено определенное фиксированное эталонное значение TP, ниже которого определялась граница. Второй метод был основан на относительной пороговой обработке: границы соответствовали локально наименьшей функции TP.Во всех случаях Саксида и его коллеги обнаружили, что переходная вероятность была эффективным инструментом для сегментации (от 49% до 86% слов, идентифицированных правильно), независимо от используемого алгоритма сегментации, что подтверждает эффективность TP.
Следует отметить, что хотя обе модели оказались достаточно эффективными, когда одна модель была особенно успешной с одним языком, альтернативная модель всегда работала значительно хуже.«Эта кросс-лингвистическая разница предполагает, что каждая модель лучше, чем другая, подходит для определенных языков и наоборот.
Поэтому мы провели дальнейший анализ, чтобы понять, какие лингвистические особенности коррелируют с лучшей производительностью одной модели по сравнению с другой», — объясняет Саксида. Решающим аспектом оказался языковой ритм. «Мы можем разделить европейские языки на две большие группы в зависимости от ритма: синхронизированные по ударению и по слогам». В языках с ударным таймером меньше гласных и более короткие слова, в их число входят английский, словенский и немецкий языки.
В языках с синхронизацией по слогам в среднем больше гласных и более длинные слова, в том числе итальянский, испанский и финский. Третья ритмическая группа языков не существует в Европе и основана на «мораэ» (часть слога), например, японский. Эта группа известна как "синхронизированная по мора" и содержит даже больше гласных, чем языки с синхронизацией по слогам.
Модель с абсолютным порогом лучше всего работает на языках с временной привязкой к стрессу, тогда как относительная пороговая оценка лучше для языков с временной привязкой. «Поэтому возможно, что когнитивная система учится использовать алгоритм сегментации, который лучше всего подходит для вашего родного языка, и что это приводит к трудностям при сегментации языков, принадлежащих к другой ритмической категории. Очевидно, что для проверки этой гипотезы потребуются экспериментальные исследования. Мы знаем, что из научной литературы, что сразу после рождения младенцы уже используют ритмическую информацию, и мы думаем, что стратегии, используемые для выбора наиболее подходящей сегментации, могут быть одной из областей, в которых информация о ритме является наиболее полезной ».
На самом деле исследование не может сказать, действительно ли когнитивная система (как взрослых, так и детей) использует этот тип стратегии. «Наше исследование ясно подтверждает, что эта стратегия работает на широком спектре языков», — заключает Саксида. «Теперь он будет служить руководством для лабораторных экспериментов».
