Распаковка закона Ципфа: решение вековой лингвистической проблемы

Закон Ципфа описывает, как частота слова в естественном языке зависит от его ранга в таблице частотности. Таким образом, самое частое слово встречается в два раза чаще, чем второе по частоте произведение, в три раза чаще, чем последующее слово, и так далее, пока не появится наименее частое слово. Закон назван в честь американского лингвиста Джорджа Кингсли Зипфа, который первым попытался объяснить его примерно в 1935 году.

Самая большая загадка компьютерной лингвистики
«Я думаю, можно с уверенностью сказать, что закон Ципфа — самая большая загадка в компьютерной лингвистике», — говорит Сандер Лестрейд, лингвист из Университета Радбауд в Неймегене, Нидерланды. "Несмотря на десятилетия теоретизирования, его происхождение остается неуловимым.Лестрейд теперь показывает, что закон Ципфа можно объяснить взаимодействием между структурой предложений (синтаксисом) и значением слов (семантикой) в тексте. Используя компьютерное моделирование, он смог показать, что ни синтаксиса, ни семантики недостаточно, чтобы вызвать распределение Ципфи, но что синтаксис и семантика «нуждаются» друг в друге для этого.
«В английском языке, но также и в голландском есть только три артикля и десятки тысяч существительных», — объясняет Лестрейд. "Поскольку вы используете артикль почти перед каждым существительным, артикли встречаются гораздо чаще, чем существительные."Но этого недостаточно, чтобы объяснить закон Ципфа. "В существительных вы также найдете большие различия. Слово «вещь», например, встречается гораздо чаще, чем «подводная лодка», и поэтому может использоваться чаще.

Но для того, чтобы на самом деле встречаться часто, слово также не должно быть слишком общим. Если вы умножите различия в значениях внутри классов слов с учетом потребности в каждом классе слов, вы найдете великолепное распределение Zipfian. И этот дистрибутив лишь немного отличается от идеала Zipfian, как и естественный язык."

Прогнозы, основанные на новой модели Лестрейдса, не только полностью согласуются с явлениями естественного языка, но и его теория верна почти для всех языков мира, а не только для английского или голландского. Лестрейд: "Я очень рад этому открытию и убежден в своей теории. Тем не менее, его подтверждение должно исходить от других лингвистов."

Портал обо всем