Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

В середине XX века лингвисты думали, что раскрыли код человеческой речи!

048cd1390a30c07b935b81cdf56197e0

В середине XX века лингвисты думали, что раскрыли код человеческой речи! Сегодня — история обманчивого закона в науке о языке.

Представьте: вы читаете какой-то текст. Самое частое слово встречается вдвое чаще второго, втрое чаще третьего… и так далее. Звучит, как настоящее статистическое чудо, которое десятилетиями будоражило умы лингвистов, физиков и даже философов.

Хотя первые наблюдения этой закономерности были сделаны ещё в 1908 году французским стенографистом Жаном-Батистом Эсту, широкую известность она получила благодаря американскому лингвисту Джорджу Кингсли Ципфу. В середине XX века он систематически исследовал частотные распределения слов в больших текстах и показал: если упорядочить все слова по убыванию частоты их употребления и присвоить каждому ранг (1 — самое частое, 2 — следующее и т.д.), то относительная частота слова с рангом r приблизительно обратно пропорциональна этому рангу:

P(r) = C / r,

где P(r) — относительная частота слова, а C — константа, которая зависит от языка (для английского языка около 0.1). Эта зависимость и вошла в науку как «закон Ципфа».

Эта закономерность проявляется не только в английском, но и во многих других естественных языках, что долгое время воспринималось как свидетельство некоего фундаментального принципа, лежащего в основе языковой структуры. Ципф предположил, что такая закономерность возникает из-за принципа наименьших усилий: говорящий стремится использовать как можно меньше разных слов, а слушающий — чтобы слова были максимально различимы.

Однако в 1992 году Вентян Ли показал, что закон Ципфа возникает даже в полностью случайных текстах!

Li, Wentian (1992). «Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution». IEEE Transactions on Information Theory. 38 (6): 1842–1845.

Представим, что мы генерируем последовательность символов, выбирая каждый символ независимо из алфавита из M букв и одного символа-пробела. Слова — это любые цепочки букв между пробелами. В таком тексте: Все слова длины L встречаются с одинаковой вероятностью, которая экспоненциально убывает с ростом L. А количество возможных слов длины L экспоненциально растет (M?).

Неравенство

M/(M ? 1) · (M^(L?1) ? 1) < r(L) ? M/(M ? 1) · (M^L ? 1)

описывает связь между длиной слова L и его рангом r(L). Чем длиннее слово, тем сильнее «растягивается» шкала рангов, поскольку количество возможных слов экспоненциально растёт с длиной.

Для английского алфавита (M = 26 букв) это даёт ? ? 1.01.

Работа Вентяна Ли — это важный урок: не всякая статистическая закономерность указывает на сложную структуру. Иногда она возникает из-за особенностей представления данных — в данном случае из-за перехода от длины слова к его рангу. Это не делает закон Ципфа бесполезным, но заставляет быть осторожнее в интерпретации: его наличие само по себе не доказывает существование скрытых законов языка.

Кстати его работа — не единственный контрпример. Идея, что степенные законы могут возникать в случайных процессах, была известна и раньше (например, в работах Мандельброта).

Не смотря на то, что для выполнения закона Ципфа не нужен смысл текста, он все равно оказался весьма полезным на практике!

Например, он успешно применяется для сжатия текстов: алгоритмы, такие как код Хаффмана, используют частотные характеристики слов — и закон Ципфа помогает оценить, какие слова стоит кодировать короче. Также его используют при построении моделей машинного обучения, где часто учитывают частоту слов. Знание о том, что распределение подчиняется степенному закону, помогает корректно нормировать данные.

Кроме того, значительные отклонения от закона Ципфа могут сигнализировать о необычной структуре текста — например, об ограниченной лексике, шифровании или генерации по упрощённым правилам.

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: В, новости

Нет других записей в этой рубрике.

Новости других рубрик

Архив рубрики ~Лента новостей~: Бесплатный кодек AV2 получил релизную версию 1.0.0: на 30% эффективнее AV1 Архив рубрики ~Лента новостей~: Почему дипломированные юристы повреждают ваши документы при делегировании полномочий? Архив рубрики ~Лента новостей~: Apple вносит изменения в свой спорный дизайн Liquid Glass. Архив рубрики ~Лента новостей~: ИИ уже пишет 80% кода Anthropic. Самое тревожное спрятано в цифре, которую подают как успех Архив рубрики ~Лента новостей~: Компания Aviva использует искусственный интеллект для предотвращения мошенничества в сфере страхования на сумму 230 миллионов фунтов стерлингов. Архив рубрики ~Лента новостей~: ФИФА расширяет использование ИИ на чемпионате мира, чтобы уменьшить количество оскорблений со стороны игроков. Архив рубрики ~Лента новостей~: DuckDuckGo устанавливает Spike, поскольку Google пытается заменить поиск искусственным интеллектом Архив рубрики ~Лента новостей~: AI неожиданно вернул человечество к вопросу о смысле