Image

В середине XX века лингвисты думали, что раскрыли код человеческой речи!

048cd1390a30c07b935b81cdf56197e0

В середине XX века лингвисты думали, что раскрыли код человеческой речи! Сегодня — история обманчивого закона в науке о языке.

Представьте: вы читаете какой-то текст. Самое частое слово встречается вдвое чаще второго, втрое чаще третьего… и так далее. Звучит, как настоящее статистическое чудо, которое десятилетиями будоражило умы лингвистов, физиков и даже философов.

Хотя первые наблюдения этой закономерности были сделаны ещё в 1908 году французским стенографистом Жаном-Батистом Эсту, широкую известность она получила благодаря американскому лингвисту Джорджу Кингсли Ципфу. В середине XX века он систематически исследовал частотные распределения слов в больших текстах и показал: если упорядочить все слова по убыванию частоты их употребления и присвоить каждому ранг (1 — самое частое, 2 — следующее и т.д.), то относительная частота слова с рангом r приблизительно обратно пропорциональна этому рангу:

P(r) = C / r,

где P(r) — относительная частота слова, а C — константа, которая зависит от языка (для английского языка около 0.1). Эта зависимость и вошла в науку как «закон Ципфа».

Эта закономерность проявляется не только в английском, но и во многих других естественных языках, что долгое время воспринималось как свидетельство некоего фундаментального принципа, лежащего в основе языковой структуры. Ципф предположил, что такая закономерность возникает из-за принципа наименьших усилий: говорящий стремится использовать как можно меньше разных слов, а слушающий — чтобы слова были максимально различимы.

Однако в 1992 году Вентян Ли показал, что закон Ципфа возникает даже в полностью случайных текстах!

Li, Wentian (1992). «Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution». IEEE Transactions on Information Theory. 38 (6): 1842–1845.

Представим, что мы генерируем последовательность символов, выбирая каждый символ независимо из алфавита из M букв и одного символа-пробела. Слова — это любые цепочки букв между пробелами. В таком тексте: Все слова длины L встречаются с одинаковой вероятностью, которая экспоненциально убывает с ростом L. А количество возможных слов длины L экспоненциально растет (M?).

Неравенство

M/(M ? 1) · (M^(L?1) ? 1) < r(L) ? M/(M ? 1) · (M^L ? 1)

описывает связь между длиной слова L и его рангом r(L). Чем длиннее слово, тем сильнее «растягивается» шкала рангов, поскольку количество возможных слов экспоненциально растёт с длиной.

Для английского алфавита (M = 26 букв) это даёт ? ? 1.01.

Работа Вентяна Ли — это важный урок: не всякая статистическая закономерность указывает на сложную структуру. Иногда она возникает из-за особенностей представления данных — в данном случае из-за перехода от длины слова к его рангу. Это не делает закон Ципфа бесполезным, но заставляет быть осторожнее в интерпретации: его наличие само по себе не доказывает существование скрытых законов языка.

Кстати его работа — не единственный контрпример. Идея, что степенные законы могут возникать в случайных процессах, была известна и раньше (например, в работах Мандельброта).

Не смотря на то, что для выполнения закона Ципфа не нужен смысл текста, он все равно оказался весьма полезным на практике!

Например, он успешно применяется для сжатия текстов: алгоритмы, такие как код Хаффмана, используют частотные характеристики слов — и закон Ципфа помогает оценить, какие слова стоит кодировать короче. Также его используют при построении моделей машинного обучения, где часто учитывают частоту слов. Знание о том, что распределение подчиняется степенному закону, помогает корректно нормировать данные.

Кроме того, значительные отклонения от закона Ципфа могут сигнализировать о необычной структуре текста — например, об ограниченной лексике, шифровании или генерации по упрощённым правилам.

Источник: vk.com

Источник: ai-news.ru

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

ИИ почти всех обгонит? Прогнозы звучат громко, но есть нюансы…
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.
dummy-img
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.
dummy-img
dummy-img
Взаимодействие человека и машины погружается под воду.
Взаимодействие человека и машины погружается под воду.
Image Not Found
Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.

Вкратце Опубликовано: Изображение предоставлено: Thos Robinson/Getty Images для The New York Times (откроется в новом окне) Джули Борт Компания Anthropic получила от Amazon 5 миллиардов долларов и в обмен пообещала инвестировать 100 миллиардов долларов в облачные сервисы.…

Апр 21, 2026
dummy-img

Как почистить виниловые пластинки (2026): пылесос, ультразвук, чистящий раствор, щетка.

Эти щелчки и треск недопустимы. Приведите свою музыку в порядок с помощью этого удобного руководства. Источник: www.wired.com

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026
Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Загрузка: обход банковских систем кибермошенниками и проблемы с удалением углерода.

Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Кибермошенники обходят системы безопасности банков с помощью незаконных инструментов, продаваемых в Telegram. В центре по отмыванию денег в Камбодже…

Апр 21, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых