Image

В середине XX века лингвисты думали, что раскрыли код человеческой речи!

048cd1390a30c07b935b81cdf56197e0

В середине XX века лингвисты думали, что раскрыли код человеческой речи! Сегодня — история обманчивого закона в науке о языке.

Представьте: вы читаете какой-то текст. Самое частое слово встречается вдвое чаще второго, втрое чаще третьего… и так далее. Звучит, как настоящее статистическое чудо, которое десятилетиями будоражило умы лингвистов, физиков и даже философов.

Хотя первые наблюдения этой закономерности были сделаны ещё в 1908 году французским стенографистом Жаном-Батистом Эсту, широкую известность она получила благодаря американскому лингвисту Джорджу Кингсли Ципфу. В середине XX века он систематически исследовал частотные распределения слов в больших текстах и показал: если упорядочить все слова по убыванию частоты их употребления и присвоить каждому ранг (1 — самое частое, 2 — следующее и т.д.), то относительная частота слова с рангом r приблизительно обратно пропорциональна этому рангу:

P(r) = C / r,

где P(r) — относительная частота слова, а C — константа, которая зависит от языка (для английского языка около 0.1). Эта зависимость и вошла в науку как «закон Ципфа».

Эта закономерность проявляется не только в английском, но и во многих других естественных языках, что долгое время воспринималось как свидетельство некоего фундаментального принципа, лежащего в основе языковой структуры. Ципф предположил, что такая закономерность возникает из-за принципа наименьших усилий: говорящий стремится использовать как можно меньше разных слов, а слушающий — чтобы слова были максимально различимы.

Однако в 1992 году Вентян Ли показал, что закон Ципфа возникает даже в полностью случайных текстах!

Li, Wentian (1992). «Random Texts Exhibit Zipf’s-Law-Like Word Frequency Distribution». IEEE Transactions on Information Theory. 38 (6): 1842–1845.

Представим, что мы генерируем последовательность символов, выбирая каждый символ независимо из алфавита из M букв и одного символа-пробела. Слова — это любые цепочки букв между пробелами. В таком тексте: Все слова длины L встречаются с одинаковой вероятностью, которая экспоненциально убывает с ростом L. А количество возможных слов длины L экспоненциально растет (M?).

Неравенство

M/(M ? 1) · (M^(L?1) ? 1) < r(L) ? M/(M ? 1) · (M^L ? 1)

описывает связь между длиной слова L и его рангом r(L). Чем длиннее слово, тем сильнее «растягивается» шкала рангов, поскольку количество возможных слов экспоненциально растёт с длиной.

Для английского алфавита (M = 26 букв) это даёт ? ? 1.01.

Работа Вентяна Ли — это важный урок: не всякая статистическая закономерность указывает на сложную структуру. Иногда она возникает из-за особенностей представления данных — в данном случае из-за перехода от длины слова к его рангу. Это не делает закон Ципфа бесполезным, но заставляет быть осторожнее в интерпретации: его наличие само по себе не доказывает существование скрытых законов языка.

Кстати его работа — не единственный контрпример. Идея, что степенные законы могут возникать в случайных процессах, была известна и раньше (например, в работах Мандельброта).

Не смотря на то, что для выполнения закона Ципфа не нужен смысл текста, он все равно оказался весьма полезным на практике!

Например, он успешно применяется для сжатия текстов: алгоритмы, такие как код Хаффмана, используют частотные характеристики слов — и закон Ципфа помогает оценить, какие слова стоит кодировать короче. Также его используют при построении моделей машинного обучения, где часто учитывают частоту слов. Знание о том, что распределение подчиняется степенному закону, помогает корректно нормировать данные.

Кроме того, значительные отклонения от закона Ципфа могут сигнализировать о необычной структуре текста — например, об ограниченной лексике, шифровании или генерации по упрощённым правилам.

Источник: vk.com

Источник: ai-news.ru

✅ Найденные теги: В, новости

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных
Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…
Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.
Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".
‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…
Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.
Структура эффективного запроса Claude с элементами задачи, контекста и референса.
Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.
ideipro logotyp
Image Not Found
Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

Мар 2, 2026
Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

Мар 2, 2026
Черный углеродное волокно с текстурой плетения, отражающий свет.

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений.  Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

Мар 2, 2026
Круглый экран с изображением замка и горы, рядом электронная плата.

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран.  Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых