Является ли язык визуальным? Эксперимент с китайскими иероглифами.
История о сломанном принтере, визуально-индуктивном искажении и о том, почему гонка закончилась ничьей.
Делиться
В прошлом году на китайской социальной платформе Douban широко обсуждался пост о сломанном принтере. Владелец принтера отметил, что когда в принтере заканчивались чернила, на каждом символе печаталась только верхняя половина. И тем не менее, текст оставался полностью читаемым.
Посмотрите на эти три версии 人工智能 («искусственный интеллект»):

Все три символа можно прочитать мгновенно: полный текст, 80% сохранено, 50% сохранено. Это не уловка — это, вероятно, фундаментальная особенность китайской системы.
Одно уточнение: 80% и 50% относятся к доле самого изображения, а не отдельных символов. Учитывая, что каждый символ занимает разное количество пикселей в изображении, мы просто обрезаем изображение по горизонтали на фиксированной высоте.
Это заставило меня задуматься: является ли язык — по крайней мере, китайский — по своей сути визуальным? Я несколько дней размышлял над этим и, наконец, решил выяснить это известным мне способом: обучить несколько языковых моделей и посмотреть, что произойдет на самом деле.
Эксперимент: пиксели на входе, токены на выходе.
Любая языковая модель сначала должна справиться с токенизацией. Основная идея такова: компьютеры не понимают текст, поэтому мы присваиваем каждому слову или символу идентификатор, то есть число. Например, символ 你 становится 100, 好 становится 3 и т. д. После этого языковая модель обучается всему с нуля.
В этом смысле, когда вы сводите такие иероглифы, как 山 (гора) и 水 (вода), к простым целым числам, вы теряете их форму. А китайские иероглифы обладают прекрасной формой — конфигурациями штрихов, радикальными компонентами, пространственным расположением, несущим реальную информацию. Другой пример: 打 (ударить), 拍 (похлопать) и 拉 (тянуть) имеют общий радикал 扌 (рука). Вы сводите их к идентификаторам 423, 1089 и 2341, и эта связь исчезает.
Поэтому вместо идентификаторов токенов я отображал каждый символ в виде изображения в оттенках серого и передавал его языковой модели. Задача модели заключалась в том, чтобы предсказать следующий символ.
Вам не нужно отличное зрение.
Если вы когда-либо снимали очки, чтобы читать, вы знаете, что размытый текст все равно читаем. Тот же принцип действует и здесь.
Взгляните на эти версии 人工智能 размером 8×8 пикселей (поднесите экран на расстояние вытянутой руки):

Каждый символ имеет размер 64 пикселя. И модель, обученная на входных данных с таким разрешением, показывает такие же результаты, как и модель, обученная на изображениях размером 80×80 пикселей.
Действительно, мы протестировали разрешения изображений от 4×4 до 80×80 и обнаружили, что: увеличение разрешения с 8×8 до 80×80 — в 100 раз больше пикселей — практически ничего не дает.
Результаты обрезки оказываются еще более поразительными и впечатляющими. При удалении 50% каждого символа точность падает менее чем на 2%. Модели не нужна вся четкая картина. Оказывается, ей достаточно структуры, чтобы определить, к какому радикальному семейству принадлежит тот или иной символ.
(Небольшое замечание по методологии: в приведенных выше примерах я разместил полные и обрезанные версии рядом, чтобы вы могли сравнить их. В реальных экспериментах каждое условие обучения полностью независимо — модель, обученная на обрезанных символах, никогда не видела полных символов.)
Эффект горячего старта
Итак, визуальная модель лучше текстовой?
В конечном итоге — нет. Оба подхода сходятся к практически одинаковой конечной точности. Но путь к цели выглядит совершенно по-разному, особенно начало.
После обработки всего 0,4% шагов обучения визуальная модель уже вдвое точнее, чем текстовая базовая модель.

Это то, что мы называем эффектом «горячего старта» . Визуальная модель начинает обучение, уже зная кое-что полезное: что слова «打», «拍» и «拉» выглядят похоже и, вероятно, ведут себя аналогично. Текстовая модель начинает с произвольных эмбеддингов и должна выяснить это с нуля.
Если вы посмотрите на пространство встраивания на этапе инициализации — до начала обучения — вы сразу увидите следующее:

На самом раннем этапе обучения видно, что символы, имеющие одинаковый радикал, группируются вместе. Косинусное сходство для пар символов с одинаковым радикалом: ~0,27 для визуальных вложений, ~0,002 для случайных токенов вложений.
Почему гонка закончилась ничьей
Вот в чем суть: визуальная априорная информация кодирует визуальное сходство, но не лингвистическое совпадение. Однако предсказание следующего символа в конечном итоге зависит от последнего.
Да, 打, 拍 и 拉 имеют общий 扌 и выглядят одинаково. Но в реальном тексте они могут появляться в самых разных контекстах — 打击犯罪 (борьба с преступностью), 拍摄照片 (фотосъемка), 拉动经济 (стимулирование экономики) и т. д. Как только текстовая модель получит достаточно данных для изучения этих закономерностей, визуальные априоры перестанут иметь значение.
Другими словами, визуальные данные запускают процесс оптимизации. Но, в общем, это не меняет информационный потолок.
Это всегда напоминает мне рассказ Теда Чанга «История твоей жизни» (послуживший основой для фильма «Прибытие»). В рассказе письменная и устная речь — это две независимые системы. Но в конечном итоге они служат одной и той же цели: общению. Два пути, одна цель.
Где это действительно важно
Несмотря на то, что пункт назначения один и тот же, существуют ситуации, когда это действительно имеет значение:
В условиях ограниченных ресурсов. Когда у вас мало обучающих данных, визуальное преимущество на старте превращается в реальное практическое превосходство. В наших экспериментах, имея всего 10 000 образцов, визуальные модели уже превосходят полностью обученную текстовую базовую модель на китайских эталонных тестах (C-eval).
Поврежденные исторические тексты. Это еще один интересный случай. Визуальный осмотр может помочь проверить классические китайские рукописи, поврежденные книги и рукописные документы, где отсутствуют или выцвели штрихи.
А что насчет вычислительных ресурсов?
Хорошие новости: практически никаких накладных расходов. Упрощенный визуальный кодировщик, который я использовал, на самом деле имеет меньше параметров, чем базовый текстовый кодировщик (12,6 млн против 19,0 млн). Накладные расходы на память: +1,3%. Таким образом, мы утверждаем, что визуальный априорный код практически бесплатен.
Краткий ответ
Является ли китайский язык визуально ориентированным в своей природе? Ответ, по-видимому, таков: вначале — да. К концу это уже не имеет значения.
Визуальная структура даёт моделям мощный старт. Это похоже на то, как человек, увидев слово «扌», сразу понимает, что находится в области действий, связанных с движениями рук. Но более глубокие языковые закономерности должны быть усвоены из данных. Оба способа представления позволяют усвоить их одинаково хорошо.
Статья опубликована на arxiv: https://arxiv.org/abs/2601.09566
Шуян Посмотреть все от Шуян
Источник: towardsdatascience.com
Похожие записи
Похожие записи
Sony выплатит 7,85 млн долларов в виде подарочных сертификатов для PlayStation Store в рамках урегулирования спора по поводу игровых ваучеров.
25.05.2026
