Является ли язык визуальным? Эксперимент с китайскими иероглифами.

12.06.2026 ideipro.ru

История о сломанном принтере, визуально-индуктивном искажении и о том, почему гонка закончилась ничьей.

Делиться

В прошлом году на китайской социальной платформе Douban широко обсуждался пост о сломанном принтере. Владелец принтера отметил, что когда в принтере заканчивались чернила, на каждом символе печаталась только верхняя половина. И тем не менее, текст оставался полностью читаемым.

Посмотрите на эти три версии 人工智能 («искусственный интеллект»):

Изображение автора: четыре персонажа с разным ракурсом.

Все три символа можно прочитать мгновенно: полный текст, 80% сохранено, 50% сохранено. Это не уловка — это, вероятно, фундаментальная особенность китайской системы.

Одно уточнение: 80% и 50% относятся к доле самого изображения, а не отдельных символов. Учитывая, что каждый символ занимает разное количество пикселей в изображении, мы просто обрезаем изображение по горизонтали на фиксированной высоте.

Это заставило меня задуматься: является ли язык — по крайней мере, китайский — по своей сути визуальным? Я несколько дней размышлял над этим и, наконец, решил выяснить это известным мне способом: обучить несколько языковых моделей и посмотреть, что произойдет на самом деле.

Эксперимент: пиксели на входе, токены на выходе.

Любая языковая модель сначала должна справиться с токенизацией. Основная идея такова: компьютеры не понимают текст, поэтому мы присваиваем каждому слову или символу идентификатор, то есть число. Например, символ 你 становится 100, 好 становится 3 и т. д. После этого языковая модель обучается всему с нуля.

В этом смысле, когда вы сводите такие иероглифы, как 山 (гора) и 水 (вода), к простым целым числам, вы теряете их форму. А китайские иероглифы обладают прекрасной формой — конфигурациями штрихов, радикальными компонентами, пространственным расположением, несущим реальную информацию. Другой пример: 打 (ударить), 拍 (похлопать) и 拉 (тянуть) имеют общий радикал 扌 (рука). Вы сводите их к идентификаторам 423, 1089 и 2341, и эта связь исчезает.

Поэтому вместо идентификаторов токенов я отображал каждый символ в виде изображения в оттенках серого и передавал его языковой модели. Задача модели заключалась в том, чтобы предсказать следующий символ.

Вам не нужно отличное зрение.

Если вы когда-либо снимали очки, чтобы читать, вы знаете, что размытый текст все равно читаем. Тот же принцип действует и здесь.

Взгляните на эти версии 人工智能 размером 8×8 пикселей (поднесите экран на расстояние вытянутой руки):

Изображение автора: различные кадрирования с разрешением 8×8 пикселей.

Каждый символ имеет размер 64 пикселя. И модель, обученная на входных данных с таким разрешением, показывает такие же результаты, как и модель, обученная на изображениях размером 80×80 пикселей.

Действительно, мы протестировали разрешения изображений от 4×4 до 80×80 и обнаружили, что: увеличение разрешения с 8×8 до 80×80 — в 100 раз больше пикселей — практически ничего не дает.

Результаты обрезки оказываются еще более поразительными и впечатляющими. При удалении 50% каждого символа точность падает менее чем на 2%. Модели не нужна вся четкая картина. Оказывается, ей достаточно структуры, чтобы определить, к какому радикальному семейству принадлежит тот или иной символ.

(Небольшое замечание по методологии: в приведенных выше примерах я разместил полные и обрезанные версии рядом, чтобы вы могли сравнить их. В реальных экспериментах каждое условие обучения полностью независимо — модель, обученная на обрезанных символах, никогда не видела полных символов.)

Эффект горячего старта

Итак, визуальная модель лучше текстовой?

В конечном итоге — нет. Оба подхода сходятся к практически одинаковой конечной точности. Но путь к цели выглядит совершенно по-разному, особенно начало.

После обработки всего 0,4% шагов обучения визуальная модель уже вдвое точнее, чем текстовая базовая модель.

Изображение предоставлено автором: ранняя динамика

Это то, что мы называем эффектом «горячего старта» . Визуальная модель начинает обучение, уже зная кое-что полезное: что слова «打», «拍» и «拉» выглядят похоже и, вероятно, ведут себя аналогично. Текстовая модель начинает с произвольных эмбеддингов и должна выяснить это с нуля.

Если вы посмотрите на пространство встраивания на этапе инициализации — до начала обучения — вы сразу увидите следующее:

На самом раннем этапе обучения видно, что символы, имеющие одинаковый радикал, группируются вместе. Косинусное сходство для пар символов с одинаковым радикалом: ~0,27 для визуальных вложений, ~0,002 для случайных токенов вложений.

Почему гонка закончилась ничьей

Вот в чем суть: визуальная априорная информация кодирует визуальное сходство, но не лингвистическое совпадение. Однако предсказание следующего символа в конечном итоге зависит от последнего.

Да, 打, 拍 и 拉 имеют общий 扌 и выглядят одинаково. Но в реальном тексте они могут появляться в самых разных контекстах — 打击犯罪 (борьба с преступностью), 拍摄照片 (фотосъемка), 拉动经济 (стимулирование экономики) и т. д. Как только текстовая модель получит достаточно данных для изучения этих закономерностей, визуальные априоры перестанут иметь значение.

Другими словами, визуальные данные запускают процесс оптимизации. Но, в общем, это не меняет информационный потолок.

Это всегда напоминает мне рассказ Теда Чанга «История твоей жизни» (послуживший основой для фильма «Прибытие»). В рассказе письменная и устная речь — это две независимые системы. Но в конечном итоге они служат одной и той же цели: общению. Два пути, одна цель.

Где это действительно важно

Несмотря на то, что пункт назначения один и тот же, существуют ситуации, когда это действительно имеет значение:

В условиях ограниченных ресурсов. Когда у вас мало обучающих данных, визуальное преимущество на старте превращается в реальное практическое превосходство. В наших экспериментах, имея всего 10 000 образцов, визуальные модели уже превосходят полностью обученную текстовую базовую модель на китайских эталонных тестах (C-eval).

Поврежденные исторические тексты. Это еще один интересный случай. Визуальный осмотр может помочь проверить классические китайские рукописи, поврежденные книги и рукописные документы, где отсутствуют или выцвели штрихи.

А что насчет вычислительных ресурсов?

Хорошие новости: практически никаких накладных расходов. Упрощенный визуальный кодировщик, который я использовал, на самом деле имеет меньше параметров, чем базовый текстовый кодировщик (12,6 млн против 19,0 млн). Накладные расходы на память: +1,3%. Таким образом, мы утверждаем, что визуальный априорный код практически бесплатен.

Краткий ответ

Является ли китайский язык визуально ориентированным в своей природе? Ответ, по-видимому, таков: вначале — да. К концу это уже не имеет значения.

Визуальная структура даёт моделям мощный старт. Это похоже на то, как человек, увидев слово «扌», сразу понимает, что находится в области действий, связанных с движениями рук. Но более глубокие языковые закономерности должны быть усвоены из данных. Оба способа представления позволяют усвоить их одинаково хорошо.

Статья опубликована на arxiv: https://arxiv.org/abs/2601.09566

Шуян Посмотреть все от Шуян

Источник: towardsdatascience.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Является ли язык визуальным? Эксперимент с китайскими иероглифами.

Эксперимент: пиксели на входе, токены на выходе.

Вам не нужно отличное зрение.

Эффект горячего старта

Почему гонка закончилась ничьей

Где это действительно важно

Краткий ответ

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Эксперимент: пиксели на входе, токены на выходе.

Вам не нужно отличное зрение.

Эффект горячего старта

Почему гонка закончилась ничьей

Где это действительно важно

Краткий ответ

Похожие записи

Похожие записи

Приведёт к сокращению рабочих мест и ударит по Honda: Япония предупредила Вьетнам о последствиях запрета на бензиновые мотоциклы в центре Ханоя с 2026 года

Дифференциально приватное машинное обучение в масштабе с использованием JAX-Privacy

Электрическая стимуляция мозга ускоряет восстановление зрения после инсульта

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI