Является ли язык визуальным? Эксперимент с китайскими иероглифами.

12.06.2026 ideipro.ru

История о сломанном принтере, визуально-индуктивном искажении и о том, почему гонка закончилась ничьей.

Делиться

В прошлом году на китайской социальной платформе Douban широко обсуждался пост о сломанном принтере. Владелец принтера отметил, что когда в принтере заканчивались чернила, на каждом символе печаталась только верхняя половина. И тем не менее, текст оставался полностью читаемым.

Посмотрите на эти три версии 人工智能 («искусственный интеллект»):

Изображение автора: четыре персонажа с разным ракурсом.

Все три символа можно прочитать мгновенно: полный текст, 80% сохранено, 50% сохранено. Это не уловка — это, вероятно, фундаментальная особенность китайской системы.

Одно уточнение: 80% и 50% относятся к доле самого изображения, а не отдельных символов. Учитывая, что каждый символ занимает разное количество пикселей в изображении, мы просто обрезаем изображение по горизонтали на фиксированной высоте.

Это заставило меня задуматься: является ли язык — по крайней мере, китайский — по своей сути визуальным? Я несколько дней размышлял над этим и, наконец, решил выяснить это известным мне способом: обучить несколько языковых моделей и посмотреть, что произойдет на самом деле.

Эксперимент: пиксели на входе, токены на выходе.

Любая языковая модель сначала должна справиться с токенизацией. Основная идея такова: компьютеры не понимают текст, поэтому мы присваиваем каждому слову или символу идентификатор, то есть число. Например, символ 你 становится 100, 好 становится 3 и т. д. После этого языковая модель обучается всему с нуля.

В этом смысле, когда вы сводите такие иероглифы, как 山 (гора) и 水 (вода), к простым целым числам, вы теряете их форму. А китайские иероглифы обладают прекрасной формой — конфигурациями штрихов, радикальными компонентами, пространственным расположением, несущим реальную информацию. Другой пример: 打 (ударить), 拍 (похлопать) и 拉 (тянуть) имеют общий радикал 扌 (рука). Вы сводите их к идентификаторам 423, 1089 и 2341, и эта связь исчезает.

Поэтому вместо идентификаторов токенов я отображал каждый символ в виде изображения в оттенках серого и передавал его языковой модели. Задача модели заключалась в том, чтобы предсказать следующий символ.

Вам не нужно отличное зрение.

Если вы когда-либо снимали очки, чтобы читать, вы знаете, что размытый текст все равно читаем. Тот же принцип действует и здесь.

Взгляните на эти версии 人工智能 размером 8×8 пикселей (поднесите экран на расстояние вытянутой руки):

Изображение автора: различные кадрирования с разрешением 8×8 пикселей.

Каждый символ имеет размер 64 пикселя. И модель, обученная на входных данных с таким разрешением, показывает такие же результаты, как и модель, обученная на изображениях размером 80×80 пикселей.

Действительно, мы протестировали разрешения изображений от 4×4 до 80×80 и обнаружили, что: увеличение разрешения с 8×8 до 80×80 — в 100 раз больше пикселей — практически ничего не дает.

Результаты обрезки оказываются еще более поразительными и впечатляющими. При удалении 50% каждого символа точность падает менее чем на 2%. Модели не нужна вся четкая картина. Оказывается, ей достаточно структуры, чтобы определить, к какому радикальному семейству принадлежит тот или иной символ.

(Небольшое замечание по методологии: в приведенных выше примерах я разместил полные и обрезанные версии рядом, чтобы вы могли сравнить их. В реальных экспериментах каждое условие обучения полностью независимо — модель, обученная на обрезанных символах, никогда не видела полных символов.)

Эффект горячего старта

Итак, визуальная модель лучше текстовой?

В конечном итоге — нет. Оба подхода сходятся к практически одинаковой конечной точности. Но путь к цели выглядит совершенно по-разному, особенно начало.

После обработки всего 0,4% шагов обучения визуальная модель уже вдвое точнее, чем текстовая базовая модель.

Изображение предоставлено автором: ранняя динамика

Это то, что мы называем эффектом «горячего старта» . Визуальная модель начинает обучение, уже зная кое-что полезное: что слова «打», «拍» и «拉» выглядят похоже и, вероятно, ведут себя аналогично. Текстовая модель начинает с произвольных эмбеддингов и должна выяснить это с нуля.

Если вы посмотрите на пространство встраивания на этапе инициализации — до начала обучения — вы сразу увидите следующее:

На самом раннем этапе обучения видно, что символы, имеющие одинаковый радикал, группируются вместе. Косинусное сходство для пар символов с одинаковым радикалом: ~0,27 для визуальных вложений, ~0,002 для случайных токенов вложений.

Почему гонка закончилась ничьей

Вот в чем суть: визуальная априорная информация кодирует визуальное сходство, но не лингвистическое совпадение. Однако предсказание следующего символа в конечном итоге зависит от последнего.

Да, 打, 拍 и 拉 имеют общий 扌 и выглядят одинаково. Но в реальном тексте они могут появляться в самых разных контекстах — 打击犯罪 (борьба с преступностью), 拍摄照片 (фотосъемка), 拉动经济 (стимулирование экономики) и т. д. Как только текстовая модель получит достаточно данных для изучения этих закономерностей, визуальные априоры перестанут иметь значение.

Другими словами, визуальные данные запускают процесс оптимизации. Но, в общем, это не меняет информационный потолок.

Это всегда напоминает мне рассказ Теда Чанга «История твоей жизни» (послуживший основой для фильма «Прибытие»). В рассказе письменная и устная речь — это две независимые системы. Но в конечном итоге они служат одной и той же цели: общению. Два пути, одна цель.

Где это действительно важно

Несмотря на то, что пункт назначения один и тот же, существуют ситуации, когда это действительно имеет значение:

В условиях ограниченных ресурсов. Когда у вас мало обучающих данных, визуальное преимущество на старте превращается в реальное практическое превосходство. В наших экспериментах, имея всего 10 000 образцов, визуальные модели уже превосходят полностью обученную текстовую базовую модель на китайских эталонных тестах (C-eval).

Поврежденные исторические тексты. Это еще один интересный случай. Визуальный осмотр может помочь проверить классические китайские рукописи, поврежденные книги и рукописные документы, где отсутствуют или выцвели штрихи.

А что насчет вычислительных ресурсов?

Хорошие новости: практически никаких накладных расходов. Упрощенный визуальный кодировщик, который я использовал, на самом деле имеет меньше параметров, чем базовый текстовый кодировщик (12,6 млн против 19,0 млн). Накладные расходы на память: +1,3%. Таким образом, мы утверждаем, что визуальный априорный код практически бесплатен.

Краткий ответ

Является ли китайский язык визуально ориентированным в своей природе? Ответ, по-видимому, таков: вначале — да. К концу это уже не имеет значения.

Визуальная структура даёт моделям мощный старт. Это похоже на то, как человек, увидев слово «扌», сразу понимает, что находится в области действий, связанных с движениями рук. Но более глубокие языковые закономерности должны быть усвоены из данных. Оба способа представления позволяют усвоить их одинаково хорошо.

Статья опубликована на arxiv: https://arxiv.org/abs/2601.09566

Шуян Посмотреть все от Шуян

Источник: towardsdatascience.com

Оцените материал:

Оставить комментарий Отменить ответ

Для отправки комментария вам необходимо авторизоваться.

Является ли язык визуальным? Эксперимент с китайскими иероглифами.

Эксперимент: пиксели на входе, токены на выходе.

Вам не нужно отличное зрение.

Эффект горячего старта

Почему гонка закончилась ничьей

Где это действительно важно

Краткий ответ

Оставить комментарий Отменить ответ

🤖 Нельсон AI

Гайды, руководства и полезные статьи

Эксперимент: пиксели на входе, токены на выходе.

Вам не нужно отличное зрение.

Эффект горячего старта

Почему гонка закончилась ничьей

Где это действительно важно

Краткий ответ

Похожие записи

Похожие записи

Dreame выпустила фен с ароматизирующим кольцом

Три факта о будущем электроэнергии

Законопроект о запрете рекламы нелегальных онлайн-казино в интернете: новости, последние события и штрафы

Оставить комментарий Отменить ответ

Присоединяйтесь и подпишитесь на рассылку самых свежих новостей по Email

🤖 Нельсон AI