Архив рубрики ~Обо всем~

Является ли язык визуальным? Эксперимент с китайскими иероглифами.

Является ли язык визуальным? Эксперимент с китайскими иероглифами.

История о сломанном принтере, визуально-индуктивном искажении и о том, почему гонка закончилась ничьей.

Делиться

Изображение: 五玄土 ORIENTO

В прошлом году на китайской социальной платформе Douban широко обсуждался пост о сломанном принтере. Владелец принтера отметил, что когда в принтере заканчивались чернила, на каждом символе печаталась только верхняя половина. И тем не менее, текст оставался полностью читаемым.

Посмотрите на эти три версии 人工智能 («искусственный интеллект»):

33faeeae04f89f9131cdd80e0b2e3ef7
Изображение автора: четыре персонажа с разным ракурсом.

Все три символа можно прочитать мгновенно: полный текст, 80% сохранено, 50% сохранено. Это не уловка — это, вероятно, фундаментальная особенность китайской системы.

Одно уточнение: 80% и 50% относятся к доле самого изображения, а не отдельных символов. Учитывая, что каждый символ занимает разное количество пикселей в изображении, мы просто обрезаем изображение по горизонтали на фиксированной высоте.

Это заставило меня задуматься: является ли язык — по крайней мере, китайский — по своей сути визуальным? Я несколько дней размышлял над этим и, наконец, решил выяснить это известным мне способом: обучить несколько языковых моделей и посмотреть, что произойдет на самом деле.

Эксперимент: пиксели на входе, токены на выходе.

Любая языковая модель сначала должна справиться с токенизацией. Основная идея такова: компьютеры не понимают текст, поэтому мы присваиваем каждому слову или символу идентификатор, то есть число. Например, символ 你 становится 100, 好 становится 3 и т. д. После этого языковая модель обучается всему с нуля.

В этом смысле, когда вы сводите такие иероглифы, как 山 (гора) и 水 (вода), к простым целым числам, вы теряете их форму. А китайские иероглифы обладают прекрасной формой — конфигурациями штрихов, радикальными компонентами, пространственным расположением, несущим реальную информацию. Другой пример: 打 (ударить), 拍 (похлопать) и 拉 (тянуть) имеют общий радикал 扌 (рука). Вы сводите их к идентификаторам 423, 1089 и 2341, и эта связь исчезает.

Поэтому вместо идентификаторов токенов я отображал каждый символ в виде изображения в оттенках серого и передавал его языковой модели. Задача модели заключалась в том, чтобы предсказать следующий символ.

Вам не нужно отличное зрение.

Если вы когда-либо снимали очки, чтобы читать, вы знаете, что размытый текст все равно читаем. Тот же принцип действует и здесь.

Взгляните на эти версии 人工智能 размером 8×8 пикселей (поднесите экран на расстояние вытянутой руки):

ca2dbaea6c0bf88155f5f1d8ca1a308a
Изображение автора: различные кадрирования с разрешением 8×8 пикселей.

Каждый символ имеет размер 64 пикселя. И модель, обученная на входных данных с таким разрешением, показывает такие же результаты, как и модель, обученная на изображениях размером 80×80 пикселей.

Действительно, мы протестировали разрешения изображений от 4×4 до 80×80 и обнаружили, что: увеличение разрешения с 8×8 до 80×80 — в 100 раз больше пикселей — практически ничего не дает.

Результаты обрезки оказываются еще более поразительными и впечатляющими. При удалении 50% каждого символа точность падает менее чем на 2%. Модели не нужна вся четкая картина. Оказывается, ей достаточно структуры, чтобы определить, к какому радикальному семейству принадлежит тот или иной символ.

(Небольшое замечание по методологии: в приведенных выше примерах я разместил полные и обрезанные версии рядом, чтобы вы могли сравнить их. В реальных экспериментах каждое условие обучения полностью независимо — модель, обученная на обрезанных символах, никогда не видела полных символов.)

Эффект горячего старта

Итак, визуальная модель лучше текстовой?

В конечном итоге — нет. Оба подхода сходятся к практически одинаковой конечной точности. Но путь к цели выглядит совершенно по-разному, особенно начало.

После обработки всего 0,4% шагов обучения визуальная модель уже вдвое точнее, чем текстовая базовая модель.

f8365bd333ed1b1ecd1c4492610120f4
Изображение предоставлено автором: ранняя динамика

Это то, что мы называем эффектом «горячего старта» . Визуальная модель начинает обучение, уже зная кое-что полезное: что слова «打», «拍» и «拉» выглядят похоже и, вероятно, ведут себя аналогично. Текстовая модель начинает с произвольных эмбеддингов и должна выяснить это с нуля.

Если вы посмотрите на пространство встраивания на этапе инициализации — до начала обучения — вы сразу увидите следующее:

3c74f31056fdfb6b96779689d3b12e70

На самом раннем этапе обучения видно, что символы, имеющие одинаковый радикал, группируются вместе. Косинусное сходство для пар символов с одинаковым радикалом: ~0,27 для визуальных вложений, ~0,002 для случайных токенов вложений.

Почему гонка закончилась ничьей

Вот в чем суть: визуальная априорная информация кодирует визуальное сходство, но не лингвистическое совпадение. Однако предсказание следующего символа в конечном итоге зависит от последнего.

Да, 打, 拍 и 拉 имеют общий 扌 и выглядят одинаково. Но в реальном тексте они могут появляться в самых разных контекстах — 打击犯罪 (борьба с преступностью), 拍摄照片 (фотосъемка), 拉动经济 (стимулирование экономики) и т. д. Как только текстовая модель получит достаточно данных для изучения этих закономерностей, визуальные априоры перестанут иметь значение.

Другими словами, визуальные данные запускают процесс оптимизации. Но, в общем, это не меняет информационный потолок.

Это всегда напоминает мне рассказ Теда Чанга «История твоей жизни» (послуживший основой для фильма «Прибытие»). В рассказе письменная и устная речь — это две независимые системы. Но в конечном итоге они служат одной и той же цели: общению. Два пути, одна цель.

Где это действительно важно

Несмотря на то, что пункт назначения один и тот же, существуют ситуации, когда это действительно имеет значение:

В условиях ограниченных ресурсов. Когда у вас мало обучающих данных, визуальное преимущество на старте превращается в реальное практическое превосходство. В наших экспериментах, имея всего 10 000 образцов, визуальные модели уже превосходят полностью обученную текстовую базовую модель на китайских эталонных тестах (C-eval).

Поврежденные исторические тексты. Это еще один интересный случай. Визуальный осмотр может помочь проверить классические китайские рукописи, поврежденные книги и рукописные документы, где отсутствуют или выцвели штрихи.

А что насчет вычислительных ресурсов?

Хорошие новости: практически никаких накладных расходов. Упрощенный визуальный кодировщик, который я использовал, на самом деле имеет меньше параметров, чем базовый текстовый кодировщик (12,6 млн против 19,0 млн). Накладные расходы на память: +1,3%. Таким образом, мы утверждаем, что визуальный априорный код практически бесплатен.

Краткий ответ

Является ли китайский язык визуально ориентированным в своей природе? Ответ, по-видимому, таков: вначале — да. К концу это уже не имеет значения.

Визуальная структура даёт моделям мощный старт. Это похоже на то, как человек, увидев слово «扌», сразу понимает, что находится в области действий, связанных с движениями рук. Но более глубокие языковые закономерности должны быть усвоены из данных. Оба способа представления позволяют усвоить их одинаково хорошо.

Статья опубликована на arxiv: https://arxiv.org/abs/2601.09566

Шуян Посмотреть все от Шуян

Источник: towardsdatascience.com

✅ Найденные теги: Визуальным, Китайскими, новости, Эксперимент, Является, язык
Читайте также
Архив рубрики ~Лента новостей~ Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул Архив рубрики ~Лента новостей~ Несмотря на вмешательство США, репрессии против технологических платформ будут продолжены, заявили в канцелярии премьер-министра. Архив рубрики ~Лента новостей~ Терминатор до сих пор самое технически точное описание ИИ, а Detroit: Become Human научное фэнтези Архив рубрики ~Лента новостей~ Газета утверждает, что «астероид», к которому приближается японский зонд, на самом деле является заброшенным космическим кораблем Архив рубрики ~Лента новостей~ Сооснователь xAI Игорь Бабушкин запустил стартап River AI — он будет разрабатывать персонализированных ИИ-агентов Архив рубрики ~Лента новостей~ Поколение «Approve»: почему я заставил команду переписать проект, который уже работал Архив рубрики ~Идей копилка~ AI-агент персонального здоровья: как носимые устройства и искусственный интеллект меняют предиктивную медицину Архив рубрики ~Лента новостей~ Суд постановил, что для поиска в интернете никому не нужен искусственный интеллект, вынося решение против Google. Архив рубрики ~Лента новостей~ Южная Корея оштрафовала компанию Coupang на сумму более 400 миллионов долларов за утечку данных, затронувшую миллионы людей. Архив рубрики ~Лента новостей~ Кабель ASUS ROG Equalizer должен был спасти 12V-2×6 от плавления, но сам сгорел Архив рубрики ~Полезное~ Клавиатуры, тёмные темы и культура программистов Архив рубрики ~Лента новостей~ Наведение курсора для избежания обнаружения Архив рубрики ~Лента новостей~ Компания Equal AI привлекла 30 миллионов долларов для обработки звонков, чтобы индийцам не приходилось этого делать. Архив рубрики ~Лента новостей~ Делаем базу знаний и Телеграм бота психотерапевта, с использованием LLM Wiki и CF Workers вот такой заголовок Архив рубрики ~Лента новостей~ Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинул Архив рубрики ~Лента новостей~ Несмотря на вмешательство США, репрессии против технологических платформ будут продолжены, заявили в канцелярии премьер-министра. Архив рубрики ~Лента новостей~ Терминатор до сих пор самое технически точное описание ИИ, а Detroit: Become Human научное фэнтези Архив рубрики ~Лента новостей~ Газета утверждает, что «астероид», к которому приближается японский зонд, на самом деле является заброшенным космическим кораблем Архив рубрики ~Лента новостей~ Сооснователь xAI Игорь Бабушкин запустил стартап River AI — он будет разрабатывать персонализированных ИИ-агентов Архив рубрики ~Лента новостей~ Поколение «Approve»: почему я заставил команду переписать проект, который уже работал Архив рубрики ~Идей копилка~ AI-агент персонального здоровья: как носимые устройства и искусственный интеллект меняют предиктивную медицину Архив рубрики ~Лента новостей~ Суд постановил, что для поиска в интернете никому не нужен искусственный интеллект, вынося решение против Google. Архив рубрики ~Лента новостей~ Южная Корея оштрафовала компанию Coupang на сумму более 400 миллионов долларов за утечку данных, затронувшую миллионы людей. Архив рубрики ~Лента новостей~ Кабель ASUS ROG Equalizer должен был спасти 12V-2×6 от плавления, но сам сгорел Архив рубрики ~Полезное~ Клавиатуры, тёмные темы и культура программистов Архив рубрики ~Лента новостей~ Наведение курсора для избежания обнаружения Архив рубрики ~Лента новостей~ Компания Equal AI привлекла 30 миллионов долларов для обработки звонков, чтобы индийцам не приходилось этого делать. Архив рубрики ~Лента новостей~ Делаем базу знаний и Телеграм бота психотерапевта, с использованием LLM Wiki и CF Workers вот такой заголовок

Оставить комментарий