От пикселей к смыслу: как SVG помогает ИИ понимать мир

Ноя 9, 2025 0

Современные визуально-языковые модели видят картинку как массив пикселей. Но чтобы по-настоящему понимать картинку, им нужно работать не с пикселями, а с символами — как с кодом. Это хорошо работает с распознаванием изображений, но плохо — для использования изображения в контексте при работе с LLM. Также понятно, что пиксели не всегда корректно расскажут нам о связях между объектами и о том, сколько чего находится на картинке.

Исследователи предлагают перевод изображения в SVG-код, который будет более информативен и будет содержать структурированные данные по картинке. SVG-код обычно компактен, легко читается и выполняется, а самое важное — что SVG-код легко проверить, запустив его.

VCode: RGB‑изображение переводится VLM‑кодером в символьный SVG‑код и обратно рендерится в изображение, сохраняя смысл

Что придумали авторы

Авторы предлагают бенчмарк визуального кодирования под названием VCode. Он оценивает, насколько хорошо модель генерирует SVG-код по изображению, сохраняя при этом символьную структуру исходной сцены (описание объектов и их отношений в виде кода). Тут важно понимать, что задача — не просто скопировать картинку в SVG, а перенести именно символьную структуру, объекты, их сигнатуры и относительное положение, а также порядок в глубине сцены.

Также авторы предлагают метод CodeVQA для оценки визуального кодирования методом суррогатного выполнения. В этом методе по картинке нужно сгенерировать SVG-код, но уже по отрендеренному SVG-изображению нужно ответить на поставленный вопрос. То есть, если ответ совпал с исходным, значит, модель хорошо перенесла символику сцены.

Авторы используют агента VCoder, который применяет две ключевые стратегии поверх современных визуально-языковых моделей:

Размышление с ревизией: Модель генерирует SVG-код, рендерит его и сравнивает с оригиналом, пошагово правя то, что получилось. Такой метод позволяет избежать некой «слепоты» и с первого раза сгенерировать максимально похожий по структуре код.
Действие с помощью визуальных инструментов: Это использование различных сегментаторов, детекторов и OCR. Например, можно подключить детектор объектов Florence-2, который скажет, где какие объекты и их категории. Сегментатор Sam-2 выдает маску в виде полигона на объекты. Также используется OpenOCR, чтобы детектировать текст на картинке и определить, где он находится. Далее весь полученный контекст превращается в SVG-элементы.

Усиление агентов-кодеров ревизией и визуальными инструментами

VCode собирает задачи из трёх доменов: MM-Vet (общий визуальный здравый смысл), MMMU (различные дисциплины на основе изображений) и CV-Bench (способности в области восприятия). В итоге получается 464 задачи, где по картинке нужно ответить на вопрос.

При этом оценки проводятся с помощью CodeVQA, то есть чем больше правильных ответов, тем лучше. Также оценивают SigLip score — косинусное сходство между эмбеддингами оригинального изображения и рендера из SVG.

Что получилось в итоге

Модели всё ещё плохо генерируют SVG-код, особенно сохраняя в нём символику. Для базовой оценки авторы берут gpt-5. Они получают SigLIP — 72.3 и Overall CodeVQA — 46.8, что ниже, чем если бы оценка шла по оригинальному изображению (61.7). Есть куда расти.

VCoder на базе Claude-4-Opus даёт лучший результат — финальная оценка равна 54. Прирост особенно заметен на MM-Vet (+16.7), а также есть прирост в других доменах, включая MMMU (+6.2) и CV-Bench (+11.4).

В абляции видно, что каждый подключаемый визуальный инструмент даёт прирост. Детекция объектов даёт больше семантики и точного положения, маска хорошо сохраняет пространственное расположение, а OCR важен для задач, завязанных на тексте.

Важна и итеративная ревизия: первая итерация почти всегда улучшает результат, а дальше всё зависит от «терпения» модели.

Другая интересная часть — это длина SVG-кода. Замечено, что чем он короче, тем хуже: видимо, он более беден по символьным объектам. Системы, которые переносят больше объектов и их отношения, показывают лучшую производительность. При этом финальный SVG-код может быть больше 2 тыс. токенов.

Показательные примеры

На MM-Vet труднее всего вопросы в области знаний, где нужно подключить больше контекста: культуру, историю — и чтобы это всё не потерялось при переводе в код.

В MMMU всё держится на правильном переносе логики формул, схем, подписей и графиков — тут выручает OCR и правильное сохранение геометрии.

На CV-Bench порой важны 3D-подсказки — глубина и близость. Символьный слой должен отразить порядок по глубине или относительные расстояния.

Выводы

SVG-код — это рабочий формат для рассуждений и действий: код можно править, исполнять, накладывать инструменты, вести диалог с промптом через ревизии.

Итого исследование показывает большую пропасть между текстовым кодом и визуальным кодированием. Исследователи предлагают удобные бенчмарки, чтобы это мерить, а также подтверждают, что комбинация ревизий и подключаемых инструментов (сегментаторов и OCR) улучшает перенос смыслов из пикселей. Следующим шагом будет обучение специализированных моделей для визуального кодирования end-to-end.

Переход от пикселей к коду — это шаг к тому, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её как систему смыслов и отношений между объектами.

📜 Полная статья

💾 Код

***
Если вам интересны ИИ-исследования — подписывайтесь на Telegram-канал Dataism Science Hub. Там я ежедневно простыми словами обозреваю лучшие научные работы из лабораторий со всего мира — так вы будете в курсе последних ИИ-технологий, их возможностей и ограничений.

Источник: habr.com

Метки:

новости От

ПРЕДЫДУЩАЯ ЗАПИСЬ

09.11.2025

Клетки стали курьерами технологий: микрочипы путешествуют по телу, как цифровые врачи

СЛЕДУЮЩАЯ ЗАПИСЬ

09.11.2025

Apple обвинила новые законы Евросоюза в противоречии

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

Биофизический мир внутри переполненной клетки

Появились новые доказательства того, как одиночество влияет на память в пожилом возрасте.

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

«Слишком сложно и дорого»: могли ли американцы сымитировать полет к Луне с помощью ИИ

L-эрготиоин: антиоксидант, содержащийся в грибах, может воздействовать на клетки матки, облегчая менструальные боли.

НОВОСТИ ДРУГИХ РУБРИК

Архив рубрики ~Лента новостей~

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

19 февраля 2026 года прошло заседание Методического совета, посвященное теме «“Рожденные цифровыми” как субъекты учения: специфика и ее учет в преподавании». В мероприятии участвовали члены Методсовета, проректор по учебной работе, начальник УМУ, а также коллеги с филологического,…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

СОСТОЯЛОСЬ ЗАСЕДАНИЕ МЕТОДИЧЕСКОГО СОВЕТА, ПОСВЯЩЕННОЕ ПОКОЛЕНИЮ «РОЖДЕННЫХ ЦИФРОВЫМИ»

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

NVIDIA ReSTIR PR Enhanced повышает производительность трассировки пути в три раза

Исследователи NVIDIA пытаются найти способы повысить производительность ресурсозатратной трассировки пути, которая по сей день остаётся очень тяжёлой нагрузкой даже для лучших игровых видеокарт. К счастью, им удалось найти один из вариантов, как можно не только поднять FPS,…

ЧИТАТЬ

Апр 21, 2026

Архив рубрики ~Лента новостей~

Многоразовая ракета New Glenn компании Blue Origin успешно приземлилась, но доставка полезной нагрузки не удалась.

Однако ей не удалось доставить полезную нагрузку с космической вышки сотовой связи. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Апр 20, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

От пикселей к смыслу: как SVG помогает ИИ понимать мир

Что придумали авторы

Что получилось в итоге

Показательные примеры

Выводы

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

Присоединяйтесь
к нам в