Можно ли интегрировать с WordPress?

Да, мы используем REST API и Application Passwords — без передачи логина и пароля. Все публикации идут от имени автора.

Работает ли ИИ с Telegram?

Полностью. ИИ может как читать каналы, так и публиковать в ваш канал. Также подключаем inline-ботов и формы сбора лидов.

Сколько времени занимает настройка?

От 3 до 7 дней. Зависит от сложности интеграции и количества источников.

Есть ли бесплатный демо-доступ?

Да, мы запускаем 5–7 дневный демо-доступ с тестовыми данными, чтобы вы увидели систему в работе.

Безопасна ли система?

Да. Все данные хранятся изолированно. Мы не используем их для обучения моделей. Поддерживаем шифрование и резервное копирование.

Что входит в поддержку?

Обновление агентов, добавление источников, исправление ошибок, масштабирование. Поддержка 24/7 по Telegram или email.

От пикселей к смыслу: как SVG помогает ИИ понимать мир

Ноя 9, 2025 0

Содержание

Современные визуально-языковые модели видят картинку как массив пикселей. Но чтобы по-настоящему понимать картинку, им нужно работать не с пикселями, а с символами — как с кодом. Это хорошо работает с распознаванием изображений, но плохо — для использования изображения в контексте при работе с LLM. Также понятно, что пиксели не всегда корректно расскажут нам о связях между объектами и о том, сколько чего находится на картинке.

Исследователи предлагают перевод изображения в SVG-код, который будет более информативен и будет содержать структурированные данные по картинке. SVG-код обычно компактен, легко читается и выполняется, а самое важное — что SVG-код легко проверить, запустив его.

VCode: RGB‑изображение переводится VLM‑кодером в символьный SVG‑код и обратно рендерится в изображение, сохраняя смысл

Что придумали авторы

Авторы предлагают бенчмарк визуального кодирования под названием VCode. Он оценивает, насколько хорошо модель генерирует SVG-код по изображению, сохраняя при этом символьную структуру исходной сцены (описание объектов и их отношений в виде кода). Тут важно понимать, что задача — не просто скопировать картинку в SVG, а перенести именно символьную структуру, объекты, их сигнатуры и относительное положение, а также порядок в глубине сцены.

Также авторы предлагают метод CodeVQA для оценки визуального кодирования методом суррогатного выполнения. В этом методе по картинке нужно сгенерировать SVG-код, но уже по отрендеренному SVG-изображению нужно ответить на поставленный вопрос. То есть, если ответ совпал с исходным, значит, модель хорошо перенесла символику сцены.

Авторы используют агента VCoder, который применяет две ключевые стратегии поверх современных визуально-языковых моделей:

Размышление с ревизией: Модель генерирует SVG-код, рендерит его и сравнивает с оригиналом, пошагово правя то, что получилось. Такой метод позволяет избежать некой «слепоты» и с первого раза сгенерировать максимально похожий по структуре код.
Действие с помощью визуальных инструментов: Это использование различных сегментаторов, детекторов и OCR. Например, можно подключить детектор объектов Florence-2, который скажет, где какие объекты и их категории. Сегментатор Sam-2 выдает маску в виде полигона на объекты. Также используется OpenOCR, чтобы детектировать текст на картинке и определить, где он находится. Далее весь полученный контекст превращается в SVG-элементы.

Усиление агентов-кодеров ревизией и визуальными инструментами

VCode собирает задачи из трёх доменов: MM-Vet (общий визуальный здравый смысл), MMMU (различные дисциплины на основе изображений) и CV-Bench (способности в области восприятия). В итоге получается 464 задачи, где по картинке нужно ответить на вопрос.

При этом оценки проводятся с помощью CodeVQA, то есть чем больше правильных ответов, тем лучше. Также оценивают SigLip score — косинусное сходство между эмбеддингами оригинального изображения и рендера из SVG.

Что получилось в итоге

Модели всё ещё плохо генерируют SVG-код, особенно сохраняя в нём символику. Для базовой оценки авторы берут gpt-5. Они получают SigLIP — 72.3 и Overall CodeVQA — 46.8, что ниже, чем если бы оценка шла по оригинальному изображению (61.7). Есть куда расти.

VCoder на базе Claude-4-Opus даёт лучший результат — финальная оценка равна 54. Прирост особенно заметен на MM-Vet (+16.7), а также есть прирост в других доменах, включая MMMU (+6.2) и CV-Bench (+11.4).

В абляции видно, что каждый подключаемый визуальный инструмент даёт прирост. Детекция объектов даёт больше семантики и точного положения, маска хорошо сохраняет пространственное расположение, а OCR важен для задач, завязанных на тексте.

Важна и итеративная ревизия: первая итерация почти всегда улучшает результат, а дальше всё зависит от «терпения» модели.

Другая интересная часть — это длина SVG-кода. Замечено, что чем он короче, тем хуже: видимо, он более беден по символьным объектам. Системы, которые переносят больше объектов и их отношения, показывают лучшую производительность. При этом финальный SVG-код может быть больше 2 тыс. токенов.

Показательные примеры

На MM-Vet труднее всего вопросы в области знаний, где нужно подключить больше контекста: культуру, историю — и чтобы это всё не потерялось при переводе в код.

В MMMU всё держится на правильном переносе логики формул, схем, подписей и графиков — тут выручает OCR и правильное сохранение геометрии.

На CV-Bench порой важны 3D-подсказки — глубина и близость. Символьный слой должен отразить порядок по глубине или относительные расстояния.

Выводы

SVG-код — это рабочий формат для рассуждений и действий: код можно править, исполнять, накладывать инструменты, вести диалог с промптом через ревизии.

Итого исследование показывает большую пропасть между текстовым кодом и визуальным кодированием. Исследователи предлагают удобные бенчмарки, чтобы это мерить, а также подтверждают, что комбинация ревизий и подключаемых инструментов (сегментаторов и OCR) улучшает перенос смыслов из пикселей. Следующим шагом будет обучение специализированных моделей для визуального кодирования end-to-end.

Переход от пикселей к коду — это шаг к тому, чтобы ИИ не просто «видел» картинку, а по-настоящему понимал её как систему смыслов и отношений между объектами.

📜 Полная статья

💾 Код

***
Если вам интересны ИИ-исследования — подписывайтесь на Telegram-канал Dataism Science Hub. Там я ежедневно простыми словами обозреваю лучшие научные работы из лабораторий со всего мира — так вы будете в курсе последних ИИ-технологий, их возможностей и ограничений.

Источник: habr.com

✅ Найденные теги: новости, От

Метки:

новости От

ПРЕДЫДУЩАЯ ЗАПИСЬ

09.11.2025

Клетки стали курьерами технологий: микрочипы путешествуют по телу, как цифровые врачи

СЛЕДУЮЩАЯ ЗАПИСЬ

09.11.2025

Apple обвинила новые законы Евросоюза в противоречии

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

Еще новости рубрики

Архив рубрики ~Обо всем~

Фантазии

Июл 2, 2024

Архив рубрики ~Обо всем~

Мировоззрение

Июл 2, 2024

Архив рубрики ~Обо всем~

Влияние выдумщиков и фантазеров на развитие…

Июл 2, 2024

Архив рубрики ~Обо всем~

Нет ничего невозможного

Июл 2, 2024

Присоединяйтесь
к нам в

TELEGRAM

галерея

Фото сгенерированных лиц: исследование показывает, что люди не могут отличить настоящие лица от сгенерированных

Нейросети построили капитализм за трое суток: 100 агентов Claude заперли…

Скетч: цифровой осьминог и виртуальный мир внутри компьютера с человечком.

Сцена с жестами пальцами, где один жест символизирует "VPN", а другой "KHP".

‼️Paramount купила Warner Bros. Discovery — сумма сделки составила безумные…

Скриншот репозитория GitHub "Claude Scientific Skills" AI для научных исследований.

Структура эффективного запроса Claude с элементами задачи, контекста и референса.

Эскиз и готовая веб-страница платформы для AI-дизайна в современном темном режиме.

НОВОСТИ ДРУГИХ РУБРИК

Звёздное небо с галактиками и туманностями, космос, Вселенная, астрофотография.

Архив рубрики ~Лента новостей~

Система оповещения обсерватории Рубина отправила 800 000 сигналов в первую ночь наблюдений.

Астрономы будут получать оповещения о небесных явлениях в течение нескольких минут после их обнаружения. Теренс О'Брайен, редактор раздела «Выходные». Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной…

ЧИТАТЬ

Мар 2, 2026

Женщина с длинными тёмными волосами в синем свете, нейтральный фон.

Архив рубрики ~Лента новостей~

Расследование в отношении 61-фунтовой машины, которая «пожирает» пластик и выплевывает кирпичи.

Обзор компактного пресса для мягкого пластика Clear Drop — и что будет дальше. Шон Холлистер, старший редактор Публикации этого автора будут добавляться в вашу ежедневную рассылку по электронной почте и в ленту новостей на главной странице вашего…

ЧИТАТЬ

Мар 2, 2026

Черный углеродное волокно с текстурой плетения, отражающий свет.

Архив рубрики ~Лента новостей~

Материал будущего: как работает «бессмертный» композит

Учёные из Университета штата Северная Каролина представили композит нового поколения, способный самостоятельно восстанавливаться после серьёзных повреждений. Речь идёт о модифицированном армированном волокном полимере (FRP), который не просто сохраняет прочность при малом весе, но и способен «залечивать» внутренние…

ЧИТАТЬ

Мар 2, 2026

Круглый экран с изображением замка и горы, рядом электронная плата.

Архив рубрики ~Лента новостей~

Круглый дисплей Waveshare для креативных проектов

Круглый 7-дюймовый сенсорный дисплей от Waveshare создан для разработчиков и дизайнеров, которым нужен нестандартный экран. Это IPS-панель с разрешением 1 080×1 080 пикселей, поддержкой 10-точечного ёмкостного сенсора, оптической склейкой и защитным закалённым стеклом, выполненная в круглом форм-факторе.…

ЧИТАТЬ

Мар 2, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых

ИдеиPRO

От пикселей к смыслу: как SVG помогает ИИ понимать мир

Что придумали авторы

Что получилось в итоге

Показательные примеры

Выводы

Похожие записи

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ Отменить ответ

Еще новости рубрики

Присоединяйтесь к нам в

Рубрики

галерея

НОВОСТИ ДРУГИХ РУБРИК

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ
Отменить ответ

Присоединяйтесь
к нам в