Таблица: сравнение моделей сегментации по IOU, Teacher 94.3%, Edge 92.8%.

Представляем интерактивную сегментацию на устройстве в Snapseed.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Новая мобильная технология, которая обеспечивает сегментацию изображений в реальном времени, тем самым улучшая пользовательский опыт редактирования фотографий в Snapseed.

Быстрые ссылки

Ключ к улучшению хорошей фотографии часто кроется в выборочной коррекции изображения: осветлении объекта на переднем плане, усилении неба или выделении цвета куртки. Однако выделение отдельных элементов с помощью существующих инструментов, предлагающих выбор объекта, фона, неба или цвета, остается сложной и трудоемкой задачей. Эта проблема особенно остро стоит на мобильных устройствах, где неточный сенсорный ввод и ограниченные возможности обработки делают детальный выбор и редактирование очень сложными.

Теперь мы сделали редактирование изображений на основе объектов быстрым и простым. Новая кисть для объектов в Snapseed на iOS, доступная в инструменте «Настройка», теперь позволяет интуитивно редактировать объекты. Она позволяет просто обвести объект, который вы хотите отредактировать, а затем настроить его внешний вид отдельно от остальной части изображения. Попробуйте, ведь мы внедряем эту новую функцию на следующей неделе!

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Выборочное редактирование с помощью кисти «Объект» в Snapseed.

Интуитивно понятное редактирование с помощью интерактивной сегментации на устройстве.

В основе Object Brush лежит наш интерактивный сегментатор — мощная модель искусственного интеллекта, работающая полностью на устройстве. Простым жестом — всего лишь касанием или быстрой линией — вы можете выбрать объект или человека в кадре. Затем модель немедленно обнаружит и выберет весь объект или человека менее чем за 20 мс. Модель создаст маску для объекта, которая точно соответствует его границам, будь то человек, домашнее животное или облака на небе. Эта обратная связь в реальном времени позволяет вам быстро уточнять выделение, легко добавляя или удаляя области, пока не добьетесь нужного результата. Весь этот процесс обеспечивается ускорением GPU от MediaPipe и LiteRT для быстрой и бесперебойной работы.

Это мощное сочетание простого, интуитивно понятного пользовательского интерфейса и эффективной модели машинного обучения делает продвинутую обработку фотографий более доступной, приятной и точной, чем когда-либо прежде, и все это работает без сбоев на вашем собственном устройстве.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Используйте подсказки переднего плана (зеленые) для выделения частей изображения и подсказки заднего плана (красные) для уточнения выделения.

Обучение модели интерактивного сегментатора

Модель интерактивного сегментирования разработана как универсальная модель сегментации, не ограничивающаяся каким-либо конкретным классом объектов или сцен. Чтобы избежать необходимости аннотирования больших объемов данных для охвата всех областей, мы выбрали подход Big Transfer и использовали общий предварительно обученный кодировщик изображений для псевдоаннотирования в дополнение к небольшому количеству изображений, аннотированных вручную.

Преподаватель интерактивного сегментатора

Мы начали с предварительно обученной и хорошо обобщаемой модели, доработанной для интерактивной сегментации. Мы взяли образцы для более чем 350 различных категорий объектов и попросили аннотаторов точно аннотировать маски объектов с точностью до пикселя. В результате мы получили около 30 000 высококачественных масок изображений для этих категорий. Хотя этого недостаточно для прямого обучения небольшой мобильной модели, большие предварительно обученные модели могут быть успешно доработаны на этих данных для прогнозирования масок с высокой точностью. Используя этот набор данных, мы обучили модель интерактивной сегментации, которую мы назвали «Интерактивный сегментатор: Учитель».

Интерактивный сегментатор: Учитель создает высококачественные маски сегментации; однако его скорость и размер ограничивают его использование в сценариях работы на устройстве. Для решения этой проблемы мы разработали «Интерактивный сегментатор: Край» — специализированную модель, адаптированную для использования на устройстве, используя знания, полученные из оригинальной модели «Интерактивный сегментатор: Учитель».

Дистилляция

Поскольку модель, используемая на устройстве, значительно меньше по размеру, она обладает ограниченными возможностями обобщения, а 30 000 аннотированных изображений, которые мы использовали для тонкой настройки, недостаточно для обучения новой модели. В то же время небольшой размер модели означает, что мы не увидим существенных улучшений от предварительного обучения в различных областях или задачах.

Для переноса знаний из Interactive Segmenter: Teacher в Interactive Segmenter: Edge нам необходимы миллионы изображений и реалистичные подсказки для широкого спектра категорий объектов. Поэтому мы использовали большой, слабо аннотированный набор данных, содержащий более 2 миллионов изображений с масками из сотен различных категорий.

Таблица, сравнивающая модели Interactive Segmenter: Edge и Interactive Segmenter: Teacher с использованием метрики IOU.

Интерактивный сегментатор: Ребро обеспечивает качество, аналогичное интерактивному сегментатору: Учитель, для заданного фиксированного входного запроса, измеряемое с помощью метрики пересечения над объединением (IOU).

Генерация подсказок

Маски сегментации в наборе данных для дистилляции не являются идеально точными по пикселям, поскольку они были сгенерированы с помощью автоматизированных или полуавтоматизированных процедур и не идеально подходят для обучения высококачественных сегментаторов. Тем не менее, они подходят для создания реалистичных подсказок для интерактивной сегментации. В этом процессе эталонная маска создается в режиме реального времени с помощью Interactive Segmenter: Teacher, который выступает в качестве модели-учителя в процессе, известном как дистилляция знаний. Важно отметить, что как модель-учитель, так и модель-ученик используют одни и те же подсказки во время обучения, обеспечивая согласованность между моделями.

Мы пытаемся имитировать выбор пользователем объектов на изображении. Мы рисуем случайные каракули внутри (размытой) маски истинности, чтобы получить подсказки для переднего плана (т.е. то, что пользователь хочет выбрать, показано красным на изображении ниже), и случайные каракули за пределами маски истинности, чтобы получить подсказки для заднего плана (т.е. то, что пользователь явно не хочет выбирать, показано синим). Мы имитируем касание, рисуя случайные точки, а также случайные каракули. Кроме того, для поддержки выделения с помощью лассо мы также предоставляем модели во время обучения подсказки в виде рамок вокруг объекта.

Схема обучения учителя и ученика работе с интерактивным сегментатором.

Используя модель-учитель, мы можем обучать модель на данных с низкокачественными эталонными аннотациями, что позволяет снизить затраты на разметку без ущерба для качества модели.

Высокое качество против низкой задержки

Одной из главных задач было согласование противоречивых требований к качеству сегментации и интерактивной задержке в реальном времени. Для достижения оптимального баланса мы разделили понимание изображения и подсказок на отдельные подмодели. Во-первых, мощный, ресурсоемкий кодировщик изображений запускается один раз для каждого изображения, чтобы извлечь богатый набор семантических признаков. Этот кодировщик изображений может быть запущен, как только становится очевидным намерение пользователя использовать интерактивную сегментацию, тем самым эффективно скрывая задержку от пользователя. Во-вторых, легковесный интерактивный кодировщик-декодер работает с этими предварительно вычисленными признаками. Эта сеть принимает подсказки пользователя и генерирует окончательную маску сегментации, выполняясь значительно быстрее, чем предусмотрено нашим бюджетом в 20 мс. Такое разделение на две модели позволяет Interactive Segmenter использовать возможности понимания изображения, присущие большой модели, обеспечивая при этом мгновенную реакцию, характерную для небольшой модели.

Схема архитектуры интерактивной сегментирующей нейронной сети.

Архитектура интерактивной нейронной сети сегментатора.

Таблица, показывающая задержку при выполнении модели во время работы интерактивного сегментатора Edge на устройстве.

Задержка при выполнении модели в режиме реального времени при работе с интерактивным сегментатором: Edge на устройстве.

Финальные модели, созданные студентами (кодировщик + супердекодер), квантуются до 8 бит, и обе работают с использованием ускорения GPU LiteRT с задержкой вывода декодера 7,4 мс на iPhone 16 Pro, что обеспечивает плавное и интуитивно понятное редактирование изображений.

увеличение размера маски изображения

Для сохранения наилучшего качества редактирования изображений высокого разрешения нам необходимы сегментационные маски высокого разрешения. Для этого мы обучаем нашу модель сегментации предсказывать маску с разрешением 768×768 и дополнительно увеличиваем ее разрешение до разрешения изображения (ограниченного 4k, чтобы оно поместилось в один буфер GPU). Мы используем эффективную реализацию метода двустороннего увеличения разрешения с сохранением границ на GPU. Для уменьшения задержки мы применяем увеличение разрешения только после того, как пользователь завершит жест, отпустив палец.

Сравнение исходной маски интерактивного сегментатора и маски с увеличенным разрешением.

Исходная маска интерактивного сегментатора ( слева ) и маска с увеличенным разрешением ( справа ).

Заключение

Благодаря новому интерактивному сегментатору в Snapseed редактирование изображений стало проще и эффективнее, чем когда-либо. Простые касания и движения преобразуются в точные выделения, позволяя пользователям воплощать свои идеи редактирования в реальность. Скачайте Snapseed для iOS здесь и позвольте вашим фотографиям засиять. Функция «Кисть объекта» будет внедрена в другие инструменты Snapseed в ближайшие месяцы. Базовая модель обеспечивает широкий спектр задач редактирования и обработки изображений и служит фундаментальной технологией для интуитивного выборочного редактирования. Она также была включена в новый Chromebook Plus 14 для работы с ИИ при редактировании изображений в приложении «Галерея». Далее мы планируем интегрировать ее в большее количество продуктов Google для редактирования изображений и творческой работы.

Благодарности

Особая благодарность всем участникам, работавшим над технической частью проекта: Валентину Базаревскому, Даниэлю Феннеру, Лутцу Юстену, Рональду Вотцлаву, Тай-Ю Даниэлю Пану, Джейсону Чангу, Мэтью Харрису, Джайлзу Оксу, Джонатану Хорсману, Александру Колесникову, Лукасу Бейеру, Сяохуа Чжай, Картику Равендрану, Мацвею Ждановичу, Могану Ши, Крису Парсонсу, Цзянину Вэю и Маттиасу Грундманну.

    Источник: research.google

    ✅ Найденные теги: Snapseed, Интерактивная, новости, Представляем, Сегментация, Устройство

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Вулканический кратер с бирюзовой водой, вид с высоты в океане.
    Столкновение планет в космосе, вспышка огня и метеориты, разрушение и космический катаклизм.
    Исследователь в лаборатории перед компьютером, научное оборудование на заднем плане.
    Компьютер с круглым устройством и смартфоном на белом фоне, обмен данными.
    Всё о функциональности цепочки методов в Pyjanitor и почему она полезна.
    Корея проведет пилотный проект по внедрению телемедицины на основе искусственного интеллекта в Индонезии.
    Акробат в костюме выступает на сцене цирка между яркими оранжевыми конструкциями.
    MHRA выделяет 4,8 млн долларов на расширение программы по разработке медицинских устройств на основе искусственного интеллекта.
    ideipro logotyp
    Image Not Found
    Исследователь в лаборатории перед компьютером, научное оборудование на заднем плане.

    Уральские астрохимики создали спектральную библиотеку для анализа данных крупнейшего космического телескопа

    Первый автор статьи — лаборант-исследователь научной лаборатории астрохимических исследований УрФУ Варвара Картеева © Антон Васюнин / УрФУ. Ученые в лаборатории воссоздали содержащие метан межзвездные льды, которые широко наблюдаются в космическом пространстве, и впервые получили их инфракрасные «отпечатки»…

    Апр 9, 2026
    Компьютер с круглым устройством и смартфоном на белом фоне, обмен данными.

    Мини-ПК нового формата: что умеет Lenovo Yoga Mini i Gen 11

    Компактный настольный компьютер Yoga Mini i Gen 11 от Lenovo, впервые показанный на CES 2026, готовится к глобальному запуску и делает ставку на необычный форм-фактор.  Устройство выполнено в круглом алюминиевом корпусе с аккуратной полировкой оттенка «морская раковина»…

    Апр 9, 2026
    Всё о функциональности цепочки методов в Pyjanitor и почему она полезна.

    Всё о функциональности цепочки методов в Pyjanitor и почему она полезна.

    Чистый код, чистые данные: почему подход Pyjanitor к цепочке методов — это путь к достижению этой двойной цели. Изображение предоставлено редактором. # Введение Интенсивная работа с данными в Python преподает нам всем важный урок: очистка данных обычно…

    Апр 9, 2026
    Корея проведет пилотный проект по внедрению телемедицины на основе искусственного интеллекта в Индонезии.

    Корея проведет пилотный проект по внедрению телемедицины на основе искусственного интеллекта в Индонезии.

    Правительство Кореи также планирует расширить партнерство в области искусственного интеллекта в здравоохранении на Вьетнам и Таиланд. Телемедицина Фото: Мартин Барро/Getty Images Южная Корея и Индонезия проведут пилотный проект по внедрению услуг телеконсультаций на основе искусственного интеллекта в…

    Апр 9, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых