Модель создания 3D-кроссовок из изображений: входные данные, обработка и итоговые виды.

Внедрение 3D-моделей товаров в онлайн-магазины с помощью генеративного искусственного интеллекта.

e945da83b73126a1ffd0a4c338bd4dcb

Узнайте, как наши новейшие модели искусственного интеллекта преобразуют двухмерные изображения товаров в захватывающие трехмерные впечатления для покупателей в интернете.

Ежедневно миллиарды людей совершают покупки онлайн, надеясь воссоздать лучшие моменты шопинга в обычном магазине. Увидеть что-то, что привлекло ваше внимание, взять это в руки и рассмотреть лично — это ключевой момент в нашем взаимодействии с товарами. Но воссоздать интуитивно понятный, практический характер покупок в магазине — задача непростая, и сделать это на экране может быть сложно. Мы знаем, что технологии могут помочь преодолеть этот разрыв, предоставляя ключевые детали одним движением пальца. Но создание таких онлайн-инструментов в больших масштабах может быть дорогостоящим и трудоемким процессом для бизнеса.

Для решения этой проблемы мы разработали новые методы генеративного искусственного интеллекта, позволяющие создавать высококачественные и удобные для покупки 3D-визуализации товаров всего лишь из трех изображений. Сегодня мы рады представить новейшее достижение, основанное на передовой модели генерации видео от Google — Veo. Эта технология уже позволяет создавать интерактивные 3D-изображения для широкого спектра категорий товаров в Google Shopping.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Примеры 3D-визуализации продукции, созданной на основе фотографий.

Первое поколение: нейронные поля излучения (NeRFs)

В 2022 году исследователи из разных подразделений Google объединились для разработки технологий, которые сделали бы визуализацию продуктов более захватывающей. Первоначальные усилия были сосредоточены на использовании нейронных полей излучения (NeRF) для обучения трехмерному представлению продуктов с целью рендеринга новых ракурсов (т.е. синтеза новых ракурсов), таких как вращение на 360°, на основе пяти или более изображений продукта. Это потребовало решения множества подзадач, включая выбор наиболее информативных изображений, удаление нежелательного фона, прогнозирование трехмерных априорных данных, оценку положения камеры на основе разреженного набора изображений, ориентированных на объекты, и оптимизацию трехмерного представления продукта.

В том же году мы объявили об этом прорыве и запустили первый важный проект — интерактивные 360-градусные визуализации обуви в поиске Google. Хотя эта технология была многообещающей, она страдала от шума во входных сигналах (например, неточных положений камеры) и неоднозначности из-за недостатка входных изображений. Эта проблема стала очевидной при попытке воссоздать сандалии и туфли на каблуках, тонкую структуру и более сложную геометрию которых было трудно восстановить, имея всего несколько изображений.

Это заставило нас задуматься: могут ли недавние достижения в области генеративных диффузионных моделей помочь нам улучшить изученное 3D-представление?

GenAI3d2_FirstGen

В нашем подходе первого поколения для рендеринга новых ракурсов использовались нейронные поля излучения ( NeRF ), сочетающие в себе несколько 3D-техник, таких как NOCS для прогнозирования XYZ-координат, CamP для оптимизации камеры и Zip-NeRF для современного синтеза новых ракурсов из разреженного набора изображений.

Второе поколение: масштабирование с использованием априорного распределения диффузии, обусловленного углом обзора.

В 2023 году мы представили подход второго поколения, который использовал предварительное диффузионное моделирование, обусловленное ракурсом, для устранения ограничений первого подхода. Обусловленность ракурсом означает, что вы можете предоставить модели изображение верхней части обуви и спросить : «Как выглядит передняя часть этой обуви?» Таким образом, мы можем использовать модель диффузионного моделирования, обусловленного ракурсом, чтобы помочь предсказать, как выглядит обувь с любой точки зрения, даже если у нас есть только фотографии с ограниченного ракурса.

На практике мы используем вариант метода дистилляционной выборки оценок (SDS), впервые предложенный в DreamFusion. Во время обучения мы визуализируем 3D-модель из случайного ракурса камеры. Затем мы используем модель диффузии, обусловленную ракурсом, и доступные изображения поз для генерации целевого объекта из того же ракурса камеры. Наконец, мы вычисляем оценку, сравнивая визуализированное изображение и сгенерированный целевой объект. Эта оценка напрямую влияет на процесс оптимизации, уточняя параметры 3D-модели и повышая ее качество и реализм.

Этот подход второго поколения обеспечил значительные преимущества в масштабировании, позволив нам создавать 3D-модели многих моделей обуви, ежедневно просматриваемых в Google Shopping. Сегодня вы можете найти интерактивные 360° визуализации сандалий, туфель на каблуках, ботинок и других категорий обуви, совершая покупки в Google, и большинство из них созданы с помощью этой технологии!

3dGenAI3_SecondGen

Во втором поколении использовался подход, основанный на модели диффузии, обусловленной особенностями представления, с применением архитектуры TryOn . Модель диффузии выступает в качестве обученного априорного распределения, использующего метод дистилляционной выборки оценок, предложенный в DreamFusion, для повышения качества и точности новых представлений.

Третье поколение: Обобщение с помощью Veo

Наше последнее достижение основано на Veo, передовой технологии генерации видео от Google. Ключевое преимущество Veo заключается в его способности создавать видеоролики, которые передают сложные взаимодействия между светом, материалом, текстурой и геометрией. Мощная архитектура на основе диффузии и возможность тонкой настройки для решения различных многомодальных задач позволяют ему преуспевать в синтезе новых ракурсов.

Для тонкой настройки Veo с целью преобразования изображений товаров в единое 360-градусное видео, мы сначала подготовили набор данных, содержащий миллионы высококачественных синтетических 3D-моделей. Затем мы визуализировали 3D-модели с различных ракурсов камеры и условий освещения. Наконец, мы создали набор данных из парных изображений и видео и использовали Veo для генерации 360-градусных вращений на основе одного или нескольких изображений.

Мы обнаружили, что этот подход эффективно применим к широкому спектру категорий товаров, включая мебель, одежду, электронику и многое другое. Veo не только смог генерировать новые изображения, соответствующие имеющимся изображениям товаров, но и смог запечатлеть сложные взаимодействия освещения и материалов (например, блестящие поверхности), что представляло собой проблему для подходов первого и второго поколений.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Подход третьего поколения основан на технологии Veo и позволяет создавать 360-градусные вращения из одного или нескольких изображений товаров.

Кроме того, этот подход третьего поколения позволил избежать необходимости оценки точных положений камеры на основе небольшого набора изображений объекта, что упростило задачу и повысило надежность. Тщательно настроенный подход Veo обладает высокой эффективностью — с помощью одного изображения можно создать реалистичное трехмерное представление объекта. Но, как и любая генеративная 3D-технология, Veo придется воспроизводить детали из невидимых ракурсов, например, заднюю часть объекта, если доступен только вид спереди. По мере увеличения количества входных изображений, Veo также повышает свою способность генерировать высококачественные и точные новые ракурсы. На практике мы обнаружили, что для улучшения качества трехмерных изображений и уменьшения искажений достаточно всего трех изображений, охватывающих большинство поверхностей объекта.

Заключение и перспективы на будущее

За последние несколько лет в области 3D-генеративного искусственного интеллекта достигнут огромный прогресс: от NeRF до моделей диффузии, обусловленной ракурсом, и теперь Veo. Каждая из этих технологий сыграла ключевую роль в том, чтобы сделать онлайн-шопинг более осязаемым и интерактивным. В перспективе мы с нетерпением ждём возможности продолжать расширять границы в этой области и помогать нашим пользователям делать онлайн-шопинг всё более приятным, информативным и увлекательным.

Благодарности

Эта работа стала возможной благодаря Филиппу Хенцлеру, Мэтью Берруссу, Мэтью Левину, Лори Чжан, Ке Ю, Чун-И Вэну, Джейсону Й. Чжану, Чанчангу Ву, Ире Кемельмахер-Шлизерман, Карлосу Эрнандесу, Кеунхонгу Парку и Рикардо Мартину-Бруалле. Мы благодарим Александра Холински, Бена Пула, Джона Баррона, Пратула Сринивасана, Ховарда Чжоу, Федерико Томбари и многих других из Google Labs, Google DeepMind и Google Shopping.

    Источник: research.google

    ✅ Найденные теги: 3D-Модели, Внедрение, Генеративный Искусственный Интеллект, новости, Онлайн-Магазины

    ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

    Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

    галерея

    Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.
    Код JavaScript и комментарии об аутентификации и безопасности сессии.
    ideipro logotyp
    Три портативных SSD в черных корпусах с красными акцентами.
    Изображение человека в наушниках в футуристической обстановке.
    Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.
    ideipro logotyp
    Группа военнослужащих в белой форме на ступенях перед зданием.
    Роботизированная рука держит весы, символизируя баланс технологий и правосудия.
    Image Not Found
    Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

    Маску не удалось заблокировать закон Калифорнии о раскрытии данных, который, как он опасается, погубит xAI.

    Маск не может убедить судью в том, что общественности безразлично, откуда берутся данные для обучения ИИ. Источник: Icon Sportswire / Участник | Icon Sportswire Источник: Icon Sportswire / Участник | Icon Sportswire Настройки текста Текст рассказа Размер…

    Мар 10, 2026
    Код JavaScript и комментарии об аутентификации и безопасности сессии.

    Компания Anthropic запускает инструмент для проверки кода, предназначенный для предотвращения потока кода, сгенерированного искусственным интеллектом.

    Источник изображения: Anthropic В программировании обратная связь от коллег имеет решающее значение для выявления ошибок на ранних стадиях, поддержания согласованности кода и повышения общего качества программного обеспечения. Распространение «вайб-кодирования» — использования инструментов искусственного интеллекта, которые принимают инструкции,…

    Мар 10, 2026
    ideipro logotyp

    Лучшие будильники на рассвете (2026): Lumie, Hatch, WiiM

    Я никогда не была «жаворонком». Этот прикроватный гаджет — единственное, что когда-либо изменило мое отношение к этому. Источник: www.wired.com ✅ Найденные теги: Hatch, Lumie, WiiM, Будильники, Лучшие, новости, РассветПохожие записиКомпания Anthropic запускает инструмент для проверки кода, предназначенный…

    Мар 10, 2026
    Люди в музее динозавров, крупный план мешка с деньгами в стеклянной витрине.

    Загрузка: Землетрясения и ИИ для нанесения ударов по Ирану

    Это сегодняшний выпуск The Download, нашей ежедневной новостной рассылки, которая предоставляет вам ежедневную порцию событий в мире технологий. Прислушайтесь к грохочущему, тайному саундтреку Земли. Грохот откалывающегося ледника. Треск лесного пожара. Рев надвигающегося штормового фронта. Это звуки живой…

    Мар 9, 2026

    Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых