Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Всё дело в ракурсе: ваши фотографии, перекомпонованные.

Мы внедрили новый подход к редактированию изображений, который теперь доступен в функции «Автоматическое кадрирование» в Google Фото, позволяя пользователям переосмыслить фотографии с новой точки зрения после того, как они были сделаны.

Быстрые ссылки

Вы когда-нибудь просматривали свои фотографии и жалели, что не запечатлели сцену немного по-другому? Может быть, вы хотели бы, чтобы в кадр попала более крупная часть лица, или чтобы камера была расположена чуть ниже для идеального снимка. Или, может быть, это селфи с идеальной улыбкой, но широкоугольный объектив делает вас несколько непривычным на вид. Обычно мы довольствуемся такими «почти идеальными» снимками, потому что момент упущен, и переснять уже невозможно.

Хотя обрезка и масштабирование могут помочь, классические инструменты редактирования изображений не решат основную проблему: изображение по-прежнему показывает сцену с фиксированной, несовершенной перспективы. Масштабирование не меняет параллакс, а обрезка не покажет то, что находилось за пределами кадра.

Сегодня мы объявляем о новом подходе к исправлению выравнивания сцены после того, как была сделана фотография. Наш метод, теперь доступный в рамках функции «Автоматическая рамка» в Google Фото, использует модели машинного обучения (ML) для понимания сцены и ее пространственного расположения, а также генеративный ИИ для создания нового ракурса фотографии. В отличие от классической обработки фотографий, наш метод интерпретирует фотографию как трехмерную сцену — представьте себе реальный момент, застывший во времени, — и автоматически изменяет положение камеры в этом пространстве. Для этого наш метод сохраняет то, что было изначально видно, и интеллектуально генерирует ранее скрытый контент, формируя подлинную новую перспективу исходной сцены.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Новая функция автоматического кадрирования интерпретирует стандартную двухмерную фотографию как трехмерную сцену. Определяя исходное положение камеры на основе пространственной структуры изображения, она автоматически изменяет угол обзора, чтобы раскрыть новую, аутентичную перспективу запечатленного момента времени.

Новая перспектива

В отличие от других решений для генеративного редактирования изображений, наш метод состоит из двух этапов: (1) оценка 3D-сцены и камеры и (2) генеративное заполнение и ретуширование. Разделяя оценку 3D-сцены и формирование изображения, мы можем точно манипулировать 3D-сценой и корректировать как внутренние, так и внешние параметры камеры. Кроме того, мы используем модели машинного обучения для понимания содержимого сцены и автоматического предложения новых параметров камеры.

На первом этапе мы используем внутреннюю модель оценки карты 3D-точек, специально настроенную для точного восстановления человеческих тел и лиц, чтобы ограничить артефакты реконструкции, которые потенциально могут навредить сохранению личности. Для каждого пикселя исходного изображения наша модель оценивает 3D-точку, представляющую видимый участок поверхности, и дополнительно аппроксимирует фокусное расстояние исходной камеры.

Далее мы используем классический 3D-рендеринг для создания приблизительного изображения, как если бы оно было получено с измененными параметрами камеры. Важно отметить, что мы можем изменять как положение камеры (позицию и ориентацию), так и фокусное расстояние, что дает нам полный контроль над процессом формирования изображения.

Однако одной лишь визуализации 3D-карты точек недостаточно: при перемещении виртуальной камеры «вокруг» объекта обнаруживаются части фона, которые не были запечатлены исходным объективом. По сути, карта точек представляет собой неполное отображение сцены, и визуализация с новой перспективы всегда приводит к «пробелам». Для заполнения этих областей мы используем генеративную модель скрытой диффузии для завершения и коррекции полученной оценки. Эта модель была специально обучена для этой задачи с использованием внутреннего набора данных пар изображений с известными параметрами камеры. Во время обучения мы оцениваем 3D-карту точек одного изображения и проецируем её в камеру второго изображения. Затем модель учится восстанавливать второе изображение из повторно визуализированного первого изображения. Во время вывода мы используем руководство классификатора с региональным масштабированием, чтобы точно сохранить исходное содержимое, предоставляя при этом модели творческую свободу для заполнения пробелов.

Реангл-2

Обзор нашего двухэтапного метода редактирования. Во-первых, модель оценки 3D-карты точек оценивает геометрию сцены, используя монокулярную глубину для генерации 3D-карты точек и 2D-семантической информации для определения параметров целевой камеры. Во-вторых, генеративная модель скрытой диффузии завершает композицию, заполняя скрытые области фона и внося окончательные корректировки в новый ракурс, полученный благодаря новому углу съемки.

Более объективная точка зрения

Для обеспечения полностью автоматического редактирования мы используем модели машинного обучения для определения положения и 3D-ориентации лиц основных объектов. Вместе с картой 3D-точек эта семантическая информация позволяет нам вычислять параметры камеры для идеального кадрирования. Это особенно полезно для портретов. Кроме того, изображения, снятые широкоугольными фронтальными камерами, часто страдают от сильных перспективных искажений, из-за которых черты лица, расположенные ближе к объективу, могут казаться неестественно большими. Поэтому наш метод автоматически обнаруживает эти искажения и корректирует виртуальные параметры камеры для восстановления естественных, привлекательных пропорций, фактически «отступая» от объекта уже после съемки.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Теперь доступно в Google Фото

Это полностью автоматическое решение теперь доступно в Google Фото в рамках функции «Автоматическая рамка». Оно легко улучшает портреты, используя наш инструмент редактирования изображений с учетом 3D-эффекта для обработки подходящих фотографий, содержащих людей. Пользователи могут получить доступ к перекомпонованному изображению с автоматически скорректированной точкой обзора камеры в качестве второго варианта в списке кандидатов для автоматической рамки, что позволяет улучшить фотографию одним действием.

воспроизведение видео без звука зацикливание пауза видео без звука зацикливание включение звука видео выключение звука

Теперь этот инструмент редактирования доступен в Google Фото и позволяет пользователям легко получать доступ к автоматически перекомпонованным изображениям в виде единого действия в рамках функции «Автоматическое кадрирование».

Благодарности

Эта функция — результат сотрудничества команд Google DeepMind и Google Platforms & Devices. В число ключевых участников входят: Тьемо Аллдик, Маркос Зеефельдер, Ханна Вудс, Педро Велес, Майкл Милн, Берт Ле, Навин Сарма, Жасмин Репеннинг и Селена Шанг. Консультанты: Стивен Хиксон, Клаудио Мартелла, Ирфан Эсса и Алекс Рав Ача. Особая благодарность: Майку Крайнину, Яну Стриа, Нилу Вадхве, Амиту Раджу, Мауро Рего, Ките Бойсу, Деннису Штатнову, Юань Ци, Джулиану Изерингаузену, Питеру Жижину, Цзяпину Чжао, Андре Араужо, Яне Эманн, Кенг-Шенг Лину, Исало Монтакуте, Брэндону Руффину, Реджинальду Баллестеросу и Энди Радину.

Источник: research.google

✅ Найденные теги: Ваши, Все, Дело, новости, Ракурсе, Фотографии

Добавить комментарий

Новости других рубрик

Архив рубрики ~Лента новостей~: Компания Anthropic конфиденциально направила проект формы S-1 в Комиссию по ценным бумагам и биржам США. Архив рубрики ~Лента новостей~: Компания Mach Industries, лидер оборонных технологий, достигла рыночной капитализации в 1,8 млрд долларов, что в 4 раза больше, чем годом ранее. Архив рубрики ~Лента новостей~: ИИ-агенты уже ходят по вашему сайту, и вы не представляете, что они там видят Архив рубрики ~Лента новостей~: В докладе, подготовленном при поддержке Британского конгресса профсоюзов, говорится о необходимости расширения влияния работников на внедрение ИИ. Архив рубрики ~Лента новостей~: [Перевод] Странные образования на поверхности Венеры ставят в тупик планетологов Архив рубрики ~Лента новостей~: Питер Тиль работает над плавучими центрами обработки данных в океане Архив рубрики ~Лента новостей~: Claude Code и Codex за копейки? Разбираем новую open-weight модель MiniMax M3 Архив рубрики ~Лента новостей~: Языковые модели без лишних слов