Сегментация автомобиля на изображении с цветной маркировкой для компьютерного зрения.

Как ИИ учится видеть в 3D и понимать пространство?

Содержание

Как оценка глубины, сегментация основания и геометрическое слияние сходятся в пространственную аналитику.

Делиться

b6ba2744872fb04955a8277799e1c67a

Искусственный интеллект способен классифицировать фотографию кухни за миллисекунды. Он может сегментировать каждый объект на уличной сцене, генерировать фотореалистичные изображения несуществующих комнат и писать убедительные описания мест, где он никогда не был.

Но попросите его войти в реальную комнату и сказать, какой предмет стоит на какой полке, как далеко стол от стены или где в физическом пространстве заканчивается потолок и начинается окно —

и иллюзия рушится.

Модели, доминирующие в тестах компьютерного зрения, работают в плоской среде. Они рассуждают о пикселях на двумерной сетке.

Они не обладают врожденным пониманием трехмерного мира, который изображают эти пиксели.

🦚 Примечание Флорана: Этот разрыв между интеллектом на уровне пикселей и пространственным пониманием — не просто небольшая неприятность. Это самое большое узкое место, стоящее между современными системами ИИ и наиболее важными приложениями в реальном мире: роботами, перемещающимися по складам, беспилотными транспортными средствами, планирующими движение вокруг препятствий, и цифровыми двойниками, точно отражающими реальные здания.

В этой статье я подробно рассматриваю три уровня искусственного интеллекта , которые в настоящее время сходятся, чтобы сделать возможным пространственное понимание на основе обычных фотографий.

Я показываю, как геометрическое слияние (слой, о котором никто не говорит) преобразует зашумленные предсказания для каждого изображения в согласованные метки 3D-сцены, и делюсь реальными цифрами из производственных конвейеров: коэффициент усиления меток в 3,5 раза, который превращает 20% охвата в 78%.

Если вы работаете с 3D-данными, облаками точек или моделями фундаментов, то это именно тот недостающий элемент головоломки, которого вам не хватало.

f787dc58ba63034c8d50e3984f5c9edb

Проблема с 3D-аннотированием, о которой никто не говорит.

Реконструкция трехмерной геометрии по фотографиям на данный момент является решенной задачей.

Системы восстановления структуры из движения (Structured-from-Motion) уже более двух десятилетий сопоставляют ключевые точки и триангулируют 3D-позиции. А появление моделей монокулярной оценки глубины, таких как Depth-Anything-3, означает, что теперь можно создавать плотные 3D-облака точек из одного видео, снятого на смартфон, без какого-либо специализированного оборудования.

Геометрия налицо. Не хватает лишь смысла.
Облако точек, содержащее 800 000 точек без подписей, — это красивая визуализация, которая не может ответить ни на один практический вопрос. Вы не можете спросить его: «Покажите мне только стены», «Измерьте площадь пола» или «Выделите все, что находится в пределах двух метров от электрощита».

Для таких запросов каждая точка должна иметь семантическую метку, а создание таких меток в больших масштабах остается чрезвычайно дорогостоящим процессом.

🦥 Заметка для гиков: Традиционный подход основан на использовании LiDAR-сканеров и группах аннотаторов, которые вручную просматривают миллионы точек в специализированном программном обеспечении. На сканирование одного этажа коммерческого здания опытному оператору может потребоваться от восьми до двенадцати часов. Умножьте это на сканирование всего кампуса или автопарка автомобилей, и экономическая целесообразность рухнет.

Обученные сети 3D-сегментации, такие как PointNet++ и MinkowskiNet, могут автоматизировать этот процесс, но им необходимы размеченные обучающие данные (те же самые данные, создание которых обходится дорого), и они, как правило, специфичны для конкретной предметной области. Модель, обученная на интерьерах офисов, не справится со строительной площадкой.

Базовые модели с нулевым количеством примеров, которые произвели революцию в 2D-компьютерном зрении (SAM, Grounded SAM, SEEM), работают исключительно с изображениями. Они создают 2D-маски, а не 3D-метки.

Таким образом, эта область находится в неудобном положении: геометрическая реконструкция и семантическое предсказание сами по себе сильны, но ни у кого нет простого, универсального способа их объединить.
Вопрос не в том, может ли ИИ понимать трехмерное пространство. Вопрос в том, как связать предсказания, работающие в двухмерном пространстве, с геометрией, существующей в трехмерном пространстве.

c92fdee5eb99c05ff1d459fc5e4784a7

Итак, как бы выглядела ситуация, если бы все эти возможности можно было объединить в один конвейер?

Все изображения и анимации созданы моими собственными пальцами, чтобы лучше проиллюстрировать и показать влияние пространственного ИИ. (c) Ф. Пукс.

В настоящее время три уровня пространственного ИИ сходятся в единый комплекс для трехмерной разметки.

В период с 2023 по 2025 год произошло нечто интересное. Три независимых направления исследований достигли такого уровня зрелости, что их можно объединить в единый конвейер. И эта комбинация оказалась мощнее, чем любое из них по отдельности.

5539f77be6f65a4abdce370006d9c835

Слой 1: оценка метрической глубины по одной фотографии

Такие модели, как Depth-Anything и её преемники (DA-V2, DA-3), берут одну фотографию и предсказывают карту глубины для каждого пикселя.

0204bdf622ed077df2741f7e62743353

Ключевой прорыв заключается не в самом предсказании глубины (оно существовало ещё с начала эры глубокого обучения). Речь идёт о переходе от относительной глубины к метрической глубине .

Относительная глубина показывает, что стол находится ближе, чем стена, что полезно для редактирования изображений, но бесполезно для 3D-реконструкции. Метрическая глубина показывает, что стол находится на расстоянии 1,3 метра, а стена — на расстоянии 4,1 метра, что позволяет разместить эти поверхности в правильных положениях в системе координат.

Depth-Anything-3 обеспечивает вычисление метрической глубины со скоростью примерно 30 кадров в секунду на потребительских видеокартах. Это делает его практичным для приложений реального времени.

Слой 2: базовая сегментация на основе текстовой подсказки

Модель сегментирования чего угодно (Segment Anything Model) и её потомки (SAM 2, Grounded SAM, FastSAM) позволяют разделить любое изображение на согласованные области одним щелчком мыши, с помощью ограничивающей рамки или текстовой подсказки.

78d9bd2b072a3ca82e8afac206b4e84a
704847bbafe5ee460cf2e83b1e60b5c3

В самом полезном смысле эти модели не привязаны к какому-либо конкретному классу объектов: им не нужно видеть вашу конкретную категорию объектов во время обучения. Вы можете указать на промышленный клапан, хирургический инструмент или детскую игрушку, и SAM создаст маску с точностью до пикселя.

🌱 Примечание по поводу роста: В сочетании с модулем привязки текста система переходит от «сегментации всего, на что я нажимаю» к «сегментации всего, что выглядит как труба» на тысячах изображений без участия человека. Именно здесь этап ручной отрисовки в современных конвейерах автоматизируется завтра.

Слой 3: геометрическое слияние (инженерные решения, которые никто не предоставляет бесплатно).

Вот в чем дело. Настоящая инженерная задача кроется в третьем слое: геометрическое слияние .

Внутренние и внешние параметры камеры обеспечивают математический мост между двумерными координатами изображения и трехмерными мировыми координатами. Зная фокусное расстояние камеры, положение и ориентацию, с которых был сделан каждый снимок, а также глубину в каждом пикселе, можно спроецировать любое двумерное предсказание в его точное трехмерное местоположение.

6b7380f7c30352814e3ebd81e20aa3d3

Сама обратная проекция представляет собой пять строк линейной алгебры:

# Обратная проекция через точечное отверстие: иксель (u,v) с глубиной d в 3D-точку x_cam = (u — cx) * depth / fx y_cam = (v — cy) * depth / fy z_cam = depth point_world = (np.stack([x_cam, y_cam, z_cam]) — t) @ R

Первый и второй слои стандартизированы. Вы скачиваете предварительно обученную модель, запускаете инференс и получаете карты глубины или маски, достаточно качественные для использования в производственных условиях.

Третий слой — это та часть, которую никто не даёт бесплатно.

Это связано с тем, что для этого требуется понимание моделей камер, обработка шума глубины, разрешение конфликтов между ракурсами и преобразование разреженных прогнозов в плотное покрытие. Это связующее звено, которое превращает прогнозы ИИ для каждого изображения в целостное трехмерное понимание, и именно правильное выполнение этой задачи отличает исследовательскую демонстрацию от работающей системы.

🪐 Примечание по системному мышлению: Трехслойная структура является конкретным примером общей закономерности в системах ИИ: слои восприятия (глубина, сегментация) быстро становятся доступными благодаря базовым моделям, в то время как слои интеграции (геометрическое слияние, временная согласованность) остаются ресурсоемкими с точки зрения инженерии. Конкурентное преимущество смещается от наличия лучших моделей к наличию лучшей интеграции.

6f255f1b46823503f858ba4e1e635247

Математическая часть проекции проста. Но что произойдет, если глубина будет указана неверно, показания камер не совпадут, и вам понадобятся метки для 800 000 точек всего лишь на пяти изображениях?

Как геометрические рассуждения превращают двумерные пиксели в обозначенные трехмерные области.

Центральная операция в стеке пространственного ИИ — это то, что я называю «преодолением размерности» : вы выполняете задачу в том измерении, где это проще всего, а затем переносите результат в то измерение, где он необходим.

44dfd3114db2a56901c5b09749f21fe1

Честно говоря, это самая недооцененная концепция во всей разработке.
Люди и модели искусственного интеллекта быстро и точно размечают двухмерные изображения.

Разметка 3D-облаков точек — медленный, дорогостоящий и подверженный ошибкам процесс. Поэтому разметку проводят в 2D-пространстве, а затем проецируют в 3D, используя камеру в качестве связующего звена.

🦚 Примечание Флорана: Я реализовал эту операцию проекции как минимум в дюжине производственных конвейеров, и математические вычисления остаются неизменными. Меняется лишь способ обработки шума. Каждая камера, каждая модель глубины, каждый тип сцены вносят свои коррективы. Проекция — это алгебра. Обработка шума — это инженерное решение.

b10cd7a216f6437d7389f3b3fee4f3f5

Карты глубины, полученные с помощью монокулярной оценки, не являются эталонными. Они содержат ошибки на границах объектов, на отражающих поверхностях и в областях без текстуры. Одна маска, полученная методом обратного проецирования, разместит некоторые метки в неправильном 3D-месте. А при объединении масок с нескольких точек зрения разные камеры будут расходиться во мнениях относительно того, какая метка должна находиться в данной точке.

Именно здесь алгоритм слияния и начинает приносить свои плоды.

Четырехэтапный конвейер слияния для распространения 3D-меток

Разработанный мной в рамках нескольких проектов конвейер обработки данных состоит из четырех этапов, каждый из которых направлен на устранение конкретного вида сбоя.

Функциональная сигнатура отражает философию проектирования:

def smart_label_fusion( points_3d, # Полное облако точек сцены (N, 3) labels_3d, # Разреженные метки из многоракурсной проекции camera_positions, # Где каждая камера находилась в мировом пространстве max_distance=0.15, # Радиус запроса шара для распространения меток max_camera_dist=5.0, # Шумоподавитель: игнорировать точки, находящиеся далеко от камер min_neighbors=3, # Кворум для демократического голосования batch_size=50000 # Ограниченные по памяти блоки обработки )

Это проявляется в следующем:

a3f1f74114f2fba4a3a9f1f612b8bd2d

Этап 1: шумоподавление. Точки, расположенные далеко от любой точки камеры, скорее всего, являются артефактами реконструкции, и любые содержащиеся в них метки ненадежны. Вычисляя минимальное расстояние от каждой точки до ближайшей камеры и удаляя метки, превышающие пороговое значение, вы устраняете ошибки на больших расстояниях, которые в противном случае исказили бы результаты голосования.

Этап 2: пространственный индекс. Вместо индексирования всех 800 000 точек алгоритм строит KD-дерево, используя только размеченное подмножество. Это уменьшает размер дерева на 80% и более, что ускоряет каждый последующий запрос.

Этап 3: идентификация цели. Каждая точка, сохранившая нулевую метку после шумоподавления, становится кандидатом на распространение. В типичной сессии из пяти ракурсов примерно 20% сцены получают прямые метки. Это означает, что 80% точек ожидают этапа голосования.

Этап 4: демократическое голосование. Для каждой немаркированной точки выполняется запрос к шару, который собирает все маркированные соседние точки в радиусе max_distance. Если в этот радиус попадает меньше min_neighbors маркированных точек, точка остается немаркированной (воздержание предотвращает предположения с низкой степенью достоверности). В противном случае побеждает наиболее распространенная метка.

🦥 Примечание для специалистов: Параметр min_neighbors — это пороговое значение кворума. Установка его значения равным 1 позволит одной зашумленной метке распространяться бесконтрольно. Установка значения равным 3 означает, что для того, чтобы голос был учтен, должно совпадать как минимум три независимые помеченные точки. На практике значения от 3 до 5 обеспечивают наилучший баланс между охватом и точностью, поскольку шум глубины редко помещает три ошибочные метки в одну и ту же локальную область.

Почему это так хорошо работает? Потому что ошибки, возникающие при монокулярном определении глубины, как правило, носят случайный пространственный характер, в то время как правильные метки группируются вместе. Голосование большинством голосов естественным образом отфильтровывает шум.

🌱 Примечание по выращиванию: Три параметра для настройки: max_distance=0.05 (радиус распространения, 5 см для плотных объектов внутри помещений, 0.15 см для разреженных объектов на улице). min_neighbors=3 (минимальное количество голосов, увеличить до 5-10 для зашумленных данных). batch_size=100000 (безопасно для 16 ГБ ОЗУ, уменьшить до 50000 при нехватке памяти). Эти три числа определяют компромисс между качеством, скоростью и памятью для вашей конкретной сцены.

Весь процесс выполняется менее чем за десять секунд на 800 000 точках с использованием обычного процессора. Никакого графического процессора, никакого вывода модели, никакого обучения. Чисто вычислительная геометрия.

Именно поэтому он демонстрирует универсальные результаты во всех областях, где я его тестировал: интерьеры, объекты на открытом воздухе, промышленные детали, археологические артефакты.

Четыре этапа, десять секунд, никакого глубокого обучения. Но подтверждаются ли полученные результаты цифрами?

От 20% до 78% охвата меток: что на самом деле дает 3D-геометрическое слияние.

При проецировании семантических прогнозов, полученных из пяти из пятнадцати фотографий, в 3D-модель, примерно 20% облака точек получают прямую метку. Покрытие получается неравномерным, поскольку каждая камера видит лишь часть сцены.

8f26ebd62888ff81a075f67f92d04b9b

В результате получаются цветные острова в сером море.

После запуска конвейера обработки данных охват увеличивается примерно до 78% . Это увеличение в 3,5 раза полностью обусловлено геометрическими рассуждениями на этапе голосования с использованием метода «шарового запроса».

Позвольте мне уточнить, что это значит:

  • Дополнительное участие человека не требуется.
  • Вывод модели не происходит.
  • В систему не поступает новая информация.
  • Алгоритм просто распространяет существующие метки на близлежащие немаркированные точки, используя пространственную близость и демократический консенсус.

Немаркированные точки делятся на две информативные категории. Некоторые из них расположены в областях, которые ни одна камера не смогла хорошо зафиксировать (затененные участки, узкие щели, нижняя сторона нависающих геометрических объектов).

Другие находятся на границах классов, где запрос к шару обнаружил соседей из нескольких классов, но ни один из них не достиг порогового значения кворума, поэтому алгоритм правильно воздержался от выбора, а не стал гадать.
Оба варианта развития событий точно указывают, где необходимо добавить еще одну точку зрения, чтобы устранить пробелы.

Слой геометрического слияния действует как усилитель меток . Любое предсказание, полученное от человека, от SAM или от будущей модели, использующей текстовые подсказки, усиливается с тем же коэффициентом.
Именно это понимание обеспечивает работоспособность всей системы.

Если SAM заменит этап ручной отрисовки, конвейер станет полностью автоматическим: прогнозирование базовой модели в 2D, геометрическое усиление в 3D, без участия человека. Слою слияния не важно, откуда взялись исходные метки. Важно лишь, чтобы они были достаточно пространственно согласованными для того, чтобы этап голосования давал надежные результаты.

57d54af991477438bc2b730a6313570f

🌱 Примечание: Я запустил тот же конвейер обработки данных на промышленной трубной раме с 4,2 миллионами точек и 32 позициями камер. Этап объединения занял 47 секунд и расширил охват с 12% до 61%. Более низкий итоговый охват отражает геометрическую сложность (много перекрытых поверхностей), но коэффициент усиления (5x) фактически был выше, чем в более простой сцене. Более плотные сети камер позволяют еще больше увеличить потолок охвата.

Усилитель с коэффициентом усиления 3,5, работающий с любым источником входного сигнала, — это мощно. Но есть одна проблема, которую слой слияния не может решить самостоятельно.

Открытая проблема в пространственном ИИ: согласованность многоракурсных изображений и куда движется 3D-разметка.

Базовые модели выдают прогнозы независимо для каждого изображения. SAM не знает, что было сегментировано в предыдущем кадре. Depth-Anything-3 не обеспечивает согласованность между ракурсами.
При проецировании этих прогнозов для каждого изображения в 3D-пространство они иногда не совпадают.

Одна камера может обозначить область как «стену», а другая — перекрывающиеся точки как «потолок», не потому что какое-либо из предсказаний неверно в 2D, а потому что граница класса выглядит по-разному под разными углами.

Слой слияния частично разрешает эти разногласия путем голосования большинством голосов. Если семь камер называют точку «стеной», а две — «потолком», то точка получает метку «стена», и это обычно правильно.
Но на подлинных классовых границах (там, где стена упирается в потолок) голосование превращается в подбрасывание монеты.

🦥 Заметка для гиков: Я видел артефакты границ, простирающиеся на 5–15 сантиметров в интерьерных сценах, что приемлемо для большинства приложений, но проблематично для задач точной обработки, таких как BIM-моделирование построенных объектов. Для мониторинга хода работ, управления объектами или пространственного анализа эти границы не имеют значения. Но для документации по строительству с миллиметровой точностью они важны.

На самом деле, позвольте мне перефразировать. Граничные артефакты — это не настоящая проблема. Настоящая проблема в том, что никто не замкнул цикл между 3D-консенсусом и 2D-прогнозированием.

Следующая задача — обеспечение согласованности между несколькими ракурсами : модели, работающие в вышестоящем режиме, должны быть осведомлены о прогнозах друг друга до того, как они достигнут слоя слияния. SAM 2 делает шаг в этом направлении, распространяя маски по кадрам видео, но работает в 2D и не обеспечивает геометрическую согласованность в 3D. Система, которая передает результаты 3D-слияния обратно в цикл 2D-прогнозирования (корректируя маски для каждого изображения на основе формирующегося 3D-консенсуса), полностью замкнула бы этот цикл.

🦚 Примечание Флорана: Я уже наблюдаю эту конвергенцию в реальных проектах. Недавно один клиент принес мне конвейер обработки данных, в котором они обработали 200 снимков строительной площадки, полученных с помощью дронов, спроецировали маски через глубину DA3 и использовали версию этого алгоритма слияния для разметки облака из 12 миллионов точек. Этап аннотирования, который раньше занимал два полных дня, завершился за одиннадцать минут. Граничные артефакты присутствовали, но для мониторинга хода работ они не имели значения. Им нужно было знать, «какой этаж залит» и «где находятся арматурные каркасы», а не иметь миллиметровую точность границ. Это и есть пространственный ИИ сегодня: он работает, он быстр, и оставшиеся несовершенства не имеют значения для 80% реальных сценариев использования.

То, что, как я ожидаю, произойдет в следующие 12-18 месяцев.

Вот мой план действий, основанный на том, что я наблюдаю в исследовательских лабораториях и в рамках промышленных проектов, которые я консультирую:

Временные рамки Важный этап Влияние
2 квартал 2026 г. Точность оценки глубины непосредственно на устройстве, достаточная для пространственного ИИ (уже реализовано на последних моделях iPhone и Pixel). Capture превращается в простую видеозапись, без необходимости использования облачных сервисов.
3 квартал 2026 г. ЗРК SAM 3 или аналогичные корабли с встроенной системой многоракурсного обзора. Граничные артефакты уменьшаются на порядок.
Середина 2026 года
4 квартал 2026 г. Семантическая потоковая передача 3D-данных в реальном времени: пройдитесь по зданию, и размеченное облако точек будет создано автоматически. Слой геометрического слияния, описанный в этой статье, — это именно то, что обеспечивает работу этого конвейера.

Проблема смещается от производства этикеток к контролю их качества , и это гораздо более приятная задача.

🪐 Примечание о системном мышлении: Методы, которые я использую сегодня для проверки результатов обработки данных (статистика по классам, метрики покрытия до/после, проверка границ), становятся диагностическим слоем, который располагается поверх полностью автоматизированного стека. Если вы понимаете конвейер обработки данных сейчас, вы будете тем человеком, который будет отлаживать и улучшать его при масштабировании. Вот где кроется реальный потенциал.

1230fcb378e8885f45099fe3c0ba0f48

🌱 Примечание для начинающих: Если вы хотите самостоятельно создать полный конвейер обработки данных (ручная версия, которая обучает каждому компоненту), я опубликовал пошаговое руководство, охватывающее полную реализацию на Python с интерактивной отрисовкой, обратной проекцией и слиянием. Бесплатный набор инструментов включает весь код и пример набора данных.

Ресурсы для более глубокого изучения пространственного искусственного интеллекта и 3D-анализа данных.

Если вы хотите глубже изучить стек технологий пространственного ИИ, вот важные источники информации.

Созданная мной Академия 3D-геоданные — это образовательная платформа, предлагающая курс с открытым доступом по обработке 3D-облаков точек с использованием Python, который подробно рассматривает геометрические основы (системы координат, модели камер, пространственная индексация). Моя книга издательства O'Reilly, «3D Data Science with Python», содержит исчерпывающее описание обсуждаемых здесь алгоритмов, включая построение KD-дерева, шаровые запросы и стратегии распространения меток.

Для отдельных слоев стека:

  • В статье Depth-Anything-V2 объясняется переход от относительной к метрической оценке глубины.
  • В статье SAM 2 рассматриваются сегментация с учетом видеоданных и распространение масок.
  • Документация Open3D по-прежнему остается наиболее практичной библиотекой для работы с 3D-данными в Python.
  • Библиотека scipy cKDTree обеспечивает пространственное индексирование на этапе слияния.
  • Спецификация glTF 2.0 определяет формат, лежащий в основе экспорта GLB.
  • Предыдущая статья на Medium: 3D-реконструкция на основе Depth-Anything-3 по фотографиям со смартфона

Флоран Пукс, доктор философии.
Научный руководитель и директор курсов в 3D Geodata Academy. Я занимаюсь исследованиями и преподаванием в области обработки 3D пространственных данных, анализа облаков точек и взаимодействия геометрических вычислений с машинным обучением. Вы можете получить доступ к моим открытым курсам на learngeodata.eu, а мою книгу «3D Data Science with Python» можно найти в издательстве O'Reilly.

Часто задаваемые вопросы о пространственном искусственном интеллекте и трехмерном семантическом понимании.

В чём разница между сегментацией 2D-изображений и пространственным пониманием 3D-пространства?

Сегментация изображений присваивает метки пикселям на плоской фотографии, в то время как трехмерное семантическое понимание присваивает метки точкам в объемной системе координат, где сохраняются расстояния, поверхности и пространственные отношения. Разрыв между ними заключается в геометрии камеры, которая сопоставляет пиксели с физическими местоположениями, и именно преодоление этого разрыва обеспечивает описанный в этой статье стек пространственного искусственного интеллекта.

Могут ли базовые модели, такие как SAM, напрямую создавать 3D-метки на основе фотографий?

Пока нет. SAM и подобные модели работают с отдельными 2D-изображениями и не имеют встроенного понимания 3D-геометрии. Их предсказания должны быть спроецированы в 3D-пространство с использованием внутренних и внешних параметров камеры, а также информации о глубине из таких моделей, как Depth-Anything-3, а затем объединены по нескольким точкам обзора с использованием пространственных алгоритмов, таких как запросы к KD-дереву с голосованием по большинству.

Как масштабируется слияние геометрических меток для больших трехмерных облаков точек?

Алгоритм слияния масштабируется линейно в зависимости от количества точек благодаря пакетной обработке, которая ограничивает пиковые объемы памяти. На сцене с 800 000 точек весь конвейер выполняется менее чем за десять секунд на обычном процессоре. На промышленной сцене с 4,2 миллионами точек он завершается менее чем за минуту. Пространственный индекс KD-дерева сокращает количество запросов к соседним точкам с грубой сложности O(N) до O(log N) на точку.

Каков коэффициент усиления метки 3,5x в геометрическом слиянии?

При проецировании семантических меток с пяти ракурсов камер в 3D-модель, примерно 20% облака точек получают прямые метки. Метод объединения данных с помощью KD-дерева и запроса шара распространяет эти разреженные метки на близлежащие немаркированные точки посредством голосования по большинству, расширяя охват примерно до 78%. Соотношение 3,5x (78/20) показывает, какой объем меток добавляет геометрическое объединение без каких-либо дополнительных входных данных.

Где я могу узнать больше о 3D-анализе данных и стеке пространственного искусственного интеллекта?

Академия 3D Geodata предлагает практические курсы, охватывающие облака точек, сетки, воксели и гауссовы сплэты. В качестве исчерпывающего справочника можно использовать книгу «3D Data Science with Python» на сайте O'Reilly, которая содержит 18 глав, от основ до производственных систем, включая все методы геометрического слияния, обсуждаемые здесь.

Источник: towardsdatascience.com

✅ Найденные теги: 3D, Визуализация, ИИ, Как, новости, Обучение, Пространство

ОСТАВЬТЕ СВОЙ КОММЕНТАРИЙ

Каталог бесплатных опенсорс-решений, которые можно развернуть локально и забыть о подписках

галерея

Логотип Booking.com на синем фоне с цветами на переднем плане.
ideipro logotyp
ideipro logotyp
Лектор объясняет материал студентам в университете, классная аудитория.
Диаграмма процесса планирования и верификации решений с участием агентов AI.
Археологические раскопки: вид сверху каменных руин древнего сооружения.
ideipro logotyp
Компактный синий компьютерный куб на ладони для инновационных технологий.
Международная космическая станция на орбите, вид сверху, солнечные панели раскрыты.
Image Not Found
Логотип Booking.com на синем фоне с цветами на переднем плане.

Компания Booking.com подтвердила, что хакеры получили доступ к данным клиентов.

Источник изображения: Шон Галлап / Getty Images В понедельник компания Booking.com подтвердила, что хакеры могли получить доступ к личным данным клиентов, включая имена, электронные адреса, физические адреса, номера телефонов и детали бронирования. По данным нескольких сообщений в…

Апр 13, 2026
ideipro logotyp

MacBook Neo против MacBook Air: какой из них стоит купить?

После проведения длительного тестирования MacBook Neo и MacBook Air у меня сложилось четкое представление о том, кому какой ноутбук следует купить. Источник: www.wired.com ✅ Найденные теги: MacBook, MacBook Air, MacBook Neo, Лэптопы, новости, Покупка, СравнениеПохожие записиКомпания Booking.com…

Апр 13, 2026
ideipro logotyp

Устойчивые равновесия в уравнениях Лотки-Вольтерры

arXiv:2512.13347v2 Тип объявления: замена Аннотация: Мы рассматриваем систему Лотки-Вольтерры и приводим необходимые условия для устойчивости равновесия. Наши результаты естественным образом дополняют более ранние фундаментальные результаты Н. Адачи, Ю. Такеучи и Х. Токумару, которые в серии статей приводят…

Апр 13, 2026
Лектор объясняет материал студентам в университете, классная аудитория.

Философия труда

В качестве научного сотрудника программы «Этика технологий» в Северной Каролине Михал Масны занимается развитием диалога, преподаванием и исследованиями социальных и этических аспектов новых вычислительных технологий. «Я хочу, чтобы этот курс стал важным событием в расписании студента», —…

Апр 13, 2026

Впишите свой почтовый адрес и мы будем присылать вам на почту самые свежие новости в числе самых первых