Генеративное глубокое обучение решает проблему наложения сигналов в 3D-визуализации

В условиях стремительного развития информатизации, цифровизации и интеллектуализации технологии высокоточной трехмерной оптической и визуальной визуализации играют всё более важную роль во многих отраслях промышленности и потребительской сфере. Среди них метод трехмерной визуализации на основе структурированного света, представленный проекцией интерференционных полос, позволяет осуществлять точное и быстрое измерение трехмерной формы и геометрии объектов и получил широкое распространение и применение в автоматизированном обнаружении, робототехнике, биомедицине и развлекательной индустрии. Хотя эта технология отличается высокой точностью и скоростью, она требует точной синхронизации между устройствами визуализации (проекционными модулями и камерами), что ограничивает применение технологии структурированного света в сценариях крупноформатного, матричного и совместного трехмерного восприятия. Доцент Луй Лэй из Хэнаньского технологического университета, младший научный сотрудник Шанхайского университета Су Чжилун и исследовательская группа Национального университета оборонных технологий разработали метод генеративного глубокого обучения для решения проблемы наложения полос при асинхронной визуализации, проанализировав проблему наложения изображения, вызванную снятием ограничений синхронизации, и предложили технологию генеративной асинхронной трехмерной визуализации со структурированным светом.


Традиционная технология структурированного света основана на строгой синхронизации между проекционным модулем и устройством съёмки для обеспечения точной реконструкции трёхмерной сцены. В асинхронной 3D-съёмке каждое устройство работает независимо от других, и проекционный модуль может менять проекционный узор, не ограничиваясь временем экспозиции камеры. Эта независимость нарушает допущение о синхронизации, характерное для традиционных методов, и позволяет системе работать более гибко, снижая требования к синхронизации в практических приложениях и значительно расширяя сферу применения технологии структурированного света. Однако из этого следует, что в течение времени экспозиции камеры будет захвачено несколько изображений, что приводит к серьёзным проблемам наложения сигналов, в результате чего точность снижается на три порядка. Хотя наложение сигналов, вызванное этой асинхронностью, имеет аддитивный характер, на него влияет совокупность нескольких факторов, таких как время начала экспозиции камеры и время переключения полос. Эти параметры на практике трудно точно предсказать или измерить, и они стали хронической проблемой наложения изображений при использовании нескольких источников, которая сдерживает развитие технологии асинхронного структурированного света.


В контексте асинхронной визуализации появление полос на изображении является давней проблемой, которая до сих пор не решена. Исследовательская группа провела углубленный анализ геометрических и статистических характеристик глобального аддитивного появления полос на изображении и предложила разработать эффективный генеративный метод глубокого обучения для решения этой проблемы с точки зрения генерации изображений с учетом априорных ограничений. В частности, взяв за отправную точку базовый паттерн наложения, исследователи обнаружили, что наложение при асинхронной съемке не связано с пространственным положением пикселей, а представляет собой лишь глобальное накопление интенсивности света соседних кадров в неизвестной комбинации. С точки зрения геометрии многообразия процесс появления наложений не деформирует базовую структуру изображения, поэтому при разделении наложений не нужно уделять внимание проблеме преобразования положения пикселей. Это фактически предоставляет мощное и элегантное индуктивное априорное условие — пространственную эквивариантность, которое естественным образом связывает данную задачу с сверткой. Таким образом, можно разработать симметричную модель глубокой нейронной сети на основе свертки для обучения внутренним характеристикам полос, что по сути гарантирует способность модели к обобщению.


Чтобы использовать как можно меньше данных для построения модели с высокой способностью к генерации, исследовательская группа внедрила архитектуру генеративно-состязательного обучения (GAN) и более подробно изучила статистические характеристики наложения полос. На основе архитектуры состязательного обучения в качестве условия генерации применяется априорное распределение узора полос, а принцип сходства базового изображения и принцип сходства верхней структуры используются для того, чтобы модель могла эффективно обучаться информации о полосах без наложения. По сравнению с общими моделями генерации изображений метод обучения, основанный на вышеуказанной стратегии, позволяет эффективно сократить объем данных, одновременно обеспечивая стабильность динамики обучения модели и высокую способность к обобщению. Применение классического метода фазового сдвига позволяет точно реконструировать трехмерную форму объекта на основе сгенерированного изображения полос. В ходе тестирования асинхронной трехмерной визуализации с использованием различных объектов и типов полос было установлено, что предложенный исследовательской группой метод по точности сопоставим с синхронным методом. По сравнению с результатами асинхронной реконструкции полос точность была повышена на три порядка.


Данное достижение сочетает в себе концепцию асинхронной визуализации с методами генеративного глубокого обучения, предлагая новый подход к реализации высокогибкой и масштабируемой системы трехмерной визуализации в промышленных и потребительских сценариях. Предлагаемый метод генеративной асинхронной трехмерной визуализации позволяет обучаться внутренним характеристикам изображений полос структурированного света на основе небольшого количества образцов данных под руководством “интеллектуальных” априорных знаний и решать задачи асинхронной трехмерной визуализации в различных сценариях с высокой степенью обобщаемости. Представленная новая базовая архитектура позволяет преодолеть ограничения устройств визуализации и предлагает новые идеи для исследований и дальнейшего развития технологии визуализации на основе структурированного света.