Научная визуализация

Scientific Visualization

Электронный журнал открытого доступа

Национальный Исследовательский Ядерный Университет "МИФИ"

      ISSN 2079-3537      

 
 
 
                                                                                                                                                                                                                                                                                                                                                                                                                                                                             

Научная визуализация, 2025, том 17, номер 1, страницы 65 - 85, DOI: 10.26583/sv.17.1.06

Применение инструментов компьютерного зрения PyTorch3D и NERF для построения облака точек трехмерной модели и определения положения камеры фотоснимков в пространстве

Авторы: В.В. Коньков1, А.Б. Замчалов2

Институт интеллектуальных кибернетических систем, Национальный исследовательский ядерный университет "МИФИ", Москва, Россия

1 ORCID: 0009-0005-1197-2248, vlad.konkov.7145@gmail.com

2 ORCID: 0009-0006-0955-1062, andreizam@yandex.ru

 

Аннотация

В последнее время компьютерная графика играет ключевую роль в решении задач компьютерного зрения. Проблема преобразования 2D изображений в 3D модели продолжает оставаться актуальной, так как требует точного определения положения камеры и построения точных трёхмерных моделей объектов. Традиционные методы зачастую ограничены в применении и не предлагают комплексного решения. В данном исследовании рассматривается использование библиотек PyTorch3D и NERF для определения положения камеры в 3D пространстве и создания трёхмерной модели объекта по одному 2D изображению. В качестве метода подготовки данных был использован аппаратно-программный комплекс, включающий устройство для управления шаговым двигателем, обеспечивающее ручное и последовательное позиционирование камеры и её возврат в исходное положение, систему управления съёмкой для формирования комплексного набора фотоснимков на каждой позиции камеры, и механизм отправки данных на удалённый компьютер для дальнейшей обработки. В ходе исследования была выбрана библиотека PyTorch3D для изучения возможностей преобразования 2D изображений в 3D модели или определения положения объекта на фотоснимках. Процесс обработки включал в себя несколько шагов: построение облака точек для генерации объёмной 3D модели объекта, определение положения камеры в 3D пространстве по одному 2D изображению с использованием алгоритмов обратной задачи, а также построение 3D объекта с помощью дифференцируемой отрисовки, создание 3D вокселей и 3D мешей. Результаты исследования показали успешное определение положения камеры в 3D пространстве и построение трёхмерной модели объекта по одному 2D изображению, что демонстрирует преимущества использования библиотеки PyTorch3D по сравнению с другими существующими моделями. Эти данные могут быть применены в разработке программных и аппаратных систем для создания трёхмерных изображений на основе 2D фотографий. Исследование подтвердило актуальность и эффективность применения библиотеки PyTorch3D для решения задач преобразования 2D изображений в 3D модели. В дальнейшем работа будет направлена на расширение функциональных возможностей системы и её использование в различных областях компьютерного зрения.

 

Ключевые слова: компьютерное зрение; PyTorch3D; NERF; 3D-моделирование; позиционирование камеры, облако точек; глубокое обучение; 3D-реконструкция; дифференцированный рендеринг.