Нейрогенеративные сети в настоящее время активно внедряются в различные сферы человеческой деятельности и оказывают значительное влияние на рабочие процессы, демонстрируя вместе с тем впечатляющие возможности в создании новых данных, подобных тем, на которых они были обучены, от генерации реалистичных изображений и видео до создания музыки и написания текстов. Генеративные сети продемонстрировали свою способность к творчеству и инновациям, выходящим за рамки традиционных алгоритмов. В области дизайна, например, они используются для создания новых концепций продуктов, архитектурных проектов и модных коллекций [1-3].
Помимо сфер развлечений и медиа-индустрии, генеративные нейронные сети активно внедряются в высокотехнологичные отрасли, такие как банковский сектор, юриспруденция и промышленное производство. В медицине ведутся исследования по применению нейросетевых технологий для анализа медицинских изображений и разработки персонализированных планов лечения.
Однако, несмотря на впечатляющий потенциал, применение
генеративных нейросетейв производственных задачах,
особенно в автоматизированном проектировании (САПР), сталкивается с серьезными
вызовами [4]. Хотя потенциально нейросетиспособны
генерировать конструкторскую документацию и трехмерные модели, их "черный
ящик" — непредсказуемость и непрозрачность процесса генерации — становится
существенных и опасным ограничением.
В отличие от традиционных методов САПР, где каждый шаг
проектирования контролируется и документируется, нейросетичасто выдают результаты без ясного объяснения, как они были получены, что
делает сложной валидациюрезультатов, поиск и
исправление ошибок, а также внесение корректировок в процессе моделирования.
Это затрудняет доверие к результатам и ограничивает возможности их
использования в ответственных проектах, где требуется строгий контроль качества
и соответствие стандартам. В результате, несмотря на потенциал к автоматизации
и ускорению процесса проектирования, внедрение генеративных нейросетейв производственные процессы САПР требует решения проблемы "черного
ящика" и разработки методов, обеспечивающих детерминированный контроль и
понятность процесса генерации.
В рамках данного исследования предлагается концепция
гибридного методологического подхода, призванного преодолеть указанные
ограничения. В основе подхода лежит синергия обработки естественного языка
(NLP) и верифицированных инженерных программных комплексов. Предполагается, что
сочетание этих двух подходов позволит минимизировать вероятность возникновения
погрешностей и неточностей в процессе проектирования, обеспечивая при этом
необходимый уровень контроля со стороны специалистов.
Предлагаемая методология базируется на интеграции
возможностей систем искусственного интеллекта в области обработки естественного
языка и оперативного генерирования вариативных решений с существующими
алгоритмами построения CAD-моделей в отечественных системах автоматизированного
проектирования, таких как КОМПАС-3D [5] и TeFlex[6].
Обоснованность предложенного подхода подтверждается тем, что
исключительное использование нейросетевыхтехнологий
не обеспечивает гарантированного учета всех конструктивных особенностей и не
предоставляет возможности мануальной корректировки выявленных несоответствий. В
ходе экспериментальной верификации концепции была использована открытая
программная платформа Blender, где посредством
интеграции двух технологических подходов были синтезированы базовые трехмерные
геометрические структуры: сфера, куб, конус и зубчатое колесо. Каждый
геометрический объект характеризовался возможностью параметрической
модификации.
Таким образом, данное исследование направлено на разработку
и верификацию гибридного методологического подхода к автоматизированному
проектированию, сочетающего возможности ИИ и традиционных CAD-систем.
Результаты исследования могут способствовать повышению эффективности и точности
процесса проектирования, а также расширению возможностей контроля со стороны
специалистов.
Предлагаемая методология представляет собой гибридный подход
к автоматизированному 3D-моделированию, сочетающий обработку естественного
языка (NLP) с использованием проверенных инженерных программных комплексов
(САПР), например, КОМПАС-3D или TeFlex. Данный подход
направлен на минимизацию ошибок и повышение точности процесса моделирования по
сравнению с использованием исключительно генеративных нейронных сетей. Ключевое
преимущество заключается в проверке параметров скрипта, генерируемого ИИ,
вместо проверки всей сгенерированной модели.
Вместо непосредственного использования нейросетидля генерации 3D-модели, которое чревато скрытыми ошибками, применяется
текстовый ИИ для создания управляющего скрипта на языке программирования,
совместимом с выбранной САПР. Это позволяет сместить фокус контроля с проверки
готовой модели на верификацию параметров, заданных в скрипте, обеспечивая более
раннее выявление и исправление потенциальных ошибок. Итеративный характер
процесса предполагает корректировку промптаи скрипта
на основе анализа промежуточных результатов, что обеспечивает гибкость и
высокую точность конечной 3D-модели.
В процессе исследования был составлен примерный алгоритм,
позволяющий применить подобный подход на практике. Схема его представлена на
рис.1.
Рис 1. Алгоритмическая схема описываемой методологии
1) Формулировка задачи: Четкое определение требований к 3D-модели, включая
функциональность, геометрические параметры и ограничения.
2) Составление промпта: Формулировка текстового
запроса (промпта) для текстового ИИ, описывающего
желаемую 3D-деталь, учитывая результаты этапа 1.
3) Генерация скрипта: Использование текстового ИИ для генерации управляющего кода (скрипта) на языке программирования, совместимом с выбранной САПР-системой (например, Python для Blender, языки программирования, поддерживаемые КОМПАС-3D или TeFlex).
4) Обработка скрипта в САПР: Запуск сгенерированного скрипта в САПР-системе для автоматического построения 3D-модели.
5) Корректировка и валидация: Анализ полученной 3D-модели специалистом. Внесение необходимых корректировок в промптили скрипт на основе анализа результатов. Повторение этапов 3-5 до достижения удовлетворительного результата.
6) Сохранение модели: Сохранение готовой 3D-модели в подходящем формате для дальнейшего использования (например, для стереоскопического отображения).
Данная методология предлагает компромисс между
автоматизацией и контролируемостью процесса 3D-моделирования, сочетая
преимущества ИИ и проверенных инженерных инструментов. В числе позитивных
факторов можно перечислить такие, как сокращение времени моделирования за счет
автоматизации процесса, однако в отличие от использования специальных нейронных
сетей для 3D-моделирования здесь есть возможность контролировать процесс и сразу вносить необходимые
корректировки. Также снижается порог входа для пользователей без глубоких
знаний в программировании для выполнения однотипных производственных задач,
вместе с тем ценность продвинутых специалистов только возрастает, так как
задачи валидациии верификации требуют углубленных
профессиональных знаний и большого опыта.
Однако использование такой методологии ставит новый ряд проблем, которые необходимо учитывать при работе. В их числе:
∙ зависимость от качества текстового ИИ и корректности промпта;
∙ необходимость базовых знаний в работе с выбранной САПР-системой;
∙ возможность ошибок в сгенерированном скрипте;
∙ ограниченность только текстовым описанием при формулировании промта, что создает неудобство для инженеров.
Следует отметить, что существует два подхода к 3Dмоделированию: ручное моделирование (Manual Modeling), которое позволяет создавать более уникальные и детализированные объекты, и скриптовое моделирование (Scripted Modeling), которое больше ориентировано на автоматизацию процесса моделирования и создание параметрических моделей. Скриптовое моделирование подходит для создания сложных структур или серии похожих объектов с варьирующимися параметрами, которые трудно смоделировать вручную.
Скриптовое моделирование применяется в следующих областях:
∙ создание параметрических моделей (детали машин, архитектурные элементы);
∙ генерация сложных структур и паттернов;
∙ автоматизация процесса моделирования;
∙ проекты, требующие высокой точности и
воспроизводимости.
Скриптовое моделирование характеризуется необходимостью
помимо навыков моделирования обладать также навыками программирования.
Программирование такого скрипта требует знания основ синтаксиса и понимания
алгоритмов построения объектов, также следует учитывать время отладки программы
и тестирования её работы.
Простое задание вроде рисования примитивов может занять у
начинающего программиста 1–2 часа на написание программы и её отладку. У
профессионального разработчика с опытом написания скриптов на языках Python или JavaScript такое же
простое задание может занять от 10 до 30 минут. Предложенный подход позволяет
сократить время на создание отдельного скрипта и повысить эффективность работы.
В ходе экспериментальной верификации концепции была
использована открытая программная платформа Blender[7], где посредством интеграции двух технологических
подходов были синтезированы базовые трехмерные геометрические структуры: сфера,
куб, конус и зубчатое колесо.
В качестве платформы для проведения предварительных
экспериментов система Blender была выбрана благодаря
следующим факторам:
1) открытый исходный код и свободная доступность: Использование Blender исключает лицензионные ограничения и обеспечивает
неограниченный доступ к исходному коду;
2) поддержка скриптованияна языке Python;
3) наличие развитого API и обширного сообщества: Хорошо документированный
API и активное сообщество разработчиков Blender обеспечивают доступ к широкому спектру инструментов и библиотек, что упрощает
интеграцию с внешними системами и расширяет возможности проведения
экспериментов;
4)Blender предоставляет инструменты для
параметрического моделирования, что позволяет создавать 3D-модели с изменяемыми
параметрами, задаваемыми через скрипты. Это существенно для проверки гипотезы о
влиянии параметров, заданных текстовым ИИ, на характеристики генерируемых
моделей;
5) Blender предоставляет широкий набор
инструментов для последующего ручного редактирования и модификации 3D-моделей,
что позволяет проводить провести анализ результатов и внести необходимые корректировки.
Был применен метод автоматизированного моделирования с
использованием программирования, основанный на исполнении программного кода
(скрипта). В рамках данного подхода, геометрическое моделирование
осуществляется посредством автоматического выполнения программного кода
(скрипта), генерируемого внешней системой. Этот подход демонстрирует высокую
производительность при генерации примитивных геометрических форм и относительно
простых составных объектов, геометрия которых полностью определяется набором
входных параметров.
Также подобный подход позволяет легко варьировать заданные
параметры в различных сочетаниях (рис. 2).
Рис 2. Пример использования управляющего кода для моделирования для моделирования 3D фигуры (шестеренки)
Изначально фигура была задана описанием следующего набора
параметров (табл.1):
Таблица 1. Набор формирующих параметров для 3D-модели зубчатой шестеренки.
def create_gear_2_82(
teeth= 12, # количество зубьев
radius=0. 1, # радиус (10 см )
thickness=0. 02, # толщина (2 см )
tooth_depth =0. 02, # глубина зуба (2 см )
tooth_width =0.02 # ширина зуба (2 см )
|
По результатам исполнения скрипта программой была
сформирована модель шестеренки, представленная на рис. 3.
Данный подход обеспечивает возможность оперативной
программной модификации сгенерированной 3D-модели. В качестве иллюстрации, на
рис. 4 представлен пример параметрической модификации геометрии конуса
(параметры приведены в табл. 2). Она заключается в выполнении операции булевого
вычитания, в результате которой из исходного конуса удаляется сегмент,
составляющий четверть его объема.
Рис 3. Визуализация детали «шестеренка»
Таблица 2. Набор формирующих параметров для 3D-модели конуса.
# Создание конуса
# Радиус основания = 0.1 метра (10 см)
# Глубина (высота) = 0.2 метра (20 см) - можно изменить по желанию
bpy.ops.mesh .primitive_cone_add (
radius 1=0. 1, # радиус основания в метрах
radius 2= 0, # радиус верхушки (0 для острого конуса)
depth =0. 2, # высота конуса
location =( 0, 0, 0.1) # расположение (подняли на половину высоты, чтобы основание было на уровне сетки)
)
|
Рис. 4 Конус с вырезанным сегментом
Визуализация посредством стереоскопических технологий
существенно усиливает для зрителя восприятие глубины и пространственных характеристик
объекта, приближая его представление к реальному восприятию. Ключевое
преимущество этого метода заключается в создании условий, максимально
приближенных к естественному зрительному восприятию.
В рамках проекта, проводимого в ИПМ им. М.В. Келдыша РАН,
исследуются методы создания стереоскопических представлений результатов научных
исследований. Для экспериментов используются две стереоскопические системы:
классическая установка и автостереоскопическиймонитор Dimenco,
обеспечивающий просмотр стереоизображения без специальных очков.
Автостереоскопическиймонитор позволяет формировать
интегрированное изображение, включающее множество
ракурсныхпроекций объекта, тем самым расширяя диапазон углов обзора. Подробное описание
технологии автостереоскопическогоотображения
приведено в работе [8-9].
На рис. 5 представлен образец составного стереоскопического
кадра, построенного по методу multi-view(справа) и отдельно
увеличенное изображение, позволяющее рассмотреть детали (слева). Левое
изображение носит чисто иллюстративный характер и не является частью
стереокадра.
Рис 5. Результаты гибридного моделирования шестеренки
(основной кадр + представление multi-view)
Также в стереопредставлениибыла
продемонстрирована модифицированная модель конуса с удаленным сегментом,
составляющим четверть объема модели (рис. 6).
Рис 6. Результаты гибридного моделирования конуса с
вырезанным сегментом (основной кадр + представление multi-view)
Сложная геометрия 3D-моделей, характеризующаяся наличием
криволинейных поверхностей, представляет значительный интерес для исследований
стереоскопического восприятия, поскольку субъективное восприятие глубины и
формы может варьироваться в широком диапазоне в зависимости от множества
факторов, включая индивидуальные особенности зрительной системы и физические
размеры объекта.
В данной работе был представлен новый гибридный подход к
автоматизированному 3D-моделированию, сочетающий обработку естественного языка
(NLP) и традиционные методы САПР. Такой подход, основанный на генерации
скриптов с помощью ИИ и последующей их обработке в специализированном
программном обеспечении, демонстрирует ряд преимуществ и недостатков, которые
необходимо обсудить для оценки его практической применимости и перспектив
дальнейшего развития.
С одной стороны, предложенный метод демонстрирует
значительный потенциал для повышения эффективности и точности процесса
3D-моделирования. Автоматизация генерации скриптов на основе текстовых описаний
существенно сокращает время, необходимое для создания базовых моделей, а
возможность проверки параметров скрипта на ранних этапах позволяет
минимизировать ошибки и повысить надежность конечного результата. Гибкость
итеративного процесса, позволяющего корректировать как текстовые запросы, так и
сгенерированный код, делает данный подход адаптируемым к различным задачам и требованиям.
Специалист может сосредоточиться на корректировке и улучшении модели, а не на
рутинном создании базовой геометрии. По мере использования системы и
корректировки результатов, можно обучать ИИ для улучшения качества генерируемых
скриптов
Однако необходимо признать и определенные ограничения.
Качество генерируемых скриптов напрямую зависит от качества текстового запроса
(промпта), что требует от пользователя определенных
навыков и понимания возможностей ИИ. Кроме того, необходимость ручной корректировки
и валидациирезультатов ограничивает степень полной
автоматизации процесса. Возможны также ошибки в сгенерированном коде, требующие
вмешательства специалиста. Наконец, применимость данного подхода может быть
ограничена возможностями используемых САПР-систем и языков программирования.
Также на данном этапе существуют проблемы с масштабируемостью: подход может
быть эффективен для создания отдельных деталей, но его возможности для сложных
сборок и проектов могут быть ограничены.
Проведено сравнение предлагаемого гибридного подхода с
существующими подходами к 3D-моделированию с использованием нейросетей,
которые можно примерно разделить на несколько категорий.
1. Полностью генеративные модели [10]: Эти модели, такие как
PointNeRF, GAN-basedмодели (например, StyleGANдля 3D), используют нейронные
сети для генерации 3D-моделей непосредственно из шума или латентного
пространства. Среди их преимуществ высокая скорость генерации, возможность
создания новых уникальных форм. Однако в их случае проблема "черного ящика"
становится ярко выраженной. Трудно контролировать процесс генерации и вносить
корректировки, поэтому качество моделей может быть непредсказуемым, и конечная
пост-обработка может занять столько же времени, сколько и проектирование с
нуля. Такой метод подходит для использования в областях, где не требуется
точность и внимание к деталям.
2. Модели, основанные на преобразовании 2D в 3D [11]:
Эти моделииспользуют нейронные сети для преобразования
2D-изображений (или множества изображений) в 3D-модели. Примеры включают в себя
методы, основанные на многовидовых изображениях или на эскизах. Это дает
возможность создания 3D-моделей из доступных 2D-данных (фотографий, рисунков).
Однако качество 3D-моделей сильно зависит от качества и количества 2D-данных.
Может быть сложно получить точную геометрию и детализацию. Проблема
"черного ящика" также присутствует.
Предлагаемый гибридный подход занимает промежуточное
положение между полностью генеративными моделями и скриптовым моделированием.
Он использует текстовый ИИ для преобразования неформальных требований в
параметры, которые затем используются для управления генерацией 3D-модели.
После генерации модель может быть доработана вручную.
Существует ряд перспективных направлений для дальнейших
исследований и улучшений. Вот некоторые из них:
∙ разработка специализированных текстовых ИИ для САПР;
∙ автоматизация промпт-инжиниринга: разработка
алгоритмов, которые автоматически генерируют оптимальные
промптына основе заданных требований к 3D-модели;
∙ интеграция с базами знаний и онтологиями;
∙ разработка API для обмена данными между
нейросетямии САПР-системами: создание стандартизированных API, которые позволяют легко
интегрировать нейросетис существующими
САПР-системами;
∙ интерактивное редактирование моделей: Разработка интерфейсов, которые
позволяют специалистам интерактивно редактировать сгенерированные модели,
используя инструменты САПР, и автоматически обновлять скрипты;
∙ интеграция с системами, распознающими чертежи: это позволит составлять
смешанный промпт, основанный на графическом запросе и
текстовом описании.
В статье рассматривается гибридный подход к
3D-моделированию, сочетающий обработку естественного языка и традиционные
методы САПР, который демонстрирует перспективное сочетание автоматизации и
контролируемости. Описана методология подхода. Методология опробована на
реальных задачах моделирования. Представлены результаты работ по построению на
автостереоскопическоммониторе с помощью многовидового
представления.
Несмотря на выявленные ограничения, связанные с качеством
входных данных и необходимостью ручной корректировки, метод показал
значительный потенциал для ускорения и повышения точности процесса создания
3D-моделей, особенно для параметрических задач. Дальнейшие исследования должны
быть направлены на улучшение качества генерации скриптов, автоматизацию
процесса валидациии расширение совместимости с
различными САПР-системами. Полученные результаты открывают новые возможности
для повышения эффективности и доступности 3D-моделирования для широкого круга
пользователей.
1. J. Ho, A. Jain, P. Abbeel, Denoising Diffusion Probabilistic Models, 2020, https://doi.org/10.48550/arXiv.2006.11239 (дата обращения 29.03.2023)
2. C. Meng, Y. He, Y. Song, J. Song, J. Wu, J. Zhu, S. Ermon, SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations, 2022, https://doi.org/10.48550/arXiv.2108.01073
3. Radford A., Jong W.K., Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. 2021. Learning Transferable Visual Models From Natural Language Supervision. arXiv preprint arXiv:2103.00020 [cs.CV]. https://doi.org/10.48550/arXiv.2103.
4. Бондарева Н.А. Графические нейронные сети и проблемы верификации изображений // Труды 33-ой Международной конференции по компьютерной графике и машинному зрению ГрафиКон 2023, Институт проблем управления им. В.А. Трапезникова РАН, Москва, Россия, 19-21 сентября 2023 г., c.317-327, DOI: 10.20948/graphicon-2023-317-327
5. КОМПАС-3D Российская импортонезависимая система трехмерного проектирования. URL: https://kompas.ru/ (дата обращения 29.04.2025)
6. T-FLEX CAD Российское инженерное ПО для 3D проектирования и разработки конструкторской документации URL: https://www.tflexcad.ru/ (дата обращения 29.04.2025)
7. Blender URL: https://www.blender.org/ (дата обращения 29.04.2025)
8. Andreev S.V., Bondareva N.A. Constructing a representation of textual information in stereo presentations // Proceedings of the 28-th International Conference of Computer Graphics and Vision GraphiCon-2018. — TUSUR Publishing — Tomsk, 24–27 September 2018 — P. 86–89.
9. Andreev S.V., Bondareva N.A., Bondarev A.E. Expansion of the Functions of the Multi-View Stereomaker Software for Automatic Construction of Complex Stereo Images // Scientific Visualization. — 2021. — Vol. 13 — N 2 — P. 149-156. DOI: 10.26583/sv.13.2.10
10. Masterpiece Studio URL: https://masterpiecestudio.com/ (дата обращения 29.04.2025)
11. Kaedim AI-powered Art Outsourcing URL: https://www.kaedim3d.com/ (дата обращения 04/29/2025)
Development of a Methodology for the Application of Generative Neural Networks in Creating 3d Models
Authors: N.A. Bondareva1, A.E. Bondarev2, S.V. Andreev3, I.G. Ryzhova4
Keldysh Institute of Applied Mathematics RAS, Moscow, Russia
1 ORCID: 0000-0002-7586-903X, nicibond9991@gmail.com
2 ORCID: 0000-0003-3681-5212, bond@keldysh.ru
3 ORCID: 0000-0001-8029-1124, esa@keldysh.ru
4 ORCID: 0000-0003-1613-3038, ryzhova@gin.keldysh.ru
Abstract
The article considers the current scientific and technical problem of integrating generative neural network architectures into the process of automated 3D modeling. Despite significant progress in this area, existing solutions are often characterized by insufficient transparency and limited capabilities of deterministic control by design engineers. In this regard, the concept of an innovative hybrid methodological approach based on the synergistic interaction of intelligent natural language processing systems and verified engineering software packages is proposed. The purpose of the proposed approach is to significantly increase the efficiency and accuracy of the design process by minimizing the likelihood of errors and ensuring the possibility of prompt adjustment at all stages of creating 3D models. The methodology is based on the integration of AI capabilities in the field of semantic analysis and generation of variable design solutions with existing CAD modeling algorithms. The results of experimental verification of the proposed concept are presented, demonstrating a significant reduction in the time spent on creating 3D models compared to traditional methods, which indicates the promise of the developed approach for practical application in engineering activities.
Keywords: 3d modeling, Computer-aided design (CAD), Generative neural networks, Autostereoscopic monitor.
2. C. Meng , Y. He, Y. Song, J. Song, J. Wu, J. Zhu, S. Ermon , SDEdit : Guided Image Synthesis and Editing with Stochastic Differential Equations, 2022, https://doi.org/10.48550/arXiv.2108.01073
3. Radford A., Jong WK, Hallacy C., Ramesh A., Goh G., Agarwal S., Sastry G., Askell A., Mishkin P., Clark J., Krueger G., Sutskever I. 2021. Learning Transferable Visual Models From Natural Language Supervision. arXiv preprint arXiv:2103.00020 [cs.CV]. https://doi.org/10.48550/arXiv.2103.
4. Bondareva N.A. Graphic neural networks and image verification problems // Proceedings of the 33rd International Conference on Computer Graphics and Machine Vision GraphiCon 2023, V.A. Trapeznikov Institute of Control Sciences of the Russian Academy of Sciences, Moscow, Russia, September 19-21, 2023, pp . 317-327, DOI : 10.20948/ graphicon -2023-317-327
5. KOMPAS-3 D Russian import-independent system of three-dimensional design. URL : https://kompas.ru/ (date of access 29.04.2025)
6. T - FLEX CAD Russian engineering software for 3D design and development of design documentation URL : https :// www . tflexcad . ru / (date of access 04/29/2025)
7. Blender URL : https://www.blender.org/ (accessed 29.04.2025)
8. Andreev SV, Bondareva NA Constructing a representation of textual information in stereo presentations // Proceedings of the 28th International Conference of Computer Graphics and Vision GraphiCon-2018. Ч TUSUR Publishing Ч Tomsk, 24Ц27 September 2018 Ч P. 86Ц89.
9. Andreev SV, Bondareva NA, Bondarev AE Expansion of the Functions of the Multi-View Stereomaker Software for Automatic Construction of Complex Stereo Images // Scientific Visualization. Ч 2021. Ч Vol. 13 - N 2 - P. 149-156. DOI: 10.26583/sv.13.2.10
10. Masterpiece Studio URL: https://masterpiecestudio.com/ (date appeals 04/29/2025)
11. Kaedim AI-powered Art Outsourcing URL: https://www.kaedim3d.com/ (date appeals 04/29/2025)