국산 CAD 자존심 캐디안의 ‘AI 도전기’ - 첫 번째 이야기

[기술기고 ①] AI 통해 설계 기술 혁신 가능…이미지 인지기술, 멀티모달 러닝 기반 생성형 AI 기술 주목

강동식 기자

lavita@datanews.co.kr | 2024.04.02 09:04:39

[전문가의 눈] ‘캐디안’이 그리는 ‘AI와 설계기술의 만남’ - 첫번째 이야기

최근 대부분의 산업에서 인공지능(AI)을 활용해 생산성과 경쟁력을 높이기 위한 경쟁이 치열하다. 설계 산업 역시 이러한 움직임이 활발하다. 국산 캐드(CAD)의 대명사인 캐디안(구 인텔리코리아)은 4년 전 기술연구소에 AI솔루션팀을 발족하고 AI와 설계 기술의 접목을 위한 여정을 시작했다. 캐디안 기술연구소 한명기 상무의 특별기고를 통해 AI를 설계 기술에 적용하기 위한 캐디안의 끊임없는 노력을 뒤따라가면서 설계 산업의 AI 도입 의미와 최적의 적용 방안을 알아본다. [편집자주]

▲객체 탐지 전 평면도 이미지(위 왼쪽)와 객체 탐지를 완료한 결과를 표시한 이미지(아래 왼쪽). 의미 분할전 평면도 이미지(위 오른쪽)와 의미 분할된 결과를 표시한 이미지(아래 오른쪽) / 자료=캐디안

캐디안은 AI를 통한 설계 기술의 혁신 가능성에 주목하고 수년 전부터 이를 실현하는 데 역량을 집중해 왔다. 캐디안은 2010년 말 AI솔루션팀을 만들어 모든 가능성을 열어 놓고 AI와 설계 기술의 접목을 검토했다. 그 결과, 이미지 인지기술과 멀티모달 러닝 기반 생성형 AI 기술을 설계 기술에 접목해 혁신을 불러일으킬 수 있을 것으로 판단했다.

■이미지 인지기술(Image Recognition AI)=캐디안이 첫 번째 주목한 기술은 CNN(Convolutional Neural Network) 기술 기반의 이미지 인지기술(Image Recognition AI)이다.

이미지 인지기술은 이미지 내 객체가 무엇인지를 식별하는 기술이다.

▲이미지를 특정 객체로 분류하는 이미지 분류(Image Classification) ▲이미지 내의 여러 객체가 각각 무엇인지 분류하는 객체 탐지(Object Detection) ▲이미지 전체를 분류하려는 객체군들로 분할하는 의미론적 분할(Semantic Segmentation) 등이 여기에 포함된다. 이 AI 알고리즘은 설계의 다양한 범주에서 사용될 것으로 판단했다.

특히 캐디안이 주 대상으로 하는 도면 이미지 데이터에 있는 객체, 구조체, 문자 등을 인지하는 작업을 원활하게 수행하는데 객체 탐지와 의미론적 분할이 큰 역할을 할 것으로 판단했다.

■멀티모달(Multi-Modal) 러닝 기반 생성형 AI 기술=멀티모달(Multi-Modal) 러닝은 단일 모달 데이터, 즉 단일 데이터 형태만을 학습에 이용하는 한계를 극복하기 위해 여러 모달의 데이터를 사용해 주어진 문제를 해결하는 모델을 구축하는 방법론이다.

이는 주로 인간의 행동 인식이나 감정 인식 등의 문제에서 활발히 연구되고 있는 분야로, 단일 모달을 활용할 때보다 우수한 성능을 입증하고 있다. 멀티모달 딥러닝은 각 모달에 적합한 딥러닝 구조를 사용해 특징 벡터를 추출하고, 이를 기반으로 각 모달을 통합한다.

‘Text to Image Generation’은 입력된 텍스트 정보에 해당하는 이미지를 생성하는 멀티모달 AI 기술이다. 딥러닝 기술의 발전으로 2010년대 중반 개발되기 시작해 2022년에는 오픈(Open)AI의 ‘달리(DALL-E) 2’, 구글 브레인(Google Brain)의 ‘이마젠(Imagen)’, 스태빌리티(Stability)AI의 ‘스테이블 디퓨전(Stable Diffusion)’과 같은 최첨단 텍스트-이미지 모델의 출력물이 실제 사진과 사람이 그린 예술품의 품질에 접근하기 시작했다.

예를 들어 달리 모델은 120억 개의 파라미터를 가진 GPT-3(Generative Pre-trained Transformer 3)와 이미지 생성을 위한 ‘dVAE(discrete VAE)’에 기반하며 약 2억5000만 개의 데이터셋(텍스트 이미지 쌍)으로 학습됐다.

달리(DALL-E) 모델은 이미지를 생성하는 모델이기 때문에 텍스트 토큰을 입력하고 1024(32×32)개의 이미지 토큰을 ‘autoregressive’하게 출력하는 과정으로 학습한다. 또는 텍스트 토큰과 이미지 토큰의 일부를 입력하면서 다음 이미지 토큰을 순차적으로 출력하게 할 수도 있다.

다시 말해 트랜스포머(transformer) 디코더에 텍스트 토큰과 이미지 토큰을 입력하고 출력된 다음 이미지 토큰을 다시 입력 이미지 토큰에 추가해 디코더 포워딩을 수행하는 과정을 반복해 학습을 진행하는 것이다.

이는 트랜스포머가 입력 텍스트에 따라 어떤 이미지 토큰을 생성하면 되는지를 학습하는 과정이다. 최종적으로 1024개의 이미지 토큰이 모두 쌓이면 dVAE에 넣어 결과 이미지를 생성하게 되는 것이다.

▲달리(DALL-E)에서 프롬프트 텍스트에 사용자의 요구사항을 텍스트로 입력하면 두 종류의 임베딩을 연결해 원하는 이미지가 생성되는 절차를 표시한 예시 / 자료=캐디안

또 하나의 솔루션은 AI 디자인 연구실에서 만든 ‘미드저니(Midjourney)’다. 미드저니 또한 프롬프트라는 텍스트를 통해 이미지를 생성하는 AI 모델이다. 오픈AI의 달리(DALL-E)와 유사하다.

그러나 미드저니가 달리(DALL-E)보다 높은 퀄리티의 그림을 뽑아낸다고 알려져 있다. 미드저니는 GAN(Generative Adversarial Network)이라는 딥러닝 알고리즘을 기반으로 한 AI 모델이다.

GAN 알고리즘은 서로 경쟁하는 두 개의 모델을 학습시켜서 실제 같은 가짜 이미지를 생성하는 방식으로 유명하다. 이 알고리즘을 사용해 학습된 미드저니는 AI 모델 중에서도 특히 높은 퀄리티의 그림을 생성해 인기가 높다.

‘Text to Image Generation’에서 캐디안이 주목한 것은 설계자 및 고객의 초기 아이디어나 콘셉트를 이미지라는 형상으로 구체화하거나 독창적인 아이디어의 영감(Insight)을 제공할 수 있을 것으로 판단된다는 점이다.

종종 이 기술의 결과물인 이미지가 설계를 대체할 수 있지 않을까 하는 기대 섞인 논평이 있지만, 이 모델의 결과는 래스터(Raster)일 뿐 좌표를 기반한 치수를 가진 벡터(Vector) 데이터가 아니다. 다만, 최종 결과물인 래스터의 결과물도 설계자에 충분히 유용할 것으로 판단된다.

다양한 사전 검토를 기반으로 캐디안은 AI 이미지 인지 기반으로 두 가지 솔루션에 우선 접목할 수 있을 것으로 판단했다. 첫 번째는 이미지 도면에서 CAD 도면으로의 재생성이고, 두 번째는 적산 기능이다. 적산은 또 다시 두 유형으로 나뉜다. 정산용 적산과 견적용 적산이다.

▲캐디안 TWArch(전통 목조건축 AI-CAD) 프로그램에 공포 상세도의 정면도 측면도를 입력하면 AI 인지기능과 도면 작성 프로그램을 이용해 생성되는 최종 결과물(2D·3D 도면, 조립도, 단면도 등) 표시 / 자료=캐디안

솔루션을 본격적으로 구체화하기 위해 캐디안은 2021년부터 2023년까지 한국전자통신연구원(ETRI)과 공동으로 ‘AI 기반의 고건축 손도면 이미지 CAD 도면화 솔루션’ 개발에 참여해 벡터라이징 기술과 AI 기반 OCR 인지 기술을 통해 고건축 손도면 이미지를 CAD 도면으로 변환하는 기술을 개발했다.

이 결과를 기반으로 지난해 9월 AI 기반 전통건축 손도면 CAD 도면화 프로그램인 ‘캐디안(CADian) TWArch(전통 목조건축 AI-CAD)’를 출시했다. 이 개발로 캐디안은 AI 객체 인지 기반 도면화 기술의 기초를 확보했다.

‘캐디안 TWArch’는 전통 목조건축의 핵심 부분인 ‘공포계(지붕 하중 지지부)’의 옛 손도면 이미지를 2D/3D로 도면화하는 설계 툴이다. 이 도구에는 AI 기반 객체 탐지 및 부재 라이브러리 고속화, AI 기반 노이즈 제거, 도면 수정‧편집, AI 기반 객체 벡터화 및 프로세스 제어, 디지털 도면 데이터 관리기술 등이 유기적으로 연결되도록 구성됐다.

캐디안 TWArch는 객체 탐지 성능 93% 이상, 탐지된 객체 기반 CAD 도면화 비율 91% 이상의 성능을 보여 전통 목조건축업계의 비상한 관심을 받고 있는 것으로 알려졌다.