멀티모달 데이터 플랫폼 전문기업 미소정보기술(대표 남상도)은 VLM(Vision Language Model) 기반 3세대 광학문자인식(OCR) ‘빅스(ViiX)’를 출시한다고 17일 밝혔다.
빅스는 병원 의료기록, 제조, 건설 문서 등 산업 현장에서 생성되는 다양한 문서를 대규모언어모델(LLM)을 통해 이해하고 데이터로 변환하는 도메인 특화 최신 OCR 솔루션이다.
최근 기업 데이터의 대부분이 문서·이미지·도면 등 비정형 데이터 형태로 생성되면서 이를 자동으로 이해하고 활용하는 도큐먼트(Document)AI 시장이 빠르게 성장하고 있다. 특히 생성형 AI와 VLM 기술 발전으로 OCR 기술은 단순 문자 인식을 넘어 문서 구조와 의미까지 이해하는 지능형 문서 AI 단계로 진화하고 있다.
빅스는 이러한 변화에 대응해 문서의 레이아웃, 서체, 공간적 구조, 문맥(Context)까지 분석하는 기술을 적용했다. 이를 통해 단순 텍스트 인식을 넘어 문서를 데이터로 구조화하고 검색, 분석, 업무 자동화까지 연결하는 AI 기반 문서 처리 환경을 제공한다.
기존 1세대 OCR은 문자 인식 중심, 2세대 OCR은 딥러닝 기반 표 영역 인식 및 필드 추출 등을 지원했으나 신규 문서 양식이 추가될 때마다 재학습이 필요하고, 예외 케이스 처리 비용이 증가하는 한계가 있었다. 특히 의료 기록이나 제조, 건설 문서과 같은 전문 문서에서는 문맥 정보와 구조 이해 부족으로 정확도 문제가 발생하는 경우가 많았다.
3세대 OCR 빅스는 문서의 문맥과 구조를 함께 분석하는 방식으로 키-정보(Key-Value) 추출 정확도를 높였다. 또 HITL(Human in The Loop) 기반 학습 구조를 적용해 AI가 확신하지 못하는 데이터만 선별적으로 검수 요청을 수행하고 이를 통해 지속적으로 모델 성능을 개선하는 자가 진화(Self-learning) 구조를 구현했다.
미소정보기술은 여기에 20년간 의료·제조·건설 산업 현장에서 축적한 도메인 데이터를 기반으로 전문 학습 레이어를 적용한 도메인 특화 AI 모델을 구축했다. 또 자체 개발한 자연어처리(NLP)기술 ‘Smart TA(Text Analysis)’와 AI 모델 개발 및 운영 자동화 플랫폼 ‘액틱(ACTIC)’을 연계해 문서 인식 이후 데이터 분석 및 업무 자동화까지 확장 가능한 구조를 제공한다.
빅스는 제로샷(Zero-Shot) 기반 문서 이해 기술을 적용해 별도의 라벨링 없이도 다양한 문서 양식에 대응할 수 있도록 개발됐다. 이를 통해 작업지시서, 진료기록, 보험청구서, 계약서 등 산업 현장에서 생성되는 문서를 자동으로 분석하고 필요한 정보를 추출해 문서 처리 자동화를 지원하며, 제조, 의료, 건설 등 다양한 산업 분야에서 활용될 수 있다.
남상도 미소정보기술 대표는 “빅스는 미소정보기술이 20년간 산업 현장에서 축적한 도메인 지식을 AI 기술로 체계화한 결과물”이라며 “문서를 단순히 읽는 수준을 넘어 문서에 담긴 비즈니스 맥락을 이해하고 현장에서 업무 자동화를 구현하는 문서 AI 시대를 열겠다”고 말했다.
강동식 기자 lavita@datanews.co.kr
[ⓒ데이터저널리즘의 중심 데이터뉴스 - 무단전재 & 재배포 금지]