김범 엔코아 전략사업본부장 “데이터 가상화-레이크 최적 조합이 중요”

“데이터 가상화는 데이터 레이크의 좋은 보완재…데이터 분석·활용 해법, 데이터 전문가 엔코아가 가장 잘 찾아”

  •  
  •  
  •  
  •  
  • 프린트
  • 메일
  • 스크랩
  • 목록
  • 글자크기
  • 크게
  • 작게

▲김범 엔코아 전략사업본부장은 “데이터 가상화는 데이터 레이크의 문제를 해결할 수 있는 좋은 해법”이라며 “데이터 가상화와 데이터 레이크를 잘 조합하면 비용효율적이고 안전하게 데이터를 분석·활용해 기업의 경쟁력을 높일 수 있다”고 강조했다. / 사진=엔코아


방대한 데이터를 잘 모아 관리하고 분석, 활용하는 것이 기업 경쟁력을 좌우하는 핵심 요소가 됐다. 그야말로 데이터 전성시대다. 데이터를 관리, 분석, 활용하는 최적의 방법을 찾기 위한 노력은 전통적인 데이터웨어하우스(DW)에서 많은 기업이 관심을 갖기 시작한 데이터 레이크로, 또 최근 가장 뜨거운 이슈인 데이터 가상화로 이어지고 있다. 데이터 전문기업 엔코아의 전략사업본부를 이끌고 있는 김범 전무를 만나 데이터 관련 최신 트렌드와 이슈를 비롯해 데이터를 제대로 관리, 분석, 활용하기 위한 최적의 방안을 물었다. 

- 최근 DW의 대안으로 데이터 레이크에 대한 관심이 크다. 데이터 레이크를 어떻게 평가하나.

“데이터 레이크가 나온 것은 반정형·비정형 데이터 때문이다. 데이터 레이크는 DW, 데이터마트(DM)에 비해 목적성이 덜 분명하다. 일단 데이터를 쌓아놓고 다양한 분석을 통해 새로운 인사이트를 발굴하겠다는 것이다.

그런데 데이터 레이크는 데이터를 무한정 복사하고 저장한 뒤 분석하기 때문에 많은 시간과 비용이 든다. 또 데이터 중복 문제와 오래된 데이터로 인해 활용하는데 어려움이 크다. 비슷하거나 유사한 데이터도 많고 옛날 데이터도 많다. 그런데 함부로 지우지도 못한다. 이른바 ‘쓰레기 데이터’가 계속 쌓일 수밖에 없다.

무엇보다 원천 데이터가 계속 변함에 따라 데이터 레이크에 저장한 데이터를 계속 맞춰줘야 하는데, 굉장히 괴로운 작업이다.”

- 데이터 레이크와 관련해 비용 이슈가 생기는 이유가 무엇인가.

“투자 대비 효과(ROI)가 얼마나 있느냐가 문제다. 예를 들어 데이터 레이크에 100억 원, 200억 원 들어갔는데, 그 이상의 정량적·정성적 가치를 얻어냈느냐 하는 것인데, (비용이 워낙 많이 투입돼) 투자에 비해 뽑아내는 가치가 굉장히 부족하다.

데이터 레이크를 통해 뭔가 하려면 먼저 데이터를 물리적으로 (하나의 저장소로) 이동해야 한다. 그 다음에 최신 데이터로 맞춰야 하기 때문에 동기화를 해야 한다. 이를 위해 ETL(Extraction, Transformation, Loading) 솔루션, CDC(Capture Data Change) 솔루션 등을 사야 한다. 특히 데이터 보관을 위해 막대한 스토리지 비용이 필요하다. AWS나 마이크로소프트 같은 클라우드 스토리지 서비스 기업만 좋은 일이라는 생각이 든다.”

- 데이터 레이크에 대해 보안 관련 지적이 많다. 어떻게 봐야 하나.

“DW와 DM은 정보계다. 예전에는 관계형 데이터베이스(RDB) 기반으로 기간계 데이터를 정보계로 묶었다. 이 때 관계 법령에 따라 RDB 기반에서 개인정보와 민감정보에 대해 DB 암호화, DB 접근제어 등 기술적 조치를 해야 했다. 그런데 데이터 레이크에서 이상해졌다. 

개인정보와 민감정보에 대한 기술적 조치는 첫째 데이터를 가져간 사람에 대한 이력 확보(비인가자에 대한 통제), 둘째 민감정보에 대한 암호화 시행이다. 그런데 수 백 개의 데이터 레이크 프로젝트에서 이런 것을 어떻게 대응하고 있는지 봐야 한다.

예를 들어 A라는 사람의 주민등록번호 등 개인정보와 민감정보는 대체 키를 통해 결합해야 한다. 그런데 대체 키로 돼 있지 않고 복호화된 상태에서 분석한다. 데이터 레이크에 넣을 때는 암호화했지만, 분석을 위해 데이터에 접근할 때는 사용자 인증만 한다. 

많은 MSP(Managed Service Provider)가 (암호화를) 풀어야 한다고 하더라. 또 통제방법은 사용자 인증이 다다. 그런데 사용자 인증만 하면 저장소 안의 데이터를 다 뽑아갈 수 있다. 이력도 남지 않는다. 외부 유출 위험이 있다. 이는 기업의 민감한 정보인 매출 정보, 시장 분석 정보도 마찬가지다. 왜 DB 접근제한을 했고 암호화했는지 의문이다.”

- 데이터 레이크의 대안으로 데이터 가상화가 부상하고 있다. 왜인가.

“데이터 가상화는 분산돼 있는 데이터베이스, 파일, 빅데이터를 별도의 메모리 공간에 가상 데이터 레이어로 통합하고 최신 데이터를 실시간으로 활용하는 것이다. ‘데이터를 물리적으로 이동하지 않아도 최신의 원천 데이터를 안전하게 결합해 분석할 수 있는 공간이 없을까’라는 생각에서 나온 것이 데이터 가상화다. 우리는 데이터 가상화가 데이터 레이크의 낮은 ROI와 보안 문제를 함께 해결할 수 있는 단초로 본다.”

- 데이터 가상화가 데이터 레이크의 과도한 비용 문제를 어느 정도 해결할 수 있다고 보는가.

“무자르듯 말하긴 어렵지만, 시간과 비용을 10분의 1로 줄일 수 있다. 정말 많이 줄일 수 있는 건 스토리지 비용이다. 한 고객사는 데이터 레이크를 구성하려다가 먼저 데이터 가상화를 시도하고 있다. 담당자가 (데이터 레이크를 구현할 만큼) 예산이 많지 않은데, 일단 데이터 가상화로 가능하겠다고 하더라. 그들이 원하는 건 데이터에서 원하는 리포트를 뽑아내는 것인데, 데이터 가상화를 통해 훨씬 적은 시간과 비용으로 필요한 것을 얻을 수 있다.” 

- 데이터 가상화가 데이터 레이크의 보안 이슈도 해결할 수 있는가.

“‘민감한 정보를 안전하게 결합할 수 있는 공간이 없을까’라는 질문에 대한 답이 데이터 가상화다. 데이터 가상화는 필요할 때 원천 데이터를 곧바로 새로운 결합 형태로 가져갈 수 있는 공간, 또 가져온 데이터에 대해 사용자별로 통제하고 이력을 남기고 데이터를 마스킹 할 수 있는 공간을 제공한다.”

- 데이터 레이크에서 사용자 인증만으로 민감정보를 볼 수 있다는 것이 문제라고 했다. 데이터 가상화도 인메모리에서 데이터를 분석하기 위해 복호화 하는 것 아닌가.

“데이터 가상화도 인메모리에서 데이터를 푼다. 평소에는 가상 테이블이어서 데이터가 없다. 데이터를 조회하려면 그 순간에 데이터를 가져와 연산할 때 복호화했다가 메모리에서 작업한 뒤 자동으로 즉시 암호화된다. 들어온 데이터만 잠깐 보이고 빠져나가고 나머지는 안 보인다. 그리고 여기에 들어갔던 모든 내용이 기록, 통제되고 마스킹 된다. 따라서 DB 접근제어 솔루션 안에 있는 것처럼 통제된 환경에서 사용하게 된다.”

- 데이터 가상화가 데이터 레이크를 완전히 대체할 것으로 보나. 

“데이터 가상화는 데이터 레이크의 대체재가 아니다. 보완재다. 덤프(dump) 데이터나 덜 민감한 데이터는 데이터 레이크로, 자주 변경되는 데이터나 민감한 데이터는 데이터 가상화 쪽으로 몬다. 사용자 입장에서 어떤 것은 데이터 레이크에서 가져오고 어떤 것은 원천 데이터를 가져온다. 데이터 가상화 공간에서는 모든 데이터를 볼 수 있다.

이미 데이터 레이크를 구성했다면, 데이터 가상화를 적용함으로써 물리적 저장소의 민감 데이터나 불필요한 데이터를 줄일 수 있다. 동기화가 필요 없고 잘 변하지 않는 데이터만 데이터 레이크에 남겨놓으면 이동 비용, 동기화 비용, 공간 비용(스토리지 비용)이 다 줄어든다. 이게 가장 핵심이다.

또 데이터 레이크가 구성되지 않은 상황이라면, 사전에 데이터를 확인해 데이터 레이크의 효용성을 판단하는데 데이터 가상화를 활용할 수 있다.”

- 정부가 추진하는 디지털플랫폼정부의 데이터 아키텍처로 데이터 레이크가 검토대상으로 알려졌다. 일각에서는 데이터 레이크의 문제점을 지적하며 구시대적이라고 지적한다. 이에 대한 생각은.

“사실 어떤 것이 100% 맞고 다른 것은 모두 틀리다고 할 수 있는 건 아닌 것 같다. 데이터 레이크가 굉장히 구시대적 발상이라고 하는 것은 맞지 않다. 데이터 레이크 고유의 목적이 있다. 하지만, 단점과 보완해야 할 점이 분명히 있고, 비용 등을 고려할 때 데이터 레이크와 데이터 가상화를 같이 적용할 필요가 있다고 본다.” 

- 데이터 가상화를 구현하면 데이터 레이크가 필요 없지 않나. 기업 입장에서는 데이터 가상화만 구현하는 것이 심플해보이는데.

“기업의 상황에 따라 데이터 가상화가 기존 시스템에 부담을 주는 경우도 있다. 데이터 레이크와 달리 데이터 가상화는 데이터를 요청하면 원천 데이터에서 가져가는데, 경우에 따라 원천 데이터 운영에 부담이 생긴다. 

예를 들어 기간계 시스템에서 과금업무를 처리하고 있는데, 데이터 가상화에서 100억 건의 데이터를 가져간다면 담당자는 난리가 날 수밖에 없다. 이처럼 비즈니스 현장에서 충돌이 일어날 수 있기 때문에 (데이터의 성격과 상황에 따라) 데이터 레이크로 접근할 부분과 데이터 가상화로 처리할 부분이 있다.

이미 데이터 레이크를 구성한 고객에게는 데이터 가상화로 비용을 줄일 수 있는 부분이 생긴다는 점을 얘기한다. 또 데이터 레이크를 구성할 때 데이터 가상화를 인지하지 않으면 ROI 측면에서 낭비가 될 수 있다. 즉 데이터 가상화를 생각하고 있느냐, 그렇지 않느냐에 따라 데이터 레이크를 구성하는 전략이 완전히 달라진다.

정리하면, 데이터 레이크를 구성했으면 데이터 가상화를 통해 얻을 수 있는 이점이 굉장히 많다. 데이터 레이크를 구성하지 않았다면 데이터 가상화를 고민해서 한다면 훨씬 더 효과적인 구성이 나올 수 있다.”

- 최근 여러 IT기업이 데이터 가상화 솔루션을 내놓고 있다. 선택 기준을 제언한다면.

“저희도 솔루션 기능을 많이 내세우지만, 솔루션의 어떤 기능만으로 데이터 가상화에 접근하는 것은 아니다. 고객이 데이터와 관련해 어떤 고민과 이슈가 있고 이를 잘 해결할 수 있는 벤더인지를 보고 선택해야 한다. 특히 요즘은 데이터를 활용하는 최적의 방법을 제시할 수 있는지를 봐야 한다.” 

- 데이터에 대해 얼마나 많이 고민을 해왔고 얼마나 잘 알고 있는지가 중요하다는 것인가. 

“그렇다. 최근 가장 많이 나온 얘기가 데이터 리터러시다. 기업이 데이터 리터러시만 잘 확보하고 극대화하면 인공지능(AI)이든, 디지털화든 데이터 기반으로 새로운 비즈니스 모델을 만들 수 있다.
데이터 관리와 활용에 대해서는 엔코아가 우리나라에서 가장 많이 경험한 곳이 아닐까 한다. 엔코아는 25년 동안 오직 데이터만 고민해왔다. 

엔코아는 데이터 자산화 기반 마련, 데이터 결합, 데이터 공유 기반 마련 등 3가지 전략을 갖고 있다. 우선 데이터를 잘 이해하고 활용할 수 있는 고객의 능력을 위해 데이터 자산화 관련 서비스와 솔루션을 제공한다. 쌓아놓는다고 데이터가 아니다. 데이터를 이해하고, 식별하고, 품질을 높일 수 있어야 한다. 이를 위해 컨설팅 서비스도 하고 콘텐츠와 기반 시스템도 마련한다. 엔코아는 말만 하는 것이 아니라 솔루션을 같이 제시한다. 

엔코아는 또 자산 데이터를 쉽게 찾아 가공하고 다른 부서와 공유할 수 있는 플랫폼을 만들 수 있다. 예를 들어 수자원공사가 낙동강에 댐을 만들려고 한다면, 위치 선정뿐만 아니라 댐의 크기, 최적의 규모, 발전용량 등을 결정해야 한다. 이 때 하천 쪽에 내가 원하는 몇 곳에 대해 강수정보, 5년치 예측 데이터 등 다양한 데이터를 바로 가져올 수 있으면 의사결정이 빨라진다. 이게 데이터의 활용이고 에코다. 데이터를 빨리 공유하고 전달할 수 있는 메커니즘이 중요하다.”

- 다른 벤더와 차별화된, 엔코아만이 할 수 있는 것은 무엇인가.

“엔코아는 고객이 데이터 리터러시를 하기 위한 엔드투엔드 서비스를 모두 제시한다. 우리가 데이터를 자산화 하려면 데이터가 어떻게 생겼는지 이해해야 한다. 예를 들어 내부 구조를 많이 바꾼 건물에 불이 났다면 빨리 진화하기 위해 바뀐 구조를 정확하게 알아야 한다. 이 때 필요한 것이 평면도다. 

데이터도 마찬가지다. 분석가들이 필요한 데이터를 끌고 왔을 때 해당 데이터가 어떻게 생겼는지 본다. 이 때 데이터 모델이 필요하다. 개발자도 시스템 개발을 위해 데이터 모델을 봐야 한다. 엔코아는 데이터 모델링 도구를 갖고 있는 몇 안되는 벤더다. 엔코아는 데이터에 대한 엔드투엔드 서비스, 컨설팅 외에도 데이터와 관련된 모든 솔루션을 제공하고 있다. 

엔코아는 ‘학인기 3박자’를 얘기한다. 날리지(데이터에 대한 공부), 휴먼피플(컨설팅 서비스), 솔루션(도구)의 3박자를 만들려는 유일한 벤더다. 그래서 엔코아 전체 솔루션을 쓰는 고객이 많다.”

강동식 기자 lavita@datanews.co.kr