케이사인, 악성코드 분야 AI 데이터셋 4억건 구축

K-사이버 방역체계 일환 ‘사이버보안 AI 학습용 데이터셋’ 최초 구축

  • 카카오공유 
  • 메타공유 
  • X공유 
  • 네이버밴드 공유 
  • 프린트
  • 메일
  • 스크랩
  • 목록
  • 글자크기
  • 크게
  • 작게

▲신대균 케이사인 프로젝트 매니저가 사이버보안 AI 학습용 데이터셋을 설명하고 있다. / 사진=케이사인


정보보안 전문업체 케이사인(대표 최승락)은 자회사인 위협 인텔리전스 전문기업 샌즈랩 및 안티바이러스 전문기업 이스트시큐리티와 4억 건의 사이버보안 인공지능(AI) 학습용 데이터셋 구축을 완료했다고 11일 밝혔다.

한국인터넷진흥원(KISA)은 지난해에 과학기술정통부의 ‘K-사이버방역 추진전략’의 일환으로 ‘사이버보안 AI 데이터셋 구축사업’을 진행했다. 본 과제는 사이버 침해대응 분야 민관 전문가가 협력해 사이버보안 AI 데이터셋 구축의 선순환 환경을 조성하고, 국내 보안기술을 지능화해 급증하는 신·변종 보안 위협에 선제적으로 대응할 수 있는 기반을 마련하는 것을 목표로 한다.

케이사인 컨소시엄은 해당 사업에서 3억 건 이상의 정상·악성파일 및 300종 이상의 악성코드 패밀리를 분류하고, 즉시 활용할 수 있는 ‘사이버보안 AI 데이터셋(악성코드 분야)’을 구축했다. 악성코드 AI 특징정보 추출에 대한 전문적 노하우와 클라우드 기반의 페타급 대용량 데이터셋 이관 방법론으로 최적의 데이터셋을 구축하고, 이관 및 검증 체계를 마련하며 업계의 주목을 받았다.

케이사인 컨소시엄은 샌즈랩에서 운영하는 멀웨어즈닷컴에서 분석한 20억 건의 악성코드 분석 데이터 가운데 대표성을 띈 3억 개의 악성코드를 추출하고, 악성코드 특징 정보를 바탕으로 300여 종의 패밀리로 분류했다.

구축된 데이터셋은 총 150여종의 메타정보 및 원시데이터를 포함한다. 또 공격그룹, 공격기법, 유포방법 등 악성코드 속성정보에 대한 고차원으로 연관관계 분석을 실시해 1억 건의 악성코드 분석 데이터도 함께 마련했다. 정적·동적 분석만으로 도출할 수 없는 심층정보를 속성으로 생성해 유사도 분석을 수행하고, 클러스터링 한 결과를 기반으로 데이터셋을 구축하며 기술을 우수성을 인정받았다.

케이사인 측은 사업 종료 이후에도 구축된 데이터셋을 AI 핵심기술 연구개발에 사용하는 한편, 사이버 보안위협 대응에 필요한 중요 거점 데이터셋으로 활용이 될 수 있도록 지원할 방침이다.

강동식 기자 lavita@datanews.co.kr