AI 기반 악성코드 탐지

<대용량 악성/정상코드 분석과 AI 기반의 악성코드 탐지 알고리즘 개발을 통한 탐지 정확도 향상>

사례


A 기업 인사 담당자로 근무하는 B 씨는 취업 시즌마다 수많은 입사지원서를 확인한다. 그러던 어느 날 B 씨는 평소와 같이 입사지원서를 확인하기 위해 이메일로 수신된 워드 문서를 다운로드하였다. 이 문서는 암호가 걸려 있어 B 씨는 의심 없이 메일 본문에 있는 암호를 입력해 문서를 열었다. 이후, PC 내 주요 파일들이 암호화되었고, ‘ReadMe.html’이라는 감염 노트가 생성되어 B 씨는 랜섬웨어 복구 비용으로 약 400달러 상당의 비트코인을 지불해야만 했다. 이처럼 최근 악성코드가 지능화되고 있음에 따라 피해확산 방지를 위해 신속하고 정확한 악성코드 탐지 알고리즘 개발이 요구된다.

  • 2018년에 발생한 ‘시그마 랜섬웨어’ 감염 사례 재구성

문제


제공된 1만 개의 학습데이터를 활용하여 AI 기반의 악성코드 탐지 알고리즘을 개발하고, 새롭게 주어지는 데이터셋의 악성/정상 여부를 탐지하십시오.

 

참가신청


참가신청서 작성 후, rnd_dataset@kisa.or.kr 로 발송해 주시면 신청이 완료됩니다.
· AI 기반 악성코드 탐지 트랙은 팀 대표자의 소속확인(학계, 산업계 등)이 가능한 자에 한해 신청 가능합니다. (개인 또는 최대 5인 이내의 팀으로 구성)
※ 서류 제출 시 소속을 확인할 수 있는 메일 계정을 사용하여 발송 부탁드립니다.
※ 제출서류 검토 후, 대표자의 메일주소로 데이터셋 다운 링크가 발송됩니다.

  • 접수 기간 : 2019/10/04 ~ 2019/11/06

데이터셋(KISA-challenge2019-Malware) 설명


  • 구축 : 한국인터넷진흥원(KISA), 안랩, 이스트시큐리티, 하우리, 세인트시큐리티 등 국내 백신사(社) 공동구축
  • 구성 : 악성코드 분류 및 분석정보 기반 대회용 데이터셋(약 4만개의 윈도우즈 32/64비트 악성/정상코드로 구성)
  • 가공 : 오픈소스 기반 AI 모델 활용, 자체 탐지율 테스트 및 결과에 따른 데이터셋 추가 가공
  • 동작환경 : 32/64 비트 윈도우즈 환경
  • 파일명 : MD5, 확장자 .vir
    ※ 스크립트 파일 및 Anti-머신러닝, 패킹 기술이 적용된 데이터 포함
    ※ ’19년도 데이터 가공 과정에서는 ’18년 챌린지의 Installer형 Anti-머신러닝을 고려하지 않음
    ※ 데이터셋은 VMWare 등을 이용하여 가상화된 PC 환경에서만 다운
데이터셋데이터셋 명내용비고
학습KISA-challenge2019-Malware_trainset정상/악성코드 혼합 1만개 데이터셋정답지(.csv) 포함
예선KISA-challenge2019-Malware_test1정상/악성코드 혼합 1만개 데이터셋정답지 미포함
본선1차KISA-challenge2019-Malware_test2_1st정상/악성코드 혼합 1만개 데이터셋정답지 미포함
2차KISA-challenge2019-Malware_test2_2nd정상/악성코드 혼합 1만개 데이터셋정답지 미포함

※ 학습 데이터셋의 경우, 탐지 알고리즘 개발에 참고할 수 있는 총 1만개의 파일과 .csv 형식의 정답지 제공
※ 예·본선 모두 오프라인으로 진행
※ 예·본선 데이터셋의 경우, 탐지 알고리즘 개발에 참고할 수 있는 각 1만개의 파일 제공(현장에서 데이터셋 제공)
※ 개발한 알고리즘을 활용하여 예·본선 데이터셋의 탐지결과 제출(본선 진출자의 경우 1/2차 탐지 결과를 모두 제출)

 

제출 결과물


제출자료내용비고
결과파일탐지결과를 파일명 ID와 정상/악성 라벨로 분류하여 .csv파일 제출· ID : MD 값
· 라벨 : 정상코드 0, 악성코드 1
· 스크립트 정의 : hwp, html 등
알고리즘 설명문서· (필수 내용) 데이터 분석 및 분류 결과, 선정 feature 설명, 알고리즘 구성 방법
· (추가 내용) 수도코드(pseudocode), 예선 데이터 실험과정, 예상결과, 보완점 등을 작성
예선 당일 제출
발표자료알고리즘 설명문서 요약, 본선데이터 분류방법, 탐지 결과 등을 작성본선 당일 제출
약 15분 발표

※ 알고리즘 설명문서를 검토하여 편법 사용 등 문제 발견 시, 수상에서 제외될 수 있음
※ 필요시 실험과정 영상/로그 요청 예정(준비 必)

문의처


AI 기반 악성코드 탐지 트랙 담당자
이은지 주임연구원
061-820-1323 / rnd_dataset@kisa.or.kr