대용량 악성코드 자동탐지 알고리즘 개발

  

사례

건강관리에 관심이 많던 I씨는, “일주일 기간 한정, 비타민C 50%할인”이라는 이메일을 수신하였습니다.

평소 관련 커뮤니티에서 열심히 활동하던 I씨는 제목만 보고, 이메일을 클릭하고, 이내 스팸메일인 것을 확인할 수 있었습니다. 그 이후, 인터넷에 접속할 때마다 광고성 팝업창이 서너개씩 뜨고, 알 수 없는 웹 브라우저 툴바가 설치되는 등 많은 불편을 겪게 되었습니다. 

백신프로그램을 최신으로 업데이트 하였더니 이메일을 통해 악성코드가 PC에 유포된 것을 알 수 있었습니다.

안전한 PC사용을 위해 보다 정교한 악성코드 자동탐지 프로그램 개발이 필요한 상황입니다.

문제


제공된 대용량의 악성코드를 기반으로 아래 사항을 탐지할 수 있는 알고리즘과 프로그램을 제시하시기 바랍니다.

  • 정상코드와 악성코드의 구분

 

 

데이터셋(KISA-CISC2017-Malware) 설명


KISA와 안랩, 하우리, 세인트시큐리티 등 국내 백신 3사가 공동으로 제공한 악성코드 데이터셋으로 수집 기간, 악성 기능 등에 대한 제한 없이 랜덤하게 구성하였습니다.

※  악성코드는 32비트 윈도우즈 환경에서만 실행 가능합니다.
※  데이터셋은 반드시 VMWare 등을 이용하여 가상화된 PC 환경에서만 다운로드 해야 합니다.

 

  • 악성코드 탐지 트랙은 학계, 산업계 등 소속확인이 가능한 자에 한해 신청 가능합니다.
  • 악성코드 탐지 트랙은 약정서 및 개인정보활용 동의서 작성 후 (팀 구성원 전원) datachallenge@cisc.or.kr 로 발송해야 신청이 완료됩니다.
    ※ 서류 제출 시 소속을 확인할 수 있는 메일 계정을 사용하여 발송 부탁드립니다.


예선 데이터셋 내용
  • KISA-CISC2017-Malware-1st (테스트용)
         정상코드, 악성코드 혼합 7,500개 + 정답지(정상코드, 악성코드 여부)
  • KISA-CISC2017-Malware-2nd (제출용)
         정상코드, 악성코드 혼합 7,500개
    • 악성코드 분석에 도움을 주기 위해 2개의 다른 데이터셋을 제공합니다(데이터는 일부 중복될 수 있습니다)
    • 첫 번째 데이터셋은 알고리즘 개발 시 테스트할 수 있도록 총 7,500개의 파일과 함께 정상/악성코드여부가 기재된 정답지를 같이 제공합니다.
    • 두 번째 데이터셋은 정상/악성코드로 이뤄진 7,500개의 파일로 이루어져 있으며 정답지를 제공하지 않습니다.
    •  참가자는 개발한 알고리즘을 바탕으로 두 번째 데이터셋에 대한 정상/악성코드분류 결과를 제출하면 됩니다.

     

    본선 데이터셋 내용
  • KISA-CISC2017-Malware-3rd
         정상코드, 악성코드 혼합 7,500개
  • KISA-CISC2017-Malware-4th
         정상코드, 악성코드 혼합 7,500개
    • 본선 진행 시 예선에서 제공한 데이터셋과 다른 데이터셋을 두번 나누어 제공합니다(데이터는 일부 중복될 수 있습니다).
    • 본선 진출자는 본선 당일 제공받은 새로운 데이터셋을 기반으로 탐지 정확도를 측정하고, 알고리즘을 개선해볼 수 있습니다.