안드로이드 악성앱 탐지 및 분류를 위한 알고리즘 개발

 

사례

최근 최신형 안드로이드 모바일 폰을 구매한 K씨는 안드로이드 마켓에서 한 브라우저 앱을 다운 받았습니다. 그로부터 며칠 후 K씨는 본인이 알지 못하는 휴대전화 결제 요금이 청구된 것을 알게 되었습니다.

알고보니 예전에 다운로드 받았던 브라우저 앱은 ‘프리미엄 SMS’로 불리는 악성코드로, 특정 사이트에 휴대폰 결제 SMS를 전송하여 프리미엄 요금이 부과된 것이었습니다.

위 상황과 같이 정상 안드로이드 앱으로 위장한 악성 앱은 구글 안드로이드 마켓, 서드파티 마켓, 블랙 마켓 등의 다양한 경로로 배포되고 있어, 악성 앱을 효율적으로 탐지하는 방안이 필요한 실정입니다.

문제


제공된 대용량의 안드로이드 앱 데이터셋을 기반으로 아래 사항을 탐지 및 분류할 수 있는 알고리즘 및 프로그램을 제시하시기 바랍니다.

  • 정상 앱과 악성 앱 구분
  • 악성 앱에 한하여 유형(패밀리) 분류

 

 

데이터셋(KU-CISC2017-AutoPsy) 설명


예선 데이터셋 내용
  • KU-CISC2017-AutoPsy-1st (테스트용)
          정상 앱 1,500개, 악성 앱 500개 + 정답지(악성 앱 여부 및 패밀리명)
  • KU-CISC2017-AutoPsy-2nd (제출용)
         정상 앱 1,500개, 악성 앱 500개
    • 악성 앱 분석에 도움을 주기 위해 2개의 다른 데이터셋을 제공합니다.
    • 첫번째 데이터셋은 알고리즘 개발 시 테스트할 수 있도록 총 2,000개의 앱(apk) 파일과 함께 정상/악성 앱 여부 및 패밀리명이 기재된 정답지를 같이 제공합니다.
    • 두번째 데이터셋은 첫번째 데이터셋과는 다른 2,000개의 앱(apk) 파일로 이루어져 있으며 정답지를 제공하지 않습니다.
    • 참가자는 개발한 알고리즘을 바탕으로 두번째 데이터셋에 대해 악성앱 탐지 및 분류 결과를 제출하면 됩니다.

     

    본선 데이터셋 내용
  • KU-CISC2017-AutoPsy-3rd
         정상 앱 1,500개, 악성 앱 500개
  • KU-CISC2017-AutoPsy-4th
         정상 앱 1,500개, 악성 앱 500개
    • 본선 진행 시 예선에서 제공한 데이터셋과 다른 새로운 데이터셋을 2번 나누어 제공합니다.
    • 본선 진출자는 본선 당일 제공받은 새로운 데이터셋을 기반으로 탐지/분류 정확도를 측정하고, 알고리즘을 개선해볼 수 있습니다.
    • 본선에는 새로운 패밀리 유형이 추가될 가능성이 있습니다.