Nothing Special   »   [go: up one dir, main page]

KR102396236B1 - Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information - Google Patents

Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information Download PDF

Info

Publication number
KR102396236B1
KR102396236B1 KR1020210106216A KR20210106216A KR102396236B1 KR 102396236 B1 KR102396236 B1 KR 102396236B1 KR 1020210106216 A KR1020210106216 A KR 1020210106216A KR 20210106216 A KR20210106216 A KR 20210106216A KR 102396236 B1 KR102396236 B1 KR 102396236B1
Authority
KR
South Korea
Prior art keywords
code
information
analysis
file
attack
Prior art date
Application number
KR1020210106216A
Other languages
Korean (ko)
Inventor
김기홍
어성율
박성은
이현종
Original Assignee
주식회사 샌즈랩
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 샌즈랩 filed Critical 주식회사 샌즈랩
Priority to KR1020210106216A priority Critical patent/KR102396236B1/en
Priority to PCT/KR2022/000955 priority patent/WO2023017931A1/en
Priority to EP22855933.2A priority patent/EP4386597A1/en
Application granted granted Critical
Publication of KR102396236B1 publication Critical patent/KR102396236B1/en
Priority to US17/884,146 priority patent/US20230048076A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/561Virus type analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer And Data Communications (AREA)

Abstract

Disclosed are an apparatus for processing cyber threat information, a method for treating cyber threat information, and a storage medium storing a program for processing cyber threat information. As one embodiment of the present invention, there may be provided a method for processing cyber threat information including: disassemble an input execution file to obtain a disassembled code; reconstructing the disassembled code to obtain a reconstructed disassembled code; converting the reconstructed disassembled code into a data set having a predetermined format; and determining similarity based on the converted data set having the predetermined format and classifying a cyber threat attack technique included in the execution file into at least one standardized attack identifier according to the determination. According to the embodiment, it is possible to detect and respond to even malicious code that does not exactly match data learned through artificial intelligence, respond to variants of a malicious code, and identify, within a very short time, the malicious code, the attack technique, the attacker, and the attack prediction method even if the variants of the malicious code exist.

Description

사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체{APPARATUS FOR PROCESSING CYBER THREAT INFORMATION, METHOD FOR PROCESSING CYBER THREAT INFORMATION, AND MEDIUM FOR STORING A PROGRAM PROCESSING CYBER THREAT INFORMATION}A storage medium for storing a cyber threat information processing device, a cyber threat information processing method, and a program for processing cyber threat information

개시하는 실시 예들은 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체에 관한 것이다. The disclosed embodiments relate to a cyber threat information processing apparatus, a cyber threat information processing method, and a storage medium storing a cyber threat information processing program.

신종 또는 변종 등의 악성코드를 중심으로 점차 고도화 되고 있는 사이버 보안 위협의 피해가 커지고 있다. 이러한 피해를 조금이라도 줄이고 조기에 대응하기 위해서 다차원의 패턴 구성 및 각종 복합 분석 등을 통해서 대응 기술에 대한 고도화를 병행해 나가고 있다. 그러나, 최근의 사이버 공격은 제어 범위 내에 적절하게 대응되기 보다는 오히려 나날이 위협이 증가하고 있는 추세이다. 이러한 사이버 공격은 기존 ICT (Information and Communication Technology) 기반 시설을 넘어서 우리 삶에 직접적으로 영향을 끼치는 금융, 교통, 환경, 건강 등에 까지 위협을 가하고 있다.The damage from cyber security threats, which are gradually becoming more sophisticated, centering on new or variant malicious codes, is increasing. In order to reduce such damage even a little and to respond at an early stage, we are advancing the countermeasure technology through multi-dimensional pattern composition and various complex analysis. However, recent cyber-attacks tend to increase day by day rather than being adequately countered within the control range. These cyber attacks threaten finance, transportation, environment, health, etc. that directly affect our lives beyond the existing ICT (Information and Communication Technology) infrastructure.

현존하는 대부분의 사이버 보안 위협을 탐지하고 대응하는 기반 기술 중에 하나는 사이버 공격 또는 악성 코드에 대한 패턴을 데이터베이스를 사전에 생성하고 데이터 흐름이 필요한 곳에 적절한 모니터링 기술을 활용한다. 기존의 기술은 모니터링된 패턴과 일치하는 데이터 흐름 또는 코드가 탐지되면 위협을 식별하여 대응하는 방식을 바탕으로 발전되어 왔다. 이와 같은 종래의 기술은 사전에 확보된 패턴과 일치하면 빠르고 정확하게 탐지할 수 있다는 장점이 있지만, 패턴이 확보되지 않거나 우회하는 신종, 변종 위협의 경우 탐지 자체가 불가능하거나 분석하는데 매우 시간이 오래 소요되는 문제점이 있었다. One of the basic technologies to detect and respond to most existing cyber security threats is to create a database of patterns for cyber attacks or malicious codes in advance and utilize appropriate monitoring technologies where data flow is required. Existing technologies have evolved based on identifying and responding to threats when data flows or codes matching monitored patterns are detected. Such conventional techniques have the advantage of being able to detect quickly and accurately if they match a previously secured pattern. There was a problem.

종래의 기술은 인공지능 분석을 활용하더라도 악성코드 자체를 탐지하고 분석하는 기술을 고도화하는 방법에 초점이 맞춰져 있다. 그러나 근본적으로 사이버 보안 위협을 대응하기 위한 원천적인 기술은 존재하지 않아 이러한 방법만으로 신종 악성코드나 그 악성코드의 변종에 대응하기 힘들며 한계가 있다는 문제점이 있다. The prior art is focused on a method of advancing the technology to detect and analyze the malicious code itself, even if artificial intelligence analysis is used. However, fundamentally, there is no fundamental technology to counter cyber security threats, so there is a problem that it is difficult to respond to a new malicious code or a variant of the malicious code using this method alone, and there are limitations.

예를 들면 이미 발견된 악성 코드 자체를 탐지하고 분석하는 기술만으로는 그 탐지나 분석 시스템을 속이기 위한 디코이(decoy) 정보나 가짜 정보에 대응하지 못하고 혼선이 발생하는 문제점이 있다. For example, there is a problem in that confusion occurs because only technology that detects and analyzes already discovered malicious code itself cannot respond to decoy information or fake information to deceive the detection or analysis system.

학습할 데이터가 충분히 있는 대량 생산의 악성코드의 경우는 그 특징 정보를 충분히 확보할 수 있기 때문에 악성 여부 및 악성코드 종류를 구분할 수 있다. 그러나, 상대적으로 수량이 작게 만들어져 정교하게 공격하는 APT (Advanced Persistent Threat) 공격의 경우는 학습 데이터와 일치하지 않는 경우가 많고 타겟팅(targeting)된 공격이 대다수를 이루고 있기 때문에 기존 기술은 고도화하더라도 한계점이 존재한다.In the case of mass-produced malicious code that has enough data to learn, it is possible to distinguish whether it is malicious or the type of malicious code because it can secure enough characteristic information. However, in the case of APT (Advanced Persistent Threat) attacks, which are made in relatively small quantities and attack sophisticatedly, they often do not match the training data, and because the majority of targeted attacks make up the majority of attacks, there are limitations even if the existing technology is advanced. exist.

또한 종래에는 악성 코드, 공격 코드 또는 사이버 위협에 대한 설명을 하는 방법과 표현 기법이 분석가의 입장이나 분석 시각에 따라 달랐다. 예를 들면 악성 코드와 공격 행위를 기술하는 방식은 전세계적으로 표준이 되지 않아 같은 사건, 같은 악성코드를 탐지하여도 해당 분야의 전문가의 설명이 달라 혼동이 되는 문제점이 있었다. 심지어 악성코드 탐지 명 또한 통일이 되지 않아 같은 악성 파일임에도 불구하고 어떤 공격이 정확하게 수행되었는지 식별되지 못하거나 다르게 정리되었다. 따라서 식별된 공격 기법을 정규화되고 표준화된 방식으로 설명하지 못하는 문제점이 있었다.Also, conventionally, methods and expression techniques for explaining malicious codes, attack codes, or cyber threats differed depending on the analyst's position or analysis point of view. For example, the method of describing malicious codes and attack behaviors is not standard worldwide, so even when the same incident or the same malicious code is detected, there is a problem of confusion because the explanations of experts in the field are different. Even the name of the malicious code detection was not unified, so it was not possible to identify which attack was performed correctly even though it was the same malicious file, or it was organized differently. Therefore, there was a problem in that the identified attack technique could not be described in a normalized and standardized manner.

종래의 악성 코드 탐지 및 분석 방법은 악성코드 자체의 탐지를 중시하여 매우 유사한 악성 행위를 수행하는 악성 코드의 경우 생성하는 공격자가 다른 경우 공격자들을 식별하지 못하는 문제점이 있었다. Conventional methods for detecting and analyzing malicious codes have a problem in that, in the case of malicious code that performs very similar malicious actions by focusing on the detection of the malicious code itself, the attackers cannot be identified when the attackers are different.

위와 같은 문제점들과 연결되어 종래의 방식은 이러한 개별적인 케이스 집중된 탐지 방법에 의해 추후 가까운 미래에 어떤 사이버 위협 공격이 있을지 예측하기 어려운 문제점이 있었다. In connection with the above problems, the conventional method has a problem in that it is difficult to predict what kind of cyber threat attack there will be in the near future by this individual case-focused detection method.

이하에서 개시하는 실시 예의 목적은, 인공 지능으로 학습된 데이터와 정확하게 일치하지 않는 악성 코드라도 탐지하고 대응할 수 있고 악성 코드의 변종에 대응할 수 있는 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체를 제공하는 것이다.The purpose of the embodiments disclosed below is to provide a cyber threat information processing device, a cyber threat information processing method, and a cyber threat capable of detecting and responding to malicious code that does not exactly match data learned by artificial intelligence and responding to a variant of malicious code It is to provide a storage medium for storing a program for processing information.

실시 예의 다른 목적은 악성 코드의 변종이라도 매우 빠른 시간 내에 악성 코드, 공격 기법, 공격자와 공격 예측 방법을 식별할 수 있는 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체를 제공하는 것이다.Another object of the embodiment is to store a cyber threat information processing device, a cyber threat information processing method, and a cyber threat information processing program that can identify malicious code, attack technique, attacker and attack prediction method in a very short time even if it is a variant of malicious code to provide a storage medium that

실시 예의 다른 목적은 악성코드 탐지 명 등이 통일되지 않거나 사이버 공격 기법이 정확하게 기술되지 못하는 악성 코드의 정보를 정규화되고 표준화된 방식으로 제공할 수 있는 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체를 제공하는 것이다.Another object of the embodiment is to provide a cyber threat information processing device, a cyber threat information processing method, and a cyber threat information processing device capable of providing malicious code information in which the malicious code detection name is not uniform or the cyber attack technique is not accurately described in a normalized and standardized manner. It is to provide a storage medium for storing a program for processing threat information.

실시 예의 다른 목적은 매우 유사한 악성 행위를 수행하는 악성 코드를 생성하는 다른 공격자들을 식별하고 미래에 어떤 사이버 위협 공격이 있을지 예측이 가능한 사이버 위협 정보 처리 장치, 사이버 위협 정보 처리 방법 및 사이버 위협 정보 처리하는 프로그램을 저장하는 저장매체를 제공하는 것이다.Another object of the embodiment is to identify other attackers that generate malicious code performing very similar malicious behavior and predict what kind of cyber threat attack there will be in the future, a cyber threat information processing device, a cyber threat information processing method, and a cyber threat information processing method It is to provide a storage medium for storing the program.

일 실시 예는 입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 얻고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는 단계; 상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하는 단계; 및 상기 변환된 특정 포맷의 데이터 세트에 기초하여 기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 단계;를 포함하는 사이버 보안 위협 정보 처리 방법을 제공한다. An embodiment includes the steps of: disassembling an input executable to obtain a disassembled code, and reconstructing the disassembled code to obtain a reconstructed disassembled code; converting the reconstructed disassembled code into a data set of a specific format; and determining whether it is similar to a previously stored malicious code based on the converted data set of the specific format, and classifying the converted data set of the specific format into at least one standardized attack identifier according to the determination. A method for processing cyber security threat information is provided.

상기 디스어셈블된 코드는, 상기 실행 파일에 포함된 함수에 대응하는 OP-CODE와 상기 함수의 피연산자인 어셈블리 코드를 포함할 수 있다.The disassembled code may include an OP-CODE corresponding to a function included in the executable file and an assembly code that is an operand of the function.

상기 특정 포맷의 데이터 세트로 변환하는 단계는; 상기 재구성된 디스어셈블드 코드를 일정 길이의 데이터로 정규화하는 단계; 및 상기 정규화된 데이터를 벡터화하는 단계;를 포함할 수 있다. The step of converting the data set of the specific format includes; normalizing the reconstructed disassembled code to data of a predetermined length; and vectorizing the normalized data.

상기 분류하는 단계는, 상기 특정 포맷의 데이터 세트와 기 식별된 패턴의 악성 코드와의 유사도에 기반하여 상기 특정 포맷의 데이터 세트에 악성 코드가 포함되었는지 판단하고, 상기 판단 결과에 따라 상기 상기 특정 포맷의 데이터 세트에 대해 앙상블 머신 러닝을 수행하여 상기 포함된 악성 코드를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 단계;를 더 포함할 수 있다. The classifying includes determining whether a malicious code is included in the data set of the specific format based on the similarity between the data set of the specific format and the malicious code of the previously identified pattern, and according to the determination result, the specific format The method may further include performing ensemble machine learning on a data set of , and classifying the included malicious code into at least one standardized attack identifier.

상기 적어도 하나 이상의 정형화된 공격 식별자는 MITER ATT&CK의 분류에 의한 분류 방식을 따를 수 있다.The one or more standardized attack identifiers may follow a classification method according to the classification of MITER ATT&CK.

다른 관점에서 일 실시 예는, 분류된 악성 코드를 저장하는 데이터 베이스; 및 입력된 실행 파일을 처리하는 프로세서를 포함하고, 상기 프로세서는 응용 프로그램 인터페이스(Application Programming Interface; API)를 통해 상기 입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 획득하고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는 모듈을 수행하고, 상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하는 코드 처리 모듈을 수행하고; 상기 변환된 특정 포맷의 데이터 세트에 기초하여 상기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 분류 모듈을 수행하는; 사이버 보안 위협 정보 처리 장치를 제공한다.From another point of view, an embodiment may include: a database for storing classified malicious codes; and a processor for processing an input executable file, wherein the processor disassembles the input executable file through an application programming interface (API) to obtain disassembled code, and the disassembled code performing a module for reconstructing to obtain a reconstructed disassembled code, and a code processing module for converting the reconstructed disassembled code into a data set of a specific format; determining whether it is similar to the stored malicious code based on the converted data set of the specific format, and performing a classification module for classifying the converted data set of the specific format into at least one standardized attack identifier according to the determination; A cyber security threat information processing device is provided.

또 다른 관점에서 실시 예는, 입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 얻고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻고; 상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하고; 및 상기 변환된 특정 포맷의 데이터 세트에 기초하여 기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는; 사이버 보안 위협 정보 처리하는 프로그램을 저장하는 저장 매체를 제공한다.In another aspect, an embodiment provides: disassembling an input executable to obtain disassembled code and reconstructing the disassembled code to obtain a reconstructed disassembled code; transform the reconstructed disassembled code into a data set of a specific format; and determining whether it is similar to a previously stored malicious code based on the converted data set of the specific format, and classifying the converted data set of the specific format into at least one standardized attack identifier according to the determination; A storage medium for storing a program for processing cyber security threat information is provided.

이하에서 개시하는 실시예에 따르면 머신 러닝으로 학습된 데이터와 정확하게 일치하지 않는 악성 코드라도 탐지하고 대응할 수 있고 악성 코드의 변종에 대응할 수 있다. According to the embodiments disclosed below, it is possible to detect and respond to malicious code that does not exactly match data learned by machine learning, and to respond to a variant of the malicious code.

실시예에 따르면 악성 코드의 변종이라도 매우 빠른 시간 내에 악성 코드, 공격 기법 및 공격자를 식별할 수 있고 나아가 추후의 특정 공격자의 공격 기법을 예측할 수 있다. According to the embodiment, even a variant of the malicious code can identify the malicious code, attack technique, and attacker within a very short time, and furthermore predict the attack technique of a specific attacker in the future.

실시예에 따르면 이러한 악성 코드 여부, 공격 기법, 공격 식별자 및 공격자를 기반으로 사이버 공격 구현 방식을 정확히 식별하고 이를 표준화된 모델로 제공할 수 있다. 실시예에 따르면 악성코드 탐지 명 등이 통일되지 않거나 사이버 공격 기법이 정확하게 기술되지 못하는 악성 코드의 정보를 정규화되고 표준화된 방식으로 제공할 수 있다. According to the embodiment, it is possible to accurately identify a cyber attack implementation method based on whether such malicious code exists, an attack technique, an attack identifier, and an attacker, and provide it as a standardized model. According to an embodiment, information on malicious codes in which the names of malicious code detection and the like are not unified or the cyber attack technique is not accurately described may be provided in a normalized and standardized manner.

또한 기존에 알려지지 않은 악성 코드를 생성 가능성과 이를 개발할 수 있는 공격자들을 예측하고 미래에 어떤 사이버 위협 공격이 있을지 예측 가능한 수단을 제공할 수 있다.In addition, it can predict the possibility of generating previously unknown malicious code and the attackers who can develop it, and provide a predictive means of what kind of cyber threat attack there will be in the future.

도 1은 사이버 위협 정보 처리 방법의 일 실시 예를 예시한 도면
도 2는 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 정적 분석 정보를 얻는 예를 개시한 도면
도 3은 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 동적 분석 정보를 얻는 예를 개시한 도면
도 4은 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 심층 분석 정보를 얻는 예를 개시한 도면
도 5는 심층 분석의 일 예로서 악성 코드를 디스어셈블링하여 악성 행위가 포함된 파일임을 판단하는 예를 개시한 도면
도 6은 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 연관관계 분석 정보를 산출하는 일 예를 개시한 도면
도 7은 개시한 실시 예에 따라 연관관계 분석 정보를 얻는 과정의 일 예를 개시한 도면
도 8은 실시 예에 따라 사이버 위협 정보의 예측 정보 생성하는 일 예를 개시한 도면
도 9는 실시 예에 따라 사이버 위협 정보를 제공하기 위한 악성 코드 질의들의 예를 개시한 도면
도 10은 사이버 위협 정보 처리 장치의 일 실시 예를 개시한 도면
도 11은 개시하는 실시 예에 따라 분석 프레임 워크 중 정적 분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸 도면
도 12는 개시하는 실시 예에 따라 분석 프레임 워크 중 동적분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸 도면
도 13은 개시하는 실시 예에 따라 분석 프레임 워크 중 심층분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸 도면
도 14은 개시하는 실시 예에 따라 분석 프레임 워크 중 연관관계분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸 도면
도 15는 개시하는 실시 예에 따라 예측 프레임 워크의 예측정보생성 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸 도면
도 16은 개시하는 실시 예에 따라 정적 분석을 수행하는 일 예를 나타낸 도면
도 17은 개시하는 실시 예에 따라 동적 분석을 수행하는 일 예를 나타낸 도면
도 18은 개시하는 실시 예에 따라 심층 분석을 수행하는 일 예를 나타낸 도면
도 19는 개시하는 실시 예에 따라 바이너리 코드에서 추출된 코드들로 공격 기법을 매칭하는 일 예를 나타낸 도면
도 20은 개시하는 실시 예에 따라 OP-CODE를 포함하는 코드 세트와 공격 기법을 매칭하는 일 예를 나타낸 도면
도 21은 개시하는 실시 예에 따라 사이버 위협 정보를 처리하는 흐름을 예시한 도면
도 22는 개시하는 실시 예에 따라 OP-CODE 및 ASM-CODE를 정규화된 코드로 변환한 값을 예시한 도면
도 23은 개시하는 실시 예에 따라 OP-CODE 및 ASM-CODE의 벡터화된 값을 예시한 도면
도 24는 개시하는 실시 예에 따라 코드의 블록 단위를 해쉬 값으로 변환하는 예를 개시한 도면
도 25는 개시하는 실시 예에 따른 앙상블 머신 러닝 모델의 일 예를 나타낸 도면
도 26은 개시하는 실시 예에 따라 머신 러닝으로 데이터를 학습하고 분류하는 흐름을 예시한 도면
도 27은 개시하는 실시 예에 따라 학습 데이터로 공격 식별자와 공격자를 식별하여 라벨링을 수행한 예를 나타낸 도면
도 28은 실시 예에 따라 공격 식별자를 식별한 결과를 나타낸 도면
도 29는 실시 예에 따라 공격 식별자에 따른 그램 데이터 패턴을 예시한 도면
도 30은 개시한 사이버 위협 정보를 처리하는 실시 예의 성능를 예시한 도면
도 31은 사이버 위협 정보의 탐지하는 엔진들의 탐지 엔진들을 탐지 명을 제공하는 예를 나타낸 도면
도 32는 실시 예에 따라 새로운 악성 코드와 공격 방식을 예시하는 일 예를 나타낸 도면
도 33은 사이버 위협 정보 처리 방법의 다른 일 실시 예를 예시한 도면
도 34는 사이버 위협 정보 처리 장치의 다른 일 실시 예를 예시한 도면
1 is a diagram illustrating an embodiment of a method for processing cyber threat information;
2 is a view showing an example of obtaining static analysis information in the process of generating analysis information according to the disclosed embodiment;
3 is a view showing an example of obtaining dynamic analysis information in a process of generating analysis information according to an embodiment disclosed herein;
4 is a view showing an example of obtaining in-depth analysis information in the process of generating analysis information according to the disclosed embodiment;
FIG. 5 is a diagram illustrating an example of disassembling a malicious code to determine a file containing a malicious behavior as an example of in-depth analysis; FIG.
6 is a diagram illustrating an example of calculating correlation analysis information in a process of generating analysis information according to the disclosed embodiment;
7 is a view showing an example of a process of obtaining correlation analysis information according to the disclosed embodiment;
8 is a diagram illustrating an example of generating prediction information of cyber threat information according to an embodiment;
9 is a diagram illustrating an example of malicious code queries for providing cyber threat information according to an embodiment;
10 is a diagram illustrating an embodiment of a cyber threat information processing device;
11 is a diagram illustrating an example for describing in detail a function of a static analysis module in an analysis framework according to the disclosed embodiment;
12 is a view showing an example for explaining in detail the function of the dynamic analysis module among the analysis framework according to the disclosed embodiment;
13 is a view showing an example for explaining in detail the function of the in-depth analysis module among the analysis framework according to the disclosed embodiment;
14 is a view showing an example for explaining in detail the function of the correlation analysis module in the analysis framework according to the disclosed embodiment;
15 is a diagram illustrating an example for describing in detail a function of a prediction information generation module of a prediction framework according to an embodiment of the present disclosure;
16 is a diagram illustrating an example of performing static analysis according to an embodiment of the present disclosure;
17 is a diagram illustrating an example of performing dynamic analysis according to the disclosed embodiment;
18 is a view showing an example of performing in-depth analysis according to the disclosed embodiment
19 is a diagram illustrating an example of matching an attack technique with codes extracted from binary codes according to the disclosed embodiment;
20 is a diagram illustrating an example of matching an attack technique with a code set including an OP-CODE according to an embodiment of the present disclosure;
21 is a diagram illustrating a flow of processing cyber threat information according to the disclosed embodiment;
22 is a diagram illustrating values obtained by converting OP-CODE and ASM-CODE into normalized codes according to the disclosed embodiment;
23 is a diagram illustrating vectorized values of OP-CODE and ASM-CODE according to the disclosed embodiment;
24 is a diagram illustrating an example of converting a block unit of a code into a hash value according to the disclosed embodiment;
25 is a diagram illustrating an example of an ensemble machine learning model according to the disclosed embodiment;
26 is a diagram illustrating a flow of learning and classifying data by machine learning according to an embodiment of the present disclosure;
27 is a diagram illustrating an example of performing labeling by identifying an attack identifier and an attacker with learning data according to an embodiment of the present disclosure;
28 is a view showing a result of identifying an attack identifier according to an embodiment;
29 is a diagram illustrating a gram data pattern according to an attack identifier according to an embodiment;
30 is a diagram illustrating the performance of an embodiment of processing the disclosed cyber threat information;
31 is a diagram showing an example of providing a detection name to detection engines of engines that detect cyber threat information
32 is a diagram illustrating an example of a new malicious code and attack method according to an embodiment;
33 is a diagram illustrating another embodiment of a method for processing cyber threat information;
34 is a diagram illustrating another embodiment of a cyber threat information processing device

이하에서는 첨부한 도면을 참조하여 실시 예를 예시하여 상세히 기술하도록 한다. 실시 예에서 프레임워크, 모듈, 응용 프로그램 인터페이스 등은 물리 장치 결합된 장치로 구현할 수도 있고 소프트웨어로 구현할 수도 있다. Hereinafter, exemplary embodiments will be described in detail with reference to the accompanying drawings. In an embodiment, a framework, a module, an application program interface, etc. may be implemented as a device coupled with a physical device or may be implemented as software.

실시 예가 소프트웨어로 구현될 경우 저장매체에 저장되고 컴퓨터 등에 설치되어 프로세서에 의해 실행될 수 있다. When the embodiment is implemented as software, it may be stored in a storage medium, installed in a computer, etc., and executed by a processor.

사이버 위협 정보 처리 장치 및 사이버 위협 정보 처리 방법의 실시 예들을 상세히 개시하면 다음과 같다. Examples of the cyber threat information processing apparatus and the cyber threat information processing method will be described in detail as follows.

도 1은 사이버 위협 정보 처리 방법의 일 실시 예를 예시한 도면이다. 사이버 위협 정보 처리 방법의 일 실시 예를 설명하면 다음과 같다. 1 is a diagram illustrating an embodiment of a method for processing cyber threat information. An embodiment of the cyber threat information processing method will be described as follows.

사이버 위협 정보 처리 장치로 입력된 파일의 전처리를 수행한다(S1000). The cyber threat information processing device performs pre-processing of the input file (S1000).

파일의 전처리를 통해 파일을 식별할 수 있는 식별 정보를 얻을 수 있다. 파일의 전처리 수행의 일 예는 다음과 같다. Identification information that can identify the file can be obtained through pre-processing of the file. An example of performing pre-processing of a file is as follows.

수신한 파일로부터 파일의 출처 정보, 파일을 얻은 수집 정보, 파일의 사용자 정보 등을 포함한 여러 가지 메타 정보를 얻을 수 있다. 예를 들어 파일이 URL (uniform resource locator)을 포함하거나 또는 전자메일에 포함된 경우 파일에 대한 수집 정보를 얻을 수 있다. 사용자 정보는 파일의 생성, 업로드 또는 최종 저장한 사용자 정보 등을 포함할 수 있다. 전처리 과정에서 파일의 메타 정보로서 IP(internet protocol) 정보, 이에 기반한 국가 정보, API(Application Programming Interface) key 정보, 예를 들면 분석을 의뢰한 사용자의 API 정보 등을 얻을 수 있다. Various types of meta information can be obtained from the received file, including source information of the file, collection information obtained from the file, and user information of the file. For example, if the file contains a uniform resource locator (URL) or is included in an e-mail, you can obtain information about the file collected. The user information may include user information that is created, uploaded, or finally saved in a file. In the pre-processing process, as meta information of the file, IP (internet protocol) information, country information based thereon, API (Application Programming Interface) key information, for example, API information of a user who requested analysis, etc. can be obtained.

전처리 과정에서 파일의 해쉬(Hash) 값을 추출할 수도 있다. 해쉬 값이 이미 사이버 위협 정보 처리 장치에 알려진 것이라면 이를 기반으로 파일의 종류나 위험 정도를 식별할 수 있다. It is also possible to extract the hash value of the file in the preprocessing process. If the hash value is already known to the cyber threat information processing device, the type of file or the degree of risk can be identified based on the hash value.

만약 이미 알려진 파일이 아니라면 기 저장된 정보 또는 필요한 경우 외부의 레퍼런스 웹 사이트(reference website)에 해쉬 값과 파일 정보를 조회하여 파일 종류 식별을 위한 분석 정보를 얻을 수 있다. 예를 들어 외부의 레퍼런스 웹 사이트로서 한국인터넷진흥원에서 운영하는 C-TAS(Cyber Threats Analysis System), CTA(Cyber Threat Alliance)의 운영시스템, VitusTotal 등의 사이트로부터 파일 종류에 따른 정보를 얻을 수 있다. If the file is not already known, analysis information for identifying the file type can be obtained by inquiring the hash value and file information on pre-stored information or, if necessary, an external reference website. For example, as an external reference website, information according to file type can be obtained from sites such as C-TAS (Cyber Threats Analysis System) operated by Korea Internet & Security Agency, CTA (Cyber Threat Alliance) operating system, and VitusTotal.

예를 들면, 파일의 MD5 (Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), SHA 256 등의 해쉬 함수의 해쉬 값을 이용하여 해당 사이트에서 파일을 검색할 수 있다. 그리고 검색 결과를 이용해 상기 파일을 식별할 수 있다.For example, a file can be retrieved from the site by using the hash value of a hash function such as MD5 (Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), and SHA 256 of the file. In addition, the file may be identified using the search result.

파일을 분석을 수행하는 일 예로서, 입력된 파일이 모바일 네트워크를 통해 전송될 경우 네트워크 트래픽을 통해 전송되는 패킷은 네트워크 전송 패킷의 재조합 기술 등을 사용하여 입력된 파일이 모바일 악성 의심 코드인 경우 이를 저장할 수 있다. 패킷의 재조합 기술은 수집된 네트워크 트래픽에서 하나의 실행 코드에 해당하는 일련의 패킷들을 재 조합하며, 재 조합된 패킷들에 의해 전송되는 파일이 모바일 악성 의심 코드인 경우 이 파일이 저장된다. As an example of performing file analysis, when an input file is transmitted through a mobile network, a packet transmitted through network traffic uses a recombination technology of network transmission packets, etc. to detect if the input file is a mobile malicious code. can be saved The packet recombination technology reassembles a series of packets corresponding to one executable code in the collected network traffic, and if the file transmitted by the recombined packets is a mobile malicious code, this file is saved.

만약 이 단계에서 전송 파일 내에 모바일 악성 의심 코드 추출이 되지 않은 경우 파일 내에 다운로드 URL에 직접 접속하여 모바일 악성 의심 코드를 다운로드하여 저장할 수도 있다. If the mobile malicious code is not extracted from the transmitted file in this step, you can directly access the download URL in the file to download and save the mobile malicious code.

상기 입력된 파일과 관련된 악성 행위(malicious activity) 분석 정보 생성한다(S2000).Malicious activity analysis information related to the input file is generated (S2000).

입력된 파일과 관련된 악성 행위의 분석 정보는 파일 자체에 대한 정보를 분석하는 정적 분석 정보나 입력된 파일로부터 얻은 정보를 실행하여 악성 행위 여부를 판별할 수 있는 동적 분석 정보를 포함할 수 있다. The analysis information of malicious behavior related to the input file may include static analysis information for analyzing information about the file itself or dynamic analysis information for determining whether a malicious behavior is performed by executing information obtained from the input file.

이 단계의 분석 정보는 입력된 파일과 관련된 실행 파일로부터 가공된 정보를 이용하거나 파일과 관련된 메모리 분석을 수행하는 심층 분석 정보를 포함할 수 있다. The analysis information in this step may include in-depth analysis information that uses information processed from an executable file related to the input file or performs memory analysis related to the file.

심층 분석은 악성 행위를 정확하게 식별할 수 있도록 인공 지능 분석을 포함할 수 있다.Deep analysis may include artificial intelligence analysis to accurately identify malicious behavior.

이 단계의 분석 정보는 또한 파일과 관련하여 이미 저장된 분석 정보나 또는 생성된 분석 정보를 서로 연관시켜 공격 행위나 공격자에 대한 연관 관계를 추정할 수 있는 연관관계 분석 정보를 포함할 수 있다. The analysis information in this step may also include correlation analysis information capable of estimating a correlation for an attack action or an attacker by correlating the analysis information already stored in relation to the file or the generated analysis information with each other.

이 단계에서 다수의 분석 정보는 전체 분석 결과로 제공되기 위해 취합될 수 있다. In this step, a plurality of analysis information may be aggregated to provide an overall analysis result.

예를 들어 하나의 파일에 대한 정적 분석 정보, 동적 분석 정보, 심층 분석 정보, 연관관계 분석 정보 등은 정확한 공격 기법과 공격자 식별을 위해 통합 분석될 수 있다. 통합 분석은 분석 정보 사이의 중복된 부분을 제거하고 분석 정보 간 공통의 정보는 정확도를 높이는데 사용될 수 있다. For example, static analysis information, dynamic analysis information, in-depth analysis information, correlation analysis information, etc. for a single file may be integrated and analyzed for accurate attack technique and attacker identification. The integrated analysis removes the overlapping part between the analysis information, and the common information between the analysis information can be used to increase the accuracy.

예를 들어 여러 분석과 경로를 통해 수집된 사이버 위협 침해 정보(indicator of compromise, IoC)들은 정보들 사이에 노멀라이징(normalizing)하거나 인리치먼트(enrichment) 수행을 통해 표준화 작업을 수행할 수 있다. For example, cyber threat compromise information (indicator of compromise, IoC) collected through multiple analyzes and pathways can be standardized through normalizing or enrichment among the information.

분석 정보의 획득하는 실시 예에서 반드시 위의 기술된 모든 분석 정보를 순서에 따라 산출할 필요는 없다. 예를 들어 정적 분석 정보 획득과 동적 분석 정보 획득은 어느 하나만 진행될 수도 있으며 정적 분석 정보 보다 동적 분석 정보를 먼저 수행할 수도 있다. In an embodiment of acquiring analysis information, it is not necessary to calculate all of the analysis information described above in order. For example, either one of static analysis information acquisition and dynamic analysis information acquisition may be performed, and dynamic analysis information may be performed before static analysis information.

심층 분석 정보는 반드시 정적 분석 또는 동적 분석을 수행한 후 진행될 필요가 없으며, 연관 관계 분석도 심층 분석 정보 없이 수행될 수도 있다. In-depth analysis information does not necessarily need to proceed after performing static analysis or dynamic analysis, and correlation analysis may also be performed without in-depth analysis information.

따라서 위 분석 정보를 획득하는 처리 순서는 변경될 수도 있으며 선택적으로 이루어질 수도 있다. 또한 위에 기술한 분석 정보의 획득 과정과 예측 정보의 생성 과정은 파일로부터 획득한 정보에 기초하여 병렬적으로 수행될 수 있다. 예를 들면 동적 분석이 수행이 완료되지 않더라도 연관관계 분석 정보를 생성할 수도 있다. 마찬가지로 동적 분석 수행이나 심층 분석 수행이 동시에 진행될 수 있다.Accordingly, the processing order for obtaining the above analysis information may be changed or may be selectively performed. In addition, the process of acquiring the analysis information and the process of generating the prediction information described above may be performed in parallel based on the information acquired from the file. For example, even if dynamic analysis is not completed, correlation analysis information may be generated. Similarly, performing dynamic analysis or performing in-depth analysis may be performed simultaneously.

이러한 경우 위에서 예시한 전처리 과정(S1000)은 파일의 정보를 얻거나 식별하기 위한 것이므로 정적 분석, 동적 분석, 심층 분석 또는 연관 분석이 개별적이나 병렬적으로 수행될 경우 각 분석 단계에 일부로서 각각 수행될 수 있다.In this case, the pre-processing process (S1000) exemplified above is for obtaining or identifying the information of the file, so if static analysis, dynamic analysis, deep analysis, or association analysis is performed individually or in parallel, each analysis step will be performed as part of each. can

이 단계에 대한 상세한 실시 예는 아래에서 후술한다. A detailed example of this step will be described below.

상기 입력된 파일과 관련된 악성 행위의 예측 정보를 생성할 수 있다(S3000).Prediction information of malicious behavior related to the input file may be generated (S3000).

분석 정확도를 높이기 위해 위의 분석된 여러 가지 정보의 데이터 세트를 이용하여 악성 행위의 발생 여부, 공격 기법, 공격자 그룹 등에 대한 예측 정보를 생성할 수 있다. In order to increase analysis accuracy, predictive information on whether malicious behavior occurs, attack techniques, and attacker groups can be generated using the data set of the various types of information analyzed above.

예측 정보의 생성은 이미 분석된 데이터 세트에 대한 인공지능 분석을 통해 수행될 수 있다. 예측 정보의 생성은 필수적인 단계가 아니며 인공지능 분석을 위해 적절하게 분석된 데이터 세트가 마련되어 조건이 만족될 경우 추후 악성 공격 행위에 대한 예측 정보를 생성할 수 있다. The generation of predictive information can be performed through artificial intelligence analysis on an already analyzed data set. The generation of predictive information is not an essential step, and when a properly analyzed data set is prepared for artificial intelligence analysis and the conditions are satisfied, predictive information about malicious attack behavior can be generated in the future.

실시 예는 여러 가지 분석 정보들을 기반으로 인공 지능 기반의 머신 러닝을 수행한다. 실시 예는 분석된 정보에 대한 데이터 세트를 기반으로 예측 정보를 생성할 수 있다. 예를 들면 인공 지능으로 학습된 데이터를 바탕으로 추가적인 분석 정보를 생성하고 다시 생성된 분석 정보는 다시 새로운 학습 데이터로서 인공 지능의 입력 데이터로 이용될 수 있다. The embodiment performs machine learning based on artificial intelligence based on various types of analysis information. An embodiment may generate prediction information based on a data set for the analyzed information. For example, additional analysis information is generated based on data learned by artificial intelligence, and the regenerated analysis information may be used as input data of artificial intelligence as new learning data.

여기서 예측 정보는 악성 코드 제작자 정보, 악성 코드 공격 방법 정보, 악성 코드 공격 그룹 예측, 악성 코드 유사도 예측 정보, 및 악성 코드 확산도 예측 정보 등을 포함할 수 있다. Here, the prediction information may include malicious code creator information, malicious code attack method information, malicious code attack group prediction, malicious code similarity prediction information, and malicious code spread prediction information.

생성된 예측 정보는 악성 코드 자체의 위험도를 예측한 제 1 예측 정보와 악성 코드의 공격자, 공격 그룹, 유사도, 확산도 등을 예측한 제 2 예측 정보 등을 포함할 수 있다. The generated prediction information may include first prediction information for predicting the risk of the malicious code itself and second prediction information for predicting the attacker, attack group, similarity, spread, etc. of the malicious code.

이러한 제 1 예측 정보와 제 2 예측 정보를 포함하는 예측 분석 정보는 서버나 데이터 베이스에 저장될 수 있다.The prediction analysis information including the first prediction information and the second prediction information may be stored in a server or a database.

이에 대한 상세한 실시 예는 이하에서 후술한다. Detailed embodiments thereof will be described below.

상기의 분석 정보 또는 예측 정보에 대한 후처리 후 상기 입력된 파일과 관련된 사이버 위협 정보를 제공한다(S4000).After post-processing of the analysis information or prediction information, cyber threat information related to the input file is provided (S4000).

실시 예는 분석 정보 또는 예측 정보에 기초하여 악성 코드 종류 및 악성 코드의 위험도를 결정한다. 그리고 실시 예는 악성 코드에 대한 프로파일링 정보를 생성한다. 따라서 파일 분석을 통해 파일에 대한 자체 분석을 수행한 결과나 추가 및 예측 분석을 수행한 결과를 저장할 수 있다. 생성되는 프로파일링 정보는 악성 코드에 대한 공격 기법이나 공격자에 대한 라벨링을 포함한다.The embodiment determines the type of malicious code and the degree of risk of the malicious code based on the analysis information or the prediction information. And the embodiment creates profiling information for the malicious code. Therefore, it is possible to save the results of performing self-analysis on files or the results of performing additional and predictive analysis through file analysis. The generated profiling information includes an attack technique for malicious code or labeling for an attacker.

사이버 위협 정보는 위의 전처리가 수행된 정보, 생성되거나 식별된 분석 정보, 생성된 예측 정보 또는 이 정보들의 취합 정보나 이 정보들을 기반으로 결정된 정보를 포함할 수 있다. The cyber threat information may include information on which the above pre-processing has been performed, generated or identified analysis information, generated prediction information, aggregate information of these information, or information determined based on the information.

제공되는 사이버 위협 정보에는 입력된 파일과 관련하여 데이터 베이스에 저장된 분석 정보를 이용하거나 위에서 분석되거나 예측된 정보가 포함될 수 있다. The provided cyber threat information may include information analyzed or predicted above by using analysis information stored in a database in relation to the input file.

실시 예에 따르면 사용자가 입력된 파일에 대한 악성 행위뿐만 아니라 이미 저장된 파일이나 악성 행위에 대해 사이버 위협 정보를 조회할 경우 이에 대한 정보를 제공할 수 있다.According to an embodiment, when a user inquires not only a malicious action for an input file but also cyber threat information about a previously stored file or a malicious action, information on this may be provided.

이러한 통합 분석 정보는 해당 파일에 대응하여 서버나 데이터 베이스에 표준화된 포맷으로 저장될 수 있다. 이러한 통합 분석 정보는 표준화된 포맷으로 저장되어 사이버 위협 정보를 검색 또는 조회에 사용될 수 있다. Such integrated analysis information may be stored in a standardized format in a server or database corresponding to the corresponding file. Such integrated analysis information may be stored in a standardized format and used for searching or inquiring cyber threat information.

사용자의 사이버 위협 정보의 조회에 대항 추가적인 예시는 이하에서 상세히 후술한다.Additional examples against the user's inquiry of cyber threat information will be described in detail below.

도 2는 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 정적 분석 정보를 얻는 예를 개시한다. 2 illustrates an example of obtaining static analysis information in a process of generating analysis information according to the disclosed embodiment.

개시하는 실시 예에 따른 정적 분석 정보를 획득하는 단계는, 입력된 파일의 구조 정보를 얻고 분석하는 단계를 포함할 수 있다(S2110). The step of obtaining the static analysis information according to the disclosed embodiment may include obtaining and analyzing the structure information of the input file (S2110).

실시 예는 파일이 실행되지 않는 환경에서 먼저 식별된 파일 기본적인 구조 정보를 분석할 수 있다. 이 단계에서는 예를 들어 파일의 종류가 ELF(Executable and Linkable Format), PE(Portable Executable), APK(Android Application Package) 등에 파일 종류가 다르더라도 파일의 위 파일 구조나 그 구조로부터 추출할 수 있는 정보를 획득하거나 분석한다. The embodiment may analyze the basic structure information of the file identified first in an environment in which the file is not executed. In this step, for example, even if the file type is different from ELF (Executable and Linkable Format), PE (Portable Executable), APK (Android Application Package), etc., the above file structure of the file or information that can be extracted from the structure to acquire or analyze.

참고로 예시하는 정적 분석에서 파일의 식별은 개시한 전처리 단계에서 수행될 수도 있는데 이러한 경우 S210 단계의 분석 단계는 전처리 단계와 함께 수행될 수 있다.In the static analysis exemplified for reference, identification of a file may be performed in the disclosed pre-processing step. In this case, the analysis step in step S210 may be performed together with the pre-processing step.

그리고 입력된 파일의 패턴 분석을 수행할 수 있다(S2120). Then, pattern analysis of the input file may be performed (S2120).

여기서는 식별된 파일에 대해 파일 패턴을 분석하는 경우로서 파일에 어떤 조치를 취하지 않고 파일 자체를 오픈하여 추출할 수 있는 여러 스트링(string) 등을 확인하여 파일의 패턴을 얻을 수 있다. Here, in the case of analyzing a file pattern for an identified file, the file pattern can be obtained by checking several strings that can be extracted by opening the file itself without taking any action on the file.

입력된 파일이 제작과 관련된 정보를 얻고 분석할 수 있다(S2130). Information related to the production of the input file may be obtained and analyzed (S2130).

실시 예는 파일이 가지고 있는 고유 정보나 메타 정보, 예를 들면 파일 제작자 정보, 실행 파일인 경우 코드사이닝(codesigning) 정보 등을 얻을 수 있다. In the embodiment, unique information or meta information of a file, for example, file creator information, and code signing information in the case of an executable file can be obtained.

그리고 입력된 파일의 환경 정보를 분석할 수 있다(S2140). And it is possible to analyze the environment information of the input file (S2140).

여기서는 대상 파일이 갖추어야 할 시스템 환경적 구성 요소 정보 등에 정보를 얻을 수 있다. Here, information such as system environment component information that the target file should have can be obtained.

그리고 입력된 파일과 관련된 여러 가지 기타 정보들을 분석하고 저장한다(S2150). 이러한 파일의 수행 없이 파일 자체의 정적 정보를 특정 파일 포맷, 예를 들어 JSON (JavaScript Object Notation)과 같은 데이터 포맷으로 저장할 수 있다.Then, various other information related to the input file is analyzed and stored (S2150). It is possible to store static information of the file itself in a specific file format, for example, in a data format such as JSON (JavaScript Object Notation), without performing such a file.

정적 분석의 예는 파일 자체를 분석하는 것으로서 코딩 기반의 취약 항목 존재 여부, 인터페이스 또는 함수의 호출 구조 문제, 또는 파일의 바이너리 구조 등을 얻을 수 있다. An example of static analysis is to analyze the file itself, and it is possible to obtain the existence of a weak item based on coding, a problem with the call structure of an interface or function, or the binary structure of a file.

위에서 개시한 정적 정보를 분석하는 일 예를 편의상 플로우 차트로 나타내었으나, 위 단계들은 반드시 위에서 기술되거나 도면에서 표시된 순서로 수행될 필요가 없다. 또한 파일에 따라 이 도면에서 개시한 모든 단계를 수행할 필요도 없으며 정적 분석 정보를 얻기 위해 일부 단계, 예를 들면 구조 정부 분석, 제작 관련 정보 분석 및 환경 정보 분석을 선택적으로 수행할 수도 있다. 즉 이에 대한 실시 순서와 실시 단계의 선택의 당업자의 선택에 따라 달라질 수 있다. An example of analyzing the static information disclosed above is shown as a flow chart for convenience, but the above steps are not necessarily performed in the order described above or shown in the drawings. In addition, it is not necessary to perform all the steps disclosed in this drawing according to the file, and some steps, for example, structural government analysis, production-related information analysis, and environmental information analysis, may be selectively performed to obtain static analysis information. That is, it may vary according to the selection of those skilled in the art in the order of implementation and the selection of implementation steps.

개시된 실시 예에 따라 정적 분석 정보를 획득하는 예들을 간략하게 설명하면 다음과 같다. Examples of acquiring static analysis information according to the disclosed embodiment will be briefly described as follows.

정적 분석을 수행하는 일 예로서, 전처리 과정에서 입력된 파일의 해쉬(Hash) 값을 추출할 경우 추출된 파일의 해쉬 값과, 악성코드에 대해 이미 저장된 해쉬 값과 비교하여 상기 입력된 파일이 악성코드 여부를 분석할 수 있다. 분석된 기반으로 파일 내에 악성 코드가 있는지 탐지할 수 있다. As an example of performing static analysis, when a hash value of an input file is extracted in the pre-processing process, the hash value of the extracted file is compared with a hash value already stored for malicious code, and the input file is malicious. Code can be analyzed. Based on the analysis, it is possible to detect the presence of malicious code in the file.

만약, 입력 파일이 모바일 데이터 인 경우 입력된 파일로부터 모바일 악성 의심 코드의 코드 정보를 추출한다. 여기서, 코드 정보란 모바일 악성 의심 코드를 실행하지 않고 코드 자체로부터 추출할 수 있는 정보를 의미하는 것으로, 예를 들어, 해쉬(Hash) 정보, 코드 크기 정보, 파일 헤더 정보, 코드 내에 포함되어 있는 식별 가능한 문자열 정보 및 동작 플랫폼 정보 등을 포함할 수 있다.If the input file is mobile data, code information of suspicious mobile malicious code is extracted from the input file. Here, the code information refers to information that can be extracted from the code itself without executing the mobile malicious code, for example, hash information, code size information, file header information, and identification included in the code. Possible string information and operating platform information may be included.

설명한 바와 같이 이와 같이 획득된 정적 분석 정보는 해당 파일에 대응하여 저장될 수 있다.As described above, the static analysis information obtained in this way may be stored corresponding to the file.

도 3은 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 동적 분석 정보를 얻는 예를 개시한다.3 shows an example of obtaining dynamic analysis information in a process of generating analysis information according to the disclosed embodiment.

전처리로부터 식별된 파일 정보 또는 정적 분석 정보 중 적어도 하나에 기반하여 식별된 파일의 실행 환경에서 실행된 결과 데이터에 따른 동적 분석 정보를 획득할 수 있다Dynamic analysis information according to the result data executed in the execution environment of the identified file based on at least one of the identified file information and the static analysis information from the preprocessing may be obtained.

개시하는 실시 예에 따른 동적 분석 정보를 획득하는 단계는 파일이 실행 중인 환경에서 다양한 입출력 데이터를 분석하거나 또는 파일 실행 시 실행 환경과 상호작용의 변화를 분석하여 취약하거나 위험한 이상현상을 탐지하는 단계이다. 일반적으로 가상화 환경에서 파일을 직접적으로 실행하여 이상 여부를 분석한다. The step of acquiring dynamic analysis information according to the disclosed embodiment is a step of analyzing various input/output data in an environment in which the file is running or analyzing a change in interaction with the execution environment when the file is executed to detect a weak or dangerous anomaly. . In general, the file is directly executed in the virtualization environment and abnormality is analyzed.

동적 분석을 수행하기 위해 실시 예는 입력 파일을 실행하기 위한 동적 분석 환경을 생성하고 준비한다(S2210). 입력된 파일의 타입을 식별한 경우 각각의 파일의 타입에 따라 어떤 실행 환경이 필요한지 알 수 있다. 예를 들면 파일에 따라 윈도우 운영체제, 리눅스 운영체제, 모바일 기기 운영체제에서 실행되는 파일인지 식별할 수 있다. In order to perform the dynamic analysis, the embodiment creates and prepares a dynamic analysis environment for executing the input file (S2210). When the type of the input file is identified, it is possible to know which execution environment is required according to the type of each file. For example, depending on the file, it can be identified whether the file is running on a Windows operating system, a Linux operating system, or a mobile device operating system.

준비된 분석 환경에서 악성 코드 여부를 판별하기 위해 획득된 파일을 실행한다(S2220). In the prepared analysis environment, the obtained file is executed to determine whether it is a malicious code (S2220).

동적 분석 정보를 획득하기 위해 이러한 실행 환경에서 파일을 실행하여 해당 시스템에서 발생하는 이벤트를 수집할 수 있다(S2230). 예를 파일 자체, 프로세스, 메모리, 레지스트리, 네트워크의 시스템에 대한 이벤트 또는 각 시스템의 설정을 변경시키는 이벤트를 수집할 수 있다. 그리고, 수집된 이벤트들을 개별적으로 또는 취합하여 분석한다.In order to obtain dynamic analysis information, an event occurring in the corresponding system may be collected by executing a file in such an execution environment (S2230). For example, you can collect events for the files themselves, processes, memory, registry, systems on the network, or events that change the settings of each system. Then, the collected events are analyzed individually or collectively.

수집된 결과를 취합한 후 동적 분석을 위한 환경을 다시 복구한다(S2240). After collecting the collected results, the environment for dynamic analysis is restored again (S2240).

이와 같이 획득된 결과는 해당 파일에 대응된 동적 분석 정보로 저장될 수 있다.The result obtained in this way may be stored as dynamic analysis information corresponding to the file.

이하에서 이와 같은 동적 분석 정보를 획득하는 실시 예에 따라 동적 분석 정보를 수집하고 분석하는 예를 간략하게 개시한다. Hereinafter, an example of collecting and analyzing dynamic analysis information according to an embodiment of acquiring such dynamic analysis information will be briefly described.

동적 분석의 일 실시 예로서, 입력된 파일이 모바일 기기 운영 체제에서 동작하는 파일로 식별된 경우, 파일을 모바일 단말 또는 모바일 단말 환경과 동일하게 구성된 에뮬레이터나 가상화 환경에서 직접 실행한다. 그리고 파일 내에 모바일 악성 의심 코드가 실행된 후에 단말에 발생하는 모든 변화, 즉 행위 정보를 추출하고 기록한다. 행위 정보는 단말의 운영체제(OS) 환경에 따라 상이하나, 통상적으로 프로세스, 파일, 메모리 및 네트워크 정보 등의 이벤트 정보를 포함할 수 있다.As an embodiment of the dynamic analysis, when an input file is identified as a file operating in a mobile device operating system, the file is directly executed in a mobile terminal or an emulator or virtualization environment configured to be the same as the mobile terminal environment. And after the mobile malicious code is executed in the file, all changes that occur in the terminal, that is, behavior information, are extracted and recorded. The behavior information is different depending on the operating system (OS) environment of the terminal, but may generally include event information such as process, file, memory, and network information.

동적 분석의 다른 실시 예로서 전처리 과정에서 입력된 파일의 해쉬(Hash) 값을 추출되지 않고 사용자 단말에서 해쉬 값이 추출된 경우라도, 단말에서 추출된 파일의 해쉬 값을 인텔리전스 플랫폼을 통해 수신할 수 있다. As another example of dynamic analysis, even when the hash value of the input file is not extracted in the pre-processing process and the hash value is extracted from the user terminal, the hash value of the file extracted from the terminal can be received through the intelligence platform. there is.

데이터베이스에 해당 파일의 해쉬 값이 이미 저장되지 않는 경우 수신된 파일을 가상 또는 실제의 운영체제에서 실행시키고, 실행 시에 발생되는 행위를 실시간으로 수집하고 수집된 동적분석 정보를 데이터베이스에 이미 저장된 정보와 비교할 수 있다. If the hash value of the file is not already stored in the database, the received file is executed in a virtual or real operating system, actions that occur during execution are collected in real time, and the collected dynamic analysis information is compared with the information already stored in the database. can

상기 비교 결과 이미 정의된 위험도를 초과하는 경우 입력된 파일이 악성 코드를 포함하고 있다고 판단할 수 있고, 해당 파일의 해쉬 값을 데이터 베이스에 저장하여 추후 정적 분석 등에 이용할 수 있다. As a result of the comparison, if the previously defined risk level is exceeded, it may be determined that the input file contains malicious code, and the hash value of the file may be stored in a database to be used for static analysis later.

악성 코드에 따라 행위 주체가 되는 제 1 프로세스가 시스템에 위험한 행위를 발생하는 경우도 있다. 그러나, 경우에 따라 상기 제 1 의 프로세스의 행위가 추가적으로 자식 프로세스인 제 2 프로세스를 추가로 생성하고 상기 제 2 프로세스가 시스템에 악성 행위를 수행하는 경우도 있다. Depending on the malicious code, the first process, which is the subject of the action, may generate a dangerous action in the system. However, in some cases, the action of the first process additionally creates a second process that is a child process, and the second process performs a malicious action on the system.

이러한 경우, 동적 분석의 일 실시 예는 최초의 제 1 의 프로세스의 행위가 실행 시스템에 발생시키는 이벤트들을 저장하고, 추가적으로 제 1 프로세스의 자식 프로세스인 제 2 프로세스를 추출 또는 확인하여 상기 제 2 프로세스에 따른 악성 행위의 이벤트를 저장할 수도 있다. 이와 같이 이 예에서 동적 분석은 최초의 제 1 프로세스와 그와 연결될 제 2, 3의 프로세스의 이벤트 정보도 종합적으로 분석하여 식별된 파일이 악성 코드를 포함하는지 판단할 수 있다.In this case, an embodiment of the dynamic analysis stores the events that the action of the first first process generates in the execution system, and additionally extracts or identifies a second process that is a child process of the first process to the second process It is also possible to store the event of the malicious behavior. As such, in this example, the dynamic analysis may determine whether the identified file contains malicious code by comprehensively analyzing event information of the first process and the second and third processes to be connected thereto.

입력된 파일의 실행 결과에 따라 알려지지 않은 악성 코드의 특성이 없는 경우는 악성 코드의 특성을 가지고 있더라도 탐지하기 어려운 경우 있다. 이러한 경우 동적 분석의 또 다른 실시 예는 식별된 파일이 실행 시에 외부와 통신하는 네트워크 프로세스를 모니터링하고 분석하여 상기 실행 프로세스의 악성 행위를 탐지할 수 있다. Depending on the execution result of the input file, if there is no unknown malicious code characteristic, it may be difficult to detect even though it has the characteristic of malicious code. In this case, another embodiment of the dynamic analysis may detect malicious behavior of the running process by monitoring and analyzing a network process that communicates with the outside when the identified file is executed.

예를 들면 식별된 파일을 실행한 경우 외부와 통신하는 네트워크 이벤트를 모니터링할 수 있다. 파일 실행에 따라 로컬 어드레스 오브젝트(local address object)를 생성한 프로세스 아이디(Process IDentifier, PID)를 저장한다. 그리고, 상기 파일 실행과 관련된 네트워크 이벤트가 발생될 경우 해당 네트워크 이벤트의 IRP(Interior Router Protocol) 정보로부터 로컬 어드레스 오브젝트 정보들을 추출할 수 있다. For example, you can monitor network events that communicate with the outside when the identified file is executed. Stores the Process IDentifier (PID) that created the local address object according to the file execution. In addition, when a network event related to the execution of the file occurs, local address object information may be extracted from IRP (Interior Router Protocol) information of the corresponding network event.

상기 프로세스 아이디가 생성한 로컬 어드레스 오브젝트와 상기 네트워크 이벤트와 관련된 로컬 어드레스 오브젝트들을 비교하여 악성 행위를 판단하는 동적 분석을 수행할 수 있다. 예를 들면 상기 네트워크 이벤트에 따라 송수신되는 패킷의 패턴이나 또는 패킷 전송을 유발하는 C&C (Control and Command) 서버를 확인하여 악성 행위 여부를 판단할 수 있다. A dynamic analysis may be performed to determine malicious behavior by comparing the local address object generated by the process ID with the local address objects related to the network event. For example, it is possible to determine whether a malicious act is performed by checking a pattern of packets transmitted and received according to the network event or a control and command (C&C) server that triggers packet transmission.

동적 분석의 또 다른 실시 예로서, 주소 결정 프로토콜(Address Resolution Protocol, ARP) 스푸핑 (spoofing) 공격을 방지하기 위해 ARP 정보를 모니터닝할 수도 있다. 일반적으로 로컬 영역 네트워크에서 장비의 IP(internet protocol) 주소와 MAC (media access control) 주소간의 대응은 ARP 이나 Neighbor Discovery Protocol (NDP) 이 사용될 수 있다. As another embodiment of the dynamic analysis, ARP information may be monitored to prevent an Address Resolution Protocol (ARP) spoofing attack. In general, ARP or Neighbor Discovery Protocol (NDP) may be used for correspondence between an IP (internet protocol) address and a MAC (media access control) address of a device in a local area network.

ARP 스푸핑 공격은 공격자가 IP 패킷을 전송할 경우 수신 네트워크 장비의 MAC 주소가 아닌 자신의 MAC 주소에 대응하는 ARP 메시지를 전송하여 이루어진다. 전송된 메시지를 수신한 네트워크 장비는 전송 패킷을 정상적인 IP 주소가 아닌 공격자로 전송하도록 한다. ARP spoofing attack is achieved by sending an ARP message corresponding to the MAC address of the receiving network device, not the MAC address of the receiving network device, when an attacker sends an IP packet. The network device receiving the transmitted message sends the transmission packet to the attacker instead of the normal IP address.

실시 예는 이러한 공격에 대응하기 위하여 네트워크 장비들로부터 직접 수집된 ARP 정보와, 가상 네트워크에 포함된 네트워크 장비들의 SNMP (Simple Network Management Protocol) 정보 내의 ARP 정보를 비교함으로써 ARP 스푸핑 공격 발생 여부를 판단할 수 있다. The embodiment determines whether an ARP spoofing attack occurs by comparing ARP information directly collected from network devices to respond to such an attack and ARP information in SNMP (Simple Network Management Protocol) information of network devices included in a virtual network. can

즉, 동적 분석의 일 실시 예는, 호스트가 네트워크에 연결된 장비들에 ARP 정보 요청 메시지를 전송하여 회신된 ARP 응답 메시지에 포함된 제 1 ARP 정보와, 가상 네트워크에 접속된 장비들의 SNMP 정보 내에 포함된 제 2 ARP 정보를 비교하여 제 1 ARP 정보와 제 2 ARP 정보가 다른 경우 ARP 스푸닝 공격이 발생했다고 판단할 수 있다. That is, in one embodiment of the dynamic analysis, the host sends an ARP information request message to the devices connected to the network, and the first ARP information included in the returned ARP response message and the SNMP information of the devices connected to the virtual network are included. By comparing the second ARP information, if the first ARP information and the second ARP information are different, it can be determined that an ARP spoofing attack has occurred.

이 실시 예는 이러한 동적 분석의 방식을 이용하여 ARP 스푸핑 공격을 탐지하고 호스트 장비에 저장될 기밀 정보 유출을 방지할 수 있다. This embodiment can detect an ARP spoofing attack by using this dynamic analysis method and prevent leakage of confidential information to be stored in the host device.

동적 분석 방식의 또 다른 실시에는 가상 환경을 회피하도록 하는 악성 코드를 분석할 수 있는 방법이다. 여기서 관리 서버와 네트워크를 통해 연결된 단말은 관리 서버에 저장된 제 1 OS (operating system) 이미지를 이용해 부팅을 수행할 수 있다. 단말이 부팅된 후 상기 제 1 OS에 기초하여 악성 코드를 분석한 후, 상기 단말은 관리 서버로부터 제 2 OS 이미지를 수신하고, 수신된 제 2 OS 이미지를 이용해 초기화를 수행한다. 그리고 상기 단말이 악성 코드가 분석 종료된 시그니처를 상기 관리 서버로 전송하도록 한다. 따라서, 제 1 OS에 기초하여 악성 코드를 분석 후에 발행된 악성 행위가 있더라도 상기 관리 서버는 단말이 제 1 OS을 단말에서 삭제하도록 하고 원본 OS 이미지와 동일한 제 2 OS를 기초로 단말이 부팅하도록 함으로써 단말에 악성 행위 발생을 방지하도록 할 수 있다. Another implementation of the dynamic analysis method is a method capable of analyzing malicious code to avoid the virtual environment. Here, the terminal connected to the management server through the network may perform booting using the first operating system (OS) image stored in the management server. After the terminal boots and analyzes the malicious code based on the first OS, the terminal receives the second OS image from the management server, and performs initialization using the received second OS image. Then, the terminal transmits the signature on which the analysis of the malicious code has been completed to the management server. Therefore, even if there is a malicious action issued after analyzing the malicious code based on the first OS, the management server causes the terminal to delete the first OS from the terminal and allows the terminal to boot based on the second OS identical to the original OS image. It is possible to prevent the occurrence of malicious behavior in the terminal.

악성 코드는 외부의 서버와 통신하며 추가적인 명령을 발생시키고 파일을 수신하도록 할 수 있다. The malicious code communicates with an external server and can issue additional commands and receive files.

그런데 동적 분석을 수행할 수 있는 서버가 중지된 경우는 이러한 동적 분석에 매우 오랜 시간이 소요될 수 있고 해당 행위가 사전 차단된 경우에도 동적 분석을 수행할 수 없는 경우가 있다. However, if the server capable of performing the dynamic analysis is stopped, the dynamic analysis may take a very long time, and there are cases where the dynamic analysis cannot be performed even if the corresponding behavior is blocked in advance.

동적 분석을 통해 네트워크 행위를 분석하기 위해서는 악성 코드가 사용하는 명령 제어 서버(C&C 서버), 추가적인 악성 코드를 다운로드하기 위한 다운로드 서버 또는 악성 코드들끼리 정보를 주고 받거나 해커와 정보를 주고 받는 커뮤니케이션 패킷 등의 정보를 추출하여 분석해야 한다. 그러나, 이와 같이 관련 서버가 작동하지 않는 경우에는 그러한 정보의 추출할 수 없다. In order to analyze network behavior through dynamic analysis, the command and control server (C&C server) used by malicious code, a download server to download additional malicious code, or communication packets that exchange information between malicious codes or exchange information with hackers, etc. information should be extracted and analyzed. However, such information cannot be extracted when the relevant server is not operating in this way.

여기서 개시하는 동적 분석 방법의 또 다른 실시 예는 서버가 동작 중지된 경우에도 동적 분석을 수행하도록 할 수 있다. Another embodiment of the dynamic analysis method disclosed herein may perform dynamic analysis even when the server is stopped.

예를 들어 네트워크 접속 유도 장치가 악성 코드에 감염된 클라이언트 단말과 관리 서버에 사이에서 단말의 접속 요청을 처리하도록 하여 동적 분석을 진행하도록 할 수도 있다. 네트워크 접속 유도 장치는 단말로부터 접속 요청을 수신하고 이를 악성 코드 행위를 유발시키는 C&C 서버로 전달하도록 할 수 있다. 그리고, 만약 상기 네트워크 접속 유도 장치가 일정 시간 내에 C&C 서버로부터 응답 패킷을 수신하지 못하면, 상기 네트워크 접속 유도 장치는 별도의 가상의 응답 패킷과 접속 요청을 함께 상기 단말에 전송하도록 한다. For example, a dynamic analysis may be performed by allowing the network access inducing device to process the access request of the terminal between the client terminal infected with the malicious code and the management server. The network access inducing device may receive an access request from the terminal and transmit it to a C&C server that induces malicious code behavior. And, if the network access inducing apparatus does not receive a response packet from the C&C server within a predetermined time, the network access inducing apparatus transmits a separate virtual response packet and an access request to the terminal together.

이후에 상기 단말로부터 수신된 악성 코드 분석에 관련된 데이터를 추출할 수 있다. Thereafter, data related to the analysis of the malicious code received from the terminal may be extracted.

가상의 응답 패킷을 이용하는 예는 가상의 응답 패킷 TCP 세션을 생성하기 위한 패킷 형식이면 충분하다. 악성 코드가 사용하는 일반적인 TCP (Transmission Control Protocol) 프로토콜은 TCP 세션만 생성하도록 상기 클라이언트 단말이 전송하는 데이터 패킷을 생성할 수 있다. 그리고 상기 데이터 패킷으로부터 악성 코드의 동적 분석에 필요한 중요 정보들을 추출할 수 있다. 이와 같이 하면 관리 서버가 동작하지 않더라도 네트워크 접속 유도 장치의 동작을 이용하여 동적 분석을 수행할 수 있다. For an example of using the virtual response packet, a packet format for creating a virtual response packet TCP session is sufficient. A general Transmission Control Protocol (TCP) protocol used by malicious code may generate a data packet transmitted by the client terminal to create only a TCP session. In addition, important information necessary for dynamic analysis of malicious code may be extracted from the data packet. In this way, even if the management server does not operate, dynamic analysis can be performed using the operation of the network connection inducing device.

이와 같이 실시 예는 수신된 파일을 실행하여 발행하는 이벤트를 분석할 수 하고 동적 분석 정보를 데이터베이스에 저장할 수 있다. In this way, the embodiment can analyze the event issued by executing the received file and store the dynamic analysis information in the database.

도 4는 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 심층 분석 정보를 얻는 예를 개시한다.4 discloses an example of obtaining in-depth analysis information in the process of generating analysis information according to the disclosed embodiment.

개시하는 실시 예에 따른 심적 분석 정보를 획득하는 단계는 수신된 파일 포함하는 실행 가능한 파일 디스어셈블링(disassembling)하여 기계 언어 레벨에서 분석하여 악성 행위를 유발하는 공격 기법이나 공격자를 식별하는 특징을 포함한다. The step of acquiring the mental analysis information according to the disclosed embodiment includes an attack technique that causes a malicious behavior or an attacker by disassembling an executable file including the received file and analyzing it at the machine language level. do.

심층 분석 정보는 기술한 정적 분석이나 동적 분석의 결과를 이용하여 얻을 수도 있고, 분석자의 해석 기준에 따라 실행 가능한 파일을 악성 행위를 유발하는 파일로 분석할 수 있다. In-depth analysis information can be obtained by using the results of the described static analysis or dynamic analysis, or executable files can be analyzed as files that cause malicious behavior according to the analysis criteria of the analyst.

또한 심층 분석 정보는 파일 자체의 분석 정보나 또는 파일을 여러 번 가공한 정보를 포함할 수 있고 이미 저장된 정보를 기반으로 수행될 수 있다. In addition, the in-depth analysis information may include analysis information of the file itself or information obtained by processing the file multiple times, and may be performed based on previously stored information.

심층 분석은 디스어셈블링(disassembling), 디스어셈블된 기계언어레벨의 코드추출, 공격행위(TTP)식별, 공격자 식별, 테인트분석(taint analysis)을 수행하는 단계를 포함할 수 있다. The in-depth analysis may include disassembling, extracting the disassembled machine language level code, identifying an attack behavior (TTP), identifying an attacker, and performing taint analysis.

도면을 참조하여 상세히 예시하면 다음과 같다. It will be exemplified in detail with reference to the drawings as follows.

입력된 파일이 실행 가능한 파일을 포함할 경우 심층 분석은 실행 가능한 파일을 디스어셈블(disassemble)한다 (S2410). When the input file includes an executable file, the in-depth analysis disassembles the executable file (S2410).

디스어셈블(disassemble)된 어셈블리 코드(assembly code)들은 OP-CODE(operation code)와 피연산자(operand)를 포함할 수 있다. OP-CODE(operation code)는 명령어 코드로 호칭할 수는 기계 언어 명령어를 나타내고, 피연산자(operand)는 실행 동작에 필요한 정보, 즉 기계 언어 명령어의 대상 데이터나 메모리 위치를 나타낸다. The disassembled assembly codes may include an operation code (OP-CODE) and an operand. An operation code (OP-CODE) indicates a machine language instruction that can be called an instruction code, and an operand indicates information necessary for an execution operation, that is, target data or a memory location of the machine language instruction.

이하에서는 편의상 디스어셈블(disassemble)된 어셈블리 코드(assembly code)들 중 OP-CODE를 제외한 부분을 ASM-CODE로 호칭하도록 한다. 따라서, 이하에서 ASM-CODE 는 피연산자(operand) 부분을 포함할 수 있다. Hereinafter, for convenience, a portion of disassembled assembly codes excluding the OP-CODE will be referred to as an ASM-CODE. Therefore, hereinafter, the ASM-CODE may include an operand part.

디스어셈블링(disassembling)을 통해 오브젝트 코드 형식의 실행 가능한 파일은 특정 형식, 예를 들면 어셈블러 언어 형식의 코드 또는 디스어셈블된 코드로 변환된다. 이러한 디스어셈블된 코드로부터 일정 형식을 가진 OP-CODE (operation code) 와 ASM-CODE를 추출할 수 있다 (S2420). Through disassembling, an executable file in object code format is converted into code in a specific format, for example, assembler language format or disassembled code. An OP-CODE (operation code) and an ASM-CODE having a predetermined format may be extracted from the disassembled code (S2420).

추출된 디스어셈블드 코드를 일정 형식의 데이터 포맷을 변환할 수 있다. 일정 형식의 데이터 포맷의 변환 예시는 아래에서 개시한다.The extracted disassembled code may be converted into a certain type of data format. An example of conversion of a certain type of data format is disclosed below.

심층 분석은 추출된 디스어셈블된 코드나 상기 일정 형식으로 변환된 데이터 포맷을 기반으로 공격행위를 식별할 수 있다(S2430). The in-depth analysis may identify the attack behavior based on the extracted disassembled code or the data format converted to the predetermined format (S2430).

디스어셈블된 코드 내에 OP-CODE는 수행될 연산을 특정하는 기계 언어 명령어의 일부인데, 사이버 보안 상 공격 행위 또는 공격 기법(Terrorist Tactics, Techniques, and Procedures, 이하 TTP)을 유발하는 OP-CODE는 해당 공격 행위 별로 매우 유사한 값이나 포맷을 가질 수 있다. 따라서, 이러한 OP-CODE와 ASM-CODE 를 분석하면 특정 공격 행위를 구별할 수 있다. In the disassembled code, the OP-CODE is a part of the machine language instruction that specifies the operation to be performed. Each attack behavior can have a very similar value or format. Therefore, by analyzing these OP-CODEs and ASM-CODEs, specific attack behaviors can be distinguished.

실행 가능한 파일로부터 디스어셈블된 코드들을 추출하고 추출된 디스어셈블된 코드들은 실행 함수에 따라 분리될 수 있다. The disassembled codes may be extracted from the executable file, and the extracted disassembled codes may be separated according to an executable function.

예를 들면 디스어셈블된 코드로부터 추출된 OP-CODE와 ASM-CODE 또는 상기 디스어셈블된 코드의 재조합된 코드는 퍼지 해쉬(Fuzzy Hashing) 방식 또는 CTPH (context triggered piecewise hashes) 방식 등의 해쉬 값이나 이를 일정 형식의 코드로 변환할 수 있다. For example, the OP-CODE and ASM-CODE extracted from the disassembled code or the recombined code of the disassembled code is a hash value such as a fuzzy hashing method or a CTPH (context triggered piecewise hashes) method or a It can be converted into a certain type of code.

실시 예는 실행 가능한 파일의 디스어셈블된 코드를 일정 형식으로 변환하고 사이버 보안 전문가 집단들이 공통적으로 인정하는 공격 행위 세부 요소들로 매칭하도록 하여 그 공격행위를 식별할 수 있다. The embodiment may identify the attack behavior by converting the disassembled code of the executable file into a predetermined format and matching the attack behavior details commonly recognized by cyber security expert groups.

그리고 이미 추출된 디스어셈블된 코드들과 공격행위(TTP) 별 매칭 관계를 저장한 데이터베이스에 기반하여 공격행위(TTP)를 식별하도록 할 수 있다. 이 경우 추출된 디스어셈블된 코드들의 CTPH 알고리즘에 따른 퍼지 해쉬 값이나 이를 일정 형식으로 변환한 데이터와 공격 행위(TTP) 별 매칭 유사도를 고속으로 수행할 수 있다. In addition, it is possible to identify the TTP based on the database storing the previously extracted disassembled codes and the matching relation for each TTP. In this case, the fuzzy hash value according to the CTPH algorithm of the extracted disassembled codes or the matching similarity for each attack behavior (TTP) with the data converted into a predetermined format can be performed at high speed.

이러한 보안 전문가 집단의 공격 행위를 저장한 데이터 베이스의 일 예로서 MITRE ATT&CK 등의 정보를 저장한 데이터베이스를 예로 들 수 있다. MITRE ATT&CK은 실제 보안 공격 기법이나 행위에 대한 데이터 베이스의 하나로서, 특정 보안 공격 기법이나 행위들을 매트릭스 형식의 구성 요소들로 표시함으로써, 공격 기법과 행위들을 일정한 데이터 세트 형식으로 식별할 수 있도록 한다. As an example of a database storing the attack behavior of such a security expert group, a database storing information such as MITER ATT&CK may be exemplified. MITER ATT&CK is one of the databases on actual security attack techniques and behaviors, and by displaying specific security attack techniques or behaviors as components in a matrix format, attack techniques and behaviors can be identified in a specific data set format.

MITRE ATT&CK는 해커 또는 악성 코드의 공격 기법에 대한 내용을 공격의 단계 별로 분류하여 CVE 코드(Common Vulnerabilities and Exposures Code)의 매트릭스로 표현한다. MITER ATT&CK classifies the attack techniques of hackers or malicious codes by stage of attack and expresses them as a matrix of CVE codes (Common Vulnerabilities and Exposures Code).

실시 예는 디스어셈블된 코드를 분석함으로써 여러 가지 공격 행위들 중 특정 공격 행위를 식별하되, 식별된 타입의 공격 행위가 전문가 단체들이 인정하는 실제 수행되는 공격 코드들에 매칭되도록 함으로써 공격 행위 식별이 전문적이면서 공통으로 인식되는 요소들로 표현되도록 할 수 있다.The embodiment identifies a specific attack behavior among various attack behaviors by analyzing the disassembled code, but by matching the identified type of attack behavior with the actually performed attack codes recognized by expert groups, the identification of the attack behavior is specialized However, it can be expressed with elements that are recognized in common.

디스어셈블된 코드 내에 OP-CODE는 특정 행위를 유발시키는 기계 언어 명령어이므로, 동일한 공격 행위를 유발하는 파일의 OP-CODE 는 매우 유사할 수 있다. 그러나 동일 공격 행위와 이를 유발하는 파일에 포함된 OP-CODE가 정확하게 완전히 동일한 것은 아니므로, 실시 예는 OP-CODE를 포함하는 디스어셈블링된 코드에 대해 인공 지능 기반의 머신 러닝을 수행하도록 할 수 있다. 머신 러닝이 수행되면 임계 치 이상의 유사도를 가진 공격 코드의 포함 여부와 공격 코드의 공격 기법이 식별될 수 있다. Since the OP-CODE in the disassembled code is a machine language instruction that causes a specific behavior, the OP-CODE of a file that causes the same attack behavior can be very similar. However, since the same attack behavior and the OP-CODE included in the file causing it are not exactly the same, the embodiment can perform artificial intelligence-based machine learning on the disassembled code including the OP-CODE. there is. When machine learning is performed, whether an attack code having a similarity greater than or equal to a threshold is included and an attack technique of the attack code can be identified.

따라서, 동일한 악성 행위를 유발시키는 파일들의 디스어셈블링된 코드들이 완전히 동일하지 않더라도 디스어셈블링된 코드기반으로 악성 행위를 수행하는 파일을 식별할 수 있다. Accordingly, even if the disassembled codes of the files causing the same malicious behavior are not completely identical, the file performing the malicious behavior can be identified based on the disassembled code.

머신 러닝 알고리즘으로 Perceptron, Logistic Regression, Support Vector Machines, Multilayer Perceptron 등의 알고리즘이 사용될 수 있다. Algorithms such as Perceptron, Logistic Regression, Support Vector Machines, and Multilayer Perceptron may be used as machine learning algorithms.

디스어셈블된 코드들의 퍼지 해쉬 값들의 유사도를 AI(Artificial Intelligence; 이하 AI) 알고리즘을 이용하여 기존에 학습된 MITRE ATT&CK과 같은 공격 기법의 공격 코드들로 매칭하여 최종적으로 악성 코드임을 탐지할 수 있다 By matching the similarity of the fuzzy hash values of the disassembled codes with the attack codes of an attack technique such as MITER ATT&CK previously learned using an artificial intelligence (AI) algorithm, it is possible to finally detect a malicious code.

그리고 실시 예는 인공 지능 머신 러닝의 결과를 이용하면 보다 정확성을 가지고 신속하게 디스어셈블된 코드에 대응되는 공격 행위 또는 공격 행위의 취약 요소들을 식별할 수 있다. In addition, the embodiment may identify an attack action corresponding to the disassembled code or vulnerable elements of the attack action quickly with more accuracy by using the result of artificial intelligence machine learning.

이에 대한 구체적인 실시 예들은 이하에서 도면을 참고하여 상세히 개시한다.Specific embodiments thereof will be described in detail below with reference to the drawings.

심층 분석의 실시 예는 디스어셈블된 코드와 인공 지능 기반의 머신 러닝 결과를 이용해 유사 공격 행위를 유발하는 공격자도 식별하는 단계를 포함할 수도 있다(S2440). 마찬가지로 공격자 식별에 대한 구체적인 예는 후술한다An embodiment of the in-depth analysis may include identifying an attacker who induces a similar attack behavior using the disassembled code and the artificial intelligence-based machine learning result (S2440). Similarly, a specific example of attacker identification will be described later.

그리고 심층 분석의 실시 예는 파일이 없는(fileless) 악성 코드의 경우도 특정 시점에서 시스템의 메모리 분석을 통해 공격 행위가 있는지 여부에 대해 판단할 수 있는 테인트분석(taint analysis)을 포함할 수 있다(S2450). In addition, an embodiment of the in-depth analysis may include a taint analysis that can determine whether there is an attack action through memory analysis of the system at a specific point in time even in the case of fileless malicious code. (S2450).

심층 분석은 실행 파일의 디스어셈블링된 코드를 처리하는 것에 기반하며 이에 따른 공격 기법이나 공격자의 식별, 또는 테인트 분석은 선택적으로 수행될 수도 있다.In-depth analysis is based on processing the disassembled code of the executable file, and the attack technique or attacker's identification or taint analysis accordingly may be selectively performed.

이와 같이 수행된 최종 심층 분석 정보는 해당 파일에 대응되는 심층 분석 정보로 데이터베이스에 저장할 수 있다. The final deep analysis information performed in this way may be stored in the database as in-depth analysis information corresponding to the file.

도 5는 심층 분석의 일 예로서 악성 코드를 디스어셈블링하여 악성 행위가 포함된 파일임을 판단하는 예를 개시한다. FIG. 5 discloses an example of disassembling a malicious code as an example of in-depth analysis to determine that a file contains a malicious behavior.

기술한 바와 같이 실행 가능한 파일을 디스어셈블링을 수행하면 어셈블리 언어 형식의 코드의 형식인 OP-CODE 와 ASM-CODE를 얻을 수 있다.As described above, if the executable file is disassembled, OP-CODE and ASM-CODE, which are assembly language code types, can be obtained.

예를 들어 EXE 실행 파일 내에 특정 함수 A는 디스어셈블러(disassembler)를 거치면 OP-CODE를 포함하는 디스어셈블링된 코드 또는 디스어셈블드 코드(disassembled cocde)로 변환될 수 있다. For example, a specific function A in an EXE executable file may be converted into disassembled code including OP-CODE or disassembled code (disassembled cocde) through a disassembler.

만약 EXE 실행 파일이 악성 행위를 유발하는 악성 코드인 경우, 이러한 행위를 유발하는 함수나 코드 부분을 디스어셈블링하면 악성 행위를 유발하는 디스어셈블드 코드 세트를 얻을 수 있다. If the EXE executable file is malicious code that causes malicious behavior, disassemble the function or code part that causes such behavior to obtain a disassembled code set that causes malicious behavior.

디스어셈블드 코드 세트는 상기 악성 행위 또는 악성 코드에 대응되는 OP-CODE 세트 또는 OP-CODE 와 ASM-CODE가 조합된 세트를 포함할 수 있다. The disassembled code set may include an OP-CODE set corresponding to the malicious behavior or malicious code, or a set in which an OP-CODE and an ASM-CODE are combined.

악성 행위가 동일하더라도 이를 수행하도록 하는 악성 코드의 알고리즘이나 실행 파일의 디스어셈블링 결과가 정확하게 같지 않기 때문에 인공 지능 기반의 유사도 분석을 통해 입력된 악성 코드가 특정 디스어셈블드 코드 세트와 대응되는지를 식별할 수 있다.Even if the malicious behavior is the same, it is identified whether the input malicious code corresponds to a specific disassembled code set through artificial intelligence-based similarity analysis because the disassembly result of the executable file or the algorithm of the malicious code that performs it is not exactly the same. can do.

이렇게 특정 디스어셈블드 코드 세트와 대응되는 악성 행위를, MITRE ATT&CK와 같은 전문적이고 공용의 공격 방식 또는 공격 기법에 대응시켜 공격 기법 (TTP)를 식별하는데 사용할 수 있다. This malicious behavior corresponding to a specific disassembled code set can be used to identify an attack technique (TTP) by matching a professional and public attack method or attack technique such as MITER ATT&CK.

또는 특정 디스어셈블드 코드 내 OP-CODE 세트 또는 OP-CODE 와 ASM-CODE가 조합된 세트를 MITRE ATT&CK에서 정의한 공격 기법 요소들과 대응시켜 공격 기법을 판단하는데 사용할 수 있다. Alternatively, an OP-CODE set in a specific disassembled code or a set combining OP-CODE and ASM-CODE can be used to determine an attack technique by matching it with the attack technique elements defined in MITER ATT&CK.

이 도면은 실행 파일, 해당 실행 파일의 디스어셈블드 코드 세트와 MITRE ATT&CK에서 공격 기법 요소들에 대응되는 공격 기법을 대응한 예를 나타낸다.This figure shows an example in which the execution file, the disassembled code set of the executable file, and the attack technique corresponding to the attack technique elements in MITER ATT&CK correspond to each other.

도 6은 개시하는 실시 예에 따라 분석 정보 생성하는 과정에서 연관관계 분석 정보를 산출하는 일 예를 개시한다.6 discloses an example of calculating correlation analysis information in a process of generating analysis information according to the disclosed embodiment.

상기 얻은 여러 가지 분석 정보들은 사이버 위협 침해 정보로 이용될 수 있는데, 사이버 위협 침해 정보에 기반해 공격자 또는 공격 기법의 연관관계를 나타내는 연관관계 분석 정보를 생성한다. The various types of analysis information obtained above may be used as cyber threat infringement information, and correlation analysis information indicating a relationship between an attacker or an attack technique is generated based on the cyber threat infringement information.

사이버 위협 침해 정보(indicator of compromise, IoC)는 시스템이나 네트워크 상에 발생하는 실제 또는 잠재적인 사이버 보안 위협 행위, 공격 행위 또는 악성 행위를 식별하는 여러 가지 정보들을 지칭한다. 예를 들면, 사이버 위협 침해 정보(IoC)는 이러한 행위들을 지칭하는 파일, 로그 정보 상에 나타나는 여러 흔적들, 파일 자체, 경로 등 또는 이런 행위를 추론하도록 하는 정보들을 나타낸다.Cyber threat indicator of compromise (IoC) refers to various pieces of information that identify actual or potential cyber security threat behavior, attack behavior, or malicious behavior occurring on a system or network. For example, Cyber Threat Compromise Information (IoC) represents a file indicating these actions, various traces appearing on log information, the file itself, a path, or the like, or information that allows to infer these actions.

이미 분석된 정적, 동적, 심층 분석 정보 등과 식별된 파일을 이용하여, 분석 정보와 공격 행위 사이의 IP 정보의 연관관계(S2510), 이메일에 포함되거나 웹사이트의 호스트네임의 연관관계(S2520), URL의 연관관계(S2530), 파일의 코드사인(codesign)의 연관 관계들(S2540)을 얻을 수 있다. Using the files identified as static, dynamic, and in-depth analysis information already analyzed, the correlation between the analysis information and the IP information (S2510), the correlation between the hostname of the website or included in the email (S2520), URL associations (S2530) and file codesign associations (codesign) associations (S2540) can be obtained.

여기서 예시하는 연관관계 분석 정보를 획득하는 과정은 일 예로서 반드시 예시한 순서를 따르거나 모든 연관관계가 분석되어야 하는 것은 아니다. 예를 들어 분석 정보와 공격행위 사이의 IP 와 URL의 연관관계만 이용해도 관련 파일에 대한 연관관계를 얻어낼 수 있다. 이러한 연관관계 분석 정보는 정확하게 공격기법 또는 공격자를 추론하는데 사용될 수 있다. The process of obtaining the correlation analysis information exemplified here is an example, and does not necessarily follow the exemplified order or all correlations need to be analyzed. For example, by using only the correlation between IP and URL between the analysis information and the attack behavior, it is possible to obtain the correlation for the related file. This correlation analysis information can be used to accurately infer an attack technique or an attacker.

정적 분석, 동적 분석, 심층 분석 등으로 공격 행위나 공격자가 식별되지 않더라도 분석된 정보들 간의 연관관계를 이용하면 공격 행위와 공격자를 추정할 수 있는 정보를 얻을 수 있다. 이에 대한 상세한 설명은 이하에서 도면을 참조하여 설명한다.Even if the attack behavior or the attacker is not identified through static analysis, dynamic analysis, or in-depth analysis, information that can estimate the attack behavior and the attacker can be obtained by using the correlation between the analyzed information. A detailed description thereof will be described below with reference to the drawings.

이러한 연관 관계 분석 정보는 수신되는 파일에 대해 지속적이고 누적적으로 저장하고 추후 새로운 파일을 수신할 때마다 저장된 연관관계 분석 정보는 다시 업데이트할 수 있다. Such correlation analysis information may be continuously and cumulatively stored with respect to a received file, and the stored correlation analysis information may be updated again whenever a new file is received in the future.

위에서 분석한 여러 가지 분석 정보를 기반으로 사이버 위협 침해 정보를 얻는다. Based on the various analysis information analyzed above, cyber threat breach information is obtained.

그리고 사이버 위협 침해 정보(IoC)를 이용해 공격 행위나 공격자를 식별할 수 있는 여러 가지 연관관계 정보를 얻을 수 있다(S2550). In addition, various types of correlation information for identifying an attack action or an attacker may be obtained using the cyber threat breach information (IoC) (S2550).

이러한 사이버 위협 침해 정보(IoC)는 추후에 공격 기법을 추론하는 연관관계 분석 정보를 얻는데 이용될 수 있다. 연관 관계 분석과 이를 이용하여 공격자를 추적 또는 공격 행위를 추론할 수 있는 예는 이하에서 상세히 설명한다.Such cyber threat breach information (IoC) may be used to obtain correlation analysis information for inferring an attack technique later. The correlation analysis and an example of tracking an attacker or inferring an attack behavior using the correlation analysis will be described in detail below.

그리고 획득된 연관관계 분석 정보는 해당 파일에 대응하여 다시 서버나 데이터 베이스에 저장될 수 있다.And the obtained correlation analysis information may be stored in the server or database again in response to the file.

설명한 바와 같이 위와 같이 분석된 정보들은 취합되어 중복 제거, 표준화, 인리치먼트 (enrichment) 과정을 통해 표준화될 수 있다. 예를 들면 정적 분석 정보, 동적분석 정보, 심층분석 정보, 연관관계분석 정보들은 사용자에게 제공되거나 추후 사이버 위협 정보를 갱신 또는 재생산하기 위해 표준화된 포맷으로 저장될 수 있다. As described above, the analyzed information can be collected and standardized through duplication, standardization, and enrichment processes. For example, static analysis information, dynamic analysis information, in-depth analysis information, and correlation analysis information may be provided to a user or stored in a standardized format to update or reproduce cyber threat information later.

여기서 각 분석 정보들의 중복되거나 공통된 분석 정보는 중복된 부분을 제거하고, 부족한 부분의 데이터의 인리치먼트(enrichment) 작업 등을 수행할 수 있다.In this case, the overlapping or common analysis information of each analysis information may be duplicated and may perform an enrichment operation of the insufficient portion of the data.

그리고 사용자의 조회 질의에 따라 또는 서비스 정책에 따라 사이버 위협 정보로 제공될 수 있다. 사이버 위협 정보로 제공에 대해서도 이하에서 상세히 설명한다.And it may be provided as cyber threat information according to a user's inquiry query or according to a service policy. The provision of cyber threat information will also be described in detail below.

이러한 사이버 위협 정보는 사용자에게 직접 제공될 수도 있고 아래에서 설명하는 사이버 위협 예측 정보로 생성된 후 사용자의 요청이나 서비스에 따라 제공될 수도 있다. Such cyber threat information may be provided directly to the user, or may be generated as the cyber threat prediction information described below and then provided according to the user's request or service.

도 7은 개시한 실시 예에 따라 연관관계 분석 정보를 얻는 과정의 일 예를 개시한 도면이다. 7 is a diagram illustrating an example of a process of obtaining correlation analysis information according to the disclosed embodiment.

이 도면에서 파일 A-1 (10), A-2 (20), B-1 (30)은 악성 행위를 유발할 수 있는 파일을 지칭하고, 서버 (가) (110), 서버 (나)(120)는 악성 행위를 유발시키는 C&C 서버를 나타낸다. In this figure, files A-1 (10), A-2 (20), and B-1 (30) refer to files that can cause malicious behavior, and are server (A) (110), server (B) (120). ) indicates the C&C server that causes malicious behavior.

개시한 실시 예에 따라 파일 A-1(10)의 파일을 수신하여 동적 분석을 수행한 경우, 파일 A-1 (10) 실행 시에 서버 (가) (110) 를 접속하는 것을 확인하였다고 가정한다.According to the disclosed embodiment, when a file of file A-1 (10) is received and dynamic analysis is performed, it is assumed that it is confirmed that the server (A) 110 is connected when the file A-1 (10) is executed. .

실시 예는 악성 코드에 대한 여러 가지 분석 정보를 저장하는 데이터 베이스로부터 파일 A-1 (10)과 유사한 파일 A-2 (20)의 저장된 분석 정보를 얻을 수 있다. 파일 A-2 (20)의 분석 정보로부터 동일한 서버인 서버 (가) (110) 가 파일 A-1 (10) 과 파일 A-2 (20)을 활용한다는 것을 파악할 수 있고 이러한 정보로부터 서버 (가) (110) 는 동일 공격 기법 또는 동일 서버를 이용하는 해커임을 추정할 수 잇다. In the embodiment, the stored analysis information of the file A-2 (20) similar to the file A-1 (10) can be obtained from a database storing various types of analysis information on the malicious code. From the analysis information of file A-2 (20), it can be understood that the server (A) (110), which is the same server, utilizes files A-1 (10) and file A-2 (20), and from this information, the server (A) ) 110 can be presumed to be a hacker using the same attack technique or the same server.

실시 예에 따라 이미 분석된 파일인 파일 A-2 (20) 이 서버 (가) (110)뿐만 아니라 서버 (나) (120) 도 접속하는 경우 파일 A-2 (20) 의 연관 관계로서 서버 (나) (120)의 정보를 저장할 수 있다. According to the embodiment, when the file A-2 (20), which is the already analyzed file, accesses not only the server (A) 110 but also the server (B) 120, as a relation of the file A-2 (20), the server ( B) The information of (120) can be stored.

만약 파일 A-1(10) 과 파일 A-2(20) 과는 전혀 다른 파일이지만 파일 B-1 (30) 의 분석 정보가 서버 (나) (120)를 접속한 기록을 저장했다면 파일 형식이 다르지만 서버 (가) (110) 와 서버 (나) (120) 는 동일한 공격자 그룹 또는 동일한 기법을 이용하는 공격자 그룹일 수 있다. If the file A-1(10) and file A-2(20) are completely different files, but the analysis information of the file B-1 (30) stores the record of accessing the server (B) (120), the file format is Although different, the server (A) 110 and the server (B) 120 may be the same attacker group or an attacker group using the same technique.

따라서, 이와 같이 파일과 관련된 여러 가지 분석 정보에 대해 연관관계를 분석하면 악성 행위를 유발하는 공격자, 공격 기법 등에 대한 그룹핑 정보를 얻을 수 있고, 이러한 연관관계 분석 정보는 공격자나 공격자 그룹을 식별하는데 활용될 수 있다. Therefore, by analyzing the correlation of various types of analysis information related to the file in this way, grouping information on the attacker causing the malicious behavior, attack technique, etc. can be obtained, and this correlation analysis information is used to identify the attacker or the group of attackers. can be

이하에서는 사이버 위협 예측 정보를 설명하는 예를 개시한다.Hereinafter, an example of explaining cyber threat prediction information is disclosed.

파일의 식별 정보와 얻은 분석 정보들 중 적어도 하나 이상의 정보를 이용하거나 취합한 데이터 세트에 기초하여 사이버 위협 예측 정보를 생성할 수 있다 Cyber threat prediction information may be generated using at least one of the identification information of the file and the obtained analysis information or based on the collected data set.

도 8은 실시 예에 따라 사이버 위협 정보의 예측 정보 생성하는 일 예를 개시한다. 도면을 참조하여 사이버 위협 정보의 예측 정보를 생성하는 예를 설명하면 다음과 같다.8 discloses an example of generating prediction information of cyber threat information according to an embodiment. An example of generating prediction information of cyber threat information will be described with reference to the drawings.

분석 정보에 대한 데이터 세트가 확보되면 그 데이터 세트를 기초로 추후에 발생할 공격 행위와 관련된 예측 정보 생성이 가능하다. When a data set for analysis information is secured, predictive information related to an attack behavior that will occur in the future can be generated based on the data set.

위와 같이 추출된 분석 정보에 따른 데이터 세트를 인공 지능 기반의 학습 데이터 세트로 가공하고, 가공된 학습 데이터 세트를 기초로 인공 지능 분석을 수행하면 공격 행위와 관련된 여러 가지 예측 정보 생성이 가능하다. If the data set according to the analysis information extracted as above is processed into an artificial intelligence-based learning data set, and artificial intelligence analysis is performed based on the processed learning data set, various predictive information related to the attack behavior can be generated.

이렇게 생성된 예측 정보의 데이터 세트는 다시 새로운 학습 데이터 세트로 반복적으로 생성 또는 가공할 수 있다. The data set of the prediction information generated in this way can be repeatedly generated or processed into a new training data set.

이 도면의 실시 예는 위의 분석 정보의 데이터 세트를 인공 지능 학습을 통해 악성 코드 제작자의 예측 정보(S3110), 악성 코드 공격 방법의 예측 정보(S3120), 악성 코드 공격 그룹의 예측 정보(S3130), 악성 코드 유사도 예측 정보(S3140), 악성 코드 확산도 예측 정보(S3150) 등을 생성하는 예를 개시한다.In the embodiment of this figure, the prediction information of the malicious code creator (S3110), the prediction information of the malicious code attack method (S3120), and the prediction information of the malicious code attack group (S3130) through the artificial intelligence learning of the data set of the above analysis information , examples of generating malicious code similarity prediction information (S3140), malicious code spread prediction information (S3150), and the like are disclosed.

여기서 예측 정보의 순서는 일 예로서 예측 정보 획득의 순서의 변경이 가능하다. 예를 들면 악성 코드 유사도 예측 정보(S3140)와 악성 코드 확산도 예측 정보(S3150)의 순서는 변경될 수 있으며 나머지 예측 정보의 생성도 반드시 예시된 순서에 따를 필요가 없다. Here, the order of prediction information is an example, and the order of obtaining prediction information may be changed. For example, the order of the malicious code similarity prediction information S3140 and the malicious code spread prediction information S3150 may be changed, and the generation of the remaining prediction information does not necessarily follow the illustrated order.

또한 예시한 유사도 예측 정보 이외에 사이버 위협 정보와 관련된 추가적인 예측 정보 생성도 가능하다.In addition to the exemplified similarity prediction information, it is also possible to generate additional prediction information related to cyber threat information.

이렇게 생성한 악성 코드의 예측 정보는 자체 위험도를 예측하는 위험도 예측 정보와 공격자, 공격 그룹, 유사도, 확산도 등을 각각 예측하는 예측 정보 또는 그 예측 정보를 종합적으로 표시하는 악성 코드의 종합 예측 정보로 나뉘어 데이터베이스에 저장될 수 있다. The generated malicious code prediction information consists of risk prediction information that predicts its own risk, prediction information that predicts the attacker, attack group, similarity, spread, etc., or comprehensive prediction information of malicious code that comprehensively displays the prediction information. It can be divided and stored in a database.

위와 같은 사이버 위협 정보의 분석 정보와 예측 정보를 이용하면 입력된 파일과 관련된 악성 코드의 종류를 식별하고 이에 대한 위험도를 결정할 수 있다. By using the analysis information and prediction information of the cyber threat information above, the type of malicious code related to the input file can be identified and the level of risk can be determined.

또한 입력된 파일과 관련된 악성 코드의 기록을 포함한 프로파일링 정보를 생성하여 저장될 수 있는데, 저장된 악성 코드와 관련된 분석 정보, 예측 정보, 위험도 또는 프로파일링 정보는 사용자가 이를 쉽게 조회할 수 있도록 추가로 가공될 수 있다. In addition, profiling information including a record of malicious code related to the input file can be created and stored, and analysis information, prediction information, risk or profiling information related to the stored malicious code are additionally added so that the user can easily inquire it. can be processed.

사용자에게 사이버 위협 정보를 제공하는 일 예를 개시하면 다음과 같다. An example of providing cyber threat information to a user is as follows.

특정 파일을 기준으로 여러 가지 연관 관계 분석 정보가 발생될 수 있어서 사이버 위협 침해 정보(IoC)를 매우 많은 데이터 통신량이 필요할 수 있다. 실시 예는 사이버 보안의 위협에 신속하게 대처하기 위해서는 이러한 정보를 빠른 시간 내에 공유, 저장, 조회, 및 업데이트할 수 있다. Since various correlation analysis information may be generated based on a specific file, a very large amount of data communication may be required for cyber threat breach information (IoC). Embodiments may share, store, inquire, and update such information within a short time in order to quickly respond to cybersecurity threats.

위와 같은 분석 정보들에 기초하여 실시 예는 보안 이벤트가 발생하면 발생된 보안 이벤트에 관련된 사이버 위협 침해 정보(IoC)를 암호화 소켓 통신을 통해 사이버 위협 침해 정보(IoC) 저장 서버나 다른 사용자 단말기들에 P2P 소켓 통신을 이용해 조회를 요청할 수 있다. 그리고 사이버 위협 침해 정보(IoC) 저장 서버나 다른 사용자 단말기들 중 사이버 위협 침해 정보(IoC)를 빨리 수신하는 정보를 사이버 위협 침해 정보(IoC)로 이용할 수 있다. Based on the above analysis information, in the embodiment, when a security event occurs, the cyber threat infringement information (IoC) related to the generated security event is transmitted to the cyber threat infringement information (IoC) storage server or other user terminals through encrypted socket communication. Inquiry can be requested using P2P socket communication. In addition, information that quickly receives the cyber threat breach information (IoC) from the cyber threat breach information (IoC) storage server or other user terminals can be used as the cyber threat breach information (IoC).

또 다른 예로서, 사이버 위협 정보를 제공하는 또 다른 예로서 사용자가 사용하는 단말에서 상기와 같이 분석된 악성 코드에 대한 정보를 조회할 경우 조회된 정보를 다음과 같이 제공할 수 있다. As another example, as another example of providing cyber threat information, when information on malicious code analyzed as described above is inquired from a terminal used by a user, the searched information may be provided as follows.

예를 들어 사용자가 사용하는 단말이 파일의 해쉬 값을 산출한 경우, 산출된 해쉬 값에 대해 텍스트 형식으로 악성 코드 여부의 조회하는 질의를 서버로 전송할 수 있다. 해쉬 값과 질의를 수신한 서버가 위와 같이 악성 코드 정보가 저장된 데이터 베이스에 상기 해쉬 값을 전달하고 이에 대한 조회 결과를 수신한다. 조회 결과를 수신한 서버는 그 결과를 상기 해쉬 값에 대응되는 텍스트 값으로 사용자 단말에 다시 리턴할 수 있다. For example, when the terminal used by the user calculates the hash value of the file, it can transmit to the server a query to find out whether or not there is a malicious code with respect to the calculated hash value in a text format. After receiving the hash value and the query, the server delivers the hash value to the database in which the malicious code information is stored as above, and receives the inquiry result. The server receiving the inquiry result may return the result back to the user terminal as a text value corresponding to the hash value.

저장된 악성 코드에 대한 정보를 기반으로 사용자의 요청에 따라 사이버 위협 정보를 제공하는 다른 예를 도면을 참조하여 설명하면 다음과 같다. Another example of providing cyber threat information according to a user's request based on the stored malicious code information will be described with reference to the drawings.

도 9는 실시 예에 따라 사이버 위협 정보를 제공하기 위한 악성 코드 질의들의 예를 개시한다. 9 discloses an example of malicious code queries for providing cyber threat information according to an embodiment.

사이버 위협 정보 처리에 대한 실시 예는 위와 같이 산출한 분석 정보와 예측 정보를 기초로 식별한 악성 코드를 여러 가지 메타 정보와 함께 저장할 수 있다.According to the embodiment of the cyber threat information processing, the malicious code identified based on the analysis information and the prediction information calculated as described above may be stored together with various types of meta information.

위에서 설명한 바와 같이 사용자는 악성 코드 정보가 저장된 데이터 베이스에 예시한 바와 같은 조회를 요청할 수 있다. As described above, a user can request an inquiry as exemplified in the database in which malicious code information is stored.

Query (A)를 참고하면, 사용자는 실시 예에 따른 사이버 위협 정보가 저장된 데이터베이스에 Query (A)와 같이 악성 코드와 관련된 기간, 특정 악성 코드의 수량, 탐지명, 파일 타입, 유포지, 코드사인 및 파일 크기 등의 카테고리로 악성 코드를 질의할 수 있다. Referring to Query (A), the user can store malicious code-related period, specific malicious code quantity, detection name, file type, distribution site, code sign, and You can query malicious codes by categories such as file size.

그러면 사이버 위협 정보가 저장된 데이터 베이스는 서버를 통해 Query 에 대응되는 사이버 위협 정보나 악성 코드 정보를 리턴한다.Then, the database in which the cyber threat information is stored returns cyber threat information or malicious code information corresponding to the query through the server.

다른 예로 사용자는 이 도면의 Query (B)에서 예시한 바와 같이 악성 코드와 관련된 특정일, 특정 악성 코드의 수량, 파일 타입, 유포지 여부, 자식 프로세스의 생성 여부 등을 질의할 수 있다. As another example, as exemplified in Query (B) of this figure, the user may inquire about a specific date related to a malicious code, a quantity of a specific malicious code, a file type, whether to distribute it, whether to create a child process, and the like.

Query (C)에서 예시하는 바와 같이 사용자는 악성 코드와 관련된 기간, 특정 악성 코드의 수량, 파일 타입, 유포지 정보, 파일 명 정보, 악성 코드 수행에 따른 공격 행위, 파일 크기에 정보를 이용하여 악성 코드에 대한 정보를 질의할 수 있다. As exemplified in Query (C), the user uses information on the period related to the malicious code, the quantity of specific malicious code, file type, distribution information, file name information, attack behavior according to malicious code execution, and file size. You can query for information about

Query (D)의 예는 악성 코드와 관련된 기간, 특정 악성 코드의 수량, 파일 타입, 유포지 주소 및 악성 코드의 통계 정보를 이용하여 악성 코드에 대한 정보를 질의할 수 있다.In the example of Query (D), information on malicious code can be queried using the period related to malicious code, quantity of specific malicious code, file type, distribution address, and statistical information of malicious code.

설명한 바와 같이 사이버 위협 정보 처리 방법의 실시 예는 분석 정보, 예측 정보는 사용자의 조회 문의에 대해 대응되는 악성 코드 정보를 제공하기 위해 악성 코드에 위와 같은 조건에 맞는 정보를 데이터베이스에 함께 저장한다.As described above, in the embodiment of the cyber threat information processing method, the analysis information and the prediction information store information meeting the above conditions in the database together with the malicious code in order to provide malicious code information corresponding to the user's inquiry inquiry.

따라서, 서버는 해당 질의 조건과 일치하는 악성 코드에 대한 정보를 데이터베이스부터 얻어 사용자에게 전송할 수 있다.Therefore, the server can obtain information about malicious code matching the query condition from the database and transmit it to the user.

예시한 바와 같이 사용자는 파일의 여러 가지 메타 정보를 이용해 악성 코드 정보를 조회할 수 있다. 사용자는 보호해야 하는 정보나 시스템이 악성 코드에 의해 피해나 위협이 될 수 있는 정보를 미리 얻을 수 있다.As illustrated, the user can inquire the malicious code information using various types of meta information of the file. Users can get information in advance that needs to be protected or that the system can be damaged or threatened by malicious code.

도 10은 사이버 위협 정보 처리 장치의 일 실시 예를 개시한 도면이다. 이 도면의 실시 예는 사이버 위협 정보 처리 장치를 개념적으로 예시하는데 이 도면을 참조하여 사이버 위협 정보 처리 장치의 실시 예를 설명하면 다음과 같다. 10 is a diagram illustrating an embodiment of an apparatus for processing cyber threat information. The embodiment of this figure conceptually exemplifies a cyber threat information processing device. An embodiment of the cyber threat information processing device will be described with reference to this drawing.

개시하는 사이버 위협 정보 처리 장치는 물리장치(2000)인 데이터베이스 및 서버(2100) 및 데이터베이스(2200)와 상기 물리장치(2000) 상에서 구동되는 응용 프로그래밍 인터페이스 Application Programming Interface, API) 포함하는 플랫폼 (10000)을 포함한다. 이하에서 플랫폼(10000)은 사이버 위협 인텔리전스 플랫폼(cyber threat intelligence platform; CTIP) 또는 간략하게 인텔리전스 플랫폼(10000)으로 호칭한다.The disclosed cyber threat information processing device is a physical device (2000), a database and a server (2100), and a platform (10000) including a database (2200) and an application programming interface (API) running on the physical device (2000). includes Hereinafter, the platform 10000 will be referred to as a cyber threat intelligence platform (CTIP) or simply an intelligence platform 10000 .

서버(2100)는 중앙연산장치(central processing unit, CPU) 나 프로세서와 같은 연산장치를 포함하고 데이터베이스(2200)에 데이터를 저장하거나 읽을 수 있다. The server 2100 may include an arithmetic unit such as a central processing unit (CPU) or a processor, and may store or read data in the database 2200 .

서버(2100)는 입력되는 보안 관련 데이터를 연산 및 처리하며 파일을 실행하여 여러 가지 보안 이벤트를 발생시키고 관련된 데이터를 처리하도록 한다. 그리고 서버(2100)는 여러 가지 사이버 보안 관련 데이터의 입출력을 제어하고 인텔리전스 플랫폼(10000)에서 처리된 데이터를 데이터베이스(2200)에 저장할 수 있다. The server 2100 calculates and processes input security-related data, and executes a file to generate various security events and process related data. In addition, the server 2100 may control input/output of various cyber security-related data and store data processed by the intelligence platform 10000 in the database 2200 .

서버(2100)는 데이터 입력을 위한 네트워크 장치나 네트워크의 보안 장치를 포함할 수 있다. 서버(2100)의 중앙처리장치, 프로세서 또는 연산장치는 이하의 도면에서 예시하는 프레임워크나 해당 프레임 워크 내의 모듈을 수행할 수 있다.The server 2100 may include a network device for data input or a network security device. The central processing unit, processor, or arithmetic unit of the server 2100 may perform a framework illustrated in the following drawings or a module within the framework.

실시 예에 따른 인텔리전스 플랫폼(10000)은 사이버 위협 정보의 처리를 위한 응용 프로그래밍 인터페이스(API)를 제공한다. 예를 들어 인텔리전스 플랫폼(10000)은, 네트워크와 연결된 네트워크 보안 장치나 악성 행위를 스캔 및 감지하는 사이버 악성 행위 방지 프로그래밍 소프트웨어로부터 파일이나 데이터를 입력받을 수 있다. The intelligence platform 10000 according to an embodiment provides an application programming interface (API) for processing cyber threat information. For example, the intelligence platform 10000 may receive a file or data input from a network security device connected to a network or cyber malicious behavior prevention programming software that scans and detects malicious behavior.

예를 들어 실시 예에 따른 인텔리전스 플랫폼(10000)은 보안 이벤트를 제공하는 SIEM (Security Information and Event Management) API, 실행 환경에 대한 데이터를 제공하는 EDR (Environmental Data Retrieval) API, 네트워크 트래픽을 정의된 보안 정책에 따라 모니터하고 제어하는 파이어월(firewall) API 등의 기능을 제공할 수 있다. 또한 인텔리전스 플랫폼(10000)은 내부와 외부 네트워크 사이에 방화벽과 유사한 역할을 수행하는 IPS (Intrusion Prevention Systems )의 API의 역할도 제공할 수 있다. For example, the intelligence platform 10000 according to the embodiment provides a Security Information and Event Management (SIEM) API that provides a security event, an Environmental Data Retrieval (EDR) API that provides data on an execution environment, and a security defined network traffic. Functions such as a firewall API to monitor and control according to policy can be provided. In addition, the intelligence platform 10000 may also provide a role of an API of an IPS (Intrusion Prevention Systems) that performs a role similar to a firewall between the internal and external networks.

실시 예에 따른 인텔리전스 플랫폼(10000)의 응용 프로그래밍 인터페이스(API)(1100)는 사이버 보안의 공격 행위를 수행하는 악성 코드를 포함하는 파일들을 여러 클라이언트 기기들 (1010, 1020, 1030) 로부터 수신할 수 있다. The application programming interface (API) 1100 of the intelligence platform 10000 according to an embodiment may receive files including malicious codes that perform cybersecurity attacks from various client devices 1010, 1020, 1030. there is.

실시 예에 따른 인텔리전스 플랫폼(10000)은 전처리부(미도시), 분석 프레임 워크(1210)와 예측 프레임 워크(1220) 및 AI 엔진 (1230) 및 후처리부(미도시)을 포함할 수 있다. The intelligence platform 10000 according to the embodiment may include a preprocessor (not shown), an analysis framework 1210 , a prediction framework 1220 , an AI engine 1230 , and a postprocessor (not shown).

인텔리전스 플랫폼(10000)의 전처리부는 클라이언트 기기들(1010, 1020, 1030)로부터 수신된 여러 가지 파일들에 대한 사이버 위협 정보를 분석할 수 있도록 전처리를 수행한다.The preprocessor of the intelligence platform 10000 performs preprocessing to analyze cyber threat information on various files received from the client devices 1010 , 1020 , and 1030 .

예를 들면 전처리부는 수신된 파일을 처리하여 그 파일로부터 파일의 출처 정보, 파일을 얻은 수집 정보, 파일의 사용자 정보 등을 포함한 여러 가지 메타 정보를 얻을 수 있다. 예를 들어 파일이 URL (uniform resource locator)을 포함하거나 또는 전자메일에 포함된 경우 파일에 대한 수집 정보를 얻을 수 있다. 사용자 정보는 파일의 생성, 업로드 또는 최종 저장한 사용자 정보 등을 포함할 수 있다. 전처리 과정에서 파일의 메타 정보로서 IP(internet protocol) 정보, 이에 기반한 국가 정보, API(Application Programming Interface) key 정보 등을 얻을 수 있다.For example, the preprocessor may process the received file to obtain various types of meta information including source information of the file, collection information obtained by obtaining the file, and user information of the file from the file. For example, if the file contains a uniform resource locator (URL) or is included in an e-mail, you can obtain information about the file collected. The user information may include user information that is created, uploaded, or finally saved in a file. In the preprocessing process, as meta information of the file, IP (internet protocol) information, country information based on it, and API (Application Programming Interface) key information can be obtained.

인텔리전스 플랫폼(10000)의 전처리부(미도시)는 입력된 파일의 해쉬(Hash) 값을 추출할 수 있다. 해쉬 값이 이미 사이버 위협 정보 처리 장치에 알려진 것이라면 이를 기반으로 파일의 종류를 식별할 수 있다. The preprocessor (not shown) of the intelligence platform 10000 may extract a hash value of the input file. If the hash value is already known to the cyber threat information processing device, the file type can be identified based on it.

만약 이미 알려진 파일이 아니라면 운영하는 C-TAS(Cyber Threats Analysis System), CTA(Cyber Threat Alliance)의 운영시스템, VitusTotal 등의 사이버 위협 정보의 레퍼런스 인터넷 사이트에 해쉬 값과 파일 정보를 조회하여 파일 종류 식별을 위한 분석 정보를 얻을 수 있다. If the file is not already known, the file type is identified by inquiring the hash value and file information on reference Internet sites for cyber threat information such as C-TAS (Cyber Threats Analysis System), CTA (Cyber Threat Alliance) operating system, and VitusTotal. analysis information can be obtained for

설명한 바와 같이 입력된 파일의 해쉬 값은 MD5 (Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), SHA 256 등의 해쉬 함수의 해쉬 값이 될 수 있다. As described above, the hash value of the input file may be a hash value of a hash function such as MD5 (Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), and SHA 256.

분석 프레임 워크(1210)는 입력된 파일로부터 악성 코드에 대한 분석 정보를 생성할 수 있다. The analysis framework 1210 may generate analysis information on the malicious code from the input file.

분석 프레임 워크(1210)는 정적 분석 모듈(1211), 동적분석 모듈(1213), 심층분석 모듈(1215) 및 연관관계분석 모듈(1217) 등 여러 가지 분석 방식에 따른 분석 모듈을 포함할 수 있다. The analysis framework 1210 may include an analysis module according to various analysis methods, such as a static analysis module 1211 , a dynamic analysis module 1213 , an in-depth analysis module 1215 , and a correlation analysis module 1217 .

정적 분석 모듈(1211)은 입력된 파일과 관련된 악성 행위의 분석 정보는 파일 자체에 대한 악성 코드 관련 정보를 분석할 수 있다. The static analysis module 1211 may analyze the malicious code-related information on the file itself as the analysis information of the malicious behavior related to the input file.

동적분석 모듈(1213)은 입력된 파일로부터 얻은 여러 가지 정보들을 기반으로 여러 행위를 수행함으로써 악성 코드 관련 정보를 분석할 수 있다. The dynamic analysis module 1213 may analyze malicious code-related information by performing various actions based on various pieces of information obtained from the input file.

심층분석 모듈(1215)은 입력된 파일과 관련된 실행 가능한 파일을 가공한 정보를 이용하거나 실행 가능한 파일과 관련된 메모리 분석을 수행하여 악성 코드 관련 정보를 분석할 수 있다. 심층분석 모듈(1215)은 악성 행위를 정확하게 식별할 수 있도록 인공 지능 분석을 포함할 수 있다.The in-depth analysis module 1215 may analyze malicious code-related information by using information processed on an executable file related to an input file or by performing memory analysis related to an executable file. The in-depth analysis module 1215 may include artificial intelligence analysis to accurately identify malicious behavior.

연관관계분석 모듈(1217)은 입력된 파일과 관련하여 이미 저장된 분석 정보들이나 또는 생성된 분석 정보들을 서로 연관시켜 공격 행위나 공격자에 대한 연관 관계를 추정할 수 있는 연관관계 분석 정보를 포함할 수 있다. The correlation analysis module 1217 may include correlation analysis information capable of estimating a correlation to an attack action or an attacker by correlating analysis information that is already stored or generated analysis information in relation to the input file. .

분석 프레임 워크(1210)는 정적 분석 모듈(1211), 동적분석 모듈(1213), 심층분석 모듈(1215) 및 연관관계분석 모듈(1217)로부터 분석된 정보들을 악성 코드의 특성과 행위에 대한 분석 결과들을 서로 결합하고, 결합된 최종 정보를 사용자에게 제공할 수 있다. The analysis framework 1210 analyzes the information analyzed from the static analysis module 1211 , the dynamic analysis module 1213 , the in-depth analysis module 1215 , and the correlation analysis module 1217 on the characteristics and behavior of the malicious code. may be combined with each other, and the combined final information may be provided to the user.

예를 들어 분석 프레임 워크(1210)는 하나의 파일에 대한 정적 분석 정보, 동적 분석 정보, 심층 분석 정보, 연관관계 분석 정보 등은 정확한 공격 기법과 공격자 식별을 위해 통합 분석할 수 있다. 분석 프레임 워크(1210)는 분석 정보들 사이에 중복된 부분을 제거하고 분석 정보들 사이에 공통의 정보는 정확도를 높이는데 사용한다. For example, the analysis framework 1210 may perform integrated analysis of static analysis information, dynamic analysis information, in-depth analysis information, correlation analysis information, etc. for a single file for accurate attack technique and attacker identification. The analysis framework 1210 removes overlapping portions between analysis information and uses common information between analysis information to increase accuracy.

분석 프레임 워크(1210)는 제공하는 정보를 표준화할 수 있는데, 예를 들면 여러 분석과 경로를 통해 수집된 사이버 위협 침해 정보(indicator of compromise, IoC)들을 노멀라이징(normalizing)하거나 인리치먼트(enrichment) 작업한다. 그리고 최종 표준화된 악성 코드 또는 악성 행위에 대한 분석 정보를 생성할 수 있다. The analysis framework 1210 may standardize the information provided, for example, by normalizing or enriching cyber threat compromise information (indicator of compromise, IoC) collected through multiple analyzes and paths. work In addition, it is possible to generate analysis information on the final standardized malicious code or malicious behavior.

분석 프레임 워크(1210)의 정적 분석 모듈(1211), 동적분석 모듈(1213), 심층분석 모듈(1215) 및 연관관계분석 모듈(1217)은 분석되는 데이터의 정확성을 높이기 위해 분석 대상 데이터에 인공지능 분석에 따른 머신 러닝이나 딥 러닝 기법을 수행할 수 있다. The static analysis module 1211, the dynamic analysis module 1213, the in-depth analysis module 1215, and the correlation analysis module 1217 of the analysis framework 1210 provide artificial intelligence to the analysis target data to increase the accuracy of the analyzed data. Machine learning or deep learning techniques according to the analysis can be performed.

AI 엔진(1230)은 분석 프레임 워크(1210)의 분석 정보 생성을 위해 인공지능 분석 알고리즘을 수행할 수 있다.The AI engine 1230 may perform an artificial intelligence analysis algorithm to generate analysis information of the analysis framework 1210 .

이러한 정보는 데이터 베이스(2200)에 저장될 수 있고 서버(2100)는 사용자나 클라이언트 요청에 따라 데이터 베이스(2200)에 저장된 악성 코드 또는 악성 행위에 대한 분석 정보를 사이버 위협 인텔리전스 정보로 제공할 수 있다. Such information may be stored in the database 2200, and the server 2100 may provide analysis information on malicious code or malicious behavior stored in the database 2200 as cyber threat intelligence information according to a user or client request. .

예측 프레임 워크(1220)은 제1예측정보생성모듈(1221), 제2예측정보생성모듈 (1223) 등 예측 정보에 따라 다수의 예측정보생성모듈들을 포함할 수 있다. 예측 프레임 워크(1220)은 분석 정확도를 높이기 위해 위의 분석된 여러 가지 정보의 데이터 세트를 이용하여 악성 행위의 발생 여부, 공격 기법, 공격자 그룹 등에 대한 예측 정보를 생성할 수 있다.The prediction framework 1220 may include a plurality of prediction information generation modules according to prediction information, such as a first prediction information generation module 1221 and a second prediction information generation module 1223 . The prediction framework 1220 may generate prediction information about whether a malicious behavior occurs, an attack technique, an attacker group, etc. by using the data set of the various types of information analyzed above in order to increase analysis accuracy.

예측 프레임 워크(1220)는 분석 프레임 워크(1210)가 분석한 분석 정보에 대한 데이터 세트를 기반으로 AI 엔진(1230)을 이용하여 인공지능 분석 알고리즘을 수행하여 입력된 파일과 관련된 악성 행위에 대한 예측 정보를 생성할 수 있다.The prediction framework 1220 predicts malicious behavior related to the input file by performing an artificial intelligence analysis algorithm using the AI engine 1230 based on the data set for the analysis information analyzed by the analysis framework 1210 . information can be created.

AI 엔진(1230)은 분석 정보에 대한 데이터 세트에 대해 인공 지능 기반의 머신 러닝으로 학습하여 추가적인 분석 정보를 생성하고, 추가 생성된 분석 정보는 다시 새로운 학습 데이터로서 인공 지능의 입력 데이터로 이용될 수 있다.The AI engine 1230 generates additional analysis information by learning with artificial intelligence-based machine learning on the data set for the analysis information, and the additionally generated analysis information is again used as input data of artificial intelligence as new learning data. there is.

예측 프레임 워크(1220)가 생성하는 예측 정보는 악성 코드 제작자 정보, 악성 코드 공격 방법 정보, 악성 코드 공격 그룹 예측, 악성 코드 유사도 예측 정보, 및 악성 코드 확산도 예측 정보 등을 포함할 수 있다.The prediction information generated by the prediction framework 1220 may include malicious code creator information, malicious code attack method information, malicious code attack group prediction, malicious code similarity prediction information, and malicious code spread prediction information.

위와 같이 여러 가지 악성 코드나 공격 행위 등에 관련된 예측 정보를 생성한 예측 프레임 워크(1220)는 생성한 예측 정보들을 데이터베이스(2200)에 저장할 수 있다. 그리고 사용자의 요청에 따라 또는 공격 징후에 따라 생성한 예측정보를 사용자에게 제공할 수 있다.As described above, the prediction framework 1220 that generates prediction information related to various malicious codes or attack behaviors may store the generated prediction information in the database 2200 . In addition, the predicted information generated according to the user's request or attack symptoms may be provided to the user.

서버(2100)는 설명한 바와 같이 데이터 베이스(2200)에 저장된 분석 정보 또는 예측 정보에 대한 후처리 후 상기 입력된 파일과 관련된 사이버 위협 정보를 제공할 수 있다. As described above, the server 2100 may provide cyber threat information related to the input file after post-processing the analysis information or prediction information stored in the database 2200 .

서버(2100)의 프로세서는 생성된 분석 정보 또는 예측 정보에 기초하여 악성 코드 종류 및 악성 코드의 위험도를 결정하는 작업을 수행한다. The processor of the server 2100 determines the type of malicious code and the degree of risk of the malicious code based on the generated analysis information or prediction information.

서버(2100)의 프로세서는 악성 코드에 대한 프로파일링 정보를 생성할 수 있다. 데이터베이스(2200)는 파일 분석을 통해 파일에 대한 자체 분석을 수행한 결과나 추가 및 예측 분석을 수행한 결과를 저장할 수 있다. The processor of the server 2100 may generate profiling information about the malicious code. The database 2200 may store a result of performing self-analysis on a file through file analysis or a result of performing additional and predictive analysis.

서버(2100)에 의해 사용자에게 제공되는 사이버 위협 정보는, 기술된 전처리가 수행된 정보, 생성되거나 식별된 분석 정보, 생성된 예측 정보 또는 이 정보들의 취합 정보나 이 정보들을 기반으로 결정된 정보를 포함할 수 있다. The cyber threat information provided to the user by the server 2100 includes information on which the described pre-processing has been performed, generated or identified analysis information, generated prediction information, or aggregated information of these information or information determined based on the information. can do.

제공되는 사이버 위협 정보에는 입력된 파일과 관련하여 데이터 베이스에 저장된 분석 정보를 이용하거나 위에서 분석되거나 예측된 정보가 포함될 수 있다. The provided cyber threat information may include information analyzed or predicted above by using analysis information stored in a database in relation to the input file.

실시 예에 따르면 사용자가 입력된 파일에 대한 악성 행위뿐만 아니라 이미 저장된 파일이나 악성 행위에 대해 사이버 위협 정보를 조회할 경우 이에 대한 정보를 제공할 수 있다.According to an embodiment, when a user inquires not only a malicious action for an input file but also cyber threat information about a previously stored file or a malicious action, information on this may be provided.

이러한 통합 분석 정보는 해당 파일에 대응하여 서버나 데이터 베이스에 표준화된 포맷으로 저장될 수 있다. 이러한 통합 분석 정보는 표준화된 포맷으로 저장되어 사이버 위협 정보를 검색 또는 조회하는데 사용될 수 있다.Such integrated analysis information may be stored in a standardized format in a server or database corresponding to the corresponding file. Such integrated analysis information may be stored in a standardized format and used to search or inquire about cyber threat information.

도 11은 개시하는 실시 예에 따라 분석 프레임 워크 중 정적 분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸다. 이 도면을 참조하여 정적 분석 모듈의 수행 과정을 예시하면 다음과 같다. 11 shows an example for describing in detail a function of a static analysis module in an analysis framework according to an embodiment disclosed herein. An example of a process of performing the static analysis module with reference to this figure is as follows.

개시한 바와 같이 인텔리전스 플랫폼(100)의 분석 프레임 워크(15000)는 정적분석 모듈(15100)을 포함할 수 있다.As disclosed, the analysis framework 15000 of the intelligence platform 100 may include a static analysis module 15100 .

정적분석 모듈(15100)은 파일 자체를 분석할 수 있는데, 파일 또는 파일의 메타 정보 등에 기초하여 코딩 기반의 취약 항목 존재 여부, 인터페이스 또는 함수의 호출 구조 문제, 또는 파일의 바이너리 구조 등 파일과 관련하여 악성 행위에 연관될 수 있는 정보를 얻을 수 있다.The static analysis module 15100 can analyze the file itself, and based on the file or meta information of the file, whether there is a coding-based weak item, an interface or function call structure problem, or the file's binary structure, etc. Information that can be related to malicious behavior can be obtained.

정적분석 모듈(15100)은 파일구조분석 모듈(15101), 파일패턴분석 모듈(15103), 파일제작정보분석 모듈(15105), 파일환경분석 모듈(15107), 및 파일관련분석 모듈(15109)를 포함할 수 있다. The static analysis module 15100 includes a file structure analysis module 15101, a file pattern analysis module 15103, a file production information analysis module 15105, a file environment analysis module 15107, and a file related analysis module 15109 can do.

정적분석 모듈(15100) 중 파일구조분석 모듈(15101)는 파일이 실행되지 않는 환경에서 식별된 파일의 기본적인 구조 정보를 분석할 수 있다. The file structure analysis module 15101 among the static analysis modules 15100 may analyze basic structure information of the identified file in an environment in which the file is not executed.

파일구조분석 모듈(15101)는 예를 들어 파일의 종류가 ELF(Executable and Linkable Format), PE(Portable Executable), APK(Android Application Package) 등에 파일 종류가 다르더라도 파일의 위 파일 구조나 그 구조로부터 추출할 수 있는 정보를 획득하거나 분석한다. The file structure analysis module 15101, for example, even if the file type is different from the file type in ELF (Executable and Linkable Format), PE (Portable Executable), APK (Android Application Package), etc., from the above file structure of the file or its structure Obtain or analyze extractable information.

파일패턴분석 모듈(15103)은 파일의 패턴 분석을 수행할 수 있는데, 식별된 파일에 어떤 조치를 취하지 않고 파일 자체를 오픈하여 추출할 수 있는 여러 스트링(string) 등을 확인하여 파일의 패턴을 얻을 수 있다. The file pattern analysis module 15103 can perform pattern analysis of the file, and without taking any action on the identified file, the file itself is opened and extracted by checking several strings that can be extracted to obtain the pattern of the file. can

파일제작정보분석 모듈(15105)은 입력된 파일이 제작과 관련된 정보를 얻고 분석할 수 있다. 파일제작정보분석 모듈(15105)은 파일이 가지고 있는 고유 정보나 메타 정보, 예를 들면 파일 제작자 정보, 실행 파일인 경우 코드사이닝(codesigning) 정보 등을 얻을 수 있다. The file production information analysis module 15105 may obtain and analyze information related to the production of the input file. The file production information analysis module 15105 may obtain unique information or meta information possessed by the file, for example, file creator information, and code signing information in the case of an executable file.

파일환경분석 모듈(15107)은 입력된 파일의 환경 정보를 분석할 수 있다. 파일환경분석 모듈(15107)은 대상 파일이 갖추어야 할 시스템 환경적 구성 요소 정보 등에 정보를 얻을 수 있다. The file environment analysis module 15107 may analyze environment information of the input file. The file environment analysis module 15107 may obtain information such as system environment component information that the target file should have.

파일관련분석 모듈(15109)은 그리고 입력된 파일과 관련된 여러 가지 기타 메타 정보들을 분석할 수 있다. The file related analysis module 15109 may also analyze various other meta information related to the input file.

정적분석 모듈(15100)은 입력된 파일의 수행 없이 개시한 바와 같이 얻고 분석된 파일 자체의 정적 정보를 JSON (JavaScript Object Notation)과 같은 데이터 포맷으로 변환하여 데이터베이스(2200)에 저장할 수 있다.The static analysis module 15100 may convert the static information of the file itself obtained and analyzed without performing the input file into a data format such as JSON (JavaScript Object Notation) and store it in the database 2200 .

서버(2100)는 데이터베이스(2200)에 저장된 파일에 대한 정적 분석 정보를 사용자에 제공할 수 있다. The server 2100 may provide static analysis information on a file stored in the database 2200 to the user.

분석프레임워크(15000)의 정적분석 모듈(15100)은 입력된 파일의 해쉬(Hash) 값과, 데이터베이스(2200)에 악성코드에 대해 이미 저장된 해쉬 값을 비교하여 상기 입력된 파일이 악성코드 여부를 분석할 수 있다. 그리고 입력 파일의 악성 코드에 대해 분석된 정보는 데이터베이스(2200)에 저장할 수 있다.The static analysis module 15100 of the analysis framework 15000 compares the hash value of the input file with the hash value already stored for the malicious code in the database 2200 to determine whether the input file is malicious code. can be analyzed. In addition, the analyzed information on the malicious code of the input file may be stored in the database 2200 .

분석프레임워크(15000)의 정적분석 모듈(15100)은 입력 파일이 모바일 데이터 인 경우 입력된 파일로부터 모바일 악성 의심 코드의 코드 정보를 추출할 수 있다. 악성 의심 코드의 코드 정보는 해쉬(Hash) 정보, 코드 크기 정보, 파일 헤더 정보, 코드 내에 포함되어 있는 식별 가능한 문자열 정보 및 동작 플랫폼 정보 등을 포함할 수 있다.When the input file is mobile data, the static analysis module 15100 of the analysis framework 15000 may extract code information of the mobile malicious suspicious code from the input file. The code information of the suspected malicious code may include hash information, code size information, file header information, identifiable string information included in the code, operation platform information, and the like.

분석프레임워크(15000)의 정적분석 모듈(15100)은 분석한 분석정보를 기반으로 파일 내에 악성 코드가 있는지 탐지할 수 있다. 그리고 탐지된 악성 코드와 관련된 정적 분석 정보를 데이터베이스(2200)에 저장할 수 있다.The static analysis module 15100 of the analysis framework 15000 may detect whether there is a malicious code in the file based on the analyzed analysis information. In addition, static analysis information related to the detected malicious code may be stored in the database 2200 .

도 12는 개시하는 실시 예에 따라 분석 프레임 워크 중 동적분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸다. 이 도면을 참조하여 동적분석 모듈의 수행 과정을 예시하면 다음과 같다.12 shows an example for describing in detail the function of the dynamic analysis module in the analysis framework according to the disclosed embodiment. An example of the process of performing the dynamic analysis module with reference to this figure is as follows.

예시한 인텔리전스 플랫폼(10000)의 분석 프레임 워크(15000)는 동적분석 모듈(15200)을 포함할 수 있다. 동적분석 모듈(15200)은 전처리된 파일 정보 또는 정적 분석 정보 중 적어도 하나에 기반하여 식별된 파일의 실행 환경에서 실행된 결과 데이터에 따른 동적 분석 정보를 획득할 수 있다. The analysis framework 15000 of the illustrated intelligence platform 10000 may include a dynamic analysis module 15200 . The dynamic analysis module 15200 may acquire dynamic analysis information according to result data executed in an execution environment of a file identified based on at least one of preprocessed file information or static analysis information.

동적분석 모듈(15200)은 파일이 실행 중인 환경에서 다양한 입출력 데이터를 분석하거나 또는 파일 실행 시 실행 환경과 상호작용의 변화를 분석하여 취약하거나 위험한 이상현상을 탐지할 수 있다. 동적분석 모듈(15200)은 가상화 환경 등을 생성하고 생성된 가상화 환경에서 파일을 직접적으로 실행하여 이상 여부를 분석할 수 있다.The dynamic analysis module 15200 may detect a weak or dangerous anomaly by analyzing various input/output data in the environment in which the file is being executed or by analyzing the change in interaction with the execution environment when the file is executed. The dynamic analysis module 15200 may analyze whether there is an abnormality by creating a virtual environment, etc., and directly executing a file in the created virtual environment.

분석 프레임 워크(15000)의 동적분석 모듈(15200)은 환경준비 모듈(15201), 파일실행 모듈(15203), 행위수집 모듈(15205), 분석결과취합 모듈(15207), 및 분석환경복구 모듈(15209)를 포함할 수 있다. The dynamic analysis module 15200 of the analysis framework 15000 includes an environment preparation module 15201, a file execution module 15203, a behavior collection module 15205, an analysis result collection module 15207, and an analysis environment recovery module 15209 ) may be included.

환경준비 모듈(15201)은 입력 파일과 관련된 실행 파일을 실행하기 위한 동적 분석 환경을 생성하고 준비한다. 환경준비 모듈(15201)은 실행 파일의 타입을 식별한 경우 각각의 파일의 타입에 따라 어떤 실행 환경이 필요한지 식별할 수 있다. 예를 들면 파일에 따라 윈도우 운영체제, 리눅스 운영체제, 모바일 기기 운영체제에서 실행되는 파일인지 식별할 수 있다. 환경준비 모듈(15201)은 실행 파일을 실행하기 위해 식별된 환경을 준비할 수 있다. The environment preparation module 15201 creates and prepares a dynamic analysis environment for executing an executable file related to an input file. When the type of the execution file is identified, the environment preparation module 15201 may identify which execution environment is required according to the type of each file. For example, depending on the file, it can be identified whether the file is running on a Windows operating system, a Linux operating system, or a mobile device operating system. The environment preparation module 15201 may prepare the identified environment to execute the executable file.

파일실행 모듈(15203)은 환경준비 모듈(15201)이 준비한 분석 환경에서 실행 파일이 악성 코드 포함하고 있는지 여부를 판별하기 위해 파일을 실행한다. The file execution module 15203 executes the file to determine whether the executable file contains malicious code in the analysis environment prepared by the environment preparation module 15201 .

행위수집 모듈(15205)은 동적 분석 정보를 획득하기 위해 실행 환경에서 실행된 파일의 실행 중에 시스템에서 발생하는 이벤트를 수집할 수 있다. 예를 들어 행위수집 모듈(15205)은 파일 자체, 프로세스, 메모리, 레지스트리, 네트워크의 시스템에 대한 이벤트 또는 각 시스템의 설정을 변경시키는 이벤트를 수집할 수 있다. The behavior collection module 15205 may collect events occurring in the system during execution of a file executed in the execution environment in order to acquire dynamic analysis information. For example, the behavior collection module 15205 may collect an event for a file itself, a process, a memory, a registry, a system of a network, or an event for changing a setting of each system.

분석결과취합 모듈(15207)은 행위수집 모듈(15205)이 수집한 이벤트들을 개별적으로 또는 취합하여 분석한다.The analysis result collection module 15207 analyzes the events collected by the behavior collection module 15205 individually or by collecting them.

분석환경복구 모듈(15209)은 수집된 결과를 취합한 후 동적 분석을 위한 환경을 다시 복구한다. The analysis environment recovery module 15209 restores the environment for dynamic analysis after collecting the collected results.

동적분석 모듈(15200)은 이와 같이 획득된 결과를 해당 파일 또는 파일의 악성 코드에 대응된 동적 분석 정보로 데이터베이스(2200)에 저장할 수 있다.The dynamic analysis module 15200 may store the obtained result in the database 2200 as dynamic analysis information corresponding to the corresponding file or malicious code of the file.

동적분석 모듈(15200)이 위 실시 예에 따라 동적 분석 정보를 수집하고 분석하는 예를 간략하게 개시하면 다음과 같다. An example in which the dynamic analysis module 15200 collects and analyzes dynamic analysis information according to the above embodiment is briefly described as follows.

동적 분석의 일 실시 예로서, 동적분석 모듈(15200)은 입력된 파일이 모바일 기기 운영 체제에서 동작하는 파일로 식별된 경우, 파일을 모바일 단말 또는 모바일 단말 환경과 동일하게 구성된 에뮬레이터나 가상화 환경을 생성할 수 있다. 그리고 동적분석 모듈(15200)은 생성한 에뮬레이터나 가상화 환경에서 상기 파일을 직접 실행할 수 있다. 동적분석 모듈(15200)은 파일 내에 모바일 악성 의심 코드가 실행된 후에 단말에 발생하는 모든 변화, 즉 행위 정보를 추출하고 기록할 수 있다. 행위 정보는 단말의 운영체제(OS) 환경이 다른 경우라도 프로세스, 파일, 메모리 및 네트워크 정보 등의 이벤트 정보를 포함할 수 있다.As an embodiment of the dynamic analysis, when the input file is identified as a file operating in the mobile device operating system, the dynamic analysis module 15200 creates an emulator or virtualization environment configured to be the same as the mobile terminal or mobile terminal environment. can do. In addition, the dynamic analysis module 15200 may directly execute the file in the created emulator or virtual environment. The dynamic analysis module 15200 may extract and record all changes that occur in the terminal after the mobile malicious code is executed in the file, that is, behavior information. The behavior information may include event information such as process, file, memory, and network information even when the operating system (OS) environment of the terminal is different.

동적 분석의 다른 실시 예로서 동적분석 모듈(15200)은 전처리 과정에서 입력된 파일의 해쉬(Hash) 값을 추출되지 않고 사용자 단말에서 추출된 경우라도 단말에서 추출된 파일의 해쉬 값을 인텔리전스 플랫폼(10000)을 통해 수신할 수 있다.As another embodiment of the dynamic analysis, the dynamic analysis module 15200 converts the hash value of the file extracted from the terminal without extracting the hash value of the file input in the preprocessing process to the intelligence platform 10000 even if it is extracted from the user terminal. ) can be received through

데이터베이스(2200)에 해당 파일의 해쉬 값이 이미 저장되지 않는 경우 동적분석 모듈(15200)은 수신된 파일을 가상 또는 실제의 운영체제에서 실행시키고, 실행 시에 발생되는 행위를 실시간으로 수집하고 수집된 동적분석 정보를 데이터베이스(2200)에 이미 저장된 정보와 비교할 수 있다. If the hash value of the file is not already stored in the database 2200, the dynamic analysis module 15200 executes the received file in a virtual or real operating system, collects the actions that occur during execution in real time, and collects the collected dynamic The analysis information may be compared with information already stored in the database 2200 .

상기 비교 결과 이미 정의된 위험도를 초과하는 경우 입력된 파일이 악성 코드를 포함하고 있다고 판단할 수 있고, 동적분석 모듈(15200)은 악성 코드에 대응되는 파일의 해쉬 값을 데이터베이스(2200)에 저장할 수 있다. 저장된 악성 해쉬 값은 추후 정적 분석 등에 이용할 수 있다. If the comparison result exceeds the predefined risk level, it may be determined that the input file contains malicious code, and the dynamic analysis module 15200 may store the hash value of the file corresponding to the malicious code in the database 2200. there is. The stored malicious hash value can be used for static analysis later.

악성 코드는 외부의 서버와 통신하며 추가적인 명령을 발생시키고 파일을 수신하도록 할 수 있다. The malicious code communicates with an external server and can issue additional commands and receive files.

그런데 동적 분석을 수행할 수 있는 플랫폼과 서버가 중지된 경우는 이러한 동적 분석에 매우 오랜 시간이 소요될 수 있고 해당 행위가 사전 차단된 경우에도 동적 분석을 수행할 수 없는 경우가 있다. However, if the platform and server that can perform dynamic analysis are stopped, such dynamic analysis may take a very long time, and even if the corresponding behavior is blocked in advance, there are cases where dynamic analysis cannot be performed.

실시 예에 따른 동적분석 모듈(15200)은 네트워크 행위를 분석할 경우, 악성 코드가 사용하는 명령 제어 서버(C&C 서버), 추가적인 악성 코드를 다운로드하기 위한 다운로드 서버 또는 악성 코드들끼리 정보를 주고 받거나 해커와 정보를 주고 받는 커뮤니케이션 패킷 등의 정보를 추출하여 분석할 수 있다. When analyzing a network behavior, the dynamic analysis module 15200 according to an embodiment includes a command control server (C&C server) used by malicious code, a download server for downloading additional malicious code, or exchange information between malicious codes or hackers Information such as communication packets exchanging information with and can be extracted and analyzed.

여기서 개시하는 동적분석 모듈(15200)은 서버(2100)가 동작 중지된 경우에도 동적 분석을 수행하도록 할 수 있다. The dynamic analysis module 15200 disclosed herein may perform dynamic analysis even when the server 2100 is stopped.

예를 들어 네트워크 접속 유도 장치(미도시)가 악성 코드에 감염된 클라이언트 단말과 인텔리전스 플랫폼(10000) 또는 서버(2100)에 사이에서 단말의 접속 요청을 처리하도록 하여 동적 분석을 진행하도록 할 수도 있다. For example, a network access inducing device (not shown) may process a terminal access request between a client terminal infected with a malicious code and the intelligence platform 10000 or server 2100 to perform dynamic analysis.

네트워크 접속 유도 장치(미도시)는 단말로부터 접속 요청을 수신하고 이를 악성 코드 행위를 유발시키는 C&C 서버로 전달하도록 할 수 있다. The network access inducing device (not shown) may receive an access request from the terminal and transmit it to a C&C server that induces malicious code behavior.

그리고, 만약 상기 네트워크 접속 유도 장치가 일정 시간 내에 C&C 서버로부터 응답 패킷을 수신하지 못하면, 상기 네트워크 접속 유도 장치는 별도의 가상의 응답 패킷과 접속 요청을 함께 상기 단말에 전송하도록 한다. And, if the network access inducing apparatus does not receive a response packet from the C&C server within a predetermined time, the network access inducing apparatus transmits a separate virtual response packet and an access request to the terminal together.

이후에 상기 단말로부터 수신된 악성 코드 분석에 관련된 데이터를 추출할 수 있다. Thereafter, data related to the analysis of the malicious code received from the terminal may be extracted.

가상의 응답 패킷을 이용하는 예는 가상의 응답 패킷 TCP 세션을 생성하기 위한 패킷 형식이면 충분하다. 악성 코드가 사용하는 일반적인 TCP (Transmission Control Protocol) 프로토콜은 TCP 세션만 생성하도록 상기 클라이언트 단말이 전송하는 데이터 패킷을 생성할 수 있다. 그리고 상기 데이터 패킷으로부터 악성 코드의 동적 분석에 필요한 중요 정보들을 추출할 수 있다. 이와 같이 하면 관리 서버가 동작하지 않더라도 네트워크 접속 유도 장치의 동작을 이용하여 동적 분석을 수행할 수 있다.For an example of using the virtual response packet, a packet format for creating a virtual response packet TCP session is sufficient. A general Transmission Control Protocol (TCP) protocol used by malicious code may generate a data packet transmitted by the client terminal to create only a TCP session. In addition, important information necessary for dynamic analysis of malicious code may be extracted from the data packet. In this way, even if the management server does not operate, dynamic analysis can be performed using the operation of the network connection inducing device.

도 13은 개시하는 실시 예에 따라 분석 프레임 워크 중 심층분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸다. 이 도면을 참조하여 심층분석 모듈의 수행 과정을 예시하면 다음과 같다.13 shows an example for describing in detail the function of the in-depth analysis module among the analysis framework according to the disclosed embodiment. With reference to this figure, the process of performing the in-depth analysis module is exemplified as follows.

인텔리전스 플랫폼(10000)의 분석 프레임 워크(15000)는 심층분석 모듈(15300)을 포함할 수 있다. 심층분석 모듈(15300)은 수신된 파일 포함하는 실행 가능한 파일 디스어셈블링하여 기계 언어 레벨에서 분석하여 악성 행위를 유발하는 공격 기법이나 공격자를 식별할 수 있다. The analysis framework 15000 of the intelligence platform 10000 may include an in-depth analysis module 15300 . The in-depth analysis module 15300 may disassemble the executable file including the received file and analyze it at the machine language level to identify an attack technique or attacker that induces a malicious behavior.

심층분석 모듈(15300)은 기술한 정적 분석이나 동적 분석의 기반으로 심층 분석 정보를 얻을 수도 있고, 분석자의 해석 기준에 따라 실행 가능한 파일을 악성 행위를 유발하는 파일을 이용하여 분석할 수도 있다. The in-depth analysis module 15300 may obtain in-depth analysis information on the basis of the described static analysis or dynamic analysis, or may analyze executable files using files that induce malicious behavior according to the analysis criteria of the analyst.

심층분석 모듈(15300)은 파일 자체의 분석 정보나 또는 파일을 여러 번 가공한 정보를 포함할 수 있고 이미 저장된 정보를 기반으로 심층 분석 정보를 생성할 수 있다The in-depth analysis module 15300 may include the analysis information of the file itself or the information of processing the file several times, and may generate the in-depth analysis information based on the already stored information.

심층분석 모듈(15300)은 또한, 심층 분석은 디스어셈블링(disassembling) 모듈(15301), 기계언어코드추출 모듈(15303), 공격행위(TTP)식별 모듈(15305), 공격자식별 모듈(15307), 테인트분석(taint analysis)모듈(15309)를 포함할 수 있다. In-depth analysis module 15300 also includes in-depth analysis disassembling module 15301, machine language code extraction module 15303, attack behavior (TTP) identification module 15305, attacker identification module 15307, A taint analysis module 15309 may be included.

분석 프레임 워크(15000)는 심층분석 모듈(15300)은 AI 엔진(1230)을 이용하여 인공 지능 기반의 머신 러닝 알고리즘을 수행하고, 그 결과로 심층분석 정보를 얻을 수 있다. In the analysis framework 15000, the deep analysis module 15300 performs an artificial intelligence-based machine learning algorithm using the AI engine 1230, and as a result, in-depth analysis information can be obtained.

디스어셈블링(disassembling) 모듈(15301)은 입력된 파일이 실행 가능한 파일을 포함할 경우 실행 가능한 파일을 디스어셈블(disassemble)한다. The disassembling module 15301 disassembles the executable file when the input file includes the executable file.

실행 가능한 파일이 디스어셈블링(disassembling)되면 오브젝트 코드 형식의 특정 형식, 예를 들면 어셈블러 언어 형식의 코드로 변환된다. When an executable file is disassembled, it is converted into a code in a specific format of an object code format, for example, an assembler language format.

기계언어코드추출모듈(15303)은 일정 형식을 가진 OP-CODE (operation code)와 ASM-CODE를 포함하는 디스어셈블드 코드를 추출할 수 있다. 일정 형식을 가진 OP-CODE (operation code)는 악성 코드와 관련된 OP-CODE 부분을 의미하는 것으로 추출된 OP-CODE를 포함하는 디스어셈블드 코드는 악성 코드 또는 악성 행위와 관련된 부분을 지칭한다. The machine language code extraction module 15303 may extract a disassembled code including an OP-CODE (operation code) and an ASM-CODE having a predetermined format. An OP-CODE (operation code) having a certain format refers to an OP-CODE part related to malicious code, and the disassembled code including the extracted OP-CODE refers to a part related to malicious code or malicious behavior.

기계언어코드추출모듈(15303)은 디스어셈블드 코드를 일정 형식의 데이터 포맷을 변환할 수 있다. 일정 형식의 데이터 포맷의 변환 예시는 아래에서 개시한다.The machine language code extraction module 15303 may convert the disassembled code into a data format of a certain format. An example of conversion of a certain type of data format is disclosed below.

실행 가능한 파일의 디스어셈블드 코드를 사이버 보안 전문가 집단들이 공통적으로 인정하는 공격 행위 세부 요소들로 매칭하도록 하여 그 공격행위를 식별할 수 있다.Attack behavior can be identified by matching the disassembled code of the executable file to the attack behavior details commonly recognized by cyber security expert groups.

공격행위(TTP)식별 모듈(15305)은 추출된 디스어셈블드 코드나 일정 형식으로 변환된 포맷의 데이터를 기반으로 공격행위, 공격기법 및 공격 프로세스를 식별할 수 있다. The attack behavior (TTP) identification module 15305 may identify an attack behavior, an attack technique, and an attack process based on the extracted disassembled code or data of a format converted into a predetermined format.

공격행위(TTP)식별 모듈(15305)은 실행 가능한 파일의 디스어셈블드 코드를 기반의 퍼지 해쉬 값을 사이버 보안 전문가 집단들이 공통적으로 인정하는 공격 행위 세부 요소들로 매칭하도록 하여 그 공격행위를 식별할 수 있다.The attack behavior (TTP) identification module 15305 identifies the attack behavior by matching the fuzzy hash value based on the disassembled code of the executable file with the detailed elements of the attack behavior commonly recognized by cyber security expert groups. can

공격행위(TTP)식별 모듈(15305)은 이미 추출된 디스어셈블드 코드들과 공격행위(TTP) 별 매칭 관계를 저장한 데이터베이스(2200) 또는 외부 레퍼런스 데이터베이스에 기반하여 공격행위(TTP)를 식별하도록 할 수 있다. 공격행위(TTP)식별 모듈(15305)은 AI 엔진(1230)의 머신 러닝을 이용하여 추출된 디스어셈블드 코드들의 CTPH 알고리즘 등의 퍼지 해쉬 값과 공격행위(TTP) 별 매칭 유사도를 고속으로 수행하여 공격행위 또는 공격기법을 분류할 수 있다..The attack behavior (TTP) identification module 15305 is configured to identify the attack behavior (TTP) based on the database 2200 that stores the previously extracted disassembled codes and the matching relationship for each attack behavior (TTP) or an external reference database. can do. Attack behavior (TTP) identification module 15305 performs matching similarity for each attack behavior (TTP) with fuzzy hash values such as CTPH algorithm of disassembled codes extracted using machine learning of AI engine 1230 at high speed. Attack behavior or attack technique can be classified.

디스어셈블드 코드 내 OP-CODE는 수행될 연산을 특정하는 기계 언어 명령어의 일부인데, 사이버 보안 상 공격기법 또는 공격행위(Terrorist Tactics, Techniques, and Procedures, 이하 TTP)를 유발하는 OP-CODE 를 포함하는 디스어셈블드 코드는 해당 공격 행위 별로 매우 유사한 값이나 포맷을 가질 수 있다. 따라서, 이러한 OP-CODE와 ASM-CODE의 조합인 디스어셈블드 코드를 분석하면 특정 타입의 공격 행위를 구별할 수 있다. The OP-CODE in the disassembled code is a part of the machine language instruction that specifies the operation to be performed, and includes the OP-CODE that induces an attack technique or attack behavior (Terrorist Tactics, Techniques, and Procedures, hereinafter TTP) for cyber security. The disassembled code used in the attack may have very similar values or formats for each attack action. Therefore, by analyzing the disassembled code, which is a combination of the OP-CODE and the ASM-CODE, a specific type of attack can be distinguished.

예를 들면 공격행위(TTP)식별 모듈(15305)는 실행 가능한 파일로부터 추출된 디스어셈블드 코드를 퍼지 해쉬(Fuzzy Hashing) 방식 또는 CTPH (context triggered piecewise hashes) 방식의 해쉬 값으로 변환할 수 있다. For example, the TTP identification module 15305 may convert a disassembled code extracted from an executable file into a hash value of a fuzzy hashing method or a context triggered piecewise hashes (CTPH) method.

공격행위(TTP)식별 모듈(15305)과 함께 수행되는 AI 엔진(1230)의 머신 러닝 알고리즘으로 Perceptron, Logistic Regression, Support Vector Machines, Multilayer Perceptron 등의 알고리즘이 사용될 수 있다. 또한 AI 엔진(1230)으로 앙상블 머신 러닝 알고리즘이나 자연어 처리 알고리즘도 사용할 수 있다. 이에 대한 예는 이하에서 상세히 개시한다.Algorithms such as Perceptron, Logistic Regression, Support Vector Machines, Multilayer Perceptron, etc. may be used as the machine learning algorithm of the AI engine 1230 performed together with the TTP identification module 15305 . In addition, an ensemble machine learning algorithm or a natural language processing algorithm may be used as the AI engine 1230 . Examples of this are disclosed in detail below.

보안 전문가 집단의 공격 행위를 저장한 데이터 베이스의 일 예로서 MITRE ATT&CK은 실제 보안 공격 기법이나 행위에 대한 데이터 베이스인데 공격행위(TTP)식별 모듈(15305)은 추출한 OP-CODE을 포함하는 디스어셈블드 코드이 변환된 해쉬 값을 MITRE ATT&CK의 데이터베이스 상의 일정한 데이터 세트 형식 또는 식별자로 식별할 수 있도록 한다.As an example of a database that stores the attack behavior of a group of security experts, MITER ATT&CK is a database of actual security attack techniques or behaviors. The attack behavior (TTP) identification module 15305 is disassembled including the extracted OP-CODE. It enables the code-converted hash value to be identified as a certain data set format or identifier on the database of MITER ATT&CK.

MITRE ATT&CK는 해커 또는 악성 코드의 공격 기법에 대한 취약 요소들을 CVE 코드(Common Vulnerabilities and Exposures Code)의 매트릭스로 표현한다. MITER ATT&CK expresses the vulnerable factors to the attack technique of hackers or malicious codes as a matrix of CVE codes (Common Vulnerabilities and Exposures Codes).

실시 예는 디스어셈블드 코드를 분석함으로써 여러 가지 공격 행위들 중 특정 공격 행위를 식별하되, 식별된 타입의 공격 행위가 전문가 단체들이 인정하는 공격 행위의 요소들로 매칭되도록 함으로써 공격 행위 식별이 전문적이면서 공통으로 인식되는 요소들로 표현되도록 할 수 있다.The embodiment identifies a specific attack behavior among various attack behaviors by analyzing the disassembled code, but by matching the identified type of attack behavior with elements of the attack behavior recognized by expert groups, the identification of the attack behavior is professional and It can be expressed as elements that are commonly recognized.

설명한 바와 같이 OP-CODE는 특정 행위를 유발시키는 기계 언어 명령어이므로, 동일한 공격 행위를 유발하는 파일의 디스어셈블드 코드는 매우 유사할 수 있다. 그러나 공격 행위와 이를 유발하는 파일의 디스어셈블드 코드가 정확하게 매칭되는 것은 아니므로 코드 상 일부 차이가 있을 수 있다.As described above, since OP-CODE is a machine language instruction that induces a specific behavior, the disassembled code of a file that causes the same attack behavior may be very similar. However, since the disassembled code of the file that causes the attack and the disassembled code do not exactly match, there may be some differences in the code.

공격행위(TTP)식별 모듈(15305)은 추출한 디스어셈블드 코드를 일정 형식으로 변환한 코드에 대해 AI 엔진(1230)의 머신 러닝 수행하도록 한다. 따라서, 동일한 악성 행위를 유발시키는 파일들의 OP-CODE들이 완전히 동일하지 않더라도 공격행위(TTP)식별 모듈(15305)은 머신 러닝과 추출된 OP-CODE 기반의 퍼지 해쉬 값과 그에 대응하는 공격 요소를 매칭하여 공격 행위 등을 식별할 수 있다. The attack behavior (TTP) identification module 15305 allows the AI engine 1230 to perform machine learning on the code converted from the extracted disassembled code into a predetermined format. Therefore, even if the OP-CODEs of the files that cause the same malicious behavior are not completely identical, the attack behavior (TTP) identification module 15305 matches the fuzzy hash value based on machine learning and the extracted OP-CODE and the corresponding attack element. In this way, the attack behavior can be identified.

공격행위(TTP)식별 모듈(15305)은 디스어셈블드 코드들의 유사도를 AI 알고리즘을 이용하여 MITRE ATT&CK과 같은 공격 기법에 매칭하여 최종적으로 해당 파일이 악성 코드임을 탐지할 수 있다. The attack behavior (TTP) identification module 15305 may match the similarity of disassembled codes with an attack technique such as MITER ATT&CK using an AI algorithm to finally detect that the file is a malicious code.

이에 대한 구체적인 예는 후술 한다.A specific example of this will be described later.

공격자식별 모듈(15307)은 추출된 디스어셈블드 코드와 인공 지능 기반의 머신 러닝 결과를 이용해 유사 공격 행위를 유발하는 공격자도 식별하는 단계를 포함할 수도 있다. 마찬가지로 공격자 식별에 대한 구체적인 예는 후술한다The attacker identification module 15307 may also include identifying an attacker who induces a similar attack behavior using the extracted disassembled code and artificial intelligence-based machine learning results. Similarly, a specific example of attacker identification will be described later.

테인트분석(taint analysis)모듈(15309)은 파일이 없는(fileless) 악성 코드의 경우도 특정 시점에서 시스템의 메모리 분석을 통해 공격 행위가 있는지 여부에 대해 판단할 수 있다. The taint analysis module 15309 may determine whether there is an attack action through memory analysis of the system at a specific point in time even in the case of fileless malicious code.

심층분석 모듈(15300)은 해당 파일이나 그 파일로부터 식별된 악성 코드에 대응되는 심층 분석 정보를 데이터베이스(2200)에 저장할 수 있다.The in-depth analysis module 15300 may store in-depth analysis information corresponding to a corresponding file or a malicious code identified from the file in the database 2200 .

도 14은 개시하는 실시 예에 따라 분석 프레임 워크 중 연관관계분석 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸다. 이 도면을 참조하여 연관관계분석 모듈의 수행 과정을 예시하면 다음과 같다.14 shows an example for describing in detail the function of the correlation analysis module in the analysis framework according to the disclosed embodiment. With reference to this drawing, the process of performing the correlation analysis module is exemplified as follows.

인텔리전스 플랫폼(10000)의 분석 프레임 워크(15000)는 연관관계분석 모듈(15400)을 포함할 수 있다. 연관관계분석 모듈(15400)은 분석 프레임 워크(15000)가 분석하는 여러 가지 분석 정보들을, 사이버 위협 침해 정보(IoC)에 기반하여 공격자 또는 공격 기법 사이에 연관관계로 표현되도록 연관관계 분석 정보를 생성한다.The analysis framework 15000 of the intelligence platform 10000 may include a correlation analysis module 15400 . The correlation analysis module 15400 generates correlation analysis information so that various types of analysis information analyzed by the analysis framework 15000 are expressed as correlations between attackers or attack techniques based on cyber threat breach information (IoC). do.

연관관계분석 모듈(15400)은 분석 정보와 공격 행위 사이의 IP 정보의 연관관계를 분석하는 제 1 연관관계분석 모듈(15401), 이메일에 포함되거나 웹사이트 등에 포함된 호스트네임의 연관관계를 분석하는 제 2 연관관계분석 모듈 (15403), URL의 연관관계를 분석하는 제 3 연관관계분석 모듈 (15405), 파일의 코드사인(codesign)의 연관관계를 분석하는 제 4 연관관계분석 모듈 (15407), 공격 기법들 사이의 연관관계를 분석하는 제 5 연관관계분석 모듈 (15407) 등을 포함할 수 있다.The correlation analysis module 15400 is a first correlation analysis module 15401 that analyzes the correlation between the analysis information and the IP information between the attack behavior, and analyzes the correlation between the hostname included in the email or included in the website. A second association analysis module 15403, a third association analysis module 15405 for analyzing the association of URLs, a fourth association analysis module 15407 for analyzing the association of a codesign of a file, It may include a fifth association analysis module 15407 that analyzes associations between attack techniques, and the like.

이 도면에 표시된 모듈들은 예시에 불과하며, 이 도면에 표시되지 않더라도 연관관계분석 모듈(15400)은 공격 기법과 공격자를 판단하기 위해 분석된 정보들 사이에 여러 가지 연관관계들을 분석할 수 있는 모듈들을 포함할 수 있다. 예를 들면 연관관계분석 모듈(15400)은 생성한 연관관계 정보들을 취합하거나 통합하는 통합 분석 모듈을 포함할 수도 있다. The modules shown in this figure are only examples, and even if not shown in this figure, the correlation analysis module 15400 includes modules that can analyze various correlations between the attack technique and the information analyzed to determine the attacker. may include For example, the correlation analysis module 15400 may include an integrated analysis module for collecting or integrating the generated correlation information.

연관관계분석 모듈(15400)은 정확하게 공격기법 또는 공격자를 추론하는데 사용되는 연관관계 분석 정보를 생성할 수 있다. The association analysis module 15400 may generate association analysis information used to accurately infer an attack technique or an attacker.

연관관계분석 모듈(15400)은 수신되는 파일이나 악성 코드에 대해 지속적이고 누적적으로 분석 정보들을 저장하고 추후 새로운 파일이나 악성 코드가 분석될 때마다 관련된 연관관계 분석 정보를 다시 업데이트하여 데이터베이스(2220)에 저장한다. The correlation analysis module 15400 continuously and accumulatively stores analysis information for a received file or malicious code, and then updates the related relationship analysis information again whenever a new file or malicious code is analyzed later in the database 2220 . save to

연관관계분석 모듈(15400)은 위에서 분석한 여러 가지 분석 정보(정적분석정보, 동적분석정보, 심층분석정보 등)를 기반으로 사이버 위협 침해 정보를 얻을 수 있다. The correlation analysis module 15400 may obtain cyber threat infringement information based on various analysis information (static analysis information, dynamic analysis information, in-depth analysis information, etc.) analyzed above.

연관관계분석 모듈(15400)은 사이버 위협 침해 정보(IoC)를 이용해 공격 행위나 공격자를 식별할 수 있는 여러 가지 연관관계 정보를 얻을 수 있으며 이와 같이 분석된 연관관계 분석 정보를 데이터베이스(2200)에 저장할 수 있다.The correlation analysis module 15400 can obtain various types of correlation information that can identify an attack action or an attacker using cyber threat infringement information (IoC), and store the analyzed correlation analysis information in the database 2200 . can

위에서 개시한 바와 같이 인텔리전스 플랫폼(10000)의 분석 프레임 워크(15000)는 분석된 정보들을 종합하여 중복 제거, 표준화, 인리치먼트 과정을 통해 표준화된 정보를 데이터베이스(2220)에 저장할 수 있다. As disclosed above, the analysis framework 15000 of the intelligence platform 10000 may synthesize the analyzed information and store the standardized information in the database 2220 through the process of deduplication, standardization, and enrichment.

인텔리전스 플랫폼(10000)는 정적 분석 정보, 동적분석 정보, 심층분석 정보, 연관관계분석 정보들을 사이버 위협 정보를 갱신 또는 재생산하기 위해 표준화된 포맷으로 데이터베이스(2200)에 저장할 수 있다. The intelligence platform 10000 may store static analysis information, dynamic analysis information, in-depth analysis information, and correlation analysis information in the database 2200 in a standardized format to update or reproduce cyber threat information.

여기서 인텔리전스 플랫폼(10000)는 각 분석 정보들의 중복되거나 공통된 분석 정보의 중복된 부분을 제거하고, 부족한 부분의 데이터의 인리치먼트(enrichment) 작업 등을 수행할 수 있다.Here, the intelligence platform 10000 may remove a duplicate part of each analysis information or a duplicate part of the common analysis information, and may perform an enrichment operation of the insufficient part of the data.

인텔리전스 플랫폼(10000)는 후 처리를 통해 표준화된 정보를 사이버 공격들의 방지하기 위해 고안된 표준인 STIX 이나 TAXII 등의 포맷으로 저장할 수 있다. The intelligence platform 10000 may store standardized information through post-processing in a format such as STIX or TAXII, which are standards designed to prevent cyber attacks.

서버 (2100)는 사용자의 조회 질의에 따라 또는 서비스 정책에 따라 분석 프레임 워크(15000)가 생성한 분석 정보 등을 표준화된 사이버 위협 정보로 제공할 수 있다. 사이버 위협 정보로 제공 방법에 대해서도 이하에서 상세히 후술한다.The server 2100 may provide standardized cyber threat information such as analysis information generated by the analysis framework 15000 according to a user's inquiry query or service policy. A method of providing cyber threat information will also be described in detail below.

이러한 사이버 위협 정보는 사용자의 요청이나 서비스에 따라 제공할 수도 있다.Such cyber threat information may be provided according to a user's request or service.

도 15는 개시하는 실시 예에 따라 예측 프레임 워크의 예측정보생성 모듈의 기능을 상세히 설명하기 위한 일 예를 나타낸다. 이 도면을 참조하여 예측 프레임 워크의 수행 과정을 예시하면 다음과 같다.15 shows an example for explaining in detail the function of the prediction information generation module of the prediction framework according to the disclosed embodiment. An example of the execution process of the prediction framework with reference to this figure is as follows.

예시한 인텔리전스 플랫폼(10000)의 예측 프레임 워크(17000)는 예측정보생성모듈(17100)을 포함할 수 있다. 예측정보생성모듈(17100)은 생성하는 예측정보에 따라 다수의 정보예측모듈들을 포함할 수 있다. 이 예에서는 예측정보생성모듈(17100)이 제1정보예측모듈(1711), 제2정보예측모듈(1713), 제3정보예측모듈(1715), 제4정보예측모듈(1717), 및 제5정보예측모듈(1719)을 포함하는 예를 나타낸다. The prediction framework 17000 of the illustrated intelligence platform 10000 may include a prediction information generation module 17100 . The prediction information generation module 17100 may include a plurality of information prediction modules according to the generated prediction information. In this example, the prediction information generation module 17100 includes a first information prediction module 1711 , a second information prediction module 1713 , a third information prediction module 1715 , a fourth information prediction module 1717 , and a fifth An example including the information prediction module 1719 is shown.

예측 프레임 워크(17000)는 이전에 예시한 분석 프레임 워크(미도시)가 생성한 분석정보들을 이용할 수 있다. 예측 프레임 워크(17000)는 여러 가지 분석 정보들에 따른 데이터 세트를 인공 지능 기반의 학습 데이터 세트로 가공하고, AI 엔진(1230)은 가공된 학습 데이터 세트를 기초로 인공 지능 분석을 수행할 수 있다. The prediction framework 17000 may use analysis information generated by the previously exemplified analysis framework (not shown). The prediction framework 17000 may process a data set according to various types of analysis information into an artificial intelligence-based learning data set, and the AI engine 1230 may perform artificial intelligence analysis based on the processed learning data set. .

예측 프레임 워크(17000)과 AI 엔진(1230)의 수행을 통해 공격 행위와 관련된 여러 가지 예측 정보 생성할 수 있다. Through the execution of the prediction framework 17000 and the AI engine 1230, various types of prediction information related to the attack behavior may be generated.

이 예에서는 제1정보예측모듈(1711)는 인공 지능 학습을 통해 악성 코드 제작자의 예측 정보를 생성할 수 있다. 제2정보예측모듈(1713)는 악성 코드 공격 방법의 예측 정보를 생성하고 제3정보예측모듈(1715)는 악성 코드 공격 그룹의 예측 정보를 생성할 수 있다. 그리고 제4정보예측모듈(1717)는 악성 코드 유사도 예측 정보를 생성하고, 제5정보예측모듈(1719)는 악성 코드 확산도 예측 정보를 생성하는 예를 나타낸다. In this example, the first information prediction module 1711 may generate prediction information of a malicious code creator through artificial intelligence learning. The second information prediction module 1713 may generate prediction information of a malicious code attack method, and the third information prediction module 1715 may generate prediction information of a malicious code attack group. In addition, the fourth information prediction module 1717 generates malicious code similarity prediction information, and the fifth information prediction module 1719 generates malicious code spread prediction information.

구체적인 예측 정보의 생성의 예는 이하에서 후술한다. An example of generation of specific prediction information will be described later.

예측 프레임 워크(17000)는 생성한 예측 정보를 데이터베이스(2200)에 저장할 수 있다. The prediction framework 17000 may store the generated prediction information in the database 2200 .

예를 들면 예측 프레임 워크(17000)는 특정 악성 코드에 대해 그 악성코드의 위험 자체를 예측한 악성코드 위험도 예측 정보를 생성하여 데이터베이스(2200)에 저장할 수 있다. For example, the prediction framework 17000 may generate malicious code risk prediction information that predicts the risk of a specific malicious code itself and store it in the database 2200 .

그리고 예측 프레임 워크(17000)는 특정 악성 코드에 대해 예측한 제작자, 공격방법, 공격 그룹, 유사도, 확산도의 예측 정보를 데이터베이스(2200)에 저장할 수 있다. In addition, the prediction framework 17000 may store prediction information of a producer, an attack method, an attack group, similarity, and spread of a specific malicious code in the database 2200 .

개시한 바와 같이 인텔리전스 플랫폼(1000)은 분석 정보 또는 예측 정보에 기초하여 악성 코드 종류 및 악성 코드의 위험도를 생성할 수 있다. 그리고 인텔리전스 플랫폼(10000)은 악성 코드에 대한 프로파일링 정보를 생성할 수 있다. As disclosed, the intelligence platform 1000 may generate a malicious code type and a risk level of the malicious code based on analysis information or prediction information. In addition, the intelligence platform 10000 may generate profiling information about the malicious code.

인텔리전스 플랫폼(10000)은 파일 분석을 통해 파일에 대한 자체 분석을 수행한 결과나 추가 및 예측 분석을 수행한 결과를 데이터베이스(2200)에 저장할 수 있다.The intelligence platform 10000 may store, in the database 2200 , a result of performing self-analysis on a file through file analysis or a result of performing additional and predictive analysis.

인텔리전스 플랫폼(10000)이 제공하는 사이버 위협 정보는, 위의 전처리를 수행한 정보, 생성한 분석 정보, 생성한 예측 정보 또는 이 정보들의 취합 정보나 이 정보들을 기반으로 추가 후 처리된 정보를 포함할 수 있다. The cyber threat information provided by the intelligence platform 10000 may include information that has been pre-processed, generated analysis information, generated prediction information, or aggregated information of these information, or information that is additionally processed based on this information. can

따라서 제공되는 사이버 위협 정보에는 입력된 파일과 관련하여 통합 분석Therefore, the provided cyber threat information includes integrated analysis related to the input file.

이러한 예시한 인텔리전스 플랫폼(10000)에 의해 제공되는 통합 분석 정보는, 입력된 파일에 대응하여 서버(2100)에 의해 데이터베이스(2200)에 표준화된 포맷으로 저장될 수 있다. 이러한 통합 분석 정보는 표준화된 포맷으로 저장되어 사이버 위협 정보를 검색 또는 조회에 사용될 수 있다.The integrated analysis information provided by the exemplified intelligence platform 10000 may be stored in a standardized format in the database 2200 by the server 2100 in response to an input file. Such integrated analysis information may be stored in a standardized format and used for searching or inquiring cyber threat information.

이하에서는 각 처리 단계 또는 모듈에 따른 상세한 실시 예들을 개시한다. Hereinafter, detailed embodiments according to each processing step or module are disclosed.

도 16은 개시하는 실시 예에 따라 정적 분석을 수행하는 일 예를 나타낸다. 도면을 참조하여 실시 예에 따른 정적 분석 방법의 일 예를 설명하며 다음과 같다. 16 illustrates an example of performing static analysis according to the disclosed embodiment. An example of a static analysis method according to an embodiment will be described with reference to the drawings.

설명한 바와 같이 정적 분석을 수행하기 이전에 전처리 단계나 정적 분석의 초기 단계에서 파일의 종류를 식별 수 있다. 이 도면은 파일의 종류로서 편의상 ELF, EXE, ARK 파일이 식별된 경우를 예시하지만 실시예의 적용은 이에 국한되지 않는다.As described, the type of file can be identified in the pre-processing stage or in the initial stage of static analysis before performing static analysis. This figure exemplifies a case in which ELF, EXE, and ARK files are identified as types of files for convenience, but application of the embodiment is not limited thereto.

악성코드의 정적 분석 또는 탐지는 위와 같은 파일 자체가 가지고 있는 성격과 기존에 확인된 패턴 데이터베이스와 비교 하는 과정을 기반으로 동작할 수 있다. Static analysis or detection of malicious code can be operated based on the characteristics of the file itself as above and the process of comparing it with the previously identified pattern database.

정적 정보 추출기는 입력된 파일의 구조를 파싱하여 구조 정보를 얻을 수 있다.The static information extractor can obtain structure information by parsing the structure of the input file.

파싱된 파일의 구조 상 패턴(pattern)은 데이터베이스(DB)(2200)에 이미 저장된 악성 코드의 패턴과 비교될 수 있다. A pattern in the structure of the parsed file may be compared with a pattern of malicious code already stored in the database (DB) 2200 .

파싱된 파일의 구조 특징과 패턴은 상기 파싱된 파일의 메타 정보가 될 수 있다. The structure characteristics and patterns of the parsed file may be meta information of the parsed file.

위에 개시된 예에서는 표시하지 않았으나 개시하는 실시예의 정적 분석에서도 머신 러닝 엔진이 사용될 수 있다. 데이터베이스(2200)는 이미 저장된 악성 코드의 학습된 특징들을 포함하는 데이터 세트를 저장할 수 있다. Although not shown in the example disclosed above, a machine learning engine may also be used in the static analysis of the disclosed embodiment. The database 2200 may store a data set including the learned characteristics of the previously stored malicious code.

AI 엔진은 위와 같이 파상된 파일로부터 얻은 메타 정보를 머신 러닝을 통해 학습하고, 데이터베이스(2200)에 이미 저장된 데이터 세트를 비교하여 악성코드 여부를 판단할 수 있다.The AI engine learns meta information obtained from the corrugated file as above through machine learning, and compares the data set already stored in the database 2200 to determine whether it is a malicious code.

정적 분석을 통해 악성 코드로 분석된 파일은 파일의 구조적 특징은 악성 코드와 관련된 데이터 세트로 다시 저장될 수 있다.A file analyzed as malicious code through static analysis can be saved back as a data set related to the malicious code, the structural characteristics of the file.

도 17은 개시하는 실시 예에 따라 동적 분석을 수행하는 일 예를 나타낸다. 도면을 참조하여 실시 예에 따른 동적 분석 방법의 일 예를 설명하며 다음과 같다. 17 illustrates an example of performing dynamic analysis according to the disclosed embodiment. An example of a dynamic analysis method according to an embodiment will be described with reference to the drawings.

설명한 바와 같이 동적 분석을 수행하기 이전에 전처리 단계나 동적 분석의 초기 단계에서 파일의 종류를 식별 수 있다. 마찬가지로 이 예시에서 파일의 종류로서 편의상 ELF, EXE, ARK 파일이 식별된 경우를 예시한다. As described above, the file type can be identified in the pre-processing stage or in the initial stage of the dynamic analysis before performing the dynamic analysis. Similarly, in this example, ELF, EXE, and ARK files are identified as types of files for convenience.

전처리를 통해 동적 분석 대상이 되는 파일 종류를 식별할 수 있다. 식별된 파일은 각 파일의 종류와 타입에 따라 가상 환경에서 실행될 수 있다. Through pre-processing, the types of files that are subject to dynamic analysis can be identified. The identified file may be executed in a virtual environment according to the type and type of each file.

예를 들어 식별된 파일이 ELF 파일인 경우 대기 큐(Que)를 거쳐 리눅스 가상 환경(Virtual Machine, VM)의 운영체제에서 실행될 수 있다. For example, if the identified file is an ELF file, it may be executed in the operating system of a Linux virtual machine (VM) through a queue.

ELF 파일이 실행될 경우 발생하는 이벤트는 행위 로그(log)에 기록될 수 있다. An event that occurs when the ELF file is executed may be recorded in an action log.

이와 같이 각각의 식별 파일의 종류 별로 윈도우, 리눅스, 모바일 운영체제 시스템을 가상으로 구축한 후 가상 시스템의 실행 이벤트를 기록한다. In this way, Windows, Linux, and mobile operating systems are virtually built for each type of identification file, and then an execution event of the virtual system is recorded.

그리고 데이터베이스(2200)에 이미 저장된 악성 코드의 실행 이벤트들과 기록한 실행 이벤트들을 비교할 수 있다. 위에서 예시하지 않았으나 동적 분석의 경우에도 머신 러닝을 통해 기록한 실행 이벤트들을 학습하고, 학습된 데이터가 이미 저장된 악성 코드의 실행 이벤트들과 유사한지 판단할 수 있다.In addition, execution events of the malicious code already stored in the database 2200 may be compared with recorded execution events. Although not illustrated above, even in the case of dynamic analysis, execution events recorded through machine learning may be learned, and it may be determined whether the learned data is similar to execution events of previously stored malicious code.

동적 분석의 경우 파일에 따라 가상 환경을 구축해야 하고 이에 따라 분석 및 탐지 시스템의 규모가 커질 수 있다.For dynamic analysis, you need to build a virtual environment according to the file, which can increase the size of your analysis and detection system.

도 18은 개시하는 실시 예에 따라 심층 분석을 수행하는 일 예를 나타낸다. 도면을 참조하여 실시 예에 따른 심층 분석 방법의 일 예를 설명하며 다음과 같다. 18 illustrates an example of performing in-depth analysis according to an embodiment disclosed herein. An example of the in-depth analysis method according to the embodiment will be described with reference to the drawings.

설명한 바와 같이 심층 분석을 수행하기 이전에 전처리 단계나 심층 분석의 초기 단계에서 파일의 종류를 식별 수 있다. 개시된 예는 식별된 파일이 ELF, EXE, ARK 의 실행 가능한 바이너리 파일을 예시한다. As described, the type of file can be identified in the pre-processing stage or in the initial stage of in-depth analysis before performing deep analysis. The disclosed examples illustrate executable binary files in which the identified files are ELF, EXE, and ARK.

실행 가능한 바이너리 파일을 디스어셈블(disassemble)을 수행하면 CPU(Central Processing Unit)의 명령어 집합 중 함수들의 구조를 분석할 수 있다.If the executable binary file is disassembled, the structure of functions in the instruction set of the CPU (Central Processing Unit) can be analyzed.

심층 분석은 동적 분석과 다르게 바이너리 파일을 디스어셈블하여 추출된 코드를 기반으로 동작하기 때문에 상대적으로 시스템 규모가 간단하게 분석이 가능하다. 그리고 심층 분석은 별도의 엔진 없이 추출된 코드들을 정규화 하는 과정을 통해 만들어진 데이터를 기초로 인공지능 분석을 수행할 수 있다. Unlike dynamic analysis, in-depth analysis operates based on the code extracted by disassembling the binary file, so it is possible to analyze the system relatively simply. And deep analysis can perform artificial intelligence analysis based on the data created through the process of normalizing the extracted codes without a separate engine.

이 도면에서 디스어셈블드 코드는 OP-CODE와 ASM-CODE의 결합으로 표현된다. In this figure, the disassembled code is expressed as a combination of OP-CODE and ASM-CODE.

실시 예는 OP-CODE 와 ASM-CODE를 기반으로 두 가지 코드를 조합하고, 조합된 코드 중 의미가 있는 코드 블록(Code Block)을 추출할 수 있다. The embodiment may combine two codes based on the OP-CODE and the ASM-CODE, and extract a meaningful code block from the combined codes.

OP-CODE 와 ASM-CODE을 포함하는 디스어셈블된 코드의 코드 블록(Code Block)은 일정한 형식을 변환하여 해당 코드가 악성 코드와 관련되었는지, 어떤 악성 코드이지 또는 어떤 공격자가 개발했는지를 식별할 수 있다.The code block of disassembled code, including OP-CODE and ASM-CODE, transforms a certain format to identify whether the code is related to malicious code, what kind of malicious code it is, or which attacker developed it. there is.

이를 판단하기 위한 코드 블록(Code Block)의 데이터 변환 방식을 여러 가지 과정이 있다. 디스어셈블된 코드의 데이터 변환 과정은 데이터의 처리 속도와 정확도에 따라 선택적으로 적용될 수 있으나 이 도면에서는 정규화 과정과 벡터화 과정만을 표기하였다. There are several processes for converting data of a code block to determine this. The data conversion process of the disassembled code may be selectively applied according to the data processing speed and accuracy, but only the normalization process and the vectorization process are indicated in this figure.

OP-CODE와 ASM-CODE의 결합 코드의 추출된 코드 블록(Code Block)을 정규화 과정과 벡터화 과정을 수행할 수 있다. A normalization process and a vectorization process may be performed on the extracted code block of the combined code of the OP-CODE and the ASM-CODE.

즉 바이너리 코드의 OP-CODE 와 ASM-CODE 조합으로 코드 블록(Code Block)을 추출하고 이 코드 블록(Code Block)의 특징 정보를 벡터화시킨 후 다양한 특징 정보를 통해 학습된 데이터와 비교하여 공격 행위 등을 식별하도록 한다.In other words, after extracting a code block with the combination of OP-CODE and ASM-CODE of binary code, vectorizing the characteristic information of this code block, comparing it with the data learned through various characteristic information, attack behavior, etc. to identify

동일한 실행 파일이라도 이와 같이 추출된 코드 블록(Code Block)이 모두 다를 수 있기 때문에 실시 예는 추출된 코드 블록(Code Block)를 악성 코드로 판단하고 분류하는 방식으로 머신 러닝 또는 인공 지능(AI) 방식을 이용할 수 있다. Since the code blocks extracted as described above may all be different even for the same executable file, the embodiment is a machine learning or artificial intelligence (AI) method in which the extracted code block is determined and classified as malicious code. is available.

그리고 실시 예는 정규화 및 벡터화 과정이 수행된 최종 데이터를 인공 지능을 통해 학습시킨다. 학습된 데이터는 데이터베이스(2200)에 이미 저장된 공격 기법(TTP)과 공격자 또는 공격 그룹의 데이터와 비교되어 악성 코드 여부 등의 정보를 얻을 수 있다. And in the embodiment, the final data on which the normalization and vectorization processes are performed is learned through artificial intelligence. The learned data may be compared with an attack technique (TTP) already stored in the database 2200 and data of an attacker or an attack group to obtain information such as whether or not there is a malicious code.

실시 예는 악성 코드의 핵심 부분인 구성 요소를 MITRE ATT&CK 모델을 기반으로 분류하고 구분할 수 있다. The embodiment can classify and distinguish components that are a core part of malicious code based on the MITER ATT&CK model.

이에 대한 구체적인 실시 예는 이하에서 더욱 상세하게 개시된다.Specific examples thereof are disclosed in more detail below.

도 19는 개시하는 실시 예에 따라 바이너리 코드에서 추출된 코드들로 공격 기법을 매칭하는 일 예를 나타낸다. 여기에서는 공격 기법을 매칭하는 일 예로 표준화된 모델을 사용하는 예를 개시한다. 19 shows an example of matching an attack technique with codes extracted from a binary code according to the disclosed embodiment. Here, an example of using a standardized model as an example of matching an attack technique is disclosed.

여기서 표준화된 모델로 MITRE ATT&CK® Framework를 예시한다.Here, the MITER ATT&CK® Framework is exemplified as a standardized model.

예를 들어 사이버 보안 상 “악성 행위” 라고 하는 것은 분석가에 따라 해석 방식이 다르고 각자가 가지고 있는 식견에 따라서 다르게 해석하는 경우가 많았다. For example, in terms of cyber security, “malicious behavior” is interpreted differently depending on the analyst, and in many cases it is interpreted differently depending on the insight each analyst has.

국제적으로 시스템 상에서 발생하는 “악성 행위”를 표준화 하고 모두가 같은 해석을 할 수 있도록 전문가들 사이에 많은 노력을 수행되고 있다. 미국 연방정부의 지원을 받으며 국가안보관련 업무를 수행하던 비영리 연구개발 단체인 MITRE(https://attack.mitre.org)에서 “악성 행위” 에 대한 정의를 연구하였고 그에 따라 ATT&CK® Framework 이라는 것을 만들고 공표하였다. 이 프레임 워크는 사이버 위협 또는 악성코드에 대해 모두가 같은 “악성 행위”를 정의 할 수 있도록 정의하였다. Internationally, many efforts are being made among experts to standardize “malicious behavior” that occurs on the system and to ensure that everyone can interpret it the same. MITER (https://attack.mitre.org), a non-profit R&D organization that performed national security-related tasks with support from the US federal government, studied the definition of “malicious behavior” and created the ATT&CK® Framework. announced. This framework is defined so that everyone can define the same “malicious behavior” for cyber threats or malware.

MITRE ATT&CK® Framework (이하, MITRE ATT&CK®)는 공격자들의 최신 공격 기술 정보를 정리한 것으로서 Adversarial Tactics, Techniques, and Common Knowledge의 약어이다. MITRE ATT&CK® 은, 실제 사이버 공격 사례를 관찰한 후 공격자의 악의적 행위(Adversary behaviors)에 대해서 공격 방법(Tactics)과 기술(Techniques)을 분석하여 다양한 공격 그룹들의 공격 기법들에 대한 정보들을 분류하고 목록화한 표준적인 데이터이다. MITER ATT&CK® Framework (hereinafter referred to as MITER ATT&CK®) is an abbreviation of Adversarial Tactics, Techniques, and Common Knowledge, which summarizes the latest attack technology information of attackers. MITER ATT&CK® analyzes the attack methods (Tactics) and techniques (Techniques) of the attacker's malicious behaviors after observing actual cyber attack cases to classify and list information on the attack techniques of various attack groups. This is standardized data.

MITRE ATT&CK® 은 전통적인 사이버 킬체인의 개념과는 약간 관점을 달리하여 지능화된 공격의 탐지를 향상시키기 위해 위협적인 전술과 기술을 체계화(패턴화)한 것이다. 원래 ATT&CK는 MITRE에서 윈도우 운영체제를 사용하는 기업 환경에 사용되는 해킹 공격에 대해서 방법(Tactics), 기술(Techniques), 절차(Procedures) 등 TTP를 문서화하는 것으로 시작되었다. 그 이후 ATT&CK은 공격자로부터 발생한 일관된 공격 행동 패턴에 대한 분석을 기반으로 TTP 정보를 매핑하여 공격자의 행위를 식별해 줄 수 있는 프레임워크로 발전하였다.MITER ATT&CK® is a systematization (patterning) of threatening tactics and techniques to improve the detection of advanced attacks by slightly different from the concept of the traditional cyber kill chain. Originally, ATT&CK started by documenting TTP such as methods (Tactics), techniques (Techniques), and procedures (Procedures) for hacking attacks used in corporate environments using Windows operating systems in MITER. Since then, ATT&CK has developed into a framework that can identify the attacker's behavior by mapping the TTP information based on the analysis of the consistent attack behavior pattern generated by the attacker.

개시하는 실시 예에서 언급하는 악성 행위는, MITRE ATT&CK® 와 같은 표준화된 모델에 기반하여 악성 코드를 공격 기법에 매칭하여 표현할 수 있는데 표준화된 모델이 어떤 것이든 악성 코드를 요소 별로 식별하고 분류하여 공격 식별자에 매칭할 수 있다. The malicious behavior mentioned in the disclosed embodiment can be expressed by matching the malicious code to the attack technique based on a standardized model such as MITER ATT&CK® It can match an identifier.

이 도면의 예 어떻게 악성 코드의 악성 행위와 MITRE ATT&CK 모델 기반으로 공격 기법이 매칭되는지를 개념적으로 나타낸다. The example of this figure conceptually shows how the malicious behavior of the malicious code matches the attack technique based on the MITER ATT&CK model.

실행 파일 EXE는 파일 실행 시에 수행되는 여러 가지 함수들(Function A, B, C, D, E,…, N,…, Z)을 포함할 수 있다. 그 함수들 중 적어도 하나의 함수를 포함하는 함수 그룹은 하나의 공격 방법(tactic)을 수행할 수 있다. Executable file EXE may include various functions (Function A, B, C, D, E,…, N,…, Z) that are executed when the file is executed. A function group including at least one of the functions may perform one tactic.

이 도면의 예에서 함수 A, B, C는 공격 방법(tactic) A에 대응되고, 함수 D, B, F는 공격 방법(tactic) B에 대응되는 예를 개시한다. 유사하게 함수 Z, R, C는 공격 방법(tactic) C에 대응되고, 함수 K 및 F는 공격 방법(tactic) D에 대응된다. In the example of this figure, functions A, B, and C correspond to tactic A, and functions D, B, and F correspond to tactic B. Similarly, functions Z, R and C correspond to tactic C, and functions K and F correspond to tactic D.

실시 예는 각 공격 방법(tactic)에 대응되는 함수들의 집합과 특정 디스어셈블드 코드 의 부분을 대응시킬 수 있다. 데이터베이스는 이미 인공 지능으로 학습된 디스어셈블드 코드들에 대응될 수 있는 의 공격 방법(Tactics), 기술(Techniques), 절차(Procedures) (TTP)의 공격 식별자 (T-ID)를 저장하고 있다. The embodiment may correspond to a set of functions corresponding to each tactic and a specific disassembled code part. The database stores attack identifiers (T-IDs) of attack methods (Tactics), techniques (Techniques), and procedures (TTP) that can correspond to disassembled codes already learned by artificial intelligence.

공격 방법(Tactics), 기술(Techniques), 절차(Procedures) (TTP)의 공격 식별자 (T-ID)는 표준화된 모델을 따르며 여기 도면의 예시는 사이버 위협 정보의 표준화된 모델로 MITRE ATT&CK®를 예시하였다. Attack Identifiers (T-IDs) of Tactics, Techniques, and Procedures (TTP) follow a standardized model, and the example in this figure illustrates MITER ATT&CK® as a standardized model of cyber threat information did.

따라서, 실시 예는 바이너리 파일에서 디스어셈블드 코드로부터 추출한 결과 데이터를 표준화된 공격 식별자로 매칭시킬 수 있다. 공격 식별자를 매칭하는 보다 구체적인 방식은 아래에서 개시한다.Accordingly, the embodiment may match the result data extracted from the disassembled code in the binary file with the standardized attack identifier. A more specific way of matching an attack identifier is disclosed below.

도 20은 개시하는 실시 예에 따라 OP-CODE를 포함하는 코드 세트와 공격 기법을 매칭하는 일 예를 나타낸다. 20 shows an example of matching an attack technique with a code set including an OP-CODE according to an embodiment disclosed herein.

대부분의 인공지능 엔진은 악성 코드의 다양한 특징 정보를 바탕으로 학습된 데이터 셋(data set)을 이용해 악성 코드를 판별한다. 그러면 악성 코드의 악성 여부는 판단이 되지만 이러한 방식은 악성 코드가 왜 악성 코드인지에 대한 설명을 하기 힘들었다. 그러나 예시한 바와 같이 표준화된 공격 방법(TTP)의 식별자로 대응시키면 해당 악성 코드가 어떤 위협 요소가 있는지 식별이 가능하다. 따라서, 실시 예는 보안 관리자에게 사이버 위협 정보를 정확하게 전달하도록 하고, 보안 관리자가 사이버 위협 정보를 체계적이고 장기적으로 관리할 수 있도록 할 수 있다. Most AI engines use a data set learned based on various characteristic information of malicious code to identify malicious code. Then, it is judged whether the malicious code is malicious, but in this way, it is difficult to explain why the malicious code is malicious code. However, as illustrated, if the standardized attack method (TTP) identifier is matched, it is possible to identify what kind of threat the malicious code has. Accordingly, the embodiment can accurately deliver cyber threat information to a security administrator and enable the security administrator to systematically and long-term manage cyber threat information.

실시 예는 디스어셈블드 코드를 기반으로 공격 방법(TTP)을 식별하기 위한 인공 지능 학습용 데이터 셋을 생성할 때 단순히 공격 방법(TTP)의 식별자 또는 라벨링 만을 구분할 뿐만 아니라 공격 방법(TTP)을 어떻게 구현했는지에 대한 특징을 중요한 요소로 반영할 수 있다. When generating a dataset for artificial intelligence learning to identify an attack method (TTP) based on the disassembled code, the embodiment not only distinguishes only the identifier or labeling of the attack method (TTP), but also how to implement the attack method (TTP) The characteristics of what has been done can be reflected as an important factor.

동일한 공격 방법(TTP)을 구현하는 악성 코드라도 개발자에 따라 동일한 코드로 생성하는 것은 불가능하다. 즉, 공격 방법(TTP)의 기술은 인간 구술 언어 형태로 되어 있으나, 개발자에 따라 이를 구현 방식과 코드 작성 방법이 동일하지 않다. Even if the malicious code implements the same attack method (TTP), it is impossible to generate the same code depending on the developer. That is, the attack method (TTP) technology is in the form of a human oral language, but the implementation method and the code writing method are not the same depending on the developer.

이러한 코드 작성의 차이는 개발자의 역량이나 프로그램 로직을 구현하는 방식이나 습관에 따르는데 이러한 차이는 바이너리 코드 또는 이를 디스어셈블된 OP-CODE 와 ASM-CODE의 차이로 나타낸다. The difference in writing these codes depends on the developer's ability or the way or habits of implementing the program logic, and this difference is expressed as binary code or the difference between disassembled OP-CODE and ASM-CODE.

그래서 단순히 결과적인 공격 방법(TTP)의 타입에 따라 공격 식별자를 부여하거나 대응시키면 악성 코드를 생성하는 공격자 또는 공격자 그룹까지 정확하게 식별하기 힘들다. Therefore, if an attack identifier is simply assigned or matched according to the type of the resulting attack method (TTP), it is difficult to accurately identify an attacker who generates a malicious code or a group of attackers.

반대로 디스어셈블된 OP-CODE 와 ASM-CODE의 특성을 중요한 변수로 반영시켜서 모델링을 수행하면 특정 악성코드나 공격 도구를 개발한 개발자 혹은 자동으로 생성하는 도구 자체까지도 식별이 가능하다. Conversely, when modeling is performed by reflecting the characteristics of disassembled OP-CODE and ASM-CODE as important variables, it is possible to identify the developer who developed a specific malicious code or attack tool, or even the tool that automatically creates it.

개시하는 실시 예는 디스어셈블된 OP-CODE 와 ASM-CODE 결합 코드의 고유한 특성에 따라 현대의 사이버 전에서 굉장히 중요한 위협 인텔리전스를 생성하도록 할 수 있다. 즉, 이러한 고유 특성에 기초하면 실시 예는 공격 코드 또는 악성 코드를 어떻게 동작을 하는지, 이것을 누가 어떤 의도로 개발했는지에 대한 내용을 함께 식별할 수 있다. According to the unique characteristics of the disassembled OP-CODE and ASM-CODE combined code, the disclosed embodiment can generate threat intelligence, which is very important in modern cyber warfare. That is, based on these unique characteristics, the embodiment can identify how the attack code or the malicious code operates, and the contents of who developed the attack code or the malicious code for what purpose.

그리고 추후에 해당 공격자가 계속해서 공격하는 특징 정보를 바탕으로 취약한 시스템을 보완할 수 있고 사이버 보안 위협에 대한 능동적이고 선제적인 대응이 가능하도록 할 수 있다. In the future, based on the characteristic information that the attacker continues to attack, it is possible to supplement the vulnerable system and to enable an active and preemptive response to cyber security threats.

이러한 개념 상에서 실시 예는 단순히 OP-CODE 기반으로 공격 결과에 따른 공격 기법을 식별하는 방식과 성능에서 전혀 다른 결과를 제공한다. On this concept, the embodiment simply provides completely different results in the method and performance of identifying an attack technique according to an attack result based on the OP-CODE.

실시 예는 공격 방법(TTP)를 구현하기 위해 사용된 코딩 기법을 정확하게 식별하여 분류하기 위해 디스어셈블된 OP-CODE 와 ASM-CODE을 조합된 특징에 기초한 디스어셈블드 코드의 데이터 세트를 생성할 수 있다. 이렇게 생성된 데이터 세트로부터 고유한 특성을 식별하도록 모델링하면 공격 방법(TTP)뿐만 아니라 개발자의 특징 정보, 즉 개발자 (또는 자동화된 제작 도구)가 누구인지까지 식별이 가능하다. The embodiment can generate a data set of disassembled codes based on the combined characteristics of the disassembled OP-CODE and ASM-CODE to accurately identify and classify the coding technique used to implement the attack method (TTP). there is. Modeling to identify unique characteristics from this generated data set makes it possible to identify not only the attack method (TTP) but also the developer's characteristic information, that is, who the developer (or automated production tool) is.

이 도면은 위에서 설명한 방식으로 모델링된 OP-CODE 데이터 세트를 공격 식별자에 매칭하는 예를 나타낸다. This figure shows an example of matching an OP-CODE data set modeled in the manner described above to an attack identifier.

이 예에서 제 1 OP-CODE 세트(OP-CODE set #1)는 공격 기법 식별자 T1011에 매칭되고, 제 2 OP-CODE 세트(OP-CODE set #2)는 공격 기법 식별자 T2013에 매칭됨을 나타낸다. 그리고 제 3 OP-CODE 세트(OP-CODE set #3)는 공격 기법 식별자 T1488에 매칭할 수 있고, 제 N번째 OP-CODE 세트(OP-CODE set #N)는 임의의 공격 기법 식별자 T1XXX에 매칭됨을 나타낸다. 표준화된 모델인 MITRE ATT&CK®은 공격 기법의 식별자를 요소 별로 매트릭스 형식으로 표현하지만, 실시 예는 공격 기법의 식별자 이외에 공격자 또는 공격 도구를 추가로 식별할 수 있다. In this example, it indicates that the first OP-CODE set (OP-CODE set #1) matches the attack technique identifier T1011, and the second OP-CODE set (OP-CODE set #2) matches the attack technique identifier T2013. And the third OP-CODE set (OP-CODE set #3) may match the attack technique identifier T1488, and the Nth OP-CODE set (OP-CODE set #N) matches the arbitrary attack technique identifier T1XXX indicates that The standardized model, MITER ATT&CK®, expresses the identifier of the attack technique in a matrix format for each element, but in the embodiment, an attacker or an attack tool can be additionally identified in addition to the identifier of the attack technique.

이 도면은 편의 상 OP-CODE 데이터 세트로 표시하였으나 OP-CODE 와 ASM-CODE을 포함하는 디스어셈블드 코드의 데이터 세트로 공격 기법을 식별하면 OP-CODE 데이터 세트만으로 공격 기법을 식별하는 것보다 더욱 세분화된 공격 기법을 식별할 수 있다. Although this drawing is shown as an OP-CODE data set for convenience, identifying an attack technique with a disassembled code data set including OP-CODE and ASM-CODE is more difficult than identifying an attack technique with only OP-CODE data set. It is possible to identify fine-grained attack techniques.

실시 예에 따라 디스어셈블드 코드의 데이터 세트의 조합을 분석하면 공격 기법 식별자 뿐만 아니라 공격자 또는 공격 그룹의 식별할 수도 있다.According to an embodiment, by analyzing the combination of the disassembled code data set, not only the attack technique identifier but also the attacker or the attack group may be identified.

따라서, 실시 예는 기존의 기술보다 인텔리전스 정보 획득 차원에서 고도화된 기술을 제공할 수 있을 뿐만 아니라 종래의 보안 영역에서 해결하지 못한 문제를 해결할 수 있다. Accordingly, the embodiment can provide a more advanced technology in terms of acquiring intelligence information than the existing technology, and can solve problems that have not been solved in the conventional security area.

위와 같이 복잡한 환경에서 정확한 인텔리전스 정보를 확보하기 위해 빠른 데이터처리와 알고리즘이 요구된다. 이하에서는 이와 관련된 추가적인 실시 예와 그에 따른 성능에 대해 개시하도록 한다.Fast data processing and algorithms are required to secure accurate intelligence information in the complex environment as above. Hereinafter, additional embodiments related thereto and performance thereof will be disclosed.

도 21은 개시하는 실시 예에 따라 사이버 위협 정보를 처리하는 흐름을 예시한 도면이다. 21 is a diagram illustrating a flow of processing cyber threat information according to the disclosed embodiment.

이 도면에서 식별된 파일이 ELF, EXE, ARK 의 실행 가능한 바이너리 파일인 경우를 예로 하여 설명한다. 이 단계의 처리 과정은 위에서 개시한 심층 분석과 관련된다.A case where the file identified in this figure is an executable binary file of ELF, EXE, and ARK will be described as an example. The processing of this step is related to the in-depth analysis described above.

먼저 제 1 단계로서 OP-CODE 코드를 포함하는 디스어셈블드 코드를 추출하는 과정의 일 상세한 예를 설명하면 다음과 같다. First, a detailed example of a process of extracting a disassembled code including an OP-CODE code as a first step will be described as follows.

소스 코드를 컴파일(complie)하면 실행 파일이 생성된다.Compiling the source code creates an executable file.

원시 소스 코드는 실행 가능한 각 운영체제(OS) 환경에서 컴파일러에 의해 기계의 처리에 적합한 형태의 새로운 데이터로 생성된다. 새롭게 구성된 바이너리 데이터는 사람이 읽기에는 적합하지 않은 형태로 되어 있어 실행 파일 형태로 만들어진 파일을 인간이 해석해서 그 내부 로직을 파악하는 것은 불가능하다.The raw source code is generated as new data in a form suitable for processing by the machine by the compiler in each executable operating system (OS) environment. The newly constructed binary data is in a form that is not suitable for human reading, so it is impossible for a human to understand the internal logic by interpreting the file created in the form of an executable file.

그러나 보안 시스템의 취약점 분석과 다양한 목적을 위해서 그 역과정을 수행하여 기계어의 해석이나 분석을 수행하는데 설명한 바와 같이 디스어셈블 과정이라고 한다. 디스어셈블 과정은 특정 운영체제의 중앙처리장치(CPU)와 처리 비트 수(32비트, 64비트 등) 에 맞춰서 수행될 수 있다. However, the reverse process is performed for vulnerability analysis of the security system and for various purposes, and the interpretation or analysis of machine language is performed. The disassembly process may be performed according to the central processing unit (CPU) of a specific operating system and the number of processing bits (32-bit, 64-bit, etc.).

예시한 ELF, EXE, ARK 의 실행 파일을 각각 디스어셈블을 수행하면 디스어셈블된 어셈블리 코드를 획득할 수 있다. Disassembled assembly code can be obtained by disassembling each of the illustrated ELF, EXE, and ARK executable files.

디스어셈블된 코드는 OP-CODE 와 ASM-CODE가 조합된 코드를 포함할 수 있다. The disassembled code may include a code in which an OP-CODE and an ASM-CODE are combined.

실시 예는 디스어셈블 도구를 기반으로 실행 파일을 분석하여 실행 파일로부터 OP-CODE 와 ASM-CODE을 추출할 수 있다.The embodiment may extract the OP-CODE and ASM-CODE from the executable file by analyzing the executable file based on the disassembly tool.

개시하는 실시 예는 추출된 OP-CODE 와 ASM-CODE을 그대로 이용하지 않고 각 함수 별로 재구성하여 OP-CODE 배열을 다시 구성한다. OP-CODE 배열을 재정리할 경우 원본 바이너리 데이터도 함께 포함하여 데이터의 해석을 충분히 수행할 수 있도록 데이터를 재구성할 수 있다. 이러한 재배열를 통해 OP-CODE 와 ASM-CODE의 새로운 조합은 공격 기법뿐만 아니라 공격자를 식별할 수 있는 기초 데이터를 제공한다. The disclosed embodiment does not use the extracted OP-CODE and ASM-CODE as it is, but reconfigures the OP-CODE array by reconfiguring for each function. When the OP-CODE array is rearranged, the data can be reconstructed so that the data can be sufficiently interpreted by including the original binary data. Through this rearrangement, the new combination of OP-CODE and ASM-CODE provides basic data that can identify attackers as well as attack techniques.

제 2 단계로 어셈블리 데이터를 처리하는 과정(ASM)을 상세히 설명하면 다음과 같다. A process (ASM) of processing assembly data as a second step will be described in detail as follows.

어셈블리 데이터 처리 과정은 OP-CODE와 필요한 ASM-CODE 만을 분리한 후 인간 또는 컴퓨터가 읽기 좋은 형태로 재구성된 데이터를 기반으로 유사도를 분석하고 정보를 추출하는 과정이다. The assembly data processing process is a process of analyzing the similarity and extracting information based on the data reconstructed into a human or computer-readable form after separating only the OP-CODE and the necessary ASM-CODE.

이 단계에서 디스어셈블된 어셈블리 데이터는 일정한 데이터 형식으로 변환될 수 있다. In this step, the disassembled assembly data may be converted into a certain data format.

이러한 데이터 형식의 변환은 데이터 처리 속도를 높이고 데이터의 정확한 분석을 위해 아래 기술된 변환 방식들은 모두 적용될 필요없이 선택적으로 적용될 수 있다.Conversion of this data format increases data processing speed and for accurate analysis of data, all of the conversion methods described below may be selectively applied without needing to be applied.

재배열된 OP-CODE 와 ASM-CODE의 조합의 어셈블리 데이터로부터 여러 가지 함수를 추출할 수 있다. Various functions can be extracted from the assembly data of the rearranged OP-CODE and ASM-CODE combination.

하나의 실행 파일을 디스어셈블하면 프로그램 크기에 따라 다르지만 평균적으로 약, 7,000~12,000개 정도 되는 함수를 포함할 수 있다. 이 함수들은 프로그래머가 필요에 따라 구현한 함수도 있으며 운영체제에서 기본적으로 제공하는 함수들도 있다. Disassembling one executable file can contain on average about 7,000 to 12,000 functions, depending on the size of the program. Some of these functions are implemented by the programmer as needed, and some are provided by default in the operating system.

실제 ASM-CODE를 분석하면 약 87%~91% 정도의 함수가 운영체제에서 기본적으로 제공하는 함수(OS supported)이고 프로그래머가 프로그램 로직을 위해서 실제 구현한 ASM-CODE는 약 10% 정도이다. 운영체제에서 제공한 함수는 함수 명과 함께 운영체제 설치 시에 기본적으로 설치되는 각종 DLL, SO 파일 등에 포함되는 함수들(Default function)이다. 이러한 운영체제 제공 함수들은 이미 분석하여 저장하여 분석 대상 데이터로부터 필터링할 수 있다. 이렇게 분석해야 할 코드만 분리하면 이후 처리 속도와 성능을 높일 수 있다. If we analyze the actual ASM-CODE, about 87%~91% of the functions are basically provided by the operating system (OS supported), and the ASM-CODE actually implemented by the programmer for the program logic is about 10%. The functions provided by the operating system are functions included in various DLLs and SO files that are basically installed when the operating system is installed along with the function names (default functions). These operating system-provided functions can be already analyzed and stored to be filtered from the analysis target data. By separating only the code to be analyzed in this way, processing speed and performance can be increased.

실시 예는 프로그램의 기능적 분석을 정확하게 수행하기 위해서 OP-CODE를 함수 단위로 분리해서 처리할 수 있다. 실시 예는 모든 의미적 분석의 최소 단위를 어셈블리 코드에 포함된 함수를 기반하여 수행할 수 있다. In the embodiment, in order to accurately perform functional analysis of a program, the OP-CODE may be separated and processed into function units. The embodiment may perform the minimum unit of all semantic analysis based on a function included in the assembly code.

분석 성능과 처리 속도를 높이기 위해 실시 예는 의미가 정확하지 않은 연산자 수준의 함수들은 필터링하고 정보량이 임계 치 보다 작은 함수들 도 분석 대상에서 제거할 수 있다. 함수들의 필터링의 여부와 정도는 실시 예에 따라 다르게 설정할 수 있다. In order to increase analysis performance and processing speed, the embodiment may filter out operator-level functions with inaccurate meaning, and remove functions with an amount of information smaller than a threshold from analysis. Whether or not the functions are filtered may be set differently according to an embodiment.

실시 예는 함수에 따라 정리된 OP-CODE 로부터 디스어셈블러가 출력 시 제공하는 주석 데이터를 제거할 수 있다. 그리고 실시 예는 디스어셈블된 코드를 재배열할 수 있다. The embodiment may remove annotation data provided by the disassembler when outputting from the OP-CODE organized according to the function. And the embodiment may rearrange the disassembled code.

예를 들면, 디스어셈블러가 출력하는 디스어셈블된 코드는 [ASM-CODE, OP-CODE, 파라미터]의 순서를 가질 수 있다. For example, the disassembled code output by the disassembler may have the order of [ASM-CODE, OP-CODE, parameter].

실시 예는 어셈블리 데이터로부터 파라미터 데이터를 제거하고 위 순서의 디스어셈블된 코드를 [OP-CODE, ASM-CODE] 순서로 재정리 또는 재구성할 수 있다. 이렇게 재정된 디스어셈블된 코드는 정규화 또는 벡터화하여 처리하기 용이하다. 그리고 처리 속도를 현격하게 높일 수 있다.The embodiment may remove the parameter data from the assembly data and rearrange or reorganize the disassembled code of the above order in the order of [OP-CODE, ASM-CODE]. The reassembled disassembled code is easy to process by normalizing or vectorizing it. And the processing speed can be significantly increased.

특히 [OP-CODE, ASM-CODE] 의 조합을 가지는 디스어셈블된 코드 중 ASM-CODE 부분은 데이터의 길이가 달라 서로 비교하기 용이하지 않다. 따라서 해당 어셈블리 데이터의 고유성을 확인하기 위해서 데이터를 특정 크기의 데이터 포맷으로 정규화시킬 수 있다. 예를 들면 실시 예는 [OP-CODE, ASM-CODE] 조합의 디스어셈블된 코드의 고유성을 확인하기 위해서 데이터 부분을 정규화하기 용이한 특정 길이의 데이터 세트, 예를 들면 CRC(cyclic redundancy check) 데이터로 변환시킬 수 있다. In particular, among disassembled codes having a combination of [OP-CODE, ASM-CODE], the ASM-CODE part has different data lengths, so it is not easy to compare with each other. Therefore, in order to check the uniqueness of the corresponding assembly data, the data can be normalized into a data format of a specific size. For example, the embodiment provides a data set of a specific length, for example, CRC (cyclic redundancy check) data, which is easy to normalize a data part in order to check the uniqueness of the disassembled code of the [OP-CODE, ASM-CODE] combination. can be converted to

일 예로서 [OP-CODE, ASM-CODE] 조합의 디스어셈블된 코드에서 OP-CODE 부분은 제 1 길이의 CRC 데이터로, ASM-CODE 부분은 제 2 길이의 CRC 데이터로 각각 변환하는 것도 가능하다. As an example, in the disassembled code of [OP-CODE, ASM-CODE] combination, it is also possible to convert the OP-CODE part into CRC data of the first length and the ASM-CODE part into CRC data of the second length, respectively. .

OP-CODE와 ASM-CODE 변환된 정규화 데이터는 각각 해당 변환 이전의 각각 코드의 고유성을 유지할 수 있도록 한다. 고유성을 가지고 변환된 정규화 데이터의 유사도 판단 속도를 빠르게 하기 위해 상기 정규화된 데이터를 벡터화(Vectorization)를 수행할 수 있다. The normalized data converted from OP-CODE and ASM-CODE can maintain the uniqueness of each code before the corresponding conversion, respectively. In order to speed up a similarity determination speed of the normalized data transformed with uniqueness, vectorization may be performed on the normalized data.

설명한 바와 같이 데이터 변환 과정으로서 정규화 또는 벡터화 과정은 데이터 처리 속도를 높이고 데이터의 정확한 분석을 선택적으로 적용될 수도 있다.As described above, a normalization or vectorization process as a data transformation process may increase data processing speed and selectively apply accurate data analysis.

정규화 과정과 벡터화 과정의 상세한 예는 다시 아래에서 상세히 개시한다.Detailed examples of the normalization process and the vectorization process are again described in detail below.

제 3단계로서 디스어셈블드 코드를 분석하는 데이터의 분석과정을 상세히 설명하면 다음과 같다. As the third step, the process of analyzing data for analyzing the disassembled code will be described in detail as follows.

이 과정에서도 데이터 처리 속도를 높이고 데이터의 정확한 분석을 위해 여러 가지 데이터 형식의 변환이 사용될 수 있는데, 아래 개시하는 기술된 변환 방식들은 모두 적용할 필요없이 그 중 일부를 선택적으로 적용할 수 있다.In this process, conversion of various data formats can be used to increase data processing speed and to accurately analyze data. Some of the conversion methods described below do not need to be applied, but some of them can be selectively applied.

이러한 변환된 데이터에 기초하여 변환된 디스어셈블드 코드 내의 함수 별 데이터 세트를 기반으로 악성 코드와 유사도를 분석하는 단계이다.It is a step of analyzing the similarity to malicious code based on the data set for each function in the transformed disassembled code based on the transformed data.

실시 예는 코드 간 유사도를 수행하기 위해 벡터화된 OP-CODE 와 ASM-CODE의 데이터 세트들을 바이트 데이터로 다시 변환할 수 있다. The embodiment may convert vectorized OP-CODE and ASM-CODE data sets back into byte data in order to perform code-to-code similarity.

재변환된 바이트 데이터를 기반으로 블록 단위의 해쉬 값을 추출하고 블록 단위의 고유 값을 기반으로 전체 데이터의 해쉬 값을 생성할 수 있다. It is possible to extract a block-unit hash value based on the reconverted byte data and generate a hash value of the entire data based on the block-unit unique value.

해쉬 값은 바이트 데이터의 부분인 블록 단위의 비교를 효율적으로 수행하기 위해서 각 블록 단위의 고유 값을 추출하도록 지정된 단위의 해쉬 값을 추출하여 비교할 수 있다. The hash value may be compared by extracting a hash value of a unit designated to extract a unique value of each block unit in order to efficiently perform a block unit comparison that is a part of byte data.

이와 같이 지정된 단위의 해쉬 값을 추출하고 2개 이상의 데이터의 유사도를 비교하기 위해 퍼지 해쉬(Fuzzy Hashing) 기법이 사용될 수 있다. 예를 들면 실시 예는 퍼지 해쉬(Fuzzy Hashing) 중 CTPH(Context Triggered Piecewise Hashing) 방식을 사용하여 블록 단위로 추출된 해쉬 값과 기 저장된 악성 코드 중 일부 단위의 해쉬 값을 서로 비교하여 유사도를 판단할 수 있다. A fuzzy hashing technique may be used to extract the hash value of the designated unit and compare the similarity of two or more pieces of data. For example, the embodiment compares the hash value extracted in block units with the hash value of some units of pre-stored malicious codes using the CTPH (Context Triggered Piecewise Hashing) method among fuzzy hashing to determine the similarity. can

정리하면 실시 예는 OP-CODE 및 ASM-CODE의 조합 코드가 특정 기능을 함수 단위로 구현한다는 사실에 기반하여, 각 특정 기능의 고유성을 확인하기 위해서 OP-CODE 와 ASM-CODE의 디스어셈블된 코드의 고유 값을 생성한다. 그리고 이 고유 값을 기반으로 디스어셈블된 코드의 OP-CODE와 ASM-CODE중 블록 단위의 고유 값을 추출하여 유사도 연산을 수행할 수 있다. In summary, the embodiment is based on the fact that the combination code of OP-CODE and ASM-CODE implements a specific function as a function unit, disassembled code of OP-CODE and ASM-CODE to check the uniqueness of each specific function create a unique value of And based on this unique value, it is possible to perform a similarity operation by extracting a unique value in units of blocks among the OP-CODE and ASM-CODE of the disassembled code.

블록 단위의 해쉬 값을 추출 하는 상세한 예도 아래에서 도면을 참조하여 개시하도록 한다. A detailed example of extracting a block-unit hash value will also be disclosed with reference to the drawings below.

설명한 바와 같이 실시 예는 유사도 연산을 수행할 경우 블록 단위 해쉬 값을 이용할 수 있다. As described above, the embodiment may use a block-unit hash value when performing a similarity operation.

추출된 블록 단위 해쉬 값은 String Data (Byte Data) 로 구성되어 있고 String Data (Byte Data)는 수치화 값들로 코드 간의 유사도를 비교할 수 있다. 만약 수십억 개의 디스어셈블된 코드 데이터 세트의 바이트 비교를 수행하면 하나의 유사도 결과를 얻는데 엄청난 시간을 소비할 수 있다. The extracted block-unit hash value is composed of String Data (Byte Data), and String Data (Byte Data) is a numerical value that compares the similarity between codes. If you do a byte comparison of billions of disassembled code data sets, it can be very time consuming to get a single similarity result.

따라서 실시 예는 String Data (Byte Data)는 수치화 값으로 변환할 수 있는데 이러한 수치화 값에 기반하면 인공지능 기술을 활용해 유사도 분석을 빠르게 수행할 수 있다. Therefore, according to the embodiment, String Data (Byte Data) can be converted into a numerical value. Based on the numerical value, similarity analysis can be quickly performed using artificial intelligence technology.

실시 예는 추출된 블록 단위의 해쉬 값의 String Data (Byte Data) 를 N-gram 데이터 기반으로 벡터화시킬 수 있다. 이 도면의 실시 예는 연산 속도를 높이기 위해 블록 단위의 해쉬 값을 2-gram 데이터로 벡터화 수행하는 경우를 예시한다. 그런데 실시 예는 블록 단위의 해쉬 값을 반드시 2-gram 데이터로 변환할 필요는 없으며 3-gram, 4-gram,…, N-gram의 데이터로 벡터화 변환하는 것도 가능하다. N-gram의 데이터에서 N이 증가할수록 데이터의 특성을 정확하게 반영할 수 있지만 데이터의 처리 시간의 속도가 증가한다. The embodiment may vectorize String Data (Byte Data) of the hash value of the extracted block unit based on N-gram data. The embodiment of this figure exemplifies a case in which a block-unit hash value is vectorized into 2-gram data in order to increase the operation speed. However, in the embodiment, it is not necessary to convert the block-unit hash value into 2-gram data, and 3-gram, 4-gram, ... , it is also possible to vectorize and transform N-gram data. In N-gram data, as N increases, the characteristics of the data can be accurately reflected, but the speed of data processing time increases.

기술한 바와 같이 데이터 처리 속도를 높이고 데이터의 정확한 분석을 위해 바이트 변환, 해쉬의 변환 및 아래의 N-gram 변환은 선택적으로 적용할 수 있다.As described, byte transformation, hash transformation, and N-gram transformation below can be selectively applied to increase data processing speed and to accurately analyze data.

예시한 2-gram 변환 데이터는 최대 65,536 차원을 가진다. 학습 데이터의 차원이 높아질수록, 데이터의 분포가 희박해(sparse)지며, 이에 따라 분류 성능에 악영향을 끼칠 수 있다. 그리고 학습 데이터의 차원이 높아지면 데이터를 학습하기 위한 시간 복잡도와 공간 복잡도가 증가한다. The illustrated 2-gram transformed data has a maximum of 65,536 dimensions. As the dimension of the training data increases, the distribution of the data becomes sparse, which may adversely affect classification performance. And as the dimension of the training data increases, the time complexity and spatial complexity for learning the data increase.

이러한 문제점을 해결하기 위해 실시 예는 다양한 텍스트 표현 기반의 여러 가지 자연어 처리 알고리즘으로 처리할 수 있다. 이 실시 예에서는 이러한 알고리즘으로 TF-IDF(Term Frequency-Inversed Document Frequency) 기법을 예로 하여 설명한다. In order to solve this problem, the embodiment may be processed by various natural language processing algorithms based on various text expressions. In this embodiment, as such an algorithm, a Term Frequency-Inversed Document Frequency (TF-IDF) technique will be described as an example.

이 단계의 학습 데이터의 유사도를 처리하기 위한 일 예로서, 고차원 데이터 중에서 공격 식별자 또는 클래스(T-ID)를 판단할 경우 의미 있는 특징(패턴)을 선택하기 위해 TF-IDF(Term Frequency-Inversed Document Frequency) 기법을 사용할 수 있다. 일반적으로, TF-IDF 기법은 검색 엔진에서 유사도가 높은 문서를 찾기 위해 사용되는데 이를 계산하는 수학식들은 다음과 같다. As an example for processing the similarity of the learning data in this step, when determining an attack identifier or class (T-ID) from among high-dimensional data, a Term Frequency-Inversed Document (TF-IDF) to select a meaningful feature (pattern) frequency) method can be used. In general, the TF-IDF technique is used to find documents with high similarity in a search engine, and the equations for calculating this are as follows.

Figure 112021092816542-pat00001
Figure 112021092816542-pat00001

여기서

Figure 112021092816542-pat00002
는 특정 문서
Figure 112021092816542-pat00003
에서 특정 단어
Figure 112021092816542-pat00004
의 빈도율을 의미하고 그 단어가 반복적으로 나올수록 높은 값을 갖는다. here
Figure 112021092816542-pat00002
is a specific document
Figure 112021092816542-pat00003
specific word in
Figure 112021092816542-pat00004
means the frequency rate of , and the more the word is repeated, the higher the value.

Figure 112021092816542-pat00005
Figure 112021092816542-pat00005

Figure 112021092816542-pat00006
는 특정 단어
Figure 112021092816542-pat00007
를 포함하는 문서
Figure 112021092816542-pat00008
의 비율의 역수 값으로, 단어가 여러 문서에서 흔하게 나타날수록 낮은 값을 갖는다.
Figure 112021092816542-pat00006
is a specific word
Figure 112021092816542-pat00007
documents containing
Figure 112021092816542-pat00008
It is the reciprocal value of the ratio of , with a lower value as the word appears more frequently in multiple documents.

Figure 112021092816542-pat00009
Figure 112021092816542-pat00009

Figure 112021092816542-pat00010
Figure 112021092816542-pat00011
Figure 112021092816542-pat00012
를 곱한 값으로, 어떤 단어가 어떤 문서에 더 적합한지 수치화시킬 수 있다.
Figure 112021092816542-pat00010
Is
Figure 112021092816542-pat00011
Wow
Figure 112021092816542-pat00012
By multiplying by , it is possible to quantify which word is more suitable for which document.

TF-IDF 방식은 수학식 1에 의한 단어의 빈도와 수학식 2에 의한 역문서빈도 (문서의 빈도에 특정한 역수)를 이용하여 수학식 3과 같이 문서 단어 행렬 내의 단어의 중요도에 따라 가중치를 반영하는 하는 방식이다. The TF-IDF method reflects the weight according to the importance of words in the document word matrix as shown in Equation 3 by using the word frequency according to Equation 1 and the inverse document frequency (inverse number specific to the frequency of the document) according to Equation 2 way to do it

실시 예에서 블록 단위의 코드 상의 단어의 특징 또는 패턴에 기반하여 해당 단어가 포함된 문서를 공격 식별자(T-ID)라고 추론할 수 있다. 따라서, 블록 단위의 코드로부터 추출된 패턴에 대해서 TF-IDF를 계산하면, 특정 공격 식별자(T-ID) 내에서 빈번하게 나타나는 패턴을 추출하거나 또는 특정 공격 식별자(T-ID)와 관련 없는 패턴을 가지는 코드를 제거할 수 있다. In an embodiment, a document including a corresponding word may be inferred as an attack identifier (T-ID) based on a characteristic or pattern of a word in the block unit code. Therefore, if the TF-IDF is calculated for the pattern extracted from the code of the block unit, a pattern that appears frequently within a specific attack identifier (T-ID) or a pattern unrelated to a specific attack identifier (T-ID) is extracted. Branches can remove code.

예를 들어, 특정 패턴 A는 모든 공격 식별자(T-ID)들에서 발현되는 패턴이라고 했을 때, 특정 패턴 A에 대한 TF-IDF 값은 낮게 측정될 것이다. 그리고 이러한 패턴은 실제 공격 식별자(T-ID)를 구분하기 위해 불필요한 패턴임을 판단할 수 있다. TF-IDF와 같은 자연어의 유사도 판단을 위한 알고리즘은 머신 러닝 알고리즘의 학습을 통해 수행될 수도 있다. For example, assuming that the specific pattern A is a pattern expressed in all attack identifiers (T-IDs), the TF-IDF value for the specific pattern A will be measured low. And it can be determined that such a pattern is an unnecessary pattern in order to distinguish an actual attack identifier (T-ID). An algorithm for determining the similarity of natural language, such as TF-IDF, may be performed through learning of a machine learning algorithm.

실시 예는 이러한 불필요한 패턴을 제거하여 불필요한 연산을 줄이고 추론 시간을 단축시킬 수 있다.The embodiment may reduce unnecessary calculations and shorten inference time by removing such unnecessary patterns.

상세하게 실시 예는 변환되어 블록 단위 코드의 데이터에 대해, 여러 가지 자연어 처리의 텍스트 표현에 기초한 유사도 알고리즘을 수행할 수 있다. 유사도 알고리즘을 통해 공격 식별자와 관련이 없는 패턴의 코드는 제거하여 아래 수행되는 알고리즘 수행과 머신 러닝에 따른 분류 과정의 수행을 크게 단축시킬 수 있다. In detail, the embodiment may perform a similarity algorithm based on text representation of various natural language processing on the converted block-unit code data. Through the similarity algorithm, by removing the code of the pattern not related to the attack identifier, the execution of the algorithm performed below and the execution of the classification process according to machine learning can be greatly shortened.

실시 예는 블록 단위의 코드 상의 특징 또는 패턴을 기반하여 공격 식별자의 패턴을 분류하기 위해 분류 모델링을 수행할 수 있다. 실시 예는 벡터화된 블록 단위의 코드 특징 또는 패턴이 알려진 공격 식별자의 패턴인지를 학습하고, 이를 정확한 공격 기법이나 구현방식으로 분류할 수 있다. 실시 예는 악성 코드와 유사한 코드 패턴이 있다고 판단된 코드에 대해 정확한 공격 구현 방식, 즉 공격 식별자와 공격자를 분류를 위해 여러 가지 앙상블 머신 러닝 모델들을 이용한다. The embodiment may perform classification modeling to classify a pattern of an attack identifier based on a feature or pattern on a code of a block unit. The embodiment may learn whether a vectorized block unit code feature or pattern is a pattern of a known attack identifier, and classify it as an accurate attack technique or implementation method. The embodiment uses various ensemble machine learning models to classify an attacker with an accurate attack implementation method, that is, an attack identifier and an attacker for code determined to have a code pattern similar to malicious code.

앙상블 머신 러닝 모델들은 준비된 데이터를 여러 개의 분류 노드들을 생성하고 각 분류 노드의 대한 노드의 예측을 결합하여 정확한 예측을 수행하는 기법이다. 위에서 설명한 바와 같이 블록 단위의 코드 상의 단어의 특징 또는 패턴이 어떤 공격 구현 방식인지, 즉 공격 식별자 또는 공격자인지 분류하는 앙상블 머신 러닝 모델들을 수행한다. Ensemble machine learning models are techniques that generate multiple classification nodes from prepared data and perform accurate predictions by combining the node predictions for each classification node. As described above, ensemble machine learning models that classify the attack implementation method of the word feature or pattern in the block unit code, that is, the attack identifier or the attacker, are performed.

앙상블 머신 러닝 모델들을 적용 시에 과탐과 오탐을 방지하기 위해 준비된 데이터의 분류를 위한 임계 값을 설정할 수 있다. 설정된 탐지 임계 값 이상의 데이터들만 분류하고 설정된 탐지 임계 값에 도달하지 못하는 데이터는 분류 수행을 하지 않을 수 있다. When applying ensemble machine learning models, a threshold value for classification of prepared data can be set to prevent over-detection and false-positive. Only data above the set detection threshold may be classified, and data that does not reach the set detection threshold may not be classified.

기술 바와 같이 데이터 처리 속도를 높이고 데이터의 정확한 분석을 위해 여러 가지 데이터 형식의 변환이 사용될 수 있다. 위에서 기술한 데이터 변환 방식 중 As described, the conversion of several data formats can be used to speed up data processing and to accurately analyze the data. Among the data conversion methods described above,

이러한 앙상블 머신 러닝 모델들을 적용하는 대한 구체적인 실시 예는 아래의 이하에서 다시 상세히 설명한다.A specific embodiment for applying such ensemble machine learning models will be described in detail below again below.

제 4단계로서 공격 기법(TTP)을 식별하여 라벨링을 부여하는 프로파일링 하는 과정을 설명하면 다음과 같다. As the fourth step, the profiling process of identifying an attack technique (TTP) and assigning labeling will be described as follows.

이미 분석된 공격 코드 또는 악성 코드에 기반하여 입력된 바이너리 데이터의 OP-CODE와 ASM-CODE를 포함하는 디스어셈블드 코드의 특징 추출을 통해 벡터화시키는 예를 위에서 기술하였다.An example of vectorizing through feature extraction of disassembled codes including OP-CODE and ASM-CODE of input binary data based on an already analyzed attack code or malicious code has been described above.

이렇게 벡터화된 데이터는 머신 러닝 모델링을 통해 학습된 후 특정 공격 기법으로 분류되고 분류된 코드들은 프로파일링 과정에서 상기 분류된 데이터의 라벨링이 수행된다.After the vectorized data is learned through machine learning modeling, it is classified into a specific attack technique, and the classified codes are labeled in the profiling process.

라벨링은 크게 두 부분에 수행될 수 있는데 하나는 표준화된 모델에서 정의한 공격 식별자에 대한 고유 인덱스를 붙이는 것이고 다른 하나는 공격 코드를 작성한 사용자에 대한 정보를 기입하는 것이다. Labeling can be largely performed in two parts. One is to attach a unique index to the attack identifier defined in the standardized model, and the other is to write information about the user who wrote the attack code.

라벨링은 표준화된 모델, 예를 들면 MITRE ATT&CK에서 반영된 공격 식별자(T-ID)에 따라 부여하도록 하여 추가적인 작업 없이 사용자에게 정확한 정보를 전달할 수 있도록 한다. Labeling is assigned according to a standardized model, for example, an attack identifier (T-ID) reflected in MITER ATT&CK, so that accurate information can be delivered to the user without additional work.

그리고 라벨링은 공격 식별자뿐만 아니라 해당 공격 식별자를 구현한 공격자를 구별할 수 있도록 부여된다. 따라서 공격 식별자뿐만 아니라 공격자와 그에 따른 구현 방식을 식별할 수 있도록 제공할 수 있다. And the labeling is given to distinguish not only the attack identifier but also the attacker who implemented the attack identifier. Therefore, it is possible to provide not only an attack identifier, but also an attacker and an implementation method accordingly.

실시 예는 기존에 분류된 디스어셈블된 코드(OP-CODE, ASM-CODE, 또는 그 조합)의 데이터 세트를 학습한 데이터를 기반으로 고도화된 프로파일링이 가능한다. 실시 예는 위에서 개시한 정적 분석, 동적 분석, 또는 연관 분석의 데이터도 라벨링을 수행하는 참고 데이터로 활용할 수 있다. 따라서 기존에 분석되지 않은 데이터 세트라고 하더라도 정적, 동적, 및 연관 분석의 결과를 함께 고려하면 매우 빠르고 효율적으로 프로파일링 데이터를 확보할 수 있다.In an embodiment, advanced profiling is possible based on data learned from previously classified data sets of disassembled codes (OP-CODE, ASM-CODE, or a combination thereof). In the embodiment, data of the static analysis, dynamic analysis, or association analysis disclosed above may also be utilized as reference data for performing labeling. Therefore, even for a data set that has not been analyzed previously, profiling data can be obtained very quickly and efficiently by considering the results of static, dynamic, and association analysis together.

위에서 3단계의 악성 코드와 유사한 패턴을 가지는 코드를 학습하고 학습된 데이터가 분류되는 과정과 4단계의 분류된 데이터의 프로파일링 과정은 머신 러닝에 알고리즘에 의해 함께 진행될 수 있다. The process of learning a code having a pattern similar to that of the malicious code in step 3 above and classifying the learned data and profiling the classified data in step 4 can be performed together by an algorithm in machine learning.

이에 대한 상세한 예는 아래에서 개시한다. 그리고 프로파일링된 데이터 세트의 실제 예도 아래에서 도면을 참고하여 예시하도록 한다.A detailed example of this is disclosed below. And an actual example of the profiled data set is also illustrated with reference to the drawings below.

도 22는 개시하는 실시 예의 데이터 변환의 일 예로서 디스어셈블드 코드의 OP-CODE 및 ASM-CODE를 정규화된 코드로 변환한 값을 예시한 도면이다. 22 is a diagram illustrating values obtained by converting an OP-CODE and an ASM-CODE of a disassembled code into a normalized code as an example of data conversion according to the disclosed embodiment.

설명한 바와 같이 실행 파일의 디스어셈블링을 수행하면 OP-CODE 및 ASM-CODE가 결합된 데이터가 출력된다. As described above, if the executable file is disassembled, the combined data of OP-CODE and ASM-CODE is output.

실시 예는 디스어셈블링된 데이터로부터 함수 별로 출력되는 주석 데이터를 제거하고 처리가 용이하도록 OP-CODE, ASM-CODE, 및 대응 파라미터의 배치 순서를 변경할 수 있다. The embodiment may remove the annotation data output for each function from the disassembled data and change the arrangement order of the OP-CODE, ASM-CODE, and corresponding parameters to facilitate processing.

재구성된 OP-CODE와 ASM-CODE를 정규화된 코드 데이터로 변경하는데, 이 도면의 예는 정규화된 코드 데이터로 CRC 데이터를 예시한다. The reconstructed OP-CODE and ASM-CODE are changed to normalized code data, and the example of this figure exemplifies CRC data as normalized code data.

일 예로 OP-CODE는 CRC-16로 변환하고 ASM-CODE로 CRC-32로 변환할 수 있다. For example, the OP-CODE may be converted to CRC-16 and the ASM-CODE may be converted to CRC-32.

예시한 표의 첫 번째 행에서 OP-CODE의 push함수를 0x45E9의 CRC-16 데이터로 변경하고, ASM-CODE의 55를 0xC9034AF6의 CRC-32 데이터로 변경한 것을 예시한다. In the first row of the illustrated table, it is exemplified that the push function of OP-CODE is changed to CRC-16 data of 0x45E9 and 55 of ASM-CODE is changed to CRC-32 data of 0xC9034AF6.

두 번째 행에서는 OP-CODE의 mov함수를 0x10E3의 CRC-16 데이터로 변경하고, ASM-CODE의 8B EC 를 0x3012FD2C의 CRC-32 데이터로 변경하였다. 세 번째 행에서는 OP-CODE의 lea함수를 0xAACE의 CRC-16 데이터로 변경하고, ASM-CODE의 8D 45 0C를 0x9214A6AA의 CRC-32 데이터로 변경하였다. In the second row, the mov function of OP-CODE is changed to CRC-16 data of 0x10E3, and 8B EC of ASM-CODE is changed to CRC-32 data of 0x3012FD2C. In the third row, the lea function of OP-CODE is changed to CRC-16 data of 0xAACE, and 8D 45 0C of ASM-CODE is changed to CRC-32 data of 0x9214A6AA.

네 번째 행에서 OP-CODE의 push함수를 0x45E9의 CRC-16 데이터로 변경하고, ASM-CODE의 50를 0xB969BE79의 CRC-32 데이터로 변경한 것을 예시한다. In the fourth row, it is an example of changing the push function of OP-CODE to CRC-16 data of 0x45E9 and changing 50 of ASM-CODE to CRC-32 data of 0xB969BE79.

이 예와 다르게 CRC 데이터와 다른 다른 정규화 코드 데이터나 길이가 다른 코드 데이터를 사용할 수도 있다. Unlike this example, normalized code data different from CRC data or code data having a different length may be used.

이렇게 디스어셈블링된 코드를 정규화된 코드로 변경하면 각 코드의 고유성을 확보하면서 이후의 연산, 유사도 산출 및 벡터화 수행을 용이하게 빠르게 수행할 수 있다. If the disassembled code is changed to a normalized code in this way, it is possible to easily and quickly perform subsequent operations, similarity calculation, and vectorization while securing the uniqueness of each code.

도 23은 개시하는 실시 예의 데이터 변환의 일 예로서 디스어셈블드 코드의 OP-CODE 및 ASM-CODE의 벡터화된 값을 예시한 도면이다.23 is a diagram illustrating vectorized values of OP-CODE and ASM-CODE of disassembled code as an example of data conversion according to the disclosed embodiment.

이 도면에서는 정규화된 OP-CODE 의 코드(위의 예에 따르면 CRC-16)와 정규화된 ASM-CODE (위의 예에 따르면 CRC-32)를 각각 벡터화시킨 결과를 예시한다. This figure exemplifies the result of vectorizing the normalized OP-CODE code (CRC-16 according to the above example) and the normalized ASM-CODE (CRC-32 according to the above example), respectively.

정규화된 OP-CODE 의 코드를 벡터화한 값(OP-CODE Vector)와 정규화된 ASM-CODE의 코드를 벡터화한 값(ASM-CODE Vector)을 이 도면에 표 형식으로 나타내었다. A vectorized value of the normalized OP-CODE code (OP-CODE Vector) and a vectorized normalized ASM-CODE code (ASM-CODE Vector) are shown in table format in this figure.

이 도면의 각 행의 OP-CODE Vector 값과 ASM-CODE Vector 값은 각각 도 22의 각 행의 OP-CODE의 정규화 값과 ASM- CODE의 정규화 값에 대응된다. The OP-CODE vector value and the ASM-CODE vector value of each row of this figure correspond to the normalized value of the OP-CODE and the normalized value of the ASM-CODE of each row of FIG. 22, respectively.

예를 들어, 도 22의 표의 네 번째 행의 CRC 데이터 0x45E9와 0xB969BE79의 벡터화 값들은 각각 이 도면의 표의 네 번째 행의 17897와 185 105 121 44이 된다. For example, vectorized values of CRC data 0x45E9 and 0xB969BE79 of the fourth row of the table of FIG. 22 are 17897 and 185 105 121 44 of the fourth row of the table of this figure, respectively.

이렇게 정규화된 데이터에 대해 벡터화를 수행하면 디스어셈블링된 OP-CODE의 함수와 ASM-CODE가 각각 고유 특징을 포함하면서 벡터화 값으로 변화된다.When vectorization is performed on the normalized data in this way, the disassembled OP-CODE function and ASM-CODE are changed to vectorized values while each including unique features.

도 24는 개시하는 실시 예의 데이터 변환의 일 예로서 코드의 블록 단위를 해쉬 값으로 변환하는 예를 개시한 도면이다. 24 is a diagram illustrating an example of converting a block unit of a code into a hash value as an example of data conversion according to the disclosed embodiment.

유사도 분석을 수행하기 위해서 벡터화된 각 OP-CODE 및 ASM-CODE 의 데이터 세트는 바이트 데이터 형태로 재변환이 수행된다. 재변환된 바이트 데이터는 블록 단위의 해쉬 값으로 변환될 수 있다. 그리고 다시 블록 단위의 해쉬 값들에 기반하여 전체 재변환된 바이트 데이터의 해쉬 값을 생성한다. In order to perform the similarity analysis, the vectorized data set of each OP-CODE and ASM-CODE is reconverted into a byte data format. The reconverted byte data may be converted into a block-unit hash value. And again, based on the hash values of the block unit, a hash value of the entire retransformed byte data is generated.

실시 예는 재변환된 해쉬 값을 산출하는데 MD5(Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), SHA 256이 등의 해쉬 값을 사용될 수도 있는데, 데이터 사이의 유사도 판단을 위한 퍼지 해쉬(Fuzzy Hash) 함수를 이용할 수 있다. In the embodiment, hash values such as MD5 (Message-Digest algorithm 5), SHA1 (Secure Hash Algorithm 1), and SHA 256 may be used to calculate the reconverted hash value, and a fuzzy hash ( Fuzzy Hash) function can be used.

이 도면의 표에서 첫 번째 행은 데이터에 포함될 수 있는 사람이 가독할 수 있는 character를 나타낸다. 재변환된 바이트 데이터 중 블록 단위에 포함되는 값은 이와 같은 가독성의 character들을 포함할 수 있다.The first row of the table in this figure represents human-readable characters that may be included in the data. Among the reconverted byte data, a value included in a block unit may include such readable characters.

각 character들은 두 번째 행의 아스키 값(ascii val)인 97, 98, 99, 100, …., 48, 49에 대응될 수 있다. Each character is the ASCII value (ascii val) of the second line, 97, 98, 99, 100, … It can correspond to ., 48, 49.

첫 번째 행의 character 값들을 포함하는 데이터를 세그먼트하여 아스키 값들의 합산이 가능한 블록으로 분리할 수 있다.Data including character values in the first row can be segmented and separated into blocks that can be summed up as ASCII values.

표의 세 번째 행은 4개의 character 를 가지는 블록 단위 내에서 각 character 값에 대응되는 아스키 값의 합산 값을 나타낸다. The third row of the table shows the sum of ASCII values corresponding to each character value within a block unit having 4 characters.

첫 번째 블록의 경우 그 블록 내 character 에 대응되는 아스키 값(ascii val) 97, 98, 99, 100의 합(ascii sum)인 394의 값을 가질 수 있다. In the case of the first block, it can have a value of 394, which is the ASCII sum of 97, 98, 99, and 100 ASCII values corresponding to the characters in the block.

그리고 마지막 행은 블록 단위의 아스키 값의 합이 Base 64의 표현으로 변환된 경우를 나타낸다. 문자(letter) K는 첫 번째 블록의 합산이 된다. And the last row shows the case in which the sum of ASCII values in block units is converted to a base 64 representation. The letter K is the sum of the first block.

이러한 방식으로 해당 데이터에 대해 Kaq6KaU라는 시그니처를 얻을 수 있다. In this way, a signature called Kaq6KaU can be obtained for that data.

이러한 시그니처를 기반으로 두 개의 블록 단위 데이터에 대한 유사도를 산출할 수 있다. Based on such a signature, it is possible to calculate the degree of similarity for two block unit data.

이 실시 예는 재변환된 바이트 데이터 중 코드에 포함된 블록 단위들에 대해 유사도 판단을 위한 퍼지 해쉬 함수로 해쉬 값을 산출하고, 산출된 해쉬 값들을 기반으로 유사도를 판단할 수 있다. 유사도 판단을 위한 퍼지 해쉬 함수로 CTPH(Context Triggered Piecewise Hashing)를 예시하였으나 데이터의 유사도를 산출할 수 있는 다른 퍼지 해쉬 함수를 사용하는 것도 가능하다. In this embodiment, a hash value may be calculated with a fuzzy hash function for determining the similarity for block units included in the code among the retransformed byte data, and the similarity may be determined based on the calculated hash values. Although CTPH (Context Triggered Piecewise Hashing) is exemplified as a fuzzy hash function for determining the similarity, it is also possible to use other fuzzy hash functions that can calculate the similarity of data.

도 25는 개시하는 실시 예에 따른 앙상블 머신 러닝 모델의 일 예를 나타낸 도면이다. 25 is a diagram illustrating an example of an ensemble machine learning model according to the disclosed embodiment.

실시 예는 앙상블 머신 러닝 모델을 이용하여 악성 코드로 판단되는 파일의 공격 식별자(T-ID)를 정확하게 분류할 수 있다.The embodiment may accurately classify an attack identifier (T-ID) of a file determined to be a malicious code by using an ensemble machine learning model.

String Data (Byte Data)로 구성된 블록 단위를 해쉬 값은 N-gram 특징 정보 기반으로 수치화시킨 후 이것이 공격 식별자(T-ID) 또는 분류될 클래스인지를 판단하기 위해 TF-IDF 등의 기법으로 유사도를 계산할 수 있다. The hash value of the block unit composed of String Data (Byte Data) is digitized based on N-gram characteristic information, and the similarity is evaluated using a technique such as TF-IDF to determine whether this is an attack identifier (T-ID) or a class to be classified. can be calculated

불필요한 연산을 줄여 공격 기법 식별의 성능을 높이기 위해 실시 예는 위 해쉬 값 중 유사도를 기반으로 불필요한 패턴을 제거할 수 있다. In order to increase the performance of identifying an attack technique by reducing unnecessary operations, the embodiment may remove unnecessary patterns based on the similarity among the above hash values.

그리고 불필요한 패턴이 제거된 데이터를 앙상블 머신 러닝을 통해 모델링하여 공격 식별자를 분류할 수 있다.And by modeling data from which unnecessary patterns have been removed through ensemble machine learning, attack identifiers can be classified.

앙상블 머신 러닝 모델의 여러 개의 분류 노드의 학습 결과들을 결합하기는 방식으로 보팅(Voting), 배깅(Bagging), 부스팅(Booting) 등의 방식이 있다 이러한 방식들을 적절히 조합한 앙상블 머신 러닝 모델은 학습 데이터의 분류 정확도를 높이는데 기여할 수 있다. There are methods such as voting, bagging, and boosting as a method of combining the learning results of several classification nodes of an ensemble machine learning model. It can contribute to improving the classification accuracy of

여기서는 일 예로서 배깅 방식의 랜덤 포레스트(Random Forest) 방식을 적용하는 경우를 예를 들어 공격 식별자를 보다 정확하게 분류하는 방법을 설명한다. Here, as an example, a method of more accurately classifying an attack identifier will be described by taking the case of applying the random forest method of the bagging method as an example.

랜덤 포레스트(Random Forest) 방식은 많은 수의 디시전 트리(Decision Tree) 생성하여 단일 디시전 트리에 의한 분류 오류를 낮추고 일반화된 분류 결과를 얻는 방식이다. 실시 예는 준비된 데이터에 대해 적어도 하나 이상의 디시전 트리(Decision Tree)를 이용한 랜덤 포레스트(Random Forest) 학습 알고리즘을 적용할 수 있다. 여기서 준비된 데이터는 블록 단위의 퍼지 해쉬 값으로부터 불필요한 패턴이 제거된 데이터를 의미한다.The random forest method is a method to generate a large number of decision trees to reduce the classification error by a single decision tree and to obtain a generalized classification result. The embodiment may apply a random forest learning algorithm using at least one decision tree to the prepared data. Here, the prepared data means data from which unnecessary patterns are removed from the fuzzy hash value in units of blocks.

블록 단위 해쉬 값의 유사도 판단을 위해 적어도 하나 이상의 노드를 가진 디시전 트리(Decision Tree)모델을 수행한다. 디시전 트리(Decision Tree)의 정보 획득(information gain) 정도에 따라 1개 이상의 클래스(공격 식별자; T-ID)를 구분할 수 있는 특징 값(여기서는 블록 단위 해쉬 값을 기초로 한 분류 패턴의 발현 개수)에 대해 비교 조건을 최적화할 수 있다. A decision tree model having at least one node is performed to determine the similarity of block-unit hash values. A feature value that can distinguish one or more classes (attack identifier; T-ID) according to the degree of information gain of the decision tree (here, the number of expression of classification patterns based on block-unit hash values) ) can be optimized for comparison.

이를 위해 도면에서 예시한 바와 같은 디시전 트리(Decision Tree)를 생성할 수 있다. For this purpose, a decision tree as exemplified in the drawing may be generated.

이 도면에서 위 쪽의 사각형(2510, 2520, 2530, 2540)들은 인 터미널 노드로서 클래스를 구분하는 조건을 의미하고 아래 쪽의 사각형 부분(2610, 2620, 2630)은 터미널 노드로 분류되는 클래스를 의미한다. In this figure, the upper quadrilaterals 2510, 2520, 2530, and 2540 are terminal nodes and mean the conditions for classifying the class, and the lower square parts 2610, 2620, 2630 mean the class classified as terminal nodes. do.

예를 들어 랜덤 포레스트(Random Forest) 모델을 앙상블 머신 러닝 모델로 적용할 경우, 1개 이상의 디시전 트리(Decision Tree)를 이용하여 앙상블 기법을 사용하는 분류 모델이다. 랜덤 포레스트(Random Forest) 모델을 구성하는 디시전 트리(Decision Tree)의 입력 데이터의 특징을 다르게 하여 다양한 디시전 트리(Decision Tree)를 구성한다. 여러 개 생성된 디시전 트리(Decision Tree) 모델에 대해 분류를 수행하고 다수결 투표 기법을 사용하여 최종 분류 클래스를 결정한다. 각 노드의 테스트는 병렬적으로 진행될 수 있어 계산 효율이 높다.For example, when a random forest model is applied as an ensemble machine learning model, it is a classification model that uses an ensemble technique using one or more decision trees. Various decision trees are constructed by differentiating the characteristics of the input data of the decision tree constituting the random forest model. Classification is performed on several generated decision tree models, and the final classification class is determined using a majority vote technique. The test of each node can be performed in parallel, resulting in high computational efficiency.

클래스를 분류할 경우 과탐과 오탐을 방지하기 위해 임계값을 설정하고 하한 임계값 이하의 값은 버리고, 탐지 임계값 이상의 데이터 대상으로 분류를 수행할 수 있다.When classifying a class, it is possible to set a threshold to prevent over-detection and false-positive, discard values below the lower threshold, and perform classification to data objects above the detection threshold.

도 26은 개시하는 실시 예에 따라 머신 러닝으로 데이터를 학습하고 분류하는 흐름을 예시한 도면이다. 26 is a diagram illustrating a flow of learning and classifying data by machine learning according to an embodiment disclosed herein.

입력 데이터의 프로파일링은 분류 단계(S2610)과 학습 단계(S2620)를 포함할 수 있다. The profiling of the input data may include a classification step (S2610) and a learning step (S2620).

실시 예에서 학습 단계(S2620)는 (a) 해쉬 값 추출 과정, (b) N-gram 패턴 추출 과정, (c) 자연어 처리 분석 (TF-IDF 분석) 과정, (d) 패턴 선택 과정, (e) 모델 학습 과정 등을 포함할 수 있다. In an embodiment, the learning step (S2620) includes (a) hash value extraction process, (b) N-gram pattern extraction process, (c) natural language processing analysis (TF-IDF analysis) process, (d) pattern selection process, (e) ) may include a model learning process, etc.

그리고 실시 예에서 분류 단계(S2610)는, (a) 해쉬 값 추출 과정, (b) N-gram 패턴 추출 과정, (f) 패턴 선택 과정, (g) 벡터화에 의한 분류 과정 등을 포함할 수 있다. And in the embodiment, the classification step (S2610) may include (a) a hash value extraction process, (b) an N-gram pattern extraction process, (f) a pattern selection process, (g) a classification process by vectorization, etc. .

실시 예에 따른 프로파일링 단계 중 분류 단계(S2620)를 먼저 설명하면 다음과 같다. A classification step ( S2620 ) among the profiling steps according to an embodiment will be first described as follows.

실행 파일 집합이나 처리된 파일로부터 입력 데이터를 수신한다.Receive input data from a set of executables or processed files.

데이터베이스에 저장된 실행 파일 집합들로부터 입력 데이터를 수신하거나 또는 위에서 예시한 처리 과정으로부터 전달되는 실행 파일이 포함된 입력 데이터를 수신한다. 입력 데이터는 OP-CODE 와 ASM-CODE 코드를 포함하는 디스어셈블된 코드를 변환시킨 데이터로 벡터화시킨 데이터일 수 있다. It receives input data from a set of executable files stored in the database or receives input data including an executable file transmitted from the processing process exemplified above. The input data may be data obtained by vectorizing data obtained by converting disassembled codes including OP-CODE and ASM-CODE codes.

입력 데이터인 디스어셈블된 코드로부터 퍼지 해쉬(Fuzzy Hash) 값을 추출(a)하고 특정 함수에 대한 N-gram 패턴 데이터를 추출한다(b). 이때 기존의 의미 패턴 집합 중 악성 코드와 유사하다고 판단한 패턴을 포함한 2-gram 의 패턴 데이터를 선택할 수 있다(f). A fuzzy hash value is extracted from the disassembled code, which is the input data (a), and N-gram pattern data for a specific function is extracted (b). In this case, 2-gram pattern data including patterns determined to be similar to malicious codes among the existing semantic pattern sets can be selected (f).

선택한 패턴의 N-gram 데이터를 벡터화 데이터로 변환하고 벡터화 데이터를 의미가 패턴이 결정된 함수로 분류할 수 있다(g).The N-gram data of the selected pattern can be converted into vectorized data, and the vectorized data can be classified into a function whose semantic pattern is determined (g).

실시 예에 따른 프로파일링 단계 중 학습 단계(S2610)는 다음과 같이 수행된다. Among the profiling steps according to an embodiment, the learning step S2610 is performed as follows.

만약 입력된 데이터가 새로운 파일이라면 입력 데이터인 디스어셈블된 코드로부터 퍼지 해쉬(Fuzzy Hash) 값을 추출한다(a).If the input data is a new file, a fuzzy hash value is extracted from the disassembled code that is the input data (a).

추출된 퍼지 해쉬(Fuzzy Hash) 값을 N-gram 데이터(이 예에서는 2-gram)로 벡터화시킨다(b). The extracted fuzzy hash value is vectorized into N-gram data (2-gram in this example) (b).

추출된 특정 패턴에 대해 TF-IDF 와 같은 자연어 처리 분석을 수행한다(c)Perform natural language processing analysis such as TF-IDF on the extracted specific pattern (c)

기존의 공격 식별자(T-ID)와 관련된 패턴을 가지는 데이터 세트 중 유사도가 높은 데이터 세트를 선택하고 나머지는 필터링한다(d). 이때 기존의 의미 패턴 집합에 저장된 데이터 세트들과 비교하여 공격 식별자(T-ID)와 관련된 패턴을 가지는 데이터 세트의 일부 또는 전부의 특징을 포함한 샘플 데이터 세트들을 선택할 수 있다. A data set with a high similarity is selected among data sets having a pattern related to an existing attack identifier (T-ID) and the rest is filtered (d). In this case, compared with the data sets stored in the existing semantic pattern set, sample data sets including features of some or all of the data sets having a pattern related to an attack identifier (T-ID) may be selected.

추출된 샘플 데이터 세트를 기반으로 벡터화한 N-gram 데이터를 학습시킬 수 있다(e). Vectorized N-gram data can be trained based on the extracted sample data set (e).

N-gram 의 벡터화 데이터를 분류 모델에 입력하여 공격 식별자(T-ID) 별로 확률을 얻는다. 예를 들어 N-gram 구조의 벡터화 데이터가 특정 공격 식별자(T-ID) T1027일 확률이 A%이고, 공격 식별자 T1055일 확률이 (100-A)%인 확률 등의 확률을 얻을 수 있다. By inputting the vectorized data of N-gram into the classification model, the probability is obtained for each attack identifier (T-ID). For example, the probability that the vectorized data of the N-gram structure is a specific attack identifier (T-ID) T1027 is A%, and the probability that the attack identifier T1055 is (100-A)% can be obtained.

분류 모델은 적어도 하나 이상의 디시전 트리를 포함하는 랜덤 포레스트 등의 앙상블 머신 러닝 모델을 이용할 수 있다.The classification model may use an ensemble machine learning model such as a random forest including at least one decision tree.

(A) 여기서 분류 모델에 기반하여 벡터화한 N-gram 데이터가 어떤 공격 기법 또는 공격자인지 판단할 수 있다. (A) Here, it is possible to determine which attack technique or attacker the vectorized N-gram data is based on the classification model.

분류 모델(e)의 분류 결과 또는 기존의 저장된 패턴의 선택(f) 결과에 따라 입력 데이터를 분류하여 라벨링을 수행한다(g). Labeling is performed by classifying the input data according to the classification result of the classification model (e) or the selection (f) result of the existing stored pattern (g).

최종 라벨링이 수행된 결과는 다음의 도면을 참조하여 예시한다.The result of the final labeling is exemplified with reference to the following drawings.

도 27은 개시하는 실시 예에 따라 입력 데이터를 학습하고 분류하여 공격 식별자와 공격자를 라벨링한 예를 나타낸 도면이다. 27 is a diagram illustrating an example in which an attack identifier and an attacker are labeled by learning and classifying input data according to the disclosed embodiment.

이 도면은 프로파일리의 결과로서 공격 식별자, 공격자 또는 공격 그룹, 어셈블리 코드에 대응되는 퍼지 해쉬 값, 그에 대응되는 N-gram(여기서는 2-gram 데이터로 기재)를 각각 표 형식으로 나타낸 도면이다. This figure is a diagram showing an attack identifier, an attacker or an attack group, a fuzzy hash value corresponding to an assembly code, and an N-gram corresponding thereto (indicated as 2-gram data here) in tabular form as a result of profiling.

실시 예에 따라 프로파일링이 완료되면 다음과 같은 공격 방법의 구현과 관련하여 분류된 데이터를 얻을 수 있다. According to an embodiment, when profiling is completed, classified data in relation to the implementation of the following attack method may be obtained.

실시 예에 의한 프로파일링에 따라 공격 식별자(T-ID)와 공격자 또는 공격자 그룹(Attacker or Group)에 각각 라벨링될 수 있다. According to the profiling according to the embodiment, each may be labeled with an attack identifier (T-ID) and an attacker or an attacker group.

여기서 공격 식별자(T-ID)는 설명한 바와 같이 표준화된 모델에 따를 수 있는데 이 예에서는 MITRE ATT&CK®에서 제공하는 공격 식별자(T-ID)를 부여한 결과를 예시한다. Here, the attack identifier (T-ID) may follow the standardized model as described. In this example, the result of giving the attack identifier (T-ID) provided by MITER ATT&CK® is exemplified.

위에서 기술한 바와 같이 식별된 공격자 또는 공격자 그룹(Attacker or Group)에도 라벨링이 추가될 수 있다. 이 도면은 공격자 또는 공격자 그룹(Attacker or Group)의 라벨링으로 공격자 TA504를 식별한 예를 나타낸다. Labeling may also be added to the identified Attacker or Group as described above. This figure shows an example in which the attacker TA504 is identified by the labeling of the attacker or group of attackers.

SHA-256 (size)는 각각의 공격 식별자(T-ID) 또는 공격자 그룹(Attacker or Group)에 대응되는 악성 코드의 퍼지 해쉬 값과 데이터 사이즈을 나타낸다. 설명한 바와 같이 이러한 악성 코드는 OP-CODE 와 ASM-CODE의 재배치와 조합에 대응될 수 있다. SHA-256 (size) indicates the fuzzy hash value and data size of the malicious code corresponding to each attack identifier (T-ID) or attacker or group. As described above, such malicious code can respond to the rearrangement and combination of OP-CODE and ASM-CODE.

그리고 N-gram으로 표시한 섹션의 값은 공격 식별자(T-ID) 또는 공격자 그룹과 악성 코드의 퍼지 해쉬 값에 대응되는 N-gram 패턴 데이터로서, 이 예에서는 2-gram 데이터의 일부로 표시하였다. And the value of the section marked with N-gram is N-gram pattern data corresponding to the attack identifier (T-ID) or the fuzzy hash value of the attacker group and the malicious code, and in this example, it is displayed as a part of the 2-gram data.

이 도면에서 예시한 바와 같이 악성 코드(OP-CODE 와 ASM-CODE)의 퍼지 해쉬 값과 N-gram 패턴 데이터에 대응되는 공격 식별자(T-ID) 또는 공격자 그룹이 라벨링되어 저장될 수 있다. As illustrated in this figure, fuzzy hash values of malicious codes (OP-CODE and ASM-CODE) and attack identifiers (T-IDs) or attacker groups corresponding to N-gram pattern data may be labeled and stored.

예시한 라벨링된 데이터는 앙상블 머신 러닝의 참조 데이터로 이용될 수 있고, 분류 모델의 참조 데이터로 이용될 수도 있다. The illustrated labeled data may be used as reference data for ensemble machine learning, and may be used as reference data for a classification model.

이하에서 개시한 실시 예들의 성능 결과를 예시한다.The performance results of the embodiments disclosed below are exemplified.

도 28은 실시 예에 따라 공격 식별자를 식별한 결과를 나타낸 도면이다. 28 is a diagram illustrating a result of identifying an attack identifier according to an embodiment.

이 도면은 유클리언 디스턴스 매트릭스(Euclidean Distance Matrix)를 예시하는데, 유클리언 디스턴스 매트릭스(Euclidean Distance Matrix)는 두 데이터 세트 사이의 유사도를 나타낼 수 있다. This figure exemplifies the Euclidean Distance Matrix, which may represent the similarity between two data sets.

이 도면에서 밝은 부분은 두 데이터 세트의 유사도가 낮은 것을 의미하고 어두운 부분은 두 데이터 세트의 유사도가 높은 것을 의미한다. In this figure, the bright part means that the similarity between the two data sets is low, and the dark part means that the similarity between the two data sets is high.

이 도면에서 T10XX는 공격 식별자(T-ID)를 의미하고 괄호 안에 character T, K, L은 각각 해당 공격 식별자(T-ID)에 따른 공격 기법을 작성한 공격자 그룹을 의미한다. In this figure, T10XX denotes an attack identifier (T-ID), and characters T, K, and L in parentheses denote an attacker group that wrote an attack technique according to the corresponding attack identifier (T-ID).

즉, 행과 열은 각각의 공격자 그룹들(T, K, L)이 생성한 공격 식별자(T-ID)들을 의미하며 행과 열은 동일한 의미를 가진다. 예를 들어 T1055(K)는 L 공격자 그룹이 생성한 T1055 공격을 의미하고, T1055(K)는 K 공격자 그룹이 생성한 동일한 공격 방법 T1055를 의미한다. That is, the row and column mean the attack identifiers (T-IDs) generated by each attacker group (T, K, L), and the row and column have the same meaning. For example, T1055(K) means the T1055 attack created by the L attackers group, and T1055(K) means the same attack method T1055 created by the K attackers group.

각각의 데이터 세트의 샘플들은 자신의 샘플을 포함하기 때문에 다른 샘플들과의 거리를 각각 계산하면 왼쪽 위에서 오른쪽 아래의 대각선 방향으로 동일성이 높은 분포를 나타낸다. Since the samples of each data set include their own samples, when the distances from other samples are calculated respectively, a distribution with high uniformity is shown in the diagonal direction from the top left to the bottom right.

이 도면을 보면 동일한 공격 식별자(T-ID)의 경우 공격자 그룹이 다르더라도 유사한 특징을 나타내는 것을 확인할 수 있다. 예를 들어 T1027의 공격 식별자는 공격 그룹이 T 또는 K라고 하더라도 공격 기법이 유사하면 유사도가 높게 평가될 수 있다.Referring to this figure, it can be seen that the same attack identifier (T-ID) exhibits similar characteristics even if the attacker groups are different. For example, even if the attack group is T or K, the attack identifier of T1027 may have a high similarity if the attack technique is similar.

따라서, 위의 실시 예와 같이 추출한 데이터 세트를 기반으로 학습을 진행하면 동일한 공격자가 구현한 같은 공격 기법(T-ID)에 대한 특징은 명확하게 식별되고(가장 어두운 부분), 다른 공격자가 구현한 동일한 공격 기법(T-ID)은 유사도가 높은 것(중간 어두운 부분)을 확인할 수 있다.Therefore, when learning is conducted based on the extracted data set as in the above embodiment, the characteristics of the same attack technique (T-ID) implemented by the same attacker are clearly identified (the darkest part), and the The same attack technique (T-ID) can confirm that the similarity is high (the middle dark part).

따라서, 이와 같이 OP-CODE 와 ASM-CODE 의 조합에 기초한 샘플 데이터를 추출하여 적용해 공격 기법을 분류하면 공격자가 다른 경우라고 하더라도 특정의 공격 기법 또는 식별자(T-ID)를 확실하게 분류해 낼 수 있다. 반대로 OP-CODE 와 ASM-CODE 의 조합을 통해 악성 코드 내부에 구현된 특정 코드를 명확하게 식별할 수 있을 뿐만 아니라 공격자, 공격 식별자를 포함함 공격 구현 방식을 식별할 수 있다.Therefore, if the attack technique is classified by extracting and applying the sample data based on the combination of OP-CODE and ASM-CODE in this way, even if the attacker is different, a specific attack technique or identifier (T-ID) can be reliably classified. can Conversely, through the combination of OP-CODE and ASM-CODE, it is possible to clearly identify the specific code implemented inside the malicious code, as well as identify the attack implementation method including the attacker and the attack identifier.

도 29는 실시 예에 따라 공격 식별자에 따른 그램 데이터 패턴을 예시한 도면이다. 29 is a diagram illustrating a gram data pattern according to an attack identifier according to an embodiment.

이 도면은 서로 다른 공격 식별자 (T-ID)가 다른 경우 그램 데이터의 패턴을 예시한 도면이다. 예를 들어 공격 식별자 T1027과 T1055를 포함한 각각의 악성 코드를 2-gram의 패턴 데이터로 변환하여 실시예에 따라 분류하면 공격 식별자 (T-ID)가 별로 다른 그램 패턴을 보인다. This figure is a diagram illustrating a pattern of gram data when different attack identifiers (T-IDs) are different. For example, if each malicious code including the attack identifiers T1027 and T1055 is converted into 2-gram pattern data and classified according to the embodiment, gram patterns with different attack identifiers (T-IDs) are shown.

즉, OP-CODE 와 ASM-CODE 의 조합을 기반으로 악성 코드 내 공격 기법들을 식별하는 실시 예에 따르면 공격 식별자 (T-ID)별로 그램 데이터의 패턴이 나뉠 수 있다. That is, according to an embodiment of identifying attack techniques in a malicious code based on a combination of OP-CODE and ASM-CODE, a pattern of gram data may be divided for each attack identifier (T-ID).

이 결과는 본 실시예에 따르면 공격자가 같더라도 악성 코드 내 숨겨진 여러 가지 공격 식별자 (T-ID)들을 명확하게 식별할 수 있다는 것을 의미한다. This result means that according to the present embodiment, even if the attacker is the same, various attack identifiers (T-IDs) hidden in the malicious code can be clearly identified.

도 30은 개시한 사이버 위협 정보를 처리하는 실시 예의 성능을 예시한 도면이다. 30 is a diagram illustrating performance of an embodiment of processing the disclosed cyber threat information.

이 도면은 개시한 실시예의 성능 중 공격 식별자 또는 공격자를 분류하는 연산 속도에 대한 성능을 예시한 것이다. This figure exemplifies the performance of the operation speed for classifying an attack identifier or an attacker among the performance of the disclosed embodiment.

가로축은 데이터베이스에 저장된 데이터의 양을 나타내고 세로축은 공격 식별자를 분류하는데 소요되는 시간을 나타낸다. The horizontal axis represents the amount of data stored in the database, and the vertical axis represents the time it takes to classify an attack identifier.

데이터베이스에 저장된 퍼지 해쉬 데이터의 데이터의 개수를 증가시키면서, 일반적인 샘플을 각각 N : 1 (N대 1)로 비교하면 데이터의 개수 에 따라 처리 시간이 기하급수적으로 증가할 수 있다. 예를 들어 단순히 해쉬 값이나 퍼지 해쉬 값의 유사도만을 비교하면(ssdeep로 표시) 비교하는 데이터의 양에 따라 소요시간이 매우 증가한다.While increasing the number of data of fuzzy hash data stored in the database, comparing typical samples by N:1 (N vs. 1), respectively, processing time can increase exponentially according to the number of data. For example, simply comparing the similarity of hash values or fuzzy hash values (expressed as ssdeep) greatly increases the time required depending on the amount of data to be compared.

그러나 실시 예의 앙상블 머신 러닝 모델의 디시전 트리(Decision Tree) 모델을 이용하면 공격 식별자 등을 분류하는 추론 시간이 데이터의 개수가 증가해도 증가하지 않는다.However, if the decision tree model of the ensemble machine learning model of the embodiment is used, the inference time for classifying an attack identifier or the like does not increase even if the number of data increases.

즉 최적화된 비교 트리를 생성하는 디시전 트리(Decision Tree) 모델은 노드를 병렬적으로 처리할 수 있으므로 데이터 개수가 증가해도 계산 속도에 큰 영향을 받지 않는 장점이 있다. In other words, the decision tree model that generates the optimized comparison tree has the advantage that the calculation speed is not significantly affected even if the number of data increases because the nodes can be processed in parallel.

도 31은 사이버 위협 정보의 탐지하는 엔진들의 탐지 엔진들을 탐지 명을 제공하는 예를 나타낸 도면이다. 31 is a diagram illustrating an example of providing detection names to detection engines of engines that detect cyber threat information.

악성코드 탐지 분야의 다양한 엔진들이 개발되어 사이버 위협 정보를 탐지 수행이 되고 있다. 인공 지능 분석이 늘어나면서 악성 코드의 탐지 능력이 증가하였다고 하더라도 탐지된 악성 코드를 제대로 설명하고 그 정보를 제공하지 못하면 이러한 탐지 능력의 효용성이 매우 떨어진다. Various engines in the field of malware detection have been developed to detect and perform cyber threat information. Even if the detection ability of malicious code increases with the increase in artificial intelligence analysis, the effectiveness of such detection ability is very low if the detected malicious code is not properly explained and information is provided.

이 도면은 VirusTotal 사이트에서 제공하는 해외 유명의 탐지 엔진들(3210)(왼쪽)과, 각 그 탐지 엔진이 제공하는 동일한 악성 코드의 탐지명(오른편)을 예시한 것이다. This figure illustrates famous overseas detection engines 3210 (left) provided by the VirusTotal site and the detection names (right) of the same malicious code provided by each detection engine.

동일한 악성 코드의 식별과 전달이 정확하게 이루어지지 않기 때문에 해당 악성 코드가 어떤 이유로 탐지되었는지 식별하기 어렵다. 따라서 보안 담당자가 해당 정보에 기초하여 어떤 오브젝트에 대한 조치를 취해야 하는지 대응책을 찾기 힘들었고 보안 위협에 대한 리스크에 대응하기 힘들었다. Since identification and delivery of the same malicious code is not performed accurately, it is difficult to identify for what reason the corresponding malicious code was detected. Therefore, it was difficult for the security officer to find a countermeasure for which object to take based on the information, and it was difficult to respond to the risk of security threats.

그러나 개시하는 실시 예는 표준화된 모델인 MITRE ATT&CK 등에서 제공하는 공격 식별자의 매트릭스 요소와 그 조합으로 사이버 위협 정보를 제공하고 표준화된 식별자(T-ID)로 악성 코드에 대한 정보 제공함으로써 범용성과 효율성을 매우 높일 수 있다. However, the disclosed embodiment improves versatility and efficiency by providing cyber threat information with a matrix element of an attack identifier provided by a standardized model, such as MITER ATT&CK, and a combination thereof, and providing information on malicious code as a standardized identifier (T-ID). can be very high.

이하에서는 개시한 실시 예에 기반하여 공격자 추적하고 새로운 공격을 예측할 수 있는 예를 부연하여 설명한다.Hereinafter, an example of tracking an attacker and predicting a new attack based on the disclosed embodiment will be described in detail.

도 32는 실시 예에 따라 새로운 악성 코드와 공격 방식을 예시하는 일 예를 나타낸 도면이다. 32 is a diagram illustrating an example of a new malicious code and an attack method according to an embodiment.

코드의 개발자는 코드를 생성하는데 본인만의 고유의 습관들, 예를 들어 변수명 선언, 함수 호출 구조, 파라미터 호출 방법 등을 사용하는 경향이 매우 높다. 프로그램의 개발이 논리의 흐름과 경험에 기반해 생성되기 때문에 이러한 습관을 완전히 변경하는 것은 매우 어려운 것이다. Developers of code tend to use their own customs, such as variable name declaration, function call structure, and parameter call method, when generating code. It is very difficult to completely change these habits because the development of programs is based on the flow of logic and experience.

이러한 근거에 기반하여 실시 예는 코드 상의 이와 같은 결과물들을 개발자의 핑거 프린팅로 사용하여 공격자를 추적할 수 있다. Based on this basis, the embodiment can track the attacker by using these results on the code as the developer's fingerprint.

악성 코드의 공격 식별자(T-ID)를 기반으로 학습 데이터를 구성할 경우 위와 같은 특징 정보를 이용해서 개발자를 특정할 수 있다. 악성 코드의 디스어셈블된 코드는 이러한 개발자의 고유 특성이나 습관을 반영하고 있다. When the training data is configured based on the attack identifier (T-ID) of the malicious code, the developer can be specified using the above characteristic information. The disassembled code of the malicious code reflects the unique characteristics or habits of these developers.

특정 해커가 특정 공격 기법을 구현하기 위해서 본인이 인지하지 못한 본인만의 사용하는 기법을 사용할 수 있으며 그 코드의 복잡도가 증가할수록 특정 개발자를 지정할 수 있는 가능성이 높아진다.In order to implement a specific attack technique, a specific hacker can use his/her own technique that he is not aware of, and as the complexity of the code increases, the possibility of designating a specific developer increases.

또한 각 공격 식별자(T-ID) 별 OP-CODE 와 ASM-CODE 의 코드 블록을 조합하면 아직 알려지지 않은 신종 또는 변종의 악성 코드 탐지에도 사용될 수 있다. In addition, by combining the code blocks of OP-CODE and ASM-CODE for each attack identifier (T-ID), it can be used to detect new or variant malicious codes that are not yet known.

이 도면은 아래와 실시 예에 따라 디스어셈블된 OP-CODE 와 ASM-CODE의 조합을 통해 현존하지 않는 새로운 TTP의 조합을 만드는 예를 개시한다. This figure discloses an example of creating a new TTP combination that does not exist through the combination of the disassembled OP-CODE and ASM-CODE according to the embodiment below.

이 예에서 T1044, T1039, T1211,…, T-N은 각각 공격 식별자(T-ID)들을 예시한다. In this example, T1044, T1039, T1211,… , T-N respectively illustrate attack identifiers (T-IDs).

각 공격 식별자에 대응하는 OP-CODE 1 ~ N 세트는 각각의 각 공격 식별자의 악성 코드에 포함되는 코드 세트를 의미한다. OP-CODEs 1 to N sets corresponding to each attack identifier refer to code sets included in the malicious code of each attack identifier.

여기서 예시한 바와 같이 malware 악성 코드는 기존에 알려진 공격 식별자T1044의 OP-CODE 1, T1039의 OP-CODE2, T1211의 OP-CODE3, 및, T-N의 OP-CODE 1 등을 조합을 포함하는 악성 코드라고 하자. 이러한 OP-CODE의 조합의 세트를 포함하는 malware 악성 코드는 이미 알려진 코드일 수도 있고 알려지지 않은 코드일 수도 있다. As exemplified here, malware is a malicious code that includes a combination of previously known attack identifiers OP-CODE 1 of T1044, OP-CODE2 of T1039, OP-CODE3 of T1211, and OP-CODE 1 of T-N. lets do it. Malware Malware that contains a set of combinations of these OP-CODEs may be known or unknown codes.

유사한 방식으로 T1044의 OP-CODE 3, T1039의 OP-CODEN, T1211의 OP-CODE4 및, T-N의 OP-CODE 2 등을 포함하는 새로운 공격 기법을 찾을 수 있다. In a similar manner, a new attack technique including OP-CODE 3 of T1044, OP-CODEN of T1039, OP-CODE4 of T1211, and OP-CODE 2 of T-N can be found.

또는 T1044의 OP-CODE 4, T1039의 OP-CODE4, T1211의 OP-CODE2 및, T-N의 OP-CODE 3 등을 포함하는 새롭고 알려지지 않은 공격 기법을 찾을 수도 있다.Alternatively, new and unknown attack techniques including OP-CODE 4 of T1044, OP-CODE4 of T1039, OP-CODE2 of T1211, and OP-CODE 3 of T-N may be found.

위에서는 편의상 OP-CODE의 조합만으로 공격 기법을 찾는 예를 개시하였으나, OP-CODE와 ASM-CODE를 조합하여 디스어셈블드 코드를 생성하면 공격 기법을 찾을 뿐만 아니라 공격자나 공격 그룹도 식별할 수 있다. Above, for convenience, an example of finding an attack technique using only the combination of OP-CODE is disclosed. However, if the disassembled code is generated by combining OP-CODE and ASM-CODE, not only can the attack technique be found, but also the attacker or attack group can be identified. .

유사하게 OP-CODE와 ASM-CODE를 포함하는 디스어셈블드 코드의 재조합을 통해 새로운 코드 세트를 생성할 수 있다. 실행 파일의 함수에 대응되는 OP-CODE 뿐만 아니라 실행 파일의 대상이나 저장 위치를 나타내는 ASM-CODE를 재구성하거나 또는 재조합된 디스어셈블드 코드를 생성할 수 있다. Similarly, a new code set can be generated through recombination of disassembled codes including OP-CODE and ASM-CODE. In addition to the OP-CODE corresponding to the function of the executable file, the ASM-CODE indicating the target or storage location of the executable file can be reconstructed or a recombined disassembled code can be generated.

이러한 재구성 디스어셈블드 코드를 머신 러닝을 통해 학습하여 기존에 분석된 악성 코드와 비교하면 세분화된 새로운 방식의 공격 기법과 이를 생성하는 공격자를 식별하는 것을 넘어 추후 공격 예측이 가능하다. By learning this reconstructed disassembled code through machine learning and comparing it with the previously analyzed malicious code, it is possible to predict future attacks beyond identifying a new segmented attack technique and an attacker who creates it.

이렇게 새로운 TTP 의 조합과 공격 경로의 조합은 지금까지 존재 하지 않았던 새로운 사이버 위협 또는 악성코드의 공격 방법을 만들어 낼 수 있는데, 실시 예는 이렇게 기존의 디스어셈블된 코드 세트를 조합하여 공격 가능한 코드가 생성되는지 확인할 수 있다. 공격 가능한 코드인지 여부는 동적 분석 등의 테스트 등을 통해 확인할 수도 있다. This combination of new TTP and attack path can create a new attack method of cyber threats or malicious codes that have not existed before. can check whether Whether the code is attackable can be checked through tests such as dynamic analysis.

따라서 실시 예는 디스어셈블된 코드 세트의 조합을 통해 향후 있을 보안 위협에 대응할 수 있는 정보를 제공할 수 있어 이에 대한 선제적인 대응이 가능하다. Accordingly, the embodiment can provide information capable of responding to future security threats through the combination of disassembled code sets, thereby enabling a preemptive response thereto.

예를 들면 조합된 코드에 기반하여 각 공격 기법(TTP) 별 사용 빈도나 사용 했을 때 성공 가능성 등의 값을 반영한 코드를 생성할 수 있다. For example, based on the combined code, it is possible to generate a code that reflects values such as the frequency of use for each attack technique (TTP) or the probability of success when used.

또는 인공 지능을 학습을 통해 성공 확률이 높은 새로운 코드 블록 조합의 공격 코드나 악성 코드를 미리 생성할 수 있다. 그리고 이러한 정보를 반영하여 기존 보안 제품들이 대응 할 수 있는 패턴을 생성하거나 내부 시스템의 취약한 부분의 보안성을 강화할 수 있는 정보를 제공할 수 있다. Alternatively, by learning artificial intelligence, an attack code or malicious code of a new code block combination with a high probability of success can be generated in advance. And by reflecting this information, it is possible to create a pattern that existing security products can respond to, or provide information that can strengthen the security of a vulnerable part of the internal system.

도 33은 사이버 위협 정보 처리 방법의 다른 일 실시 예를 예시한 도면이다. 33 is a diagram illustrating another embodiment of a method for processing cyber threat information.

입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 얻고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는다(S3110). The disassembled code is obtained by disassembling the input executable file, and the disassembled code is reconstructed to obtain the reconstructed disassembled code (S3110).

디스어셈블된 코드를 얻고 재구성하는 예는 도 18 및 도 21 등을 참조하여 설명하였다. An example of obtaining and reconfiguring the disassembled code has been described with reference to FIGS. 18 and 21 .

상기 재구성된 디스어셈블드 코드를 일정한 포맷의 데이터 세트로 변환한다(3120).The reconstructed disassembled code is converted into a data set of a predetermined format ( 3120 ).

재구성된 디스어셈블드 코드를 일정한 포맷의 데이터 세트로 변환하는 예는 도 18, 도 21, 도 22, 도 23, 도 24 등에 예시하였다. Examples of converting the reconstructed disassembled code into a data set of a predetermined format are exemplified in FIGS. 18, 21, 22, 23, and 24 .

상기 변환된 일정한 포맷의 데이터 세트에 기초하여 유사 여부를 판단하고 상기 판단에 따라 상기 실행 파일에 포함된 사이버 위협 공격 기법을 적어도 하나 이상의 정형화된 공격 식별자로 분류한다(S3130)A similarity is determined based on the converted data set in a certain format, and the cyber threat attack technique included in the executable file is classified into at least one standardized attack identifier according to the determination (S3130).

이 단계의 유사도 판단과 공격 식별자의 분류하는 예는 도 19, 도 20, 도 21, 도 25, 도 26, 도 27 등을 참조하여 설명하였다. Examples of similarity determination and classification of attack identifiers in this step have been described with reference to FIGS. 19, 20, 21, 25, 26, 27, and the like.

도 34는 사이버 위협 정보 처리 장치의 다른 일 실시 예를 예시한 도면이다. 34 is a diagram illustrating another embodiment of an apparatus for processing cyber threat information.

사이버 위협 정보 처리 장치의 다른 일 실시예는 프로세서를 포함하는 서버(2100), 데이터베이스(2200), 및 인텔리전스 플랫폼(10000)을 포함할 수 있다. Another embodiment of the cyber threat information processing apparatus may include a server 2100 including a processor, a database 2200 , and an intelligence platform 10000 .

인텔리전스 플랫폼(10000)은 응용 프로그램 인터페이스(Application Programming Interface) (1100), 프레임워크(18000), 여러 가지 알고리즘과 수행 모듈을 실행하는 분석및예측모듈(18100), AI 엔진(1230)을 포함할 수 있다. The intelligence platform 10000 may include an application programming interface 1100, a framework 18000, an analysis and prediction module 18100 that executes various algorithms and execution modules, and an AI engine 1230. there is.

데이터베이스(2200)는 이미 분류된 악성 코드 또는 악성 코드의 패턴 코드를 저장할 수 있다. The database 2200 may store previously classified malicious codes or pattern codes of malicious codes.

서버(2100)의 프로세서는 응용 프로그램 인터페이스(Application Programming Interface) (1100)로부터 수신된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 획득하고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는 제 1 모듈(18101)의 수행할 수 있다. The processor of the server 2100 disassembles the executable file received from the application programming interface 1100 to obtain the disassembled code, and reconstructs the disassembled code to generate the reconstructed disassembled code. Obtaining the first module 18101 can be performed.

제 1 모듈(18101)의 수행 과정의 예는 도 18, 도 21, 도 22, 도 23, 도 24 등에 예시하였다.Examples of the execution process of the first module 18101 are illustrated in FIGS. 18, 21, 22, 23, 24, and the like.

그리고 서버(2100)의 프로세서는 상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하는 코드 처리 모듈을 수행하도록 하는 제 2 모듈(18103)을 수행할 수 있다.In addition, the processor of the server 2100 may perform the second module 18103 for performing a code processing module that converts the reconstructed disassembled code into a data set of a specific format.

제 2 모듈(18103)의 수행 과정의 예는 도 18, 도 21, 도 22, 도 23, 도 24 등에 예시하였다.Examples of the execution process of the second module 18103 are illustrated in FIGS. 18, 21, 22, 23, and 24 .

서버(2100)의 프로세서는 상기 변환된 특정 포맷의 데이터 세트에 기초하여 상기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 제 3 모듈(18105)을 수행할 수 있다.The processor of the server 2100 determines whether it is similar to the stored malicious code based on the converted data set of the specific format, and classifies the converted data set of the specific format into at least one standardized attack identifier according to the determination A third module 18105 may be performed.

제 3 모듈(18105))의 수행 과정의 예는 도 19, 도 20, 도 21, 도 25, 도 26, 도 27 등을 참조하여 설명하였다.An example of the process of performing the third module 18105) has been described with reference to FIGS. 19, 20, 21, 25, 26, 27, and the like.

따라서 개시한 실시예에 따르면 머신 러닝으로 학습된 데이터와 정확하게 일치하지 않는 악성 코드라도 탐지하고 대응할 수 있고 악성 코드의 변종에 대응할 수 있다. Therefore, according to the disclosed embodiment, it is possible to detect and respond to malicious code that does not exactly match data learned by machine learning, and to respond to a variant of the malicious code.

실시예에 따르면 악성 코드의 변종이라도 매우 빠른 시간 내에 악성 코드, 공격 기법 및 공격자를 식별할 수 있고 나아가 추후의 특정 공격자의 공격 기법을 예측할 수 있다. According to the embodiment, even a variant of the malicious code can identify the malicious code, attack technique, and attacker within a very short time, and furthermore predict the attack technique of a specific attacker in the future.

실시예에 따르면 이러한 악성 코드 여부, 공격 기법, 공격 식별자 및 공격자를 기반으로 사이버 공격 구현 방식을 정확히 식별하고 이를 표준화된 모델로 제공할 수 있다. 실시예에 따르면 악성코드 탐지 명 등이 통일되지 않거나 사이버 공격 기법이 정확하게 기술되지 못하는 악성 코드의 정보를 정규화되고 표준화된 방식으로 제공할 수 있다. According to the embodiment, it is possible to accurately identify a cyber attack implementation method based on whether such malicious code exists, an attack technique, an attack identifier, and an attacker, and provide it as a standardized model. According to an embodiment, information on malicious codes in which the names of malicious code detection and the like are not unified or the cyber attack technique is not accurately described may be provided in a normalized and standardized manner.

또한 기존에 알려지지 않은 악성 코드를 생성 가능성과 이를 개발할 수 있는 공격자들을 예측하고 미래에 어떤 사이버 위협 공격이 있을지 예측 가능한 수단을 제공할 수 있다.In addition, it can predict the possibility of generating previously unknown malicious code and the attackers who can develop it, and provide a predictive means of what kind of cyber threat attack there will be in the future.

1010, 1020, 1030: 클라이언트
1100: 응용 프로그래밍 인터페이스
1210, 150000: 분석프레임워크
1211, 15100: 정적분석모듈
1213, 15200: 동적분석모듈
1215, 15300: 심층분석모듈
1217,15400: 연관관계분석모듈
1220,17000: 예측프레임워크
1221: 제 1예측정보생성모듈
1223: 제 2예측정보생성모듈
1230: AI 엔진
2000: 물리장치
2200: 데이터베이스
2100: 서버
2510, 2520, 2530,2540, 2610, 2620,2630 디시전 트리의 노드
10000: 인텔리전스 플랫폼
15101: 파일구조분석모듈
15103: 파일패턴분석모듈
15105: 파일제작정보분석모듈
15107: 파일환경분석모듈
15109: 파일관련분석모듈
15201: 환경준비모듈
15203: 파일실행모듈
15205: 행위수집모듈
15207: 분석결과취합모듈
15209: 분석환경복구모듈
15301: 디스어셈블링모듈
15303: 기계언어코드추출모듈
15309: 공격기법식별모듈
15307: 공격자식별모듈
15309: 테인트분석모듈
15401: 제1연관관계모듈
15403: 제2연관관계모듈
15409: 제3연관관계모듈
15407: 제4연관관계모듈
15409: 제5연관관계모듈
17100: 예측정보생성모듈
17101: 제1정보예측모듈
17103: 제2정보예측모듈
17105: 제3정보예측모듈
17107: 제4정보예측모듈
17109: 제5정보예측모듈
18000: 프레임워크
18100: 분석및예측모듈
18101, 18103, 18105: 제 1 모듈, 제 2 모듈, 제 3 모듈
1010, 1020, 1030: Client
1100: application programming interface
1210, 150000: Analysis Framework
1211, 15100: static analysis module
1213, 15200: dynamic analysis module
1215, 15300: In-depth analysis module
1217,15400: correlation analysis module
1220, 17000: Prediction Framework
1221: first prediction information generating module
1223: second prediction information generation module
1230: AI Engine
2000: physics device
2200: database
2100: Server
2510, 2520, 2530,2540, 2610, 2620,2630 Decision Tree Nodes
10000: Intelligence Platform
15101: file structure analysis module
15103: file pattern analysis module
15105: file production information analysis module
15107: file environment analysis module
15109: File-related analysis module
15201: Environment preparation module
15203: file execution module
15205: behavior collection module
15207: Analysis result collection module
15209: Analysis environment recovery module
15301: disassembly module
15303: Machine language code extraction module
15309: Attack technique identification module
15307: Attacker identification module
15309: Taint analysis module
15401: first association module
15403: second association module
15409: third association module
15407: fourth association module
15409: fifth association module
17100: prediction information generation module
17101: first information prediction module
17103: second information prediction module
17105: third information prediction module
17107: fourth information prediction module
17109: fifth information prediction module
18000: framework
18100: Analysis and Prediction Module
18101, 18103, 18105: first module, second module, third module

Claims (11)

입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 얻고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는 단계,
여기서, 상기 재구성된 디스어셈블드 코드는, 상기 실행파일에 포함된 함수들 중 운영 체계와 관련된 기본 함수들을 제외한, 프로그램 구현 함수에 대응하는 OP-CODE(operation code)와 상기 프로그램 구현 함수의 피연산자(operand)에 대응하는 어셈블리 코드를 포함하고,
상기 OP-CODE(operation code)와 상기 어셈블리 코드의 순서를 변경하여 재배열하여 상기 재구성된 디스어셈블드 코드를 얻고;
상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하는 단계,
여기서 상기 재구성된 디스어셈블드 코드를 제 1 길이의 데이터로 정규화하고 상기 정규화된 데이터를 벡터화하고, 상기 벡터화된 데이터를 퍼지 해쉬(Fuzzy Hashing) 함수 값의 데이터 세트로 변환하고; 및
상기 변환된 데이터 세트에 기초하여 기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 단계;를 포함하는, 프로세서에 의해 수행되는 사이버 보안 위협 정보 처리 방법.
disassembling the input executable to obtain disassembled code and reconstructing the disassembled code to obtain reconstructed disassembled code;
Here, the reconstructed disassembled code includes an OP-CODE (operation code) corresponding to a program implementation function and operands ( assembly code corresponding to operand);
obtaining the reconstructed disassembled code by changing and rearranging the order of the OP-CODE (operation code) and the assembly code;
converting the reconstructed disassembled code into a data set of a specific format;
wherein normalizing the reconstructed disassembled code to data of a first length, vectorizing the normalized data, and converting the vectorized data into a data set of Fuzzy Hashing function values; and
judging whether it is similar to a pre-stored malicious code based on the converted data set, and classifying the converted data set of a specific format into at least one standardized attack identifier according to the determination; by a processor comprising a; How cybersecurity threat information is processed.
삭제delete 삭제delete 제 1항에 있어서,
상기 분류하는 단계는,
상기 특정 포맷의 데이터 세트와 기 식별된 패턴의 악성 코드와의 유사도에 기반하여 상기 특정 포맷의 데이터 세트에 악성 코드가 포함되었는지 판단하고,
상기 판단 결과에 따라 상기 특정 포맷의 데이터 세트에 대해 앙상블 머신 러닝을 수행하여 상기 포함된 악성 코드를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 단계;를 더 포함하는 사이버 보안 위협 정보 처리 방법.
The method of claim 1,
The classification step is
determining whether a malicious code is included in the data set of the specific format based on the similarity between the data set of the specific format and the malicious code of a previously identified pattern;
and classifying the included malicious code into one or more standardized attack identifiers by performing ensemble machine learning on the data set of the specific format according to the determination result.
제 4항에 있어서,
상기 적어도 하나 이상의 정형화된 공격 식별자는 MITRE ATT&CK의 분류에 따르는 사이버 보안 위협 정보 처리 방법.
5. The method of claim 4,
The at least one standardized attack identifier is a cyber security threat information processing method according to the classification of MITER ATT&CK.
분류된 악성 코드를 저장하는 데이터 베이스; 및
입력된 실행 파일을 처리하는 프로세서를 포함하고,
상기 프로세서는, 응용 프로그램 인터페이스(Application Programming Interface; API)를 통해 상기 입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 획득하고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻는 모듈을 수행하고,
상기 프로세서는 상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하는 코드 처리 모듈을 수행하고,
여기서, 상기 재구성된 디스어셈블드 코드는, 상기 실행파일에 포함된 함수들 중 운영 체계와 관련된 기본 함수들을 제외한, 프로그램 구현 함수에 대응하는 OP-CODE(operation code)와 상기 프로그램 구현 함수의 피연산자(operand)에 대응하는 어셈블리 코드를 포함하고,
상기 프로세서는, 상기 OP-CODE(operation code)와 상기 어셈블리 코드의 순서를 변경하여 재배열하여 상기 재구성된 디스어셈블드 코드를 얻고,
상기 프로세서는, 상기 재구성된 디스어셈블드 코드를 제 1 길이의 데이터로 정규화하고 상기 정규화된 데이터를 벡터화하고, 상기 벡터화된 데이터를 퍼지 해쉬(Fuzzy Hashing) 함수 값의 데이터 세트로 변환하고, 상기 변환된 데이터 세트에 기초하여 기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 분류 모듈을 수행하는; 사이버 보안 위협 정보 처리 장치.
a database for storing classified malicious codes; and
a processor for processing input executable files;
The processor disassembles the input executable file through an application programming interface (API) to obtain a disassembled code, and reconstructs the disassembled code to obtain a reconstructed disassembled code. do,
The processor performs a code processing module that converts the reconstructed disassembled code into a data set of a specific format,
Here, the reconstructed disassembled code includes an OP-CODE (operation code) corresponding to a program implementation function and operands ( assembly code corresponding to operand);
The processor changes and rearranges the order of the OP-CODE (operation code) and the assembly code to obtain the reconstructed disassembled code,
The processor normalizes the reconstructed disassembled code to data of a first length, vectorizes the normalized data, converts the vectorized data into a data set of fuzzy hashing function values, and the transform determining whether it is similar to a previously stored malicious code based on the data set and performing a classification module for classifying the converted data set of a specific format into at least one standardized attack identifier according to the determination; Cybersecurity threat intelligence processing unit.
삭제delete 삭제delete 제 6항에 있어서,
상기 분류 모듈은,
상기 특정 포맷의 데이터 세트와 상기 저장된 악성 코드와의 유사도에 기반하여 상기 특정 포맷의 데이터 세트에 악성 코드가 포함되었는지 판단하고, 상기 판단 결과에 따라 상기 변환된 특정 포맷의 데이터 세트에 대해 앙상블 머신 러닝을 수행하여 상기 포함된 악성 코드를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는 사이버 보안 위협 정보 처리 장치.
7. The method of claim 6,
The classification module is
Based on the similarity between the data set of the specific format and the stored malicious code, it is determined whether a malicious code is included in the data set of the specific format, and ensemble machine learning is performed on the converted data set of the specific format according to the determination result A cyber security threat information processing device for classifying the included malicious code into at least one standardized attack identifier by performing
제 9항에 있어서,
상기 적어도 하나 이상의 정형화된 공격 식별자는 MITRE ATT&CK의 분류에 따르는 사이버 보안 위협 정보 처리 장치.
10. The method of claim 9,
The at least one standardized attack identifier is a cyber security threat information processing device according to the classification of MITER ATT&CK.
입력된 실행 파일을 디스어셈블링하여 디스어셈블된 코드를 얻고 상기 디스어셈블된 코드를 재구성하여 재구성된 디스어셈블드 코드를 얻고,
여기서, 상기 재구성된 디스어셈블드 코드는, 상기 실행파일에 포함된 함수들 중 운영 체계와 관련된 기본 함수들을 제외한, 프로그램 구현 함수에 대응하는 OP-CODE(operation code)와 상기 프로그램 구현 함수의 피연산자(operand)에 대응하는 어셈블리 코드를 포함하고,
상기 OP-CODE(operation code)와 상기 어셈블리 코드의 순서를 변경하여 재배열하여 상기 재구성된 디스어셈블드 코드를 얻고;
상기 재구성된 디스어셈블드 코드를 특정 포맷의 데이터 세트로 변환하고,
여기서 상기 재구성된 디스어셈블드 코드를 제 1 길이의 데이터로 정규화하고 상기 정규화된 데이터를 벡터화하고, 상기 벡터화된 데이터를 퍼지 해쉬(Fuzzy Hashing) 함수 값의 데이터 세트로 변환하고; 및
상기 변환된 데이터 세트에 기초하여 기 저장된 악성코드와 유사 여부를 판단하고 상기 판단에 따라 상기 변환된 특정 포맷의 데이터 세트를 적어도 하나 이상의 정형화된 공격 식별자로 분류하는; 사이버 보안 위협 정보 처리하는 프로그램을 저장하는 컴퓨터 판독 가능 저장 매체.
disassemble the input executable to obtain disassembled code and reconstruct the disassembled code to obtain reconstructed disassembled code,
Here, the reconstructed disassembled code includes an OP-CODE (operation code) corresponding to a program implementation function and operands ( assembly code corresponding to operand);
obtaining the reconstructed disassembled code by changing and rearranging the order of the OP-CODE (operation code) and the assembly code;
converting the reconstructed disassembled code into a data set of a specific format;
wherein normalizing the reconstructed disassembled code to data of a first length, vectorizing the normalized data, and converting the vectorized data into a data set of Fuzzy Hashing function values; and
determining whether it is similar to a pre-stored malicious code based on the converted data set and classifying the converted data set of a specific format into at least one standardized attack identifier according to the determination; A computer readable storage medium storing a program for processing cybersecurity threat information.
KR1020210106216A 2021-08-11 2021-08-11 Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information KR102396236B1 (en)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020210106216A KR102396236B1 (en) 2021-08-11 2021-08-11 Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
PCT/KR2022/000955 WO2023017931A1 (en) 2021-08-11 2022-01-19 Cyber threat information processing device, cyber threat information processing method, and storage medium storing cyber threat information processing program
EP22855933.2A EP4386597A1 (en) 2021-08-11 2022-01-19 Cyber threat information processing device, cyber threat information processing method, and storage medium storing cyber threat information processing program
US17/884,146 US20230048076A1 (en) 2021-08-11 2022-08-09 Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210106216A KR102396236B1 (en) 2021-08-11 2021-08-11 Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information

Publications (1)

Publication Number Publication Date
KR102396236B1 true KR102396236B1 (en) 2022-05-10

Family

ID=81591472

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210106216A KR102396236B1 (en) 2021-08-11 2021-08-11 Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information

Country Status (1)

Country Link
KR (1) KR102396236B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118606961A (en) * 2024-08-09 2024-09-06 杭州海康威视数字技术股份有限公司 Fuzzy test method and equipment based on multidimensional time sequence anomaly observation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160082644A (en) * 2014-12-30 2016-07-08 충남대학교산학협력단 Method and apparatus for detecting malware by code block classification
KR20190128977A (en) * 2018-05-09 2019-11-19 국방과학연구소 Apparatus and method for classifying malicious code data
KR102225460B1 (en) * 2019-10-16 2021-03-10 한국전자통신연구원 Method of detecting threat based on threat hunting using multi sensor data and apparatus using the same

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160082644A (en) * 2014-12-30 2016-07-08 충남대학교산학협력단 Method and apparatus for detecting malware by code block classification
KR20190128977A (en) * 2018-05-09 2019-11-19 국방과학연구소 Apparatus and method for classifying malicious code data
KR102225460B1 (en) * 2019-10-16 2021-03-10 한국전자통신연구원 Method of detecting threat based on threat hunting using multi sensor data and apparatus using the same

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Andreas Sæbjørnsen et al, "Detecting Code Clones in Binary Executables"(2009.07.) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118606961A (en) * 2024-08-09 2024-09-06 杭州海康威视数字技术股份有限公司 Fuzzy test method and equipment based on multidimensional time sequence anomaly observation

Similar Documents

Publication Publication Date Title
KR102362516B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102424014B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102396237B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
US20240054210A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
KR20230103275A (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102420884B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
US20240054215A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20230252146A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20230252144A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
KR102411383B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102396236B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
US20230048076A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
KR102447280B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
Kong et al. Semantic aware attribution analysis of remote exploits
KR102396238B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102437376B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR102447278B1 (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
US20240211595A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20240214406A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20240214396A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
US20240348639A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program
KR20240017644A (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a software processing cyber threat information
KR20240021676A (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and medium for storing a program processing cyber threat information
KR20240021677A (en) Apparatus for processing cyber threat information, method for processing cyber threat information, and computationally-readable storage medium for storing a program processing cyber threat information
US20240346140A1 (en) Cyber threat information processing apparatus, cyber threat information processing method, and storage medium storing cyber threat information processing program

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant