Nothing Special   »   [go: up one dir, main page]

KR102342055B1 - 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법 - Google Patents

정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법 Download PDF

Info

Publication number
KR102342055B1
KR102342055B1 KR1020210069470A KR20210069470A KR102342055B1 KR 102342055 B1 KR102342055 B1 KR 102342055B1 KR 1020210069470 A KR1020210069470 A KR 1020210069470A KR 20210069470 A KR20210069470 A KR 20210069470A KR 102342055 B1 KR102342055 B1 KR 102342055B1
Authority
KR
South Korea
Prior art keywords
data
input
value
unit
unstructured
Prior art date
Application number
KR1020210069470A
Other languages
English (en)
Inventor
정효용
윤창오
정민성
보아동
Original Assignee
주식회사 애자일소다
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 애자일소다 filed Critical 주식회사 애자일소다
Priority to KR1020210069470A priority Critical patent/KR102342055B1/ko
Application granted granted Critical
Publication of KR102342055B1 publication Critical patent/KR102342055B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법을 개시한다. 본 발명은 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선할 수 있고, 종래의 단순히 비정형 텍스트 데이터 만으로 분류하기 어려운 문제들을 정형 데이터를 함께 사용하여 분류함으로써, 분류 정확도를 향상시킬 수 있다.

Description

정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING NATURAL LANGUAGE USING STRUCTURED AND UNSTRUCTURED DATA}
본 발명은 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법에 관한 발명으로서, 더욱 상세하게는 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선한 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법에 관한 것이다.
최근에 신경망(neural network)를 이용하여 자연어를 생성하고, 기기 단말과 사용자 사이의 대화를 지원하는 다양한 애플리케이션에 자연어 생성 기술이 적용되고 있다.
이러한 신경망은 인간의 생물학적 신경 세포의 특성을 수학적 표현으로 모델링한 모델로서, 인간이 가지고 있는 학습이라는 능력을 모방한 알고리즘을 이용한다.
또한, 신경망은 학습된 결과에 기초하여 학습에 이용되지 않았던 입력 패턴에 대하여 비교적 올바른 출력을 생성할 수 있는 일반화 능력을 가진다.
현존하는 NLP(Natural Language Processing) 알고리즘은 구글이나 Open AI에서 BERT, GPT-3와 같은 트랜스포머(Transformer) 기반의 아키텍처로 NLP 분류 문제를 해결하고 있다.
트랜스포머 아키텍처는 적은 수의 일정한 단계만 수행하고, 각 단계에서 각 위치에 관계없이 문장의 모든 텍스트(단어) 간의 관계를 직접 모델링하는 셀프 어텐션 메커니즘(Self-Attention Mechanism)을 이용하여 텍스트 간의 관계를 파악할 수 있고, 성능을 향상시키는데 크게 기여하였다.
뿐만 아니라 기존의 NLP 알고리즘은 비정형 텍스트 데이터의 내용만으로 문제를 해결하고 있다.
여기서 텍스트 간의 관계는 주어진 단어들로부터 그다음에 등장한 단어의 확률을 예측하는 것으로서, 다음 등장할 단어를 잘 예측하는 모델이 그 언어의 특성을 잘 반영한 모델이고, 문맥을 잘 계산하는 언어 모델이 된다.
또한, BERT(Bidirectional Encoder Representations from Transformers)는 트랜스포머 기반으로, 문맥을 고려한 임베딩(Sentence Embedding) 또는 상황별 단어 임베딩(Contextual Word Embedding)을 구하는 네트워크로서, 문장을 토큰으로 쪼개서 네트워크에 넣으면 전체 문장에 대한 벡터(Vector)와 문장안의 단어 각각에 대응되는 벡터를 출력한다.
이들을 기반으로 텍스트 분류(Text Classification) 등의 태스크(Task)를 학습하여 수행하면 매우 쉽게 뛰어난 성능을 얻을 수 있는데, 이는 전체 네트워크가 매우 많은 양의 문서로 마스킹된 언어 모델(Masked Language Models, MLM)을 미리 학습(pre-training)하였기 때문이다
그러나, 모델의 크기가 증가하면서, 하나의 GPU에서 큰 모델을 학습하는 것이 점점 어려워지고, 모델 크기가 증가하면서 추론에 필요한 시간이 함께 늘어나는 문제점이 있다.
또한, 비정형 텍스트 데이터를 분류할 때는 성능이 압도적이지만, 정형 데이터를 함께 가지고 있는 경우에는 그 정보를 제대로 활용하지 못하는 문제점이 있다.
즉, 현재의 NLP 모델은 단어 시퀀스(문장)에 대한 확률을 예측하고, 양방향 트랜스포머를 이용한 버트(BERT) 모델과 1개의 분류 레이어를 구성하여 자연어 처리를 수행하고, 이때, 비정형 텍스트 데이터만을 활용한 분류 시 우수한 분류 성능을 제공할 수 있지만, 정형 데이터의 정보는 따로 활용하고 있지 않는 문제점이 있다.
따라서, 비정형 텍스트 데이터와 정형 텍스트 데이터가 함께 구성된 데이터에 대한 분류 문제를 해결할 때, 기존 모델들을 활용하여 분류를 원하는 데이터에 대하여 분류하기는 어려운 문제점이 있다.
한국 등록특허공보 등록번호 제10-2166390호(발명의 명칭: 비정형 데이터의 모델링 방법 및 시스템)
이러한 문제점을 해결하기 위하여, 본 발명은 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선한 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
또한, 본 발명은 입력 데이터에 비정형 데이터와 정형 데이터가 함께 있는 경우, 비정형 데이터와 정형 데이터를 함께 활용할 수 있도록 2개의 서로 다른 네트워크를 병렬로 설치하여 분류할 수 있도록 구성함으로써, 분류 정확도를 향상시킬 수 있는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법을 제공하는 것을 목적으로 한다.
상기한 목적을 달성하기 위하여 본 발명의 일 실시 예는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치로서, 입력부로부터 비정형 데이터와 정형 데이터가 입력되면, 서로 다른 머신러닝 네트워크를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측하고, 상기 머신러닝 네트워크는 비정형 데이터를 입력 값으로 사용하여 예측하는 제1 네트워크와, 상기 정형 데이터를 입력 값으로 사용하여 예측하는 제2 네트워크가 병렬로 구성될 수 있으며, 상기 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 예측한 결과를 출력하는 데이터 처리부;를 포함할 수 있다.
또한, 상기 실시 예에 따른 제1 네트워크는 버트(BERT, Bidirectional Encoder Representations from Transformers) 모델 기반이고, 상기 제2 네트워크는 피드 포워드 신경망(Feed-Forward Neural Network) 기반인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 처리부에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더한 결과를 분류 모델에 기반하여 분류하는 분류부;를 더 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 입력부는 입력 데이터 중에서 텍스트 기반의 데이터를 인식하여 텍스트만 추출하여 출력하는 텍스트 입력부; 및 상기 입력 데이터 중에서 데이터 개체(Entity), 속성(Attribute), 관계(Relationship)에 따른 스키마(Schema) 형태, 연산 가능 여부, 데이터 특성, 숫자 및 범주형 데이터 중 적어도 하나로 이루어진 정형 데이터를 추출하여 출력하는 정형 데이터 입력부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 입력부는 입력된 데이터에서 음성 기반의 데이터를 인식하면, 상기 음성 기반의 데이터를 텍스트 데이터로 변환하여 텍스트만 추출하는 STT 입력부를 더 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 데이터 처리부는 입력된 비정형 데이터를 버트(BERT) 모델 기반에서 분석 및 예측하여 비정형 데이터의 특성 값을 출력하는 제1 네트워크부; 입력된 정형 데이터를 피드 포워드 신경망 기반에서 분석 및 예측하여 정형 데이터의 특성 값을 출력하는 제2 네트워크부; 및 상기 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 분류부로 출력하는 연산부;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 제1 및 제2 네트워크부는 오버피팅(Overfitting) 방지를 위한 잔차 네트워크(Residual Network)를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 제1 네트워크부는 입력된 비정형 데이터를 임베딩을 통해 벡터 값으로 변환하는 임베딩 레이어; 상기 변환된 벡터 값을 정규화하는 정규화 레이어; 및 상기 정규화된 벡터 값을 버트 알고리즘을 이용하여 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터 값을 출력하는 버트 레이어;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 제2 네트워크부는 입력된 정형 데이터를 정규화하는 정규화 레이어; 및 상기 정규화된 정형 데이터를 피드 포워드 신경망(Feed-Forward Neural Network) 기반으로 예측하여 정형 데이터의 특성 값을 출력하는 피드 포워드 레이어;를 포함하는 것을 특징으로 한다.
또한, 본 발명의 일 실시 예는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법으로서, a) 입력부가 입력된 데이터를 비정형 데이터와 정형 데이터로 분류하는 단계; b) 데이터 처리부가 분류된 비정형 데이터와 정형 데이터를 입력받아 서로 다른 머신러닝 네트워크를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측하는 단계; 및 c) 상기 데이터 처리부가 상기 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 예측 결과를 출력하는 단계;를 포함하고, 상기 머신러닝 네트워크는 비정형 데이터를 입력 값으로 사용하여 예측하는 제1 네트워크와, 상기 정형 데이터를 입력 값으로 사용하여 예측하는 제2 네트워크가 병렬로 구성된 것을 특징으로 한다.
또한, 상기 실시 예는 d) 분류부가 상기 데이터 처리부(120)에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더한 결과를 분류 모델에 기반하여 분류하는 단계;를 더 포함하는 것을 특징으로 한다.
또한, 상기 실시 예에 따른 제1 네트워크는 버트(BERT, Bidirectional Encoder Representations from Transformers) 모델 기반이고, 상기 제2 네트워크는 피드 포워드 신경망(Feed-Forward Neural Network) 기반인 것을 특징으로 한다.
또한, 상기 실시 예에 따른 a) 단계는 a-1) 입력부가 입력 데이터 중에서 텍스트 기반의 데이터를 인식하면 텍스트를 추출하는 단계; 및 a-2) 상기 입력부가 추출된 텍스트를 기반으로 데이터 개체(Entity), 속성(Attribute), 관계(Relationship)에 따른 스키마(Schema) 형태, 데이터 특성, 숫자 데이터, 범주형 데이터 및 연산 가능 여부에 따라 정형 데이터 또는 비정형 데이터로 분류하는 단계;를 포함하는 것을 특징으로 한다.
또한, 상기 실시 예는 a-1) 단계에서 입력된 데이터에서 음성 기반의 데이터를 인식하면, 상기 음성 기반의 데이터를 텍스트 데이터로 변환하여 텍스트만을 추출하는 단계;를 더 포함하는 것을 특징으로 한다.
본 발명은 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선할 수 있는 장점이 있다.
또한, 본 발명은 입력 데이터에 비정형 데이터와 정형 데이터가 함께 있는 경우, 비정형 데이터와 정형 데이터를 함께 활용할 수 있도록 병렬로 설치된 서로 다른 네트워크에 기반한 예측 값을 이용하여 분류할 수 있도록 구성함으로써, 분류 정확도를 향상시킬 수 있는 장점이 있다.
또한, 본 발명은 비정형 텍스트 데이터 만으로 분류하기 어려운 문제들을 정형 데이터를 함께 사용하여 분류함으로써, BERT 모델을 이용한 분류 시 특정 분야에서 분류 정확도가 낮아지는 것을 방지할 수 있고, 특정 과제를 수행하기 위한 언어 모델, 예를 들어 Bio, Science, Finance 등에서 분류를 원하는 데이터의 분류 정확도를 향상시킬 수 있는 장점이 있다.
도1은 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치를 개략적으로 나타낸 예시도.
도2는 도1의 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치의 입력부 구성을 나타낸 예시도.
도3은 도1의 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치의 데이터 처리부 구성을 나타낸 예시도.
도4는 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법을 설명하기 위해 나타낸 흐름도.
이하에서는 본 발명의 바람직한 실시 예 및 첨부하는 도면을 참조하여 본 발명을 상세히 설명하되, 도면의 동일한 참조부호는 동일한 구성요소를 지칭함을 전제하여 설명하기로 한다.
본 발명의 실시를 위한 구체적인 내용을 설명하기에 앞서, 본 발명의 기술적 요지와 직접적 관련이 없는 구성에 대해서는 본 발명의 기술적 요지를 흩뜨리지 않는 범위 내에서 생략하였음에 유의하여야 할 것이다.
또한, 본 명세서 및 청구범위에 사용된 용어 또는 단어는 발명자가 자신의 발명을 최선의 방법으로 설명하기 위해 적절한 용어의 개념을 정의할 수 있다는 원칙에 입각하여 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야 할 것이다.
본 명세서에서 어떤 부분이 어떤 구성요소를 "포함"한다는 표현은 다른 구성요소를 배제하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다.
또한, "‥부", "‥기", "‥모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어, 또는 그 둘의 결합으로 구분될 수 있다.
또한, "적어도 하나의" 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다.
또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시 예에 따라 변경가능하다 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법의 바람직한 실시 예를 상세하게 설명한다.
도1은 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치를 개략적으로 나타낸 예시도이고, 도2는 도1의 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치의 입력부 구성을 나타낸 예시도이며, 도3은 도1의 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치의 데이터 처리부 구성을 나타낸 예시도이다.
도1 내지 도3을 참조하면, 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치(100)는 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선할 수 있도록 비정형 데이터와 정형 데이터가 입력되면, 서로 다른 머신러닝 네트워크를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측하되, 머신러닝 네트워크는 비정형 데이터를 입력 값으로 사용하여 예측하는 제1 네트워크와, 정형 데이터를 입력 값으로 사용하여 예측하는 제2 네트워크가 병렬로 구성될 수 있다.
또한, 본 발명의 일 실시 예에 따른 자연어 처리 장치(100)는 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 출력할 수 있으며, 입력부(110)와, 데이터 처리부(120)와, 분류부(130)를 포함하여 구성될 수 있다.
입력부(110)는 임의의 입력 데이터가 입력되면 텍스트만을 추출하고, 추출된 텍스트를 정형 데이터와 비정형 데이터로 분류하여 데이터 처리부(120)로 출력하는 구성으로서, 텍스트 입력부(111)와, 정형 데이터 입력부(112)를 포함하여 구성될 수 있다.
예를 들어, "A 카드사 100만 원"이 입력 데이터로 입력되면, 입력 내용을 단순히 비정형 데이터에 기반하여 분류하는 경우, 정확한 분류가 이루어지지 못하게 된다.
따라서, 입력부(110)는 입력 데이터로부터 주기성, 금액, 결제, 취소 환불 등을 추가 파악하여 예를 들어 "A 카드사로부터 100만 원이 결제 취소에 따라 입금된 환불금"과 같이 입력 데이터의 정확한 분류가 이루어질 수 있도록 한다.
텍스트 입력부(111)는 입력 데이터를 분석하여 텍스트 기반의 데이터로 인식되면, 입력 데이터로부터 텍스트만을 추출하여 출력한다.
또한, 텍스트 입력부(111)는 텍스트 데이터와 함께, 예를 들어, 주기성, 비용, 결제 요청, 결제 승인, 결제 취소 등의 추출된 텍스트의 내용을 파악하여 분류에 활용할 수 있는 정형 데이터 정보를 추출할 수도 있다.
또한, 입력부(110)는 입력 데이터를 분석하여 음성 기반의 데이터가 인식되면, STT(Speech To Text)를 이용하여 입력된 음성 기반의 데이터를 텍스트 데이터로 변환하고, 변환된 텍스트 데이터를 인식하여 텍스트만을 추출한 데이터를 출력하는 STT 입력부(111a)가 추가 구성될 수도 있다.
또한, STT 입력부(111a)는 텍스트 데이터와 함께, 음성 데이터의 시간, 음성 발화자의 목소리 높낮이, 음성 발화자의 나이, 음성 기반 데이터의 분류 카테고리 등의 정형 데이터 정보를 추출할 수도 있다.
정형 데이터 입력부(112)는 입력 데이터 중에서 예를 들어, 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 등의 스키마(Schema) 형태, 연산 가능 여부, 데이터 특성, 숫자 및 범주형 데이터 등에 따라 정형 데이터를 추출하여 출력한다.
정형 데이터(Structured Data)는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터로서, 관계형 데이터베이스의 테이블 형태로 저장될 수 있다.
즉, 정형 데이터는 구조와 관리 체계에 규칙이 있고, 틀이 잡혀 있어서 일반적으로 사용한 구분자가 있으며, 해당 데이터 값이 있는 데이터이다.
또한, 정형 데이터는 정해진 형식과 저장 구조를 바탕으로 쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있다.
비정형 데이터(Unstructured Data)는 정형 데이터 외에 모든 데이터가 포함될 수 있으며, 틀이 잡혀 있지 않고, 스키마 구조가 없는 데이터로, 음원, 이미지, 동영상, 텍스트 문서, 로그 등과 같은 특정한 형태가 없는 데이터일 수 있고, 연산이 되는 구조가 아니며, 각 데이터의 특성에 맞게 저장 및 관리될 수 있다.
본 실시 예에서는 설명의 편의를 위해 텍스트로 이루어진 문서를 실시 예로 설명하지만, 이에 한정되는 것은 아니다.
또한, 문서는 텍스트 중심으로 되어 구성될 수 있으며, 날짜, 숫자, 사실, 도표, 그림과 같은 데이터도 포함할 수 있다.
또한, 비정형 데이터는 텍스트 마이닝, 웹 마이닝, 오피니언 마이닝 또는 파일인 경우 파일을 데이터 형태로 파싱해야 하기 때문에 수집 데이터 처리가 어렵다
또한, 비정형 데이터는 규격화의 어려움이 있어 저장, 관리의 어려움이 있으며, 대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 분석하여 가치 있는 정보를 추출하여 분석할 수 있다.
또한, 비정형 데이터는 일정 집단에 대하여 미리 정의된 특성 정의를 통해 분류(Classification) 및 구분을 추론할 수 있고, 구체적인 특성을 공유하는 군집화(Clustering)과, 동시에 발생한 사건 간의 관계를 정의하는 연관성(Association)과, 대용량 데이터 집합 내의 패턴을 기반으로 미래를 예측하는 연속성(Forecasting) 등을 통해 비정형 데이터의 특성 값을 설정할 수 있다.
데이터 처리부(120)는 정형 데이터와 비정형 데이터로 이루어진 입력 데이터(110a)가 입력되면, 서로 다른 머신러닝 네트워크를 이용하여 정형 데이터의 특성(Feature) 값과 비정형 데이터의 특성(Feature) 값을 예측한다.
또한, 데이터 처리부(120)는 머신러닝 네트워크가 비정형 데이터(110a')를 입력 값으로 사용하여 예측하는 제1 네트워크와, 정형 데이터(110a")를 입력 값으로 사용하여 예측하는 제2 네트워크가 병렬로 구성될 수 있고, 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 출력할 수 있도록 제1 네트워크부(121)와, 제2 네트워크부(122)와, 연산부(123)를 포함하여 구성될 수 있다.
또한, 본 실시 예에 따른 제1 네트워크는 버트(BERT, Bidirectional Encoder Representations from Transformers) 모델 기반의 네트워크이고, 제2 네트워크는 피드 포워드 신경망(Feed-Forward Neural Network) 기반의 네트워크로 구성될 수 있다.
제1 네트워크부(121)는 입력된 비정형 데이터(110a')를 버트(BERT) 모델의 기반에서 분석 및 예측하여 비정형 데이터의 특성 값을 출력하는 구성으로서, 임베딩 레이어(121a)와, 정규화 레이어(121b)와, 버트 레이어(121c)를 포함하여 구성될 수 있다.
임베딩 레이어(121a)는 입력된 비정형 데이터(110a')를 임베딩을 통해 벡터 값으로 변환하는 구성으로서, 토큰 임베딩(Token Embedding), 세그먼트 임베딩(Segment Embedding), 포지션 임베딩(Position Embedding)을 취합하여 3개의 임베딩을 합산한 하나의 임베딩 값으로 만든다.
정규화 레이어(121b)는 임베딩 레이어(121a)에서 변환된 벡터 값을 정규화한다.
버트 레이어(121c)는 정규화된 벡터 값을 버트 알고리즘(또는 버트 모델)을 이용하여 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터 값을 출력하는 구성으로서, 버트 알고리즘은 'N'개의 인코더 블럭을 가질 수 있다.
또한, 버트 레이어(121c)의 인코더 블록은 이전 출력 값을 현재의 입력 값으로 하는 RNN(Recurrent Neural Network)과 유사한 특징을 지닐 수 있다.
또한, 버트 레이어(121c)는 인코더 블록 내에서 각각의 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하기 위해 잔차 네트워크(Residual Network)로 처리할 수 있다.
또한, 버트 레이어(121c)는 그래디언트(Gradient)가 비선형 활성화(Non Linear Activation)인 GELU(Gaussian Error Linear Unit)을 거쳐 0 주변의 그래디언트를 계산할 때, ReLU(Rectifier Linear Uint)보다 유연하게 계산이 가능하다.
제2 네트워크부(122)는 제1 네트워크부(121)와 병렬로 설치되고, 입력된 정형 데이터(110a")를 피드 포워드 신경망 기반에서 분석 및 예측하여 정형 데이터의 특성 값을 출력하는 구성으로서, 정규화 레이어(122a)와, 피드 포워드 레이어(122b)를 포함하여 구성될 수 있다.
정규화 레이어(122a)는 입력된 정형 데이터(110a")를 정규화하여 출력한다.
피드 포워드 레이어(122b)는 정규화 레이어(122a)에서 정규화된 정형 데이터를 피드 포워드 신경망(Feed-Forward Neural Network)을 기반으로 예측하여 정형 데이터의 특성 값을 출력한다.
피드 포워드 신경망은 입력된 데이터가 입력 레이어에서 은닉 레이어를 거쳐 출력 레이어까지 전달되고, 분류를 위한 벡터 값을 출력한다.
또한, 피드 포워드 신경망은 분류를 예측하기 위해 정해진 컬럼의 데이터만을 참고하고, 입력값의 분포가 변하는 것을 방지하기 위해 잔차 네트워크(Residual Network)를 포함하여 구성될 수 있다.
연산부(123)는 제1 네트워크부(121)에서 출력되는 비정형 데이터의 특성 값과, 제2 네트워크부(122)에서 출력되는 정형 데이터의 특성 값을 더하여 합산한 예측 결과를 분류부(130)로 출력한다.
분류부(130)는 데이터 처리부(120)에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더한 예측 결과를 Classifier 기반의 분류 모델을 사용하여 최종 분류한다.
다음은 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법을 설명한다.
도4는 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법을 설명하기 위해 나타낸 흐름도이다.
도1 내지 도4를 참조하면, 본 발명의 일 실시 예에 따른 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법은 입력부(110)로 임의의 입력 데이터가 입력(S100)되면, 입력부(110)는 입력 데이터로부터 텍스트만을 추출하고, 추출된 텍스트를 정형 데이터와 비정형 데이터로 분류하여 데이터 처리부(120)로 출력(S200)한다.
S200 단계에서, 입력부(110)는 입력 데이터를 분석하여 텍스트 기반의 데이터로 인식되면, 입력 데이터로부터 텍스트만을 추출할 수 있다.
한편, S200 단계에서 입력부(100)는 입력 데이터가 음성 기반의 데이터로 인식되는 경우, 입력된 음성 기반의 데이터를 텍스트 데이터로 변환하여 변환된 텍스트 데이터를 인식하여 텍스트만을 추출할 수도 있다.
또한, S200 단계에서 입력부(110)는 추출된 텍스트를 분석하여 예를 들어, 데이터 개체(Entity), 속성(Attribute), 관계(Relationship) 등의 스키마(Schema) 형태, 연산 가능 여부, 데이터 특성 등에 따라 데이터(110a)를 비정형 데이터(110a') 및 정형 데이터(110a")로 분류하고, 분류된 비정형 데이터(110a')와 정형 데이터(110a")는 데이터 처리부(120)로 제공한다.
데이터 처리부(120)는 S200 단계에서 분류된 비정형 데이터(110a')와 정형 데이터(110a")를 입력받아 서로 다른 머신러닝 네트워크가 병렬로 구성된 제1 네트워크부(121)와 제2 네트워크부(122)를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측(S300, S400)한다.
즉, 비정형 데이터는 제1 네트워크부(121)의 입력 값으로 사용되고, 정형 데이터는 제2 네트워크부(122)의 입력 값으로 사용된다.
S300 단계에서, 제1 네트워크부(121)는 버트(BERT, Bidirectional Encoder Representations from Transformers) 모델 기반으로서, 입력된 비정형 데이터(110a')를 버트(BERT) 모델의 기반에서 분석 및 예측하여 비정형 데이터의 특성 값을 출력한다.
또한, S300 단계에서, 제1 네트워크부(121)는 입력된 비정형 데이터(110a')를 토큰 임베딩(Token Embedding), 세그먼트 임베딩(Segment Embedding), 포지션 임베딩(Position Embedding)을 취합하여 3개의 임베딩을 합산한 임베딩을 통해 하나의 임베딩된 벡터 값으로 변환한다.
또한, 제1 네트워크부(121)는 임베딩을 통해 변환된 벡터 값을 정규화하고, 정규화된 벡터 값을 버트 알고리즘(또는 버트 모델)을 이용하여 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터 값을 출력한다.
이때, 버트 알고리즘은 'N'개의 인코더 블럭을 가질 수 있다.
또한, 제1 네트워크부(121)는 인코더 블록은 셀프 어텐션 메커니즘(Self-Attention Mechanism)을 사용하여 토큰(단어)간의 특징을 파악할 수 있고, 인코더 블록 내에서 각각의 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하기 위해 잔차 네트워크(Residual Network)를 이용하여 처리할 수 있다.
또한, 제1 네트워크부(121)는 그래디언트(Gradient)가 비선형 활성화 함수(Non Linear Activation Function)인 GELU(Gaussian Error Linear Unit)을 거쳐 0 주변의 그래디언트(Gradient)를 계산할 때, ReLU(Rectifier Linear Uint)보다 유연하게 계산이 가능하다.
S400 단계에서, 제2 네트워크부(122)는 제1 네트워크부(121)와 병렬로 설치되고, 입력된 정형 데이터(110a")를 정규화하고, 정규화된 정형 데이터를 피드 포워드 신경망(Feed-Forward Neural Network) 기반에서 분석 및 예측하여 정형 데이터의 특성 값을 출력한다.
피드 포워드 신경망은 입력된 데이터가 입력 레이어에서 은닉 레이어를 거쳐 출력 레이어까지 전달되고, 순환 경로가 존재하지 않는 유사도를 표현하기 위한 벡터 값을 출력한다.
또한, 피드 포워드 신경망은 다음 데이터(단어)를 예측하기 위해 모든 이전 데이터를 참고하는 것이 아니라, 정해진 'n'개의 데이터만을 참고하여 버려지는 데이터들이 가진 문맥 정보를 참고할 수 없어 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하기 위해 잔차 네트워크(Residual Network)를 포함하여 구성될 수 있다.
계속해서, 데이터 처리부(120)는 제1 네트워크부(121)에서 출력되는 비정형 데이터의 특성 값과, 제2 네트워크부(122)에서 출력되는 정형 데이터의 특성 값을 더하여 합산하고, 합산된 예측 결과를 분류부(130)로 출력(S500)한다.
분류부(130)는 S500 단계에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 합산한 예측 결과를 Classifier 기반의 분류 모델을 사용하여 최종 분류(S600)한다.
따라서, 정형 데이터와 비정형 데이터의 특성 값을 이용한 모델링을 통해 언어 모델의 분류 문제를 개선할 수 있고, 종래의 단순히 비정형 텍스트 데이터 만으로 분류하기 어려운 문제들을 정형 데이터를 함께 사용하여 분류함으로써, 분류를 원하는 데이터의 분류 정확도를 향상시킬 수 있다.
상기와 같이, 본 발명의 바람직한 실시 예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
또한, 본 발명의 특허청구범위에 기재된 도면번호는 설명의 명료성과 편의를 위해 기재한 것일 뿐 이에 한정되는 것은 아니며, 실시예를 설명하는 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한, 상술된 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있으므로, 이러한 용어들에 대한 해석은 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
또한, 명시적으로 도시되거나 설명되지 아니하였다 하여도 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기재사항으로부터 본 발명에 의한 기술적 사상을 포함하는 다양한 형태의 변형을 할 수 있음은 자명하며, 이는 여전히 본 발명의 권리범위에 속한다.
또한, 첨부하는 도면을 참조하여 설명된 상기의 실시예들은 본 발명을 설명하기 위한 목적으로 기술된 것이며 본 발명의 권리범위는 이러한 실시예에 국한되지 아니한다.
100 : 자연어 처리 장치
110 : 입력부
110a : 데이터
110a' : 비정형 데이터
110a" : 정형 데이터
111 : 텍스트 입력부
111a : STT 입력부
112 : 정형 데이터 입력부
120 : 데이터 처리부
121 : 제1 네트워크부
121a : 임베딩 레이어
121b : 정규화 레이어
121c : 버트 레이어
122 : 제2 네트워크부
122a : 정규화 레이어
122b : 피드 포워드 레이어
123 : 연산부
130 : 분류부

Claims (14)

  1. 입력부(110)로부터 비정형 데이터와 정형 데이터가 입력되면, 서로 다른 머신러닝 네트워크를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측하되, 상기 머신러닝 네트워크는 비정형 데이터를 입력 값으로 사용하여 예측하는 제1 네트워크와, 상기 정형 데이터를 입력 값으로 사용하여 예측하는 제2 네트워크가 병렬로 구성되고, 상기 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 예측한 결과를 출력하는 데이터 처리부(120);를 포함하며,
    상기 데이터 처리부(120)는 이전 출력 값을 현재의 입력 값으로 하는 N개의 인코더 블록이 셀프 어텐션 메커니즘(Self-Attention Mechanism)을 사용하여 단어 간의 특징을 파악하고, 잔차 네트워크(Residual Network)를 이용하여 인코더 블록 내에서 각각의 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하며, 임베딩을 통해 변환된 비정형 데이터의 벡터 값을 정규화하고, 버트(BERT) 모델을 이용하여 정규화된 벡터 값을 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터값으로 출력하여 비정형 데이터의 분석 및 예측을 통한 비정형 데이터의 특성 값을 출력하는 제1 네트워크부(121);
    잔차 네트워크(Residual Network)를 통해 다음 단어를 예측하기 위해 정해진 'n'개의 데이터만을 참고하여 버려지는 데이터들이 가진 문맥 정보를 참고할 수 없어 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하고, 피드 포워드 신경망을 이용하여 입력된 정형 데이터를 입력 레이어에서 은닉 레이어를 거쳐 출력 레이어까지 전달되며, 순환 경로가 존재하지 않는 유사도를 갖는 벡터 값을 출력하여 정형 데이터의 분석 및 예측을 통한 정형 데이터의 특성 값을 출력하는 제2 네트워크부(122); 및
    상기 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 분류부(130)로 출력하는 연산부(123);를 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 데이터 처리부(120)에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더한 결과를 분류 모델에 기반하여 분류하는 분류부(130);를 더 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  4. 제 1 항 또는 제 3 항에 있어서,
    상기 입력부(110)는 입력 데이터 중에서 텍스트 기반의 데이터를 인식하여 텍스트만 추출하여 출력하는 텍스트 입력부(111); 및
    상기 입력 데이터 중에서 데이터 개체(Entity), 속성(Attribute), 관계(Relationship)에 따른 스키마(Schema) 형태, 연산 가능 여부, 데이터 특성, 숫자 및 범주형 데이터 중 적어도 하나로 이루어진 정형 데이터를 추출하여 출력하는 정형 데이터 입력부(112);를 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  5. 제 4 항에 있어서,
    상기 입력부(110)는 입력된 데이터에서 음성 기반의 데이터를 인식하면, 상기 음성 기반의 데이터를 텍스트 데이터로 변환하여 텍스트만 추출하는 STT 입력부(111a)를 더 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  6. 삭제
  7. 삭제
  8. 제 1 항에 있어서,
    상기 제1 네트워크부(121)는 입력된 비정형 데이터를 임베딩을 통해 벡터 값으로 변환하는 임베딩 레이어(121a);
    상기 변환된 벡터 값을 정규화하는 정규화 레이어(121b); 및
    이전 출력 값을 현재의 입력 값으로 하는 N개의 인코더 블록이 셀프 어텐션 메커니즘(Self-Attention Mechanism)을 사용하여 단어 간의 특징을 파악하고, 잔차 네트워크(Residual Network)를 이용하여 인코더 블록 내에서 각각의 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하며, 상기 정규화된 벡터 값을 버트(BERT) 모델을 이용하여 정규화된 벡터 값을 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터값으로 출력하여 비정형 데이터를 분석 및 예측한 비정형 데이터의 특성 값을 출력하는 버트 레이어(121c);를 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  9. 제 1 항에 있어서,
    상기 제2 네트워크부(122)는 입력된 정형 데이터를 정규화하는 정규화 레이어(122a); 및
    잔차 네트워크(Residual Network)를 통해 다음 단어를 예측하기 위해 정해진 'n'개의 데이터만을 참고하여 버려지는 데이터들이 가진 문맥 정보를 참고할 수 없어 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하고, 피드 포워드 신경망을 이용하여 상기 정규화된 정형 데이터를 입력 레이어에서 은닉 레이어를 거쳐 출력 레이어까지 전달되며, 순환 경로가 존재하지 않는 유사도를 갖는 벡터 값을 출력하여 정형 데이터의 분석 및 예측을 통한 정형 데이터의 특성 값을 출력하는 피드 포워드 레이어(122b);를 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치.
  10. a) 입력부(110)가 입력된 데이터를 비정형 데이터와 정형 데이터로 분류하는 단계;
    b) 데이터 처리부(120)가 분류된 비정형 데이터와 정형 데이터를 입력받아 서로 다른 머신러닝 네트워크를 이용하여 비정형 데이터의 특성(Feature) 값과 정형 데이터의 특성(Feature) 값을 예측하는 단계; 및
    c) 상기 데이터 처리부(120)가 상기 예측된 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 예측 결과를 출력하는 단계;를 포함하고,
    상기 데이터 처리부(120)는 이전 출력 값을 현재의 입력 값으로 하는 N개의 인코더 블록이 셀프 어텐션 메커니즘(Self-Attention Mechanism)을 사용하여 단어 간의 특징을 파악하고, 잔차 네트워크(Residual Network)를 이용하여 인코더 블록 내에서 각각의 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하며, 임베딩을 통해 변환된 비정형 데이터의 벡터 값을 정규화하고, 버트(BERT) 모델을 이용하여 정규화된 벡터 값을 문장에 대한 벡터 값과 문장 내의 개별 단어에 대응하는 벡터값으로 출력하여 비정형 데이터를 분석 및 예측한 비정형 데이터의 특성 값을 출력하는 제1 네트워크부(121);
    잔차 네트워크(Residual Network)를 통해 다음 단어를 예측하기 위해 정해진 'n'개의 데이터만을 참고하여 버려지는 데이터들이 가진 문맥 정보를 참고할 수 없어 입력과 처리 결과가 오버피팅(Overfitting)되는 것을 방지하고, 피드 포워드 신경망을 이용하여 입력된 정형 데이터를 입력 레이어에서 은닉 레이어를 거쳐 출력 레이어까지 전달되며, 순환 경로가 존재하지 않는 유사도를 갖는 벡터 값을 출력하여 정형 데이터의 분석 및 예측을 통한 정형 데이터의 특성 값을 출력하는 제2 네트워크부(122); 및
    상기 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더하여 분류부(130)로 출력하는 연산부(123);를 포함하여 구성된 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법.
  11. 제 10 항에 있어서,
    d) 분류부(130)가 상기 데이터 처리부(120)에서 출력되는 비정형 데이터의 특성 값과 정형 데이터의 특성 값을 더한 결과를 분류 모델에 기반하여 분류하는 단계;를 더 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법.
  12. 삭제
  13. 제 10 항에 있어서,
    상기 a) 단계는 a-1) 입력부(110)가 입력 데이터 중에서 텍스트 기반의 데이터를 인식하면 텍스트를 추출하는 단계; 및
    a-2) 상기 입력부(110)가 추출된 텍스트를 기반으로 데이터 개체(Entity), 속성(Attribute), 관계(Relationship)에 따른 스키마(Schema) 형태, 데이터 특성, 숫자 데이터, 범주형 데이터 및 연산 가능 여부에 따라 정형 데이터 또는 비정형 데이터로 분류하는 단계;를 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법.
  14. 제 13 항에 있어서,
    상기 a-1) 단계는 입력부(110)가 입력된 데이터에서 음성 기반의 데이터를 인식하면, 상기 음성 기반의 데이터를 텍스트 데이터로 변환하여 텍스트만을 추출하는 단계;를 더 포함하는 것을 특징으로 하는 정형 데이터와 비정형 데이터를 이용한 자연어 처리 방법.
KR1020210069470A 2021-05-28 2021-05-28 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법 KR102342055B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210069470A KR102342055B1 (ko) 2021-05-28 2021-05-28 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210069470A KR102342055B1 (ko) 2021-05-28 2021-05-28 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102342055B1 true KR102342055B1 (ko) 2021-12-27

Family

ID=79177073

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210069470A KR102342055B1 (ko) 2021-05-28 2021-05-28 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102342055B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483903B1 (ko) * 2022-06-30 2023-01-03 주식회사 애자일소다 가맹점 추천 장치 및 방법
CN116484053A (zh) * 2023-06-21 2023-07-25 恒辉信达技术有限公司 智能数据分析平台
KR102635613B1 (ko) * 2023-07-10 2024-02-20 스마트마인드 주식회사 비정형 데이터에 대한 임베딩 방법 및 이러한 방법을수행하는 장치
KR102675553B1 (ko) * 2023-07-10 2024-06-17 스마트마인드 주식회사 워크스페이스 백업 방법 및 이러한 방법을 수행하는 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150023973A (ko) * 2013-08-23 2015-03-06 (주)타파크로스 소셜 네트워크 정보 수집 및 분석 시스템
US20200242465A1 (en) * 2019-01-30 2020-07-30 Walmart Apollo, Llc Systems and methods for classification using structured and unstructured attributes
KR102166390B1 (ko) 2019-12-16 2020-10-15 (주)에이펙스 이에스씨 비정형 데이터의 모델링 방법 및 시스템
WO2020227651A1 (en) * 2019-05-09 2020-11-12 Automobilia Ii, Llc Methods, systems and computer program products for media processing and display
KR20210060830A (ko) * 2019-11-19 2021-05-27 주식회사 피씨엔 빅데이터 지능형 수집 방법 및 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150023973A (ko) * 2013-08-23 2015-03-06 (주)타파크로스 소셜 네트워크 정보 수집 및 분석 시스템
US20200242465A1 (en) * 2019-01-30 2020-07-30 Walmart Apollo, Llc Systems and methods for classification using structured and unstructured attributes
WO2020227651A1 (en) * 2019-05-09 2020-11-12 Automobilia Ii, Llc Methods, systems and computer program products for media processing and display
KR20210060830A (ko) * 2019-11-19 2021-05-27 주식회사 피씨엔 빅데이터 지능형 수집 방법 및 장치
KR102166390B1 (ko) 2019-12-16 2020-10-15 (주)에이펙스 이에스씨 비정형 데이터의 모델링 방법 및 시스템

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Émilien Arnaud et al., Deep Learning to Predict Hospitalization at Triage: Integration of Structured Data and Unstructured Text, 2020 IEEE International Conference on Big Data (Big Data), 2020.12.13. <DOI: 10.1109/BigData50022.2020.9378073> 1부.* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102483903B1 (ko) * 2022-06-30 2023-01-03 주식회사 애자일소다 가맹점 추천 장치 및 방법
CN116484053A (zh) * 2023-06-21 2023-07-25 恒辉信达技术有限公司 智能数据分析平台
CN116484053B (zh) * 2023-06-21 2023-09-12 恒辉信达技术有限公司 智能数据分析平台
KR102635613B1 (ko) * 2023-07-10 2024-02-20 스마트마인드 주식회사 비정형 데이터에 대한 임베딩 방법 및 이러한 방법을수행하는 장치
KR102675553B1 (ko) * 2023-07-10 2024-06-17 스마트마인드 주식회사 워크스페이스 백업 방법 및 이러한 방법을 수행하는 장치

Similar Documents

Publication Publication Date Title
KR102342055B1 (ko) 정형 데이터와 비정형 데이터를 이용한 자연어 처리 장치 및 방법
US11676067B2 (en) System and method for creating data to train a conversational bot
US10705796B1 (en) Methods, systems, and computer program product for implementing real-time or near real-time classification of digital data
Mehdiyev et al. A multi-stage deep learning approach for business process event prediction
CN113094578B (zh) 基于深度学习的内容推荐方法、装置、设备及存储介质
US10467122B1 (en) Methods, systems, and computer program product for capturing and classification of real-time data and performing post-classification tasks
CN113688221B (zh) 基于模型的话术推荐方法、装置、计算机设备和存储介质
US11694478B2 (en) Sentiment analysis of content using expression recognition
US11966698B2 (en) System and method for automatically tagging customer messages using artificial intelligence models
CN117216227B (zh) 基于知识图谱与大语言模型的烟草企业智能信息问答方法
CN113268974A (zh) 多音字发音标注方法、装置、设备及存储介质
CN115204143B (zh) 一种基于prompt的文本相似度计算方法及系统
Budhwar et al. Predicting the vote using legislative speech
CN114220461A (zh) 客服话术的引导方法、装置、设备及存储介质
Singh et al. Are you really complaining? A multi-task framework for complaint identification, emotion, and sentiment classification
CN114547475A (zh) 一种资源推荐方法、装置及系统
Somogyi The Application of Artificial Intelligence
Eisele et al. Capturing a news frame–comparing machine-learning approaches to frame analysis with different degrees of supervision
Bockhorst et al. Predicting self-reported customer satisfaction of interactions with a corporate call center
Singh et al. Knowing what and how: a multi-modal aspect-based framework for complaint detection
CN115203372A (zh) 文本意图分类方法、装置、计算机设备及存储介质
Pascual et al. Prosodic break prediction with RNNs
Oruh et al. Deep Learning‐Based Classification of Spoken English Digits
CN111694936A (zh) 用于ai智能面试的识别的方法、装置、计算机设备及存储介质
WO2023233392A1 (en) Method and system for producing unified natural language processing objects

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant