KR102593604B1

KR102593604B1 - 번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치

Info

Publication number: KR102593604B1
Application number: KR1020210097142A
Authority: KR
Inventors: 이민호; 서정우
Original assignee: (주)에이엘아이
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2023-10-25
Also published as: KR20230015696A

Abstract

타겟 데이터 셋으로부터 고유명사를 추출하고, 고유명사 리스트를 생성하는 고유명사 리스트 생성모듈; 고유명사와 비고유명사를 토큰화하는 토큰화모듈; 및 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 학습을 수행하는 학습모듈;을 포함하는 번역장치를 제공한다.

Description

번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치 {METHOD OF CONTROLLING TRANSLATION APPARATUS, COMPUTER READABLE MEDIUM AND APPARATUS FOR PERFORMING THE METHOD}

본 발명은 번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것으로, 보다 상세하게는 사용자로부터 입력되는 한자를 한글로 번역하는 번역장치의 제어방법, 이를 수행하기 위한 기록매체 및 장치에 관한 것이다.

딥러닝 기반의 인공지능 기술 분야의 급속한 발전으로, 이를 접목한 다양한 기술들이 개발되고 있다. 이 중에서, 번역대상 언어를 모국어로 번역하는 번역 장치에 인공 신경망 기술을 이용함에 따라 번역 성능이 급격히 향상되었다.

이러한 번역 장치는 신경망 기반 기계 번역 모델((Neural Machine Translation, NMT)로도 불리우며, 인코더와 디코더 역할을 하는 두 개의 반복적인 신경 회로망(Recurrent Neural Network, RNN)으로 구성된다. 다른 명칭으로는 시퀀스-투-시퀀스(Sequence-To-Sequence)모델로도 불리며, End-To-End 학습을 통해 입력 언어와 출력 언어간 매핑 관계를 학습함으로써 기계 번역에서 높은 성능을 보여주고 있다.

하지만, 종래의 번역 장치는 현재 사용되는 언어를 위주로 하는 장치들이 대부분이며, 고서(古書)에 기록된 한자를 정확하게 번역할 수 있는 번역 장치는 전무한 실정이다.

본 발명이 해결하고자 하는 기술적 과제는 한자와 한글의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 번역장치를 제공하는 것이다.

본 발명이 해결하고자 하는 기술적 과제는 한자를 글자 단위로 토큰화하고, 한글을 글자 단위 또는 형태소 단위로 토큰화하며, 토큰화된 한자와 한글을 학습 데이터 셋으로 하여 기계학습을 수행하는 번역장치를 제공하는 것이다.

본 발명의 기술적 과제는 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 발명의 일측면은, 한자 문장으로 구성되는 원문을 한글 문장으로 구성되는 번역문으로 번역하는 번역장치로서, 적어도 하나 이상의 한자 텍스트로 구성된 소스 데이터 셋과, 상기 한자 텍스트에 이에 대응하는 한글 텍스트가 병기된 타겟 데이터 셋을 저장하는 데이터 베이스 모듈; 상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하고, 상기 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 고유명사 리스트 생성모듈; 상기 고유명사 리스트를 기초로 상기 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하고, 상기 타겟 데이터 셋에 기재된 한글의 고유명사를 글자 단위로 토큰화하되 한글의 비고유명사를 형태소 단위로 토큰화하는 토큰화모듈; 및 상기 토큰화된 한글과 한자의 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 학습모듈;을 포함할 수 있다.

또한, 상기 토큰화모듈은 상기 타겟 데이터 셋에서 마침표를 제외한 특수문자와 한자를 제거하며, 제거하고 남은 문자가 상기 고유명사 리스트에 마련된 고유명사인 경우 상기 고유명사를 글자 단위로 토큰화하고, 상기 제거하고 남은 문자가 상기 고유명사 리스트에 미존재하는 경우 비고유명사로 판단하여 이를 형태소 단위로 토큰화하는 것을 포함할 수 있다.

또한, 상기 학습모듈은, 상기 토큰화된 한자의 고유명사와 비고유명사가 입력되는 인코더; 및 상기 토큰화된 한글의 고유명사와 비고유명사가 입력되는 디코더;를 포함할 수 있다.

또한, 상기 인코더에 입력되는 토큰화된 한자가 비고유명사인 경우에는, 형태소 단위로 토큰화된 한글이 상기 디코더에 입력되는 것을 포함할 수 있다.

또한, 상기 고유명사 리스트 생성모듈은, 상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하는 고유명사 추출부; 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 확인하는 글자수 확인부; 글자수가 동일한 경우 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 기재되어 있는지 여부를 확인하는 소스 데이터 셋 확인부; 및 상기 소스 데이터 셋에 기재되어 있는 경우에만 상기 한글과 한자의 고유명사를 매칭하여 고유명사 리스트를 생성하는 고유명사 매칭부;를 포함할 수 있다.

또한, 외부 DB와 통신할 수 있는 통신모듈; 및 상기 추출된 한글과 한자의 고유명사 글자수가 다르거나 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 미기재되어 있는 경우 외부DB가 소스 데이터 셋을 번역할 수 있도록 상기 통신모듈을 제어하는 제어모듈;을 더 포함할 수 있다.

또한, 상기 고유명사 리스트 생성모듈은, 외부DB가 번역한 소스 데이터 셋으로부터 한글의 고유명사를 재추출하고, 재추출된 한글과 한자의 고유명사를 상호 매칭시켜 고유명사 리스트를 생성하는 것을 포함할 수 있다.

또한, 사용자로부터 한글로 번역하고자 하는 한자가 입력되는 입력모듈; 및 상기 기계학습을 수행한 결과를 기초로 상기 입력모듈에 입력된 한자를 한글로 번역하여 출력하는 번역모듈;을 더 포함할 수 있다.

본 발명의 다른 일측면은, 한자 문장으로 구성되는 원문을 한글 문장으로 구성되는 번역문으로 번역하는 번역장치의 제어방법으로서, 적어도 하나 이상의 한자 텍스트로 구성된 소스 데이터 셋과, 상기 한자 텍스트에 이에 대응하는 한글 텍스트가 병기된 타겟 데이터 셋을 저장하고, 상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하며, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하고, 상기 고유명사 리스트를 기초로 상기 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하며, 상기 타겟 데이터 셋에 기재된 한글의 고유명사를 글자 단위로 토큰화하되 한글의 비고유명사를 형태소 단위로 토큰화하고, 상기 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 것을 포함할 수 있다.

또한, 상기 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 것은, 상기 번역장치의 인코더에 토큰화된 한자의 고유명사와 비고유명사가 입력되고, 상기 번역장치의 디코더에 토큰화된 한글의 고유명사와 비고유명사가 입력되는 것을 포함할 수 있다.

또한, 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하고, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 것은, 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 확인하고, 글자수가 동일한 경우 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 기재되어 있는지 여부를 확인하며, 상기 소스 데이터 셋에 기재되어 있는 경우에만 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 것을 포함할 수 있다.

본 발명의 또 다른 일측면은, 컴퓨터로 판독 가능한 저장 매체에는 번역장치의 제어방법을 수행하기 위한 컴퓨터 프로그램이 기록될 수 있다.

상술한 본 발명의 일측면에 따르면, 번역장치는 고유명사 리스트 생성모듈을 제공함으로써, 한자와 한문의 고유명사를 추출해 매칭시켜 고유명사 리스트를 생성할 수 있다. 한자의 고유명사가 한글로 어떻게 번역되는지 리스트를 생성할 수 있다는 효과가 있다.

상술한 본 발명의 일측면에 따르면, 번역장치는 토큰화모듈을 제공함으로써, 생성된 고유명사 리스트를 기초로 고유명사와 비고유명사를 글자 단위 또는 형태소 단위로 토큰화할 수 있다. 한자의 1글자가 1형태소라는 특징을 이용하여 한자는 토큰화모듈에 의해 고유명사, 비고유명사 구분없이 글자 단위로 토큰화되고, 한글의 고유명사는 글자 단위, 비고유명사는 형태소 단위로 토큰화될 수 있다. 본 발명은 한자와 한글의 언어학적 특성을 반영함으로써 번역 성능을 높이는 효과가 있다.

도1은 본 발명의 일 실시예에 따른 번역장치를 나타내는 개념도이다.
도2는 고유명사 리스트 생성모듈을 나타내는 개념도이다.
도3은 타겟 데이터 셋과 소스 데이터 셋을 이용해 고유명사 리스트를 생성하고, 토큰화모듈이 고유명사 리스트를 기초로 고유명사와 비고유명사를 토큰화하는 과정을 나타낸 도면이다.
도4는 학습모듈을 나타내는 개념도이다.
도5는 본 발명의 일 실시예에 따른 번역장치의 제어방법을 나타낸 순서도이다.
도6은 고유명사 리스트를 생성하는 과정을 나타낸 순서도이다.
도7은 타겟 데이터 셋과 소스 데이터 셋을 이용해 고유명사 리스트를 생성하고, 번역장치의 토큰화모듈이 고유명사 리스트를 기초로 고유명사와 비고유명사를 토큰화하는 과정을 나타낸 순서도이다.
도8은 BLEU SCORE(Bilingual Evaluation Understudy SCORE)을 백분율로 나타낸 그래프이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예와 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도1은 본 발명의 일 실시예에 따른 번역장치를 나타내는 개념도이고, 도2는 고유명사 리스트 생성모듈을 나타내는 개념도이다.

번역장치(1)는 데이터 베이스 모듈(9), 고유명사 리스트 생성모듈(10), 토큰화모듈(20), 학습모듈(30), 제어모듈(40), 통신모듈(50), 입력모듈(60) 및 번역모듈(70)을 포함할 수 있다.

번역장치(1)는 소스 데이터 셋 및 타겟 데이터 셋을 이용하여, 한글과 한자를 토큰화하고, 토큰화된 한글과 한자를 학습 데이터 셋으로 하여 기계학습을 수행하며, 수행된 기계학습을 기초로 번역모델을 생성하는 장치일 수 있다. 이 때, 소스 데이터 셋은 적어도 하나 이상의 한자 텍스트로 구성된 데이터 셋을 의미할 수 있다. 타겟 데이터 셋은 소스 데이터 셋을 한글로 번역한 한글 텍스트를 소스 데이터 셋에 병기시킨 데이터 셋일 수 있다.

번역모델을 생성한 번역장치(1)는 사용자로부터 한자 문장의 텍스트로 구성된 원문을 입력받으면, 한글 문장의 텍스트로 구성된 번역문으로 번역하는 장치일 수 있다.

데이터 베이스 모듈(9)은 적어도 하나 이상의 한자 텍스트로 구성된 소스 데이터 셋 및 소스 데이터 셋에 대응되는 의미를 가진 적어도 하나 이상의 한글 텍스트가 병기된 타겟 데이터 셋을 저장할 수 있다. 이 때, 소스 데이터 셋과 타켓 데이터 셋은 사용자에 의해 입력되는 데이터 셋일 수 있고, 통신모듈(50)이 외부 데이터 베이스로부터 수신한 데이터 셋일 수도 있다.

고유명사 리스트 생성모듈(10)은 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하고, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성할 수 있다. 도2를 참조하면, 고유명사 리스트 생성모듈(10)은 고유명사 추출부(11), 글자수 확인부(12), 소스 데이터 셋 확인부(13) 및 고유명사 매칭부(14)를 포함할 수 있다.

고유명사 추출부(11)는 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출할 수 있고, 글자수 확인부(12)는 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 확인할 수 있다.

소스 데이터 셋 확인부(13)는 추출된 한글과 한자의 고유명사 글자수가 동일한 경우, 추출된 한자의 고유명사가 소스 데이터 셋에 기재되어 있는지 여부를 확인할 수 있다.

고유명사 매칭부(14)는 한자의 고유명사가 소스 데이터 셋에 기재되어 있는 경우에만 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성할 수 있다.

토큰화 모듈(20)은 타겟 데이터 셋에 기재된 한글 및 소스 데이터 셋에 기재된 한자를 토큰화할 수 있다.

이 때, 타겟 데이터 셋에 기재된 한글 및 소스 데이터 셋에 기재된 한자를 토큰화(TOKENIZATION)하는 것은 한글과 한자를 일정 단위로 나누어 정제하는 것을 의미할 수 있다.

토큰화 종류는 띄어쓰기 단위로 토큰화하는 어절토큰화, 단어단위로 토큰화하는 단어토큰화, 형태소단위로 토큰화하는 형태소토큰화, 글자 단위(음절단위)로 토큰화하는 글자(음절)토큰화 및 자음, 모음단위로 토큰화하는 자모토큰화가 있다.

토큰화모듈(20)이 타겟 데이터 셋에 기재된 한글을 토큰화하는 것은, 한글의 고유명사를 글자토큰화하는 것을 의미할 수 있고, 한글의 비고유명사를 형태소 토큰화하는 것을 의미할 수 있다.

한자는 1글자가 1형태소이므로, 토큰화모듈(20)이 소스 데이터 셋에 기재된 한자를 토큰화하는 것은, 한자의 고유명사와 비고유명사를 글자 토큰화하는 것을 의미할 수 있다.

토큰화모듈(20)은 고유명사 리스트 생성모듈(10)에 의해 생성된 고유명사 리스트를 기초로 타겟 데이터 셋에 기재된 한글의 고유명사를 글자 단위로 토큰화 할 수 있고, 타겟 데이터 셋에 기재된 한글의 비고유명사를 형태소 단위로 토큰화 할 수 있다.

또한, 토큰화 모듈(20)은 고유명사 리스트 생성모듈(10)에 의해 생성된 고유명사 리스트를 기초로 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화 할 수 있다. 토큰화 모듈(20)이 글자 단위 또는 형태소 단위로 토큰화 하는 과정은 도3에서 상세하게 후술하기로 한다.

학습모듈(30)은 토큰화모듈(20)에 의해 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행할 수 있다.

학습모듈(30)은 토큰화된 한자가 입력되는 인코더와 토큰화된 한글이 입력되는 디코더로 마련될 수 있다. 학습모듈(30)이 토큰화모듈(20)에 의해 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 과정은 도4에서 상세하게 후술하기로 한다.

제어모듈(40)은 외부DB와 통신할 수 있도록 통신모듈(50)을 제어할 수 있다.

통신모듈(50)은 외부DB와 통신할 수 있고, 외부DB는 중한 사전DB, 전문 번역인이 적어도 하나 이상의 한자 텍스트를 번역하고 저장한 DB일 수 있다.

글자수 확인부(12)가 고유명사 추출부(11)에 의해 추출된 한글과 한자의 고유명사 글자수가 다른 것을 확인하면, 제어모듈(40)은 통신모듈(50)이 외부DB와 통신하도록 제어할 수 있다. 이 때, 외부DB는 통신모듈(50)로부터 글자수가 다른 고유명사가 포함된 소스 데이터 셋을 수신할 수 있다. 외부DB는 글자수가 다른 고유명사가 포함된 소스 데이터 셋을 번역하며, 번역된 문장을 통신모듈(50)에 송신할 수 있다.

또한, 추출된 한자의 고유명사가 소스 데이터 셋 확인부(13)에 의해 소스 데이터 셋에 미기재되어 있다고 확인되면, 제어모듈(40)은 통신모듈(50)이 외부DB와 통신하도록 제어할 수 있다. 이 때, 외부DB는 통신모듈(50)로부터 소스 데이터셋을 수신하고, 소스 데이터 셋을 번역하며, 번역된 소스 데이터 셋을 통신모듈(50)에 송신할 수 있다.

고유명사 리스트 생성모듈(10)은 외부DB가 번역한 소스 데이터 셋으로부터 한글의 고유명사를 재추출하고, 재추출된 한글과 한자의 고유명사를 상호 매칭시켜 고유명사 리스트를 생성할 수 있다.

입력모듈(60)은 사용자로부터 한글로 번역하고자 하는 한자가 입력될 수 있다.

번역모듈(70)은 기계학습을 수행한 결과를 기초로 입력모듈(60)에 입력된 한자를 한글로 번역하여 출력할 수 있다.

도3은 타겟 데이터 셋과 소스 데이터 셋을 이용해 고유명사 리스트를 생성하고, 토큰화모듈이 고유명사 리스트를 기초로 고유명사와 비고유명사를 토큰화하는 과정을 나타낸 도면이다.

도3을 참조하면, 타겟 데이터 셋에는 "심유진(沈有鎭)을 사간원(司諫院) 대사간(大司諫)으로 서호수(徐浩修)를 홍문관(弘文館) 제학(提學)으로 삼았다."고 기재되어 있다. 우선적으로, 고유명사 추출부(11)는 타겟 데이터 셋으로부터, 한글의 고유명사인 "심유진", "사간원", "대사간", "서호수", "홍문관" 및 "제학"을 추출할 수 있다. 고유명사 추출부(11)는 타겟 데이터 셋으로부터, 한자의 고유명사인 "沈有鎭", "司諫院", "大司諫", "徐浩修", "弘文館", "提學"을 추출할 수 있다.

다음으로, 글자수 확인부(12)는 추출된 한글의 고유명사인 "심유진"과 "沈有鎭"의 글자수는 3글자로 동일하고, "사간원"과 "司諫院"의 글자수는 3글자로 동일하며, 대사간과 "大司諫"의 글자수는 3글자로 동일하고, "서호수"와 "徐浩修"의 글자수는 3글자로 동일하며, "홍문관"과 "弘文館"의 글자수는 3글자로 동일하고, "제학"과 "提學"의 글자수는 2글자로 동일하다는 것을 판단할 수 있다.

그 다음으로, 소스 데이터 셋 확인부(13)는 "沈有鎭", "司諫院", "大司諫", "徐浩修", "弘文館", "提學"이 소스 데이터 셋에 기재되어 있는 지 확인할 수 있다.

고유명사 매칭부(14)는 소스 데이터 셋에 기재된 "沈有鎭", "司諫院", "大司諫", "徐浩修", "弘文館"및"提學"을 "심유진", "사간원", "대사간", "서호수", "홍문관"및 "제학"과 각각 상호 매칭해 고유명사 리스트를 생성할 수 있다.

토큰화 모듈(20)은 타겟 데이터 셋에서 마침표를 제외한 특수문자와 한자를 제거할 수 있다. 도3을 참조하면, 마침표를 제외한 특수문자와 한자를 제거하고 남은 한글 문장은 "심유진을 사간원 대사간으로 서호수를 홍문관 제학으로 삼았다."일 수 있다.

또한, 토큰화모듈(20)은 고유명사 리스트를 기초로 마침표를 제외한 특수문자와 한자를 제거하고 남은 한글 문장에서 고유명사와 비고유명사를 구분할 수 있다.

도3에서 점선으로 도시한 것과 같이, 토큰화 모듈(20)은 고유명사 리스트에 존재하는 "심유진", "사간원", "대사간", "서호수", "홍문관"및 "제학"을 고유명사로 판단하고, 고유명사인 "심유진", "사간원", "대사간", "서호수", "홍문관"및 "제학"을 글자 단위로 토큰화할 수 있다.

토큰화모듈(20)은 고유명사 리스트에 없는 "을", "으로", "를", "삼았다"는 비고유명사로 구분할 수 있다. 토큰화 모듈(20)은 비고유명사인 "을", "으로", "를", "삼았다"를 형태소 단위로 토큰화할 수 있다.

그 결과, 토큰화모듈(20)은 "심", "유", "진", "을", "사", "간", "원", "대", "사", "간", "서", "호", "수", "홍", "문", "관", "제", "학", "으로", "삼", "았", "다", "."로 토큰화 할 수 있다.

도4는 학습모듈을 나타내는 개념도이다.

학습모듈(30)은 인코더와 디코더로 마련될 수 있다. 인코더는 토큰화모듈(20)에 의해 토큰화된 한자가 입력될 수 있다.

디코더는 토큰화 모듈(20)에 의해 토큰화된 한글이 입력될 수 있다. 이 때, 토큰화된 한글은 글자 단위 또는 형태소 단위로 토큰화된 한글일 수 있다.

이 때, 인코더에 입력되는 토큰화된 한자가 비고유명사인 경우에는, 형태소 단위로 토큰화된 한글이 디코더에 입력될 수 있다. 또한, 인코더에 입력되는 토큰화된 한자가 고유명사인 경우에는, 글자 단위로 토큰화된 한글이 디코더에 입력될 수 있다.

소스 데이터 셋에 기재된 한자 문장인 "以李恒林爲忠淸道兵馬節度使"은, "以", "李", "恒", "林", "爲", "忠", "淸", "道", "兵", "馬, "節", "度", "使"로 토큰화 모듈(20)에 의해 토큰화되어 인코더에 입력될 수 있다.

타겟 데이터 셋에 기재된 한글 문장인 "이항림을 충청도 병마 절도사로 삼았다."는 "이","항", "림", "을", "충", "청", "도", "병", "마", "절", "도", "사", "로", "삼", "았", "다", "."로 토큰화되어 디코더에 입력될 수 있다.

이 때, 디코더에 N번째로 입력된 토큰은 N+1번 째에 재입력될 수 있다. 예를 들면, N번 째로 입력된 토큰이 "병"이라면, N+1번 째로 입력되는 토큰은 "병"과 "마"이고, N+2번 째로 입력되는 토큰은, "병", "마", "절"일 수 있다.

본 발명은, 인코더와 디코더에 입력하는 과정을 반복적으로 수행하는 기계학습이 수행될 수 있다.

발명의 일 실시예에 따른 번역장치의 제어방법은 도1에 도시된 번역장치(1)와 실질적으로 동일한 구성 상에서 진행되므로, 도1의 번역장치(1)와 동일한 구성요소에 대해 동일한 도면 부호를 부여하고, 반복되는 설명은 생략하기로 한다.

도5는 본 발명의 일 실시예에 따른 번역장치의 제어방법을 나타낸 순서도이다.

번역장치(1)의 데이터 베이스 모듈(9)에 저장된 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하는 단계(100), 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 단계(110), 번역장치(1)의 데이터 베이스 모듈(9)에 저장되어 있는 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하는 단계(120) 및 글자 단위로 토큰화한 것을 인코더에 입력하는 단계(130)를 포함할 수 있다.

또한, 타겟 데이터 셋에 기재되어 있는 한글이 고유명사인지 여부를 판단하는 단계(140), 고유명사인 경우에 글자 단위로 토큰화하는 단계(150), 비고유명사인 경우에 형태소 단위로 토큰화하는 단계(160), 글자단위 또는 형태소 단위로 토큰화한 것을 디코더에 입력하는 단계(170) 및 기계학습을 수행하는 단계(180)를 포함할 수 있다.

기계학습을 수행하는 단계(180)를 거친 다음, 사용자는 번역하고자 하는 한자를 번역장치(1)에 입력하면, 번역한 결과를 한글로 출력할 수 있다.

도6은 고유명사 리스트를 생성하는 과정을 나타낸 순서도이다.

번역장치의 제어방법은, 타겟 데이터 셋으로부터 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 판단하는 단계(200), 글자수가 동일한 경우, 타겟 데이터 셋으로부터 추출된 한자의 고유명사가 소스 데이터 셋에 기재되어 있는지 판단하는 단계(210), 소스 데이터 셋에 기재되어 있는 경우에 타겟 데이터 셋으로부터 추출된 한글과 한자의 고유명사를 상호 매칭하는 단계(230) 및 매칭된 고유명사 리스트를 생성하는 단계(240)를 포함할 수 있다.

또한, 번역장치의 제어방법은, 타겟 데이터 셋으로부터 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 판단하는 단계(200), 글자수가 다른 경우에 외부DB와 통신하여 소스 데이터 셋을 번역하는 단계(220), 외부DB로부터 번역된 소스 데이터 셋을 수신하고, 수신한 소스 데이터 셋으로부터 한글과 한자의 고유명사를 재추출하는 단계 및 추출된 한글과 한자의 고유명사를 상호 매칭하는 단계(230) 및 고유명사 리스트를 생성하는 단계(240)를 포함할 수 있다.

또한, 번역장치의 제어방법은, 타겟 데이터 셋으로부터 추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 판단하는 단계(200), 글자수가 동일한 경우, 타겟 데이터 셋으로부터 추출된 한자의 고유명사가 소스 데이터 셋에 기재되어 있는지 판단하는 단계(210), 소스 데이터 셋에 미기재되어 있는 경우에 외부DB와 통신하여 외부DB가 소스 데이터 셋을 번역하는 단계(220), 외부DB로부터 번역된 소스 데이터 셋을 수신하고, 수신한 소스 데이터 셋으로부터 한글과 한자의 고유명사를 재추출하는 단계, 추출된 한글과 한자의 고유명사를 상호 매칭하는 단계(230) 및 고유명사 리스트를 생성하는 단계(240)를 포함할 수 있다.

도7은 타겟 데이터 셋과 소스 데이터 셋을 이용해 고유명사 리스트를 생성하고, 번역장치의 토큰화모듈이 고유명사 리스트를 기초로 고유명사와 비고유명사를 토큰화하는 과정을 나타낸 순서도이다.

번역장치의 제어방법은, 타겟 데이터 셋에서 마침표를 제외한 특수문자와 한자를 제거하는 단계(300), 제거하고 남은 문자가 고유명사 리스트에 포함된 고유명사인지 여부를 판단하는 단계(310), 고유명사 리스트에 포함된 고유명사인 경우에는 글자 단위로 토큰화하는 단계(320) 및 고유명사 리스트에 미포함된 비고유명사인 경우에는 형태소 단위로 토큰화하는 단계(330)를 포함할 수 있다.

본 발명은 AJD(Annals of Joseon Dynasty), LDD(Letters and Di-aries Dataset)를 소스 데이터 셋 및 타겟 데이터 셋으로 이용하였다.

본 발명의 번역 장치의 번역 성능을 검증하기 위해, SP(센텐스 피스: Sentence Piece)와 MA(형태소 분석기: Morpheme Anlayzer)에서도 AJD(Annals of Joseon Dynasty)와 LDD(Letters and Di-aries Dataset)를 소스 데이터 셋 및 타겟 데이터 셋으로 이용하였다. SP, MA 및 본 발명은 소스 데이터 셋과 타겟 데이터 셋을 토큰화하여 학습을 수행하였다. SP는 BPE알고리즘과 Unigram Language Model Tokenizer를　구현한 알고리즘으로서 문장의 단어 분리가 가능한 알고리즘이다.

그 결과, SP를 사용하였을 때 30,039개의 토큰이 생성되었고, MA를 사용하였을 때 36,401개의 토큰이 생성되었으며, 본 발명의 번역장치를 사용하였을 때 20.443개의 토큰이 생성되었다.

도8은 BLEU SCORE(Bilingual Evaluation Understudy SCORE)을 백분율로 나타낸 그래프이다.

본 발명의 번역 장치의 번역 성능을 검증하기 위해, SP, MA 및 본 발명의 번역장치에 한자문장의 텍스트로 구성되는 원문을 입력하고, 한글로 번역하는 과정을 수행하였다. 번역 장치의 성능을 검증하기 위해서 SP, MA 및 본 발명의 번역장치로부터 한글로 번역된 결과를 기초로, BLEU SCORE(Bilingual Evaluation Understudy SCORE)를 백분율로서 측정하였다. 그래프의 x축에 기재된 epoch는 학습의 횟수를 의미한다. 그래프의 y축에 기재된 BLEU SCORE는, 기계학습을 통해 번역된 문장과 전문 번역인이 번역한 문장과의 유사도를 측정한 지표를 의미한다.

도8에서 도시한 것과 같이, AJD를 학습데이터 셋으로 이용한 경우에는 SP는 45.52%, MA는 58.12%, 본 발명의 번역 장치는 58.17%의 결과 값으로 측정되었다.

도8에서 도시하지 않았으나, LDD를 타겟 데이터 셋, 소스 데이터 셋으로 이용한 경우에는 SP는 23.9%, MA는 31,78%, 본 발명의 번역장치는 67.86%의 결과 값으로 측정되었다. AJD를 타겟 데이터 셋, 소스 데이터 셋으로 이용한 경우에는 SP는 45.52%, MA는 58.12%, 본 발명의 번역 장치는 58.17%의 결과 값으로 측정되었다.

이를 종합하면, 본 발명의 번역 장치는 SP, MA보다 의미있는 토큰을 생성하고, 정확한 번역 모델을 제공하는 것임을 알 수 있다.

이와 같은, 번역장치의 제어방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자 기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스 크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬 가지이다.

이상에서 본 발명의 실시예들에 대하여 설명하였으나, 본 발명의 사상은 본 명세서에 제시되는 실시 예에 제한되지 아니하며, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서, 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시 예를 용이하게 제안할 수 있을 것이나, 이 또한 본 발명의 사상범위 내에 든다고 할 것이다.

1: 번역장치
9: 데이터 베이스 모듈
10: 고유명사 리스트 생성모듈
11: 고유명사 추출부
12: 글자수 확인부
13: 소스 데이터 셋 확인부
14: 고유명사 매칭부
20: 토큰화 모듈
30: 학습모듈
40: 제어모듈
50: 통신모듈
60: 입력모듈
70: 번역모듈

Claims

한자 문장으로 구성되는 원문을 한글 문장으로 구성되는 번역문으로 번역하는 번역장치로서,
적어도 하나 이상의 한자 텍스트로 구성된 소스 데이터 셋과, 상기 한자 텍스트에 이에 대응하는 한글 텍스트가 병기된 타겟 데이터 셋을 저장하는 데이터 베이스 모듈;
상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하고, 상기 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 고유명사 리스트 생성모듈;
상기 고유명사 리스트를 기초로 상기 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하고, 상기 타겟 데이터 셋에 기재된 한글의 고유명사를 글자 단위로 토큰화하되 한글의 비고유명사를 형태소 단위로 토큰화하는 토큰화모듈; 및
상기 토큰화된 한글과 한자의 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 학습모듈;을 포함하고,
상기 토큰화모듈은
상기 타겟 데이터 셋에서 마침표를 제외한 특수문자와 한자를 제거하며,
제거하고 남은 문자가 상기 고유명사 리스트에 마련된 고유명사인 경우 상기 고유명사를 글자 단위로 토큰화하고,
상기 제거하고 남은 문자가 상기 고유명사 리스트에 미존재하는 경우 비고유명사로 판단하여 이를 형태소 단위로 토큰화하는 것이고,
상기 글자 단위는, 음절 단위인 것이고,
상기 학습모듈은,
상기 토큰화된 한자의 고유명사와 비고유명사가 입력되는 인코더; 및
상기 토큰화된 한글의 고유명사와 비고유명사가 입력되는 디코더;를 포함하고,
상기 인코더에 입력되는 토큰화된 한자가 비고유명사인 경우에는, 형태소 단위로 토큰화된 한글이 상기 디코더에 입력되고,
상기 인코더에 입력되는 토큰화된 한자가 고유명사인 경우에는, 글자 단위로 토큰화된 한글이 상기 디코더에 입력되고,
상기 디코더에 N번째로 입력된 토큰은 N+1번째에 재입력되고,
상기 고유명사 리스트 생성모듈은,
상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하는 고유명사 추출부;
추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 확인하는 글자수 확인부;
글자수가 동일한 경우 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 기재되어 있는지 여부를 확인하는 소스 데이터 셋 확인부; 및
상기 소스 데이터 셋에 기재되어 있는 경우에만 상기 한글과 한자의 고유명사를 매칭하여 고유명사 리스트를 생성하는 고유명사 매칭부;를 포함하고,
외부 DB와 통신할 수 있는 통신모듈; 및
상기 추출된 한글과 한자의 고유명사 글자수가 다르거나 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 미기재되어 있는 경우 외부DB가 소스 데이터 셋을 번역할 수 있도록 통신모듈을 제어하는 제어모듈;을 더 포함하고,
상기 고유명사 리스트 생성모듈은,
외부DB가 번역한 소스 데이터 셋으로부터 한글의 고유명사를 재추출하고, 재추출된 한글과 한자의 고유명사를 상호 매칭시켜 고유명사 리스트를 생성하는 것을 포함하고,
상기 외부 DB는,
상기 통신모듈로부터 글자수가 다른 고유 명사가 포함된 상기 소스 데이터 셋을 수신하고, 상기 글자수가 다른 고유명사가 포함된 소스 데이터 셋을 번역하며, 번역된 문자를 상기 통신모듈에 송신하는 것인, 번역장치.
삭제
삭제
삭제
삭제
삭제
삭제
제 1항에 있어서,
사용자로부터 한글로 번역하고자 하는 한자가 입력되는 입력모듈; 및
상기 기계학습을 수행한 결과를 기초로 입력모듈에 입력된 한자를 한글로 번역하여 출력하는 번역모듈;을 더 포함하는 번역장치.
한자 문장으로 구성되는 원문을 한글 문장으로 구성되는 번역문으로 번역하는 번역장치의 제어방법으로서,
적어도 하나 이상의 한자 텍스트로 구성된 소스 데이터 셋과, 상기 한자 텍스트에 이에 대응하는 한글 텍스트가 병기된 타겟 데이터 셋을 저장하고,
상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하며, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하고,
상기 고유명사 리스트를 기초로 상기 소스 데이터 셋에 기재된 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하며, 상기 타겟 데이터 셋에 기재된 한글의 고유명사를 글자 단위로 토큰화하되 한글의 비고유명사를 형태소 단위로 토큰화하고,
상기 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 것을 포함하고,
상기 한자의 고유명사와 비고유명사를 글자 단위로 토큰화하고, 상기 한글의 비고유명사를 형태소 단위로 토큰화하는 것은,
상기 타겟 데이터 셋에서 마침표를 제외한 특수문자와 한자를 제거하며,
제거하고 남은 문자가 상기 고유명사 리스트에 마련된 고유명사인 경우 상기 고유명사를 글자 단위로 토큰화하고,
상기 제거하고 남은 문자가 상기 고유명사 리스트에 미존재하는 경우 비고유명사로 판단하여 이를 형태소 단위로 토큰화하는 것이고,
상기 글자 단위는, 음절 단위인 것이고,
상기 토큰화한 고유명사와 비고유명사를 학습 데이터 셋으로 하여 기계학습을 수행하는 것은,
상기 토큰화된 한자의 고유명사와 비고유명사가 인코더에 입력되고,
상기 토큰화된 한글의 고유명사와 비고유명사는 디코더에 입력되며,
상기 인코더에 입력되는 토큰화된 한자가 비고유명사인 경우에는, 형태소 단위로 토큰화된 한글이 상기 디코더에 입력되고,
상기 인코더에 입력되는 토큰화된 한자가 고유명사인 경우에는, 글자 단위로 토큰화된 한글이 상기 디코더에 입력되고,
상기 디코더에 N번째로 입력된 토큰은 N+1번째에 재입력되는 것을 포함하고,
상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하며, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 것은,
추출된 한글과 한자의 고유명사 글자수가 동일한지 여부를 확인하고, 글자수가 동일한 경우 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 기재되어 있는지 여부를 확인하며, 상기 소스 데이터 셋에 기재되어 있는 경우에만 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 것을 포함하고,
상기 추출된 한글과 한자의 고유명사 글자수가 다르거나 상기 추출된 한자의 고유명사가 상기 소스 데이터 셋에 미기재되어 있는 경우 외부DB가 소스 데이터 셋을 번역할 수 있도록 상기 외부DB와 통신 가능한 통신모듈을 제어하며,
상기 타겟 데이터 셋으로부터 한글과 한자의 고유명사를 각각 추출하며, 추출된 한글과 한자의 고유명사를 상호 매칭하여 고유명사 리스트를 생성하는 것은,
상기 외부DB가 번역한 소스 데이터 셋으로부터 한글의 고유명사를 재추출하고, 재추출된 한글과 한자의 고유명사를 상호 매칭시켜 고유명사 리스트를 생성하는 것을 포함하고,
상기 외부 DB는,
상기 통신모듈로부터 글자수가 다른 고유 명사가 포함된 상기 소스 데이터셋을 수신하고, 상기 글자수가 다른 고유명사가 포함된 소스 데이터 셋을 번역하며, 번역된 문자를 상기 통신모듈에 송신하는 것인, 번역 장치의 제어방법.
삭제
삭제
제 9항에 따른 상기 번역장치의 제어방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.