KR101117427B1 - Morphological Composition Device And Method Thereof - Google Patents
Morphological Composition Device And Method Thereof Download PDFInfo
- Publication number
- KR101117427B1 KR101117427B1 KR1020090016254A KR20090016254A KR101117427B1 KR 101117427 B1 KR101117427 B1 KR 101117427B1 KR 1020090016254 A KR1020090016254 A KR 1020090016254A KR 20090016254 A KR20090016254 A KR 20090016254A KR 101117427 B1 KR101117427 B1 KR 101117427B1
- Authority
- KR
- South Korea
- Prior art keywords
- morpheme
- synthesis
- rule
- condition
- word
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 형태소 합성 장치 및 그 방법에 관한 것으로, 더욱 상세하게는 형태소가 결합되어 어절을 형성하는 과정에서 형태소의 어형 변화가 심한 한국어의 교착어적인 특성을 고려하여 형태소를 합성하고 어절을 생성함으로써 자연스러운 한국어 표현을 생성하는 형태소 합성 장치 및 그 방법에 관한 것이다. The present invention relates to a morpheme synthesis apparatus and a method thereof, and more particularly, by synthesizing morphemes and generating words in consideration of the intersecting characteristics of Korean, which have a large change in morphemes in forming a word. A morpheme synthesis apparatus for generating Korean expressions and a method thereof.
또한, 한국어의 여러 유형의 높임말, 사투리, 통신체 및 연령대별 표현 등 자연어 시스템에서 필요로 할 수 있는 다양한 표현 양식의 한국어 표현을 생성할 수 있는 형태소 합성 장치 및 그 방법에 관한 것이다.In addition, the present invention relates to a morpheme synthesis apparatus and a method for generating Korean expressions of various expression forms that may be needed in a natural language system such as various types of expressions, dialects, communication bodies, and age group expressions.
본 발명은 인공 지능의 자연어 처리(Natural Language Processing) 분야 중 자연어 생성(Natural Language Generation)에 따른 형태소 합성 기술에 관한 것이다.The present invention relates to a morpheme synthesis technique according to natural language generation in the field of natural language processing of artificial intelligence.
자연어, 형태소, 합성, 전처리 Natural language, morphemes, synthesis, preprocessing
Description
본 발명은 자연어 생성 기법 중 형태소 합성 및 그 방법에 관한 것으로, 더욱 상세하게는 교착어인 한국어에서 형태소가 결합되어 어절을 형성하는 과정에서 발생하는 형태소의 어형 변화를 고려하여 어절을 생성함으로써 한국어 사용자를 위해 자연스러운 한국어 표현을 생성하고, 현대 자연어 생성 시스템에서 요구되는 다양한 유형의 표현 양식을 어절을 생성할 수 있는 형태소 합성 장치 및 그 방법에 관한 것이다.The present invention relates to morpheme synthesis and its method among natural language generation techniques. More particularly, the present invention relates to a Korean user by generating a word in consideration of a morphological change of a morpheme occurring in the process of forming a word by combining morphemes in a crossword. The present invention relates to a morpheme synthesis apparatus and method for generating natural Korean expressions and generating words of various types of expression forms required by modern natural language generation systems.
본 발명은 인공 지능의 자연어 처리(Natural Language Processing) 분야 중 자연어 생성(Natural Language Generation)에 따른 형태소 합성 기술에 관한 것이다.The present invention relates to a morpheme synthesis technique according to natural language generation in the field of natural language processing of artificial intelligence.
자연어 생성은 시스템이 인간에게 가장 자연스러운 정보 전달 수단인 자연어를 사용하여 데이터를 사용자에게 전달할 수 있도록 하기 위한 기술이다. 여기서 자연어란 기계를 위한 프로그램을 작성하는 데 사용되는 기계어에 대비되는 개념으로 사람이 사람을 대상(청취자, 독자 등)으로 글을 쓰거나 말을 하면서 정보 교환을 위해 사용하는 언어를 지칭한다.Natural language generation is a technology that enables a system to deliver data to users using natural language, which is the most natural means of information delivery to humans. Here, natural language is a concept in contrast to machine language used to write a program for a machine and refers to a language used for information exchange while a person writes or speaks to a person (listener, reader, etc.).
핀란드어, 터키어 및 일본어와 함께 교착어에 속한 한국어에서는 의미 표현의 최소 단위인 형태소를 결합하여 문장 구성의 최소 단위인 어절을 생성해야 한다. In Korean, which is a deadlock with Finnish, Turkish, and Japanese, morphemes, which are the minimum units of semantic expression, must be combined to generate words, which are the minimum units of sentence construction.
특히, 한국어에서는 형태소가 결합되어 어절을 형성하는 과정에서 심각한 형태소 어형의 변화가 일어난다. 한국어의 형태소 어형 변화는 영어와 같은 굴절어와 달리 형태소 간의 상호 작용에 의해서 나타나기 때문에 형태소의 변화가 심하고 다양한 조건하에서 발생한다.In Korean, in particular, serious morphological changes occur when morphemes are combined to form words. Morphological changes in Korean are caused by the interaction between morphemes, unlike refractive words such as English.
여기서, 형태소의 어형 변화란 어절을 형성하는 과정에서 형태소를 구성하고 있는 자소가 바뀌게 되는 것을 의미한다. 예를 들어, "아름답+ㄴ"이라는 형태소 열이 어절 "아름다운"을 형성하는 과정에서 용언인 "아름답"이 "ㄴ"과 결합하면서 "아름다우"로 자소가 바뀌게 된다.Here, the change in the morpheme of the morpheme means that the phoneme constituting the morpheme is changed in the process of forming the word. For example, in the process of forming the word "beautiful", the verb "beautiful answer" combines with the "b" and changes the phoneme to "beautiful".
영어의 경우 시제나 인칭에 따라서 규칙적으로 단어의 어형을 수정하거나, 불규칙 동사의 목록이 담긴 사전을 사용하는 것 만으로 쉽게 자연스러운 표현을 생성할 수 있는 반면 한국어에서는 여러 형태소의 조합을 고려하여 형태소의 어형을 바꿔줄 수 있어야 하며, 불규칙 활용을 하는 용언(동사/형용사), 축약 현상, 조사 및 어미들의 음운론적 이형태 등 다양한 언어적인 특성을 고려해야만 사용자에게 자연스럽게 느껴지는 표현을 만들어 낼 수 있다.In the case of English, it is easy to generate natural expressions simply by modifying the word form regularly according to the tenses or first person, or by using a dictionary containing a list of irregular verbs. It is necessary to consider various linguistic characteristics such as verbs (verbs / adjectives), abbreviation phenomena, research, and phonological dimorphism of mothers, which can make expressions that seem natural to users.
이 같은 한국어의 교착어적인 특성으로 인해 한국어 자연어 처리, 세부적으로는 하위 분야인 자연어 이해(Natural language understanding)와 자연어 생성(Natural language generation) 분야에서 형태소의 어형 변화를 처리하기 위한 다양한 방법이 제안되어 왔다.Due to this interstitial nature of Korean language, various methods have been proposed to handle morphological changes in morphemes in Korean natural language processing, specifically sub-fields of Natural language understanding and Natural language generation. .
종래의 자연어 처리 시스템은 자연어 생성에 비해 사용자가 입력하는 무작위적인 입력을 처리해야 하는 자연어 이해에 관한 연구가 활발하게 이루어져 왔으며, 자연어 이해를 위한 형태소 분석을 위한 다양한 방법들이 제안되어 왔다.Conventional natural language processing systems have been actively studied for understanding natural language, which requires processing of random input by a user, compared to natural language generation, and various methods for morphological analysis for natural language understanding have been proposed.
형태소 단위 처리에 관한 연구 역시 자연어 이해를 위한 형태소 분석 방법에 관한 연구를 중심으로 이루어졌으며, 자연어 생성을 위한 형태소 합성 시스템은 기존의 형태소 분석 시스템의 입력과 출력을 반대로 사용한 방법으로 구현되어 왔다. The research on morphological unit processing is also focused on the morphological analysis method for natural language understanding, and the morphological synthesis system for natural language generation has been implemented by using the input and output of the conventional morphological analysis system in reverse.
그러나, 형태소 합성에서 나타나는 중의성과 형태소 분석에서 나타나는 중의성은 서로 다른 양상을 보이며, 중의성 해결을 위한 해결책이 서로 다르다.However, neutrality in morphological synthesis and neutrality in morphological analysis are different, and solutions for neutrality resolution are different.
형태소 분석의 경우 어절을 구성하였을 것으로 예측되는 형태소의 의미 및 종류에 관한 정보가 없어서 발생하는 중의성이 나타난다. 다음은 형태소 분석의 중의성을 보여주는 대표적인 예이다.In the case of morphological analysis, the neutrality caused by the lack of information on the meaning and type of morphemes predicted to constitute a word appears. The following is a representative example of the importance of morphological analysis.
나는 -> 나(대명사)+는 : I amI-> I (pronoun) + is: I am
-> 나(동사)+는 : be generated or born -> I (verb) + is: be generated or born
-> 날(동사)+는 : flying -> Day (verb) +: flying
형태소 분석의 경우 어절을 구성하고 있는 형태소의 품사가 무엇인지(예를 들어, 형태소가 대명사인가 동사인가에 따른 분석), 형태소가 가진 의미가 무엇인 지(예를 들어, 형태소가 동사일 경우 "fly"와 "be born" 중 어떤 의미를 가지고 있는지에 따른 분석)에 따라서 각기 다른 형태소 분석이 가능하다.In the case of morpheme analysis, the parts of the morpheme composing the word (for example, an analysis based on whether the morpheme is a pronoun or a verb) and what the morphemes mean (for example, when the morpheme is a verb) Different morphological analyzes are possible depending on the meaning of "fly" or "be born".
이처럼 형태소 분석에서 나타나는 중의성을 해결하기 위해서는 형태소 분석 대상인 어절 주위의 형태소들을 고려함으로써 중의성을 해결할 수 있다. 상기 예의 경우 하기와 같이 어절 외부의 형태소 또는 어절을 고려할 수 있다면 분석 과정에서 발생하는 중의성을 해결할 수 있다.In order to solve the neutrality shown in the morphological analysis, the neutrality can be solved by considering the morphemes around the word that is the morphological analysis target. In the case of the above example, if the morpheme or word outside the word can be considered as follows, the neutrality generated during the analysis can be solved.
나는 학교에 .... -> 나(대명사)+는 : I amI'm in school ....-> I (pronoun) + is: I am
... 밭에 나는 작물 .... -> 나(동사)+는 : be generated... crops in the field ....-> I (verb) + is: be generated
... 비행기가 나는 동안 .... -> 날(동사)+는 : flying... while flying ....-> Me (verb) +: flying
반면, 자연어 생성을 위한 형태소 합성 과정에서는 주어진 형태소의 품사가 무엇인지, 형태소의 의미가 무엇인지는 형태소 합성의 입력으로 주어지는 데이터에는 어절을 구성하는 각 형태소 또는 품사까지 포함되어 있기 때문에 형태소 분석에서 발생하는 중의성 문제가 발생하지 않는다. On the other hand, in the morpheme synthesis process for natural language generation, what is the morpheme of a given morpheme and what is the meaning of morpheme is generated in morphological analysis because the data given as input of morpheme synthesis includes each morpheme or part of speech There is no problem of neutrality.
그러나, 형태소 합성 과정에서는 축약/ 음운론적 이형태/ 용언의 불규칙 활용 등 주어진 형태소에 대해서 적용해야 하는지 여부를 결정해야 하는 중의성의 문제가 발생하게 된다. 다음은 형태소 합성 과정에서 발생할 수 있는 중의성을 보여주는 예이다.However, in the process of morpheme synthesis, there is a problem of necessity to decide whether to apply to a given morpheme, such as abbreviation / phonological dimorphism / irregular use of verbs. The following is an example showing the neutrality that may occur during morphological synthesis.
<축약><Abbreviation>
이것+이 -> 이것이This + this-> this
이게 this
<음운론적 이형태>Phonological Dimorphism
학교+(목적격) -> 학교를School + (Purpose)-> School
사랑+(목적격) -> 사랑을Love + (purpose)-> love
<용언의 불규칙><Irregular irregularities>
곱(beautiful)+은 -> 고운Beautiful +-> fine
곱(bented)+은 -> 곱은Bend + is-> Multiply
형태소 분석의 경우 어절의 어형을 알고 있기 때문에 어절을 구성할 형태소 조합에 관한 중의성 문제가 해결되면 형태소의 어형 변화가 어떤 식으로 나타날 지를 인식할 수 있다. In the case of morphological analysis, the word form of the word is known so that when the neutrality problem about the morpheme combination that constitutes the word is solved, the morphological change of the morpheme can be recognized.
그러나, 형태소 합성 과정에서는 주어진 형태소가 어절을 형성하는 과정 중에 나타날 수 있는 형태소의 다양한 어형 변화 중에서 적절한 어형의 변화를 선택할 수 있어야 한다.However, in the morphological synthesis process, it is necessary to be able to select an appropriate morphological change among various morphological changes of morphemes that may occur during the process of forming a word.
만일, 형태소 결합 과정에서 발생할 수 있는 형태소의 어형 변화를 고려하여야 하는 형태소를 그대로 합성할 경우 다음과 같은 어색한 표현이 생성될 수 있다. If the morphemes that are to be considered for the morphological changes of the morphemes that may occur in the morpheme combining process are synthesized as they are, the following awkward expression may be generated.
목적지+는/ 전주+이+어요? -> 목적지는 전주이어요? (부자연스러운 표현)Is destination + / Jeonju +? -> The destination is Jeonju? (Unnatural expression)
목적지는 전주에요? (자연스러운 표현) Is your destination Jeonju? (Natural expression)
이것+이/무엇+이야? -> 이것이 무엇이야? (부자연스러운 표현)What is this +? What is this? (Unnatural expression)
이게 뭐야? (자연스러운 표현) What is this? (Natural expression)
또한, 형태소 합성 시스템을 사용하지 않을 경우 하기의 예와 같은 기계적인 표현이 생성되게 된다.In addition, when the morpheme synthesis system is not used, a mechanical representation such as the following example is generated.
민정 + 주격 -> 민정+이(가)Minjung + Siege-> Minjung +
정태 + 주격 -> 정태+이(가)Static + Mainline-> Static +
다음 메시지는 민정(이)에게 전달되었습니다. The following message was sent to Minjung .
또한, 종래의 자연어 생성 시스템은 한국어 표준어 표현만을 생성하였다. 예를 들어, 종래의 네비게이션 시스템의 경우 모든 표현이 높임말을 사용하고, 기계 번역 시스템의 경우 일반적으로 평서문을 사용하는 등의 표준어 표현만을 사용한다.In addition, the conventional natural language generation system generates only Korean standard language expressions. For example, in the conventional navigation system, all the expressions are used in the abbreviation, and in the case of the machine translation system, only the standard language expressions such as using the plain text are used.
그러나 한국어는 지역, 연령, 발화자의 사회적 관계, 정보 교환이 이루어지고 있는 상황(예를 들어, 인터넷)에 따라서 달라지는 다양한 표현 양식이 존재하므로 종래의 획일적인 표현이 아닌 유저가 원하는 다양한 표현 양식을 생성할 수 있는 형태소 합성이 필요가 있다.However, Korean has a variety of expression styles that vary according to the region, age, speaker's social relations, and information exchange (for example, the Internet). There is a need for morphological synthesis.
결국, 한국어에 적합할 뿐만 아니라 최신 자연어 생성 시스템의 요구를 만족시켜 줄 수 있는 한국어의 표현을 생성하기 위해서는 표준 한국어 문법에 따른 형태소의 어형 변화 뿐만 아니라, 여러 가지 표현 양식에 따라 형태소를 합성할 수 있는 기술이 필요하다. As a result, in order to generate Korean expressions that are not only suitable for Korean language but also satisfy the demands of the latest natural language generation system, the morphemes can be synthesized according to various expression forms as well as the morphological changes of morphemes according to standard Korean grammar. Skill is required.
상기와 같은 문제점을 해결하기 위해 안출된 것으로서 본 발명의 목적은 형태서 합성시 이전에 나타난 형태소의 어형 변화에 따라 순차적으로 나타나는 어형 변화와 이전에 나타난 형태소의 어형 변화와 상관없이 형태소의 원형에 따라서 병렬적으로 나타나는 어형 변화를 고려하여 자연스러운 형태의 어절을 합성할 수 있는 형태소 합성 장치 및 그 방법을 제공하는 데 있다.In order to solve the above problems, an object of the present invention is to follow the original morphological form regardless of the morphological changes that appear sequentially and the morphological changes of the morphemes previously shown when the morphemes are synthesized. The present invention provides a morpheme synthesis apparatus and a method for synthesizing a word having a natural form in consideration of morphological changes appearing in parallel.
그리고 본 발명의 또 다른 목적은 사용자가 원하는 시대와 지역에 따른 사투리, 말하는 이의 연령이나 사회적 관계, 인터넷 표현이나 유행어, 정보 교환이 이루어지고 있는 상황에 따라서 달라지는 다양한 표현 양식의 한국어 표현이 가능한 형태소 합성 장치 및 그 방법을 제공하는 데 있다.Another object of the present invention is a morpheme synthesis capable of expressing Korean in various forms of expression that vary depending on the dialect according to the age and region desired by the user, the age or social relationship of the speaker, the Internet expression, the buzzword, and the information exchange. An apparatus and a method thereof are provided.
상기와 같은 목적을 달성하기 위해 본 발명에 따른 형태소 합성 장치는 자연어 생성장치로부터 입력된 형태소 열을 합성하는 형태소 합성장치로서, 상기 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 분석하고 저장된 형태소 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 상기 형태소 합성 규칙에 따라 형태소를 합성하여 어절을 생성하는 것을 특징으로 한다.In order to achieve the above object, the morpheme synthesis apparatus according to the present invention is a morpheme synthesis apparatus for synthesizing a morpheme sequence input from a natural language generator, and receives and analyzes morpheme sequence information including the morpheme sequence or expression form information. Selecting an appropriate morpheme synthesis rule from the stored morpheme synthesis rules, characterized in that to generate a word by synthesizing the morphemes according to the morpheme synthesis rules.
여기서, 상기 형태소 합성장치는 상기 자연어 생성장치에서 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 수신하는 통신부와 상기 수 신된 형태소 열에 대해 형태소 합성을 위한 전처리를 수행하고 형태소 합성에 적용될 합성 규칙을 선택하는 전처리부와 상기 수신된 형태소 열 또는 표현 양식 정보를 포함한 형태소 열에 대한 형태소 합성에 적용될 형태소 합성 규칙을 저장하는 메모리부와 상기 형태소 열에 대해 상기 전처리부에서 선택된 합성 규칙에 포함된 조건 중 상기 형태소 열의 조건을 모두 만족하는 합성 규칙을 추출하여, 상기 추출된 합성 규칙에 따라 수정 연산하여 형태소를 합성하는 형태소 합성부 및 상기 합성된 형태소에 대해 어절 및 자연어 문장을 생성하는 어절 합성부를 포함하는 것을 특징으로 한다.Here, the morpheme synthesis apparatus performs a preprocessing for morpheme synthesis on the communication unit receiving the morpheme sequence information including the morpheme sequence or the expression form information transmitted from the natural language generation device and the received morpheme sequence, and the synthesis to be applied to the morpheme synthesis. A preprocessing unit for selecting a rule, a memory unit for storing a morphological synthesis rule to be applied to the morphological synthesis for the morphological column including the received morphological column or the expression form information, and a condition included in the synthesis rule selected in the preprocessing unit for the morphological column A morpheme synthesis unit for extracting a synthesis rule that satisfies all the conditions of the morpheme column, modifying and calculating the morpheme according to the extracted synthesis rule, and a word synthesis unit configured to generate a word and a natural language sentence for the synthesized morpheme It is characterized by.
그리고 상기 형태소 합성장치는 클라이언트가 직접 원하는 표현 양식을 설정할 수 있는 표현 양식 지정부를 더 포함하는 것을 특징으로 한다.The morpheme synthesis apparatus may further include an expression style designation unit capable of directly setting a desired expression style.
또한, 상기 형태소 합성 규칙은 각각 하기와 같은 데이터 구조로 형성된 것을 특징으로 한다.In addition, the morpheme synthesis rule is characterized in that each formed of a data structure as follows.
여기서, 자소 조건은 형태소의 자소 및 품사들을 명세하기 위한 조건이고, 문법 조건은 형태소의 문법적인 속성들에 따라서 적용되는 문법에 대한 조건이고, 상기 시스템 조건은 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 조건이고, 상기 수정 연산은 상기 조건을 만족할 경우 적용될 형태소 수정 공식이다.Here, the phoneme condition is a condition for specifying the phoneme and the parts of speech of the morpheme, the grammar condition is a condition for the grammar applied according to the grammatical properties of the morpheme, and the system condition is a morpheme change related to three or more morphemes. Is a condition considered, and the correction operation is a morpheme correction formula to be applied when the condition is satisfied.
그리고 수신되거나 사용자로부터 지정된 표현 양식 정보를 더 포함하는 하기와 같은 데이터 구조로 형성된 것을 특징으로 한다.And it is characterized in that it is formed of a data structure as follows that further includes the presentation form information received or specified from the user.
여기서, 상기 표현 양식 조건은 사투리, 높임말, 문어체, 유행어, 인터넷 대화어(통신체) 등 각종 표현 양식을 규정하는 조건이다.Here, the expression style condition is a condition for defining various expression styles such as dialect, acronym, written word, buzzword, and internet dialogue (communication).
또한, 상기 형태소 합성부는 형태소 열 데이터에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우 상기 표현 양식 조건을 제외한 다른 조건을 만족하는 합성 규칙에 의해 형태소 수정 연산을 수행한 후 상기 표현 양식 조건을 만족하는 합성 규칙에 의해 추가로 형태소 수정 연산을 수행하는 것을 특징으로 한다. In addition, the morpheme synthesis unit satisfies the expression style condition after performing a morpheme correction operation by a synthesis rule that satisfies other conditions except for the expression style condition when the expression style information is included in the morpheme column data or a specific expression style is designated. The morpheme correction operation is further performed by the composition rule.
그리고 상기 전처리부는 수신된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하고, 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하고, 수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하고, 형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 것을 특징으로 한다.The preprocessing unit filters elements that are not subject to morpheme synthesis among the received morpheme sequences, filters expressions inserted between words using parentheses, and converts morpheme forms that are not directly morpheme synthesized among the received morpheme sequences. The morphological synthesis rules to be applied to the morphological synthesis are modified and selected from the memory unit.
그리고 상기 전처리부는 상기 괄호 기호의 양 단을 인식하고, 상기 괄호 기호의 양단 사이에 삽입된 어절 또는 문장을 추출하여 재귀 입력시키고, 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 형태소 합성부에 입력하고, 상기 형태소 합성부는 상기 재귀 입력된 괄호 기호 사이에 삽입된 어절 또는 문장과 상기 괄호 기호 전과 후의 형태소를 결합한 형태소 열을 순차적으로 합성하는 것을 특징으로 한다.The preprocessor recognizes both ends of the parenthesis symbol, recursively inputs a phrase or sentence inserted between both ends of the parenthesis symbol, inputs a morpheme string combining the morphemes before and after the parenthesis symbol to a morpheme synthesis unit. The morpheme synthesis unit may sequentially synthesize a phrase or sentence inserted between the recursive input parenthesis symbols and a morpheme sequence combining morphemes before and after the parenthesis symbol.
또한, 상기 형태소 합성부는 상기 형태소 열에 대하여 선택된 합성 규칙에 포함된 조건과 상기 형태소 열의 모든 조건을 만족하는 합성 규칙을 추출하는 형태소 합성 조건 모듈과 상기 추출된 합성 규칙에 포함된 수정 연산에 따라 형태소 합성 연산을 수행하는 형태소 합성 연산 모듈을 포함하는 것을 특징으로 한다.The morpheme synthesis module may further include a morpheme synthesis condition module for extracting a condition included in the synthesis rule selected for the morpheme column and a synthesis rule that satisfies all the conditions of the morpheme column, and a modification operation included in the extracted synthesis rule. It includes a morphological synthesis operation module for performing the operation.
여기서, 상기 형태소 합성 조건 모듈은 상기 선택된 합성 규칙들을 순차적으로 형태소 열과 비교하여 모든 조건을 만족하는지 여부를 반복적으로 검사하여 모든 조건을 만족하는 합성 규칙을 추출하는 것을 특징으로 한다.Here, the morpheme synthesis condition module is characterized by extracting a synthesis rule that satisfies all the conditions by repeatedly checking whether all the conditions are satisfied by sequentially comparing the selected synthesis rules with the morpheme sequence.
그리고 상기 어절 합성부는 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 한다.The word synthesizing unit rearranges the synthesized morphemes according to the morpheme order information received at the time point received by the communication unit to generate a word.
한편, 본 발명에 따른 형태소 합성 방법은 자연어 생성장치로부터 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열 정보를 전송받아 형태소를 합성하는 형태소 합성 방법으로서, 전처리부가 상기 전송된 형태소 열 또는 표현 양식 정보를 포함하는 형태소 열을 분석하여 전처리를 수행하는 단계와 형태소 합성부가 상기 전처리된 형태소 열에 대해 선택된 합성 규칙 중 적합한 형태소 합성 규칙을 선택하여 형태소를 합성하는 단계와 어절 합성부가 상기 합성된 형태소에 대해 어절을 생성하는 단계를 포함하는 것을 특징으로 한다.Meanwhile, the morpheme synthesis method according to the present invention is a morpheme synthesis method for synthesizing morphemes by receiving morpheme sequence information including morpheme sequence or expression form information from a natural language generator, and a preprocessing unit converts the morpheme sequence or expression form information. Performing pre-treatment by analyzing the morphological heat including and morphological synthesis by selecting a suitable morphological synthesis rule among the synthesis rules selected for the pre-treated morphological heat and synthesizing the morpheme with the word synthesis unit using the word for the synthesized morpheme Characterized in that it comprises the step of generating.
여기서, 상기 전처리를 수행하는 단계는 입력된 형태소 열 중 형태소 합성 대상이 아닌 요소들을 필터링하여 어절 생성부로 전송하는 단계와 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계와 수신된 형태소 열 중 직접 형태소 합성이 불가능한 형태소의 형태를 형태소 합성에 적합한 형태로 수정하는 단계와 형태소 합성에 적용될 형태소 합성 규칙들을 상기 메모리부로부터 추출하여 선택하는 단계를 포함하는 것을 특징으로 한다.The performing of the preprocessing may include filtering out elements that are not subject to morpheme synthesis among the input morpheme strings and transmitting them to the word generator, filtering expressions inserted between words using parentheses, and receiving morpheme strings. And modifying a form of the morpheme which is not directly morphologically synthesized into a form suitable for morphological synthesis and extracting and selecting morphological synthesis rules to be applied to morphological synthesis from the memory unit.
그리고 상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들을 필터링하는 단계는 상기 괄호 기호를 사용해 어절 사이에 삽입된 표현들은 추출하여 재귀 입력하고, 상기 괄호 기호 전 후의 형태소를 결합하여 형태소 합성부에 입력하는 것을 특징으로 한다.And filtering expressions inserted between words using the parentheses, extracting and recursively inputting expressions inserted between the words using the parentheses, and combining the morphemes before and after the parentheses and inputting them into the morpheme synthesis unit. It is characterized by.
또한, 상기 형태소를 합성하는 단계는 상기 선택된 합성 규칙들을 순차적으로 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하고, 잔여 합성 규칙들이 있는 경우 다시 상기 입력된 형태소 열과 비교하여 모든 조건을 만족하는 합성 규칙을 추출하고, 추출된 합성 규칙에서 정의된 수정 연산에 형태소 합성 연산을 수행하는 과정을 반복하는 것을 특징으로 한다.In the synthesizing of the morphemes, the selected synthesis rules may be sequentially compared with the input morpheme column to extract a synthesis rule that satisfies all conditions, and performs a morpheme synthesis operation on the modified operation defined in the extracted synthesis rule. If there are residual synthesis rules, the process of extracting a synthesis rule satisfying all conditions is compared with the inputted morpheme column, and repeating the process of performing a morpheme synthesis operation on the modified operation defined in the extracted synthesis rule. .
그리고 상기 모든 조건을 만족하는 합성 규칙을 추출하는 단계는 입력된 형태소 열의 조건과 상기 선택된 합성 규칙에 포함된 조건을 비교하되, 상기 선택된 합성 규칙에 포함된 형태소의 자소 및 품사들을 명세하기 위한 자소 조건과 형태소의 문법적인 속성들에 따라서 적용되는 문법조건과 3개 이상의 형태소들이 관련된 형태소 어형 변화를 고려한 시스템 조건을 모두 만족하는 합성 규칙을 추출하는 것을 특징으로 한다.And extracting a synthesis rule that satisfies all the conditions comprises comparing a condition of an input morpheme column with a condition included in the selected synthesis rule, and a phoneme condition for specifying phonemes and parts of speech included in the selected synthesis rule. It is characterized by extracting a synthesis rule that satisfies both the grammatical conditions applied according to the grammatical properties of the morphemes and the system conditions considering the morphological morphological changes related to three or more morphemes.
여기서, 입력된 형태소 열에 표현 양식 정보가 포함되거나 특정 표현 양식이 지정된 경우 표현 양식 조건을 제외한 나머지 조건을 만족하는 합성 규칙을 추출하여 형태소 수정 연산을 수행한 후 추가적으로 상기 표현 양식 조건을 만족하는 합 성 규칙을 추출하여 형태소 수정 연산을 수행하는 것을 특징으로 한다.In this case, when the input morpheme column includes expression style information or a specific expression style is specified, a synthesis rule satisfying the remaining conditions except for the expression style condition is extracted to perform a morphological modification operation, and then additionally satisfies the expression style condition. Extract the rule and perform a morphological modification operation.
또한, 상기 어절을 생성하는 단계는 상기 어절 합성부가 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하는 것을 특징으로 한다.The generating of the word may include generating a word by rearranging the synthesized morpheme according to the morpheme order information at the time when the word synthesis unit receives the communication unit.
상기에서 살펴본 바와 같이 본 발명에 따른 형태소 합성 장치 및 방법은 형태서 합성시 이전에 나타난 형태소의 어형 변화에 따라 순차적으로 나타나는 어형 변화와 이전에 나타난 형태소의 어형 변화와 상관없이 형태소의 원형에 따라서 병렬적으로 나타나는 어형 변화를 고려하여 자연스러운 형태의 어절을 합성할 수 있어 신뢰도 및 시스템 성능을 높일 수 있는 탁월한 효과가 발생한다.As described above, the morpheme synthesis apparatus and method according to the present invention are parallel according to the morphemes of the morphemes regardless of the morphological changes that appear sequentially according to the morphological changes of the morphemes shown previously and the morphological changes of the morphemes shown previously. Natural words can be synthesized by taking into account the changes in the shape of the words, resulting in excellent reliability and system performance.
그리고 시대와 지역에 따른 방언, 말하는 이의 연령이나 사회적 관계, 인터넷 표현이나 유행어, 정보 교환이 이루어지고 있는 상황에 따라서 달라지는 표현 양식에 따른 변화를 고려하여 형태소를 합성할 수 있는 탁월한 효과가 발생한다.In addition, there is an excellent effect of synthesizing morphemes in consideration of dialects according to the times and regions, the age and social relations of the speaker, internet expressions, buzzwords, and information styles that vary depending on the situation in which information is being exchanged.
이하, 본 발명에 따른 구체적인 실시예에 대하여 도면을 참조하여 상세하게 설명하기로 한다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 바람직한 실시예에 따른 자연어 생성 시스템의 시스템 구성도이고, 도 2는 도 1의 형태소 합성장치의 상세 블럭도이다.1 is a system configuration diagram of a natural language generation system according to a preferred embodiment of the present invention, and FIG. 2 is a detailed block diagram of the morpheme synthesis apparatus of FIG. 1.
도 1 및 2를 참조하면, 본 발명에 따른 자연어 생성 시스템은 자연어를 생성하는 자연어 생성장치(10)와 상기 자연어 생성장치로부터 전송된 형태소 정보와 표현 양식 정보를 분석하고 형태소 합성 규칙을 적용하여 어절 및 자연어 문장을 생성하는 형태소 합성 장치(20) 및 상기 형태소 합성 장치로부터 생성된 자연어 문장을 전송받는 클라이언트(30)을 포함하여 구성될 수 있다. 1 and 2, the natural language generation system according to the present invention analyzes the
여기서, 상기 표현 양식 정보는 표준어, 사투리, 문어체, 구어체, 높임말, 낮춘말, 인터넷에서 활용되는 용어, 유행어 등 클라이언트 단말의 사용자와의 관계에서 적용될 양식에 관한 정보를 총칭하여 정의하기로 한다.Here, the expression style information will be defined collectively information about the style to be applied in the relationship with the user of the client terminal, such as standard language, dialect, written language, colloquial language, high word, low word, term used in the Internet, and trendy words.
그리고 상기 표현 양식 정보는 상기 자연어 생성장치(10) 외부에서 입력되는 정보로서 외부에서 입력이 없는 경우에는 상기 자연어 생성장치(10)는 형태소 열 정보 만을 형태소 합성 장치(20)에 전송할 수 있다.The expression style information is information input from the outside of the natural
일반적으로 자연어 생성은 클라이언트를 통해 입력된 자연어 문장의 형태소 분석을 통해 의미를 파악한 후 대응되는 형태소 열을 생성하는 것으로 자연어 생성장치의 구성은 이미 공지된 구성으로 본 발명의 기술분야에서 통상의 지식을 가진 자에게 자명할 뿐만 아니라 본 발명의 핵심에서 벗어나는 부분이므로 구체적인 설명은 생략하고 생성된 자연어에 대한 형태소 합성에 따른 어절 생성 및 자연어 문장 생성에 대해서만 설명하기로 한다.In general, natural language generation is to generate a corresponding morpheme string after grasping meaning through a morphological analysis of a natural language sentence input through a client. As well as self-explanatory to those having a part from the core of the present invention will not be described in detail will be described only the word generation and natural language sentence generation according to the morphological synthesis of the generated natural language.
상기 형태소 합성 장치(20)는 상기 자연어 생성장치에서 전송된 형태소 열 정보 또는 표현 양식 정보를 포함하는 형태소 열 정보를 수신하는 통신부(210)와 상기 수신된 형태소 열에 대해 형태소 합성을 위한 전처리를 수행하고 형태소 합성 에 적용될 합성 규칙을 선택하는 전처리부(220)와 형태소 상기 수신된 형태소 열 정보, 합성에 적용될 형태소 합성 규칙을 저장하는 메모리부(230)와 상기 전처리부를 통해 선택된 합성 규칙의 조건을 만족하는지 여부를 판단하여 형태소를 합성하는 형태소 합성부(240) 및 상기 합성된 형태소에 대해 어절을 합성하는 어절 합성부(250)를 포함하여 구성될 수 있다. The
그리고, 상기 형태소 합성 장치(20)는 클라이언트가 원하는 특정 표현 양식을 지정할 수 있는 표현 양식 지정부를 더 포함하여 구성될 수 있다.The
상기 메모리부(230)에 저장되는 합성 규칙은 용언의 규칙 및 불규칙 활용, 음운론적 이형태와 전처리, 긍정지정사 '이', 사투리 등 한국어의 문법에 따라 나타나는 형태소 합성시 어형 변화를 처리할 수 있는 모든 규칙을 말한다.Synthesis rules stored in the
상기 합성 규칙은 합성에 적용되기 위한 조건과 상기 조건을 만족할 경우 형태소 수정 공식을 정의하는 수정 연산을 포함할 수 있다.The synthesis rule may include a condition for applying to synthesis and a correction operation defining a morphological correction formula when the condition is satisfied.
상기 자소 조건은 결합 대상이 되는 형태소의 자소 및 품사들을 명세하기 위한 자소 조건과 그 외 형태소 합성 과정에서 발생할 수 있는 중의성을 해결하기 위한 상태 조건으로 구분될 수 있다.The phoneme condition may be classified into a phoneme condition for specifying the phoneme and parts of speech of the morpheme to be combined and a condition condition for solving the neutrality that may occur in the morpheme synthesis process.
그리고 상기 상태 조건은 사투리, 높임말, 문어체, 유행어, 인터넷 대화어(통신체) 등 각종 표현 양식을 규정하는 표현 양식 조건, 형태소 각각이 가지고 있는 형태소의 문법적인 속성들에 따라서 적용되는 문법 조건, 3개 이상의 형태소 들이 관련된 형태소 어형 변화를 고려한 시스템 조건으로 세분될 수 있다. In addition, the state conditions include three expression forms that define various expression forms such as dialect, acronym, written word, buzzword, and internet dialogue (communication), and grammar conditions applied according to the grammatical properties of each morpheme. These morphemes can be subdivided into system conditions that take into account relevant morphological changes.
상기와 같은 조건과 수정 연산을 포함하는 합성 규칙은 하기와 같은 데이터 구조로 생성되어 메모리부에 저장될 수 있다. The synthesis rule including the condition and the modification operation as described above may be generated as the following data structure and stored in the memory unit.
상기 전처리부(220)는 수신된 형태소 중 기호 등 형태소 합성 대상이 아닌 요소(마침표, 물음표 등과 같은 한글 맞춤법의 문장부호)들을 걸러내어 어절 합성부(250)로 전송하고, 괄호를 사용해 어절 사이에 삽입된 표현들을 걸러내고, 기호, 단위, 숫자, 특수문자 등 수신된 형태소들의 형태를 형태소 합성에 적합한 형태(예를 들어, m -> 미터)로 수정하는 역할을 담당한다.The
괄호 기호의 사용과 같이 어절의 중간에 기호 등을 사용해 추가적인 표현이 삽입되는 경우나, 문장 기호가 아니면서 어절을 형성하고 있는 단위(m, ℓ)나 숫자들이 삽입되는 경우 전처리가 필요하다.Pre-processing is required when additional expressions are inserted using symbols in the middle of a word, such as the use of parentheses, or when units (m, ℓ) or numbers forming words without sentence marks are inserted.
예를 들어, '대만 일간 자유시보(自由時報)는' 과 같이 자유시보라는 명사와 조사 '는'은 서로 같은 어절 안이기는 하지만 괄호로 표시된 '(自由時報)'에 의해 분리되어 있다. 따라서 음운론적 이형태의 처리가 불가능하다. 상기와 같이 괄호와 같은 기호를 사용해 어절 내에 다른 단어/구/문장이 삽입되어 있는 문제는 한국어에 대해서만 국한된 문제가 아니다. 본 발명에서는 전처리부에서 전처리 과정을 통해 상기와 같은 현상을 처리한다.For example, such as "Taiwan free time signal ", the noun "free time" and the survey "a" are separated by '(自由 時 自)' in parentheses, although they are not in the same word. Therefore, it is impossible to deal with phonological variants. As described above, the problem that another word / phrase / sentence is inserted in a word using a symbol such as parentheses is not limited to Korean. In the present invention, the pretreatment unit processes the above phenomenon through a pretreatment process.
기호의 필터링은 물음표, 쉼표, 마침표 등 일반적으로 문장을 작성할 때 사용되는 기호들을 걸러내는 작업으로 상기와 같은 기호에는 기호를 의미하는 'S'라는 품사가 부여되어 형태소 합성 규칙이 적용되지 않도록 할 수 있지만, 형태소 합 성 규칙을 적용하는 과정을 줄임으로써 시스템의 성능을 향상시키기 위해서 전처리부를 통해 기호 필터링 과정을 수행하는 것이 바람직하다.Filtering of symbols filters out symbols that are commonly used when writing sentences such as question marks, commas, and periods. The symbol can be given a part-of-speech, 'S', to prevent morphological compositing rules from being applied. However, it is desirable to perform the symbol filtering process through the preprocessor to improve the performance of the system by reducing the process of applying the morphological synthesis rules.
어절 내에 삽입된 표현은 상기 예제처럼 단순히 원 외국어 표현을 표기할 때 뿐만 아니라, 새로운 문장이 삽입되는 경우도 있다. The expression inserted in the word is not only a notation of the original foreign language expression as in the above example, but also a new sentence may be inserted.
따라서, 전처리부(220)는 괄호 등의 조건들을 사용하여 삽입된 표현들을 찾아내어 해당 어절을 생성하는 과정에 영향을 주지 않도록 하고, 찾아낸 삽입 표현은 다시 형태소 입력기를 사용해 적절한 문장을 만들어 내도록 할 수 있다.Therefore, the
예를 들어, .... 아름다운 가게(2000년부터 운용되어옴)에서는.... 와 같은 문장에서 괄호안에 포함된 '2000년부터 운용되어옴'은 다시 형태소 합성장치로 입력되어 독립적으로 처리된다.For example, .... in a beautiful shop (which has been in operation since 2000) , the phrase "being in 2000" that is enclosed in parentheses in a sentence like .. do.
여기서, 삽입된 표현을 처리하는 경우에 대해서는 후술할 실시예에서 상세하게 설명하기로 한다.Here, the case of processing the inserted expression will be described in detail in the following embodiments.
그리고 문장 기호가 아니면서 어절을 형성하고 있는 기호나 숫자들을 처리하기 위해 전처리부(220)가 사용될 수 있다.The
예를 들어, 'Σ는'와 'λ은' 이라는 표현에서 Σ(시그마)와 λ(입실론)은 각각 기호이기 때문에 자소 비교를 통해 형태소 합성 규칙 적용 여부를 판단하기 어렵다. 따라서 전처리부는 각각의 기호에 대한 발음을 메모리부에 저장하고 기호들이 입력되었을 때 적절한 변환을 수행한 뒤 형태소 합성부로 전송한다. For example, in the expressions Σ is and λ is, Σ (sigma) and λ (epsilon) are symbols, respectively, and it is difficult to determine whether to apply the morpheme synthesis rule through phoneme comparison. Therefore, the preprocessor stores the pronunciation of each symbol in the memory unit, performs appropriate conversion when the symbols are input, and transmits them to the morpheme synthesis unit.
또한 어절합성부에서 실제 어절을 생성하는 과정에서는 상기 기호들은 원래 기호 형태 그대로 처리되어야 하므로 상기 전처리부는 상기와 같은 정보를 어절합 성부에 전달함으로써 의도한 표현이 생성될 수 있도록 할 수 있다.In addition, in the process of generating the actual word in the word combining unit, the symbols must be processed in the form of the original symbol, so that the preprocessor transmits the above information to the word combining unit so that the intended expression can be generated.
예를 들어, "Σ+은/는"의 경우 상기 전처리부(220)에서 "시그마+은/는"으로 형태소 합성이 가능한 형태로 변환하고, 형태소 합성부에서 "시그마+는"으로 합성한 후, 어절 합성부(250)에서 상기 "시그마"를 원 기호인 "∑"로 변환하여 "∑는"이라는 어절을 생성하게 된다.For example, in the case of "Σ + / is", the
그리고 숫자 역시 아라비아 숫자 기호로 표시되지만 실제로는 한국어 발음을 가지고 있기 때문에 전처리가 필요하고, 특히 숫자는 뒤에 붙는 단위 등에 따라서 발음이 달라지기 때문에 전처리부는 이를 고려하여 처리할 수 있다.In addition, numbers are also represented by Arabic numeral symbols, but because they actually have Korean pronunciations, preprocessing is necessary. In particular, numbers may be processed according to the units attached to them.
예를 들어, '1㎖'와 '1말'은 각각 '일밀리리터'와 '한말'로 다르게 발음되므로 전처리부에서 상황에 따라 적합한 발음에 매칭되도록 처리를 수행한다.For example, '1 ml' and '1 horse' are pronounced differently as 'one milliliter' and 'one horse', respectively, so that the preprocessing unit performs processing to match the appropriate pronunciation according to the situation.
그리고 형태소 합성 규칙을 적용할 필요가 있는 형태소 열 정보 만을 형태소 합성부(240)로 전송하되 형태소 합성시 적용가능한 자소 규칙과 상태 조건을 포함하는 합성 규칙 리스트를 상기 메모리부(230)로부터 선택하는 역할을 담당한다. 표현 양식 정보가 함께 수신된 경우 형태소 합성에 적용될 표현 양식 조건도 선택한다. And transmitting only the morpheme thermal information that needs to be applied to the morpheme synthesis rule to the
상기 형태소 합성부(240)는 상기 전처리부에서 선택된 합성 규칙이 적용될 조건을 정의하고 조건에 만족하는지 여부를 판단하여 형태소 합성 연산을 수행하는 역할을 수행한다.The
도 3은 도 2의 형태소 합성부에 대한 상세 블럭도이다.3 is a detailed block diagram of the morpheme synthesis unit of FIG. 2.
도 3을 참조하면, 형태소 합성부(240)는 형태소 열과 선택된 합성 규칙 목록 중 자소 조건 및 상태조건을 검사하여 상기 조건을 모두 만족하는 합성 규칙을 추출하는 형태소 합성 조건 모듈과 상기 추출된 합성 규칙에 따라 형태소 합성 연산을 수행하는 형태소 합성 연산 모듈을 포함하여 구성될 수 있다.Referring to FIG. 3, the
상기 형태소 합성 조건 모듈은 형태소 열이 선택된 모든 합성 규칙 목록을 순차적으로 입력하여 상기 형태소 열의 조건(자소 조건 및 상태 조건)을 만족하는 규칙을 추출하고, 상기 형태소 합성 연산 모듈이 상기 조건을 만족하는 합성 규칙에 따라 형태소를 수정하는 연산을 수행하고 수정된 형태소를 결합하여 형태소를 합성하게 된다.The morpheme synthesis condition module sequentially inputs a list of all the synthesis rules in which the morpheme column is selected to extract a rule that satisfies the conditions (self condition and state condition) of the morpheme column, and the morpheme synthesis operation module satisfies the condition. According to the rule, the operation to modify the morpheme is performed, and the modified morpheme is combined to form a morpheme.
보다 구체적으로 형태소 합성 규칙은 용언의 규칙 및 불규칙 활용, 음운론적 이형태와 전처리, 긍정지정사 '이', 표현 양식 등으로 카테고리를 구분할 수 있으며 이에 대해 상세하게 살펴 보기로 한다. More specifically, the morpheme synthesis rules can be classified into categories such as verbal rules and irregular use, phonological dimorphism and preprocessing, affirmative 'yi', and expression style, and will be described in detail.
1. 용언의 규칙 및 불규칙 활용1. Rules and Irregular Usage of Proverbs
용언이란 형태소 중 형용사와 동사에 해당하는 형태소를 의미하고, 한국어에서는 용언이 어미와 결합되는 과정 중에 활용이라는 다양한 형태적 변화 현상이 나타난다. 특히 용언의 활용은 결합되는 용어의 철자와 어미의 철자에 따라서 반드시 나타나는 규칙 활용 뿐만 아니라, 용언에 따라서 나타나기도 하고 그렇지 않은 경우도 있는 불규칙 활용으로 나누어진다.Proverbs means morphemes that correspond to adjectives and verbs in morphemes, and in Korean, various morphological changes, such as utilization, occur during the process of combining a verb with a mother. In particular, the use of verbs is divided not only into the use of rules that necessarily appear according to the spelling of the term being combined and the ending of the ending, but also into irregular use, which may or may not appear depending on the verb.
ⅰ) 규칙 활용의 경우, 용언의 말음이 'ㄹ'일 경우, 'ㄴ/ㅂ/ㅅ/ㅗ'로 시작하는 어미 앞에서 'ㄹ'이 탈락한다.Iii) In the case of the use of the rule, if the end of the verb is 'ㄹ', 'ㄹ' is dropped before the ending of the beginning of 'b / ㅂ / ㅅ / ㅗ'.
예를 들어, "살 + 다 -> 살다", "살 + 니 -> 사니", "살+ ㅂ니다 -> 삽니다" 등과 같이 형태소 합성 과정 중에 나타나는 변화는 형태소를 구성하고 있는 철자, 특히 결합이 이루어지는 경계 부분의 철자를 사용해 조건 지을 수 있다. 따라서 형태소 합성 규칙에서 형태소 합성부에서 결합 대상이 되는 형태소의 자소를 사용해 하기와 같은 조건을 명세한다.For example, changes that occur during morphological synthesis, such as "flesh + everything-> live", "flesh + ney-> live", "flesh + live-> live", can be attributed to the spelling, especially the bonds, that make up the morpheme. It can be conditioned by spelling the boundary. Therefore, in the morpheme synthesis rule, the following conditions are specified using the morpheme phoneme to be combined in the morpheme synthesis part.
상기 합성 규칙에서 형태소1은 앞쪽 형태소의 마지막 자소 조건을 표기하며, 형태소2는 뒤쪽 형태소의 앞쪽 자소 조건을 명세한다. In the synthesis rule, morpheme 1 denotes the last phoneme condition of the front morpheme, and morpheme 2 specifies the front phoneme condition of the back morpheme.
또한, 용언의 활용과 같이 대부분의 규칙이 특정 품사를 가진 형태소들 간의 결합에 대해서도 적용가능하기 때문에 조건으로 품사를 지정할 수 있도록 할 수 있다. Also, because most rules are applicable to combinations of morphemes with specific parts of speech, such as the use of verbs, it is possible to specify parts of speech as conditions.
합성 규칙 적용을 위한 자소 조건을 형태소 열이 만족하면, 형태소 합성 연산 모듈은 두 형태소의 형태를 올바른 표현을 생성하기 위한 표현으로 수정해 주어야 한다. If the morpheme column satisfies the phoneme condition for the application of the synthesis rule, the morpheme synthesis operation module should modify the form of the two morphemes into a representation for generating a correct expression.
예를 들어, 형태소1이 "살"이고, 형태소2가 "ㅂ니다"인 경우 앞쪽 형태소의 마지막 자소인 "ㄹ"을 삭제하고(수정1) 뒤쪽 형태소의 앞쪽 자소인 "ㅂ"을 상기 삭제된 앞쪽 형태소의 마지막 자소에 삽입(수정2)하는 연산을 수행하여 "삽니다"로 형태소를 합성하게 된다. 일반적인 문법에서 사용되는 치환의 개념 역시 삭제와 삽입 연산의 조합으로 구현이 가능하다.For example, if morpheme 1 is "flesh" and morpheme 2 is "floating", delete the last letter "d" of the former morpheme (modification 1) and delete the previous letter "ㅂ" of the latter morpheme. The morpheme is synthesized by "living" by performing the operation of inserting (correcting 2) the last element of the front stem. The notion of substitution used in the general syntax can also be implemented with a combination of delete and insert operations.
다음은 'ㄹ' 탈락 활용을 위한 규칙에 대한 실시예이다.The following is an embodiment of a rule for using the drop 'd'.
(규칙 1) 'ㄹ' 탈락 규칙(Rule 1) Rules for dropping 'ㄹ'
ㄹ(V)/ㄴ(E) D/#ㄹ (V) / ㄴ (E) D / #
ㄹ(V)/ㅂ(E) D/#V (V) / ㅂ (E) D / #
ㄹ(V)/ㅅ(E) D/#ㄹ (V) / ㅅ (E) D / #
ㄹ(V)/ㅗ(E) D/#V (V) / ㅗ (E) D / #
상기 규칙에서 "D"는 앞쪽 형태소에서 마지막 자소 하나를 삭제하라는 연산을 의미하고, 뒤쪽의 #은 뒤쪽 형태소에서 변화가 없음을 의미한다. 삭제 연산에서 여러 개의 자소를 삭제해야 할 경우, 삭제할 자소의 개수만큼 D를 추가해주면 된다.In the rule, "D" means the operation to delete the last one from the front morpheme, and the back # means no change in the back morpheme. If you need to delete multiple phonemes in the delete operation, add D as many times as you want to delete.
ⅱ) 상기와 같은 규칙활용과 달리 불규칙 활용에서는 주어진 용언과 어미가 같은 조건의 철자로 구성되어 있다고 하더라도 용언에 따라서 활용이 일어나기도 하고 그렇지 않기도 하는 활용 현상이다. Ii) Unlike regular use of rules, irregular use is a phenomenon in which usage occurs or does not occur depending on usage, even if a given word and ending are spelled with the same conditions.
'ㅂ' 불규칙의 경우 어간의 말음이 'ㅂ'일 경우, '-어'로 시작하는 어미 또는 매개 모음을 요구하는 어미 앞에서 'ㅗ/ㅜ'로 변하는 현상으로 단음절어간 '돕다, 곱다'일 때만 '오'로 변하고 나머지는 '우'로 변한다. In the case of 'ㅂ' irregularity, when the stem word is 'ㅂ', it is changed to 'ㅗ / TT' in front of a mother that starts with '-er' or a vowel that requires a mediated vowel. It turns into 'oh' and the rest turns to 'right'.
예를 들어, "곱 + 다" -> "곱다" / "곱 + 니" -> "고우니" / For example, "Multiply + Multi"-> "Multiply" / "Multiply + Ni"-> "Guni" /
"곱 + 아서" -> "고와서" (예외, 등이 곱아서) "Product + Arthur"-> "come and go" (exception, back is multiplied)
상기 예에서 볼 수 있는 것처럼 'ㅂ'으로 끝나는 용언은 특정 어미와 결합하는 과정에서 형태가 변하게 된다. 그러나 예외에서 볼 수 있는 것처럼 이런 변화 현상이 반드시 일어나는 것은 아니다. 아름답다라는 의미를 가진 '곱-'의 경우 활 용을 하는 용언이지만, 굽었다라는 의미를 가진 '곱-'의 경우 활용을 하지 않는다. 이런 경우 자연어 생성 장치는 상기 2개의 '곱-'이라는 용언 중 어떤 용언을 사용하려 하였는지에 대한 정보를 가지고 있으며, 본 발명에 따른 형태소 합성장치는 형태소 합성 규칙 상에서 각각의 형태소가 가진 추가적인 특징을 지정할 수 있도록 만들어주면 불규칙 활용과 같은 불규칙한 형태소의 변화 현상을 반영하여 어절을 생성할 수 있다.As can be seen in the above example, a verb ending with 'ㅂ' is changed in the process of being combined with a specific ending. However, as can be seen in the exception, this change does not necessarily occur. In the case of the product of the word 'beautiful' which means beautiful, the word is used. In this case, the natural language generator has information on which of the two 'product-' verbs is intended to be used, and the morpheme synthesis apparatus according to the present invention can specify additional features of each morpheme in the morpheme synthesis rule. If you make it so that the word can be generated by reflecting the change of irregular morphemes such as irregular utilization.
상기 "CD"는 형태소의 문법적인 속성들에 따라 형태소 합성 규칙의 적용 여부를 결정하기 위한 문법 조건으로, "C"는 앞쪽 형태소의 문법 조건이고, "D"는 뒤쪽 형태소의 문법 조건이다. 실제 형태소 단위의 조건 값은 숫자가 아닌 비트(bit) 단위 데이터로 표현된다."CD" is a grammar condition for determining whether to apply a morpheme synthesis rule according to grammatical properties of a morpheme, "C" is a grammar condition of a front morpheme, and "D" is a grammar condition of a rear morpheme. Condition values in actual morpheme units are expressed in bit units rather than numbers.
그룹 1irregular
Group 1
그룹 2irregular
Group 2
그룹 3irregular
Group 3
그룹 4irregular
Group 4
이형태Phonological
Morphology
단계 1contraction
Step 1
단계 2contraction
Step 2
단계 3contraction
Step 3
상기 표와 같은 데이터 형식은 Bit Operation을 위해 최적화된 방식이며, 한 형태소에 대해 여러 조건을 명세할 수 있기만 하면 실제로 조건을 어떤 식으로 명세할 지는 개발 방식에 따라 달라질 수 있다.The data format shown in the above table is an optimized method for Bit Operation, and as long as it is possible to specify several conditions for one morpheme, how to actually specify the conditions may vary depending on the development method.
상기 문법 조건은 용언의 불규칙 활용 및 축약이 가능한 형태소와 같이 하나의 형태소가 여러 가지 문법적인 특성을 가질 수 있다. 따라서, 각각의 형태소에 대해서 다수 개의 문법적인 속성을 지정하기 위한 비트 단위 데이터로 조건을 표현할 수 있다. In the grammar condition, one morpheme may have various grammatical characteristics, such as a morpheme capable of irregular use and abbreviation of a verb. Thus, the condition can be expressed in bit unit data for specifying a plurality of grammatical attributes for each morpheme.
다음은 'ㅂ' 탈락 활용을 위한 규칙과 이에 대한 실시예이다The following is a rule and an embodiment thereof for utilizing a dropout.
10/ ㅂ(V)/ ㅓ(E) D ㅝ / D 깁다: 깁 + ㅓ => 기워10 / ㅂ (V) / ㅓ (E) D ㅝ / D Patch: Gib + ㅓ => tilt
10/ ㅂ(V)/ ㅏ(E) D ㅘ / D 곱다: 곱 + 아 => 고와10 / ㅂ (E) D ㅘ / D Multiply: Multiply + Ah => Gowa
10/ ㅂ(V)/ ㄴ(E) D ㅜ/ 곱다: 곱 + ㄴ => 고운10 / ㅂ (V) / ㄴ (E) D TT / Multiply: Multiply + b => fine
10/ ㅂ(V)/ ㄹ(E) D ㅜ/ 맵다: 맵 + ㄹ => 매운10 / ㅂ (V) / ㄹ (E) D TT / spicy: map + ㄹ => spicy
10/ ㅂ(V)/ 시(E) D ㅜ/ 곱다: 곱 + 시 + 다 => 고우시다10 / ㅂ (V) / hour (E) D TT / Multiply: Multiply + Hour + Multi =>
10/ ㅂ(V)/ ㅁ(E) D ㅜ/ 맵다: 맵 + ㅁ => 매움10 / ㅂ (V) / ㅁ (E) D TT / Spicy: Map + ㅁ => Spicy
10/ ㅂ(V)/ ㅡ(E) D ㅜ/ D 곱다: 곱 + 으니 => 고우니10 / ㅂ (V) / ㅡ (E) D TT / D Multiply: Multiply + That => Goni
ㅂ(V)/ ㅡ(E) # / # 곱다: 곱 + 으니 => 곱으니 ㅂ (V) / ㅡ (E) # / # Multiply: Multiply + That => Multiply
상기 규칙에서 "10"은 앞쪽 형태소에는 불규칙 활용을 하는 용언임을 나타내는 표현양식 정보가 같이 입력되어야 함을 의미하며, 뒤쪽 형태소에는 아무런 조건도 필요하지 않다는 것을 나타낸다.In the above rule, "10" means that the expression form information indicating the use of the irregular morphology should be input together in the front morpheme, and that no condition is required in the rear morpheme.
2. 음운론적 이형태2. Phonological Dimorphism
어절이 주격임을 나타내는 주격 조사는 '이/가' 두가지로 나누어진다. 앞의 명사에 마지막 음절의 받침이 있을 경우에는 '이'를 사용하고, 받침이 없는 경우에는 '가'라는 조사를 사용하게 된다. 영어에서 a/an 처럼 한국어에서는 앞 형태소의 마지막 음절의 음운에 따라서 자연스럽게 느껴지는 발음들이 있다. 이를 음운론적 이형태라고 한다.There are two main categories of subjects that indicate that a word is a subject. If there is a final syllable in the preceding noun, we use 'yi', and in the absence of a final syllable, we use the survey 'a'. Like a / an in English, there are pronunciations in Korean that are naturally felt according to the phoneme of the last syllable of the previous morpheme. This is called phonological dimorphism.
음운론적 이형태는 주로 명사와 조사의 연결에서 나타나며, 그 유형 역시 명 사의 마지막 음절에 받침이 있느냐 없느냐로 나누어진다. 이와 같은 음운론적 이형태를 처리하기 위해서는 두가지 문제가 발생한다.This phonological form is mainly shown in the connection of nouns and investigations, and its type is divided into whether there is a support in the last syllable of a noun. Two problems arise in dealing with this phonological variant.
첫번째는 받침의 유무는 단순한 철자로 표현하기 힘들고, 두번째는 입력 형태소의 열의 구조상 명사와 조사가 떨어져서 입력되는 경우가 많이 발생할 수 있다.First, the presence or absence of the support is difficult to express simply. Second, there are many cases in which nouns and surveys are input due to the structure of the input morpheme column.
상기 첫번째 문제점은 용언의 규칙 및 불규칙 활용과 같이 한글의 자소를 직접 표기하는 방식으로 조건을 명시할 수 있으나, 이것만으로 받침의 유무를 검사하는 것이 불가능하므로 본 발명에서는 형태소 조건 항목을 위해 하기와 같이 몇 가지 특수 문자들을 사용할 수 있으며, 이로 인해 음운론적 이형태에 대한 표현이 가능하다. The first problem can be specified in the manner of directly expressing the phoneme of the Hangul, such as the rules and irregular use of the verb, but it is impossible to check the presence or absence of the support only by this, in the present invention as follows for the morpheme condition item Several special characters can be used, which allow for the expression of phonological variants.
^ : 형태소의 시작^: The beginning of morphemes
$ : 형태소의 마지막$: End of stem
! : 부정(negation)! Negation
@ : 자음@ : Consonant
# : 모음# : collection
% : 초성%: Initiality
& : 중성& : neutrality
* : 종성*: Jongsung
다음은 상기와 같은 특수문자를 사용한 음운론적 이형태에 대한 합성 규칙과 이에 대한 실시예이다. The following is a synthesis rule and an embodiment thereof for phonological dimorphism using the above special characters.
00/&(N)/이(J) #/가DD 영희 + 이 => 영희가00 / & (N) / (J) # /
= 00/*!(N)/이(J) #/가DD = 00 / *! (N) / (J) # /
00/*(N)/|(J) #/|DD 경숙 + 가 => 경숙이00 / * (N) / | (J) # / | DD Lean + Go => Lean
= 00/&!(N)/|(J) #/|DD= 00 / &! (N) / | (J) # / | DD
이외에도 다른 특수 문자들을 사용한 규칙의 예를 살펴보기로 한다.Let's look at an example of a rule that uses other special characters.
00/^푸(V)/ㅓ(E) Dㅓ/D 푸다: 푸 + 어 => 퍼00 / ^ Fu (V) / ㅓ (E) D ㅓ / D Solve: Poe + U => Fur
상기 규칙은 불규칙 활용의 하나인 'ㅜ' 불규칙 활용을 위한 규칙으로 'ㅜ' 불규칙의 경우 오직 '푸-'라는 용언 하나에 대해서만 나타나는 현상으로 '^푸'라는 것은 형태소의 마지막 음절이 '푸'이며 그 앞에 더 이상 음절이 없는 형태소의 맨 앞이어야 한다는 조건을 의미한다. 이처럼 'ㅜ' 불규칙 활용과 같은 특수한 불규칙 현상은 특수 문자만으로도 구현이 가능하고, '$'의 경우 자소의 검사 방향이 반대인 뒤쪽 형태소에 대해서 '^'와 같은 역할을 한다. The above rule is a rule for irregular use of 'TT' which is one of irregular use. In case of 'TT' irregularity, only one word 'fu-' appears. '^ Fu' means that the last syllable of the morpheme is 'fu'. And the condition that it must be at the front of the morpheme with no more syllables before it. As such, special irregularities, such as the use of 'TT' irregularities, can be implemented by using only special characters. In the case of '$', it plays the same role as '^' for the back morpheme where the test direction of the phoneme is reversed.
그리고 '!'의 경우 ! 다음에 있는 자소와 입력된 형태소의 자소가 일치하지 않아야 함을 의미한다.And for the '!' This means that the phoneme of the next and the phoneme of the input morpheme should not match.
3. 긍정지정사 '이'3. Positive designator 'yi'
한국어에는 긍정지정사 '-이-'라는 형태소가 있고, 일반적으로 선어말 어미와 같은 형태로 형태소 사이에 삽입되어 어절이 긍정의 의미를 가지도록 하는 형태소이다. 긍정지정사 '이'는 한국어에서 매우 빈번하게 사용될 뿐만 아니라, 다른 모음과 결합되기 쉬운 모음 'ㅣ'만으로 형성되어있기 때문에 변화의 형태가 매우 다양하다. In Korean, there is a morpheme called '-i-', and it is usually inserted between morphemes in the same form as the ending word so that the word has a positive meaning. The affirmative designator 'I' is not only used very frequently in Korean, but also consists of only the vowel 'ㅣ' which is easy to combine with other vowels.
특히 하기의 예와 같이 형태소 합성 과정에서의 변화를 3개 이상의 형태소를 고려하여 어절을 생성해야 하는 경우가 발생하게 된다.In particular, as shown in the following example, it is necessary to generate a word in consideration of three or more morphemes in the morphological synthesis process.
ⅰ) 사장 + 이/VCP + 라는 => 사장이라는Ⅰ) President + Lee / VCP + => President
ⅱ) 여자 + 이/VCP + 라는 => 여자라는Ii) woman + tooth / VCP + => woman
ⅲ) 여자 + 이/VCP + 었다 => 여자였다Iii) was woman + two / VCP + was => woman
상기 예에서 ⅰ)의 경우 앞쪽 형태소에 받침이 있기 때문에 어절에 그대로 사용되고, ⅱ)의 경우 앞쪽 형태소에 받침이 없기 때문에 긍정지정사가 탈락된다. 마지막으로 ⅲ)의 경우 세번째 형태소가 모음 'ㅣ'와 결합 가능한 'ㅓ'로 시작하기 때문에 세번째 형태소에 축약되어 하나의 음절로 합쳐진다. 특히, ⅲ)의 경우 앞 두 형태소를 처리하는 과정에서 긍정지정사가 먼저 탈락되어버리기 때문에 그 다음 단계에서 '었다'가 결합되는 과정에서 긍정지정사의 존재를 고려하지 못하고 '여자었다'와 같은 부적절한 표현이 생성될 수 있다.In the above example, i) is used as it is because there is a support in the front morpheme, and in the case of ii) a positive designation is eliminated because there is no support in the front morpheme. Finally, in case of ⅲ), the third morpheme starts with 'ㅓ' which can be combined with the vowel 'ㅣ', so it is shortened to the third morpheme and merged into one syllable. In particular, in the case of i), the affirmative designator is eliminated first in the process of processing the previous two morphemes, so that in the process of combining 'yes' in the next step, it is not considered the existence of the affirmative designator. Can be generated.
따라서, 상기와 같은 문제점을 해결하기 위해 본 발명에 따른 형태소 합성장치는 3개 이상의 형태소를 고려할 수 있도록 합성규칙을 정의할 수 있다.Therefore, in order to solve the above problems, the morpheme synthesis apparatus according to the present invention may define a synthesis rule to consider three or more morphemes.
다음은 상기와 같은 긍정지정사 '이'에 대한 합성 규칙과 이에 대한 실시예이다. The following is an embodiment of the synthesis rule for the positive designator 'yi' as described above.
여기서, 가장 앞쪽에 있는 "B"는 긍정지정사 '이'에 대한 전역 상태를 위한 시스템 조건이고, 다음의 "CD"는 용언의 규칙 및 불규칙 활용에 대한 문법 조건이다.Here, the frontmost "B" is the system condition for the global state for the affirmative 'yi', and the following "CD" is the grammar condition for verbal rules and irregular use.
<긍정지정사 '이'><Positive designator 'yi'>
010/&(N)/|(VCP) #/D/1 여자 + 이 => 여자 (전역상태 0→1) 0 10 / & (N) / | (VCP) # / D / 1 Excitation + Tooth => Excitation (Global 0 → 1)
<어미 관련 규칙><Mother related rules>
110/#/ㅓ(E) #/Dㅕ/0 여자+이+었다 => 여자였다 (전역상태1) 1 10 / # / ㅓ (E) # / D ㅕ / 0 female + was +> female (global state 1)
상기와 같이 "여자+이+었다"와 같이 3개 이상의 형태소 들이 관련된 형태소 어형 변화를 고려한 경우를 위해 시스템 조건이 삽입될 수 있으며, 앞의 두개의 형태소 결합에 따라 긍정 지정사 '이'가 결합되는 경우 전역상태가 0에서 1로 전환되고, 이에 따라 다음의 두개의 형태소 결합시 '었다'가 '였다'로 변경된다. As described above, the system condition may be inserted in the case of considering a morphological form change related to three or more morphemes such as "Woman + was +", and the positive designator 'yi' is combined according to the preceding two morpheme combinations. In this case, the global state is changed from 0 to 1, and accordingly, the following two morphemes are changed to 'was'.
상기와 같이 형태소 합성을 위한 조건에 따라 연산을 수행하는 합성 규칙을 생성할 수 있을 뿐만 아니라, 탈락 등의 현상으로 사라진 형태소들에 대한 기록을 저장하여 사투리와 같은 다양한 표현을 생성할 때 필요한 정보를 제공할 수 있다.In addition to generating a synthesis rule for performing an operation according to the conditions for morphological synthesis as described above, it is also possible to store a record of morphemes disappeared due to dropouts and to generate information necessary for generating various expressions such as dialect. Can provide.
시스템 조건은 문법 조건에서 설명하였던 것과 같은 Bit operation에 최적화된 비트 형식의 데이터로 구성되어 있으며, 긍정지정사 '이', 보조동사 '하', 대명사 '이것/저것/것' 등의 처리 목적으로 사용될 수 있다.System condition consists of data of bit type optimized for Bit operation as described in grammar condition, and it is used for processing purpose such as positive designation 'yi', auxiliary verb 'ha', pronoun 'this / that / it'. Can be.
4. 표현 양식4. Expression form
상기에서 언급한 합성 규칙들은 모두 표준어를 생성하기 위한 목적으로 만들어진 부분이다. 그러나 한국어에는 지역적으로 나누어지는 사투리, 비교적 긴 시간 대에 따라 나타나는 고어적인 표현, 비교적 짧은 기간에 나타나는 유행어(예. 하삼/하오체), 그리고 화자의 연령, 성별, 화자들 간의 관계에 따라서 나타나는 여러가지 유형의 표현 방식들 등 매우 다양한 표현 방식이 존재한다.All of the above mentioned synthesis rules are intended for the purpose of generating standard words. However, in Korean, there are several dialects that are divided according to regional dialects, archaic expressions over a relatively long time period, buzzwords (e.g. Hassam / Haoche) in relatively short periods of time, and the speaker's age, gender, and relationship between speakers. There are many different ways of expression, including
따라서, 본 발명에 따른 형태소 합성장치는 이러한 다양한 방식의 표현 방식들을 쉽게 선택하여 생성할 수 있도록 하기 위해 표현 양식 조건을 지정할 수 있도록 구성된다.Accordingly, the morpheme synthesis apparatus according to the present invention is configured to specify expression style conditions in order to be able to easily select and generate these various ways of expression.
이를 위해 먼저 기본적으로 입력된 모든 형태소들은 지금까지 설명한 규칙들을 통해 기본적인 표준어 표현을 생성하기에 적합한 형태로 변환된다. 그 후 지정된 표현 양식 정보에 따라서 적절한 형태로 변환하기 위한 규칙들이 적용된다.To do this, all the basic morphemes entered by default are transformed into a form suitable for generating basic standard word expressions through the rules described so far. Then, rules for converting to the appropriate form are applied according to the designated presentation style information.
여기서, 가장 앞쪽에 있는 "A"는 사투리 등의 표현 양식 조건이 들어가는 부분이다. 상기 조건 역시 Bit operation을 위한 비트 데이터 형태로 만들어져 있으며, 이를 통해 비트 데이터의 필드를 각기 유형의 표현 양식을 지정하기 위한 것으로 분할하고, 비트 조합을 사용해 다양한 유형의 표현들을 간단하게 선택할 수 있다.Here, "A" at the foremost part is a part that contains expression style conditions such as dialect. The above condition is also made in the form of bit data for bit operation. Through this, the field of the bit data can be divided into ones for specifying the type of expression, and the combination of bits can be used to simply select various types of expressions.
예를 들어, 경상도+청장년+간략한 표현/ 전라도+예사높임+문어체/ 충청도 +청장년+연설체 표현 등등 표현 양식 조건을 설정될 수 있으며, 해당 조건에 따른 합성규칙이 적용되어 형태소를 합성할 수 있다.For example, Gyeongsang-do + youth + brief expression / Jeolla-do + example height + written word / Chungcheong-do + youth + speech expression, etc. can be set the expression style conditions, the synthesis rules according to the conditions can be applied to synthesize the morphemes. .
다음은 경상도 사투리를 생성하기 위한 형태소 합성 규칙 및 그에 따른 실 시예이다. The following is a morphological synthesis rule and an example of the result for generating a gradient dialect.
1000/ㅆ(E)/ㅅ(E) D/ㅆ/#/0 1000 / ㅆ (E) / ㅅ (E) D / ㅆ / # / 0
1000/-ㅂ(E)/니다(E) DD/|ㅂ/#/0 갔+습+니다 => 가씹니다1000 /-(E) / (E) DD / | // # / 0 went + to go => chew
1000/-ㅂ(E)/니까(E) DD/|ㄴ/DDDD는교/0 갔+습+니까 => 가씬는교1000 /-(E) /? (E) DD / | D / DDDD went / 0 ++ == thin
도 4는 본 발명의 바람직한 실시예에 따른 형태소 합성부의 처리를 개략적으로 도시한 순서도이다.4 is a flowchart schematically showing the processing of the morpheme synthesis unit according to the preferred embodiment of the present invention.
도 4를 참조하면, 전처리부(220)가 입력된 형태소 열 중 먼저 첫번째 어절을 입력받아 분석하여 형태소 합성에 적용될 합성 규칙들을 선택하고, 형태소 합성부가 상기 전처리부에서 선택된 합성 규칙에 따라 조건을 검사하고 형태소 합성 연산을 수행한다.Referring to FIG. 4, the
보다 구체적으로, 형태소 합성부의 형태소 합성 조건 모듈은 전처리부로부터 선택된 합성 규칙 목록 중 첫 번째 합성 규칙을 추출하여 첫번째 어절의 자소 조건과 상태 조건을 모두 만족하는지 여부를 검사한 후 만족하지 않을 경우 잔여 합성 규칙 중 두번째 합성 규칙을 추출하여 상기와 같은 조건 만족 여부를 검사하는 과정을 반복 수행하여 형태소 열의 모든 조건을 만족하는 합성 규칙이 추출될 때 까지 반복한다. More specifically, the morpheme synthesis condition module of the morpheme synthesis unit extracts the first synthesis rule from the list of synthesis rules selected from the preprocessing unit, checks whether both the phoneme condition and the condition of the first word are satisfied, and if not, the remaining synthesis The process of extracting the second composition rule among the rules and checking whether the condition is satisfied is repeated, and the process is repeated until the composition rule satisfying all the conditions of the morpheme column is extracted.
상기와 같은 과정을 통해 합성 규칙이 추출되면 형태소 합성 연산 모듈은 상기 추출된 합성 규칙에 정의된 수정 연산에 따라 형태소 수정을 통한 형태소 합성을 수행한다. When the synthesis rule is extracted through the above process, the morpheme synthesis operation module performs morpheme synthesis through morpheme modification according to the correction operation defined in the extracted synthesis rule.
상기와 같이 첫번째 형태소 열에 대한 형태소 합성 연산이 적용되면 잔여 형 태소 열이 존재하는지 여부를 검사하고 잔여 형태소가 존재하는 경우 잔여 형태소에 대해 상기 첫번째 형태소에 적용된 과정을 잔여 형태소에 대한 모든 합성이 종료될 때까지 반복하여 수행한다.As described above, when the morphological synthesis operation on the first morphological column is applied, it is checked whether the residual morphological column exists, and when the residual morphological exists, the process applied to the first morpheme on the remaining morphological stem is completed. Repeat until done.
도 5는 본 발명의 바람직한 실시예에 따른 형태소 합성 방법을 개략적으로 도시한 순서도이다.5 is a flowchart schematically showing a morpheme synthesis method according to a preferred embodiment of the present invention.
도 5를 참조하면, 먼저 자연어 생성장치로부터 생성된 형태소 열 또는 표현 양식 정보를 포함한 형태소 열을 통신부를 통해 수신한다.Referring to FIG. 5, first, a morpheme string generated from a natural language generator or a morpheme string including expression style information is received through a communication unit.
그리고, 전처리부가 상기 수신된 형태소 열에 대해 전처리를 수행하고, 메모리부에 저장된 합성 규칙 중 상기 형태소 열의 품사 및 자소 관계로부터 조건에 부합되는 합성규칙들을 선택한다.The preprocessing unit performs preprocessing on the received morpheme strings, and selects synthesis rules that meet the condition from the parts of speech and phoneme relations of the morpheme rows among the synthesis rules stored in the memory unit.
여기서, 전처리는 수신된 형태소 중 기호 등 형태소 합성 대상이 아닌 요소들을 필터링하여 어절생성부로 전송하고, 괄호를 사용해 어절 사이에 삽입된 표현들을 필터링하고, 수신된 형태소들의 형태를 형태소 합성에 적합한 형태로 수정하여 형태소 합성부로 전송하는 과정을 의미한다. Here, the preprocessing filters out elements that are not subject to morpheme synthesis, such as symbols, to the word generator, filters expressions inserted between words using parentheses, and forms the morphemes of the received morphemes in a form suitable for morpheme synthesis. It means the process of modifying and transmitting to the morpheme synthesis unit.
이어서 형태소 합성부가 상기 선택된 합성 규칙을 적용하여 형태소 합성을 수행한다.The morpheme synthesis unit then applies the selected synthesis rule to perform morpheme synthesis.
상기와 같은 과정을 통해 형태소 합성이 종료되면 어절 합성부는 전처리부에서 전송된 형태소와 형태소 합성부를 통해 합성된 형태소를 상기 통신부에 수신된 시점에서의 형태소 순서 정보에 따라 합성된 형태소를 재배열하여 어절을 생성하게 된다.When the morpheme synthesis is completed through the above process, the word synthesizer rearranges the morphemes transmitted by the preprocessing unit and the morphemes synthesized through the morpheme synthesis unit according to the morpheme order information at the point of time at which the communication unit is received. Will generate
이하, 합성 규칙을 적용하여 형태소를 합성하는 과정에 대해 상기 도 4 및 5와 하기의 실시예를 참조하여 구체적으로 살펴보기로 한다.Hereinafter, a process of synthesizing morphemes by applying a synthesis rule will be described in detail with reference to FIGS. 4 and 5 and the following examples.
실시예의 설명을 위해 형태소 합성 규칙 목록이 하기와 같다고 가정한다.For illustrative purposes, it is assumed that the list of morpheme synthesis rules is as follows.
01: 0/0/1/0/ㅎ/V/ㅗ/E D/#/0 // 'ㅎ' 탈락 불규칙01: 0/0/1/0 / ㅎ / V / ㅗ / E D / # / 0 // Irregular dropping
02: 0/0/1/0/ㅎ/V/ㄹ/E D/#/002: 0/0/1/0 / H / V / ㄹ / E D / # / 0
03: 0/0/1/0/ㅎ/V/ㅁ/E D/#/003: 0/0/1/0 / ㅎ / V / ㅁ / E D / # / 0
04: 0/0/1/0/ㅎ/V/ㄴ/E D/#/004: 0/0/1/0 / H / V / B / E D / # / 0
05: 0/0/1/0/ㅎ/V/ㅂ/E D/#/005: 0/0/1/0 / H / V / ㅂ / E D / # / 0
06: 0/0/1/0/ㅂ/V/ㅓ/E Dㅝ/D/0 // 'ㅂ' 불규칙06: 0/0/1/0 / ㅂ / V / ㅓ / E D ㅝ / D / 0 // 'ㅂ' irregular
07: 0/0/1/0/ㅂ/V/ㅏ/E Dㅘ/D/007: 0/0/1/0 / ㅂ / V / ㅏ / E D ㅘ / D / 0
08: 0/0/1/0/ㅂ/V/ㄴ/E Dㅜ/D/008: 0/0/1/0 / ㅂ / V / B / E D TT / D / 0
09: 0/0/1/0/ㅂ/V/ㄹ/E Dㅜ/D/009: 0/0/1/0 / ㅂ / V / ㄹ / E D TT / D / 0
10: 0/0/1/0/ㅂ/V/ㅂ/E Dㅜ/D/010: 0/0/1/0 / ㅂ / V / ㅂ / E D TT / D / 0
11: 0/0/1/0/ㅂ/V/ㅗ/E Dㅜ/D/011: 0/0/1/0 / ㅂ / V / ㅗ / E D TT / D / 0
12: 0/0/1/0/ㅂ/V/시/E Dㅜ/D/012: 0/0/1/0 / ㅂ / V / H / E D TT / D / 0
13: 0/0/1/0/ㅂ/V/ㅁ/E Dㅜ/D/013: 0/0/1/0 / ㅂ / V / ㅁ / E D TT / D / 0
14: 0/0/1/0/ㅂ/V/ㅡ/E Dㅜ/D/014: 0/0/1/0 / ㅂ / V / ㅡ / E D TT / D / 0
15: 0/0/2/0/것/N/ㄴ$/J D/#/0 // 명사 '~것'/ '~엇'축약15: 0/0/2/0 / thing / N / ㄴ $ / J D / # / 0 // noun '~ thing' / '~ what' abbreviation
16: 0/0/2/0/것/N/ㅣ$/J DD/Dㅔ/016: 0/0/2/0 / one / N / ㅣ $ / J DD / D ㅔ / 0
17: 0/0/2/0/것/N/ㅡㄹ$/J D/D/017: 0/0/2/0 / one / N / ㅡ $ / J D / D / 0
18: 0/0/2/0/것/N/를$/J D/DD/018: 0/0/2/0 / thing / N / $ / J D / DD / 0
19: 0/0/2/0/$무엇/N/#/J DDDㅝ/DD/019: 0/0/2/0 / $ what / N / # / J DDD \ / DD / 0
19: 0/0/2/0/#/N/이야/J #/D/019: 0/0/2/0 / # / N / 's / J # / D / 0
20: 0/0/0/0/#/N/ㅣ$/VCP #/D/1 // 종성 없음+긍정지정사 '이'20: 0/0/0/0 / # / N / ㅣ $ / VCP # / D / 1 // no finality + positive specifier 'yi'
21: 0/1/0/0/#/VCP/ㅓ/J #/ㅕ/0 // 탈락된 긍정지정사 '이'+ 조사21: 0/1/0/0 / # / VCP / J / J # / J / 0 // Missed Positive Specifier 'I' + Survey
22: 0/1/0/0/#/VCP/ㅔ/J #/ㅖ/022: 0/1/0/0 / # / VCP / J / J # / J / 0
23: 0/1/0/0/#/VCP/기$/J #/이/0 // 탈락된 긍정지정사를 다시 삽입23: 0/1/0/0 / # / VCP / preset $ / J # / this / 0 // reinsert missing positive specifier
24: 0/1/0/0/#/VCP/리라$/J #/이/024: 0/1/0/0 / # / VCP / Lira $ / J # / this / 0
24: 0/1/0/0/#/VCP/ㅁ/J #/임/024: 0/1/0/0 / # / VCP / ㅁ / J # / Im / 0
25: 0/0/0/0/@/N/을|를/J #/DDDDDD을/0 // 음운론적 이형태 처리25: 0/0/0/0 / @ / N / | / J # / DDDDDD / 0 // phonological dimorphism processing
26: 0/0/0/0/#/N/을|를/J #/DDDDDD를/026: 0/0/0/0 / # / N / | / # J / DDDDDD / 0
27: 0/0/0/0/@/N/이|가/J #/DDDD이/027: 0/0/0/0 / @ / N / this | J / J # / DDDD / 0
28: 0/0/0/0/#/N/이|가/J #/DDDD가/028: 0/0/0/0 / # / N / is | J # / DDDD / 0
29: 1/0/0/0/야/J// DD꼬/#/029: 1/0/0/0 / night / J // DD
30: 2/0/0/0/게/J// Dㅣ/#/030: 2/0/0/0 / crab / J // D ㅣ / # / 0
31: 2/0/0/0/야/J// DD여/#/031: 2/0/0/0 / night / J // DD / # / 0
32: 4/0/0/0/야/J// DD삼/#/032: 4/0/0/0 / night / J // DD / 3 / # / 0
예제 1 : 파란 색상이 더욱 고왔다.Example 1: The blue color is even better.
입력 형태소 열 : 파랗(1)+ㄴ/ 색상+이/+더욱/ 곱(1)+았+다+.Input morpheme column: blue (1) + b / color + 2 / + more / product (1) + y ++.
먼저 전처리부가 첫번째 어절 "파랗(1)+ㄴ"을 입력받고, 형태소가 'ㅎ' 탈락 불규칙이 일어나는 형태소이고, 앞쪽 형태소가 동사(V)이므로 합성 규칙 DB에서 1~14번 합성 규칙을 선택하여 형태소 합성부에 전송한다.First, the preprocessor receives the first word "blue (1) + ㄴ", the morpheme is the morpheme where the dropping irregularity occurs, and the front morpheme is the verb (V). Send to morphological synthesis section.
상기 형태소 합성부는 상기 1번 합성 규칙의 조건과 입력된 형태소 '파랗(1)+ㄴ'을 비교하고, 1번 합성 규칙은 'ㅎ'탈락 불규칙이라는 문법 조건은 일치하지만 뒤쪽 형태소가 입력된 형태소는 'ㄴ'인데 반하여 상기 1번 합성규칙은 'ㅗ'이므로 자소 조건이 일치하지 않으므로 잔여 합성 규칙 중 2번 합성 규칙의 조건과 상기 입력된 형태소를 비교한다. The morpheme synthesis unit compares the condition of the synthesis rule 1 and the input morpheme 'blue (1) + b', and the synthesis rule 1 matches the grammatical condition that 'ㅎ' dropping irregularities but In contrast to 'b', since the first synthesis rule is 'ㅗ', the phoneme condition does not match, so the condition of the second synthesis rule among the remaining synthesis rules is compared with the input morpheme.
상기와 같은 과정 중 4번 합성 규칙은 'ㅎ'탈락 불규칙이라는 조건은 일치하지만 뒤쪽 형태소가 입력된 형태소가 'ㄴ'라는 자소 조건도 만족하므로 4번 합성 규칙에 따라 수정 연산을 수행한다.In the above process, the fourth synthesis rule matches the condition that the dropping irregularity is 'ㅎ', but the morpheme in which the rear morpheme is input also satisfies the consonant condition of 'b', thus performing a correction operation according to the fourth synthesis rule.
상기 4번 합성 규칙에 정의된 수정 연산은 "D/#/0"로 앞쪽 형태소에서 자소 하나를 삭제하는 것이므로 자소 하나를 삭제하는 연산 후 형태소 열은 '파라(1)+ㄴ'가 된다.The correction operation defined in the synthesis rule 4 is "D / # / 0", which deletes one phoneme from the front morpheme, so the morpheme column after the operation of deleting one phoneme becomes 'para (1) + b'.
상기와 같이 4번 합성 규칙을 형태소 열에 적용한 후, 나머지 5 ~ 14번 규칙들과 형태소 열을 비교하는 과정을 반복하여 조건 검사를 수행한 후 더이상 비교할 규칙이 존재하지 않으면 상기 4번 합성 규칙이 적용된 형태소 열을 어절 생성부로 전송하여 '파란'을 생성한다.After applying the synthesis rule 4 to the morpheme column as described above, and performing the conditional check by repeating the process of comparing the stem cells with the remaining 5 ~ 14 rules, if the rule to be compared no longer exists, the synthesis rule 4 is applied. The morphological heat is transmitted to the word generator to generate 'blue'.
나머지 형태소 열인 "색상+이", "+더욱", "곱(1)+았+다+."에 대해서 상기와 같은 과정을 반복하여 어절을 생성한다.For the remaining morphological columns, "color + two", "+ more", "product (1) + did + many +.", The same process is repeated to generate a word.
예제 2 : ....친구였다.Example 2: .... was a friend.
입력 형태소 : 친구+이+었+다+.Input Morphs: Friend + Yes + Yes +.
먼저, 전처리 과정에서 마침표(.)는 어절 생성부로 직접 전달된다.First, a period (.) Is directly transmitted to the word generator in the preprocessing process.
그리고, 나머지 4개의 형태소 중 '친구+이'와 명사를 위한 합성규칙인 15 ~ 20번 합성 규칙이 선택되어 형태소 합성부로 입력된다.Then, among the remaining four morphemes, a synthesis rule 15 to 20, which is a synthesis rule for 'friend + i' and a noun, is selected and input to the morpheme synthesis unit.
예제 1과 같은 15 ~ 20번 합성규칙에 대해 순차적인 조건 검사 과정을 통해 입력된 형태소 열의 조건을 만족하는 20번 합성 규칙이 형태소 열에 적용되어 '친구+#'으로 형태소 열이 변환되고 시스템 상태가 0에서 1로 변환된다.
'친구+이'가 '친구+#'으로 처리된 다음, '#+었'와 긍정 지정사(VCP)를 위한 합성 규칙인 21~24번 합성규칙과 25~28번 합성규칙이 형태소 합성부에 입력된다.After 'friend + two' is treated as 'friend + #', the composition rules 21 ~ 24 and 25 ~ 28, which are the synthesis rules for '# +' and positive designator (VCP), are added to the morpheme synthesis section. Is entered.
여기서, 상기 21~24번 합성규칙은 시스템의 상태(전역 상태)가 1일 때믄 적용 가능한 규칙으로 상기 과정을 통해 시스템 상태가 0에서 1로 바뀌었기 때문에 현재 입력된 형태소 열에 적용 가능하다. 따라서, 21~24번 합성규칙에 대해 순차적인 조건 검사 과정을 통해 '#+었'이 21번 합성 규칙의 모든 조건을 만족하므로 상기 21번 합성 규칙에 정의된 연산인 'ㅕ/0"에 따라 "#+었"을 "#+였"으로 수정한다. Here, the synthesis rules Nos. 21 to 24 are applicable rules when the system state (global state) is 1, so that the system state is changed from 0 to 1 through the above process, and thus is applicable to the currently input morpheme column. Therefore, through the sequential condition checking process for the synthesis rules 21 ~ 24, '# +' satisfies all the conditions of the synthesis rule 21, and according to the operation 'ㅕ / 0' defined in the synthesis rule 21 above. Modify "# +" to "# +".
그리고 탈락된 긍정지정사를 처리하였으므로 시스템의 상태를 다시 0으로 설정한다.And because we handled the missing positive designator, we set the system's state back to zero.
마지막으로 '였+다'에 관한 합성 과정을 거치고 나면, 최종 형태소 열은 '친구+#+였+다'가 되고, 어절 생성부는 이렇게 변환된 형태소 열과 전처리 과저에서 직접 전달된 마침표(.)를 결합하여 최종 어절인 '친구였다'를 생성한다.Finally, after the synthesis process for '+ was', the final morpheme column becomes 'friend + # + was +', and the word generator generates the transformed morpheme row and the period (.) Passed directly from the pretreatment block. Combine to create the final word, 'was a friend'.
예제 3 : 아름다운 가게(2000년부터 운영되어옴)가...Example 3: A beautiful store (run since 2000) ...
입력 형태소 : 아름답+은/가게+(+2000+년부터/운용+되어+ㅁ+)+이|가/....Input morpheme: beautiful + is / shop + (+2000 + from + operation + has + ㅁ +) + this |
전처리부가 첫번째 어절인 '아름답+은'을 입력받고, 형태소가 'ㅂ' 탈락 불규칙이 일어나는 형태소이고, 앞쪽 형태소가 동사(V)이므로 합성 규칙 DB에서 1~14번 합성 규칙을 선택하여 형태소 합성부에 전송하고, 형태소 합성부의 상기 선택된 합성 규칙의 비교 검사를 통해 조건을 만족하는 14번 합성 규칙에 정의된 수정 연산("Dㅜ/D/0")에 따라 '아름다운' 이라는 어절이 생성된다.The preprocessing part receives the first word 'beautiful answer +', the morpheme is the morpheme where the 'ㅂ' dropping irregularity occurs, and the front morpheme is the verb (V). The word "beautiful" is generated according to the correction operation ("D TT / D / 0") defined in the synthesis rule 14 which satisfies the condition by comparing the selected synthesis rule with the morpheme synthesis unit.
이어서, 전처리부는 '가게+(+2000+년부터'를 기호 '('로부터 복합 구조를 가진 어절로 인식해서 다음 어절의 형태소 열을 추가로 읽어 들인다.Subsequently, the preprocessor recognizes 'store + (from +2000+ years') as a word having a compound structure from the symbol '(' and further reads the morpheme string of the next word.
추가로 읽혀진 '운용+되어+ㅁ+)+이|가'에서 ')'기호로 부터 삽입된 어절 또는 문장이 끝났음을 인식하고 상기 괄호 기호 안에 삽입된 '2000+년부터/운용+되어+ㅁ+'을 재귀적으로 형태소 합성부에 입력하여 먼저 '2000년부터 운용되어옴'이라는 어절을 생성한다.Recognized that the word or sentence inserted from the symbol ')' in the 'Operation + Begin + ㅁ +) +' + 'end' is over and is inserted in the parentheses from 2000+ The + 'is recursively inputted to the morpheme synthesis section to generate the phrase' beginning from 2000 '.
그리고 '('와 ')'를 기준으로 양쪽에 있는 형태소 열인 '가게+이|가'를 형태소 합성부에 입력하고, 28번 합성규칙에 의해 '가게+가'라는 형태소 열을 생성한다.Then, the morpheme column 'shop + i | ga', which is located on both sides of the '(' and ')', is input to the morpheme synthesis part, and the morpheme string 'shop + ga' is generated according to the synthesis rule 28.
어절 생성부는 형태소 합성부로부터 입력받은 '아름다운', '(2000년부터 운용되어옴)'과 '가계+가"를 원래 입력된 순서에 맞게 조합하여 '아름다운 가게(2000 년부터 운용되어옴)가'라는 어절을 생성한다.The word generation unit combines 'Beautiful', '(Operated since 2000)' and 'House + Ga' inputted from the morpheme synthesis unit in the order of the original input. Produces the word '
예제 4 : 이게 뭐야?Example 4: What is it?
입력 형태소 열 : 이것(2)+이/무엇(2)+이야+? [1]Input morpheme column: this (2) + what / (2) +? [One]
이것(2)+이/무엇(2)+이야+? [2] What is this (2) + / (2) +? [2]
이것(2)+이/무엇(2)+이야+? [4] What is this (2) + / (2) +? [4]
본 예제는 축약과 표현 양식에 따른 표현의 변화를 보여주는 예제이며, 형태소 열 '이것(2)+이'에는 축약될 형태소라는 것을 의미하는 문법 속성 값 2가 첨부되어 있으며, 형태소 합성 과정 중 16번 합성규칙에 의해 '이ㄱ+ㅔ'로 수정된다.This example shows the change of expression according to the abbreviation and expression style.The grammatical column 'This (2) + I' is attached with the grammar attribute value 2 which means that it is a morpheme to be abbreviated. It is modified to 'I + ㅔ' by the synthesis rule.
이어서, '무엇(2)+이야' 역시 19번 합성규칙에 의해 '뭐+야"로 수정된다.Subsequently, what (2) + 'is also modified to' what + what 'by Synthesis No. 19.
그리고, 입력 형태소 열에는 [1], [2],[4]표현 양식 정보가 추가로 입력되었으며, 표현 양식이 [1]일 경우 29~30번 합성 규칙이 적용되고, [2]일 경우 31번 규칙이 적용되고, [4]일 경우 32번 규칙이 추가로 적용된다.In addition, [1], [2], and [4] expression form information were additionally inputted in the input morpheme column. When the expression form is [1], the synthesis rules of Nos. 29 to 30 are applied. Rule number is applied, and in case of [4], rule number 32 is additionally applied.
따라서, 최종 생성 문장은 하기와 같이 입력된 문장의 표현 양식 정보에 따라서 각기 다른 표현으로 만들어지게 된다.Therefore, the final generated sentences are made of different expressions according to the expression style information of the input sentence as follows.
[1 : 경상도 사투리] 이기 뭐꼬?[1: Gyeongsang-do dialect] What is it?
[2 : 충청도 사투리] 이게 뭐여?[2: Chungcheongdo dialect] What is this?
[4 : '하삼'체] 이게 뭐삼? [4: 'Hasam' body] What is this?
본 발명에 따른 형태소 합성장치의 우수성을 평가하기 위해 150만개 어절로 구성된 데이터를 사용한 실험을 수행하였다.In order to evaluate the superiority of the morpheme synthesis apparatus according to the present invention was carried out experiments using data consisting of 1.5 million words.
데이터에는 주어진 어절이 어떤 형태소로 만들어져 있고, 각각의 형태소가 어떤 품사인지에 관한 정보가 담겨있다. 본 실험에서는 30만개를 합성 규칙을 작성하는 과정에 사용하였고, 120만개를 성능평가에 사용하였다. 또한, 모든 불규칙 활용에 대해 규칙을 만들지 않고, 불규칙 용언 100개에 대해서만 규칙을 만들어 적용하였다.The data contains information about which morphemes are given, and which parts of speech each morpheme is. In this experiment, 300,000 were used in the preparation of the synthesis rule, and 1.2 million were used for the performance evaluation. In addition, instead of making rules for all irregular uses, only 100 irregular words were made and applied.
객관적인 형태소 합성장치의 효과를 확인하기 위해 본 발명에 따른 합성 시스템을 사용하지 않고 형태소를 결합하여 어절을 생성한 결과(A)와 본 발명에 따른 형태소 합성 시스템에에 의해 형태소 합성 규칙을 사용해 형태소를 합성한 결과(B)를 비교하였고, 결과는 하기 <표 1>과 같다.In order to confirm the effect of the objective morpheme synthesis apparatus, the result of combining the morphemes without using the synthesis system according to the present invention to generate a word (A) and the morpheme synthesis rule by the morpheme synthesis system according to the present invention are used. The synthesized results (B) were compared, and the results are shown in Table 1 below.
상기 <표 1>을 통해 알 수 있듯이 본 발명에 따른 형태소 합성규칙을 적용한 경우(B) 입력된 형태소를 단순 조합한 경우(A)보다 약 6.9%의 성능이 향상된 것을 알 수 있다. As can be seen from Table 1, when the morpheme synthesis rule according to the present invention is applied (B), the performance of about 6.9% is improved compared to the case of simply combining the input morpheme (A).
본 발명에 따른 형태소 합성 규칙을 적용한 경우 오류 개수는 29,722개로 문법적으로는 올바르지만 다른 표현으로 인한 오류, 데이터 자체 오류, 불규칙 정보의 부족으로 인한 오류, 형태소 합성 규칙 부족으로 인한 오류로 크게 구분된다.In the case of applying the morpheme synthesis rule according to the present invention, the number of errors is 29,722, which is grammatically correct, but is largely divided into errors due to different expressions, errors due to data itself, errors due to lack of irregular information, and errors due to lack of morpheme synthesis rules.
여기서, 상기 오류 중 형태소 합성 규칙 부족으로 인한 오류를 제외한 나머지 오류는 형태소 합성장치의 성능과 상관없이 사용 가능한 표현이라는 점을 고려할 때, 실제 규칙 부족으로 인해 잘못 생성된 어절은 전체 오류에 18%에 불과하였다.Here, considering that the remaining errors except the errors due to the lack of the morpheme synthesis rule are available expressions regardless of the performance of the morpheme synthesis apparatus, the words that are incorrectly generated due to the lack of the actual rule are 18% of the total errors. It was only.
따라서, 실질적인 오류만을 고려했을 때의 정확도는 99.83%로 단순 조합에 비해 8.76%의 성능이 향상된 것이고, 오류율이 0.27%에 불과하고 이는 200어절 이상의 문장에서 하나 정도의 오류가 발생함을 의미하므로 본 발명에 따른 형태소 합성장치의 정확도가 매우 높음을 알 수 있다.Therefore, when considering only actual error, the accuracy is 99.83%, which is 8.76% better than the simple combination, and the error rate is only 0.27%, which means that one error occurs in more than 200 sentences. It can be seen that the accuracy of the morpheme synthesis apparatus according to the invention is very high.
따라서, 충분한 형태소 합성 규칙이 적용된다면 문법 오류를 최소화할 수 있다. Thus, if sufficient morphological compositing rules are applied, grammatical errors can be minimized.
이상에서 설명한 본 발명의 상세한 설명에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 본 발명의 보호범위는 상기 실시예에 한정되는 것이 아니며, 해당 기술분야의 통상의 지식을 갖는 자라면 본 발명의 사상 및 기술영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.While the present invention has been described in connection with what is presently considered to be practical exemplary embodiments, it is to be understood that the invention is not limited to the disclosed embodiments, but, on the contrary, It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention.
도 1은 본 발명의 바람직한 실시예에 따른 자연어 생성 시스템의 시스템 구성도이고, 도 2는 도 1의 형태소 합성장치의 상세 블럭도이다.1 is a system configuration diagram of a natural language generation system according to a preferred embodiment of the present invention, and FIG. 2 is a detailed block diagram of the morpheme synthesis apparatus of FIG. 1.
도 3은 도 2의 형태소 합성부에 대한 상세 블럭도이다.3 is a detailed block diagram of the morpheme synthesis unit of FIG. 2.
도 4은 본 발명의 바람직한 실시예에 따른 형태소 합성부의 처리를 개략적으로 도시한 순서도이다.4 is a flowchart schematically showing a process of a morpheme synthesis unit according to a preferred embodiment of the present invention.
도 5는 본 발명의 바람직한 실시예에 따른 형태소 합성 방법을 개략적으로 도시한 순서도이다.5 is a flowchart schematically showing a morpheme synthesis method according to a preferred embodiment of the present invention.
*도면의 주요부분에 대한 부호의 설명** Description of the symbols for the main parts of the drawings *
10 : 자연어 생성장치 20 : 형태소 합성장치10: natural language generator 20: morpheme synthesis device
210 : 통신부 220 : 전처리부210: communication unit 220: preprocessing unit
230 : 메모리부 240 : 형태소 합성부230: memory unit 240: morpheme synthesis unit
250 : 어절 합성부 30 : 클라이언트 단말250: word synthesizer 30: client terminal
Claims (18)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090016254A KR101117427B1 (en) | 2009-02-26 | 2009-02-26 | Morphological Composition Device And Method Thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090016254A KR101117427B1 (en) | 2009-02-26 | 2009-02-26 | Morphological Composition Device And Method Thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100097354A KR20100097354A (en) | 2010-09-03 |
KR101117427B1 true KR101117427B1 (en) | 2012-03-13 |
Family
ID=43004587
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090016254A KR101117427B1 (en) | 2009-02-26 | 2009-02-26 | Morphological Composition Device And Method Thereof |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101117427B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101929509B1 (en) | 2018-09-17 | 2018-12-14 | 서강대학교 산학협력단 | Device and method for composing morpheme |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101683819B1 (en) | 2016-10-04 | 2016-12-08 | 어흥수 | Apparatus for conversion take down to honorific |
KR102584732B1 (en) * | 2022-08-18 | 2023-10-05 | 이승현 | Method and apparatus of providing language service based on language blocks |
US12112128B2 (en) * | 2022-09-28 | 2024-10-08 | Korea Electric Power Corporation | Apparatus and method for generating word embedding library |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100286650B1 (en) * | 1996-06-27 | 2001-04-16 | 이구택 | Method for generating predicated feature according to table driven system |
KR20010063791A (en) * | 1999-12-24 | 2001-07-09 | 오길록 | Apparatus for determining linking information of english verbal phrase and method using the same |
KR20030044949A (en) * | 2003-04-24 | 2003-06-09 | 우순조 | Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it |
KR20070102267A (en) * | 2006-04-14 | 2007-10-18 | 학교법인 포항공과대학교 | Dialog management system, and method of managing dialog using example-based dialog modeling technique |
-
2009
- 2009-02-26 KR KR1020090016254A patent/KR101117427B1/en not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100286650B1 (en) * | 1996-06-27 | 2001-04-16 | 이구택 | Method for generating predicated feature according to table driven system |
KR20010063791A (en) * | 1999-12-24 | 2001-07-09 | 오길록 | Apparatus for determining linking information of english verbal phrase and method using the same |
KR20030044949A (en) * | 2003-04-24 | 2003-06-09 | 우순조 | Method for sentence structure analysis based on mobile configuration concept and method for natural language search using of it |
KR20070102267A (en) * | 2006-04-14 | 2007-10-18 | 학교법인 포항공과대학교 | Dialog management system, and method of managing dialog using example-based dialog modeling technique |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101929509B1 (en) | 2018-09-17 | 2018-12-14 | 서강대학교 산학협력단 | Device and method for composing morpheme |
Also Published As
Publication number | Publication date |
---|---|
KR20100097354A (en) | 2010-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Allen | Vox Graeca: The Pronunciation of Classical Greek | |
Halle et al. | Segmental phonology of modern English | |
Sidwell et al. | 4 Austroasiatic Comparative-Historical Reconstruction: An Overview | |
Oflazer et al. | An outline of Turkish morphology | |
Rießler | Kildin Saami | |
KR101117427B1 (en) | Morphological Composition Device And Method Thereof | |
Sproat et al. | The taxonomy of writing systems: How to measure how logographic a system is | |
KR101929509B1 (en) | Device and method for composing morpheme | |
Pike | Selected writings: to commemorate the 60th birthday of Kenneth Lee Pike | |
JP5623380B2 (en) | Error sentence correcting apparatus, error sentence correcting method and program | |
Popescu-Belis et al. | GPoeT: a language model trained for rhyme generation on synthetic data | |
Faraclas et al. | Assimiliation, Dissimilation and Fusion: Vowel Quality and Verbal Reduplication in Lower Cross | |
JP3589972B2 (en) | Speech synthesizer | |
Kominek | Tts from zero: Building synthetic voices for new languages | |
Russell | A RECONSTRUCTION AND MORPHOPHONEMIC ANALYSIS OF | |
Heintz | Arabic language modeling with stem-derived morphemes for automatic speech recognition | |
CN115547292B (en) | Acoustic model training method for speech synthesis | |
Ermers | Turkic forms in Arabic structures: the description of Turkic by Arabic grammarians | |
Nissa et al. | Forms and Translation Procedures of Korean Onomatopoeia and Mimesis in the Webtoon | |
Bumatova | POETRY TRANSLATION: THE CORRELATION BETWEEN THE LANGUAGES AND POETIC SYSTEMS | |
Adda-Decker et al. | Multilingual dictionaries | |
Brierley et al. | Translating sacred sounds: Encoding tajwīd rules in automatically generated IPA transcriptions of Quranic Arabic | |
Pellegrini et al. | Experimental detection of vowel pronunciation variants in Amharic. | |
JPS616693A (en) | Accent decision method | |
Civil | Ur III as a linguistic watershed |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20150108 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20160201 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20180108 Year of fee payment: 7 |
|
LAPS | Lapse due to unpaid annual fee |