KR102381079B1 - 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 - Google Patents
기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 Download PDFInfo
- Publication number
- KR102381079B1 KR102381079B1 KR1020210101350A KR20210101350A KR102381079B1 KR 102381079 B1 KR102381079 B1 KR 102381079B1 KR 1020210101350 A KR1020210101350 A KR 1020210101350A KR 20210101350 A KR20210101350 A KR 20210101350A KR 102381079 B1 KR102381079 B1 KR 102381079B1
- Authority
- KR
- South Korea
- Prior art keywords
- sentence
- morpheme
- basic
- unit
- additional information
- Prior art date
Links
- 230000011218 segmentation Effects 0.000 title abstract 5
- 230000015654 memory Effects 0.000 claims abstract description 17
- 238000000354 decomposition reaction Methods 0.000 claims description 68
- 150000001875 compounds Chemical class 0.000 claims description 39
- 238000000034 method Methods 0.000 claims description 21
- 238000000605 extraction Methods 0.000 claims description 10
- 230000000295 complement effect Effects 0.000 claims description 6
- 230000001419 dependent effect Effects 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 3
- 230000001360 synchronised effect Effects 0.000 claims description 2
- 235000016213 coffee Nutrition 0.000 description 43
- 235000013353 coffee beverage Nutrition 0.000 description 43
- 235000015109 caffè americano Nutrition 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000012545 processing Methods 0.000 description 11
- 238000005516 engineering process Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 238000013473 artificial intelligence Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000003058 natural language processing Methods 0.000 description 4
- 238000012790 confirmation Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 239000000470 constituent Substances 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000002546 agglutinic effect Effects 0.000 description 1
- 230000003542 behavioural effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/263—Language identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Economics (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
Description
도 2는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문장 분해부를 설명하기 위한 블록도이다.
도 3은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문형 유형 판단부를 설명하기 위한 블록도이다.
도 4는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 문장 성분의 조합 관계를 설명하기 위한 블록도이다.
도 5는 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 지정부를 설명하기 위한 블록도이다.
도 6은 본 발명의 일 실시 예에 따른 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템의 부가 정보 저장부를 설명하기 위한 블록도이다.
도 7는 본 발명의 일 실시 예에 따른 컴퓨팅 장치의 내부 구성의 일 예를 설명하기 위한 도면이다.
Claims (8)
- 하나 이상의 프로세서 및 상기 프로세서에서 수행 가능한 명령들을 저장하는 하나 이상의 메모리를 포함하는 컴퓨팅 장치에서 구현되는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템에 있어서,
사용자로부터 한국어로 구성된 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장을 복수 개의 기본 문장으로 분해하는 문장 분해부;
상기 문장 분해부에 의해 복합 문장의 분해가 완료되면, 상기 분해된 복수 개의 기본 문장 각각에 포함된 형태소를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 판단하는 문형 유형 판단부;
상기 문형 유형 판단부에 의해 상기 복수 개의 기본 문장 각각에 대한 문형 유형이 판단 완료된 경우, 상기 복수 개의 기본 문장 각각에 포함된 형태소 중 일부를 부가 정보로 지정하는 부가 정보 지정부; 및
상기 부가 정보의 지정이 완료되면, 상기 부가 정보를 상기 부가 정보로 지정되지 않은 형태소에 매칭시켜, 기 저장된 기본 형태소 사전 테이블에 포함된 기본 형태소 카테고리에 상기 부가 정보를 저장하는 부가 정보 저장부;를 포함하되,
상기 문장 분해부는,
상기 자연어가 입력되는 경우, 상기 입력된 자연어에 대응되는 복합 문장에 포함된 복수 개의 형태소를 식별하여, 상기 복합 문장을 형태소 별로 분해하는 형태소 분해부;
상기 형태소 분해부에 의해 상기 복합 문장이 상기 형태소 별로 분해되면, 상기 분해된 형태소를 분석하여 상기 분석 결과를 기반으로, 상기 복합 문장을 서술어 단위로 분해하는 단위 분해부; 및
상기 단위 분해부에 의해 상기 복합 문장이 서술어 단위로 분해되면, 상기 서술어 단위로 분해된 복합 문장을 상기 복수 개의 기본 문장으로 생성하는 기본 문장 생성부;를 포함하되,
상기 문형 유형 판단부는,
상기 기본 문장 생성부에 의해 상기 복수 개의 기본 문장이 생성된 경우, 상기 생성된 복수 개의 기본 문장 각각을 구성하는 복수 개의 어절을 확인하는 어절 확인부;
상기 어절 확인부에 의해 상기 복수 개의 어절의 확인이 완료되면, 기 저장된 품사 분류 정보를 기반으로, 상기 복수 개의 어절에 포함된 형태소들 각각에 대한 품사를 확인하여, 상기 확인된 품사를 통해 상기 복수 개의 어절 각각의 문장 성분을 분류하는 성분 분류부; 및
상기 성분 분류부에 의해 상기 복수 개의 어절 각각에 대한 문장 성분의 분류가 완료된 경우, 상기 분류된 문장 성분 간의 조합 관계를 확인하여, 상기 복수 개의 기본 문장 각각에 대한 문형 유형을 결정하는 문형 결정부;를 포함하되,
상기 부가 정보 지정부는,
상기 문형 유형이 결정된 복수 개의 기본 문장 각각에 포함된 형태소들 중 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 중 적어도 하나에 대응하는 제1 형태소를 제외한 나머지 형태소인 제2 형태소를 추출하는 형태소 추출부; 및
상기 제2 형태소의 추출이 완료되면, 상기 제2 형태소를 상기 제1 형태소에 대한 부가 정보로 지정하여, 상기 제1 형태소의 트리 정보를 갱신하는 트리 정보 갱신부;를 포함하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
- 삭제
- 삭제
- 제1항에 있어서,
상기 문형 유형은,
상기 복수 개의 어절 각각에 대한 문장 성분 간의 조합 관계를 기반으로 결정되는 상기 복수 개의 기본 문장 각각에 대한 문장 형태로써,
주어 및 서술어로 조합되어 구성되는 제1 유형
상기 주어, 부사어 및 상기 서술어로 조합되어 구성되는 제2 유형;
상기 주어, 목적어 및 상기 서술어로 조합되어 구성되는 제3 유형;
상기 주어, 보어 및 상기 서술어로 조합되어 구성되는 제4 유형; 및
상기 주어, 상기 목적어, 상기 보어 및 상기 서술어로 조합되어 구성되는 제5 유형;을 포함하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
- 삭제
- 제1항에 있어서,
상기 트리 정보는,
상기 문형 유형 별로 기본 형태소마다 종속되어 있는 트리 구조의 정보로써, 상기 부가 정보로 지정된 제2 형태소가 상기 기본 형태소의 하위 계층 정보로 업데이트되는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
- 제6항에 있어서,
상기 부가 정보 저장부는,
상기 트리 정보 갱신부에 의해 상기 제1 형태소의 트리 정보가 갱신되는 경우, 갱신 내용을 기반으로, 상기 기 저장된 기본 형태소 사전 테이블에 포함된 복수 개의 기본 형태소 카테고리 중 하나의 부가 정보를 업데이트하여, 상기 제1 형태소의 트리 정보를 기준으로 상기 기 저장된 기본 형태소 사전 테이블을 동기화하는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
- 제7항에 있어서,
상기 기 저장된 기본 형태소 사전 테이블은,
상기 문형 유형 별로 상기 제2 형태소를 추출하기 위한 기준이 되는 기본 형태소에 기반한 복수 개의 기본 형태소 카테고리를 포함하고 있는 데이터로써, 상기 복수 개의 기본 형태소 카테고리 각각에 포함된 부가 정보의 검색 및 추출 기능을 제공하기 위해 상기 복수 개의 기본 형태소 카테고리마다 그래프 구조로 형성되는 것을 특징으로 하는 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템.
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210101350A KR102381079B1 (ko) | 2021-08-02 | 2021-08-02 | 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 |
US18/020,514 US20240169150A1 (en) | 2021-08-02 | 2021-11-25 | Foreign language phrases learning system based on basic sentence pattern unit decomposition |
CN202180050247.2A CN115956245A (zh) | 2021-08-02 | 2021-11-25 | 基于基本句型单位分解的外语句子结构学习系统 |
PCT/KR2021/017468 WO2023013826A1 (ko) | 2021-08-02 | 2021-11-25 | 기본 문형 단위 분해에 기반한 외국어 구문 학습 시스템 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210101350A KR102381079B1 (ko) | 2021-08-02 | 2021-08-02 | 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102381079B1 true KR102381079B1 (ko) | 2022-04-01 |
Family
ID=81183576
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210101350A KR102381079B1 (ko) | 2021-08-02 | 2021-08-02 | 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20240169150A1 (ko) |
KR (1) | KR102381079B1 (ko) |
CN (1) | CN115956245A (ko) |
WO (1) | WO2023013826A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230155156A (ko) | 2022-05-03 | 2023-11-10 | 서강대학교산학협력단 | 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150042532A (ko) * | 2013-10-11 | 2015-04-21 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
KR20170083946A (ko) * | 2016-01-11 | 2017-07-19 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
WO2017122904A1 (ko) * | 2016-01-11 | 2017-07-20 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
KR20180086801A (ko) * | 2017-01-23 | 2018-08-01 | (주)센솔로지 | Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치 |
JP6526470B2 (ja) * | 2015-02-23 | 2019-06-05 | 株式会社ワイズナット | テキスト分析及び応答システムのための語彙意味パターンの事前構築方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101755437B1 (ko) * | 2016-01-21 | 2017-07-12 | 주식회사 와이즈넛 | 어휘의미패턴을 이용한 한국어의 기계번역방법 |
-
2021
- 2021-08-02 KR KR1020210101350A patent/KR102381079B1/ko active IP Right Grant
- 2021-11-25 WO PCT/KR2021/017468 patent/WO2023013826A1/ko active Application Filing
- 2021-11-25 US US18/020,514 patent/US20240169150A1/en active Pending
- 2021-11-25 CN CN202180050247.2A patent/CN115956245A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150042532A (ko) * | 2013-10-11 | 2015-04-21 | 에스케이텔레콤 주식회사 | 복합 문장 분석 장치, 이를 위한 기록매체 |
JP6526470B2 (ja) * | 2015-02-23 | 2019-06-05 | 株式会社ワイズナット | テキスト分析及び応答システムのための語彙意味パターンの事前構築方法 |
KR20170083946A (ko) * | 2016-01-11 | 2017-07-19 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
WO2017122904A1 (ko) * | 2016-01-11 | 2017-07-20 | 한국과학기술원 | 구체화된 삼항 관계 추출을 위한 개방형 정보 추출 방법 및 시스템 |
KR20180086801A (ko) * | 2017-01-23 | 2018-08-01 | (주)센솔로지 | Rdf 트리플 기반의 문장 의미 정형화 및 문장 생성 방법, 그리고 이를 구현한 문장 생성 장치 |
Non-Patent Citations (1)
Title |
---|
박용민 외, 한국어 제목 개체명 인식 및 사전 구축: 도서, 영화, 음악, TV 프로그램 (2014.07.) * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230155156A (ko) | 2022-05-03 | 2023-11-10 | 서강대학교산학협력단 | 통합 토크나이저를 갖는 음성 이해 시스템 및 상기 음성 이해 시스템에서의 통합 토큰화 방법 |
Also Published As
Publication number | Publication date |
---|---|
US20240169150A1 (en) | 2024-05-23 |
CN115956245A (zh) | 2023-04-11 |
WO2023013826A1 (ko) | 2023-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vasiliev | Natural language processing with Python and spaCy: A practical introduction | |
Gu et al. | Multimodal affective analysis using hierarchical attention strategy with word-level alignment | |
Medhat et al. | Sentiment analysis algorithms and applications: A survey | |
US12019981B2 (en) | Method and system for converting literature into a directed graph | |
RU2592396C1 (ru) | Способ и система для машинного извлечения и интерпретации текстовой информации | |
US20160162473A1 (en) | Localization complexity of arbitrary language assets and resources | |
RU2607976C1 (ru) | Извлечение информации из структурированных документов, содержащих текст на естественном языке | |
RU2646386C1 (ru) | Извлечение информации с использованием альтернативных вариантов семантико-синтаксического разбора | |
US20150178268A1 (en) | Semantic disambiguation using a statistical analysis | |
US11170169B2 (en) | System and method for language-independent contextual embedding | |
RU2601166C2 (ru) | Разрешение анафоры на основе технологии глубинного анализа | |
RU2640297C2 (ru) | Определение степеней уверенности, связанных со значениями атрибутов информационных объектов | |
Rachman et al. | CBE: Corpus-based of emotion for emotion detection in text document | |
RU2579873C2 (ru) | Разрешение семантической неоднозначности при помощи семантического классификатора | |
Jang et al. | A novel density-based clustering method using word embedding features for dialogue intention recognition | |
WO2020091618A1 (ru) | Система определения именованных сущностей с динамическими параметрами | |
KR20220082146A (ko) | 인공지능 및 자연어 처리 기반의 의료 콘텐츠 저작 및 관리 시스템 | |
KR102381079B1 (ko) | 기본 문형 단위 분해에 기반한 한국어 구문 학습 시스템 | |
Malik et al. | NLP techniques, tools, and algorithms for data science | |
Pham et al. | A hybrid approach for biomedical event extraction | |
Dehkharghani et al. | A novel approach to sentiment analysis in Persian using discourse and external semantic information | |
Mehler et al. | Towards a network model of the coreness of texts: An experiment in classifying Latin texts using the ttlab latin tagger | |
Postiglione | Finite State Automata on Multi-Word Units for Efficient Text-Mining | |
Pittaras et al. | Content-based and knowledge-enriched representations for classification across modalities: a survey | |
KR20230142109A (ko) | 지식 베이스를 활용한 유저별 맞춤형 컨텐츠 추천 방법, 장치 및 컴퓨터-판독가능 기록매체 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20210802 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20210907 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20210802 Patent event code: PA03021R01I Comment text: Patent Application |
|
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20211130 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20220325 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20220328 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20220328 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |