KR102525209B1 - 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 - Google Patents
원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 Download PDFInfo
- Publication number
- KR102525209B1 KR102525209B1 KR1020160025685A KR20160025685A KR102525209B1 KR 102525209 B1 KR102525209 B1 KR 102525209B1 KR 1020160025685 A KR1020160025685 A KR 1020160025685A KR 20160025685 A KR20160025685 A KR 20160025685A KR 102525209 B1 KR102525209 B1 KR 102525209B1
- Authority
- KR
- South Korea
- Prior art keywords
- synthesized
- translation
- information
- voice
- generating
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 59
- 238000013519 translation Methods 0.000 claims abstract description 100
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 19
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 19
- 230000001755 vocal effect Effects 0.000 claims abstract description 13
- 238000000605 extraction Methods 0.000 claims description 25
- 230000008569 process Effects 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 12
- 210000001260 vocal cord Anatomy 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000011017 operating method Methods 0.000 abstract 1
- 239000000284 extract Substances 0.000 description 34
- 230000008451 emotion Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002996 emotional effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 101000587430 Homo sapiens Serine/arginine-rich splicing factor 2 Proteins 0.000 description 1
- 240000007594 Oryza sativa Species 0.000 description 1
- 235000007164 Oryza sativa Nutrition 0.000 description 1
- 102100029666 Serine/arginine-rich splicing factor 2 Human genes 0.000 description 1
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
- G10L13/0335—Pitch control
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
- Computer Vision & Pattern Recognition (AREA)
Abstract
본 발명은 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것으로서, 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.
Description
본 발명은 자동 통역 기술에 관한 것으로, 특히 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법에 관한 것이다.
기존 자동통역기에서는 상대방에게 전달되는 음성 합성음에 대한 특별한 고려가 없이 번역된 문장만을 이용하여 중립된 합성음으로 생성하는 것이 일반적이었다. 이보다 진보된 기술에서도, 원시 발화자의 성별을 이용해 남녀 목소리를 구분해 합성하는 정도만을 제안하고 있다.
자동 통역이 아닌 음성 합성 기술만을 고려할 때도, 감정을 표현하고자 하는 시도는 존재하였으나, 이는 주어진 텍스트 문장에 의존해서 행복, 슬픔, 분노 등의 몇 가지 감정을 표현할 수 있도록 합성하는 것에 지나지 않았다.
경우에 따라서, 로봇 등과 같은 대화 시스템에 있어서 대화 상대방 인간의 개인 운율 모델 정보를 이용해 분노, 두려움, 행복, 슬픔 등과 같은 감정 운율 구조를 분석하고 이를 이용해 로봇 측에서 발화하는 합성음에 감정 정보를 가미하고자 하는 시도가 있었다. 그러나, 이는 대화 상대방의 음성 특성을 이용하는 것으로, 발화자 본인의 음성이 번역되어 합성되는 자동통역에서와는 다른 방향의 접근이다. 또한, 상대방의 기본 감정을 정의하고 이를 이용해 감정 정보를 부여하기 때문에, 원시 발화자의 음성 특징을 그대로 모사하여 번역, 합성함으로써, 원시 발화자의 발화 의도와 감정을 동일하게 통역 상대방에게 전달하고자 하는 자동통역 상황에는 적합하지 않다.
한편, 국제표준화기구인 ISO/IEC JTC1 SC35 User Interface의 WG4 Culture and Linguistic Adaptability에서는 2015년 1월 회의에서 다국어 자동통역의 사용자인터페이스를 회원국의 투표를 거쳐 새로운 NP(New Project)로 선정하였다.
본 발명의 목적은 원시 발화자의 목소리와 유사한 특성을 갖는 번역된 합성음을 생성하는 자동 통역 시스템 및 방법을 제공함에 있다.
전술한 과제를 달성하기 위한 본 발명의 일 양상에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 음성 인식 모듈, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈을 포함한다.
상기 음성 인식 모듈은 아날로그 형태의 상기 원시 음성 신호로부터 단어 및 문장을 추출하여 디지털 형태의 텍스트 데이터로 변환하는 단어 및 문장 추출부, 상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부, 상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부, 상기 원시 음성 신호에서 발화 속도를 측정하여 추출하는 발화 속도 추출부, 및 상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부를 포함한다.
상기 음높이 추출부는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.
상기 발성 강도 추출부는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.
상기 발화 속도 추출부는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.
상기 성도 특징 추출부는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.
상기 자동 번역 모듈은 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 자동 번역 모듈은 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 음성 합성 모듈은 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부를 포함한다.
상기 운율 처리부는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.
상기 합성음 생성부는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.
한편, 전술한 과제를 달성하기 위한 본 발명의 다른 양상에 따른 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법은 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 적어도 하나의 특성 정보를 추출하는 단계, 상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계, 및 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.
상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출한다.
상기 특성 정보를 추출하는 단계는 추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장한다.
상기 특성 정보를 추출하는 단계는 상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장한다.
상기 특성 정보를 추출하는 단계는 MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 적어도 하나의 특징 파라미터를 추출한다.
상기 합성 대상 번역문을 생성하는 단계는 규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출하며, 통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 적어도 하나의 단위별 대응 정보를 추출한다.
상기 합성음을 생성하는 단계는 상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계, 변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계, 상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계, 및 운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계를 포함한다.
상기 운율을 처리하는 단계는 상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 운율을 부여한다.
상기 검색 결과를 기반으로 합성음을 생성하는 단계는 상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나의 특성 정보를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성한다.
본 발명의 실시예에 따르면, 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도.
도 2는 본 발명의 실시예에 따른 자동 통역 시스템의 음성 인식 모듈의 상세 구성도.
도 3은 본 발명의 실시예에 따른 자동 통역 시스템의 음성 합성 모듈의 상세 구성도.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도.
도 2는 본 발명의 실시예에 따른 자동 통역 시스템의 음성 인식 모듈의 상세 구성도.
도 3은 본 발명의 실시예에 따른 자동 통역 시스템의 음성 합성 모듈의 상세 구성도.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고, 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.
도 1은 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 구성도이다.
도 1에 도시된 바와 같이, 자동 통역 시스템(100)은 음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130)을 포함한다. 아울러, 각 모듈(음성 인식 모듈(110), 자동 번역 모듈(120) 및 음성 합성 모듈(130))에서 추출되는 정보 및 동작을 위해 이용되는 정보는 별도의 데이터베이스(140)에 저장될 수 있다.
음성 인식 모듈(110)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 원시 음성 신호를 수신하고, 수신되는 원시 음성 신호 에서 원시 음성의 특성 정보를 추출한다. 음성 인식 모듈(110)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.
이를 위해, 음성 인식 모듈(110)은 도 2에 도시된 바와 같이 단어 및 문장 추출부(111), 음높이 추출부(112), 발성 강도 추출부(113), 발화 속도 추출부(114) 및 성도 특징 추출부(115)를 포함한다. 아울러, 음성 인식 모듈(110)의 각 추출부(111~115)에서 추출된 정보는 별도의 음성 특징 데이터베이스(141)에 저장될 수 있다.
단어 및 문장 추출부(111)는 마이크를 통해 수신되는 원시 발화자의 원시 음성 신호를 디코딩하여 텍스트 데이터를 생성한다. 이때, 단어 및 문장 추출부(111)는 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 단어 및 문장 추출부(111)는 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.
아울러, 단어 및 문장 추출부(111)는 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 단어 및 문장 추출부(111)는 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 단어 및 문장 추출부(111)는 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.
이와 같은 과정을 통해, 단어 및 문장 추출부(111)는 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.
음높이 추출부(112)는 음높이 정보를 문장 레벨에서 측정하여 저장한다. 구체적으로, 음높이 추출부(112)는 원시 음성 신호에서 음높이 정보 및 음높이 궤적 정보를 추출할 수 있다.
이때, 음높이 추출부(112)는 단어 및 문장 추출부(111)의 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다. 아울러, 음높이 추출부(112)는 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.
발성 강도 추출부(113)는 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발성 강도 추출부(113)는 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다. 발성 강도 추출부(113)는 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다. 비교 결과를 기반으로 발성 강도 추출부(113)는 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 저장한다.
발화 속도 추출부(114)는 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다. 구체적으로, 발화 속도 추출부(114)는 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다. 발화 속도 추출부(114)는 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다. 비교 결과를 기반으로 발화 속도 추출부(114)는 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 저장한다.
성도 특징 추출부(115)는 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다. 필요에 따라서, 성도 특징 추출부(115)는 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.
자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과를 이용하여 원시 음성을 번역한다. 구체적으로, 자동 번역 모듈(120)은 음성 인식 모듈(110)에 의해 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역하여 합성 대상 번역문(번역된 텍스트 데이터)을 생성한다. 예컨대, 자동 번역 모듈(120)은 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.
이때, 자동 번역 모듈(120)은 음성 인식 모듈(110)의 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 번역 모듈(120)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.
이때, 자동 번역 모듈(120)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 번역 모듈(120)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.
이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 음성 합성 모듈(130)에서 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.
음성 합성 모듈(130)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다. 이를 위해, 음성 합성 모듈(130)은 도 3에 도시된 바와 같이, 전처리부(131), 발음 변환부(132), 운율 처리부(133), 합성음 생성부(134)를 포함한다.
먼저, 전처리부(131)는 자동 번역 모듈(120)에 의해 번역된 텍스트 데이터(합성 대상 번역문)에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 전처리부(131)는 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.
이후, 발음 변환부(132)에서 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다. 예컨대, 발음 변환부(132)는 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.
운율 처리부(133)는 합성 대상 번역문에서 억양구를 찾아내어 억양구 및 문장에 억양 및 강도를 부가한다.
먼저, 운율 처리부(133)는 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다. 이때, 운율 처리부(133)는 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며, 비교 결과에 따라 운율을 부여한다.
만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는 번역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다. 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다.
하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 운율 처리부(133)는 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.
다음으로, 운율 처리부(133)는 강도를 부여할 때도 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.
이후, 합성음 생성부(134)는 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성하고 출력하게 된다. 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다. 이때, 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 합성음 생성부(134)는 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.
마지막으로는 합성음 생성부(134)는 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.
이와 같이, 본 발명의 실시예에 따르면 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
도 4는 본 발명의 실시예에 따른 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 방법 흐름도이다.
이하에서는 별도의 언급이 없는 한, 각 단계는 본 발명의 실시예에 다른 자동 통역 시스템(100)에 의해 수행되는 것으로 간주한다.
먼저, 자동 통역 시스템(100)은 화자(원시 발화자)가 발화하는 원시 음성에 대한 음성 데이터를 수신하고, 수신되는 음성 데이터에서 원시 음성의 특성 정보를 추출한다. 구체적으로, 자동 통역 시스템(100)은 원시 발화자의 음성 입력이 완료되면, 통상적인 음성 인식 수행 절차를 거쳐 인식된 단어와 문장을 추출하는 동시에 추가 정보들을 추출한다. 여기서, 추가 정보들은 음높이(Pitch) 정보, 강도(Intensity) 정보, 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보일 수 있다.
먼저, 자동 통역 시스템(100)은 마이크를 통해 수신되는 원시 발화자의 음성 신호(원시 음성 신호)를 디코딩하여 텍스트 데이터를 생성한다. 이때, 자동 통역 시스템(100)은 음성 인식(Speech Recognizer)을 통해 아날로그 형태의 원시 음성 신호를 디지털 형태의 텍스트 데이터로 변환할 수 있다. 또한, 자동 통역 시스템(100)은 디코딩(음성 인식) 결과에 대한 정확도 및 신뢰도를 계산한다.
아울러, 자동 통역 시스템(100)은 원시 음성 신호에서 문장의 끝을 파악한다. 이때, 자동 통역 시스템(100)은 EPD(End-Point Detector)를 통해 원시 음성 신호를 분석하여 문장의 맨 앞과 맨 뒤를 파악할 수 있다. 나아가, 자동 통역 시스템(100)은 텍스트 데이터 및 신뢰도 정보와, EPD 정보를 이용하여 텍스트 데이터에서의 의미단위 및 문장의 끝을 판별한다.
이와 같은 과정을 통해, 자동 통역 시스템(100)은 원시 음성 신호로부터 단어 및 문장(음성 인식 결과)을 추출할 수 있다. 이하에서는, 설명의 편의를 위해 원시 발화자가 하나의 문장을 발화하여, 원시 음성 신호로부터 하나의 문장을 추출한 것으로 가정하여 설명한다.
아울러, 자동 통역 시스템(100)은 도 5와 같은 동작 흐름을 통해 원시 음성의 특성 정보를 추출할 수 있다.
도 5는 본 발명의 실시예에 따른 원시 음성의 특성 정보를 추출하는 방법 흐름도이다
자동 통역 시스템(100)은 원시 음성 신호의 문장 레벨에서 음높이 정보 및 음높이 궤적 정보를 추출한다(S501).
또한, 자동 통역 시스템(100)은 음성 인식 결과와 원시 음성 신호의 음높이(Pitch) 및 음높이 궤적 정보를 동시에 이용해 억양구(Intonation Phrase) 단위 정보도 함께 추출한다(S502).
아울러, 자동 통역 시스템(100)은 추출된 억양구에 대해서 억양구 운율 구조 정보를 추출한다(S503). 예컨대, 자동 통역 시스템(100)은 추출된 억양구에 대해서도 추가적으로 음높이 궤적 정보를 이용하여 L%, LH%, HL%, LH% LHL%, LHLH%, HLH%, HLHL%, LHLHL%(L: Low, H: High, %: 경계 성조(boundary tones)) 등과 같이 해당 발화의 억양구별 운율 구조를 추출 및 저장한다. 이때, 저장되는 운율 구조의 형태는 언어별로 달라질 수 있다.
자동 통역 시스템(100)은 원시 음성 신호에서의 발성 강도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S504). 구체적으로, 자동 통역 시스템(100)은 실제 원시 발화자가 발성한 음성의 발성 강도를 각 단위별로 측정한다.
또한, 자동 통역 시스템(100)은 측정된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교한다(S505).
자동 통역 시스템(100)은 단계 S505의 비교 결과를 기반으로 평균 발성 강도 대비 실제로 원시 발화자가 발성한 원시 음성의 발성 강도에 대한 상대 값을 추출하여 저장한다(S506).
자동 통역 시스템(100)은 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 등 각 단위별로 측정한다(S507). 구체적으로, 자동 통역 시스템(100)은 원시 발화자가 발성한 원시 음성의 발화 속도를 단위별로 측정한다.
또한, 자동 통역 시스템(100)은 측정된 원시 음성의 발화 속도와 기구축된 대용량의 대화체 음성 데이터베이스로부터 해당 단위별 음절 수 기반의 평균 속도를 비교한다(S508).
자동 통역 시스템(100)은 단계 S508의 비교 결과를 기반으로 평균 속도 대비 실제 발성된 속도에 대한 상대 값을 추출하여 저장한다(S509).
자동 통역 시스템(100)은 원시 음성 신호에서 MFCC(Mel-Frequency Cepstral Coefficient) 등과 같은 성도 특징 파라미터를 추출하여 저장한다(S510). 필요에 따라서, 자동 통역 시스템(100)은 성대파(Glottal Wave)의 특징 파라미터도 추출하여 저장할 수 있다. 이렇게 추출된 특징 파라미터는 원시 발화자의 음색에 해당하는 정보이다.
다시 도 4의 동작 흐름도로 돌아가서, 자동 통역 시스템(100)은 단계 S401의 음성 인식 결과를 이용하여 원시 음성을 번역한다(S402). 구체적으로, 자동 통역 시스템(100)은 단계 S402에서 생성된 원시 음성 신호에 대한 텍스트 데이터를 다른 언어로 번역한다. 예컨대, 국문의 텍스트 데이터를 번역하여 영문의 텍스트 데이터로 변환할 수 있다.
이때, 자동 통역 시스템(100)은 음성 인식 결과(원시 음성의 특성 정보)와 번역 결과의 단위별 대응 정보를 추출 및 저장할 수 있다. 또는, 자동 통역 시스템(100)은 자동 번역 결과와 음성 인식 결과에 대한 후처리를 통해 단위별 대응 정보를 추출 및 저장할 수 있다.
이때, 자동 통역 시스템(100)이 규칙 기반의 자동번역기(Rule-Based Machine Translator)라면, 번역 과정에서 양쪽 언어에 대응하는 단어, 억양구, 문장 정보를 함께 얻을 수 있다. 만약, 자동 통역 시스템(100)이 통계 기반의 자동번역기(Statistical Machine Translator)라면 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위 청킹(Chunking) 등을 실시하고, 이를 원시 문장(원시 음성의 음성 인식 결과)과 번역된 문장에 대응시켜 단어, 억양구의 대응 정보를 추출한다. 최종 번역 결과를 이용하게 되면 문장도 대응이 된다.
이렇게 대응된 단어, 억양구, 문장 정보는 단위별 대응 정보 데이터베이스(142)에 저장되었다가 이후 합성음을 생성 및 변환하는 과정에서 활용될 수 있다.
자동 통역 시스템(100)은 원시 발화자의 목소리와 유사한 특성을 지니도록 번역문에 대한 합성음을 생성하고 변환한다(S403).
이때, 자동 통역 시스템(100)은 도 6과 같은 동작 흐름을 통해 합성음을 생성 및 변환할 수 있다.
도 6은 본 발명의 실시예에 따른 원시 음성의 특성을 갖는 합성음을 생성 및 변환하는 방법 흐름도이다
먼저, 자동 통역 시스템(100)은 단계 S402에서 번역된 텍스트 데이터(합성 대상 번역문)를 전처리한다(S601). 구체적으로, 자동 통역 시스템(100)은 합성 대상 번역문에서의 숫자, 기호 등을 문자로 변환한다. 예컨대, 자동 통역 시스템(100)은 합성 대상 번역문에서 '1', '#'과 같은 숫자와 기호를 '일(또는 하나) ', '샵'과 같이 문자로 변환한다.
이후, 자동 통역 시스템(100)은 합성 대상 번역문의 문자에 대한 발음 변환을 실시한다(S602). 예컨대, 자동 통역 시스템(100)은 문자로 변환된 합성 대상 번역문을 기저장된 발음 기호에 따라 실제로 발음되는 발음 데이터로 변환할 수 있다.
자동 통역 시스템(100)은 합성음을 원시 발화자와 목소리와 유사한 특성을 지니도록 합성음을 생성하기 위해서, 발음 변환된 합성 대상 번역문의 기본 음높이를 원시 발화자의 음높이와 같게 유지되도록 부여한다(S603). 이때, 자동 통역 시스템(100)은 문장에 억양을 부가 시, 단순히 텍스트 데이터에 의해서만 억양을 부가하는 것이 아니라, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수를 비교하며(S604), 비교 결과에 따라 운율을 부여한다.
만약, 원시 발화 음성의 억양구 개수와 합성 대상 번역문의 억양구 개수가 1:1로 대응될 때에는, 역문과 대응되는 원시 발화의 억양구 운율 구조와 같은 특성을 지니도록 운율을 부여한다(S605). 예컨대, 영어를 한국어로 자동통역하는 상황에서 'Are you hungry'라고 발성한 음성에 대해 '밥 먹었어요'라는 문장으로 번역되었다고 가정한다. 이 경우, 단순히 텍스트 데이터만을 이용하여 운율을 부여한다면 'L%'로 억양이 부여된다. 하지만, 만약 원시 발화의 억양구 운율이 'LH%'로 측정되었다면, 1:1로 억양구의 숫자가 동일한 상황에서는 이 정보를 이용해 대응되는 억양구인 '밥 먹었어요'에 대해서 'LH%'의 운율이 생성될 수 있도록 하는 것이다. 이 때 운율 구조 생성에 있어 단순하게 원시 발화와 동일한 운율을 가지는 억양구로 대응되는 것이 아니라, 원시 언어와 통역되는 상대방 목적 언어의 운율 구조를 고려하여 같은 의도를 가지는 자연스러운 억양구 운율 구조로 대응하여 생성될 수 있도록 한다. 이런 과정을 거치게 되면 원시 음성과 유사한 감정과 의도를 가지는 운율로 번역된 합성음을 생성할 수 있다.
아울러, 자동 통역 시스템(100)은 원시 발화 음성에서 측정된 값과 동일한 상대값을 가지도록 합성음의 강도를 부여한다(S606). 강도를 부여할 때도 자동 통역 시스템(100)은 남녀 성별을 기준으로 삼은 다음, 중립적으로 생성되어야 할 강도에 자연성을 해치지 않는 범위 내에서 전체 문장에 원시 발화 음성에서 측정된 것과 동일한 상대 값을 가지도록 강도를 부여한다. 이때, 만약 원시 발화 음성에서 특정 단어 및 억양구에 미리 설정한 기준치 이상 또는 이하의 강도가 측정되었다면, 생성되는 합성음에서도 이에 대응되는 해당 단어 및 억양구에 기준치 대비 같은 상대값을 가지도록 강도를 부여하고 나머지 다른 단어 및 억양구의 강도를 함께 조절하여 전체적으로는 같은 수준의 강도를 가질 수 있게 한다. 이렇게 하면 원시 음성과 유사한 감정과 의도를 가지는 강도로 번역된 합성음을 생성할 수 있다.
이후, 자동 통역 시스템(100)은 운율 처리된 합성 대상 번역문(입력 문장)의 합성 단위들을 합성단위 데이터베이스(143)로부터 검색하고, 검색 결과를 이용하여 합성단위들을 연결하여 합성음을 생성한다(S607). 이때, 통상의 경우라면 중립적으로 생성될 발화 속도를 자연성을 해치지 않는 범위 내에서 전체 문장에 대해 원시 발화 음성과 동일한 상대 값을 가지도록 조절한다.
예컨대, 자동 통역 시스템(100)은 원시 음성과 동일한 상대값을 가지도록 합성음의 발화 속도를 조절한다(S608). 만약 미리 설정한 기준치 이하 또는 이상의 발화 속도 변화가 원시 발화 음성의 특정 단어 및 억양구에서 발견되었다면, 이에 대응하는 합성음의 해당 단어 및 억양구를 원시 발화의 속도에 따라 느리게 또는 빠르게 바꾸는 동시에 나머지 단어 및 억양구의 속도도 상대적으로 조절하여 전체 속도는 동일한 상대값을 가지도록 유지시켜 준다. 이를 통해 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있도록 속도를 조절할 수 있다.
또한, 자동 통역 시스템(100)은 원시 발화자의 음색과 유사하도록 합성음의 음색을 변환한다(S609). 구체적으로, 자동 통역 시스템(100)은 음색 정보 특징 파라미터가 원시 발화자의 음색 정보 특징 파라미터와 유사한 값을 가질 수 있도록 자연성을 해치지 않는 범위 내에서 시간축 또는 주파수 축에서 음색변환을 실시한다. 이렇게 변환을 실시하면 최종 합성음의 음색이 원시 발화자의 음색과 유사해지게 되어, 원시 음성과 유사한 감정과 의도를 가진 번역된 합성음을 생성할 수 있다.
이후, 자동 통역 시스템(100)은 생성된 합성음을 출력함으로써, 원시 발화자의 특성을 갖는 번역된 합성음을 제공할 수 있다(S610).
이와 같이, 본 발명의 실시예에 따르면 자동통역 상황에서 사용자의 발화 의도 및 감정과 유사한 특성을 지니는 번역된 합성음을 상대방에게 전달함으로써, 기계와 대화하는 것 같은 느낌을 주는 현재의 자동 통역기보다 자연성을 대폭 개선할 수 있으며, 또한 외국인과의 대화 과정에서 더욱 자연스럽게 상대방의 말을 이해할 수 있어 자동통역 성능 개선 효과 또한 동시에 얻을 수 있다.
또한, 본 발명의 실시예에 따르면, 각 대화 상대방의 음성 특징이 그대로 전달되므로, 여러명이 동시에 발화하는 다자간 자동 통역 상황에서 현재 말하고 있는 사람이 누구인지를 분명히 구분할 수 있는 효과가 있다.
아울러, 본 발명의 실시예에 따르면, 원시 발화자의 목소리 특성을 그대로 번역된 합성음에 실어 전달함으로써, 궁극적으로는 자동통역기계를 이용해 대화하는 것이 아니라 사람과 자연스럽게 직접 대화하는 것과 같은 형상을 실현할 수 있다.
이상, 본 발명의 바람직한 실시예를 통하여 본 발명의 구성을 상세히 설명하였으나, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 본 명세서에 개시된 내용과는 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
110 : 음성 인식 모듈 111 : 단어 및 문장 추출부
112 : 음높이 추출부 123 : 발성 강도 추출부
124 : 발화 속도 추출부 125 : 성도 특징 추출부
120 : 자동 번역 모듈 130 : 음성 합성 모듈
131 : 전처리부 132 : 발음 변환부
133 : 운율 처리부 134 : 합성음 생성부
112 : 음높이 추출부 123 : 발성 강도 추출부
124 : 발화 속도 추출부 125 : 성도 특징 추출부
120 : 자동 번역 모듈 130 : 음성 합성 모듈
131 : 전처리부 132 : 발음 변환부
133 : 운율 처리부 134 : 합성음 생성부
Claims (21)
- 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 하나 이상의 특성 정보를 추출하는 음성 인식 모듈;
상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 자동 번역 모듈; 및
상기 합성 대상 번역문에 대한 합성음을 생성하는 음성 합성 모듈;
을 포함하고,
상기 음성 인식 모듈은 상기 원시 음성 신호에서 발화 속도를 추출하는 발화 속도 추출부를 포함하며,
상기 발화 속도 추출부는,
상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 남녀 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 발화 속도 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제1항에 있어서, 상기 음성 인식 모듈은,
상기 원시 음성 신호로부터 단어 및 문장을 추출하여 상기 텍스트 데이터로 변환하는 단어 및 문장 추출부;
상기 원시 음성 신호에서 음높이 및 음높이 궤적을 추출하는 음높이 추출부;
상기 원시 음성 신호에서 발성 강도를 추출하는 발성 강도 추출부; 및
상기 원시 음성 신호에서 성도 특징 파라미터를 추출하는 성도 특징 추출부;
를 더 포함하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제2항에 있어서, 상기 음높이 추출부는,
상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제2항에 있어서, 상기 발성 강도 추출부는,
추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 발성 강도 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 삭제
- 제2항에 있어서, 상기 성도 특징 추출부는,
MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 하나 이상의 특징 파라미터를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제1항에 있어서, 상기 자동 번역 모듈은
규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 하나 이상의 단위별 대응 정보를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제1항에 있어서, 상기 자동 번역 모듈은,
통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 하나 이상의 단위별 대응 정보를 추출하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제1항에 있어서, 상기 음성 합성 모듈은,
상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 전처리부;
변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 발음 변환부;
상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하는 운율 처리부; 및
운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 합성음 생성부;
를 포함하는 것인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제9항에 있어서, 상기 운율 처리부는,
상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나 또는 이들의 조합을 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 제9항에 있어서, 상기 합성음 생성부는,
상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나 또는 이들의 조합을 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
인 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템.
- 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 하나 이상의 특성 정보를 추출하는 단계;
상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계; 및
상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
를 포함하고,
상기 특성 정보를 추출하는 단계는,
상기 원시 음성 신호에서의 발화 속도를 단어, 문장, 억양구 중 적어도 하나의 단위별로 측정하며, 측정된 상기 발화 속도와 기구축된 대용량의 대화체 남녀 음성 데이터베이스로부터 획득되는 해당 단위별 음절 수 기반의 평균 발화 속도를 비교하며, 상기 발화 속도 비교 결과를 기반으로 평균 발화 속도 대비 상기 원시 발화자의 발화 속도에 대한 상대값을 저장하는 것을 포함하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
상기 원시 음성 신호에서 억양구(Intonation Phrase)별 운율 구조를 더 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
추출된 상기 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하고, 상기 발성 강도 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도에 대한 상대 값을 저장하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 삭제
- 제12항에 있어서, 상기 특성 정보를 추출하는 단계는,
MFCC(Mel-Frequency Cepstral Coefficient)와 성대파(Glottal Wave)의 특징 파라미터 중 하나 이상의 특징 파라미터를 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제12항에 있어서, 상기 합성 대상 번역문을 생성하는 단계는,
규칙 기반의 자동번역기(Rule-Based Machine Translator)인 경우, 번역 과정에서 상기 원시 음성에 대한 언어와 상기 번역 결과에 대한 언어에 대응하는 단어, 억양구, 문장 중 하나 이상의 단위별 대응 정보를 추출하며,
통계 기반의 자동번역기(Statistical Machine Translator)인 경우, 사전 정보 및 번역 과정에서의 정렬 정보를 이용하거나, 단어, 구, 절 단위의 청킹(Chunking) 결과를 이용하여, 단어, 억양구, 문장 중 하나 이상의 단위별 대응 정보를 추출하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제12항에 있어서, 상기 합성음을 생성하는 단계는,
상기 합성 대상 번역문에서의 숫자 및 기호를 문자로 변환하는 단계;
변환된 상기 합성 대상 번역문의 문자에 대한 발음을 변환하는 단계;
상기 합성 대상 번역문에서의 억양구 및 문장에 상기 원시 발화자의 특성 정보를 기반으로 억양 및 강도를 부가하여 운율을 처리하는 단계; 및
운율 처리된 상기 합성 대상 번역문의 합성 단위들을 검색하고, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
를 포함하는 것인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제18항에 있어서, 상기 운율을 처리하는 단계는,
상기 원시 음성 신호에 대한 음높이 정보, 발성 강도 정보 중 적어도 하나 또는 이들의 조합을 기반으로 상기 합성 대상 번역문에 운율을 부여하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 제18항에 있어서, 상기 검색 결과를 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 단계는,
상기 원시 음성 신호에 대한 발화 속도 정보 및 성도 특징 정보 중 적어도 하나 또는 이들의 조합을 기반으로 상기 합성 대상 번역문에 대한 합성음을 생성하는 것
인 자동 통역 시스템에서 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 방법.
- 원시 발화자의 원시 음성 신호에 대한 음성 인식을 수행하여 텍스트 데이터를 생성하고, 상기 원시 음성 신호에 대한 음높이(Pitch) 정보, 발성 강도(Intensity) 정보, 발화 속도(Speed) 정보 및 성도(Vocal Tract) 특징 정보 중 하나 이상의 특성 정보를 추출하는 단계;
상기 텍스트 데이터를 번역하여 합성 대상 번역문을 생성하는 단계; 및
상기 합성 대상 번역문에 대한 합성음을 생성하는 단계;
를 포함하고,
상기 특성 정보를 추출하는 단계는,
상기 원시 음성 신호에서 추출된 발성 강도와 기구축된 대용량 대화체 남녀 음성 데이터베이스로부터 획득되는 성별에 따른 평균 발성 강도를 비교하는 단계; 및
상기 발성 강도 비교 결과를 기반으로 평균 발성 강도 대비 상기 원시 발화자의 발성 강도의 비율을 저장하는 단계를 포함하는 것
인 자동 통역 시스템에서 합성음을 생성하는 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160025685A KR102525209B1 (ko) | 2016-03-03 | 2016-03-03 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
US15/214,215 US10108606B2 (en) | 2016-03-03 | 2016-07-19 | Automatic interpretation system and method for generating synthetic sound having characteristics similar to those of original speaker's voice |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020160025685A KR102525209B1 (ko) | 2016-03-03 | 2016-03-03 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20170103209A KR20170103209A (ko) | 2017-09-13 |
KR102525209B1 true KR102525209B1 (ko) | 2023-04-25 |
Family
ID=59724267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020160025685A KR102525209B1 (ko) | 2016-03-03 | 2016-03-03 | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US10108606B2 (ko) |
KR (1) | KR102525209B1 (ko) |
Families Citing this family (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019071541A1 (zh) * | 2017-10-12 | 2019-04-18 | 深圳市沃特沃德股份有限公司 | 语音翻译方法、装置和终端设备 |
US10777198B2 (en) | 2017-11-24 | 2020-09-15 | Electronics And Telecommunications Research Institute | Apparatus for determining speech properties and motion properties of interactive robot and method thereof |
JP6943158B2 (ja) * | 2017-11-28 | 2021-09-29 | トヨタ自動車株式会社 | 応答文生成装置、方法及びプログラム並びに音声対話システム |
US20200012724A1 (en) * | 2017-12-06 | 2020-01-09 | Sourcenext Corporation | Bidirectional speech translation system, bidirectional speech translation method and program |
CN111566655B (zh) | 2018-01-11 | 2024-02-06 | 新智株式会社 | 多种语言文本语音合成方法 |
WO2019139431A1 (ko) * | 2018-01-11 | 2019-07-18 | 네오사피엔스 주식회사 | 다중 언어 텍스트-음성 합성 모델을 이용한 음성 번역 방법 및 시스템 |
CN108447486B (zh) * | 2018-02-28 | 2021-12-03 | 科大讯飞股份有限公司 | 一种语音翻译方法及装置 |
JP1621612S (ko) | 2018-05-25 | 2019-01-07 | ||
KR20200003529A (ko) * | 2018-07-02 | 2020-01-10 | 엘지전자 주식회사 | 음성 인식이 가능한 디지털 디바이스 및 그 제어 방법 |
KR20200027331A (ko) | 2018-09-04 | 2020-03-12 | 엘지전자 주식회사 | 음성 합성 장치 |
CN109300469A (zh) * | 2018-09-05 | 2019-02-01 | 满金坝(深圳)科技有限公司 | 基于机器学习的同声传译方法及装置 |
CN109658916B (zh) * | 2018-12-19 | 2021-03-09 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、存储介质和计算机设备 |
CN109448694A (zh) * | 2018-12-27 | 2019-03-08 | 苏州思必驰信息科技有限公司 | 一种快速合成tts语音的方法及装置 |
US11159597B2 (en) | 2019-02-01 | 2021-10-26 | Vidubly Ltd | Systems and methods for artificial dubbing |
CN109979474B (zh) * | 2019-03-01 | 2021-04-13 | 珠海格力电器股份有限公司 | 语音设备及其用户语速修正方法、装置和存储介质 |
US11202131B2 (en) * | 2019-03-10 | 2021-12-14 | Vidubly Ltd | Maintaining original volume changes of a character in revoiced media stream |
KR20200111853A (ko) * | 2019-03-19 | 2020-10-05 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 음성 인식 제어 방법 |
KR102457822B1 (ko) * | 2019-08-14 | 2022-10-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
US11620978B2 (en) | 2019-08-14 | 2023-04-04 | Electronics And Telecommunications Research Institute | Automatic interpretation apparatus and method |
US11373633B2 (en) * | 2019-09-27 | 2022-06-28 | Amazon Technologies, Inc. | Text-to-speech processing using input voice characteristic data |
CN110706707B (zh) * | 2019-11-13 | 2020-09-18 | 百度在线网络技术(北京)有限公司 | 用于语音交互的方法、装置、设备和计算机可读存储介质 |
CN113327627B (zh) * | 2021-05-24 | 2024-04-05 | 清华大学深圳国际研究生院 | 一种基于特征解耦的多因素可控的语音转换方法及系统 |
WO2022270752A1 (ko) * | 2021-06-22 | 2022-12-29 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
EP4293660A4 (en) | 2021-06-22 | 2024-07-17 | Samsung Electronics Co Ltd | ELECTRONIC DEVICE AND ITS CONTROL METHOD |
CN114038484B (zh) * | 2021-12-16 | 2024-01-30 | 游密科技(深圳)有限公司 | 语音数据处理方法、装置、计算机设备和存储介质 |
WO2024043592A1 (ko) * | 2022-08-26 | 2024-02-29 | 삼성전자주식회사 | 전자 장치 및 텍스트 음성 변환의 속도 제어 방법 |
CN118430513B (zh) * | 2024-07-03 | 2024-09-20 | 广州趣丸网络科技有限公司 | 一种自然语音翻译系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133245A1 (en) * | 2006-12-04 | 2008-06-05 | Sehda, Inc. | Methods for speech-to-speech translation |
US20100082326A1 (en) * | 2008-09-30 | 2010-04-01 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11507740A (ja) * | 1995-06-13 | 1999-07-06 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | 言語合成 |
CN100524457C (zh) * | 2004-05-31 | 2009-08-05 | 国际商业机器公司 | 文本至语音转换以及调整语料库的装置和方法 |
JP4213755B2 (ja) | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
KR20100068965A (ko) | 2008-12-15 | 2010-06-24 | 한국전자통신연구원 | 자동 통역 장치 및 그 방법 |
KR20140120560A (ko) * | 2013-04-03 | 2014-10-14 | 삼성전자주식회사 | 통역 장치 제어 방법, 통역 서버의 제어 방법, 통역 시스템의 제어 방법 및 사용자 단말 |
KR20150085145A (ko) | 2014-01-13 | 2015-07-23 | 한국전자통신연구원 | 사용자 반응 기반 통역 시스템 및 그 방법 |
KR20150093482A (ko) | 2014-02-07 | 2015-08-18 | 한국전자통신연구원 | 화자 분할 기반 다자간 자동 통번역 운용 시스템 및 방법과 이를 지원하는 장치 |
-
2016
- 2016-03-03 KR KR1020160025685A patent/KR102525209B1/ko active IP Right Grant
- 2016-07-19 US US15/214,215 patent/US10108606B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080133245A1 (en) * | 2006-12-04 | 2008-06-05 | Sehda, Inc. | Methods for speech-to-speech translation |
US20100082326A1 (en) * | 2008-09-30 | 2010-04-01 | At&T Intellectual Property I, L.P. | System and method for enriching spoken language translation with prosodic information |
Also Published As
Publication number | Publication date |
---|---|
KR20170103209A (ko) | 2017-09-13 |
US20170255616A1 (en) | 2017-09-07 |
US10108606B2 (en) | 2018-10-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102525209B1 (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
US11062694B2 (en) | Text-to-speech processing with emphasized output audio | |
US12100396B2 (en) | Indicator for voice-based communications | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
KR102199067B1 (ko) | 다중 언어 텍스트-음성 합성 방법 | |
US10074369B2 (en) | Voice-based communications | |
US10163436B1 (en) | Training a speech processing system using spoken utterances | |
US20160379638A1 (en) | Input speech quality matching | |
US9978359B1 (en) | Iterative text-to-speech with user feedback | |
KR20030085075A (ko) | 음성-음성 변환 생성 시스템 및 방법 | |
JP2008032834A (ja) | 音声翻訳装置及びその方法 | |
JP2009048003A (ja) | 音声翻訳装置及び方法 | |
WO2010025460A1 (en) | System and method for speech-to-speech translation | |
JP2012073941A (ja) | 音声翻訳装置、方法、及びプログラム | |
Mache et al. | Review on text-to-speech synthesizer | |
CN116933806A (zh) | 一种同传翻译系统及同传翻译终端 | |
Wu et al. | Multilingual text-to-speech training using cross language voice conversion and self-supervised learning of speech representations | |
KR20100068965A (ko) | 자동 통역 장치 및 그 방법 | |
KR100669241B1 (ko) | 화행 정보를 이용한 대화체 음성합성 시스템 및 방법 | |
US9484014B1 (en) | Hybrid unit selection / parametric TTS system | |
JP6397641B2 (ja) | 自動通訳装置及び方法 | |
WO2008056590A1 (fr) | Dispositif de synthèse texte-parole, programme et procédé de synthèse texte-parole | |
Li et al. | Acoustical F0 analysis of continuous Cantonese speech | |
Rafieee et al. | Considerations to spoken language recognition for text-to-speech applications | |
Abdelmalek et al. | High quality Arabic text-to-speech synthesis using unit selection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |