KR102580559B1 - 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 - Google Patents
시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 Download PDFInfo
- Publication number
- KR102580559B1 KR102580559B1 KR1020210002716A KR20210002716A KR102580559B1 KR 102580559 B1 KR102580559 B1 KR 102580559B1 KR 1020210002716 A KR1020210002716 A KR 1020210002716A KR 20210002716 A KR20210002716 A KR 20210002716A KR 102580559 B1 KR102580559 B1 KR 102580559B1
- Authority
- KR
- South Korea
- Prior art keywords
- text
- information
- text block
- point information
- language
- Prior art date
Links
- 230000000007 visual effect Effects 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 36
- 238000013519 translation Methods 0.000 title description 18
- 230000015654 memory Effects 0.000 claims description 15
- 238000006243 chemical reaction Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 claims description 11
- 238000005516 engineering process Methods 0.000 description 18
- 238000003709 image segmentation Methods 0.000 description 18
- 230000014509 gene expression Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000012015 optical character recognition Methods 0.000 description 5
- 210000001747 pupil Anatomy 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 230000005236 sound signal Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000001771 impaired effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001737 promoting effect Effects 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 206010061296 Motor dysfunction Diseases 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000003128 head Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 239000010979 ruby Substances 0.000 description 1
- 229910001750 ruby Inorganic materials 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000015541 sensory perception of touch Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2203/00—Indexing scheme relating to G06F3/00 - G06F3/048
- G06F2203/038—Indexing scheme relating to G06F3/038
- G06F2203/0381—Multimodal input, i.e. interface arrangements enabling the user to issue commands by simultaneous use of input devices of different nature, e.g. voice plus gesture on digitizer
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20021—Dividing image into blocks, subimages or windows
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
시각적 정보를 이용한 통역 결과 제공 방법이 제공된다. 상기 방법은 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 단계; 상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하는 단계; 상기 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하는 단계; 상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계; 상기 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 단계; 및 상기 변환된 제2 언어 결과를 사용자에게 제공하는 단계를 포함한다.
Description
본 발명은 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 에 관한 것이다.
최근 다양한 시각적 장치의 성능 개발이 이루어짐에 따라, 통역 또는 번역 시스템에도 시각적 장치가 결합되어 활용되고 있다.
하지만, 종래 기술의 경우 시각적 장치가 사용자의 시야를 차단하기 때문에 그 사용이 제한되거나, 외부 환경 또는 사용자의 상태에 따른 사용성이 제한되는 문제가 있었다.
이러한 문제를 보완하기 위해, 청각이나 촉각을 이용한 사용자의 피드백을 활용하는 것을 검토할 수 있으나, 이 경우 발생되는 부분적인 오차 또는 부적절한 피드백으로 인한 부작용이 발생되는 문제가 있다.
본 발명이 해결하고자 하는 과제는 사용자가 응시하고 있는 응시지점 상의 텍스트를 인식하고, 응시지점에 상응하는 텍스트를 목표언어로 변환하여 사용자에게 청각적 형태로 제공하는, 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 제1 측면에 따른 시각적 정보를 이용한 통역 결과 제공 방법은 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 단계; 상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하는 단계; 상기 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하는 단계; 상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계; 및 상기 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 단계; 및 상기 변환된 제2 언어 결과를 사용자에게 제공하는 단계를 포함한다.
또한, 본 발명의 제2 측면에 따른 시각적 정보를 이용한 통역 결과 제공 장치는 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 시각정보 수신부, 상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하고, 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하며, 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록 중 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하고, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 시각정보 변환부 및 상기 변환된 제2 언어 결과를 사용자에게 제공하는 통역 결과 제공부를 포함한다.
또한, 본 발명의 제3 측면에 따른 시각적 정보를 이용한 통역 결과 제공 시스템은 외부 장치로부터 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 통신모듈, 상기 공간영역 영상 및 응시지점 정보에 기초하여 텍스트를 인식하고, 인식된 텍스트를 대상으로 통역 결과를 제공하기 위한 프로그램이 저장된 메모리 및 상기 메모리에 저장된 프로그램을 실행시킴에 따라, 상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하고, 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하며, 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록 중 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하고, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 프로세서를 포함한다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어와 결합되어 상기 시각적 정보를 이용한 통역 결과 제공 방법을 실행하며, 기록매체에 저장된다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상술한 본 발명의 일 실시예는, 사용자가 외국 여행시 이동하면서 바라보는 길거리 간판, 여행지 설명, 홍보 책자 등에서 사용자가 주목하는 텍스트를 인식하고 사용자의 모국어 음성으로 통역하여 제공함으로써 외국 여행 시의 언어적 편의를 제공할 수 있다.
특히, 간판이나 홍보용 책자, 표지 등의 경우 여러 그림과 함께 폰트의 종류와 크기, 텍스트 위치 등 다양한 디자인 요소를 사용하여 중요한 내용을 강조하는데, 이런 부분을 사람은 자연스럽게 포착하고 눈으로 주목하기에, 텍스트 인식과 통역에서는 불필요한 정보를 제외하고 사용자가 주목하는 부분만 인식 및 통역하여, 빠른 환경과 상황 파악에 도움을 줄 수 있다.
또한, 외국어 학습자나 사용자가 외국어로 된 텍스트를 읽을 때 잘 모르는 단어 또는 표현을 접할 경우 사전을 찾을 필요없이 해당 텍스트를 잠깐 더 주목하거나 손가락 또는 펜 등(아래 “손가락”으로 약칭 사용)으로 번역할 영역을 지정함으로써, 해당 문자열에 대한 목표언어 번역을 용이하게 획득할 수 있는바, 모르는 외국어 표현 출현으로 인한 불편함을 감소시킬 수 있다.
이와 더불어, 시각장애인의 경우 전맹인 사람은 약 5%로 소수이며, 눈을 뜨고 생활하는 것이 습관화된 후천성 시각장애인이 90% 이상이고 점자를 읽을 수 없는 사람도 90% 이상인 점을 고려하여, 시선 추적 기술을 통해 실생활에서 주목하고 있는 영역의 텍스트, 또는 읽고 있는 책자의 텍스트를 음성으로 제공할 수 있는바, 생활 편의에 큰 도움을 줄 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 통역 결과 제공 장치를 설명하기 위한 도면이다.
도 2a 내지 도 2d는 본 발명에 따른 통역 결과를 제공하기 위한 각 과정에서의 일 예시를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 시각적 정보를 이용한 통역 결과 제공 시스템을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 통역 결과 제공 방법의 순서도이다.
도 2a 내지 도 2d는 본 발명에 따른 통역 결과를 제공하기 위한 각 과정에서의 일 예시를 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 시각적 정보를 이용한 통역 결과 제공 시스템을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 통역 결과 제공 방법의 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 발명은 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템에 관한 것이다.
본 발명은 시각적 형태로 전달되는 문자열, 문장 및 텍스트를 대상으로, 표현에 사용된 언어(이하, 제1 언어라 한다)와 다른 목표언어(이하, 제2 언어라 한다)로 변환하는 것을 목적으로 한다.
본 발명은 헤드마운트형 또는 고글형, 안경형 등의 다양한 시선 추적 장치를 이용하여 사용자가 주목하는 텍스트를 사용자의 목표언어의 음성으로 통역하는 것을 목적으로 한다.
본 발명의 일 실시예를 구성하기 위해서는 부분적으로 다수의 기술들이 복합적으로 이용된다.
첫째로, 사용자의 시선 정보를 포함하는 공간영역 영상과, 그 공간영역 영상 내에서 사용자의 시선 정보에 상응하는 응시지점 정보를 생성하기 위한 응시지점 인식(Gaze position recognition) 기술을 이용한다.
둘째로, 공간영역 영상 내 사물이나 텍스트의 구간을 획득하기 위한 시각영역 분할(Image segmentation) 기술을 이용한다.
셋째로, 획득한 텍스트 구간 내 텍스트 이미지를 텍스트로 변환하는 광학 문자 인식(OCR; Optical Character Recognition) 기술을 이용한다.
넷째로, 제1 언어로 표현된 텍스트 데이터를 제2 언어로 변환하는 기계번역(Machine Translation) 기술을 이용한다.
그리고 마지막으로, 제2 언어로 변환된 텍스트를 음성 신호로 변환하는 TTS(Text-To-Speech) 기술 또는 음성 합성(Speech Synthesis) 기술을 이용한다.
이러한 기술들은 각각 관련 분야 전문가들을 통해 독립적으로 개선되어 왔다. 특히, 응시지점 인식 기술의 경우 착용형 기기(Wearable Device) 형식을 포함하여 공산품의 형태로 구현된 공지 기술이 존재하며, 광학 문자 인식 및 기계번역 기술, 음성 합성 기술은 개별 소프트웨어, 웹 서비스와 같은 형태로 구현된 공지 기술이 존재한다.
이들 선행기술의 일부를 부분 결합한 발명 역시 Word lens(Otavio Good 등 5인, 2010)와 같은 증강현실(AR; Augmented Reality) 응용 소프트웨어 형식을 통해 신문 및 방송 매체를 통해 공지된바 있다.
본 발명의 일 실시예는 상기 기술들이 단순 결합됨에 따라 발생하는 문제를 극복하기 위해 착안되었다. 이들의 문제점은 다음과 같다.
첫째, 외부의 카메라를 통해서 획득된 공간영역 영상과, 해당 영상에 오버레이(Overlay)된 방식으로 번역 결과를 제공하는 방식은 일반적으로 HMD(Head Mounted Display)와 같은 착용 가능한 화면 출력 장치를 필요로 한다. 이들 장치는 사용자의 시야를 부분적 또는 완전한 형태로 차단하기 때문에, 외부 활동시 사용하는데 제약이 따르기에 실내와 같은 제한된 영역에서 사용되어야 한다.
이러한 문제는 제1 언어를 제2 언어로 번역해야 하는 상황이 제한된 영역에서만 발생하지 않는다는데 있어 활용성을 저하시키게 되는 문제로 귀결된다. 아울러, 시각 장애를 겪고 있는 사용자에게는 시각적 피드백을 전송하지 못하는 추가적인 문제도 깊게 연관되어 있다.
둘째로, 응시 인지 기술은 안구 운동 장애(Ocular Motor Dysfunction)를 겪고 있는 사용자나, 적외선(IR; Infrared Ray) 센서의 교란(일 예로, 강한 태양빛이 조사되는 야외환경)과 같은 사용 환경상의 문제로, 특정 사용자 및 사용환경에서 사용상의 제한을 유발할 수 있다.
상기 두 문제점은 장치 특성에 의해 발생하는 문제점으로, 이를 극복하기 위한 대안으로 비-시각적 사용자 피드백(Non-visual User feedback)을 전달하는 것을 고려할 수 있다.
비시각적 사용자 피드백은 사람이 인지할 수 있는 오감(五感, five senses) 중 통상적으로 부호화된 표현(Symbolic representation; 단어, 글자 등 함축적인 의미를 포함할 수 있는 부호 및 부호열(sequences)을 의미한다)을 할 수 있는 청각(聽覺) 및 촉각(觸覺)을 사용하는 것이다. 이때, 촉각의 경우 텍스트와 같은 부호화된 표현의 인지를 위해서는 상당 기간 훈련을 전제로 하기 때문에 사용되기 어렵다. 따라서, 청각 등과 같은 방법을 통해 사용자 피드백을 할 필요가 있다.
하지만, 청각 등을 통한 사용자 피드백을 사용할 경우 부차적인 문제가 추가로 발생하게 된다. 즉, 마지막 세번째 문제는, 상기 두 문제점을 해결하는 과정에서 나타나는 종속적인 문제점으로, 사용자의 시선이 포함되어 있는 공간영역 영상 내 세부 텍스트는 그 구간에 따라서 별도의 의미를 포함할 수 있는데(일 예로, 길거리의 간판, 메뉴판 등), 응시 인지 기술과 비시각적 사용자 피드백을 사용함으로써 발생할 수 있는 부분적인 오차와 부적절한 사용자의 피드백은 사용자에게 돌이킬 수 없는 피해를 입힐 수 있다.
따라서, 청각적 피드백을 사용하면서 발생하는 부차적인 문제를 해소할 수 있는 방안이 필요하다.
본 발명의 일 실시예는 종래 기술의 조합에 따른 문제점을 해소하기 위한 것으로, 제1 언어로 표현되어 있는 시각적 정보를 제2 언어로 표현된 시각적 정보로 변환하는 대신, 제2 언어로 표현된 청각적 사용자 피드백으로 변환하여 사용자에게 전달하는 것을 목적으로 한다.
또한, 본 발명의 일 실시예는 변환 과정에서 발생할 수 있는 오류를 감소시키고, 청각적 피드백을 사용하면서도 시각적 피드백에 준하는 사용자 편의를 제공하는 것을 목적으로 한다.
이하에서는 도 1 내지 도 2d를 참조하여 본 발명의 일 실시예에 따른 시각적 정보를 이용한 통역 결과 제공 장치(100)를 설명하도록 한다.
도 1은 본 발명의 일 실시예에 따른 통역 결과 제공 장치(100)를 설명하기 위한 도면이다.
본 발명의 일 실시예에 따른 통역 결과 제공 장치(100)는 시각정보 수신부(110), 시각정보 변환부(120) 및 통역 결과 제공부(130)를 포함한다.
먼저, 시각정보 수신부(110)는 사용자의 시선 정보를 포함하는 공간영역 영상 및 공간영역 영상 내 응시지점 정보를 외부 장치로부터 획득한다. 여기에서, 응시지점 정보는 동공의 위치 센서의 결과를 통해 획득하는 것으로 응시 위치, 응시지점의 유지시간 정보를 포함할 수 있다.
본 발명의 일 실시예는 외부 장치로부터 사용자의 시선 정보를 포함하고 있는 공간영역 영상과, 공간영역 영상 내 응시지점(gaze position)을 획득하는데 있어 다양한 종래 기술을 활용할 수 있다.
대표적인 공간영역 영상 및 응시지점의 혼합 정보를 획득하는 선행기술의 실시예로는, 국내등록특허 제10-1564387호(발명의 명칭: 광 기준 신호의 지원을 받는 응시점의 검출) 등을 들 수 있다.
또한, 해당 특허 이외에도 동공의 윤곽(contour)을 획득하여 동공의 위치를 인식하기 위한 IR 센서와, 사용자의 시선이 위치하는 공간 영역을 획득하기 위한 카메라와 함께, 두 센서 및 장치를 통해 획득한 결과 및 정보를 처리할 수 있는 컴퓨터 또는 다른 주처리 장치(Main Processing Device or Module)로 전달하기 위한 유선 또는 무선 통신 모듈 등 최소 이 세가지 구성을 포함하는 장치 및 수단을 통해, 공간영역 영상 및 응시지점 정보를 획득하기 위한 목적을 달성할 수 있다.
한편, 시각정보 수신부(110)는 공간영역 영상을 수신하는 공간영역 영상 수신 모듈(111)과, 응시지점 정보를 수신하는 응시지점 정보 수신 모듈(112)을 포함하여 구성될 수 있다.
이와 같은 공간영역 영상 및 이에 상응하는 응시지점 정보는 시간을 기준으로 정렬되어 후술하는 시각정보 변환부(120)로 전달된다. 일 예로, 시각정보 수신부(110)는 공간영역 영상과 응시지점 정보가 수신된 시간을 인지하고 이를 정렬하기 위한 실시간 시계(Real time clock)를 사용하며, 주기억장치(RAM)를 사용하여 그 정보를 저장할 수 있다.
시각정보 변환부(120)는 시각정보 수신부(110)가 전달하는 시각정보를 중앙처리장치(CPU), 기억장치(RAM과 같은 휘발성 메모리, NAND/EEPROM 등과 같은 비휘발성 메모리 모두 포함) 기반에서 동작하는 처리 모듈(121, 122, 123)을 통해 시각정보를 텍스트나 이와 유사하게 부호화된 정보 형식으로 변환한다.
이러한 시각정보 변환부(120)는 신경망 기반의 영상 분할 및 객체 인식 모듈(121), 텍스트 선택 모듈(122) 및 기계 번역 모듈(123)을 포함하여 구성된다.
영상 분할 및 객체 인식 모듈(121)은 먼저, 공간영역 영상 수신 모듈에서 전달한 공간영역 영상을 수신하고, 공간영역 영상을 복수 개의 영상으로 분할한다.
영상 분할 및 객체 인식 모듈(121)은 획득한 공간영역 영상을 미리 학습된 신경망 알고리즘에 기초하여 복수 개의 영상으로 분할할 수 있으며, 분할된 영상 각각에 대하여 기 지정된 분류(class) 중 어느 하나의 개별 객체로 결정할 수 있다. 그리고 영상 분할 및 객체 인식 모듈(121)은 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지한다.
영상 분할 및 객체 인식 모듈(121)은 영상 분할(Image Segmentation)과 시각적 객체 인식(Visual Object Detection)을 위한 단일 또는 복수 개의 신경망 모델을 통해 구현되며, 이는 의미적 이미지 분할(Sementic Image Segmentation) 과정으로 명명되기도 한다.
이러한 신경망을 구현하는 세부적인 방법으로는 FCN(Fully Convolutional Network; Long, J et al., “Convolutional Networks for Semantic Segmentation”이나 DeepLab(Chen et el., “Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution and Fully Connected CRFs” 신경망 모델을 일 예로 들 수 있다.
영상 분할 및 객체 인식 모듈(121)에서 분할된 영상과 객체 인식 결과는 텍스트 선택 모듈(122)과 후술하는 시각적 특징 표현 생성 모듈(131)로 전달된다.
텍스트 선택 모듈(122)은 영상 분할 및 객체 인식 모듈(121)에서 탐지된 텍스트 영역과, 응시지점 정보 수신 모듈로부터 수신한 응시지점 정보를 조합하여, 현재 사용자가 응시 중인 텍스트를 선택한다.
구체적으로 텍스트 선택 모듈(122)은 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 생성된 텍스트 블록 중 응시지점 정보에 상응하는 텍스트 블록을 결정한다.
일 실시예로, 텍스트 선택 모듈(122)은 소정의 인접 구간 내에 연속하여 위치하는 텍스트 블록을 하나의 텍스트 블록으로 결합하고, 동일한 또는 인접된 텍스트 영역에 있지만 서로 다른 사이즈나 폰트의 텍스트 블록은 분리하며, 각 텍스트 블록 또는 결합된 텍스트 블록을 대상으로 고유번호(Unique ID)를 부여할 수 있다. 즉, 텍스트 선택 모듈(122)은 시각적 이미지로 표현된 텍스트를 구역화하여, 인접 구간의 연속한 이미지 구간 블록에 텍스트들이 표현되어 있을 경우 이를 하나로 결합하며, 각 구역에 대하여 고유번호를 부여한다.
또한, 텍스트 선택 모듈(122)은 이전 시각 정보에서 부여된 고유번호가 있는 경우, 시간의 흐름에 따라 사람의 고개 돌림, 움직임 등으로 인해 발생하는 변동을 추적하기 위해, 이전 시각 정보에서 부여된 고유번호에 상응하는 텍스트 블록의 크기, 형태에 따라 동일한 텍스트 블록임을 일정 시간동안 기억한다.
텍스트 선택 모듈(122)은 광학 문자 인식을 통해 각 텍스트 영역에 대한 텍스트를 인식할 수 있으며, 광학 문자 인식을 수행하기 위해 지도 학습(Supervised Learning) 기반의 기계학습 모델을 포함할 수 있다. 이는 컴퓨터의 중앙 처리 장치나 연산 가속 장치(Compute Acceleration Unit, 일 예로 벡터 연산 장치 또는 범용 그래픽 연산 장치) 및 메모리(RAM)를 통해 구동될 수 있다.
또한, 텍스트 선택 모듈(122)은 매 영상이 특정 주기(예를 들어 1/15초)로 전달되기 때문에, 매 영상에 대해 동일한 텍스트 블록인지 여부를 일관성있게 매핑하고, 이를 유지하는 처리를 수행할 수 있다.
텍스트 선택 모듈(122)은 텍스트 인식 결과인 텍스트 블록을 생성하고 나면, 구역화된 텍스트 블록 중에서 응시지점 정보에 가장 가까운 텍스트 블록을 선택할 수 있다. 이를 위해, 본 발명의 일 실시예는 직교 좌표계(Cartesian Coordinate System)를 사용하는 유클리드 공간(Euclidian Space) 하의 거리 연산을 수행한다. 연산을 하는데 있어, 사람의 동공 움직임의 특성상 그 위치 정보는 정확하게 일치하지 않을 수 있는데, 이러한 경우 주어진 텍스트 블록 중 가급적 가장 많이 일치하는 쪽을 우선 선택할 수 있다.
한편, 본 발명의 일 실시예는 텍스트 블록을 결정함에 있어 사용자의 손가락 또는 펜 등의 포인트 정보(이하, 포인트 정보)를 활용할 수 있다.
일 실시예로, 영상 분할 및 객체 인식 모듈(121)에서 공간영역 내 지점을 향하고 있는 응시지점 정보와 상이한 사용자의 포인트 정보를 탐지한 경우, 텍스트 선택 모듈(122)은 응시지점 정보와 무관하더라도, 사용자의 포인트 정보와 가장 가까운 블록을 선택하여 결정할 수 있다. 이는 특정한 환경적 요인으로 인해 명확한 응시 지점을 구별할 수 없을 경우를 대비하여, 손가락으로 가리키는 텍스트 블록을 우선 인식하기 위함이다.
만약, 응시지점 정보가 일정 시간동안 고정되지 않고 산발적으로 흔들리는 경우에는, 사용자의 포인트 정보를 이용할 것을 안내하는 메시지를 제공할 수 있다. 이러한 음성 피드백의 일 예로는, “응시 지점이 인식되지 못하고 있습니다. 손가락으로 원하는 위치를 가리켜 주십시오”와 같은 메시지가 전달될 수 있다.
또 다른 실시예로, 공간영역 영상 내에 사용자의 포인트 정보가 복수 개로 탐지되는 경우, 사용자에게 복수 개의 포인트 정보 중 하나의 포인트 정보만을 사용하도록 하는 피드백 정보를 제공할 수 있다. 일 예로, “개 이상의 손가락이 탐지되고 있습니다”와 같은 피드백 정보를 제공할 수 있다.
만약, 사용자의 포인트 정보가 동일한 텍스트 블록 내에서 일정한 시간동안 연속적으로 이동한 경우, 포인트 정보가 가르킨 텍스트 범위를 선택하여 하나의 독립된 사용자 지정 텍스트 블록으로 선택할 수 있다. 사용자 지정 텍스트 블록은 해당 블록이 속한 원 텍스트 블록 고유번호의 하위 번호를 가질 수 있다(예: 1-1). 일 실시 예로, 사용자가 외국어로 된 책을 읽을 경우, 번역이 필요한 부분에 밑줄 긋는 형식으로 손가락을 이동하면 해당 텍스트 블록내의 해당 부분을 독립된 사용자 지정 텍스트 블록으로 선택할 수 있다. 텍스트 선택 모듈(122)은 텍스트 블록이 결정됨에 따라 이를 문자열로 변환한 후 그 결과를 기계 번역 모듈(123)로 전달한다. 기계 번역 모듈(123)은 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환한다.
일 실시예로, 기계 번역 모듈(123)은 제1 언어 및 제2 언어 사이의 변환을 위한 규칙 및 어휘 사전 등의 지식에 기반한 규칙기반 자동번역(Rule-based Machine Translation; RBMT), 또는 제1 언어 및 제2 언어 사이의 어휘열 쌍 및 이에 대한 확률을 지식으로 갖는 통계 기반 자동 번역(Statistical Machine Translation; SMT) 및, 제1 언어로 구성된 입력을 추상화하는 인코더 신경망과 추상화된 벡터 표현을 기반으로 제2 언어의 어휘열을 생성하는 디코더 신경망으로 구성된 신경망 기반 자동 번역(Neural Machine Translation; MMT) 중 어느 하나 또는 그 복수 개를 앙상블(Ensemble)하여 최종적으로 제2 언어에 상응하는 어휘열을 획득하는 방식으로 번역을 수행하게 된다.
이후, 통역 결과 제공부(130)는 변환된 제2 언어 결과를 오디오 신호로 변환하고, 외부 장치로 연결된 스피커, 이어폰을 구성하는 진동판에 의해 사용자에게 제공된다. 이때, 통역 결과 제공부(130)는 스피커뿐만 아니라 디스플레이 장치 등 다양한 장치를 통한 다양한 형태로 제2 언어결과를 사용자에게 제공할 수 있다.
통역 결과 제공부(130)는 시각적 특징 표현 생성 모듈(131)과 음성 합성 모듈(132)을 포함하여 구성될 수 있다.
시각적 특징 표현 생성 모듈(131)은 영상 분할 및 객체 인식 모듈(121)과 텍스트 선택 모듈(122)의 출력 결과를 입력받는다.
이때, 영상 분할 및 객체 인식 모듈(121)은 개별 객체를 인식함에 있어 텍스트 인식 결과인 텍스트 블록을 기준으로 하는 개별 객체의 상대적인 위치 정보를 생성할 수 있다. 일 예로, 8개의 상대적인 위치 정보(우상, 상, 좌상, 우, 좌, 우하, 하, 좌하)를 기록할 수 있으며, 상대적인 위치정보를 시각적 특징 표현 생성 모듈(131)로 제공한다.
시각적 특징 표현 생성 모듈(131)은 각 객체의 상대적인 위치정보와, 분류 정보, 그리고 결정된 텍스트 블록 정보를 입력받아, 결정된 텍스트 블록에 상응하는 개별 객체의 상대적인 위치 정보를 제1 언어 또는 제2 언어로 구성된 텍스트로 생성한다.
이를 구현하는 일 예로, 인코더-디코더, 또는 동일 개념의 Sequence-to-Sequence(예를 들어, Bahdanau et al., 2014) 메커니즘을 갖는 신경망 모델(Neural Network Model)을 사용할 수 있다.
이러한 본 발명의 일 실시예는, 통상 종래기술로 볼 수 있는 이미지 캡션(Image Captioning) 문제처럼 화면 전체를 설명하는 텍스트를 생성해내는 것이 아닌, 지정된 텍스트 블록과의 연관 관계를 포함한 출력 텍스트를 생성한다는 점에서, 통상의 이미지 캡셔닝과 같은 이미지-텍스트 변환 문제와는 차이가 있다.
최종적으로, 음성 합성 모듈(132)은 결정된 텍스트 블록에 상응하는 개별 객체의 상대적인 위치 정보와 결정된 텍스트 블록에 대한 제2 언어를 오디오 신호로 변환하여 사용자에게 제공한다.
이와 같은 본 발명의 일 실시예는 종래기술 대비 다음과 같은 차이점을 갖는다.
먼저, 본 발명의 일 실시예는 텍스트 선택 모듈(122)이 영상 분할 및 객체 인식 모듈(121)과 응시지점 정보 수신 모듈의 출력을 입력으로 받아, 사용자가 응시하는 지점과 가장 가까이 위치한 텍스트 블록의 위치를 결정할 수 있으며, 이에 상응하는 텍스트를 제2 언어로 변환하여 사용자에게 제공할 수 있다.
또한, 텍스트 선택 모듈(122)은 영상 분할 및 객체 인식 모듈(121)의 출력 결과를 입력으로 받아 포인트 정보를 획득하여 이를 응시지점 정보의 대안으로 사용할 수 있는 것을 특징으로 한다.
이와 더불어, 본 발명의 일 실시예는 선택된 텍스트 블록의 번역 결과를 생성하고, 이를 사용자에게 피드백하기 위하여, 텍스트 선택 모듈(122)과 영상 분할 및 객체 인식 모듈(121)의 결과를 입력으로 받아, 선택된 텍스트 블록에 인접하는 요소와의 관계 및 시각적 특징을 텍스트로 출력하는 시각적 특징 표현 생성 모듈(131)을 포함하는 것을 특징으로 한다.
도 2a 내지 도 2d는 본 발명에 따른 통역 결과를 제공하기 위한 각 과정에서의 일 예시를 도시한 도면이다.
먼저 공간영역 영상 수신 모듈(111)은 도 2a와 같은 공간영역 영상을 수신하면, 영상 분할 및 객체 인식 모듈(121)에서는 공간영역 영상을 복수 개의 영상으로 분할하며, 각 분할된 영상에 대한 개별 객체를 인식한다. 또한 텍스트 선택 모듈(122)은 텍스트 인식 결과인 텍스트 블록을 생성한다. 도 2b는 분할된 영상과 개별 객체의 정보, 그리고 텍스트 블록 생성 결과를 도시한 것이다. 이때, 점선으로 표기된 사각형이 각각 텍스트 블록에 해당한다.
도 2c는 텍스트 선택 모듈(122)에 의해 텍스트 블록이 결합된 일 예시를 도시한 것으로, 소정의 인접 구간 내에 연속하여 위치하는 'STOP', 'DO', 'NOT', 'ENTER' 텍스트 블록을 하나의 텍스트 블록 'STOP DO NOT ENTER'로 결합한 것이다. 이와 같이 결합된 텍스트 블록에는 고유번호 [1]이 부여된다.
도 2c의 또 다른 실시예로, 인접 구간 내에 연속하여 위치하는 'STOP', 'DO', 'NOT', 'ENTER' 텍스트 블록을 그 텍스트를 구성하는 문자의 사이즈에 따라 'STOP'와 'DO NOT ENTER' 두 개 텍스트 블록으로 결합하고, 이에 각기 다른 고유번호를 부여할 수도 있다.
도 2d는 응시지점 정보가 결합된 예시를 도시한 것으로, 눈동자 모양은 해당 장면 내 시선이 탐지된 위치에 해당한다. 예시에서는 응시지점 정보에 따라 고유번호 [1]이 부여된 텍스트 블록이 선택된다. 만약, 복수 개의 텍스트 블록이 존재하는 경우, 응시지점 정보에 따라 2개 이상의 텍스트 블록이 선택될 수도 있다. 상기 텍스트는 기계 번역 모듈(123)에 의해 사용자의 모국어, 즉 제2 언어가 한국어인 경우 “정지. 들어가지 마시오”로 번역된다.
또한, 이러한 번역 결과는 시각적 특징 표현 생성 모듈(131)에 의해 어느 곳에 위치한 텍스트인지에 대한 상대적인 위치 정보가 함께 제공될 수 있다. 일 예로, “동물의 좌측, 도로의 하단 중앙에 기록되어 있는 내용은, 정지. 들어가지 마시오 입니다.”와 같이 생성된다.
이와 같이 생성된 각 결과는 음성 합성 모듈(132)로 전달되어 오디오 신호로 변환된 후 스피커를 통해 사용자에게 제공된다.
도 3은 본 발명의 일 실시예에 따른 시각적 정보를 이용한 통역 결과 제공 시스템(200)을 설명하기 위한 도면이다.
이때, 도 3에서 설명하는 통역 결과 제공 시스템(200)은 도 1의 통역 결과 제공 장치(100)에 의해 수행되는 기능을 모두 수행할 수 있는바, 구체적인 내용은 생략하도록 한다.
본 발명의 일 실시예에 따른 통역 결과 제공 시스템(200)은 통신모듈(210), 메모리(220), 프로세서(230) 및 스피커(240)를 포함한다.
통신모듈(210)은 외부 장치로부터 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득한다.
메모리(220)에는 공간영역 영상 및 응시지점 정보에 기초하여 텍스트를 인식하고, 인식된 텍스트를 대상으로 통역 결과를 제공하기 위한 프로그램이 저장된다.
프로세서(230)는 메모리(220)에 저장된 프로그램을 실행시킴에 따라, 획득한 공간영역 영상을 복수 개의 영상으로 분할하고, 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지한다. 그리고 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록 중 응시지점 정보에 상응하는 텍스트 블록을 결정하고, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환한다.
스피커(240)는 변환된 제2 언어 결과를 오디오 신호로 변환하여 사용자에게 제공한다.
이하에서는 도 4를 참조하여, 본 발명의 일 실시예에 따른 시각적 정보를 이용한 통역 결과 제공 방법을 설명하도록 한다.
도 4는 본 발명의 일 실시예에 따른 통역 결과 제공 방법의 순서도이다.
한편, 도 4에 도시된 각 단계는 도 1 또는 도 3에서 설명한 통역 결과 제공 장치(100) 및 시스템(200)에 의해 수행되는 것으로 이해될 수 있으나, 반드시 이에 한정되는 것은 아니다.
먼저, 사용자의 시선 정보를 포함하는 공간영역 영상 및 공간영역 영상 내 응시지점 정보를 획득한다(S110).
다음으로, 획득한 공간영역 영상을 복수 개의 영상으로 분할하고(S120), 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지한다(S130).
다음으로, 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 생성된 텍스트 블록 중 응시지점 정보에 상응하는 텍스트 블록을 결정한다(S140).
다음으로, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환한 후(S150), 변환된 제2 언어 결과를 사용자에게 제공한다(S160).
한편, 상술한 설명에서, 단계 S110 내지 S160은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 3의 내용은 도 4의 통역 결과 제공 방법에도 적용된다.
이상에서 전술한 본 발명의 일 실시예는, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 이미지를 저장하는 매체가 아니라 반영구적으로 이미지를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 이미지 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 통역 결과 제공 장치
110: 시각정보 수신부
120: 시각정보 변환부
130: 통역 결과 제공부
200: 통역 결과 제공 시스템
210: 통신모듈
220: 메모리
230: 프로세서
240: 스피커
110: 시각정보 수신부
120: 시각정보 변환부
130: 통역 결과 제공부
200: 통역 결과 제공 시스템
210: 통신모듈
220: 메모리
230: 프로세서
240: 스피커
Claims (20)
- 시각적 정보를 이용한 통역 결과 제공 장치에 의해 수행되는 방법에 있어서,
사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 단계;
상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하는 단계;
상기 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하는 단계;
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계;
상기 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 단계; 및
상기 변환된 제2 언어 결과를 사용자에게 제공하는 단계를 포함하고,
상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하는 단계는,
단일의 상기 공간영역 영상을 대상으로 기 지정된 분류(class) 중 어느 하나의 개별 객체로 결정 가능하도록 상기 복수 개의 영상으로 분할하는 단계; 및
상기 분할된 영상 각각에 대하여 결정된 개별 객체와 상기 텍스트 인식 결과인 텍스트 블록 간의 상대적인 위치 정보를 생성하는 단계를 포함하고,
상기 변환된 제2 언어 결과를 사용자에게 제공하는 단계는,
상기 변환된 제2 언어 결과에 상기 상대적인 위치 정보를 부가하여 사용자에게 제공하는 것인,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제1항에 있어서,
상기 공간영역 영상 및 이에 상응하는 응시지점 정보를 시간을 기준으로 정렬하는 단계를 더 포함하는,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제1항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
소정의 인접 구간 내에 연속하여 위치하는 텍스트 블록을 하나의 텍스트 블록으로 결합하는 단계; 및
상기 텍스트 블록 또는 결합된 텍스트 블록을 대상으로 고유번호를 부여하는 단계를 포함하는,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제3항에 있어서,
상기 소정의 인접 구간 내에 연속하여 위치하는 텍스트 블록을 하나의 텍스트 블록으로 결합하는 단계는,
동일 또는 상호 인접한 텍스트 영역에 위치하되 서로 다른 사이즈 및 폰트 중 적어도 하나를 갖는 텍스트 블록은 분리하는 단계를 포함하는,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제3항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
이전 시각 정보에서 부여된 고유번호에 상응하는 텍스트 블록을 일정 시간 동안 동일한 텍스트 블록으로 인식하는 단계를 더 포함하는,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제1항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
상기 생성된 텍스트 블록 중 상기 응시지점 정보에 가장 가까운 텍스트 블록을 선택하여 결정하는 것인,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제1항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
상기 응시지점 정보와 상이한 사용자의 포인트 정보가 있는 경우, 상기 포인트 정보와 가장 가까운 텍스트 블록을 선택하여 결정하는 것인,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제7항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
상기 사용자의 포인트 정보가 복수 개로 탐지되는 경우, 복수 개의 포인트 정보 중 하나의 포인트 정보만을 사용하도록 하는 피드백 정보를 제공하는 것인,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제7항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
상기 사용자의 포인트 정보가 동일한 텍스트 블록 내에서 일정한 시간동안 연속적으로 이동한 경우, 상기 포인트 정보가 가르킨 텍스트 범위를 하나의 독립된 사용자 지정 텍스트 블록으로 선택하여 결정하는 것인,
시각적 정보를 이용한 통역 결과 제공 방법.
- 제1항에 있어서,
상기 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록을 생성하고, 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하는 단계는,
상기 응시지점 정보가 일정 시간동안 고정되지 않고 산발적으로 흔들리는 경우, 사용자의 포인트 정보를 이용할 것을 안내하는 메시지를 제공하는 단계를 포함하는,
시각적 정보를 이용한 통역 결과 제공 방법.
- 삭제
- 삭제
- 시각적 정보를 이용한 통역 결과 제공 장치에 있어서,
사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 시각정보 수신부,
상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하고, 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하며, 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록 중 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하고, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 시각정보 변환부 및
상기 변환된 제2 언어 결과를 사용자에게 제공하는 통역 결과 제공부를 포함하되,
상기 시각정보 변환부는 단일의 상기 공간영역 영상을 대상으로 기 지정된 분류(class) 중 어느 하나의 개별 객체로 결정 가능하도록 상기 복수 개의 영상으로 분할하고, 상기 결정된 상대적인 위치 정보를 상기 제2 언어로 변환하고,
상기 통역 결과 제공부는 상기 분할된 영상 각각에 대하여 결정된 개별 객체와 상기 텍스트 인식 결과인 텍스트 블록 간의 상대적인 위치 정보를 생성하며, 상기 변환된 제2 언어 결과에 상기 상대적인 위치 정보를 부가하여 사용자에게 제공하는 것인,
시각적 정보를 이용한 통역 결과 제공 장치.
- 제13항에 있어서,
상기 시각정보 변환부는 소정의 인접 구간 내에 연속하여 위치하는 텍스트 블록을 하나의 텍스트 블록으로 결합하고, 상기 텍스트 블록 또는 결합된 텍스트 블록을 대상으로 고유번호를 부여하는 것인,
시각적 정보를 이용한 통역 결과 제공 장치.
- 제14항에 있어서,
상기 시각정보 변환부는 이전 시각 정보에서 부여된 고유번호에 상응하는 텍스트 블록을 일정 시간 동안 동일한 텍스트 블록으로 인식하는 것인,
시각적 정보를 이용한 통역 결과 제공 장치.
- 제13항에 있어서,
상기 시각정보 변환부는 상기 생성된 텍스트 블록 중 상기 응시지점 정보에 가장 가까운 텍스트 블록을 선택하여 결정하는 것인,
시각적 정보를 이용한 통역 결과 제공 장치.
- 제13항에 있어서,
상기 시각정보 변환부는
상기 응시지점 정보와 상이한 사용자의 포인트 정보가 있는 경우, 상기 포인트 정보와 가장 가까운 텍스트 블록을 선택하여 결정하는 것인,
시각적 정보를 이용한 통역 결과 제공 장치.
- 삭제
- 삭제
- 시각적 정보를 이용한 통역 결과 제공 시스템에 있어서,
외부 장치로부터 사용자의 시선 정보를 포함하는 공간영역 영상 및 상기 공간영역 영상 내 응시지점 정보를 획득하는 통신모듈,
상기 공간영역 영상 및 응시지점 정보에 기초하여 텍스트를 인식하고, 인식된 텍스트를 대상으로 통역 결과를 제공하기 위한 프로그램이 저장된 메모리,
상기 메모리에 저장된 프로그램을 실행시킴에 따라, 상기 획득한 공간영역 영상을 복수 개의 영상으로 분할하고, 분할된 영상 각각에 대하여 텍스트가 포함된 텍스트 영역을 탐지하며, 탐지된 각 텍스트 영역에 대한 텍스트 인식 결과인 텍스트 블록 중 상기 응시지점 정보에 상응하는 텍스트 블록을 결정하고, 결정된 텍스트 블록에 포함된 제1 언어를 목표언어인 제2 언어로 변환하는 프로세서 및
상기 변환된 제2 언어 결과를 사용자에게 제공하는 장치를 포함하되,
상기 프로세서는 단일의 상기 공간영역 영상을 대상으로 기 지정된 분류(class) 중 어느 하나의 개별 객체로 결정 가능하도록 상기 복수 개의 영상으로 분할하고, 상기 결정된 상대적인 위치 정보를 상기 제2 언어로 변환하고,
상기 분할된 영상 각각에 대하여 결정된 개별 객체와 상기 텍스트 인식 결과인 텍스트 블록 간의 상대적인 위치 정보를 생성하며, 상기 변환된 제2 언어 결과에 상기 상대적인 위치 정보를 부가하여 사용자에게 제공하는 것인,
시각적 정보를 이용한 통역 결과 제공 시스템.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210002716A KR102580559B1 (ko) | 2021-01-08 | 2021-01-08 | 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 |
US17/570,879 US20220222448A1 (en) | 2021-01-08 | 2022-01-07 | Method, apparatus, and system for providing interpretation result using visual information |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020210002716A KR102580559B1 (ko) | 2021-01-08 | 2021-01-08 | 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220100366A KR20220100366A (ko) | 2022-07-15 |
KR102580559B1 true KR102580559B1 (ko) | 2023-09-21 |
Family
ID=82322839
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210002716A KR102580559B1 (ko) | 2021-01-08 | 2021-01-08 | 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20220222448A1 (ko) |
KR (1) | KR102580559B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11500226B1 (en) * | 2019-09-26 | 2022-11-15 | Scott Phillip Muske | Viewing area management for smart glasses |
US20240219720A1 (en) * | 2022-12-29 | 2024-07-04 | Meta Platforms, Inc. | Reading Out Scene Analysis for Users Wearing Head-mounted Devices |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170186230A1 (en) * | 2015-12-23 | 2017-06-29 | Emily N. Ivers | Text functions in augmented reality |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9076033B1 (en) * | 2012-09-28 | 2015-07-07 | Google Inc. | Hand-triggered head-mounted photography |
US10133342B2 (en) * | 2013-02-14 | 2018-11-20 | Qualcomm Incorporated | Human-body-gesture-based region and volume selection for HMD |
US10139623B2 (en) * | 2013-06-18 | 2018-11-27 | Microsoft Technology Licensing, Llc | Virtual object orientation and visualization |
US9696798B2 (en) * | 2014-04-09 | 2017-07-04 | Lenovo Enterprise Solutions (Singapore) Pte. Ltd. | Eye gaze direction indicator |
CA3069173C (en) * | 2016-01-12 | 2023-05-02 | Esight Corp. | Language element vision augmentation methods and devices |
US10063560B2 (en) * | 2016-04-29 | 2018-08-28 | Microsoft Technology Licensing, Llc | Gaze-based authentication |
US10580213B2 (en) * | 2016-09-13 | 2020-03-03 | Magic Leap, Inc. | Systems and methods for sign language recognition |
KR20180087961A (ko) | 2017-01-26 | 2018-08-03 | 주식회사 펀웨이브 | 증강현실 번역 어플리케이션을 이용한 표지판 및 간판 번역 서비스 시스템 |
KR20190089627A (ko) * | 2018-01-23 | 2019-07-31 | 삼성전자주식회사 | Ar 서비스를 제공하는 디바이스 및 그 동작 방법 |
-
2021
- 2021-01-08 KR KR1020210002716A patent/KR102580559B1/ko active IP Right Grant
-
2022
- 2022-01-07 US US17/570,879 patent/US20220222448A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170186230A1 (en) * | 2015-12-23 | 2017-06-29 | Emily N. Ivers | Text functions in augmented reality |
Non-Patent Citations (2)
Title |
---|
Bylinskii, Zoya, et al., Where should saliency models look next?, Computer Vision-ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016* |
Lin, Han, Peng Yang, and Fanlong Zhang., Review of scene text detection and recognition., Archives of computational methods in engineering 27.2, 2020* |
Also Published As
Publication number | Publication date |
---|---|
US20220222448A1 (en) | 2022-07-14 |
KR20220100366A (ko) | 2022-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11747618B2 (en) | Systems and methods for sign language recognition | |
US11423909B2 (en) | Word flow annotation | |
US8793118B2 (en) | Adaptive multimodal communication assist system | |
KR102449875B1 (ko) | 음성 신호 번역 방법 및 그에 따른 전자 장치 | |
KR20190094315A (ko) | 스타일을 고려하여 텍스트와 음성을 상호 변환하는 인공 지능 장치 및 그 방법 | |
US11556302B2 (en) | Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium | |
KR20210039049A (ko) | 음성 인식을 수행하는 인공 지능 장치 및 그 방법 | |
KR20190110072A (ko) | 사용자의 음성을 인식하는 인공 지능 장치 및 그 방법 | |
WO2015059976A1 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
RU2684475C2 (ru) | Изменение визуального контента для содействия усовершенствованному распознаванию речи | |
KR102580559B1 (ko) | 시각적 정보를 이용한 통역 결과 제공 방법, 장치 및 시스템 | |
US9028255B2 (en) | Method and system for acquisition of literacy | |
KR20190067638A (ko) | 음성 인식 장치 및 그 동작 방법 | |
CN113642536B (zh) | 数据处理方法、计算机设备以及可读存储介质 | |
KR102148021B1 (ko) | 딥러닝 텍스트 탐지 기술을 활용한 실생활 영상 속의 정보 검색 방법 및 그 장치 | |
KR20150021283A (ko) | 스마트 안경을 이용한 외국어 학습 시스템 및 방법 | |
Bhat et al. | Vision sensory substitution to aid the blind in reading and object recognition | |
US20210337274A1 (en) | Artificial intelligence apparatus and method for providing visual information | |
Bin Munir et al. | A machine learning based sign language interpretation system for communication with deaf-mute people | |
Alam et al. | A machine learning based sign language interpretation system for communication with deaf-mute people | |
FEYERA | A MASTER’S THESIS | |
CN117648413A (zh) | 一种文本信息处理方法及装置 | |
CHARISHMA et al. | Review of Android Based Portable Sign and Text Recognition System | |
JP2019203922A (ja) | 音声処理装置及び音声処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |