KR101483191B1

KR101483191B1 - 대화형 서비스를 제공하는 장치 및 방법 그리고, 서버

Info

Publication number: KR101483191B1
Application number: KR20120133219A
Authority: KR
Inventors: 성주원; 장두성
Original assignee: 주식회사 케이티
Priority date: 2012-11-22
Filing date: 2012-11-22
Publication date: 2015-01-15
Also published as: KR20140066025A; US9456254B2; US20140143809A1

Abstract

TV 디바이스는 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신하는 사용자 입력 수신부, 입력된 제 1 입력 및 입력된 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정하는 사용자 의도 해석부, TV 디바이스가 제공하는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정하는 응답 텍스트 결정부, 결정된 응답 텍스트를 TV 디바이스의 디스플레이에 표시하는 표시부를 포함한다.

Description

대화형 서비스를 제공하는 장치 및 방법 그리고, 서버{APPARATUS AND METHOD FOR PROVIDING CONVERSATION SERVICE AND, SERVER}

대화형 서비스를 제공하는 장치 및 방법 그리고, 서버에 관한 것이다.

IPTV는 인터넷을 이용해 정보서비스, 영화 및 방송 등을 TV로 제공하는 서비스를 의미한다. IPTV를 이용하기 위해서는 TV와 함께 인터넷이 연결된 셋탑박스가 필요하다. 이러한 IPTV는 컴퓨터에 익숙하지 않은 사람이라도 리모컨을 이용하여 간단하게 인터넷 검색은 물론 영화감상, 홈쇼핑, 온라인 게임 등 인터넷이 제공하는 다양한 콘텐츠 및 부가 서비스를 제공받을 수 있다. 또한, IPTV는 기존의 TV와는 달리 양방향성 이라는 특징을 갖고 있으며, 이러한 양방향성은 시청자가 자신이 편리한 시간에 자신이 보고 싶은 프로그램만을 시청 하는 등의 다양한 형태의 서비스 도출을 가능하게 한다. TV 단말의 양방향성과 관련하여 한국공개특허 제2005-0007367호에는 대화식 콘텐츠 추천기의 구성이 개시되어 있다.

한편, IPTV가 지능화되고, TV를 통해 할 수 있는 일이 실시간 방송 시청 이외에도 매우 다양해지고 있어, 시청자들은 다양한 기능을 모두 기억하고, 사용해야 하는 어려움이 있다. 또한, IPTV의 다양한 기능을 기존의 리모트 컨트롤러의 버튼이나 메뉴만으로 한번에 선택하기는 어려움이 따른다.

IPTV 등의 지능형 TV를 사용하는 방법에 있어서, 기존의 리모트 컨트롤러의 버튼 및 메뉴의 선택을 통해 제어하는 방법을 대체하고자 한다. 웹 서비스를 호출하고, 미디어 콘텐츠를 검색하는 등의 여러 가지 TV 서비스를 제공하고자 한다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신하는 사용자 입력 수신부, 입력된 제 1 입력 및 입력된 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정하는 사용자 의도 해석부, TV 디바이스가 제공하는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정하는 응답 텍스트 결정보 및 결정된 응답 텍스트를 TV 디바이스의 디스플레이에 표시하는 표시부를 포함하는 TV 디바이스를 제공할 수 있다.

또한, 본 발명의 다른 실시예에 있어서, 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하는 단계, 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신하는 단계, 입력된 제 1 입력 및 입력된 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정하는 단계, TV 디바이스가 제공하는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정하는 단계, 결정된 응답 텍스트를 TV 디바이스의 디스플레이에 표시하는 단계를 포함하는 표시 방법을 제공할 수 있다.

또한, 본 발명의 다른 실시예에 있어서, 복수의 디바이스 중 제 1 디바이스를 통해 사용자의 음석인 제 1 입력을 수신하고, 복수의 디바이스 중 제 2 디바이스를 통해 사용자의 제 2 입력을 수신하는 입력 수신부, 입력된 제 1 입력 및 입력된 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정하는 사용자 의도 해석부, 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정하는 응답 텍스트 결정부, 결정된 응답 텍스트를 복수의 디바이스 중 어느 하나의 디바이스에 전송하는 전송부를 포함하는 대화 서비스 제공 서버를 제공할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 기존의 리모트 컨트롤러의 버튼 및 메뉴 선택과 병행하여 TV와 대화를 주고 받으면서, TV에서 제공하는 VOD, 실시간 방송, 위성 방송 등의 미디어 콘텐츠를 검색 및 재생, TV 쇼핑 또는, 게임 등과 같은 TV 어플리케이션 및 웹 서비스를 포함하는 다양한 기능을 제공할 수 있다. 멀티 모달 입출력 방식을 통해 TV에게 사용자의 의도를 전달하고, TV는 사용자의 의도를 해석하여 사용자에게 답신을 전달하는 방식으로 사용자의 의도를 파악하여 사용자의 의도에 부합하는 결과를 제공할 수 있다.

도 1은 본 발명의 일 실시예에 따른 대화 서비스 제공 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 도 1에 도시된 TV 디바이스의 구성도이다
도 3은 본 발명의 일 실시예에 따른 도 2에 도시된 응답 텍스트 결정부의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 응답 텍스트를 제공하는 일 예를 나타내는 도면이다.
도 5는 본 발명의 일 실시예에 따른 응답 텍스를 제공하는 방식의 일 예를 나타내는 도면이다.
도 6은 본 발명의 일 실시예에 따른 응답 텍스트를 표시하는 방법을 나타내는 동작 흐름도이다.
도 7은 본 발명의 다른 실시예에 따른 도 1에 도시된 대화 서비스 제공 서버의 구성도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시예에 따른 대화 서비스 제공 시스템의 구성도이다. 도 1을 참조하면 대화 서비스 제공 시스템은 TV 디바이스(10) 및 모바일 디바이스를 포함한다. 다른 실시예에서, 대화 서비스 제공 시스템은 TV 디바이스(10), 모바일 디바이스 및 대화 서비스 제공 서버(20)을 더 포함할 수 있다.

모바일 디바이스는 네트워크를 통해 원격지의 서버에 접속할 수 있는 휴대용 단말기로 구현될 수 있다. 여기서 휴대용 단말기는 휴대성과 이동성이 보장되는 이동 통신 장치로서, 예를 들면, PCS(Personal Communication System), GSM(Global System for Mobile communication), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(Smartphone), 스마트패드(SmartPad), 태블릿 PC등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다. 다만 도 1에 개시된 모바일 디바이스의 형태는 설명의 편의를 위해 예시된 것에 불과하므로, 본원에서 이야기하는 모바일 디바이스의 종류 및 형태가 도 1에 도시된 것으로 한정 해석되는 것은 아니다. 그리고, 모바일 디바이스는 일반 적외선 리모트 컨트롤러에 무선 통신 모듈, 키패드, 모션인식, 스크린 또는 터치패드 등의 확장된 사용자 인터페이스가 장착된 리모트 컨트롤러를 더 포함할 수 있다.

TV 디바이스(10)는 방송 영상 및 광고 영상을 표시하는 장치로써, TV 스마트TV, IPTV, PC와 연결된 모니터 및 TV와 연결된 셋탑박스와 같은 방송 영상을 표시할 수 있는 장치를 포함한다. 그리고, 이러한 셋탑박스와 같은 장치는 TV 장치의 내부에 포함될 수 있으며, 외부 장치로서 TV 장치에 연결될 수 있다.

TV 디바이스(10)는 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력 및 제 2 인터페이스를 통해 제 2 입력을 수신할 수 있다. 일 예로, TV 디바이스는(10)는 마이크를 통해 사용자의 음성을 입력받고, 리모트 컨트롤러를 통해 소정 메뉴를 선택하는 입력을 수신할 수 있다.

TV 디바이스(10)는 입력된 제 1 입력 및 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정할 수 있다. 예를 들면, TV 디바이스(10)는 "음식" 이라고 입력된 사용자의 음성 입력 및 리모트 컨트롤러를 통해 선택된 검색 메뉴를 선택하는 입력에 기초하여 "가까운 맛집을 표시할까요?" 라는 질의 텍스트를 결정할 수 있다.

TV 디바이스(10)는 TV 디바이스(10)가 제공하는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정할 수 있다. 예를 들어, TV 디바이스(10)는 질의 텍스트와 관련된 소정 콘텐츠의 검색, 추천 및 TV 디바이스(10)의 제어 등의 TV 디바이스(10)가 제공하는 기능 별로 응답 텍스트를 결정할 수 있다.

TV 디바이스(10)는 결정된 응답 텍스트를 디스플레이에 표시할 수 있다. 예를 들면, TV 디바이스(10)는 콘텐츠의 검색과 관련된 응답 텍스트를 디스플레이에 표시할 수 있다.

이와 같은 TV 디바이스(10)의 동작에 대해서는 도 2에서 자세히 설명된다.

대화 서비스 제공 서버(20)는 제 1 디바이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 제 2 디바이스를 통해 사용자의 제 2 입력을 수신할 수 있다. 일 예로, 대화 서비스 제공 서버(20)는 사용자의 스마트폰으로부터 음성입력을 수신하고, IPTV로부터 소정 메뉴를 선택하는 입력을 수신할 수 있다

대화 서비스 제공 서버(20)는 수신된 제 1 입력 및 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정하고, 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정할 수 있다.

그리고, 대화 서비스 제공 서버(20)는 결정된 응답 텍스트를 복수의 디바이스 중 어느 하나의 디바이스에 전송할 수 있다.

이와 같은 대화 서비스 제공 서버(20)의 동작에 대해서는 이하 도 7에서 다시 설명된다.

도 2는 본 발명의 일 실시예에 따른 도 1에 도시된 TV 디바이스(10)의 구성도이다. 도 2를 참조하면, TV 디바이스(10)는 사용자 입력 수신부(11), 사용자 의도 해석부(12), 응답 텍스트 결정부(13), 표시부(14), 표시 방식 결정부(15) 및 출력부(16)를 포함한다.

사용자 입력 수신부(11)는 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신한다. 예를 들면, 사용자 입력 수신부(11)는 사용자의 스마트폰으로부터 사용자의 음성을 수신하고, 사용자의 리모트 컨트롤러로부터 제스쳐, 텍스트, 메뉴 선택 등의 입력을 수신할 수 있다.

사용자 입력 수신부(11)는 제 1 입력의 유형과 내용을 포함하는 제 1 입력의 결과 데이터 및 제 2 입력의 유형과 내용을 포함하는 제 2 입력의 결과 데이터를 생성할 수 있다. 이 때, 제 1 입력의 유형은 음성 유형이고, 제 2 입력의 유형은 제스쳐 유형, 텍스트 유형, 포인터 유형 또는 메뉴 선택 유형 중 어느 하나일 수 있으며, 리모트 컨트롤러의 버튼을 선택하는 경우도 포함한다. 예를 들어, 사용자 입력 수신부(11)는 음성 유형의 입력에 대하여 {type=음성, 내용="일식"}, {type=음성, 내용="오늘 날씨"} 및 {type=음성, 내용="서태지"}와 같은 결과 데이터를 생성하고, 리모트 콘트롤러의 제스쳐 유형의 입력에 대하여 {type=제스쳐, 내용="볼륨업 2단계"}와 같은 결과 데이터를 생성할 수 있다. TV 디바이스(10)의 전원을 켜는 입력에 대해서도 {Type=implicit, 내용="Power On"}와 같은 결과 데이터를 생성할 수 있다

사용자 의도 해석부(12)는 입력된 제 1 입력 및 입력된 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정한다. 예를 들면, 사용자 의도 해석부(12)는 수신된 입력에 기초하여 "한영희에 대해 어떻게 생각해?", "웹 검색을 한번 해보시겠습니까?", 하루 종일 비가 올 예정입니다. 비와 관련된 음악들 입니다.", "가까운 맛집을 보여드릴까요?", "500개의 콘텐츠가 검색되었습니다. 인물이나 주제를 추가 선택할 수 있습니다." 또는, "내일은 광복절, 관련 추천 목록이 업데이트 되었습니다," 등의 질의 텍스트를 결정할 수 있다.

사용자 의도 해석부(12)는 입력된 제 1 입력 및 제 2 입력 중 적어도 하나 이상과 의도 해석 정보에 기초하여 질의 텍스트를 결정할 수 있다. 의도 해석 정보는 현재시간, TV 디바이스(10)의 위치, 현재날씨, 사용자의 이전 입력, TV 디바이스(10)의 이전 응답 및 TV 디바이스(10)에서 이전에 실행된 기능, 현재 TV 디바이스(10)의 상태 중 적어도 하나 이상에 관한 정보를 포함할 수 있다. 예를 들어, 사용자 의도 해석부(12)는 현재의 시간, 위치 및 날씨 등이 포함된 상황정보, 사용자의 이전 발화, 시스템의 이전 응답 및 수행한 기능의 목록이 포함된 히스토리, 현재 TV 디바이스(10)의 상태 등의 의도 해석 정보에 기초하여 질의 텍스트를 결정할 수 있다. 이 때, TV 디바이스(10)의 상태는 현재 TV 디바이스(10)가 켜져 있는 상태인가, 켜진지 얼마나 되었는가, TV 디바이스(10)를 통해 어떤 프로그램을 시청 중인가, 초기 메뉴 상태인가, 현재 시청 중인 채널이 몇 시간째 같은 채널인가, 또는 사용자의 마지막 TV 제어 신호가 입력된지 얼마나 지났는가 등이 될 수 있다.

다른 예를 들면, {type=음성, 내용="액션 영화"}의 입력은 {Category="영화", 장르="액션"}으로, {type=제스쳐, 내용="볼륨업 2단계"}의 입력은 {action="Volume UP", Level=2}와 같이 사용자의 의도를 해석할 수 있다. 그리고, 특정 메뉴 화면에 일정시간 이상 고정시켜 놓는 등의 상황정보의 경우, {action=Implicit, Context="Idel-status"}와 같이 사용자의 의도를 해석할 수 있다. {type=음성, 내용="서태지"}의 입력의 이전에 "영화를 찾아줘" 또는 "어떤 영화를 찾으시나요"와 같은 대화가 있는 경우, {person="서태지"}가 아닌 {action="search", category="영화", person="서태지"}와 같이 사용자의 의도를 해석할 수 있다.

응답 텍스트 결정부(13)는 TV 디바이스(10)가 제공하는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정한다. 일 예로, 응답 텍스트 결정부(13)는 해석된 사용자의 의도에 대응하기 위해 현재 IPTV에서 제공되는 기능 목록에서 필요한 하나 이상의 TV 기능 영역을 추론하고, 그 의도가 불확실하거나 정보가 부족한 경우, 사용자의 의도를 다시 물어볼 것인지, 가장 근접한 기능을 결정하고, 이에 대한 세부 수행 결과를 제시할 것인지 판단할 수 있다. 그리고, 응답 텍스트 결정부(13)는 각 기능 영역을 담당하는 기능별 에이전트를 순차적 또는, 병렬적으로 호출하여 각 기능에 대한 수행 결과와 대응하는 응답 정보를 에이전트로부터 수신하고, 수행 결과와 응답 정보에 기초하여 통합된 수행 결과 및 자연어 응답을 구성할 수 있다.

TV 디바이스가 제공하는 기능은 소정 콘텐츠의 검색, 소정 콘텐츠의 추천, 소정 콘텐츠의 재생, 관련된 서비스의 추천, 쇼핑 어플리케이션 호출, 광고 표시, 웹 페이지의 검색, 채팅 또는 지도 검색 등의 관련된 서비스로의 연결 중 적어도 하나 이상을 포함할 수 있다. 다만, TV 디바이스가 제공하는 기능이 앞서 예시된 것들로 한정되는 것은 아니다.

이와 같은 응답 텍스트 결정부(13)의 동작에 대해서는 아래에서 자세히 설명된다.

도 3은 본 발명의 일 실시예에 다른 도 2에 도시된 응답 텍스트 결정부(13)의 구성도이다. 도 3을 참조하면, 응답 텍스트 결정부(13)는 기능 에이전트 선택부(131), 기능 에이전트 연동부(132), 결정부(133)를 포함한다.

기능 에이전트 선택부(131)는 결정된 질의 텍스트에 기초하여 TV 디바이스(10)가 제공하는 복수의 기능 에이전트(17) 중 질의 텍스트와 연관된 적어도 하나 이상의 기능 에이전트(17)를 선택할 수 있다. 예를 들어, 기능 에이전트 선택부(131)는 {action="search", category="영화", person="서태지"}라는 사용자 의도를 VOD 및 채널 검색 기능 에이전트, {action="volume up", level=2}라는 사용자 의도를 기기 제어 기능 에이전트 그리고, {action=implicit, context="idle=status"}라는 사용자의 의도를 광고 기능 에이전트로 선택할 수 있다. 또는, 에이전트 선택부(131)는 {date="오늘", category="날씨"}라는 사용자 의도에 대하여 날씨정보 기능 에이전트와 VOD 및 채널 검색 기능 에이전트의 순차 수행이 필요함을 결정할 수 있고, {topic="일식"}에 대하여 VOD 및 채널 검색 기능 에이전트, 지역 검색 기능 에이전트 및 TV 쇼핑 기능 에이전트의 병렬 수행이 필요함을 결정할 수도 있다.

다른 예를 들면, 기능 에이전트 선택부(131)는 사용자가 주도하는 형태의 질문, 제어 명령문에 대한 명령 수행 및 응답 대화를 제공할 수 있고, 초기 접속 단계 또는, 사용자의 입력이 없는 idle 상태에서 광고 제공 기능을 결정할 수도 있다. 이 밖에, 상황 정보, 히스토리 정보 등을 이용하여 사용자의 입력 정보가 적은 상황에서도 사용자 입력에 대응하는 기능 에이전트를 결정할 수 있다.

기능 에이전트 연동부(132)는 선택된 적어도 하나 이상의 기능 에이전트(17) 중 제 1 기능 에이전트(171)로부터 제 1 응답 텍스트를 수신하고, 제 2 기능 에이전트(172)로부터 제 2 응답 텍스트를 수신할 수 있다. 이 때, 기능 에이전트(17)는 TV 디바이스(10)가 제공하는 적어도 하나 이상 기능의 제어가 가능하다.

예를 들어, 제 1 기능 에이전트(171)는 {topic="일식"} 라는 입력에 기초하여 소정 지역을 검색할 수 있고, {topic="일식"}이라는 사용자 입력을 {category="일식집", action="search", location="서초구"}와 같이 추가 해석하여 {NofResult=2, {result={#food_13012, #food_11015}}라는 결과를 생성할 수 있다.

제 2 기능 에이전트(172)는 {Action="Search", Category="일식집", Person="서태지"}라는 사용자 입력에 기초하여 VOD 및 방송 채널을 검색할 수 있고, 검색 결과에 기초하여 {NofResult=0, Result={}}라는 결과를 생성할 수 있다. 또는, 제 2 기능 에이전트(172)는 세부 추론 및 생성된 응답 정보에 기초하여 {NextAction="연관검색어추천(이지아)"}를 생성된 결과에 추가할 수도 있다.

또는, 제 2 기능 에이전트(172)는 {Action=implicit, Context="idle-status"}라는 사용자 입력에 대하여 광고를 결정하고, 사용자가 타깃광고 대상인지 여부, 사용자의 성향 및 사업자의 정책 등을 고려하여 표시할 광고를 결정할 수도 있다.

다시 말하면, 앞서 설명된 제 1 기능 에이전트(171) 및 제 2 기능 에이전트 (172)는 의도 해석 결과를 히스토리 또는, 상황 정보 등을 바탕으로 사용자 입력에 대하여 각 기능에서만 적용되는 영역 지식을 반영하여 추가적인 의미 추론을 할 수 있고, 각 기능에 특성화된 기능을 수행할 수도 있다. 또한, 기능 수행의 결과를 바탕으로 기능 내에서 추가적인 실행 절차 등을 판단하여 응답 텍스트를 생성할 수도 있다. 그리고, 복수의 기능이 순차적으로 수행되어야 하는 경우, 제 1 기능 에이전트(171)에서 생성된 제 1 응답 텍스트를 제 2 기능 에이전트(172)가 참조하여 제 2 응답 텍스트를 생성할 수 있다.

그리고, 기능 에이전트 연동부(132)는 복수의 기능 에이전트(17)들 각각으로부터 생성된 응답 텍스트를 수신할 수 있다.

결정부(133)는 생성된 제 1 응답 텍스트 및 제 2 텍스트를 포함하는 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 결정할 수 있다. 예를 들면, 결정부(133)는 {Topic="일식"}으로 해석된 사용자 입력에 대한 지역 검색 기능에 대응하여 {NofResult=2, Result={#FOOD_13012, #FOOD_11015}, NextAction="전화 연결하기 (#FOOD_13012)"}라는 응답 텍스트를 결정하고, VOD 채널 검색 기능에 대응하여 {NofResult=121, Result={#VOD_87011, #CH12_00011,....}를 결정하고, TV 쇼핑 기능에 대응하여 {NofResult=4, Result={#SHOP_00012,....}를 결정할 수 있다. 결정부(133)는 결과의 신뢰도, 기능 간의 우선 순위 등을 고려하여 {SystemAct="Specify", Response="일식으로 VOD검색, TV쇼핑, 지역검색이 가능합니다. 어떤 것을 하시겠습니까?"}와 같은 응답 텍스트를 결정할 수 있고, {SystemAct="Broking", Response="근처에 일식집 "동해바다"가 있습니다. [[전화연결하기:#FOOD_13012]], [[지역검색하기]], [[VOD검색]], [[TV쇼핑]]"}와 같이 지역 검색 결과를 제공하면서, 다른 가능한 응답들을 같이 제공하는 응답 텍스트를 결정할 수도 있다. 결정된 응답 텍스트는 시스템의 의도, 통합된 응답 문장, 통합된 결과 정보가 더 포함될 수 있다.

표시부(14)는 결정된 응답 텍스트를 TV 디바이스(10)의 디스플레이에 표시할 수 있다. 예를 들면, 표시부(14)는 결정된 응답 텍스트 또는, 자연어 응답을 디스플레이에 표시할 수 있다.

표시부(14)는 표시 방식 결정부(15)가 어느 하나의 출력 방식을 결정한 경우, 결정된 출력 방식에 기초하여 응답 텍스트를 TV 디바이스(10)의 디스플레이에 표시할 수 있다. 예를 들어, 표시 방식 결정부(15)가 팝업 출력 방식으로 출력 방식을 결정한 경우, 표시부(14)는 결정된 응답 텍스트를 IPTV의 디스플레이에 팝업 출력 방식으로 표시할 수 있다. 표시부(14)는 이 밖에 다양한 출력 방식을 통해 응답 텍스트를 표시할 수 있다.

표시부(14)는 결정된 질의 텍스트를 디스플레이의 제 1 영역에 표시하고, 응답 텍스트를 디스플레이의 제 2 영역에 표시할 수 있다. 예를 들면, 표시부(14)는 "일식으로 VOD검색, TV쇼핑, 지역검색이 가능합니다. 어떤 것을 하시겠습니까?" 라는 질의 텍스트를 디스플레이의 제 1 영역에 표시하고, 검색 결과를 나타내는 응답 메시지를 디스플레이의 제 2 영역에 표시할 수 있다.

표시 방식 결정부(15)는 응답 텍스트를 출력하는 방식들 중 어느 하나의 출력 방식을 결정한다. 응답 텍스트를 출력하는 방식은 전체 화면 출력 방식, 팝업(Pop-up) 출력 방식, 안내바 출력 방식, 아바타 출력 방식, 음성 출력 방식, 슬라이딩 출력 방식, 강조 출력 방식 또는, 모바일 디바이스 출력 방식 중 어느 하나일 수 있다.

출력부(16)는 적어도 하나 이상의 출력 인터페이스를 통해 결정된 응답 텍스트에 대응하는 신호를 출력할 수 있다. 예를 들어, 결정된 응답 텍스트가 음성 신호인 경우, 음성 합성을 통해 음성으로 출력할 수 있다.

출력부(16)는 적어도 하나 이상의 모바일 디바이스를 통해 결정된 응답 텍스트에 대응하는 신호를 출력할 수 있다. 일 예로, 출력부(16)는 결정된 응답 텍스트를 음성 합성을 통해 사용자의 스마트폰으로 전송하고, 스마트폰을 통해 결정된 응답 텍스트를 출력할 수도 있다.

다른 실시예에서, 대화에 기반하여 TV 디바이스(10)를 이용하기 위해 도 8과 같이 메타 대화 에이전트 및 기능별 대화 에이전트를 구성할 수도 있다.

도 8은 본 발명의 다른 실시예에 따른 TV 디바이스(10)의 구성도이다. 도 8은 도 2에서 설명되는 TV 디바이스(10)의 다른 실시예에 따른 구성도를 나타낸다. 따라서, 도 2에서 설명된 TV 디바이스(10)에 대한 설명은 도 8에도 적용된다. 도 8을 참조하면, TV 디바이스(10)는 메타 대화 에이전트(81) 및 기능별 대화 에이전트(82)를 포함한다.

메타 대화 에이전트(81)는 입력된 멀티 모달 입력을 해석 및 추론하여 대응하는 대화 응답과 기능 수행 결과를 제공할 수 있다. 여기서, 멀티 모달 입력은 리모트 컨트롤러 또는 스마트폰 등의 다양한 디바이스를 통해 음성, 제스쳐, 텍스트 등의 다양한 형태로 입력되는 사용자 입력이 될 수 있다.

메타 대화 에이전트(81)는 입수된 멀티 모달 입력과 현재의 시간, 위치, 날씨 및 현재 TV 디바이스의 상태 등이 포함된 상황정보로부터, 사용자의 이전 발화, 시스템의 이전 응답 및 수행한 기능목록이 포함된 대화 히스토리를 참조하여, 현재 입력된 사용자의 의도를 해석하는 사용자 의도 해석 모듈(811), 해석된 사용자의 의도에 대응하기 위해 필요한 하나 이상의 TV 기능영역을 추론하고, 그 의도가 불확실하거나 정보가 부족할 때, 사용자의 의도를 다시 물어볼 것인지, 가장 근접한 영역을 선정하여 이에 대한 세부수행 결과를 제시할 것인지를 판단하는 대화영역추론 모듈(812), 기능별 대화 에이전트(82)를 호출하여 각 기능에 대한 수행 결과와 대응할 응답정보를 받아오는 기능별 연동모듈(813), 여러 기능별 대화 에이전트에서 받아온 수행결과와 응답정보로부터 통합된 수행결과와 자연어응답을 구성하여 사용자에게 전달하는 응답생성모듈(814)를 포함할 수 있다.

기능별 대화 에이전트(82)는 TV 디바이스(10)를 통해 사용할 수 있는 기능에 대한 기능 수행 및 수해한 기능에 대응하는 응답을 생성할 수 있다. 여기서, TV 디바이스(10)를 통해 사용할 수 있는 기능은 미디어콘텐츠 검색, 미디어콘텐츠 재생/제어, 콘텐츠와 관련된 서비스의 추천, TV쇼핑 어플리케이션 호출, 광고, 추천, 기기설정, 채팅 또는 콘텐츠와 관련된 서비스로의 연결 등이 있으나, 이에 한정되지는 않는다.

기능별 대화 에이전트(82)는 메타 대화 에이전트와 의도해석 결과, 히스토리, 상황정보, 다른 기능별 대화 에이전트(82)의 수행결과 등을 공유하며, 이들과 함께 영역별 지식(822)을 바탕으로 각 기능 수행에 필요한 추가 해석 절차를 수행하는 영역지식 반영모듈(821)과, 이 결과를 바탕으로 각 영역에 특성화된 기능 수행을 하는 수행 모듈(823), 기능 수행 결과를 바탕으로 기능 내에서 추가적인 실행절차 등을 판단하고, 사용자에게 응답할 정보를 생성하는 세부 추론 및 응답정보 생성모듈(824)를 포함할 수 있다.

도 4는 본 발명의 일 실시예에 따른 응답 텍스트를 제공하는 일 예를 나타내는 도면이다. 도 4를 참조하면, 사용자의 입력이 인식된 결과 및 인식 결과에 대응하는 응답 텍스트는 TV 디바이스(10)의 디스플레이에 표시될 수 있다. 이 때, 인식 결과 및 응답 텍스트는 디스플레이에 오버레이되어 표시될 수 있고, 일정 시간이 경과하는 경우 사라질 수 있다. 인식 결과 및 응답 텍스트는 슬라이딩, 점멸 등의 효과를 포함할 수 있고, 텍스트에 대한 음성 합성음을 더 포함하여 표시될 수 있다.

그리고, TV 디바이스(10)는 응답 텍스트의 출력 방식을 상황정보, 히스토리 또는 기능별 응답 결과에 기초하여 결정할 수도 있다.

다만, 도 4에 도시된 실시예는 본 발명의 다양한 실시예 중 어느 하나에 불과하므로 이에 한정되어 해석되어서는 안된다.

도 5는 본 발명의 일 실시예에 따른 응답 텍스를 제공하는 출력 방식의 일 예를 나타내는 도면이다. 도 5를 참조하면, TV 디바이스(10)는 인식 결과 및 응답 텍스트를 팝업(Pop-up) 출력 방식, 디스플레이의 하단에 안내바를 표시하고, 표시되는 안내바를 통해 출력하는 방식, 디스플레이에 가상의 공간을 표시하고, 가상의 공간의 아바타를 통해 출력하는 방식 또는, 연결된 스마트폰을 통해 음성으로 출력하는 방식 등의 다양한 방식으로 출력할 수 있다. 이 밖에도, 전체 화면 출력 방식, 또는 슬라이딩 출력 방식 등으로도 인식 결과 및 응답 텍스트를 출력할 수 있다.

도 6은 본 발명의 일 실시예에 따른 응답 텍스트를 표시하는 방법을 나타내는 동작 흐름도이다 도 6은 도 1에 도시된 TV 디바이스에서 시계열적으로 처리되는 단계들을 포함한다. 따라서 이하 생략된 내용이라고 하여도, 도 1 내지 도 2를 통해 TV 디바이스에 대하여 이상에서 기술된 내용은 도 6에서 설명되는 실시예에도 적용된다.

도 6을 참조하면, TV 디바이스(10)는 복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신(S601)하고, 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신(S602)한다. 입력된 제 1 입력 및 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정(S603)한다. 그리고, TV 디바이스(10)는 결정된 질의 텍스트에 기초하여 질의 텍스트와 연관된 적어도 하나 이상의 기능을 선택하고, 복수의 기능 중 제 1 기능에 대응하는 제 1 응답 텍스트를 생성하고, 제 2 기능에 대응하는 제 2 응답 텍스트를 생성하고, 생성된 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 질의 텍스트에 대한 응답 텍스트로 결정(S604)한다. 응답 텍스트를 출력하는 출력 방식을 결정하여 결정된 응답 텍스트를 TV 디바이스의 디스플레이에 표시(S605)한다. 응답 텍스트를 음성 출력 방식으로 결정하여 디스플레이에 표시하는 경우, 결정된 응답 텍스트에 대응하는 음성 신호를 출력할 수도 있다.

응답 텍스트는 다른 실시예를 통해 표시할 수도 있다.

도 9는 본 발명의 다른 실시예에 따른 응답 텍스트를 표시하는 방법을 나타내는 도면이다. 도 9는 도 6에서 설명되는 응답 텍스트를 표시하는 방법의 다른 실시예를 나타낸다. 따라서, 도 2 및 도 6에서 TV 디바이스(10) 및 응답 텍스트를 표시하는 방법에 관하여 설명된 내용은 도 9에도 적용된다.

도 9를 참조하면, 리모컨 또는, 스마트폰 등의 다양한 디바이스에서 음성, 제스처, 텍스트 또는 메뉴선택 등의 다양한 형태로 TV 디바이스(10)에 사용자의 입력이 전달될 수 있으며, 이러한 다양한 멀티 모달 입력은 멀티 모달 모듈을 통하여 하나의 통일된 형식의 멀티 모달 입력(S9010)된다. 입수된 멀티 모달 입력은 현재의 시간, 위치, 날씨 등이 포함된 상황정보, 사용자의 이전 발화, 시스템의 이전 응답 및 수행한 기능 목록이 포함된 대화 히스토리를 참조하여, 현재 사용자의 의도를 해석(S9020)한다. 이후, 해석된 사용자의 의도에 대응하기 위해 현재 TV 디바이스(10)에서 제공하는 기능 목록에서 필요한 하나 이상의 TV 기능 영역을 추론하고, 그 의도가 불확실하거나 정보가 부족한 경우, 사용자의 의도를 다시 물어볼 것인지 여부, 가장 근접한 기능 영역을 선정하여 이에 대한 수행 결과를 제시할 것인지를 추론(S9030)하여 판단한다.

의도 해석 결과를 히스토리 또는 상황 정보 등을 바탕으로 각 기능 영역에서만 적용되는 영역 지식을 반영(S9041)하여 의미를 추론하고, 추론 결과를 바탕으로 각 영역에 특성화된 기능을 수행(S9042)한다. 기능 수행 결과를 바탕으로 기능 내에서 추가적으로 연관 검색, 제약 검색 또는 연관 추천 등을 판단하고, 사용자에게 응답할 정보를 생성(S9043)한다.

이후, 여러 기능별 대화 에이전트(82)로부터 수신한 수행 결과와 응답 정보로부터 통합된 수행 결과와 자연어 응답을 구성(S9050)하고, 통합된 수행 결과와 자연어 응답을 사용자에게 적절한 형태로 전달(S9060)한다.

도 7은 본 발명의 다른 실시예에 따른 도 1에 도시된 대화 서비스 제공 서버(20)의 구성도이다. 도 7은 본 발명의 다른 실시예에 있어서, 도 1 내지 도 2를 통해 설명된 TV 디바이스(10)의 기능을 수행하는 대화 서비스 제공 서버(20)의 동작을 설명한다. 따라서 도 1 내지 도 2를 통해 TV 디바이스(10)에 관하여 이상에서 설명된 내용은 도 7에 도시된 대화 서비스 제공 서버(20)에도 적용되므로 자세한 설명은 생략한다.

도 7을 참조하면, 대화 서비스 제공 서버(20)는 사용자 입력 수신부(21), 사용자 의도 해석부(22), 응답 텍스트 결정부(23) 및 전송부(24)를 포함한다.

사용자 입력 수신부(21)는 복수의 디바이스 중 제 1 디바이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 복수의 디바이스 중 제 2 디바이스를 통해 사용자의 제 2 입력을 수신한다. 일 예로, 사용자 입력 수신부(21)는 사용자의 스마트폰을 통해 음성 입력을 수신하고, IPTV를 통해 소정 메뉴를 선택하는 입력을 수신할 수 있다.

사용자 의도 해석부(22)는 입력된 제 1 입력 및 제 2 입력 중 적어도 하나 이상에 기초하여 사용자의 의도를 나타내는 질의 텍스트를 결정한다.

응답 텍스트 결정부(23)는 적어도 하나 이상의 기능 별로 질의 텍스트에 대한 응답 텍스트를 결정할 수 있다. 그리고 응답 텍스트 결정부(23)는 결정된 질의 텍스트에 기초하여 선택된 복수의 기능 중 각각의 기능에 대응하는 응답 텍스트를 생성하고, 생성된 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 결정할 수 있다.

전송부(24)는 결정된 응답 텍스트를 복수의 디바이스 중 어느 하나의 디바이스에 전송할 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변경된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다

10: TV 디바이스
12: 사용자 의도 해석부
13: 응답 텍스트 결정부
20: 대화 서비스 제공 서버

Claims

TV 디바이스에 있어서,
복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 상기 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신하는 사용자 입력 수신부;
상기 입력된 제 1 입력 및 상기 입력된 제 2 입력 중 적어도 하나 이상 및 상기 TV 디바이스의 상태 정보에 기초하여 상기 사용자의 의도를 나타내는 질의 텍스트를 결정하는 사용자 의도 해석부;
상기 TV 디바이스가 제공하는 적어도 하나 이상의 기능 별로 상기 질의 텍스트에 대한 응답 텍스트를 결정하는 응답 텍스트 결정부; 및
상기 결정된 응답 텍스트를 상기 TV 디바이스의 디스플레이에 표시하는 표시부를 포함하는 TV 디바이스.
제 1 항에 있어서,
상기 응답 텍스트를 출력하는 방식들 중 어느 하나의 출력 방식을 결정하는 표시 방식 결정부를 더 포함하고,
상기 표시부는 상기 결정된 출력 방식에 기초하여 상기 결정된 응답 텍스트를 표시하는 것인, TV 디바이스.
제 1 항에 있어서,
상기 사용자 입력 수신부는 상기 제 1 입력의 유형과 내용을 포함하는 상기 제 1 입력의 결과 데이터 및 상기 제 2 입력의 유형과 내용을 포함하는 상기 제 2 입력의 결과 데이터를 생성하고,
상기 사용자 의도 해석부는 상기 제 1 입력의 결과 데이터 및 상기 제 2 입력의 결과 데이터에 기초하여 상기 질의 텍스트를 결정하는 것인, TV 디바이스.
제 3 항에 있어서,
상기 제 1 입력의 유형은 음성 유형이고, 상기 제 2 입력의 유형은 제스쳐 유형, 텍스트 유형, 포인터 유형, 메뉴 선택 유형 또는 하드웨어 버튼의 입력 중 어느 하나인 것인, TV 디바이스.
제 1 항에 있어서,
상기 사용자 의도 해석부는 입력된 제 1 입력 및 상기 입력된 제 2 입력 중 적어도 하나 이상과 의도 해석 정보에 기초하여 상기 질의 텍스트를 결정하고,
상기 의도 해석 정보는 현재시간, 상기 TV 디바이스의 위치, 현재날씨, 상기 사용자의 이전 입력, 상기 TV 디바이스의 이전 응답, 상기 TV 디바이스에서 이전에 실행된 기능 중 적어도 하나 이상에 관한 정보를 포함하는 것인, TV 디바이스.
제 1 항에 있어서,
상기 응답 텍스트 결정부는,
상기 결정된 질의 텍스트에 기초하여 상기 TV 디바이스가 제공하는 복수의 기능 에이전트 중 상기 질의 텍스트와 연관된 적어도 하나 이상의 기능 에이전트를 선택하는 기능 에이전트 선택부;
선택된 적어도 하나 이상의 기능 에이전트 중 제 1 기능 에이전트로부터 제 1 응답 텍스트를 수신하고, 제 2 기능 에이전트로부터 제 2 응답 텍스트를 수신하는 기능 에이전트 연동부; 및
상기 제 1 응답 텍스트 및 상기 제 2 응답 텍스트를 포함하는 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 결정하는 결정부를 포함하는 것인, TV 디바이스.
제 1 항에 있어서,
상기 TV 디바이스가 제공하는 기능은 소정 콘텐츠의 검색, 소정 콘텐츠의 추천, 소정 콘텐츠의 재생, 상기 콘텐츠와 연관된 서비스의 추천, 쇼핑 어플리케이션 호출, 광고 표시, 웹 페이지 검색, 채팅, 지도 검색 및 상기 콘텐츠와 연관된 서비스로의 연결 중 적어도 하나 이상을 포함하는 것인, TV 디바이스
제 1 항에 있어서,
적어도 하나 이상의 출력 인터페이스를 통해 상기 결정된 응답 텍스트에 대응하는 신호를 출력하는 출력부를 더 포함하는 것인, TV 디바이스.
제 2 항에 있어서,
상기 응답 텍스트를 출력하는 방식들은 전체 화면 출력 방식, 팝업 출력 방식, 안내바 출력 방식, 아바타 출력 방식, 음성 출력 방식, 슬라이딩 출력 방식 강조 효과 출력 방식 또는 모바일 디바이스 출력 방식 중 어느 하나인 것인, TV 디바이스.
제 1 항에 있어서,
상기 표시부는 상기 결정된 질의 텍스트를 상기 디스플레이의 제 1 영역에 표시하고, 상기 응답 텍스트를 상기 디스플레이의 제 2 영역에 표시하는 것인, TV 디바이스.
제 8 항에 있어서,
상기 출력부는 적어도 하나 이상의 모바일 디바이스를 통해 상기 결정된 응답 텍스트에 대응하는 신호를 출력하는 것인, TV 디바이스
TV 디바이스의 표시 방법에 있어서,
복수의 인터페이스 중 제 1 인터페이스를 통해 사용자의 음성인 제 1 입력을 수신하는 단계;
상기 복수의 인터페이스 중 제 2 인터페이스를 통해 사용자의 제 2 입력을 수신하는 단계;
상기 입력된 제 1 입력 및 상기 입력된 제 2 입력 중 적어도 하나 이상 및 상기 TV 디바이스의 상태 정보에 기초하여 상기 사용자의 의도를 나타내는 질의 텍스트를 결정하는 단계;
TV 디바이스가 제공하는 적어도 하나 이상의 기능 별로 상기 질의 텍스트에 대한 응답 텍스트를 결정하는 단계; 및
상기 결정된 응답 텍스트를 상기 TV 디바이스의 디스플레이에 표시하는 단계를 포함하는 표시 방법.
제 12 항에 있어서,
상기 응답 텍스트를 출력하는 방식들 중 어느 하나의 출력 방식을 결정하는 단계를 더 포함하는 것인, 표시 방법.
제 12 항에 있어서,
상기 응답 텍스트를 결정하는 단계는, 상기 결정된 질의 텍스트에 기초하여 상기 질의 텍스트와 연관된 적어도 하나 이상의 기능을 선택하고, 적어도 하나 이상의 기능 중 제 1 기능에 대응하는 제 1 응답 텍스트를 생성하고, 제 2 기능에 대응하는 데 2 응답 텍스트를 생성하고, 생성된 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 결정하는 것인, 표시 방법
제 12 항에 있어서,
적어도 하나 이상의 출력 인터페이스를 통해 상기 결정된 응답 텍스트에 대응하는 신호를 출력하는 단계를 더 포함하는 것인, 표시 방법
대화 서비스 제공 서버에 있어서,
복수의 디바이스 중 제 1 디바이스를 통해 사용자의 음성인 제 1 입력을 수신하고, 상기 복수의 디바이스 중 제 2 디바이스를 통해 사용자의 제 2 입력을 수신하며, 상기 제 1 및 제 2 디바이스 중 적어도 하나의 상태 정보를 함께 수신하는 사용자 입력 수신부;
상기 입력된 제 1 입력 및 상기 입력된 제 2 입력 중 적어도 하나 이상 및 상기 제 1 및 제 2 디바이스 중 적어도 하나의 상태 정보에 기초하여 상기 사용자의 의도를 나타내는 질의 텍스트를 결정하는 사용자 의도 해석부;
적어도 하나 이상의 기능 별로 상기 질의 텍스트에 대한 응답 텍스트를 결정하는 응답 텍스트 결정부; 및
상기 결정된 응답 텍스트를 상기 복수의 디바이스 중 어느 하나의 디바이스에 전송하는 전송부를 포함하는 대화 서비스 제공 서버.
제 16 항에 있어서,
상기 응답 텍스트 결정부는, 상기 결정된 질의 텍스트에 기초하여 선택된 복수의 기능 중 각각의 기능에 대응하는 응답 텍스트를 생성하고, 생성된 복수의 응답 텍스트 중 적어도 하나 이상의 응답 텍스트를 결정하는 것인, 대화 서비스 제공 서버.