JP2024179936A - システム、方法、プログラム、情報処理装置 - Google Patents
システム、方法、プログラム、情報処理装置 Download PDFInfo
- Publication number
- JP2024179936A JP2024179936A JP2023099280A JP2023099280A JP2024179936A JP 2024179936 A JP2024179936 A JP 2024179936A JP 2023099280 A JP2023099280 A JP 2023099280A JP 2023099280 A JP2023099280 A JP 2023099280A JP 2024179936 A JP2024179936 A JP 2024179936A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- information
- user
- avatar
- terminal device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000010365 information processing Effects 0.000 title claims description 5
- 238000004891 communication Methods 0.000 claims abstract description 30
- 238000013519 translation Methods 0.000 claims description 22
- 238000012545 processing Methods 0.000 abstract description 35
- 238000005516 engineering process Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 14
- 238000006243 chemical reaction Methods 0.000 description 12
- 230000005540 biological transmission Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Landscapes
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- User Interface Of Digital Computer (AREA)
- Telephone Function (AREA)
- Telephonic Communication Services (AREA)
Abstract
【課題】リアルタイムでの多様なコミュニケーションを実現する技術を提供する。
【解決手段】ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
【選択図】図1
【解決手段】ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
【選択図】図1
Description
本開示は、システム、方法、プログラム、情報処理装置に関する。
昨今、ユーザ間のコミュニケーションを支援するシステムが開発されている。例えば、特許文献1には、VR空間内でのアバターを介したユーザ間での会話を、映像または音声で記録するシステムが開示されている。
一方、上記技術では、コミュニケーションのリアルタイム性および多様性の観点で改善の余地があった。
本開示の目的は、リアルタイムでの多様なコミュニケーションを実現する技術を提供することにある。
本開示では、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
本開示によれば、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。
以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰り返さない。
<1.第1実施形態>
(1-1.システム1の概要)
図1を参照して、システム1が提供する機能(以下、本機能ともいう)の概要を説明する。図1に示すように、システム1は、複数の端末装置10と、サーバ20を備える。システム1を利用するユーザ間では、ユーザそれぞれが端末装置10を使用することにより、ボイスチャット(ネットワークを利用して行われる音声通話)によるリアルタイムでのコミュニケーションが行われる。
(1-1.システム1の概要)
図1を参照して、システム1が提供する機能(以下、本機能ともいう)の概要を説明する。図1に示すように、システム1は、複数の端末装置10と、サーバ20を備える。システム1を利用するユーザ間では、ユーザそれぞれが端末装置10を使用することにより、ボイスチャット(ネットワークを利用して行われる音声通話)によるリアルタイムでのコミュニケーションが行われる。
端末装置10は、ユーザが発した音声を受け付けると、当該音声についての音声情報をテキスト情報に変換して、サーバ20へ送信する。サーバ20は、受信したテキスト情報に対して、翻訳処理などの所定の処理を行い、翻訳後のテキスト情報を他の端末装置10へ送信する。他の端末装置10は、受信したテキスト情報を音声情報に変換して、音声としてユーザに出力する。
このように、システム1では、ユーザが発した音声を、テキスト情報に変換してデータの送受信を行うため、データ送受信時の処理を軽減することができる。また、音声情報をテキスト情報に変換するため、翻訳などの処理を行うことができ、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。以下、詳細を説明する。
(1-2.システム1のハードウェア構成)
図2は、システム1のハードウェア構成の例を示すブロック図である。システム1は、複数の端末装置10と、サーバ20とを備える。端末装置10およびサーバ20は、ネットワーク30を介して通信可能に接続されている。なお、図2に示す例では、システム1は3つの端末装置10を備えているが、端末装置10の数はこの例に限定されることはなく、2つであってもよく、4つ以上でもよい。
図2は、システム1のハードウェア構成の例を示すブロック図である。システム1は、複数の端末装置10と、サーバ20とを備える。端末装置10およびサーバ20は、ネットワーク30を介して通信可能に接続されている。なお、図2に示す例では、システム1は3つの端末装置10を備えているが、端末装置10の数はこの例に限定されることはなく、2つであってもよく、4つ以上でもよい。
本実施形態において、複数の装置の集合体を1つのサーバ20としてもよい。1つ又は複数のハードウェアに対して本実施形態に係るサーバ20を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び/又はサーバ20に求められる仕様等に鑑みて適宜決定することができる。
端末装置10は、一例として、タブレット端末、又はスマートフォン等の携帯端末として実現してもよい。端末装置10は、通信IF(Interface)12と、入力装置13と、出力装置14と、メモリ15と、ストレージ16と、プロセッサ19とを備える。
通信IF12は、端末装置10が外部の装置と通信するため、信号を入出力するためのインタフェースである。
入力装置13は、ユーザからの入力操作を受け付けるための装置(例えば、タッチパネル、マイク等)である。
出力装置14は、ユーザに対して情報を提示するための装置(ディスプレイ、スピーカ等)である。
メモリ15は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばDRAM(Dynamic Random Access Memory)等の揮発性のメモリである。
ストレージ16は、データを保存するためのものであり、例えばフラッシュメモリ、HDD(Hard Disc Drive)である。
プロセッサ19は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。
サーバ20は、インターネットなどのネットワーク30を介して端末装置10と通信可能なコンピュータであり、いわゆるクラウドサーバとして実現される。サーバ20は、通信IF22と、入出力IF23と、メモリ25と、ストレージ26と、プロセッサ29とを備える。
入出力IFは、サーバ20に対して何らかの入力操作を行う場合、または、サーバ20から情報を出力する場合に、入出力装置を接続するためのインタフェースである。
通信IF22、メモリ25、ストレージ26およびプロセッサ29は、端末装置10の通信IF12、メモリ15、ストレージ16およびプロセッサ19と同様に構成されるため、説明は繰り返さない。
(1-3.端末装置10の機能構成)
図3は、端末装置10の機能構成の例を示すブロック図である。図3に示すように、端末装置10は、入力装置13と、出力装置14と、通信部150と、音声処理部170と、記憶部180と、位置情報センサ190と、制御部200を備える。図2において端末装置10に含まれる各ブロックは、例えば、バス等により電気的に接続される。
図3は、端末装置10の機能構成の例を示すブロック図である。図3に示すように、端末装置10は、入力装置13と、出力装置14と、通信部150と、音声処理部170と、記憶部180と、位置情報センサ190と、制御部200を備える。図2において端末装置10に含まれる各ブロックは、例えば、バス等により電気的に接続される。
通信部150は、端末装置10が他の装置と通信するための変復調処理等の処理を行う。通信部150は、制御部200で生成された信号に送信処理を施し、外部(例えば、他の端末装置10)へ送信する。通信部150は、外部から受信した信号に受信処理を施し、制御部200へ出力する。
入力装置13は、端末装置10を操作するユーザが指示、又は情報を入力するための装置である。入力装置13は、例えば、操作面へ触れることで指示が入力されるタッチセンシティブデバイス131等により実現される。入力装置13は、キーボードまたはマウスを含んでいてもよい。入力装置13は、ユーザから入力される指示、又は情報を電気信号へ変換し、電気信号を制御部200へ出力する。なお、入力装置13には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。
出力装置14は、端末装置10を操作するユーザへ情報を提示するための装置である。出力装置14は、例えば、ディスプレイ141等により実現される。ディスプレイ141は、制御部200の制御に応じたデータを表示する。ディスプレイ141は、例えば、LCD(Liquid Crystal Display)、又は有機EL(Electro-Luminescence)ディスプレイ等によって実現される。
音声処理部170は、例えば、音声信号のデジタル-アナログ変換処理を行う。音声処理部170は、マイク171から与えられる信号をデジタル信号に変換して、変換後の信号を制御部200へ与える。また、音声処理部170は、音声信号をスピーカ172へ与える。音声処理部170は、例えば音声処理用のプロセッサによって実現される。マイク171は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部170へ与える。スピーカ172は、音声処理部170から与えられる音声信号を音声に変換して当該音声を端末装置10の外部へ出力する。
記憶部180は、例えば、メモリ15、及びストレージ16等により実現され、端末装置10が使用するデータ、及びプログラムを記憶する。記憶部180は、一例として、ユーザデータベース(DB:DataBase)181と、アバターデータベース182と、演出データベース183を記憶する。
ユーザデータベース181は、ユーザの情報を記憶するためのデータベースである。ユーザデータベース181には、当該端末装置10を利用するユーザに関する情報が記憶される。一例として、ユーザデータベース181は、端末装置10にインストールされた本機能を提供するソフトウェアを利用して、ユーザがユーザ登録の作業を行ったタイミングで、レコードが生成される仕様としてもよい。ユーザデータベース181のデータ構造の詳細は後述する。
アバターデータベース182は、ユーザに対応づけられるアバターの情報を記憶するためのデータベースである。アバターとは、ユーザの分身としての機能を備える仮想のキャラクタであって、システム1において、ユーザの代わりに各種情報を音声で伝達する役割を果たすように構成されている。アバターデータベース182には、アバターそれぞれに設定される情報が記憶されている。一例として、アバターデータベース182は、本機能を実行するために端末装置10にインストールされたソフトウェアを利用して、ユーザがアバターの情報を登録する作業を行ったタイミングでレコードが生成される仕様としてもよい。アバターデータベース182のデータ構造の詳細は後述する。
演出データベース183は、アバターごとに設定される演出の情報を記憶するためのデータベースである。本実施形態では、演出としてアバターが発する音声について、声色や声の高さなどの各種パラメータを設定可能な仕様となっている。演出データベース183では、アバターに設定可能な演出の情報が記憶されている。一例として、演出データベース183は、本機能を実行するためのソフトウェアを端末装置10にインストールしたタイミングで、初期設定として用意されたレコードが生成される仕様としてもよい。また、当該初期設定のレコードに加えて、ユーザが演出の情報を設定する作業を行ったタイミングで、追加のレコードが生成される仕様としてもよい。演出データベース183のデータ構造の詳細は後述する。
位置情報センサ190は、端末装置10の位置を検出するセンサであり、例えばGPS(Global Positioning System)モジュールである。GPSモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも3個または4個の衛星からの信号を受信し、受信した信号に基づいて、GPSモジュールが搭載される端末装置10の現在位置を検出する。なお、GPS以外の衛星測位システム、例えばGNSS(Global Navigation Satellite System:全地球航法衛星システム)と呼ばれるシステムを用いた位置情報センサ190であってもよい。
制御部200は、プロセッサ19が記憶部180に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部200は、端末装置10の動作を制御する。制御部200は、プログラムに従って動作することにより、操作受付部201と、送受信部202と、表示制御部203と、音声受付部204と、音声変換部205と、音声出力部206としての機能を発揮する。
操作受付部201は、入力装置13から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部201は、タッチセンシティブデバイス131等から入力される指示に基づく情報を受け付ける。
送受信部202は、端末装置10が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。
表示制御部203は、ユーザに対する情報のディスプレイ141に代表される出力装置14への表示を制御する。
音声受付部204は、ユーザが発する音声を受け付ける。具体的には、例えば、ユーザが発する音声の入力を端末装置10のマイク171で検出し、音声処理部170における音声信号のデジタル-アナログ変換処理を行って、音声受付部204によってユーザが発した音声が受け付けられる仕様としてもよい。
音声変換部205は、音声受付部204が受け付けた音声についての音声情報を、テキスト情報に変換する。また、音声受付部204は、サーバ20から受信したテキスト情報を、音声情報に変換する。音声情報とテキスト情報との変換処理は、既存の音声認識技術を採用してもよい。一例として、音声変換部205は、DNN-HMM型音声認識を行ってもよいし、ディープラーニング(深層学習)によるEnd-to-Endモデルでの音声認識を行ってもよい。
音声出力部206は、音声変換部205が変換した音声情報を出力する。具体的には、例えば、音声出力部206は、音声変換部205が変換した音声情報を音声処理部170へ与える。音声処理部170は、受け付けた音声情報に対応する音声信号のスピーカ172へ与える。スピーカ172は、音声処理部170から与えられる音声信号を音声に変換して、端末装置10の外部へ出力する。
(1-4.サーバ20の機能構成)
図4は、サーバ20は、通信部210と、記憶部220と、制御部230を備える。図4においてサーバ20に含まれる各ブロックは、例えば、バス等により電気的に接続される。
図4は、サーバ20は、通信部210と、記憶部220と、制御部230を備える。図4においてサーバ20に含まれる各ブロックは、例えば、バス等により電気的に接続される。
通信部210は、サーバ20が外部の装置と通信するための処理を行う。
記憶部220は、例えば、メモリ25、及びストレージ26等により実現され、サーバ20が使用するデータ、及びプログラムを記憶する。
制御部230は、プロセッサ29が記憶部220に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部230は、プログラムに従って動作することにより、送受信モジュール231、翻訳モジュール232を備える。
送受信モジュール231は、サーバ20が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。
翻訳モジュール232は、サーバ20が受信したテキスト情報の翻訳を行う。テキスト情報の翻訳は、既存の機械翻訳の技術を用いることができる。例えば、翻訳モジュール232は、深層学習(ディープラーニング)を利用したニューラル機械翻訳を実行する既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳を行ってもよい。
(1-5.データ構造)
図5を参照し、システム1で使用するデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。
図5を参照し、システム1で使用するデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。
図5は、端末装置10の記憶部180が記憶するユーザデータベース181、アバターデータベース182、演出データベース183のデータ構造の一例を示す図である。
図5に示すように、ユーザデータベース181のレコードは、項目「ユーザID」と、項目「ユーザ名」と、項目「年齢」と、項目「性別」と、項目「登録日時」等を含む。
項目「ユーザID」は、ユーザを識別するための識別情報であり、ユーザデータベース181におけるレコードを一意に特定するための主キーである
項目「ユーザ名」は、ユーザの名前についての情報である。ユーザ名は、ユーザの本名であってもよいし、ニックネームなどの本人を特定しない情報であってもよい。
項目「年齢」は、ユーザの年齢についての情報である。
項目「性別」は、ユーザの性別についての情報である。
項目「登録日」は、ユーザデータベースに当該レコードが登録された日付についての情報である。
ユーザは、端末装置10にインストールされた本機能を提供するソフトウェアを利用して、ユーザ情報を登録してユーザデータベース181にレコードを追加できる仕様としてもよい。
アバターデータベース182のレコードは、項目「アバターID」と、項目「アバター名」と、項目「年齢」と、項目「性別」と、項目「対応ユーザ」と、項目「対応演出」等を含む。
項目「アバターID」は、アバターを識別するための識別情報であり、アバターデータベース182におけるレコードを一意に特定するための主キーである。
項目「アバター名」は、アバターの名前についての情報である。
項目「年齢」は、アバターの年齢についての情報である。
項目「性別」は、アバターの性別についての情報である。
項目「対応ユーザ」は、アバターに対応付けて登録されるユーザを特定するための情報であり、ユーザデータベース181の項目「ユーザID」が外部キーとして保持される。本実施形態では、1のアバターに対して1のユーザが対応づけられて、アバターデータベース182に記憶される。
項目「対応演出」は、アバターに対して適用される演出を特定するための識別情報であり、演出データベース183の項目「演出ID」が外部キーとして保持される。このように、アバターそれぞれに対して適用される演出についての情報が、アバターデータベース182に記憶される。
一例として、端末装置10に本機能を提供するソフトウェアをインストールするタイミングで、初期設定として用意されているレコードを備えるアバターデータベース182が生成される仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターデータベース182のレコードにおける各項目の内容を更新できる仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターに関する情報を新たに登録してアバターデータベース182にレコードを追加できる仕様としてもよい。
演出データベース183のレコードは、項目「演出ID」と、項目「声色」と、項目「声の高さ」と、項目「語尾」等を含む。
項目「演出ID」は、アバターに対して適用される演出を識別するための識別情報であり、演出データベース183のレコードを一意に特定するための主キーである。
項目「声色」は、アバターの声における音色についての情報であり、具体的には、アバターが発生する音声の音波における波形についての情報である。
項目「声の高さ」は、アバターの声の高さについての情報であり、具体的には、アバターが発生する音声の音波における周波数についての情報である。
項目「語尾」は、アバターの発言に対して末尾に付加される言葉についての情報である。具体的には、「~だよ」、「~じゃ」、「~ぴょん」といった発言内容の語尾に付加され得る言葉についての情報である。
(1-6.処理の流れ)
以下、図6を参照して、システム1の処理の一例を説明する。以下の説明においては、システム1は、端末装置10として端末装置10Aおよび端末装置10Bを備える。
以下、図6を参照して、システム1の処理の一例を説明する。以下の説明においては、システム1は、端末装置10として端末装置10Aおよび端末装置10Bを備える。
ステップS111において、端末装置10Aの操作受付部201は、ユーザからアバターの選択を受け付ける。一例として、ユーザは、アバターの選択に伴い、当該アバターの発声において付加される演出(声色、声の高さ、語尾等)を選択できる仕様としてもよい。操作受付部201は、ユーザからアバターおよび演出の選択を受け付けると、記憶部180のアバターデータベース182にレコードを追加する。
ステップS112において、端末装置10Aの音声受付部204は、ユーザが発する音声を受け付ける。音声受付部204は、所定の条件が満たされた場合に、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、音声受付部204は、ユーザによる端末装置10への所定の操作を条件として、ユーザが発した音声についての音声情報を取得してもよい。具体的には、端末装置10のディスプレイ141に音声を受け付けるためのボタン等が表示され、ユーザが当該ボタンを押下したことを条件として、音声受付部204はユーザが発した音声についての音声情報を取得する仕様としてもよい。
または、音声受付部204は、ユーザが特定の発言をしたことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、予め定められた文章、キーワード、合言葉などの発言を行った場合に、音声受付部204は、ユーザが発した音声についての音声情報を取得する仕様としてもよい。他の例として、ユーザが自身に対応付けられているアバターの名前を呼ぶことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。
ステップS113において、端末装置10Aの音声変換部205は、ユーザから受け付けた音声をテキスト情報に変換する。
ステップS114において、端末装置10Aの送受信部202は、音声変換部205が変換したテキスト情報をサーバ20へ送信する。ステップS121において、サーバ20の送受信モジュール231は、端末装置10Aからテキスト情報を受信する。
ステップS122において、サーバ20の翻訳モジュール232は、受信したテキスト情報に対して翻訳処理を実行する。一例として、翻訳モジュール232は、機械翻訳を行う既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳処理を実行する。
ステップS123において、サーバ20の送受信モジュール231は、テキスト情報を端末装置10Aへ送信する。ステップS131において、端末装置10Bの送受信部202は、テキスト情報をサーバ20から受信する。
ステップS132において、端末装置10Bの音声変換部205は、サーバ20から受信したテキスト情報を音声情報に変換する。ステップS133において、端末装置10Bの音声出力部206は、変換された音声情報を音声処理部170へ出力することにより、スピーカ172から出力する。
(1-7.小括)
以上のようにして、本実施形態では、システム1は、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行し、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行する。このようにすることにより、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。
以上のようにして、本実施形態では、システム1は、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行し、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行する。このようにすることにより、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。
また、システム1では、テキスト情報を端末装置10とサーバ20との間で送受信するステップを実行する。このようにすることにより、コンピュータ間でのデータ送受信における負荷を軽減することが可能となる。
また、システム1では、所定の処理として、テキスト情報に対して翻訳処理を実行する。このようにすることにより、受け付けた音声情報を翻訳することが可能となるため、多様なコミュニケーションを実現することができる。
<2 第2実施形態>
図7および図8を参照して、本開示における第2実施形態を説明する。図7に示すように、第2実施形態では、サーバ20の制御部230は、翻訳モジュール232に代わって生成モジュール233を備える点で第1実施形態と異なる。以下、第1実施形態との相違点を中心に説明する。
図7および図8を参照して、本開示における第2実施形態を説明する。図7に示すように、第2実施形態では、サーバ20の制御部230は、翻訳モジュール232に代わって生成モジュール233を備える点で第1実施形態と異なる。以下、第1実施形態との相違点を中心に説明する。
生成モジュール233は、テキスト情報に基づいて、アバター同士の会話の内容(以下、会話内容ともいう)を生成する。本実施形態では、生成モジュール233は、端末装置10から受信したテキスト情報に対して自然言語処理を行い、アバター同士の会話内容を生成する。生成モジュール233が生成した会話内容は、テキスト情報として端末装置10へ送信される。端末装置10は、当該テキスト情報を音声に変換してユーザに対して出力する。
図8に示すように、第2実施形態では、端末装置10Aおよび端末装置10Bは、いずれもステップS112~ステップS114において、ユーザから受け付けた音声をテキスト情報に変換して、サーバ20へ送信する。サーバ20は、ステップS121においてテキスト情報を受信すると、ステップS122において、生成処理を行う。
生成処理では、端末装置10Aおよび端末装置10Bから受信したテキスト情報に基づいてアバター同士の会話内容がテキスト情報として生成される。ステップS123において、生成された会話内容が端末装置10Aおよび10Bへ送信されると、端末装置10において音声情報に変換されて音声として出力される。
このようにすることにより、ユーザは、自身の発言に基づいて生成されたアバター同士の会話について、ラジオをきくような体験を味わうことができ、ユーザ体験が向上する。
<3 他の実施形態>
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。例えば、サーバ20の制御部230は、翻訳モジュール232と生成モジュール233とをいずれも有しており、生成モジュール233が生成したアバター同士の会話内容を、翻訳モジュール232が翻訳する仕様としてもよい。
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。例えば、サーバ20の制御部230は、翻訳モジュール232と生成モジュール233とをいずれも有しており、生成モジュール233が生成したアバター同士の会話内容を、翻訳モジュール232が翻訳する仕様としてもよい。
また、上記実施形態では、ボイスチャットを想定しているため、話者と聴取者が同じとなっているが、この態様に限定されることはなく、話者と聴取者が異なってもよい。一例として、ポッドキャストのようなインターネットを利用した音声配信において、複数の話者が参加する場合に、本開示の技術的思想を適用してもよい。
また、上記実施形態では、話者としてのユーザが存在する音声での同期コミュニケーションを想定しているが、この態様に限定されることはない。例えば、話者として対応するユーザが存在しない仮想のキャラクタが複数存在し、当該キャラクタが発する音声は、コンピュータが合成した音声であってもよい。
また上記実施形態において、音声データと合わせて、アバターの口の動きを再現するためのリップシンク情報をサーバ20へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置10において、当該音声データの解析を行い、口の動きに関するリップシンク情報を生成する。具体的には、リップシンク情報には、入力音声に対する口形の幅や高さに関する情報、および/または入力音声に含まれる各音素の割合に関する情報が含まれ得る。また、音声データと合わせて、音声に対応する字幕情報をサーバ20へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置10において、当該音声データの解析を行い、字幕情報を生成する。音声データの解析に基づくリップシンク情報の生成、または字幕情報の生成については、周知の技術を用いて行うことができる。サーバ20は、受信したリップシンク情報または字幕情報を端末装置10へ送信し、端末装置10において、音声データの出力に合わせてアバターの口の動きが再現され、または字幕が表示される。
また、通信回線を介した所定情報の共有は、主にインターネットなどのWANを介して行われるが、情報処理装置間では、WANを介さずにBluetooth(登録商標)等の近距離の無線通信、及び赤外線通信等のみを介して行われてもよい。
また、上記実施形態では、各機能を端末装置10またはサーバ20が備える態様の一例について説明したが、この形態に限定されることはなく、一部または全部の機能について上記実施形態と異なる態様で端末装置10、サーバ20、又は端末装置10とサーバ20の両方が備える構成としてもよい。
また、上記実施形態において端末装置10に実行させるものとして記載されていた各ステップをサーバ20に実行させてもよく、サーバ20に実行させるものとして記載されていた各ステップを端末装置10に実行させてもよい。
さらに、本発明は、上述した端末装置10またはサーバ20が備える機能を情報処理装置に実行させるプログラムとして実現してもよいし、当該プログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として実現してもよい。
<付記>
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
(付記2)
前記テキスト情報をコンピュータ間で送受信するステップを実行する、付記1に記載のシステム。
(付記3)
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、付記1に記載のシステム。
(付記4)
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、付記1に記載のシステム。
(付記5)
ユーザから前記アバターの選択を受け付ける、付記4に記載のシステム。
(付記6)
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、付記1に記載のシステム。
(付記7)
生成した前記アバターの会話内容に対して翻訳処理を実行する、付記6に記載のシステム。
以上の各実施形態で説明した事項を以下に付記する。
(付記1)
プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
(付記2)
前記テキスト情報をコンピュータ間で送受信するステップを実行する、付記1に記載のシステム。
(付記3)
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、付記1に記載のシステム。
(付記4)
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、付記1に記載のシステム。
(付記5)
ユーザから前記アバターの選択を受け付ける、付記4に記載のシステム。
(付記6)
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、付記1に記載のシステム。
(付記7)
生成した前記アバターの会話内容に対して翻訳処理を実行する、付記6に記載のシステム。
以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。
1:システム、10:端末装置、13:入力装置、14:出力装置、15:メモリ、16:ストレージ、19:プロセッサ、20:サーバ、25:メモリ、26:ストレージ、29:プロセッサ、30:ネットワーク、131:タッチセンシティブデバイス、141:ディスプレイ、150:通信部、170:音声処理部、171:マイク、172:スピーカ、180:記憶部、181:ユーザデータベース、182:アバターデータベース、183:演出データベース、190:位置情報センサ、200:制御部、201:操作受付部、202:送受信部、203:表示制御部、204:音声受付部、205:音声変換部、206:音声出力部、210:通信部、220:記憶部、230:制御部、231:送受信モジュール、232:翻訳モジュール、233:生成モジュール。
Claims (10)
- プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、
ユーザが発した音声を受け付けるステップと、
受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、
前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、
変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。 - 前記テキスト情報をコンピュータ間で送受信するステップを実行する、請求項1に記載のシステム。
- 前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、請求項1に記載のシステム。
- 前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、請求項1に記載のシステム。
- ユーザから前記アバターの選択を受け付ける、請求項4に記載のシステム。
- 前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、請求項1に記載のシステム。
- 生成した前記アバターの会話内容に対して翻訳処理を実行する、請求項6に記載のシステム。
- プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行する、方法。
- プロセッサと、メモリとを備えるコンピュータに、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行させる、プログラム。
- 制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項1から請求項7のいずれかに係る発明において実行される全てのステップを実行する、情報処理装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023099280A JP2024179936A (ja) | 2023-06-16 | 2023-06-16 | システム、方法、プログラム、情報処理装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023099280A JP2024179936A (ja) | 2023-06-16 | 2023-06-16 | システム、方法、プログラム、情報処理装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024179936A true JP2024179936A (ja) | 2024-12-26 |
Family
ID=93947585
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023099280A Pending JP2024179936A (ja) | 2023-06-16 | 2023-06-16 | システム、方法、プログラム、情報処理装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024179936A (ja) |
-
2023
- 2023-06-16 JP JP2023099280A patent/JP2024179936A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11468889B1 (en) | Speech recognition services | |
JP5598998B2 (ja) | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 | |
JP6588637B2 (ja) | 個別化されたエンティティ発音の学習 | |
US10089974B2 (en) | Speech recognition and text-to-speech learning system | |
RU2491617C2 (ru) | Способ и устройство для реализации распределенных мультимодальных приложений | |
CN104488027B (zh) | 声音处理系统 | |
JP5545467B2 (ja) | 音声翻訳システム、制御装置、および情報処理方法 | |
CN107111492B (zh) | 跨诸设备缩放数字个人助理代理 | |
JP2020016875A (ja) | 音声インタラクション方法、装置、設備、コンピュータ記憶媒体及びコンピュータプログラム | |
US20100138224A1 (en) | Non-disruptive side conversation information retrieval | |
TW201926079A (zh) | 雙向語音翻譯系統、雙向語音翻譯方法和電腦程式產品 | |
CN111919249A (zh) | 词语的连续检测和相关的用户体验 | |
WO2019031268A1 (ja) | 情報処理装置、及び情報処理方法 | |
JP2022101663A (ja) | ヒューマンコンピュータインタラクション方法、装置、電子機器、記憶媒体およびコンピュータプログラム | |
JP2000207170A (ja) | 情報処理装置および情報処理方法 | |
KR20120126649A (ko) | 통화 내용 제공 방법, 그 제공 시스템 및 그 제공 방법을 기록한 기록매체 | |
US10002611B1 (en) | Asynchronous audio messaging | |
JP7218143B2 (ja) | 再生システムおよびプログラム | |
CN111862933A (zh) | 用于生成合成语音的方法、装置、设备和介质 | |
JP2024179936A (ja) | システム、方法、プログラム、情報処理装置 | |
US11790913B2 (en) | Information providing method, apparatus, and storage medium, that transmit related information to a remote terminal based on identification information received from the remote terminal | |
CN113160824B (zh) | 信息处理系统 | |
WO2024090007A1 (ja) | プログラム、方法、情報処理装置、システム | |
JP2024094741A (ja) | システム、方法、プログラム、情報処理装置 | |
JP2024094743A (ja) | システム、方法、プログラム、情報処理装置 |