JP2024179936A

JP2024179936A - システム、方法、プログラム、情報処理装置

Info

Publication number: JP2024179936A
Application number: JP2023099280A
Authority: JP
Inventors: 一彦伊藤; 智秀鴫原
Original assignee: CRI Middleware Co Ltd
Current assignee: CRI Middleware Co Ltd
Priority date: 2023-06-16
Filing date: 2023-06-16
Publication date: 2024-12-26

Abstract

【課題】リアルタイムでの多様なコミュニケーションを実現する技術を提供する。
【解決手段】ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。
【選択図】図１

Description

本開示は、システム、方法、プログラム、情報処理装置に関する。

昨今、ユーザ間のコミュニケーションを支援するシステムが開発されている。例えば、特許文献１には、ＶＲ空間内でのアバターを介したユーザ間での会話を、映像または音声で記録するシステムが開示されている。

特開６９８０９４６号公報

一方、上記技術では、コミュニケーションのリアルタイム性および多様性の観点で改善の余地があった。

本開示の目的は、リアルタイムでの多様なコミュニケーションを実現する技術を提供することにある。

本開示では、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行するシステムが提供される。

本開示によれば、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。

システム１の処理の一例を説明する図である。システム１のハードウェア構成を示すブロック図である。端末装置１０の機能構成を示すブロック図である。サーバ２０の機能構成を示すブロック図である。端末装置１０の記憶部１８０に記憶されるデータベースの構造を示す図である。システム１の処理の流れを説明するフロー図である。第２実施形態におけるサーバ２０の機能構成を示すブロック図である。第２実施形態におけるシステム１の処理の一例を説明する図である。

以下、図面を参照しつつ、本開示の実施形態について説明する。以下の説明では、同一の部品には同一の符号を付してある。それらの名称及び機能も同じである。したがって、それらについての詳細な説明は繰り返さない。

＜１．第１実施形態＞
（１－１．システム１の概要）
図１を参照して、システム１が提供する機能（以下、本機能ともいう）の概要を説明する。図１に示すように、システム１は、複数の端末装置１０と、サーバ２０を備える。システム１を利用するユーザ間では、ユーザそれぞれが端末装置１０を使用することにより、ボイスチャット（ネットワークを利用して行われる音声通話）によるリアルタイムでのコミュニケーションが行われる。

端末装置１０は、ユーザが発した音声を受け付けると、当該音声についての音声情報をテキスト情報に変換して、サーバ２０へ送信する。サーバ２０は、受信したテキスト情報に対して、翻訳処理などの所定の処理を行い、翻訳後のテキスト情報を他の端末装置１０へ送信する。他の端末装置１０は、受信したテキスト情報を音声情報に変換して、音声としてユーザに出力する。

このように、システム１では、ユーザが発した音声を、テキスト情報に変換してデータの送受信を行うため、データ送受信時の処理を軽減することができる。また、音声情報をテキスト情報に変換するため、翻訳などの処理を行うことができ、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。以下、詳細を説明する。

（１－２．システム１のハードウェア構成）
図２は、システム１のハードウェア構成の例を示すブロック図である。システム１は、複数の端末装置１０と、サーバ２０とを備える。端末装置１０およびサーバ２０は、ネットワーク３０を介して通信可能に接続されている。なお、図２に示す例では、システム１は３つの端末装置１０を備えているが、端末装置１０の数はこの例に限定されることはなく、２つであってもよく、４つ以上でもよい。

本実施形態において、複数の装置の集合体を１つのサーバ２０としてもよい。１つ又は複数のハードウェアに対して本実施形態に係るサーバ２０を実現することに要する複数の機能の配分の仕方は、各ハードウェアの処理能力及び／又はサーバ２０に求められる仕様等に鑑みて適宜決定することができる。

端末装置１０は、一例として、タブレット端末、又はスマートフォン等の携帯端末として実現してもよい。端末装置１０は、通信ＩＦ（Interface）１２と、入力装置１３と、出力装置１４と、メモリ１５と、ストレージ１６と、プロセッサ１９とを備える。

通信ＩＦ１２は、端末装置１０が外部の装置と通信するため、信号を入出力するためのインタフェースである。

入力装置１３は、ユーザからの入力操作を受け付けるための装置（例えば、タッチパネル、マイク等）である。

出力装置１４は、ユーザに対して情報を提示するための装置（ディスプレイ、スピーカ等）である。

メモリ１５は、プログラム、及び、プログラム等で処理されるデータ等を一時的に記憶するためのものであり、例えばＤＲＡＭ（Dynamic Random Access Memory）等の揮発性のメモリである。

ストレージ１６は、データを保存するためのものであり、例えばフラッシュメモリ、ＨＤＤ（Hard Disc Drive）である。

プロセッサ１９は、プログラムに記述された命令セットを実行するためのハードウェアであり、演算装置、レジスタ、周辺回路等により構成される。

サーバ２０は、インターネットなどのネットワーク３０を介して端末装置１０と通信可能なコンピュータであり、いわゆるクラウドサーバとして実現される。サーバ２０は、通信ＩＦ２２と、入出力ＩＦ２３と、メモリ２５と、ストレージ２６と、プロセッサ２９とを備える。

入出力ＩＦは、サーバ２０に対して何らかの入力操作を行う場合、または、サーバ２０から情報を出力する場合に、入出力装置を接続するためのインタフェースである。

通信ＩＦ２２、メモリ２５、ストレージ２６およびプロセッサ２９は、端末装置１０の通信ＩＦ１２、メモリ１５、ストレージ１６およびプロセッサ１９と同様に構成されるため、説明は繰り返さない。

（１－３．端末装置１０の機能構成）
図３は、端末装置１０の機能構成の例を示すブロック図である。図３に示すように、端末装置１０は、入力装置１３と、出力装置１４と、通信部１５０と、音声処理部１７０と、記憶部１８０と、位置情報センサ１９０と、制御部２００を備える。図２において端末装置１０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

通信部１５０は、端末装置１０が他の装置と通信するための変復調処理等の処理を行う。通信部１５０は、制御部２００で生成された信号に送信処理を施し、外部（例えば、他の端末装置１０）へ送信する。通信部１５０は、外部から受信した信号に受信処理を施し、制御部２００へ出力する。

入力装置１３は、端末装置１０を操作するユーザが指示、又は情報を入力するための装置である。入力装置１３は、例えば、操作面へ触れることで指示が入力されるタッチセンシティブデバイス１３１等により実現される。入力装置１３は、キーボードまたはマウスを含んでいてもよい。入力装置１３は、ユーザから入力される指示、又は情報を電気信号へ変換し、電気信号を制御部２００へ出力する。なお、入力装置１３には、例えば、外部の入力機器から入力される電気信号を受け付ける受信ポートが含まれてもよい。

出力装置１４は、端末装置１０を操作するユーザへ情報を提示するための装置である。出力装置１４は、例えば、ディスプレイ１４１等により実現される。ディスプレイ１４１は、制御部２００の制御に応じたデータを表示する。ディスプレイ１４１は、例えば、ＬＣＤ（Liquid Crystal Display）、又は有機ＥＬ（Electro-Luminescence）ディスプレイ等によって実現される。

音声処理部１７０は、例えば、音声信号のデジタル－アナログ変換処理を行う。音声処理部１７０は、マイク１７１から与えられる信号をデジタル信号に変換して、変換後の信号を制御部２００へ与える。また、音声処理部１７０は、音声信号をスピーカ１７２へ与える。音声処理部１７０は、例えば音声処理用のプロセッサによって実現される。マイク１７１は、音声入力を受け付けて、当該音声入力に対応する音声信号を音声処理部１７０へ与える。スピーカ１７２は、音声処理部１７０から与えられる音声信号を音声に変換して当該音声を端末装置１０の外部へ出力する。

記憶部１８０は、例えば、メモリ１５、及びストレージ１６等により実現され、端末装置１０が使用するデータ、及びプログラムを記憶する。記憶部１８０は、一例として、ユーザデータベース（ＤＢ：DataBase）１８１と、アバターデータベース１８２と、演出データベース１８３を記憶する。

ユーザデータベース１８１は、ユーザの情報を記憶するためのデータベースである。ユーザデータベース１８１には、当該端末装置１０を利用するユーザに関する情報が記憶される。一例として、ユーザデータベース１８１は、端末装置１０にインストールされた本機能を提供するソフトウェアを利用して、ユーザがユーザ登録の作業を行ったタイミングで、レコードが生成される仕様としてもよい。ユーザデータベース１８１のデータ構造の詳細は後述する。

アバターデータベース１８２は、ユーザに対応づけられるアバターの情報を記憶するためのデータベースである。アバターとは、ユーザの分身としての機能を備える仮想のキャラクタであって、システム１において、ユーザの代わりに各種情報を音声で伝達する役割を果たすように構成されている。アバターデータベース１８２には、アバターそれぞれに設定される情報が記憶されている。一例として、アバターデータベース１８２は、本機能を実行するために端末装置１０にインストールされたソフトウェアを利用して、ユーザがアバターの情報を登録する作業を行ったタイミングでレコードが生成される仕様としてもよい。アバターデータベース１８２のデータ構造の詳細は後述する。

演出データベース１８３は、アバターごとに設定される演出の情報を記憶するためのデータベースである。本実施形態では、演出としてアバターが発する音声について、声色や声の高さなどの各種パラメータを設定可能な仕様となっている。演出データベース１８３では、アバターに設定可能な演出の情報が記憶されている。一例として、演出データベース１８３は、本機能を実行するためのソフトウェアを端末装置１０にインストールしたタイミングで、初期設定として用意されたレコードが生成される仕様としてもよい。また、当該初期設定のレコードに加えて、ユーザが演出の情報を設定する作業を行ったタイミングで、追加のレコードが生成される仕様としてもよい。演出データベース１８３のデータ構造の詳細は後述する。

位置情報センサ１９０は、端末装置１０の位置を検出するセンサであり、例えばＧＰＳ（Global Positioning System）モジュールである。ＧＰＳモジュールは、衛星測位システムで用いられる受信装置である。衛星測位システムでは、少なくとも３個または４個の衛星からの信号を受信し、受信した信号に基づいて、ＧＰＳモジュールが搭載される端末装置１０の現在位置を検出する。なお、ＧＰＳ以外の衛星測位システム、例えばＧＮＳＳ（Global Navigation Satellite System：全地球航法衛星システム)と呼ばれるシステムを用いた位置情報センサ１９０であってもよい。

制御部２００は、プロセッサ１９が記憶部１８０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２００は、端末装置１０の動作を制御する。制御部２００は、プログラムに従って動作することにより、操作受付部２０１と、送受信部２０２と、表示制御部２０３と、音声受付部２０４と、音声変換部２０５と、音声出力部２０６としての機能を発揮する。

操作受付部２０１は、入力装置１３から入力される指示、又は情報を受け付けるための処理を行う。具体的には、例えば、操作受付部２０１は、タッチセンシティブデバイス１３１等から入力される指示に基づく情報を受け付ける。

送受信部２０２は、端末装置１０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

表示制御部２０３は、ユーザに対する情報のディスプレイ１４１に代表される出力装置１４への表示を制御する。

音声受付部２０４は、ユーザが発する音声を受け付ける。具体的には、例えば、ユーザが発する音声の入力を端末装置１０のマイク１７１で検出し、音声処理部１７０における音声信号のデジタル－アナログ変換処理を行って、音声受付部２０４によってユーザが発した音声が受け付けられる仕様としてもよい。

音声変換部２０５は、音声受付部２０４が受け付けた音声についての音声情報を、テキスト情報に変換する。また、音声受付部２０４は、サーバ２０から受信したテキスト情報を、音声情報に変換する。音声情報とテキスト情報との変換処理は、既存の音声認識技術を採用してもよい。一例として、音声変換部２０５は、ＤＮＮ－ＨＭＭ型音声認識を行ってもよいし、ディープラーニング（深層学習）によるＥｎｄ－ｔｏ－Ｅｎｄモデルでの音声認識を行ってもよい。

音声出力部２０６は、音声変換部２０５が変換した音声情報を出力する。具体的には、例えば、音声出力部２０６は、音声変換部２０５が変換した音声情報を音声処理部１７０へ与える。音声処理部１７０は、受け付けた音声情報に対応する音声信号のスピーカ１７２へ与える。スピーカ１７２は、音声処理部１７０から与えられる音声信号を音声に変換して、端末装置１０の外部へ出力する。

（１－４．サーバ２０の機能構成）
図４は、サーバ２０は、通信部２１０と、記憶部２２０と、制御部２３０を備える。図４においてサーバ２０に含まれる各ブロックは、例えば、バス等により電気的に接続される。

通信部２１０は、サーバ２０が外部の装置と通信するための処理を行う。

記憶部２２０は、例えば、メモリ２５、及びストレージ２６等により実現され、サーバ２０が使用するデータ、及びプログラムを記憶する。

制御部２３０は、プロセッサ２９が記憶部２２０に記憶されるプログラムを読み込み、プログラムに含まれる命令を実行することにより実現される。制御部２３０は、プログラムに従って動作することにより、送受信モジュール２３１、翻訳モジュール２３２を備える。

送受信モジュール２３１は、サーバ２０が、外部の装置と通信プロトコルに従ってデータを送受信するための処理を行う。

翻訳モジュール２３２は、サーバ２０が受信したテキスト情報の翻訳を行う。テキスト情報の翻訳は、既存の機械翻訳の技術を用いることができる。例えば、翻訳モジュール２３２は、深層学習（ディープラーニング）を利用したニューラル機械翻訳を実行する既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳を行ってもよい。

（１－５．データ構造）
図５を参照し、システム１で使用するデータベースのデータ構造を説明する。なお、以下に説明するデータ構造はあくまでも一例であり、他のデータベースおよびデータ項目の保有を除外するものではない。

図５は、端末装置１０の記憶部１８０が記憶するユーザデータベース１８１、アバターデータベース１８２、演出データベース１８３のデータ構造の一例を示す図である。

図５に示すように、ユーザデータベース１８１のレコードは、項目「ユーザＩＤ」と、項目「ユーザ名」と、項目「年齢」と、項目「性別」と、項目「登録日時」等を含む。

項目「ユーザＩＤ」は、ユーザを識別するための識別情報であり、ユーザデータベース１８１におけるレコードを一意に特定するための主キーである

項目「ユーザ名」は、ユーザの名前についての情報である。ユーザ名は、ユーザの本名であってもよいし、ニックネームなどの本人を特定しない情報であってもよい。

項目「年齢」は、ユーザの年齢についての情報である。

項目「性別」は、ユーザの性別についての情報である。

項目「登録日」は、ユーザデータベースに当該レコードが登録された日付についての情報である。

ユーザは、端末装置１０にインストールされた本機能を提供するソフトウェアを利用して、ユーザ情報を登録してユーザデータベース１８１にレコードを追加できる仕様としてもよい。

アバターデータベース１８２のレコードは、項目「アバターＩＤ」と、項目「アバター名」と、項目「年齢」と、項目「性別」と、項目「対応ユーザ」と、項目「対応演出」等を含む。

項目「アバターＩＤ」は、アバターを識別するための識別情報であり、アバターデータベース１８２におけるレコードを一意に特定するための主キーである。

項目「アバター名」は、アバターの名前についての情報である。

項目「年齢」は、アバターの年齢についての情報である。

項目「性別」は、アバターの性別についての情報である。

項目「対応ユーザ」は、アバターに対応付けて登録されるユーザを特定するための情報であり、ユーザデータベース１８１の項目「ユーザＩＤ」が外部キーとして保持される。本実施形態では、１のアバターに対して１のユーザが対応づけられて、アバターデータベース１８２に記憶される。

項目「対応演出」は、アバターに対して適用される演出を特定するための識別情報であり、演出データベース１８３の項目「演出ＩＤ」が外部キーとして保持される。このように、アバターそれぞれに対して適用される演出についての情報が、アバターデータベース１８２に記憶される。

一例として、端末装置１０に本機能を提供するソフトウェアをインストールするタイミングで、初期設定として用意されているレコードを備えるアバターデータベース１８２が生成される仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターデータベース１８２のレコードにおける各項目の内容を更新できる仕様としてもよい。また、ユーザは、当該ソフトウェアを利用して、アバターに関する情報を新たに登録してアバターデータベース１８２にレコードを追加できる仕様としてもよい。

演出データベース１８３のレコードは、項目「演出ＩＤ」と、項目「声色」と、項目「声の高さ」と、項目「語尾」等を含む。

項目「演出ＩＤ」は、アバターに対して適用される演出を識別するための識別情報であり、演出データベース１８３のレコードを一意に特定するための主キーである。

項目「声色」は、アバターの声における音色についての情報であり、具体的には、アバターが発生する音声の音波における波形についての情報である。

項目「声の高さ」は、アバターの声の高さについての情報であり、具体的には、アバターが発生する音声の音波における周波数についての情報である。

項目「語尾」は、アバターの発言に対して末尾に付加される言葉についての情報である。具体的には、「～だよ」、「～じゃ」、「～ぴょん」といった発言内容の語尾に付加され得る言葉についての情報である。

（１－６．処理の流れ）
以下、図６を参照して、システム１の処理の一例を説明する。以下の説明においては、システム１は、端末装置１０として端末装置１０Ａおよび端末装置１０Ｂを備える。

ステップＳ１１１において、端末装置１０Ａの操作受付部２０１は、ユーザからアバターの選択を受け付ける。一例として、ユーザは、アバターの選択に伴い、当該アバターの発声において付加される演出（声色、声の高さ、語尾等）を選択できる仕様としてもよい。操作受付部２０１は、ユーザからアバターおよび演出の選択を受け付けると、記憶部１８０のアバターデータベース１８２にレコードを追加する。

ステップＳ１１２において、端末装置１０Ａの音声受付部２０４は、ユーザが発する音声を受け付ける。音声受付部２０４は、所定の条件が満たされた場合に、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、音声受付部２０４は、ユーザによる端末装置１０への所定の操作を条件として、ユーザが発した音声についての音声情報を取得してもよい。具体的には、端末装置１０のディスプレイ１４１に音声を受け付けるためのボタン等が表示され、ユーザが当該ボタンを押下したことを条件として、音声受付部２０４はユーザが発した音声についての音声情報を取得する仕様としてもよい。

または、音声受付部２０４は、ユーザが特定の発言をしたことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。例えば、予め定められた文章、キーワード、合言葉などの発言を行った場合に、音声受付部２０４は、ユーザが発した音声についての音声情報を取得する仕様としてもよい。他の例として、ユーザが自身に対応付けられているアバターの名前を呼ぶことを条件として、ユーザが発した音声についての音声情報を取得する仕様としてもよい。

ステップＳ１１３において、端末装置１０Ａの音声変換部２０５は、ユーザから受け付けた音声をテキスト情報に変換する。

ステップＳ１１４において、端末装置１０Ａの送受信部２０２は、音声変換部２０５が変換したテキスト情報をサーバ２０へ送信する。ステップＳ１２１において、サーバ２０の送受信モジュール２３１は、端末装置１０Ａからテキスト情報を受信する。

ステップＳ１２２において、サーバ２０の翻訳モジュール２３２は、受信したテキスト情報に対して翻訳処理を実行する。一例として、翻訳モジュール２３２は、機械翻訳を行う既存のソフトウェアまたはライブラリを利用して、テキスト情報の翻訳処理を実行する。

ステップＳ１２３において、サーバ２０の送受信モジュール２３１は、テキスト情報を端末装置１０Ａへ送信する。ステップＳ１３１において、端末装置１０Ｂの送受信部２０２は、テキスト情報をサーバ２０から受信する。

ステップＳ１３２において、端末装置１０Ｂの音声変換部２０５は、サーバ２０から受信したテキスト情報を音声情報に変換する。ステップＳ１３３において、端末装置１０Ｂの音声出力部２０６は、変換された音声情報を音声処理部１７０へ出力することにより、スピーカ１７２から出力する。

（１－７．小括）
以上のようにして、本実施形態では、システム１は、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行し、ユーザが発した音声を受け付けるステップと、受け付けた音声についての音声情報をテキスト情報に変換するステップと、テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した音声情報を、他のユーザに対して出力するステップと、を実行する。このようにすることにより、リアルタイムでのコミュニケーションをより多様な形で行うことが可能となる。

また、システム１では、テキスト情報を端末装置１０とサーバ２０との間で送受信するステップを実行する。このようにすることにより、コンピュータ間でのデータ送受信における負荷を軽減することが可能となる。

また、システム１では、所定の処理として、テキスト情報に対して翻訳処理を実行する。このようにすることにより、受け付けた音声情報を翻訳することが可能となるため、多様なコミュニケーションを実現することができる。

＜２第２実施形態＞
図７および図８を参照して、本開示における第２実施形態を説明する。図７に示すように、第２実施形態では、サーバ２０の制御部２３０は、翻訳モジュール２３２に代わって生成モジュール２３３を備える点で第１実施形態と異なる。以下、第１実施形態との相違点を中心に説明する。

生成モジュール２３３は、テキスト情報に基づいて、アバター同士の会話の内容（以下、会話内容ともいう）を生成する。本実施形態では、生成モジュール２３３は、端末装置１０から受信したテキスト情報に対して自然言語処理を行い、アバター同士の会話内容を生成する。生成モジュール２３３が生成した会話内容は、テキスト情報として端末装置１０へ送信される。端末装置１０は、当該テキスト情報を音声に変換してユーザに対して出力する。

図８に示すように、第２実施形態では、端末装置１０Ａおよび端末装置１０Ｂは、いずれもステップＳ１１２～ステップＳ１１４において、ユーザから受け付けた音声をテキスト情報に変換して、サーバ２０へ送信する。サーバ２０は、ステップＳ１２１においてテキスト情報を受信すると、ステップＳ１２２において、生成処理を行う。

生成処理では、端末装置１０Ａおよび端末装置１０Ｂから受信したテキスト情報に基づいてアバター同士の会話内容がテキスト情報として生成される。ステップＳ１２３において、生成された会話内容が端末装置１０Ａおよび１０Ｂへ送信されると、端末装置１０において音声情報に変換されて音声として出力される。

このようにすることにより、ユーザは、自身の発言に基づいて生成されたアバター同士の会話について、ラジオをきくような体験を味わうことができ、ユーザ体験が向上する。

＜３他の実施形態＞
以上、本発明における実施形態およびその変形例について説明したが、本開示の適用は上述の内容に限定されるものではない。例えば、サーバ２０の制御部２３０は、翻訳モジュール２３２と生成モジュール２３３とをいずれも有しており、生成モジュール２３３が生成したアバター同士の会話内容を、翻訳モジュール２３２が翻訳する仕様としてもよい。

また、上記実施形態では、ボイスチャットを想定しているため、話者と聴取者が同じとなっているが、この態様に限定されることはなく、話者と聴取者が異なってもよい。一例として、ポッドキャストのようなインターネットを利用した音声配信において、複数の話者が参加する場合に、本開示の技術的思想を適用してもよい。

また、上記実施形態では、話者としてのユーザが存在する音声での同期コミュニケーションを想定しているが、この態様に限定されることはない。例えば、話者として対応するユーザが存在しない仮想のキャラクタが複数存在し、当該キャラクタが発する音声は、コンピュータが合成した音声であってもよい。

また上記実施形態において、音声データと合わせて、アバターの口の動きを再現するためのリップシンク情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、口の動きに関するリップシンク情報を生成する。具体的には、リップシンク情報には、入力音声に対する口形の幅や高さに関する情報、および／または入力音声に含まれる各音素の割合に関する情報が含まれ得る。また、音声データと合わせて、音声に対応する字幕情報をサーバ２０へ送信する仕様としてもよい。この場合、ユーザから音声データを受け付けた端末装置１０において、当該音声データの解析を行い、字幕情報を生成する。音声データの解析に基づくリップシンク情報の生成、または字幕情報の生成については、周知の技術を用いて行うことができる。サーバ２０は、受信したリップシンク情報または字幕情報を端末装置１０へ送信し、端末装置１０において、音声データの出力に合わせてアバターの口の動きが再現され、または字幕が表示される。

また、通信回線を介した所定情報の共有は、主にインターネットなどのＷＡＮを介して行われるが、情報処理装置間では、ＷＡＮを介さずにＢｌｕｅｔｏｏｔｈ（登録商標）等の近距離の無線通信、及び赤外線通信等のみを介して行われてもよい。

また、上記実施形態では、各機能を端末装置１０またはサーバ２０が備える態様の一例について説明したが、この形態に限定されることはなく、一部または全部の機能について上記実施形態と異なる態様で端末装置１０、サーバ２０、又は端末装置１０とサーバ２０の両方が備える構成としてもよい。

また、上記実施形態において端末装置１０に実行させるものとして記載されていた各ステップをサーバ２０に実行させてもよく、サーバ２０に実行させるものとして記載されていた各ステップを端末装置１０に実行させてもよい。

さらに、本発明は、上述した端末装置１０またはサーバ２０が備える機能を情報処理装置に実行させるプログラムとして実現してもよいし、当該プログラムを格納する、コンピュータ読み取り可能な非一時的な記録媒体として実現してもよい。

＜付記＞
以上の各実施形態で説明した事項を以下に付記する。
（付記１）
プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、ユーザが発した音声を受け付けるステップと、受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
（付記２）
前記テキスト情報をコンピュータ間で送受信するステップを実行する、付記１に記載のシステム。
（付記３）
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、付記１に記載のシステム。
（付記４）
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、付記１に記載のシステム。
（付記５）
ユーザから前記アバターの選択を受け付ける、付記４に記載のシステム。
（付記６）
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、付記１に記載のシステム。
（付記７）
生成した前記アバターの会話内容に対して翻訳処理を実行する、付記６に記載のシステム。

以上、本開示のいくつかの実施形態を説明したが、これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものとする。

１：システム、１０：端末装置、１３：入力装置、１４：出力装置、１５：メモリ、１６：ストレージ、１９：プロセッサ、２０：サーバ、２５：メモリ、２６：ストレージ、２９：プロセッサ、３０：ネットワーク、１３１：タッチセンシティブデバイス、１４１：ディスプレイ、１５０：通信部、１７０：音声処理部、１７１：マイク、１７２：スピーカ、１８０：記憶部、１８１：ユーザデータベース、１８２：アバターデータベース、１８３：演出データベース、１９０：位置情報センサ、２００：制御部、２０１：操作受付部、２０２：送受信部、２０３：表示制御部、２０４：音声受付部、２０５：音声変換部、２０６：音声出力部、２１０：通信部、２２０：記憶部、２３０：制御部、２３１：送受信モジュール、２３２：翻訳モジュール、２３３：生成モジュール。

Claims

プロセッサを有するコンピュータを備え、ユーザ間のボイスチャットによるコミュニケーションを実現するための処理を実行するシステムであって、
ユーザが発した音声を受け付けるステップと、
受け付けた前記音声についての音声情報をテキスト情報に変換するステップと、
前記テキスト情報に所定の処理を実行した後に、音声情報に変換するステップと、
変換した前記音声情報を、他のユーザに対して出力するステップと、を実行する、システム。
前記テキスト情報をコンピュータ間で送受信するステップを実行する、請求項１に記載のシステム。
前記所定の処理として、前記テキスト情報に対して翻訳処理を実行する、請求項１に記載のシステム。
前記出力するステップでは、ユーザに対応するアバターの音声で、他のユーザに対して出力する、請求項１に記載のシステム。
ユーザから前記アバターの選択を受け付ける、請求項４に記載のシステム。
前記所定の処理として、前記テキスト情報に基づいて、アバター同士の会話内容を生成し、生成した会話の内容を音声情報に変換するステップを実行する、請求項１に記載のシステム。
生成した前記アバターの会話内容に対して翻訳処理を実行する、請求項６に記載のシステム。
プロセッサと、メモリとを備えるコンピュータに実行される方法であって、前記プロセッサが、請求項１から請求項７のいずれかに係る発明において実行される全てのステップを実行する、方法。
プロセッサと、メモリとを備えるコンピュータに、請求項１から請求項７のいずれかに係る発明において実行される全てのステップを実行させる、プログラム。
制御部と、記憶部とを備える情報処理装置であって、前記制御部が、請求項１から請求項７のいずれかに係る発明において実行される全てのステップを実行する、情報処理装置。