Nothing Special   »   [go: up one dir, main page]

JP2019138988A - 情報処理システム、情報処理方法、及びプログラム - Google Patents

情報処理システム、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP2019138988A
JP2019138988A JP2018020599A JP2018020599A JP2019138988A JP 2019138988 A JP2019138988 A JP 2019138988A JP 2018020599 A JP2018020599 A JP 2018020599A JP 2018020599 A JP2018020599 A JP 2018020599A JP 2019138988 A JP2019138988 A JP 2019138988A
Authority
JP
Japan
Prior art keywords
text
conference
cpu
instruction
command
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018020599A
Other languages
English (en)
Inventor
啓水 奥間
Hiromi Okuma
啓水 奥間
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2018020599A priority Critical patent/JP2019138988A/ja
Publication of JP2019138988A publication Critical patent/JP2019138988A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】音声認識で得られた発話テキストに含まれる音声コマンドに相当するテキストを不要なテキストとしてすべて削除すると、音声コマンドに含まれる会議に主要な内容が音声コマンドに含まれている場合、その内容を議事録に残せないという課題があった。【解決手段】会議における発話内容を音声認識して議事録を作成する際に、発話された音声コマンドのうち、命令部に応じて、ヘッダ部、命令部、データ部の中から削除する範囲を決定し、議事録に残す必要のあるコマンドは、削除せずに、残すようにする。【選択図】図11

Description

本発明は、人の発話を音声認識してテキスト化する情報処理システムに関するものであり、特に、会議におけるユーザの発話内容から議事録を生成する議事録生成システムに関するものである。
従来、人の発話を音声認識してテキスト化するディクテーション技術がある。特許文献1には、人の発話を音声認識してテキスト化し、要約することで、議事録を生成するシステムが開示されている。特許文献1の技術によれば、人の発話から取得したテキスト(以下、「発話テキスト」と言う)を要約して議事録を作成することができる。
また、人がシステムに実行してもらいたい処理をコマンド形式で発話することによって、コマンドに応じた処理をシステムで実行できる音声操作技術がある。この一例として、システムの設定(出力音量等)を変更する音声操作がある。しかし、音声操作のためにコマンドを発話すると、音声認識によって、発話テキストにコマンドに相当するテキストが含まれてしまう。そのため特許文献2では、音声入力ワープロシステムにおいて、音声認識してテキスト化した結果から、コマンドに相当するテキストを不要なテキストとして削除する技術が開示されている。これにより、文書とは関係のないコマンドが文書内に残らないようにすることができる。
特許第5104762号 特開2000−76241号公報
しかしながら、コマンド内にも削除すべきでないテキストが含まれる場合がある。例えば、特許文献1のようなシステムにおいて、会議の場で参加者に対して行う作業の依頼(以下、「アクションアイテム」と言う)や、会議において決定した事項(以下、「決定事項」と言う」)を、音声コマンドで登録できるような機能を想定したとする。このとき、従来技術のように発話テキスト内に含まれるコマンドを不要なテキストとして削除すると、コマンドに含まれるアクションアイテムや決定事項といったテキストが発話テキストから削除される。そのため、発話テキストから生成した議事録に、音声コマンドを用いて登録した、アクションアイテムや決定事項などの、会議の主要な内容が残らないという課題があった。
本発明は、発話された音声データを音声認識してテキストにする音声認識手段と、前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出手段と、前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置である。
会議における発話内容を音声認識して議事録を作成する際に、発話された音声コマンドのうち、議事録に残す必要のあるコマンドは、削除せずに、残すことができる。
会議システムの構成例を示す図である。 会議装置と会議サーバの構成例を示すブロック図である。 表示デバイスに表示される画面例である。 会議情報のデータ構成例である。 会議情報を記録する手順を示すフローチャートである。 議事録元情報のデータ構成例である。 議事録元情報のデータ構成例である。 議事録を生成する手順を示すフローチャートである。 生成される議事録の概要である。 会議テキストを要約する手順を示すフローチャートである。 音声コマンドの命令を管理するためのデータ構成例である。 音声コマンド処理の手順を示すフローチャートである。 音声コマンドの削除処理の手順を示すフローチャートである。 音声コマンドのヘッダ部を削除する際の動作例である。 音声コマンドのヘッダ部と命令部を削除する際の動作例である。 音声コマンドのヘッダ部と命令部とデータ部を削除する際の動作例である。
以下、本発明の実施例について図面を用いて説明する。
図1は、情報処理システムとしての会議システムの構成を示す図である。
会議システム100は、会議装置101と会議サーバ102より構成される。会議装置101と会議サーバ102はネットワーク103を介して接続されている。
会議装置101は、音声認識装置としての情報処理装置の一例であり、例えば一般的なPC(Personal Computer)である。
会議装置101は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置101は、会議中に発生する音声や画像など複数の種類のデータ(以下、「会議情報」と言う)を記録する。そして、会議装置101は、会議情報を会議サーバ102に送信する。
なお、図1において、会議システム100は、会議装置101と会議サーバ102を一台ずつ備えているが、会議装置101や会議サーバ102を、それぞれ、複数台備えるように構成してもよい。
また、図1では、会議装置101と会議サーバ102とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。
会議装置101は、例えばオフィスや所定の会場等において開催される会議を記録することを想定している。しかし、本発明が適用対象とする会議は、オフィスや所定の会場等において開催される狭義の会議には限定されず、複数の人物の視認/発声行動を伴うような集まりであればよい。例えば、面接や、取り調べ等も、本発明の適用対象となる会議に相当する。
会議サーバ102は、一般的なPCやクラウドサーバである。会議サーバ102は、会議装置101から会議情報を受信し、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議情報に含まれる画像データを文字認識してテキストを生成する。そして、これらテキストを含む情報を解析・加工して、議事録を生成し、作成した議事録を配信する。
図2は、図1の会議装置101および会議サーバ102のハードウェア構成例を示すブロック図である。
図2(a)で、会議装置101は、CPU201、ROM202、RAM204、ストレージ205、入力デバイス206、表示デバイス207、外部インターフェース208、カメラデバイス209、マイクデバイス210、スピーカデバイス211を備える。これら各デバイスは、データバス203を介して相互にデータを送受信することができる。なお、CPUは、Central Processing Unit の略称である。RAMは、Random Access Memory の略称である。ROMは、Read Only Memory の略称である。
CPU201は、会議装置全体を制御するためのコントローラである。CPU201は、不揮発メモリであるROM202に格納されているブートプログラムによりOS(Operating System)を起動する。CPU201は、OSの上で、ストレージ205に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置全体を制御するプログラムである。CPU201は、データバス203などのバスを介して各デバイスを制御する。
RAM204は、CPU201のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ205は、読み出しと書き込みが可能な、記録手段としての不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置101は、会議情報を会議サーバ102へ送信するまでの間、ストレージ205に会議情報を記録する。
入力デバイス206は、タッチパネルやハードキー、マウスなどから構成される入力装置である。また、表示デバイス207は、LCDなどの表示装置である。入力デバイス206は、ユーザから操作の指示を受け付けると、指示をCPU201に伝達する。
表示デバイス207は、CPU201が生成した表示画像データを画面上に表示する。CPU201は、入力デバイス206から受信した指示情報と、表示デバイス207に表示させている表示画像データとに基づいて、操作を判定する。CPU201は、判定結果に応じて、会議装置101を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス207に表示させる。
外部インターフェース208は、LANや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器と各種データの送信あるいは受信を行う。
カメラデバイス209は、動画や画像を撮影することができる手段である。具体的には、いわゆるデジタルカメラなどがその一例である。
マイクデバイス210は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、WAVE形式などの音声データとして取得する。
スピーカデバイス211は、外部に音を出力することができる装置である。
図2(b)で、会議サーバ102は、CPU251、ROM252、RAM254、ストレージ255、入力デバイス256、表示デバイス257、外部インターフェース258を備える。各デバイスは、データバス253を介して相互にデータを送受信することができる。
CPU251は、この会議サーバ全体を制御するためのコントローラである。CPU251は、不揮発メモリであるROM252に格納されているブートプログラムによりOSを起動する。CPU251は、OSの上で、ストレージ255に記憶されている会議サーバプログラムを実行することより、会議サーバ102の各処理を実現する。CPU251は、データバス253などのバスを介して各部を制御する。
RAM254は、CPU251のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ255は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。
入力デバイス256および表示デバイス257は、図2(a)で説明した入力デバイス206および表示デバイス207と同様である。
外部インターフェース258は、図2(a)で説明した外部インターフェース208と同様である。
次に、会議システム100が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。
図3は、会議装置101の表示デバイス207の表示例を示す。
図3(a)に示す画面300は、会議開始前に表示される画面である。
「開始」ボタン301は、ユーザが会議装置101に会議の開始を指示するためのものである。CPU201は、入力デバイス206を介して「開始」ボタン301への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。そして、CPU201は、会議情報の記録を開始する。
図3(b)に示す画面310は、会議中に表示する画面である。
「撮影」ボタン311は、ユーザが会議装置101に撮影を要求する指示をするためのものである。CPU201は、入力デバイス206を介して「撮影」ボタン311への指示を受け付けると、図3(c)に示す画面320を表示デバイス207に表示させる。
「アジェンダ」ボタン312は、ユーザが会議装置101にアジェンダを変更(開始や終了)する指示をするためのものである。CPU201は、入力デバイス206を介して「アジェンダ」ボタン312への指示を受け付けると、図3(d)に示す画面330を表示デバイス207に表示させる。
「音量」ボタン313は、ユーザが会議装置101に音量の変更を要求する指示をするためのものである。CPU201は、入力デバイス206を介して「音量」ボタン313への指示を受け付けると、図3(e)に示す画面340を表示デバイス207に表示させる。
「終了」ボタン314は、ユーザが会議装置101に会議を終了する指示をするためのものである。CPU201は、入力デバイス206を介して「終了」ボタン314への指示を受け付けると、図3(f)に示す画面350を表示デバイス207に表示させる。
図3(c)に示す画面320は、撮影をする際に表示される画面である。図示のようにカメラデバイス209により得られる被写体の映像が表示される。ユーザは、映像を見ながら、文字が記入されたホワイトボードや紙が、会議装置101の撮影画角に収まるよう調整することができる。
CPU201は、入力デバイス206を介して画面320の任意箇所への指示を受け付けると、カメラデバイス209により被写体を撮影して画像データを取得する。
「OK」ボタン321は、ユーザが会議装置101に撮影の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン321への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
図3(d)に示す画面330は、アジェンダの変更を指示する際に表示する画面である。
テキストフィールド331は、ユーザが会議装置101にアジェンダ名を登録するためのものである。ユーザは入力デバイス206を介して、テキストフィールド331に所望のアジェンダ名を入力することができる。
「開始」ボタン332は、ユーザが会議装置101に新しいアジェンダの開始を指示するためのものである。
「終了」ボタン333は、ユーザが会議装置101に現在のアジェンダの終了を指示するためのものである。なお、終了したアジェンダの名称はテキストエリア334にリスト表示される。
「OK」ボタン335は、ユーザが会議装置101にアジェンダ変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン335への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
図3(e)に示す画面340は、音量の変更を指示する際に表示する画面である。
図示のように、ユーザはスライドバー341を操作して会議装置101の出力音量を調整することができる。「OK」ボタン342は、ユーザが会議装置101に、音量変更の終了を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン342への指示を受け付けると、図3(b)に示す画面310を表示デバイス207に表示させる。
図3(f)に示す画面350は、会議を終了する際に表示する画面である。
テキストフィールド351は、ユーザが会議装置101に、会議システム100が作成する議事録の送信先を指示するためのものである。ユーザは入力デバイス206を介して、テキストフィールド351に、所望の送信先を入力することができる。送信先としては、例えば、メールアドレスを入力することができる。
「OK」ボタン352は、ユーザが会議装置101に会議終了の確定を指示するためのものである。CPU201は、入力デバイス206を介して「OK」ボタン352への指示を受け付けると、図3(a)に示す画面300を表示デバイス207に表示させる。
そして、会議装置101は、会議情報の記録を終了し、会議情報を会議サーバ102へ送信する。その後、会議サーバ102は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。
次に、会議装置101によって記録される会議情報について説明する。
図4は、会議装置101がストレージ205に記録する会議情報の構成例を示すものである。
図4(a)に示す音声情報テーブル400は、会議装置101が録音して取得する音声に関する情報(以下、「音声情報」と言う)を記録するデータテーブルである。会議装置101は、会議中の会話を録音し、音声データを記録する。
録音開始時刻列401には、録音開始時刻(会議開始時刻)を記録する。録音終了時刻列402には、録音終了時刻(会議終了時刻)を記録する。音声データ列403には、ストレージ205に記録された音声データのファイル名を記録する。
図4(b)に示す画像情報テーブル410は、会議装置101が撮影して取得する画像に関する情報(以下、「画像情報」と言う)を記録するデータテーブルである。会議装置101は、被写体を撮影して画像データを取得し、ファイルとしてストレージ205に記録する。
撮影時刻列411には、撮影時刻を記録する。画像データ列412には、ストレージ205に記録した画像データのファイル名を記録する。
図4(c)に示すアジェンダ情報テーブル420は、会議装置101が記録するアジェンダに関する情報(以下、「アジェンダ情報」と言う)を記録するデータテーブルである。
アジェンダ開始時刻列421には、アジェンダの開始時刻を記録する。アジェンダ終了時刻列422には、アジェンダの終了時刻を記録する。アジェンダ名列423には、アジェンダ名を記録する。
次に、会議装置101の会議情報を記録するための処理について説明する。
図5は、会議情報を記録するための処理を示すフローチャートである。
会議装置101の電源キー(不図示)を操作して電源をONにすると、CPU201は、ストレージ205に記録されているコントローラプログラムを読み込む。そして、コントローラプログラムをRAM204に展開して実行する。これにより、会議装置101は会議情報記録処理を実行することが可能となる。また、CPU201は、画面300の表示画像データを生成して、表示デバイス207に表示させる。
まず、S501において、CPU201は、会議を開始する指示がなされたか否かを判定する。
「開始」ボタン301への指示がなされていたら、YESと判定し、S502に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。「開始」ボタン301への指示がなされていなければ、NOと判定し、S522に遷移する。
S502において、CPU201は、マイクデバイス210により、会話の録音を開始する。これにより、CPU201は音声データを取得する。そして、CPU201は、音声情報テーブル400の録音開始時刻列401に、録音開始時刻として現在の時刻を記録する。
また、CPU201は、音声データを、ファイルとしてストレージ205に記録し始める。CPU201は、音声データのファイル名を、音声情報テーブル400の音声データ列403に記録する。なお、録音開始時刻は会議開始時刻に相当する。
S503において、CPU201は、音声コマンドを検出するために、音声コマンド処理を実行する。
本実施例の音声コマンドはヘッダ部、命令部、データ部の3つの部分で構成される。
1つ目のヘッダ部は、会議装置101に対して音声コマンドの発話が開始されることを示すための部分である。
具体的に言うと、ヘッダ部は、「Hey」のような、音声コマンドの開始を示す発話である。ヘッダ部として用いる発話の文言は、予め会議装置101におけるストレージ205に登録しておく。
2つ目の命令部は、会議装置101に実行させる命令の種類を表す部分である。
命令部としては、図11の命令部の文字列1101に示すような発話が用いられる。
具体的な命令の種類としては、AIへ登録するための「AI」、会議における決定事項を登録するための「決定事項」、などがある。さらに、決定事項を削除するための「決定事項削除」、アジェンダを開始するための「アジェンダ開始」、撮影を指示するための「撮影」、音量を変更するための「音量」、などもある。
命令部として用いられる文言は、図11のような命令部データテーブル1100で予め登録しておく。命令部データテーブル1100は、会議装置101のストレージ205及び会議サーバ102のストレージ255で保持される。
命令部の文字列1101は、ユーザが会議装置101に対して発話する命令部の文字列を表す列である。命令内容列1102は、会議装置101が実行する命令の指示内容を表す列である。データ部有無列1103は、命令がデータ部を有するか否かを表す列である。データ部を有する場合は「有」、データ部を持たない場合は「無」で管理される。削除範囲列1104は、音声コマンドを構成する部分のうち、発話テキストから削除する範囲を表す列である。
3つ目のデータ部は、会議装置101に実行させる命令の内容を表す部分である。
データ部としては、例えば、ユーザが会議における決定事項を登録する場合の「案2で進める」、音量を変更する場合の「10上げる」などの発話が、これに相当する。
命令部が決定事項を削除するための「決定事項削除」である場合など、データ部を含まない音声コマンドも存在する。
なお、データ部は、内容の性質上、予め登録されているものではない。
例えば、ユーザは、決定事項を登録したい場合、「Hey、決定事項、案2で進める。」のように、ヘッダ部(Hey)、命令部(決定事項)、データ部(案2で進める)の順に発話する。
また、アジェンダの開始を会議装置101に対して指示したい場合は、「Hey、アジェンダ開始、来年度予算について。」のように、ヘッダ部(Hey)、命令部(アジェンダ開始)、データ部(来年度予算について)の順に発話する。
同様に、撮影を指示する場合は、「Hey(ヘッダ部)、撮影(命令部)。」のように、音量の変更を指示する場合は、「Hey(ヘッダ部)、音量(命令部)、10上げる(データ部)。」のように、発話する。
なお、ここで示した発話する音声コマンドの文言や構成は一例であり、本実施例に記載の処理が実行できれば、どのような文言や構成であってもよい。
音声コマンド処理の具体的なフローについては、図12に示す。
図12は、会議装置101における音声コマンドの処理を示すフローチャートである。
まず、S1201において、CPU201は、音声データを取得して音声認識を実行し、認識結果テキストに追記する。
ここで、音声データは、ユーザの発話区間単位で取得する。発話区間とは、ある無音区間と次の無音区間の間の区間である。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。S1201で音声認識した結果のテキストは、順次認識結果テキストに追記する。
S1202において、CPU201は、認識結果テキストに新たに追記されたテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置101におけるストレージ205に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1203に遷移する。含まれていない場合、NOと判定し、処理を終了する。
S1203において、CPU201は、ヘッダ部に続くテキストに音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置101のストレージ205に保持された命令部データテーブル1100の命令部の文字列1101と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1204に遷移する。含まれていない場合、NOと判定し、処理を終了する。
S1204において、CPU201は、S1203で検出した音声コマンドの命令がデータ部を有するか否かを判定する。判定では、S1203で検出したテキストと命令部の文字列1101とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列1103を参照し「有」の場合、YESと判定し、S1205に遷移する。「無」の場合は、NOと判定し、S1206に遷移する。
S1205において、CPU201は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから発話区間の終了(句読点)までに、テキストが含まれているか否かに基づいて判定する。
含まれている場合、YESと判定し、S1206に遷移する。含まれていない場合、NOと判定し、処理を終了する。
S1206において、CPU201は、命令部データテーブル1100を参照し、検出したコマンドの命令内容を特定する。命令部データテーブル1100の命令部の文字列1101のうち、S1203で判定した際の、ヘッダ部に続くテキストと一致するレコードを特定し、特定されたレコードの命令内容列1101を参照して命令内容を特定する。
図12のフローチャートに示す音声コマンド処理が終了すると、図5の会議情報の記録処理に戻る。
そして、S504において、CPU201は、撮影を要求する指示がなされたか否かを判定する。
画面310で「撮影」ボタン311への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が撮影要求指示であった場合、YESと判定し、S505に遷移する。このとき、CPU201は、画面320の表示画像データを生成して、表示デバイス207に表示させる。
「撮影」ボタン311への指示がなされていなければ、NOと判定し、S508に遷移する。
S505において、CPU201は、撮影の指示がなされたか否かを判定する。
画面320で任意の箇所への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が撮影要求指示であった場合、YESと判定し、S506に遷移する。
画面320で任意の箇所への指示がなされていなければ、NOと判定し、S507に遷移する。
S506において、CPU201は、カメラデバイス209により被写体を撮影して画像データを取得する。また、CPU201は、画像情報テーブル410にレコードを追加して、撮影時刻列411に現在の時刻を記録する。また、CPU201は、画像データをファイルとしてストレージ205に記録する。CPU201は、当該画像データのファイル名を、画像情報テーブル410の画像データ列412に記録する。
S507において、CPU201は、撮影を終了する指示がなされたか否かを判定する。
画面320で「OK」ボタン321への指示がなされていたら、YESと判定し、S504に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。
「OK」ボタン321への指示がなされていなければ、NOと判定し、S505に遷移する。
S508において、CPU201は、アジェンダを変更する指示がなされたか否かを判定する。
画面310で「アジェンダ」ボタン312への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダの開始指示又は終了指示であった場合、YESと判定し、S509に遷移する。このとき、CPU201は、画面330の表示画像データを生成して、表示デバイス207に表示させる。
「アジェンダ」ボタン312への指示がなされていなければ、NOと判定し、S514に遷移する。
S509において、CPU201は、アジェンダを開始する指示がなされたか否かを判定する。
画面330で「開始」ボタン332への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、YESと判定し、S510に遷移する。
「開始」ボタン332への指示がなされていなければ、NOと判定し、S511に遷移する。
S510において、CPU201は、新しいアジェンダを開始する。CPU201は、アジェンダ情報テーブル420にレコードを追加して、アジェンダ開始時刻列421に現在の時刻を記録する。また、S503において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、音声コマンドの認識結果として受信したアジェンダ名をアジェンダ名列423に記録する。
S511において、CPU201は、アジェンダを終了する指示がなされたか否かを判定する。
画面330で「終了」ボタン333への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容がアジェンダ終了指示であった場合、YESと判定し、S512に遷移する。
「終了」ボタン333への指示がなされていなければ、NOと判定し、S513に遷移する。
S512において、CPU201は、現在のアジェンダを終了する。CPU201は、アジェンダ情報テーブル420のアジェンダ終了時刻列422に現在の時刻を記録する。また、テキストフィールド331に入力されたアジェンダ名をアジェンダ名列423に記録する。
S513において、CPU201は、アジェンダ変更を終了する指示がなされたか否を判定する。
画面330で「OK」ボタン335への指示がなされていれば、YESと判定し、S504に遷移する。このとき、CPU201は、画面310の表示画像データを生成して、表示デバイス207に表示させる。
「OK」ボタン335への指示がなされていなければ、NOと判定し、S509に遷移する。
S514において、CPU201は、音量を変更する指示がなされたか否かを判定する。
画面310で「音量」ボタン311への指示がなされていた場合、もしくは、S503において特定した音声コマンドの命令内容が音量変更指示であった場合、YESと判定し、S515に遷移する。
指示がなされていなければNOと判定し、S518に遷移する。
S515において、CPU201は、現在の音量を表示する。具体的には、会議装置101のストレージ205に保持された現在の音量を画面330でスライドバー341として表示する。
S516において、CPU201は、音量変更を終了する指示がなされたか否を判定する。
画面340で「OK」ボタン342への指示、もしくはS503において受信した音声コマンドの命令内容が音量変更指示であった場合、YESと判定し、S517に遷移する。
指示がなされていなければ、NOと判定し、再度S516の処理を行う。
S517において、CPU201は、設定された音量を保存する。具体的には、スライドバー341で設定された音量、もしくは音声コマンドで指示された音量をストレージ205に保存する。
S518において、CPU201は、会議を終了する指示がなされたか否かを判定する。
画面310で「終了」ボタン313への指示がなされていれば、YESと判定し、S519に遷移する。このとき、CPU201は、画面340の表示画像データを生成して、表示デバイス207に表示させる。
「終了」ボタン313への指示がなされていなければ、NOと判定し、S504に遷移する。
S519において、CPU201は、マイクデバイス210による会議の録音を終了する。CPU201は、音声情報テーブル400の録音終了時刻列402に現在の時刻を記録する。なお、このとき、アジェンダ情報テーブル420に、アジェンダ終了時刻列422に終了時刻が記録されていないレコードがあれば、アジェンダ終了時刻として現在の時刻をアジェンダ終了時刻列422に記録する。
S520において、CPU201は、会議の終了を確定する指示がなされたか否かを判定する。
画面340でテキストフィールド341に送信先が入力され、かつ「OK」ボタン342への指示がなされていれば、YESと判定し、S521に遷移する。
テキストフィールド341に送信先が入力されていない、あるいは、「OK」ボタン342への指示がなされていなければ、NOと判定し、再度S520の処理を行う。なお、テキストフィールド341に入力された送信先は、会議情報の一部として記録する。
S521において、CPU201は、以上の処理によりストレージ205に記録した会議情報を、外部インターフェース208を介して、会議サーバ102に送信する。なお、送信後は、会議情報をストレージ205から削除してもよい。また、CPU201は、画面300の表示画像データを生成して、表示デバイス207に表示させる。
S522において、CPU201は、電源をオフする指示がなされたか否かを判定する。
会議装置101の電源キー(不図示)への指示がなされていれば、YESと判定し、処理を終了する。会議装置101の電源キーへの指示がなされていなければ、NOと判定し、S501に遷移する。
次に、図6と図7を用いて、会議サーバ102が会議装置101から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図6と図7は、会議サーバ102がストレージ255に記録する議事録元情報の構成例を示すものである。
図6(a)に示す発話情報テーブル600は、会議情報に含まれる音声データを音声認識した結果に関する情報(以下、「発話情報」と言う)を記録するデータテーブルである。発話情報テーブル600は、音声データが解析されてユーザの発話が特定されると、発話毎に生成される。
発話時刻列601は、発話が発生した時刻(以下、「発話時刻」と言う)を記録するものである。発話テキスト列602は、発話を音声認識して取得した発話テキストを記録するものである。発話や発話時刻の特定については後述する。
図6(b)に示す記入情報テーブル610は、会議情報に含まれる画像データを文字認識した結果に関する情報(以下、「記入情報」と言う)を記録するデータテーブルである。記入情報テーブル610は、画像データが解析されてユーザによる記入が特定されると、記入毎に生成される。
記入時刻列611は、記入が発生した時刻(以下、「記入時刻」と言う)を記録するものである。記入テキスト列612は、画像データを文字認識して取得した記入テキストを記録するものである。記入や記入時刻の特定については後述する。
図6(c)に示す会議テキスト情報テーブル620は、会議において発生したテキスト(以下、「会議テキスト」と言う)に関する情報(以下、「会議テキスト情報」と言う)を記録するデータテーブルである。
会議テキスト情報は、図6(a)に示す発話情報と図6(b)に示す記入情報を統合して生成するものである。
発生時刻列621は、会議テキスト情報が発生した時刻を記録するものであり、発話時刻601または記入時刻611の時刻を記録する。
会議テキスト列622は、会議テキストを記録するものであり、発話テキスト列602または記入テキスト列612のテキストを記録する。
区分列623は、そのレコードが、統合前に発話情報であったのか記入情報であったのかを記録するものである。発話情報であった場合には「0」を記録し、記入情報であった場合には「1」を記録する。
要点列624は、そのレコードの会議テキスト列622の会議テキストが要点であるか否かを記録するものである。ここで「要点」とは、アクションアイテムや決定事項など、その会議の主要な内容を示すものである。要点である場合には「1」を記録し、そうでない場合には「0」を記録する。
なお、会議テキスト情報テーブル620のレコードは、発生時刻列621の値で昇順に(発生した順に)ソートする。
図7に示す要約情報テーブル700は、図6(c)に示す会議テキストを要約した情報(以下、「要約情報」と言う)を記録したデータテーブルである。要約情報は、会議テキスト情報テーブル620の会議テキスト列622の会議テキストから、アジェンダ毎に生成されて、要約情報テーブル700に記録される。
アジェンダ名列701は、要約情報のアジェンダ名を記録するものである。要約テキスト列702は、生成した要約テキストを記録するものである。
次に、会議サーバ102が議事録を生成する処理について説明する。
図8は、議事録を生成する処理を示すフローチャートである。会議サーバ102が起動すると、CPU251は、ストレージ255に記録されている会議サーバプログラムを読み込む。そして、会議サーバプログラムをRAM254に展開して実行する。これにより、会議サーバ102は議事録生成処理を実行することが可能となる。
まず、S801において、CPU251は、会議情報を受信したか否かを判定する。
CPU251が、外部インターフェース258を介して、会議装置101から会議情報を受信しているならば、YESと判定し、S802に遷移する。外部インターフェース258を介して、会議装置101から会議情報を受信していなければ、NOと判定し、S810に遷移する。
S802において、CPU251は、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを取得する。ここで、音声認識を行うため、CPU251は、音声データを先頭から走査して、次の処理を行う。
まず、CPU251は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。CPU251は、個々の発話区間について、音声認識を行って発話テキストを取得する。
次に、CPU251は、会議情報の音声情報テーブル400の録音開始時刻列401の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を計算する。
このようにして取得した発話区間毎に、発話情報テーブル600のレコードを生成する。そして、該当する発話時刻と発話テキストを、それぞれ、発話時刻列601と発話テキスト列602に記録する。
S803において、CPU251は、取得した発話テキストから音声コマンドを削除する処理を行う。削除処理のフローの詳細な説明は図13で後述する。
S804において、CPU251は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを取得する。ここで、文字認識を行うため、CPU251は、会議情報に含まれる画像情報テーブル410のレコードを順に走査して、次の処理を行う。
画像情報テーブル410のレコードは、撮影時刻列411の値で昇順に(撮影した順に)ソートしておく。CPU251は、現在参照しているレコードの画像データ列412が示す画像データと、ひとつ前のレコードの画像データ列412が示す画像データとの画像の差分を求める。画像の差分は、ひとつ前のレコードに該当する撮影から、現在参照しているレコードに該当する撮影までの間に、ユーザが記入した文字を含む、部分画像とみなすことができる。この部分画像に対して文字認識を行い、記入テキストを取得する。
また、CPU251は、現在参照しているレコードの撮影時刻列411の撮影時刻を、画像の差分が発生した時刻、すなわちユーザによる記入が行われた記入時刻とする。
このようにして取得された画像の差分(ユーザによる記入)毎に、CPU251は、記入情報テーブル610にレコードを生成する。そして、該当する記入時刻と記入テキストを、それぞれ記入時刻列611と記入テキスト列612に記録する。
S805において、CPU251は、発話テキストと記入テキストを統合して、会議テキストを取得する。すなわち、CPU251は、S802で生成した発話情報テーブル600(図6(a))とS804で生成した記入情報テーブル610(図6(b))とを統合して、会議テキスト情報テーブル620(図6(c))を生成する。
ここで、CPU251は、発話情報テーブル600に含まれるレコードを会議テキスト情報テーブル620に追加する。このとき、発話時刻列601の発話時刻を会議テキストが発生した時刻として発生時刻列621に、発話テキスト列602の発話テキストを会議テキストとして会議テキスト列622に、それぞれ記録する。区分列623には、元のデータが発話情報であったことを示す「0」を記録する。
また、CPU251は、記入情報テーブル610に含まれるレコードを会議テキスト情報テーブル620に追加する。このとき、記入時刻列611の記入時刻を会議テキストが発生した時刻として発生時刻列621に、記入テキスト列612の記入テキストを会議テキストとして会議テキスト列622に、それぞれ記録する。区分列623には、元のデータが記入情報であったことを示す「1」を記録する。CPU251は、以上追加したレコードを発生時刻列621の値で昇順に(発生した順に)ソートする。
S806において、CPU251は、S805で生成した会議テキストから要点を抽出する。
CPU251は、S805において会議テキスト情報テーブル620に追加した各レコードについて、会議テキスト列622の会議テキストが要点であるか否かを判定する。例えば、会議テキストが予め決定した特定のキーワードを含むか否かに基づいて判定する。会議テキストに特定のキーワードが含まれていれば、要点であると判定する。また、音声コマンドを用いて、AIや決定事項の登録指示を行った会議テキストである場合、要点であると判定する。
会議テキストが要点である場合には、要点列624に「1」を記録し、そうでない場合は「0」を記録する。
S807において、CPU251は、S805で生成した会議テキストを要約する。CPU251は、会議情報のアジェンダ情報テーブル420のレコードを順に走査して、次の処理を行う。
アジェンダ情報テーブル420のレコードは、アジェンダ開始時刻列421の値で昇順に(アジェンダの開始順に)ソートしておく。CPU251は、現在参照しているレコードのアジェンダ開始時刻列421のアジェンダ開始時刻から、アジェンダ終了時刻列422のアジェンダ終了時刻までの期間を取得する。
そして、会議テキスト情報テーブル620から発生時刻列621の値が当該期間に該当するレコード群を抽出する。CPU251は、それらレコード群の会議テキスト列622のテキストを要約して要約テキストを生成する。そして、要約情報テーブル700にレコードを追加して、要約テキスト列702に生成した要約テキストを記録する。
また、現在参照しているアジェンダ情報テーブル420のレコードのアジェンダ名列423のアジェンダ名を、要約情報テーブル700に追加したレコードのアジェンダ名701に記録する。
S808において、CPU251は、以上のようにして取得した議事録元情報および会議情報に基づいて議事録を生成する。
ここで、図9を用いて、S808で作成する議事録について説明する。図9は、議事録の概要を示す図である。
議事録900は、議事を示す議事テキストデータ910と、添付画像データ群920からなる。
議事テキストデータ910には、会議開催時間911、要点一覧912、アジェンダ名913、915、要約テキスト914、916が含まれる。
会議開催時間911は、音声情報テーブル400の録音開始時刻列401の録音開始時刻(会議開始時刻)と、録音終了時刻列402の録音終了時刻(会議終了時刻)から生成される。要点一覧912は、会議テキスト情報テーブル620のレコードであり、要点列624が「1」(要点)であるレコードの会議テキスト622の一覧である。
アジェンダ名913、915は、要約情報テーブル700のアジェンダ名列701のアジェンダ名である。要約テキスト914、916は、要約情報テーブル700の要約テキスト702である。
また、添付画像データ群920は、会議情報に含まれる画像データを含む。
S809において、CPU251は、議事録を、会議情報に含まれる送信先に送信する。
送信方法としては、例えば、電子メールで送信することができる。CPU251は、電子メール本文に議事テキストデータ910を入力し、添付ファイルに添付画像データ群920を入力して、電子メールを送信する。
S810において、CPU251は、終了の指示がなされたか否かを判定する。
ユーザは、例えば、外部インターフェース258を介して、別体のPCから会議サーバ102に終了を指示することができる。
終了指示がなされていたら、YESと判定し、処理を終了する。終了指示がなされていなければ、NOと判定し、S801に遷移する。
ここで、図10を用いて、S807で生成する要約テキストについて説明する。
図10(a)は、要約テキストを生成する処理の一例を示すフローチャートである。本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル620の複数のレコードである。
S1001において、CPU251は、入力されたレコード全てを参照し、会議テキスト列622の会議テキストに出現する各単語について、その重要度を算出する。これは、例えば、各単語の出現頻度に基づいて算出することができる。
S1002において、CPU251は、入力された各レコードの会議テキスト列622の会議テキストについて、それぞれその重要度を算出する。具体的には、S1001で算出した各単語の重要度を参照し、各会議テキストに含まれる単語の重要度の合計値を算出することなどにより、会議テキストの重要度を算出する。
S1003において、CPU251は、重要度が閾値以上の会議テキストを抽出する。そして、これらの会議テキストを結合して要約テキストを生成する。そして、本処理の結果として、処理呼び出し元に要約テキストを返す。
ところで、会議においては、ホワイトボードなどの記入媒体には、論点や重要な意見を記載する場合がある。これらの内容は議事として重要なので、記入テキストを要約テキストに優先的に反映するようにしてもよい。
例えば、S1003において、CPU251は、入力されたレコードの区分列623の値を確認する。値が「1」(元のデータが記入情報である場合)ならば、重要度が閾値以上か否かに関わらず、当該レコードの会議テキスト列622の会議テキストを要約テキストの一部として抽出するようにしてもよい。
あるいは、記入テキストを要約テキストに優先的に反映する処理の例として、次のように要約テキスト生成処理を実行してもよい。
図10(b)は、要約テキストを生成する処理の別の例を示すフローチャートである。図10(a)のフローチャートと同様に、本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル620の複数のレコードである。
S1011において、CPU251は、入力されたレコードのうち、区分列623が「1」(元のデータが記入情報である場合)のレコードを参照して、会議テキスト列622の会議テキストに含まれる単語のリスト(以下、「記入単語リスト」と言う)を作成する。
S1012において、CPU251は、S1001と同様の処理を行う。
S1013において、CPU251は、S1002と同様の処理を行う。
S1014において、CPU251は、S1011で作成した記入単語リストを参照して、S1013で算出した会議テキストの重要度を更新する。すなわち、入力された各レコードの会議テキスト列622の会議テキストについて、記入単語リストの単語を含む場合には、当該会議テキストの重要度にバイアスを加える。
S1015において、CPU251は、S1003と同様の処理を行う。
あるいは、S1014において、対象の会議テキストが記入単語リストの単語を含む場合には、重要度の最大値を付与するようにし、S1015で当該会議テキストが要約テキストの一部として抽出されるようにしてもよい。
次に、発話テキストから音声コマンドを削除する処理について説明する。
図13は、会議サーバ102における音声コマンドを削除する処理を示すフローチャートである。
まず、S1301において、CPU251は、発話テキストから発話区間分のテキストを取得する。
S1302において、CPU251は、取得したテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ102のストレージ255に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かを判定する。
含まれている場合、YESと判定し、S1303に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
S1303において、CPU251は、ヘッダ部に続いて、音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ102のストレージ255に保持された命令部データテーブル1100の命令部の文字列1101と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かを判定する。
含まれている場合、YESと判定し、S1304に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
S1304において、CPU251は、S1303で検出した音声コマンドの命令がデータ部を有するか否かを判定する。具体的には、S1303で検出したテキストと命令部の文字列1101とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列1103を参照し「有」の場合、YESと判定し、S1305に遷移する。「無」の場合は、NOと判定し、S1306に遷移する。
S1305において、CPU251は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから、発話区間の終了(句読点)までに、テキストが含まれているか否かを判定する。
含まれている場合、YESと判定し、S1306に遷移する。含まれていない場合、NOと判定し、S1312に遷移する。
S1306において、CPU251は、命令部データテーブル1100の削除範囲1104を参照し、検出したコマンドの削除範囲を特定する。
S1307において、CPU251は、S1302で検出したヘッダ部に相当するテキストを発話テキストから削除する。例えば、会議サーバ102のストレージ255に予め保持された、ヘッダ部に相当する「Hey」という文字列と一致する箇所を削除する。
S1308において、CPU251は、発話テキストから命令部を削除するか否かを判定する。S1306において特定した削除範囲に命令部が含まれる場合、YESと判定し、S1309に遷移する。含まれない場合、NOと判定し、S1310に遷移する。
S1309において、CPU251は、S1303で検出した命令部に相当するテキストを発話テキストから削除する。
S1310において、CPU251は、発話テキストからデータ部を削除するか否かを判定する。S1306において特定した削除範囲にデータ部が含まれる場合、YESと判定し、S1311に遷移する。含まれない場合、NOと判定し、S1312に遷移する。
S1311において、CPU251は、S1305で検出したデータ部に相当するテキストを発話テキストから削除する。
S1312において、CPU251は、発話テキストに含まれるテキストを全て走査したか否かを判定する。
全て走査した場合、YESと判定し、処理を終了する。まだ走査を全て終了していない場合は、S1301に遷移する。
図14は、発話テキストから音声コマンドのヘッダ部を削除する動作例を示す図である。
本動作は、図14(a)に示すように、例えば、ユーザが決定事項を登録するための発話を行った場合に実行される。
この例では、「Hey、決定事項、Dさんは見直し案を作成する。」という発話(図14(a))に対して、ヘッダ部(Hey)を削除した、「決定事項、Dさんは見直し案を作成する。」というテキスト(図14(b))が生成される。
本動作は、上述の例以外にも、図11に示すように、AIへの登録指示、アジェンダの開始指示、アジェンダの終了指示、などを行う場合にも実行される。
会議サーバ102は、S801において会議装置101から会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図14(a)のような発話テキスト1400が得られるものとする。発話テキスト1400に示されるテキストは、音声認識された結果の一部であり、内容はヘッダ部を削除する動作を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1400から発話区間のテキスト1401が取得された場合を説明する。
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。ここでは、発話区間のテキスト1401には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1401には、「決定事項」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「決定事項」であるレコードを参照すると、ここでは、データ部有無列1103が「有」であるため、判定がYESとなり、S1305に遷移する。
S1305において、CPU251は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1401には、命令部に相当する「決定事項」に続くテキストとして、「Dさんは見直し案を作成する。」というテキストが含まれているため、判定がYESとなり、S1306に遷移する。
S1306において、命令部データテーブル1100を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「決定事項」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部であると特定される。
S1307において、CPU251は、発話区間のテキスト1401からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、CPU251は、命令部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はNOとなり、S1310に遷移する。
S1310において、CPU251は、データ部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はNOとなり、S1312に遷移する。
以上の処理が実行されると、図14(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部が削除されたテキスト1402が得られる。
図15は、発話テキストから音声コマンドのヘッダ部と命令部を削除する動作例を示す図である。
本動作は、図15(a)に示すように、例えば、ユーザが決定事項を削除するための発話を行った場合に実行される。
この例では、「Hey、決定事項削除。」という発話(図15(a))に対して、ヘッダ部(Hey)と命令部(決定事項削除)がいずれも削除される(図15(b))。
本動作は、上述の例以外にも、図11に示すように、AIへの削除指示、撮影の指示、などを行う場合にも実行される。
会議サーバ102は、S801において会議装置101からの会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図15(a)のような発話テキスト1500が得られるものとする。発話テキスト1500に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1500から発話区間のテキスト1501が取得された場合を説明する。
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1501には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1501には「決定事項削除」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「決定事項削除」であるレコードを参照すると、データ部有無列1103が「無」であるため、判定がNOとなり、S1306に遷移する。
S1306において、命令部データテーブル1100を参照し、コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「決定事項削除」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部と命令部であると特定される。
S1307において、発話区間のテキスト1501からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はYESとなり、S1309に遷移する。
S1309において、発話区間のテキスト1501から命令部に相当する「決定事項削除」というテキストを削除する。
S1310において、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はNOとなり、S1312に遷移する。
以上の処理が実行されると、図15(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部が削除されたテキスト1502が得られる。
図16は、発話テキストから音声コマンドのヘッダ部と命令部とデータ部を削除する動作例を示す図である。
本動作は、図16(a)に示すように、例えば、音量の変更を指示するための発話を行った場合に実行される。
この例では、「Hey、音量、10上げる。」という発話(図16(a))に対して、ヘッダ部(Hey)、命令部(音量)、データ部(10上げる)がいずれも削除される(図16(b))。
会議サーバ102は、S801において会議装置101からの会議情報に含まれる音声データを受信し、S802において音声データを音声認識して、図16(a)のような発話テキスト1600が得られるものとする。発話テキスト1600に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、S803において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図13のフローチャートに示すとおりである。
S1301において、CPU251は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト1600から発話区間のテキスト1601が取得された場合を説明する。
S1302において、CPU251は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1601には、会議サーバ102のストレージ255に予め保持された「Hey」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がYESとなり、S1303に遷移する。
S1303において、CPU251は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Hey」に続くテキストと、命令部データテーブル1100の命令部の文字列1101とを比較する。そうすると、発話区間のテキスト1601には「音量」という命令部に相当するテキストが含まれているため、判定がYESとなり、S1304に遷移する。
S1304において、CPU251は、検出した命令部がデータ部を有するか否かを判定する。図11で命令部の文字列1101が「音量」であるレコードを参照すると、データ部有無列1103が「有」であるため、判定がYESとなり、S1305に遷移する。
S1305において、CPU251は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト1601には、命令部に相当する「音量」に続くテキストとして、「10上げる。」というテキストが含まれているため、判定がYESとなり、S1306に遷移する。
S1306において、CPU251は、命令部データテーブル1100を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル1100の命令部の文字列1101が「音量」であるレコードの削除範囲列1104を参照すると、削除範囲はヘッダ部と命令部とデータ部であると特定される。
S1307において、CPU251は、発話区間のテキスト1601からヘッダ部に相当する「Hey」というテキストを削除する。
S1308において、CPU251は、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はYESとなり、S1309に遷移する。
S1309において、CPU251は、発話区間のテキスト1601から命令部に相当する「音量」というテキストを削除する。
S1310において、CPU251は、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はYESとなり、S1311に遷移する。
S1311において、CPU251は、発話区間のテキスト1601から命令部に続くテキストである「10上げる。」というテキストを削除し、S1312に遷移する。
以上の処理が実行されると、図16(b)のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部とデータ部が削除されたテキスト1602が得られる。
以上、本実施例に示したとおり、音声コマンドとして発話したテキストのうち、議事録に不要なテキストを削除し、議事録に必要なテキストを発話テキストに残すことができる。
(その他の実施例)
本発明は、上述の実施例の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、1つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 会議システム
101 会議装置
102 会議サーバ
600 発話情報テーブル
700 要約情報テーブル
900 議事録
1100 命令部データテーブル
1400 発話テキスト

Claims (11)

  1. 発話された音声データを音声認識してテキストにする音声認識手段と、
    前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出手段と、
    前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出手段と、
    前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出手段と、
    前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置。
  2. 前記決定手段が決定する前記削除範囲は、前記命令部に応じて、予め記録手段に登録されていることを特徴とする請求項1に記載の情報処理装置。
  3. 前記決定手段が決定する前記削除範囲は、前記命令部に応じて、ヘッダ部、ヘッダ部と命令部、ヘッダ部と命令部とデータ部、のうちのいずれかであることを特徴とする請求項1または2に記載の情報処理装置。
  4. 前記ヘッダ部として用いられる文言は、予め記録手段に登録されていることを特徴とする請求項1から3のいずれか1項に記載の情報処理装置。
  5. 前記命令部として用いられる文言は、予め記録手段に登録されていることを特徴とする請求項1から4のいずれか1項に記載の情報処理装置。
  6. 前記テキストから前記削除範囲を削除した内容に基づいて、会議において発生する会議情報を記録することを特徴とする請求項1から5のいずれか1項に記載の情報処理装置。
  7. 情報処理装置により撮影された画像に基づいて、会議において発生する会議情報を記録することを特徴とする請求項1から6のいずれか1項に記載の情報処理装置。
  8. 前記会議情報に基づいて前記会議の議事録を生成することを特徴とする請求項6または7に記載の情報処理装置。
  9. 前記議事録をユーザが指示するアジェンダごとに生成することを特徴とする請求項8に記載の情報処理装置。
  10. 発話された音声データを音声認識してテキストにする音声認識工程と、
    前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第1の検出工程と、
    前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第2の検出工程と、
    前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第3の検出工程と、
    前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定工程と、を有することを特徴とする情報処理方法。
  11. 請求項10に記載の情報処理方法をコンピュータにより実行させるためのプログラム。
JP2018020599A 2018-02-08 2018-02-08 情報処理システム、情報処理方法、及びプログラム Pending JP2019138988A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018020599A JP2019138988A (ja) 2018-02-08 2018-02-08 情報処理システム、情報処理方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018020599A JP2019138988A (ja) 2018-02-08 2018-02-08 情報処理システム、情報処理方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2019138988A true JP2019138988A (ja) 2019-08-22

Family

ID=67695299

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018020599A Pending JP2019138988A (ja) 2018-02-08 2018-02-08 情報処理システム、情報処理方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2019138988A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112020003618T5 (de) 2019-07-29 2022-04-14 Alps Alpine Co., Ltd. Formteil

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE112020003618T5 (de) 2019-07-29 2022-04-14 Alps Alpine Co., Ltd. Formteil

Similar Documents

Publication Publication Date Title
JP6870242B2 (ja) 会議支援システム、会議支援装置、及び会議支援方法
JP4710331B2 (ja) プレゼンテーション用アプリケーションをリモートコントロールするための装置,方法,プログラム及び記録媒体
JP2019101754A (ja) 要約装置及びその制御方法、要約システム、プログラム
JP4364251B2 (ja) 対話を検出する装置、方法およびプログラム
CN101998107B (zh) 信息处理装置、会议系统和信息处理方法
JP5144424B2 (ja) 撮像装置及び情報処理方法
JP7279494B2 (ja) 会議支援装置、および会議支援システム
JP2019053566A (ja) 表示制御装置、表示制御方法及びプログラム
JP7427408B2 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP4469867B2 (ja) コミュニケーションの状況を管理する装置、方法およびプログラム
CN117897930A (zh) 用于混合在线会议的流式数据处理
JP2019152758A (ja) 会議システム、会議システムの制御方法、並びにプログラム
US20050209849A1 (en) System and method for automatically cataloguing data by utilizing speech recognition procedures
JP2019139571A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2010109898A (ja) 撮影制御装置、撮影制御方法及びプログラム
JP2019139572A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2005345616A (ja) 情報処理装置及び情報処理方法
JP2020052511A (ja) 要約生成装置、要約生成方法、及びプログラム
JP2019138988A (ja) 情報処理システム、情報処理方法、及びプログラム
JPWO2020003785A1 (ja) 音声処理装置、音声処理方法及び記録媒体
JP2019105740A (ja) 会議システム、要約装置、会議システムの制御方法、要約装置の制御方法、並びにプログラム
JP2019149083A (ja) 議事録生成装置、議事録生成方法、及びプログラム
JP2021156907A (ja) 情報処理装置および情報処理方法
US20230403174A1 (en) Intelligent virtual event assistant
JP2019138989A (ja) 情報処理装置、情報処理方法、及びプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20180306