JP2019138988A

JP2019138988A - 情報処理システム、情報処理方法、及びプログラム

Info

Publication number: JP2019138988A
Application number: JP2018020599A
Authority: JP
Inventors: 啓水奥間; Hiromi Okuma
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2018-02-08
Filing date: 2018-02-08
Publication date: 2019-08-22

Abstract

【課題】音声認識で得られた発話テキストに含まれる音声コマンドに相当するテキストを不要なテキストとしてすべて削除すると、音声コマンドに含まれる会議に主要な内容が音声コマンドに含まれている場合、その内容を議事録に残せないという課題があった。【解決手段】会議における発話内容を音声認識して議事録を作成する際に、発話された音声コマンドのうち、命令部に応じて、ヘッダ部、命令部、データ部の中から削除する範囲を決定し、議事録に残す必要のあるコマンドは、削除せずに、残すようにする。【選択図】図１１

Description

本発明は、人の発話を音声認識してテキスト化する情報処理システムに関するものであり、特に、会議におけるユーザの発話内容から議事録を生成する議事録生成システムに関するものである。

従来、人の発話を音声認識してテキスト化するディクテーション技術がある。特許文献１には、人の発話を音声認識してテキスト化し、要約することで、議事録を生成するシステムが開示されている。特許文献１の技術によれば、人の発話から取得したテキスト（以下、「発話テキスト」と言う）を要約して議事録を作成することができる。

また、人がシステムに実行してもらいたい処理をコマンド形式で発話することによって、コマンドに応じた処理をシステムで実行できる音声操作技術がある。この一例として、システムの設定（出力音量等）を変更する音声操作がある。しかし、音声操作のためにコマンドを発話すると、音声認識によって、発話テキストにコマンドに相当するテキストが含まれてしまう。そのため特許文献２では、音声入力ワープロシステムにおいて、音声認識してテキスト化した結果から、コマンドに相当するテキストを不要なテキストとして削除する技術が開示されている。これにより、文書とは関係のないコマンドが文書内に残らないようにすることができる。

特許第５１０４７６２号特開２０００−７６２４１号公報

しかしながら、コマンド内にも削除すべきでないテキストが含まれる場合がある。例えば、特許文献１のようなシステムにおいて、会議の場で参加者に対して行う作業の依頼（以下、「アクションアイテム」と言う）や、会議において決定した事項（以下、「決定事項」と言う」）を、音声コマンドで登録できるような機能を想定したとする。このとき、従来技術のように発話テキスト内に含まれるコマンドを不要なテキストとして削除すると、コマンドに含まれるアクションアイテムや決定事項といったテキストが発話テキストから削除される。そのため、発話テキストから生成した議事録に、音声コマンドを用いて登録した、アクションアイテムや決定事項などの、会議の主要な内容が残らないという課題があった。

本発明は、発話された音声データを音声認識してテキストにする音声認識手段と、前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第１の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第２の検出手段と、前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第３の検出手段と、前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置である。

会議における発話内容を音声認識して議事録を作成する際に、発話された音声コマンドのうち、議事録に残す必要のあるコマンドは、削除せずに、残すことができる。

会議システムの構成例を示す図である。会議装置と会議サーバの構成例を示すブロック図である。表示デバイスに表示される画面例である。会議情報のデータ構成例である。会議情報を記録する手順を示すフローチャートである。議事録元情報のデータ構成例である。議事録元情報のデータ構成例である。議事録を生成する手順を示すフローチャートである。生成される議事録の概要である。会議テキストを要約する手順を示すフローチャートである。音声コマンドの命令を管理するためのデータ構成例である。音声コマンド処理の手順を示すフローチャートである。音声コマンドの削除処理の手順を示すフローチャートである。音声コマンドのヘッダ部を削除する際の動作例である。音声コマンドのヘッダ部と命令部を削除する際の動作例である。音声コマンドのヘッダ部と命令部とデータ部を削除する際の動作例である。

以下、本発明の実施例について図面を用いて説明する。
図１は、情報処理システムとしての会議システムの構成を示す図である。
会議システム１００は、会議装置１０１と会議サーバ１０２より構成される。会議装置１０１と会議サーバ１０２はネットワーク１０３を介して接続されている。

会議装置１０１は、音声認識装置としての情報処理装置の一例であり、例えば一般的なＰＣ（Personal Computer）である。
会議装置１０１は、例えば会議テーブル上のように、会議室などの会議開催場所に配置される。会議装置１０１は、会議中に発生する音声や画像など複数の種類のデータ（以下、「会議情報」と言う）を記録する。そして、会議装置１０１は、会議情報を会議サーバ１０２に送信する。
なお、図１において、会議システム１００は、会議装置１０１と会議サーバ１０２を一台ずつ備えているが、会議装置１０１や会議サーバ１０２を、それぞれ、複数台備えるように構成してもよい。
また、図１では、会議装置１０１と会議サーバ１０２とを別離した装置として記載しているが、両装置の機能を備えた単一の装置として構成されてもよい。

会議装置１０１は、例えばオフィスや所定の会場等において開催される会議を記録することを想定している。しかし、本発明が適用対象とする会議は、オフィスや所定の会場等において開催される狭義の会議には限定されず、複数の人物の視認／発声行動を伴うような集まりであればよい。例えば、面接や、取り調べ等も、本発明の適用対象となる会議に相当する。

会議サーバ１０２は、一般的なＰＣやクラウドサーバである。会議サーバ１０２は、会議装置１０１から会議情報を受信し、会議情報に含まれる音声データを音声認識してテキストを生成する。また、会議情報に含まれる画像データを文字認識してテキストを生成する。そして、これらテキストを含む情報を解析・加工して、議事録を生成し、作成した議事録を配信する。

図２は、図１の会議装置１０１および会議サーバ１０２のハードウェア構成例を示すブロック図である。
図２（ａ）で、会議装置１０１は、ＣＰＵ２０１、ＲＯＭ２０２、ＲＡＭ２０４、ストレージ２０５、入力デバイス２０６、表示デバイス２０７、外部インターフェース２０８、カメラデバイス２０９、マイクデバイス２１０、スピーカデバイス２１１を備える。これら各デバイスは、データバス２０３を介して相互にデータを送受信することができる。なお、ＣＰＵは、Central Processing Unit の略称である。ＲＡＭは、Random Access Memory の略称である。ＲＯＭは、Read Only Memory の略称である。

ＣＰＵ２０１は、会議装置全体を制御するためのコントローラである。ＣＰＵ２０１は、不揮発メモリであるＲＯＭ２０２に格納されているブートプログラムによりＯＳ（Operating System）を起動する。ＣＰＵ２０１は、ＯＳの上で、ストレージ２０５に記録されているコントローラプログラムを実行する。コントローラプログラムは、会議装置全体を制御するプログラムである。ＣＰＵ２０１は、データバス２０３などのバスを介して各デバイスを制御する。
ＲＡＭ２０４は、ＣＰＵ２０１のメインメモリやワークエリア等の一時記憶領域として動作するものである。ストレージ２０５は、読み出しと書き込みが可能な、記録手段としての不揮発メモリであり、前述のコントローラプログラムを保存する。また、会議装置１０１は、会議情報を会議サーバ１０２へ送信するまでの間、ストレージ２０５に会議情報を記録する。

入力デバイス２０６は、タッチパネルやハードキー、マウスなどから構成される入力装置である。また、表示デバイス２０７は、ＬＣＤなどの表示装置である。入力デバイス２０６は、ユーザから操作の指示を受け付けると、指示をＣＰＵ２０１に伝達する。
表示デバイス２０７は、ＣＰＵ２０１が生成した表示画像データを画面上に表示する。ＣＰＵ２０１は、入力デバイス２０６から受信した指示情報と、表示デバイス２０７に表示させている表示画像データとに基づいて、操作を判定する。ＣＰＵ２０１は、判定結果に応じて、会議装置１０１を制御するとともに、操作内容に応じて新たな表示画像データを生成し、表示デバイス２０７に表示させる。

外部インターフェース２０８は、ＬＡＮや電話回線、赤外線といった近接無線などのネットワークを介して、別体の外部機器と各種データの送信あるいは受信を行う。
カメラデバイス２０９は、動画や画像を撮影することができる手段である。具体的には、いわゆるデジタルカメラなどがその一例である。
マイクデバイス２１０は、入力された音声をデジタル信号化する手段である。例えば、ユーザが発話した音声を、ＷＡＶＥ形式などの音声データとして取得する。
スピーカデバイス２１１は、外部に音を出力することができる装置である。

図２（ｂ）で、会議サーバ１０２は、ＣＰＵ２５１、ＲＯＭ２５２、ＲＡＭ２５４、ストレージ２５５、入力デバイス２５６、表示デバイス２５７、外部インターフェース２５８を備える。各デバイスは、データバス２５３を介して相互にデータを送受信することができる。

ＣＰＵ２５１は、この会議サーバ全体を制御するためのコントローラである。ＣＰＵ２５１は、不揮発メモリであるＲＯＭ２５２に格納されているブートプログラムによりＯＳを起動する。ＣＰＵ２５１は、ＯＳの上で、ストレージ２５５に記憶されている会議サーバプログラムを実行することより、会議サーバ１０２の各処理を実現する。ＣＰＵ２５１は、データバス２５３などのバスを介して各部を制御する。
ＲＡＭ２５４は、ＣＰＵ２５１のメインメモリやワークエリア等の一時記憶領域として動作する。ストレージ２５５は、読み出しと書き込みが可能な不揮発メモリであり、前述の会議サーバプログラムを保存する。

入力デバイス２５６および表示デバイス２５７は、図２（ａ）で説明した入力デバイス２０６および表示デバイス２０７と同様である。
外部インターフェース２５８は、図２（ａ）で説明した外部インターフェース２０８と同様である。

次に、会議システム１００が提示し、ユーザが参照・操作するユーザインターフェースについて説明する。
図３は、会議装置１０１の表示デバイス２０７の表示例を示す。

図３（ａ）に示す画面３００は、会議開始前に表示される画面である。
「開始」ボタン３０１は、ユーザが会議装置１０１に会議の開始を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「開始」ボタン３０１への指示を受け付けると、図３（ｂ）に示す画面３１０を表示デバイス２０７に表示させる。そして、ＣＰＵ２０１は、会議情報の記録を開始する。

図３（ｂ）に示す画面３１０は、会議中に表示する画面である。
「撮影」ボタン３１１は、ユーザが会議装置１０１に撮影を要求する指示をするためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「撮影」ボタン３１１への指示を受け付けると、図３（ｃ）に示す画面３２０を表示デバイス２０７に表示させる。

「アジェンダ」ボタン３１２は、ユーザが会議装置１０１にアジェンダを変更（開始や終了）する指示をするためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「アジェンダ」ボタン３１２への指示を受け付けると、図３（ｄ）に示す画面３３０を表示デバイス２０７に表示させる。

「音量」ボタン３１３は、ユーザが会議装置１０１に音量の変更を要求する指示をするためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「音量」ボタン３１３への指示を受け付けると、図３（ｅ）に示す画面３４０を表示デバイス２０７に表示させる。

「終了」ボタン３１４は、ユーザが会議装置１０１に会議を終了する指示をするためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「終了」ボタン３１４への指示を受け付けると、図３（ｆ）に示す画面３５０を表示デバイス２０７に表示させる。

図３（ｃ）に示す画面３２０は、撮影をする際に表示される画面である。図示のようにカメラデバイス２０９により得られる被写体の映像が表示される。ユーザは、映像を見ながら、文字が記入されたホワイトボードや紙が、会議装置１０１の撮影画角に収まるよう調整することができる。

ＣＰＵ２０１は、入力デバイス２０６を介して画面３２０の任意箇所への指示を受け付けると、カメラデバイス２０９により被写体を撮影して画像データを取得する。
「ＯＫ」ボタン３２１は、ユーザが会議装置１０１に撮影の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３２１への指示を受け付けると、図３（ｂ）に示す画面３１０を表示デバイス２０７に表示させる。

図３（ｄ）に示す画面３３０は、アジェンダの変更を指示する際に表示する画面である。
テキストフィールド３３１は、ユーザが会議装置１０１にアジェンダ名を登録するためのものである。ユーザは入力デバイス２０６を介して、テキストフィールド３３１に所望のアジェンダ名を入力することができる。
「開始」ボタン３３２は、ユーザが会議装置１０１に新しいアジェンダの開始を指示するためのものである。
「終了」ボタン３３３は、ユーザが会議装置１０１に現在のアジェンダの終了を指示するためのものである。なお、終了したアジェンダの名称はテキストエリア３３４にリスト表示される。
「ＯＫ」ボタン３３５は、ユーザが会議装置１０１にアジェンダ変更の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３３５への指示を受け付けると、図３（ｂ）に示す画面３１０を表示デバイス２０７に表示させる。

図３（ｅ）に示す画面３４０は、音量の変更を指示する際に表示する画面である。
図示のように、ユーザはスライドバー３４１を操作して会議装置１０１の出力音量を調整することができる。「ＯＫ」ボタン３４２は、ユーザが会議装置１０１に、音量変更の終了を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３４２への指示を受け付けると、図３（ｂ）に示す画面３１０を表示デバイス２０７に表示させる。

図３（ｆ）に示す画面３５０は、会議を終了する際に表示する画面である。
テキストフィールド３５１は、ユーザが会議装置１０１に、会議システム１００が作成する議事録の送信先を指示するためのものである。ユーザは入力デバイス２０６を介して、テキストフィールド３５１に、所望の送信先を入力することができる。送信先としては、例えば、メールアドレスを入力することができる。

「ＯＫ」ボタン３５２は、ユーザが会議装置１０１に会議終了の確定を指示するためのものである。ＣＰＵ２０１は、入力デバイス２０６を介して「ＯＫ」ボタン３５２への指示を受け付けると、図３（ａ）に示す画面３００を表示デバイス２０７に表示させる。
そして、会議装置１０１は、会議情報の記録を終了し、会議情報を会議サーバ１０２へ送信する。その後、会議サーバ１０２は、受信した会議情報を解析・加工して議事録を生成し、送信先に送信する。

次に、会議装置１０１によって記録される会議情報について説明する。
図４は、会議装置１０１がストレージ２０５に記録する会議情報の構成例を示すものである。

図４（ａ）に示す音声情報テーブル４００は、会議装置１０１が録音して取得する音声に関する情報（以下、「音声情報」と言う）を記録するデータテーブルである。会議装置１０１は、会議中の会話を録音し、音声データを記録する。
録音開始時刻列４０１には、録音開始時刻（会議開始時刻）を記録する。録音終了時刻列４０２には、録音終了時刻（会議終了時刻）を記録する。音声データ列４０３には、ストレージ２０５に記録された音声データのファイル名を記録する。

図４（ｂ）に示す画像情報テーブル４１０は、会議装置１０１が撮影して取得する画像に関する情報（以下、「画像情報」と言う）を記録するデータテーブルである。会議装置１０１は、被写体を撮影して画像データを取得し、ファイルとしてストレージ２０５に記録する。
撮影時刻列４１１には、撮影時刻を記録する。画像データ列４１２には、ストレージ２０５に記録した画像データのファイル名を記録する。

図４（ｃ）に示すアジェンダ情報テーブル４２０は、会議装置１０１が記録するアジェンダに関する情報（以下、「アジェンダ情報」と言う）を記録するデータテーブルである。
アジェンダ開始時刻列４２１には、アジェンダの開始時刻を記録する。アジェンダ終了時刻列４２２には、アジェンダの終了時刻を記録する。アジェンダ名列４２３には、アジェンダ名を記録する。

次に、会議装置１０１の会議情報を記録するための処理について説明する。
図５は、会議情報を記録するための処理を示すフローチャートである。
会議装置１０１の電源キー（不図示）を操作して電源をＯＮにすると、ＣＰＵ２０１は、ストレージ２０５に記録されているコントローラプログラムを読み込む。そして、コントローラプログラムをＲＡＭ２０４に展開して実行する。これにより、会議装置１０１は会議情報記録処理を実行することが可能となる。また、ＣＰＵ２０１は、画面３００の表示画像データを生成して、表示デバイス２０７に表示させる。

まず、Ｓ５０１において、ＣＰＵ２０１は、会議を開始する指示がなされたか否かを判定する。
「開始」ボタン３０１への指示がなされていたら、ＹＥＳと判定し、Ｓ５０２に遷移する。このとき、ＣＰＵ２０１は、画面３１０の表示画像データを生成して、表示デバイス２０７に表示させる。「開始」ボタン３０１への指示がなされていなければ、ＮＯと判定し、Ｓ５２２に遷移する。

Ｓ５０２において、ＣＰＵ２０１は、マイクデバイス２１０により、会話の録音を開始する。これにより、ＣＰＵ２０１は音声データを取得する。そして、ＣＰＵ２０１は、音声情報テーブル４００の録音開始時刻列４０１に、録音開始時刻として現在の時刻を記録する。
また、ＣＰＵ２０１は、音声データを、ファイルとしてストレージ２０５に記録し始める。ＣＰＵ２０１は、音声データのファイル名を、音声情報テーブル４００の音声データ列４０３に記録する。なお、録音開始時刻は会議開始時刻に相当する。

Ｓ５０３において、ＣＰＵ２０１は、音声コマンドを検出するために、音声コマンド処理を実行する。
本実施例の音声コマンドはヘッダ部、命令部、データ部の３つの部分で構成される。
１つ目のヘッダ部は、会議装置１０１に対して音声コマンドの発話が開始されることを示すための部分である。
具体的に言うと、ヘッダ部は、「Ｈｅｙ」のような、音声コマンドの開始を示す発話である。ヘッダ部として用いる発話の文言は、予め会議装置１０１におけるストレージ２０５に登録しておく。

２つ目の命令部は、会議装置１０１に実行させる命令の種類を表す部分である。
命令部としては、図１１の命令部の文字列１１０１に示すような発話が用いられる。
具体的な命令の種類としては、ＡＩへ登録するための「ＡＩ」、会議における決定事項を登録するための「決定事項」、などがある。さらに、決定事項を削除するための「決定事項削除」、アジェンダを開始するための「アジェンダ開始」、撮影を指示するための「撮影」、音量を変更するための「音量」、などもある。
命令部として用いられる文言は、図１１のような命令部データテーブル１１００で予め登録しておく。命令部データテーブル１１００は、会議装置１０１のストレージ２０５及び会議サーバ１０２のストレージ２５５で保持される。
命令部の文字列１１０１は、ユーザが会議装置１０１に対して発話する命令部の文字列を表す列である。命令内容列１１０２は、会議装置１０１が実行する命令の指示内容を表す列である。データ部有無列１１０３は、命令がデータ部を有するか否かを表す列である。データ部を有する場合は「有」、データ部を持たない場合は「無」で管理される。削除範囲列１１０４は、音声コマンドを構成する部分のうち、発話テキストから削除する範囲を表す列である。

３つ目のデータ部は、会議装置１０１に実行させる命令の内容を表す部分である。
データ部としては、例えば、ユーザが会議における決定事項を登録する場合の「案２で進める」、音量を変更する場合の「１０上げる」などの発話が、これに相当する。
命令部が決定事項を削除するための「決定事項削除」である場合など、データ部を含まない音声コマンドも存在する。
なお、データ部は、内容の性質上、予め登録されているものではない。

例えば、ユーザは、決定事項を登録したい場合、「Ｈｅｙ、決定事項、案２で進める。」のように、ヘッダ部（Ｈｅｙ）、命令部（決定事項）、データ部（案２で進める）の順に発話する。
また、アジェンダの開始を会議装置１０１に対して指示したい場合は、「Ｈｅｙ、アジェンダ開始、来年度予算について。」のように、ヘッダ部（Ｈｅｙ）、命令部（アジェンダ開始）、データ部（来年度予算について）の順に発話する。
同様に、撮影を指示する場合は、「Ｈｅｙ（ヘッダ部）、撮影（命令部）。」のように、音量の変更を指示する場合は、「Ｈｅｙ（ヘッダ部）、音量（命令部）、１０上げる（データ部）。」のように、発話する。
なお、ここで示した発話する音声コマンドの文言や構成は一例であり、本実施例に記載の処理が実行できれば、どのような文言や構成であってもよい。
音声コマンド処理の具体的なフローについては、図１２に示す。

図１２は、会議装置１０１における音声コマンドの処理を示すフローチャートである。
まず、Ｓ１２０１において、ＣＰＵ２０１は、音声データを取得して音声認識を実行し、認識結果テキストに追記する。
ここで、音声データは、ユーザの発話区間単位で取得する。発話区間とは、ある無音区間と次の無音区間の間の区間である。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。Ｓ１２０１で音声認識した結果のテキストは、順次認識結果テキストに追記する。

Ｓ１２０２において、ＣＰＵ２０１は、認識結果テキストに新たに追記されたテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置１０１におけるストレージ２０５に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かに基づいて判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１２０３に遷移する。含まれていない場合、ＮＯと判定し、処理を終了する。

Ｓ１２０３において、ＣＰＵ２０１は、ヘッダ部に続くテキストに音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。
具体的には、会議装置１０１のストレージ２０５に保持された命令部データテーブル１１００の命令部の文字列１１０１と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かに基づいて判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１２０４に遷移する。含まれていない場合、ＮＯと判定し、処理を終了する。

Ｓ１２０４において、ＣＰＵ２０１は、Ｓ１２０３で検出した音声コマンドの命令がデータ部を有するか否かを判定する。判定では、Ｓ１２０３で検出したテキストと命令部の文字列１１０１とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列１１０３を参照し「有」の場合、ＹＥＳと判定し、Ｓ１２０５に遷移する。「無」の場合は、ＮＯと判定し、Ｓ１２０６に遷移する。

Ｓ１２０５において、ＣＰＵ２０１は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから発話区間の終了（句読点）までに、テキストが含まれているか否かに基づいて判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１２０６に遷移する。含まれていない場合、ＮＯと判定し、処理を終了する。

Ｓ１２０６において、ＣＰＵ２０１は、命令部データテーブル１１００を参照し、検出したコマンドの命令内容を特定する。命令部データテーブル１１００の命令部の文字列１１０１のうち、Ｓ１２０３で判定した際の、ヘッダ部に続くテキストと一致するレコードを特定し、特定されたレコードの命令内容列１１０１を参照して命令内容を特定する。

図１２のフローチャートに示す音声コマンド処理が終了すると、図５の会議情報の記録処理に戻る。
そして、Ｓ５０４において、ＣＰＵ２０１は、撮影を要求する指示がなされたか否かを判定する。
画面３１０で「撮影」ボタン３１１への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容が撮影要求指示であった場合、ＹＥＳと判定し、Ｓ５０５に遷移する。このとき、ＣＰＵ２０１は、画面３２０の表示画像データを生成して、表示デバイス２０７に表示させる。
「撮影」ボタン３１１への指示がなされていなければ、ＮＯと判定し、Ｓ５０８に遷移する。

Ｓ５０５において、ＣＰＵ２０１は、撮影の指示がなされたか否かを判定する。
画面３２０で任意の箇所への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容が撮影要求指示であった場合、ＹＥＳと判定し、Ｓ５０６に遷移する。
画面３２０で任意の箇所への指示がなされていなければ、ＮＯと判定し、Ｓ５０７に遷移する。

Ｓ５０６において、ＣＰＵ２０１は、カメラデバイス２０９により被写体を撮影して画像データを取得する。また、ＣＰＵ２０１は、画像情報テーブル４１０にレコードを追加して、撮影時刻列４１１に現在の時刻を記録する。また、ＣＰＵ２０１は、画像データをファイルとしてストレージ２０５に記録する。ＣＰＵ２０１は、当該画像データのファイル名を、画像情報テーブル４１０の画像データ列４１２に記録する。

Ｓ５０７において、ＣＰＵ２０１は、撮影を終了する指示がなされたか否かを判定する。
画面３２０で「ＯＫ」ボタン３２１への指示がなされていたら、ＹＥＳと判定し、Ｓ５０４に遷移する。このとき、ＣＰＵ２０１は、画面３１０の表示画像データを生成して、表示デバイス２０７に表示させる。
「ＯＫ」ボタン３２１への指示がなされていなければ、ＮＯと判定し、Ｓ５０５に遷移する。

Ｓ５０８において、ＣＰＵ２０１は、アジェンダを変更する指示がなされたか否かを判定する。
画面３１０で「アジェンダ」ボタン３１２への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容がアジェンダの開始指示又は終了指示であった場合、ＹＥＳと判定し、Ｓ５０９に遷移する。このとき、ＣＰＵ２０１は、画面３３０の表示画像データを生成して、表示デバイス２０７に表示させる。
「アジェンダ」ボタン３１２への指示がなされていなければ、ＮＯと判定し、Ｓ５１４に遷移する。

Ｓ５０９において、ＣＰＵ２０１は、アジェンダを開始する指示がなされたか否かを判定する。
画面３３０で「開始」ボタン３３２への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、ＹＥＳと判定し、Ｓ５１０に遷移する。
「開始」ボタン３３２への指示がなされていなければ、ＮＯと判定し、Ｓ５１１に遷移する。

Ｓ５１０において、ＣＰＵ２０１は、新しいアジェンダを開始する。ＣＰＵ２０１は、アジェンダ情報テーブル４２０にレコードを追加して、アジェンダ開始時刻列４２１に現在の時刻を記録する。また、Ｓ５０３において特定した音声コマンドの命令内容がアジェンダ開始指示であった場合、音声コマンドの認識結果として受信したアジェンダ名をアジェンダ名列４２３に記録する。

Ｓ５１１において、ＣＰＵ２０１は、アジェンダを終了する指示がなされたか否かを判定する。
画面３３０で「終了」ボタン３３３への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容がアジェンダ終了指示であった場合、ＹＥＳと判定し、Ｓ５１２に遷移する。
「終了」ボタン３３３への指示がなされていなければ、ＮＯと判定し、Ｓ５１３に遷移する。

Ｓ５１２において、ＣＰＵ２０１は、現在のアジェンダを終了する。ＣＰＵ２０１は、アジェンダ情報テーブル４２０のアジェンダ終了時刻列４２２に現在の時刻を記録する。また、テキストフィールド３３１に入力されたアジェンダ名をアジェンダ名列４２３に記録する。

Ｓ５１３において、ＣＰＵ２０１は、アジェンダ変更を終了する指示がなされたか否を判定する。
画面３３０で「ＯＫ」ボタン３３５への指示がなされていれば、ＹＥＳと判定し、Ｓ５０４に遷移する。このとき、ＣＰＵ２０１は、画面３１０の表示画像データを生成して、表示デバイス２０７に表示させる。
「ＯＫ」ボタン３３５への指示がなされていなければ、ＮＯと判定し、Ｓ５０９に遷移する。

Ｓ５１４において、ＣＰＵ２０１は、音量を変更する指示がなされたか否かを判定する。
画面３１０で「音量」ボタン３１１への指示がなされていた場合、もしくは、Ｓ５０３において特定した音声コマンドの命令内容が音量変更指示であった場合、ＹＥＳと判定し、Ｓ５１５に遷移する。
指示がなされていなければＮＯと判定し、Ｓ５１８に遷移する。

Ｓ５１５において、ＣＰＵ２０１は、現在の音量を表示する。具体的には、会議装置１０１のストレージ２０５に保持された現在の音量を画面３３０でスライドバー３４１として表示する。

Ｓ５１６において、ＣＰＵ２０１は、音量変更を終了する指示がなされたか否を判定する。
画面３４０で「ＯＫ」ボタン３４２への指示、もしくはＳ５０３において受信した音声コマンドの命令内容が音量変更指示であった場合、ＹＥＳと判定し、Ｓ５１７に遷移する。
指示がなされていなければ、ＮＯと判定し、再度Ｓ５１６の処理を行う。

Ｓ５１７において、ＣＰＵ２０１は、設定された音量を保存する。具体的には、スライドバー３４１で設定された音量、もしくは音声コマンドで指示された音量をストレージ２０５に保存する。

Ｓ５１８において、ＣＰＵ２０１は、会議を終了する指示がなされたか否かを判定する。
画面３１０で「終了」ボタン３１３への指示がなされていれば、ＹＥＳと判定し、Ｓ５１９に遷移する。このとき、ＣＰＵ２０１は、画面３４０の表示画像データを生成して、表示デバイス２０７に表示させる。
「終了」ボタン３１３への指示がなされていなければ、ＮＯと判定し、Ｓ５０４に遷移する。

Ｓ５１９において、ＣＰＵ２０１は、マイクデバイス２１０による会議の録音を終了する。ＣＰＵ２０１は、音声情報テーブル４００の録音終了時刻列４０２に現在の時刻を記録する。なお、このとき、アジェンダ情報テーブル４２０に、アジェンダ終了時刻列４２２に終了時刻が記録されていないレコードがあれば、アジェンダ終了時刻として現在の時刻をアジェンダ終了時刻列４２２に記録する。

Ｓ５２０において、ＣＰＵ２０１は、会議の終了を確定する指示がなされたか否かを判定する。
画面３４０でテキストフィールド３４１に送信先が入力され、かつ「ＯＫ」ボタン３４２への指示がなされていれば、ＹＥＳと判定し、Ｓ５２１に遷移する。
テキストフィールド３４１に送信先が入力されていない、あるいは、「ＯＫ」ボタン３４２への指示がなされていなければ、ＮＯと判定し、再度Ｓ５２０の処理を行う。なお、テキストフィールド３４１に入力された送信先は、会議情報の一部として記録する。

Ｓ５２１において、ＣＰＵ２０１は、以上の処理によりストレージ２０５に記録した会議情報を、外部インターフェース２０８を介して、会議サーバ１０２に送信する。なお、送信後は、会議情報をストレージ２０５から削除してもよい。また、ＣＰＵ２０１は、画面３００の表示画像データを生成して、表示デバイス２０７に表示させる。

Ｓ５２２において、ＣＰＵ２０１は、電源をオフする指示がなされたか否かを判定する。
会議装置１０１の電源キー（不図示）への指示がなされていれば、ＹＥＳと判定し、処理を終了する。会議装置１０１の電源キーへの指示がなされていなければ、ＮＯと判定し、Ｓ５０１に遷移する。

次に、図６と図７を用いて、会議サーバ１０２が会議装置１０１から受信した会議情報を解析・加工して生成する議事録元情報について説明する。図６と図７は、会議サーバ１０２がストレージ２５５に記録する議事録元情報の構成例を示すものである。

図６（ａ）に示す発話情報テーブル６００は、会議情報に含まれる音声データを音声認識した結果に関する情報（以下、「発話情報」と言う）を記録するデータテーブルである。発話情報テーブル６００は、音声データが解析されてユーザの発話が特定されると、発話毎に生成される。
発話時刻列６０１は、発話が発生した時刻（以下、「発話時刻」と言う）を記録するものである。発話テキスト列６０２は、発話を音声認識して取得した発話テキストを記録するものである。発話や発話時刻の特定については後述する。

図６（ｂ）に示す記入情報テーブル６１０は、会議情報に含まれる画像データを文字認識した結果に関する情報（以下、「記入情報」と言う）を記録するデータテーブルである。記入情報テーブル６１０は、画像データが解析されてユーザによる記入が特定されると、記入毎に生成される。
記入時刻列６１１は、記入が発生した時刻（以下、「記入時刻」と言う）を記録するものである。記入テキスト列６１２は、画像データを文字認識して取得した記入テキストを記録するものである。記入や記入時刻の特定については後述する。

図６（ｃ）に示す会議テキスト情報テーブル６２０は、会議において発生したテキスト（以下、「会議テキスト」と言う）に関する情報（以下、「会議テキスト情報」と言う）を記録するデータテーブルである。
会議テキスト情報は、図６（ａ）に示す発話情報と図６（ｂ）に示す記入情報を統合して生成するものである。
発生時刻列６２１は、会議テキスト情報が発生した時刻を記録するものであり、発話時刻６０１または記入時刻６１１の時刻を記録する。
会議テキスト列６２２は、会議テキストを記録するものであり、発話テキスト列６０２または記入テキスト列６１２のテキストを記録する。
区分列６２３は、そのレコードが、統合前に発話情報であったのか記入情報であったのかを記録するものである。発話情報であった場合には「０」を記録し、記入情報であった場合には「１」を記録する。
要点列６２４は、そのレコードの会議テキスト列６２２の会議テキストが要点であるか否かを記録するものである。ここで「要点」とは、アクションアイテムや決定事項など、その会議の主要な内容を示すものである。要点である場合には「１」を記録し、そうでない場合には「０」を記録する。
なお、会議テキスト情報テーブル６２０のレコードは、発生時刻列６２１の値で昇順に（発生した順に）ソートする。

図７に示す要約情報テーブル７００は、図６（ｃ）に示す会議テキストを要約した情報（以下、「要約情報」と言う）を記録したデータテーブルである。要約情報は、会議テキスト情報テーブル６２０の会議テキスト列６２２の会議テキストから、アジェンダ毎に生成されて、要約情報テーブル７００に記録される。
アジェンダ名列７０１は、要約情報のアジェンダ名を記録するものである。要約テキスト列７０２は、生成した要約テキストを記録するものである。

次に、会議サーバ１０２が議事録を生成する処理について説明する。
図８は、議事録を生成する処理を示すフローチャートである。会議サーバ１０２が起動すると、ＣＰＵ２５１は、ストレージ２５５に記録されている会議サーバプログラムを読み込む。そして、会議サーバプログラムをＲＡＭ２５４に展開して実行する。これにより、会議サーバ１０２は議事録生成処理を実行することが可能となる。

まず、Ｓ８０１において、ＣＰＵ２５１は、会議情報を受信したか否かを判定する。
ＣＰＵ２５１が、外部インターフェース２５８を介して、会議装置１０１から会議情報を受信しているならば、ＹＥＳと判定し、Ｓ８０２に遷移する。外部インターフェース２５８を介して、会議装置１０１から会議情報を受信していなければ、ＮＯと判定し、Ｓ８１０に遷移する。

Ｓ８０２において、ＣＰＵ２５１は、受信した会議情報に含まれる音声データに対して音声認識を行い、発話テキストを取得する。ここで、音声認識を行うため、ＣＰＵ２５１は、音声データを先頭から走査して、次の処理を行う。
まず、ＣＰＵ２５１は、音声データ中の無音区間を検出する。無音区間の検出は、例えば、音声データの音圧が閾値以下の状態が一定時間継続されたことに基づいて検出する。ある無音区間と次の無音区間の間の区間を発話区間とする。ＣＰＵ２５１は、個々の発話区間について、音声認識を行って発話テキストを取得する。
次に、ＣＰＵ２５１は、会議情報の音声情報テーブル４００の録音開始時刻列４０１の録音開始時刻と、各発話区間の音声データの先頭からの経過位置とから、各発話区間の発話時刻を計算する。
このようにして取得した発話区間毎に、発話情報テーブル６００のレコードを生成する。そして、該当する発話時刻と発話テキストを、それぞれ、発話時刻列６０１と発話テキスト列６０２に記録する。

Ｓ８０３において、ＣＰＵ２５１は、取得した発話テキストから音声コマンドを削除する処理を行う。削除処理のフローの詳細な説明は図１３で後述する。

Ｓ８０４において、ＣＰＵ２５１は、受信した会議情報に含まれる画像データに対して文字認識を行い、記入テキストを取得する。ここで、文字認識を行うため、ＣＰＵ２５１は、会議情報に含まれる画像情報テーブル４１０のレコードを順に走査して、次の処理を行う。
画像情報テーブル４１０のレコードは、撮影時刻列４１１の値で昇順に（撮影した順に）ソートしておく。ＣＰＵ２５１は、現在参照しているレコードの画像データ列４１２が示す画像データと、ひとつ前のレコードの画像データ列４１２が示す画像データとの画像の差分を求める。画像の差分は、ひとつ前のレコードに該当する撮影から、現在参照しているレコードに該当する撮影までの間に、ユーザが記入した文字を含む、部分画像とみなすことができる。この部分画像に対して文字認識を行い、記入テキストを取得する。
また、ＣＰＵ２５１は、現在参照しているレコードの撮影時刻列４１１の撮影時刻を、画像の差分が発生した時刻、すなわちユーザによる記入が行われた記入時刻とする。
このようにして取得された画像の差分（ユーザによる記入）毎に、ＣＰＵ２５１は、記入情報テーブル６１０にレコードを生成する。そして、該当する記入時刻と記入テキストを、それぞれ記入時刻列６１１と記入テキスト列６１２に記録する。

Ｓ８０５において、ＣＰＵ２５１は、発話テキストと記入テキストを統合して、会議テキストを取得する。すなわち、ＣＰＵ２５１は、Ｓ８０２で生成した発話情報テーブル６００（図６（ａ））とＳ８０４で生成した記入情報テーブル６１０（図６（ｂ））とを統合して、会議テキスト情報テーブル６２０（図６（ｃ））を生成する。
ここで、ＣＰＵ２５１は、発話情報テーブル６００に含まれるレコードを会議テキスト情報テーブル６２０に追加する。このとき、発話時刻列６０１の発話時刻を会議テキストが発生した時刻として発生時刻列６２１に、発話テキスト列６０２の発話テキストを会議テキストとして会議テキスト列６２２に、それぞれ記録する。区分列６２３には、元のデータが発話情報であったことを示す「０」を記録する。
また、ＣＰＵ２５１は、記入情報テーブル６１０に含まれるレコードを会議テキスト情報テーブル６２０に追加する。このとき、記入時刻列６１１の記入時刻を会議テキストが発生した時刻として発生時刻列６２１に、記入テキスト列６１２の記入テキストを会議テキストとして会議テキスト列６２２に、それぞれ記録する。区分列６２３には、元のデータが記入情報であったことを示す「１」を記録する。ＣＰＵ２５１は、以上追加したレコードを発生時刻列６２１の値で昇順に（発生した順に）ソートする。

Ｓ８０６において、ＣＰＵ２５１は、Ｓ８０５で生成した会議テキストから要点を抽出する。
ＣＰＵ２５１は、Ｓ８０５において会議テキスト情報テーブル６２０に追加した各レコードについて、会議テキスト列６２２の会議テキストが要点であるか否かを判定する。例えば、会議テキストが予め決定した特定のキーワードを含むか否かに基づいて判定する。会議テキストに特定のキーワードが含まれていれば、要点であると判定する。また、音声コマンドを用いて、ＡＩや決定事項の登録指示を行った会議テキストである場合、要点であると判定する。
会議テキストが要点である場合には、要点列６２４に「１」を記録し、そうでない場合は「０」を記録する。

Ｓ８０７において、ＣＰＵ２５１は、Ｓ８０５で生成した会議テキストを要約する。ＣＰＵ２５１は、会議情報のアジェンダ情報テーブル４２０のレコードを順に走査して、次の処理を行う。
アジェンダ情報テーブル４２０のレコードは、アジェンダ開始時刻列４２１の値で昇順に（アジェンダの開始順に）ソートしておく。ＣＰＵ２５１は、現在参照しているレコードのアジェンダ開始時刻列４２１のアジェンダ開始時刻から、アジェンダ終了時刻列４２２のアジェンダ終了時刻までの期間を取得する。
そして、会議テキスト情報テーブル６２０から発生時刻列６２１の値が当該期間に該当するレコード群を抽出する。ＣＰＵ２５１は、それらレコード群の会議テキスト列６２２のテキストを要約して要約テキストを生成する。そして、要約情報テーブル７００にレコードを追加して、要約テキスト列７０２に生成した要約テキストを記録する。
また、現在参照しているアジェンダ情報テーブル４２０のレコードのアジェンダ名列４２３のアジェンダ名を、要約情報テーブル７００に追加したレコードのアジェンダ名７０１に記録する。

Ｓ８０８において、ＣＰＵ２５１は、以上のようにして取得した議事録元情報および会議情報に基づいて議事録を生成する。
ここで、図９を用いて、Ｓ８０８で作成する議事録について説明する。図９は、議事録の概要を示す図である。
議事録９００は、議事を示す議事テキストデータ９１０と、添付画像データ群９２０からなる。
議事テキストデータ９１０には、会議開催時間９１１、要点一覧９１２、アジェンダ名９１３、９１５、要約テキスト９１４、９１６が含まれる。
会議開催時間９１１は、音声情報テーブル４００の録音開始時刻列４０１の録音開始時刻（会議開始時刻）と、録音終了時刻列４０２の録音終了時刻（会議終了時刻）から生成される。要点一覧９１２は、会議テキスト情報テーブル６２０のレコードであり、要点列６２４が「１」（要点）であるレコードの会議テキスト６２２の一覧である。
アジェンダ名９１３、９１５は、要約情報テーブル７００のアジェンダ名列７０１のアジェンダ名である。要約テキスト９１４、９１６は、要約情報テーブル７００の要約テキスト７０２である。
また、添付画像データ群９２０は、会議情報に含まれる画像データを含む。

Ｓ８０９において、ＣＰＵ２５１は、議事録を、会議情報に含まれる送信先に送信する。
送信方法としては、例えば、電子メールで送信することができる。ＣＰＵ２５１は、電子メール本文に議事テキストデータ９１０を入力し、添付ファイルに添付画像データ群９２０を入力して、電子メールを送信する。

Ｓ８１０において、ＣＰＵ２５１は、終了の指示がなされたか否かを判定する。
ユーザは、例えば、外部インターフェース２５８を介して、別体のＰＣから会議サーバ１０２に終了を指示することができる。
終了指示がなされていたら、ＹＥＳと判定し、処理を終了する。終了指示がなされていなければ、ＮＯと判定し、Ｓ８０１に遷移する。

ここで、図１０を用いて、Ｓ８０７で生成する要約テキストについて説明する。
図１０（ａ）は、要約テキストを生成する処理の一例を示すフローチャートである。本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル６２０の複数のレコードである。

Ｓ１００１において、ＣＰＵ２５１は、入力されたレコード全てを参照し、会議テキスト列６２２の会議テキストに出現する各単語について、その重要度を算出する。これは、例えば、各単語の出現頻度に基づいて算出することができる。

Ｓ１００２において、ＣＰＵ２５１は、入力された各レコードの会議テキスト列６２２の会議テキストについて、それぞれその重要度を算出する。具体的には、Ｓ１００１で算出した各単語の重要度を参照し、各会議テキストに含まれる単語の重要度の合計値を算出することなどにより、会議テキストの重要度を算出する。

Ｓ１００３において、ＣＰＵ２５１は、重要度が閾値以上の会議テキストを抽出する。そして、これらの会議テキストを結合して要約テキストを生成する。そして、本処理の結果として、処理呼び出し元に要約テキストを返す。

ところで、会議においては、ホワイトボードなどの記入媒体には、論点や重要な意見を記載する場合がある。これらの内容は議事として重要なので、記入テキストを要約テキストに優先的に反映するようにしてもよい。
例えば、Ｓ１００３において、ＣＰＵ２５１は、入力されたレコードの区分列６２３の値を確認する。値が「１」（元のデータが記入情報である場合）ならば、重要度が閾値以上か否かに関わらず、当該レコードの会議テキスト列６２２の会議テキストを要約テキストの一部として抽出するようにしてもよい。

あるいは、記入テキストを要約テキストに優先的に反映する処理の例として、次のように要約テキスト生成処理を実行してもよい。
図１０（ｂ）は、要約テキストを生成する処理の別の例を示すフローチャートである。図１０（ａ）のフローチャートと同様に、本フローチャートの処理のために入力されるテキストは、会議テキスト情報テーブル６２０の複数のレコードである。

Ｓ１０１１において、ＣＰＵ２５１は、入力されたレコードのうち、区分列６２３が「１」（元のデータが記入情報である場合）のレコードを参照して、会議テキスト列６２２の会議テキストに含まれる単語のリスト（以下、「記入単語リスト」と言う）を作成する。
Ｓ１０１２において、ＣＰＵ２５１は、Ｓ１００１と同様の処理を行う。
Ｓ１０１３において、ＣＰＵ２５１は、Ｓ１００２と同様の処理を行う。
Ｓ１０１４において、ＣＰＵ２５１は、Ｓ１０１１で作成した記入単語リストを参照して、Ｓ１０１３で算出した会議テキストの重要度を更新する。すなわち、入力された各レコードの会議テキスト列６２２の会議テキストについて、記入単語リストの単語を含む場合には、当該会議テキストの重要度にバイアスを加える。
Ｓ１０１５において、ＣＰＵ２５１は、Ｓ１００３と同様の処理を行う。

あるいは、Ｓ１０１４において、対象の会議テキストが記入単語リストの単語を含む場合には、重要度の最大値を付与するようにし、Ｓ１０１５で当該会議テキストが要約テキストの一部として抽出されるようにしてもよい。

次に、発話テキストから音声コマンドを削除する処理について説明する。
図１３は、会議サーバ１０２における音声コマンドを削除する処理を示すフローチャートである。

まず、Ｓ１３０１において、ＣＰＵ２５１は、発話テキストから発話区間分のテキストを取得する。

Ｓ１３０２において、ＣＰＵ２５１は、取得したテキストの内、音声コマンドのヘッダ部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ１０２のストレージ２５５に予め保持されたヘッダ部の文言と一致するテキストが含まれているか否かを判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１３０３に遷移する。含まれていない場合、ＮＯと判定し、Ｓ１３１２に遷移する。

Ｓ１３０３において、ＣＰＵ２５１は、ヘッダ部に続いて、音声コマンドの命令部に相当するテキストが含まれているか否かを判定する。具体的には、会議サーバ１０２のストレージ２５５に保持された命令部データテーブル１１００の命令部の文字列１１０１と一致するテキストが、ヘッダ部に続くテキストに含まれているか否かを判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１３０４に遷移する。含まれていない場合、ＮＯと判定し、Ｓ１３１２に遷移する。

Ｓ１３０４において、ＣＰＵ２５１は、Ｓ１３０３で検出した音声コマンドの命令がデータ部を有するか否かを判定する。具体的には、Ｓ１３０３で検出したテキストと命令部の文字列１１０１とが一致するレコードを特定する。そして、特定されたレコードのデータ部有無列１１０３を参照し「有」の場合、ＹＥＳと判定し、Ｓ１３０５に遷移する。「無」の場合は、ＮＯと判定し、Ｓ１３０６に遷移する。

Ｓ１３０５において、ＣＰＵ２５１は、命令部に続くテキストに音声コマンドのデータ部に相当するテキストが含まれているか否かを判定する。具体的には、命令部に相当するテキストから、発話区間の終了（句読点）までに、テキストが含まれているか否かを判定する。
含まれている場合、ＹＥＳと判定し、Ｓ１３０６に遷移する。含まれていない場合、ＮＯと判定し、Ｓ１３１２に遷移する。

Ｓ１３０６において、ＣＰＵ２５１は、命令部データテーブル１１００の削除範囲１１０４を参照し、検出したコマンドの削除範囲を特定する。
Ｓ１３０７において、ＣＰＵ２５１は、Ｓ１３０２で検出したヘッダ部に相当するテキストを発話テキストから削除する。例えば、会議サーバ１０２のストレージ２５５に予め保持された、ヘッダ部に相当する「Ｈｅｙ」という文字列と一致する箇所を削除する。

Ｓ１３０８において、ＣＰＵ２５１は、発話テキストから命令部を削除するか否かを判定する。Ｓ１３０６において特定した削除範囲に命令部が含まれる場合、ＹＥＳと判定し、Ｓ１３０９に遷移する。含まれない場合、ＮＯと判定し、Ｓ１３１０に遷移する。
Ｓ１３０９において、ＣＰＵ２５１は、Ｓ１３０３で検出した命令部に相当するテキストを発話テキストから削除する。

Ｓ１３１０において、ＣＰＵ２５１は、発話テキストからデータ部を削除するか否かを判定する。Ｓ１３０６において特定した削除範囲にデータ部が含まれる場合、ＹＥＳと判定し、Ｓ１３１１に遷移する。含まれない場合、ＮＯと判定し、Ｓ１３１２に遷移する。
Ｓ１３１１において、ＣＰＵ２５１は、Ｓ１３０５で検出したデータ部に相当するテキストを発話テキストから削除する。

Ｓ１３１２において、ＣＰＵ２５１は、発話テキストに含まれるテキストを全て走査したか否かを判定する。
全て走査した場合、ＹＥＳと判定し、処理を終了する。まだ走査を全て終了していない場合は、Ｓ１３０１に遷移する。

図１４は、発話テキストから音声コマンドのヘッダ部を削除する動作例を示す図である。
本動作は、図１４（ａ）に示すように、例えば、ユーザが決定事項を登録するための発話を行った場合に実行される。
この例では、「Ｈｅｙ、決定事項、Ｄさんは見直し案を作成する。」という発話（図１４（ａ））に対して、ヘッダ部（Ｈｅｙ）を削除した、「決定事項、Ｄさんは見直し案を作成する。」というテキスト（図１４（ｂ））が生成される。
本動作は、上述の例以外にも、図１１に示すように、ＡＩへの登録指示、アジェンダの開始指示、アジェンダの終了指示、などを行う場合にも実行される。

会議サーバ１０２は、Ｓ８０１において会議装置１０１から会議情報に含まれる音声データを受信し、Ｓ８０２において音声データを音声認識して、図１４（ａ）のような発話テキスト１４００が得られるものとする。発話テキスト１４００に示されるテキストは、音声認識された結果の一部であり、内容はヘッダ部を削除する動作を説明するための一例である。
続いて、Ｓ８０３において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図１３のフローチャートに示すとおりである。

Ｓ１３０１において、ＣＰＵ２５１は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト１４００から発話区間のテキスト１４０１が取得された場合を説明する。
Ｓ１３０２において、ＣＰＵ２５１は、ヘッダ部に相当するテキストが含まれているか否かを判定する。ここでは、発話区間のテキスト１４０１には、会議サーバ１０２のストレージ２５５に予め保持された「Ｈｅｙ」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０３に遷移する。
Ｓ１３０３において、ＣＰＵ２５１は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Ｈｅｙ」に続くテキストと、命令部データテーブル１１００の命令部の文字列１１０１とを比較する。そうすると、発話区間のテキスト１４０１には、「決定事項」という命令部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０４に遷移する。
Ｓ１３０４において、ＣＰＵ２５１は、検出した命令部がデータ部を有するか否かを判定する。図１１で命令部の文字列１１０１が「決定事項」であるレコードを参照すると、ここでは、データ部有無列１１０３が「有」であるため、判定がＹＥＳとなり、Ｓ１３０５に遷移する。
Ｓ１３０５において、ＣＰＵ２５１は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト１４０１には、命令部に相当する「決定事項」に続くテキストとして、「Ｄさんは見直し案を作成する。」というテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０６に遷移する。

Ｓ１３０６において、命令部データテーブル１１００を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル１１００の命令部の文字列１１０１が「決定事項」であるレコードの削除範囲列１１０４を参照すると、削除範囲はヘッダ部であると特定される。
Ｓ１３０７において、ＣＰＵ２５１は、発話区間のテキスト１４０１からヘッダ部に相当する「Ｈｅｙ」というテキストを削除する。
Ｓ１３０８において、ＣＰＵ２５１は、命令部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はＮＯとなり、Ｓ１３１０に遷移する。
Ｓ１３１０において、ＣＰＵ２５１は、データ部を削除するか否かを判定する。削除範囲はヘッダ部であるため、判定はＮＯとなり、Ｓ１３１２に遷移する。
以上の処理が実行されると、図１４（ｂ）のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部が削除されたテキスト１４０２が得られる。

図１５は、発話テキストから音声コマンドのヘッダ部と命令部を削除する動作例を示す図である。
本動作は、図１５（ａ）に示すように、例えば、ユーザが決定事項を削除するための発話を行った場合に実行される。
この例では、「Ｈｅｙ、決定事項削除。」という発話（図１５（ａ））に対して、ヘッダ部（Ｈｅｙ）と命令部（決定事項削除）がいずれも削除される（図１５（ｂ））。
本動作は、上述の例以外にも、図１１に示すように、ＡＩへの削除指示、撮影の指示、などを行う場合にも実行される。

会議サーバ１０２は、Ｓ８０１において会議装置１０１からの会議情報に含まれる音声データを受信し、Ｓ８０２において音声データを音声認識して、図１５（ａ）のような発話テキスト１５００が得られるものとする。発話テキスト１５００に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、Ｓ８０３において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図１３のフローチャートに示すとおりである。

Ｓ１３０１において、ＣＰＵ２５１は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト１５００から発話区間のテキスト１５０１が取得された場合を説明する。

Ｓ１３０２において、ＣＰＵ２５１は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト１５０１には、会議サーバ１０２のストレージ２５５に予め保持された「Ｈｅｙ」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０３に遷移する。
Ｓ１３０３において、ＣＰＵ２５１は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Ｈｅｙ」に続くテキストと、命令部データテーブル１１００の命令部の文字列１１０１とを比較する。そうすると、発話区間のテキスト１５０１には「決定事項削除」という命令部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０４に遷移する。
Ｓ１３０４において、ＣＰＵ２５１は、検出した命令部がデータ部を有するか否かを判定する。図１１で命令部の文字列１１０１が「決定事項削除」であるレコードを参照すると、データ部有無列１１０３が「無」であるため、判定がＮＯとなり、Ｓ１３０６に遷移する。

Ｓ１３０６において、命令部データテーブル１１００を参照し、コマンドの削除範囲を特定する。命令部データテーブル１１００の命令部の文字列１１０１が「決定事項削除」であるレコードの削除範囲列１１０４を参照すると、削除範囲はヘッダ部と命令部であると特定される。
Ｓ１３０７において、発話区間のテキスト１５０１からヘッダ部に相当する「Ｈｅｙ」というテキストを削除する。
Ｓ１３０８において、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はＹＥＳとなり、Ｓ１３０９に遷移する。
Ｓ１３０９において、発話区間のテキスト１５０１から命令部に相当する「決定事項削除」というテキストを削除する。
Ｓ１３１０において、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部であるため、判定はＮＯとなり、Ｓ１３１２に遷移する。
以上の処理が実行されると、図１５（ｂ）のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部が削除されたテキスト１５０２が得られる。

図１６は、発話テキストから音声コマンドのヘッダ部と命令部とデータ部を削除する動作例を示す図である。
本動作は、図１６（ａ）に示すように、例えば、音量の変更を指示するための発話を行った場合に実行される。
この例では、「Ｈｅｙ、音量、１０上げる。」という発話（図１６（ａ））に対して、ヘッダ部（Ｈｅｙ）、命令部（音量）、データ部（１０上げる）がいずれも削除される（図１６（ｂ））。

会議サーバ１０２は、Ｓ８０１において会議装置１０１からの会議情報に含まれる音声データを受信し、Ｓ８０２において音声データを音声認識して、図１６（ａ）のような発話テキスト１６００が得られるものとする。発話テキスト１６００に示されるテキストは、音声認識された結果の一部であり、内容は動作例を説明するための一例である。
続いて、Ｓ８０３において音声コマンドの削除処理が実行される。音声コマンドの削除処理の詳細は図１３のフローチャートに示すとおりである。

Ｓ１３０１において、ＣＰＵ２５１は、発話テキストから発話区間のテキストを取得する。ここでは、発話テキスト１６００から発話区間のテキスト１６０１が取得された場合を説明する。

Ｓ１３０２において、ＣＰＵ２５１は、ヘッダ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト１６０１には、会議サーバ１０２のストレージ２５５に予め保持された「Ｈｅｙ」という音声コマンドのヘッダ部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０３に遷移する。
Ｓ１３０３において、ＣＰＵ２５１は、ヘッダ部に続いて命令部に相当するテキストが含まれているか否かを判定する。そこで、ヘッダ部に相当する「Ｈｅｙ」に続くテキストと、命令部データテーブル１１００の命令部の文字列１１０１とを比較する。そうすると、発話区間のテキスト１６０１には「音量」という命令部に相当するテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０４に遷移する。
Ｓ１３０４において、ＣＰＵ２５１は、検出した命令部がデータ部を有するか否かを判定する。図１１で命令部の文字列１１０１が「音量」であるレコードを参照すると、データ部有無列１１０３が「有」であるため、判定がＹＥＳとなり、Ｓ１３０５に遷移する。
Ｓ１３０５において、ＣＰＵ２５１は、命令部に続いてデータ部に相当するテキストが含まれているか否かを判定する。発話区間のテキスト１６０１には、命令部に相当する「音量」に続くテキストとして、「１０上げる。」というテキストが含まれているため、判定がＹＥＳとなり、Ｓ１３０６に遷移する。

Ｓ１３０６において、ＣＰＵ２５１は、命令部データテーブル１１００を参照し、音声コマンドの削除範囲を特定する。命令部データテーブル１１００の命令部の文字列１１０１が「音量」であるレコードの削除範囲列１１０４を参照すると、削除範囲はヘッダ部と命令部とデータ部であると特定される。
Ｓ１３０７において、ＣＰＵ２５１は、発話区間のテキスト１６０１からヘッダ部に相当する「Ｈｅｙ」というテキストを削除する。
Ｓ１３０８において、ＣＰＵ２５１は、命令部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はＹＥＳとなり、Ｓ１３０９に遷移する。
Ｓ１３０９において、ＣＰＵ２５１は、発話区間のテキスト１６０１から命令部に相当する「音量」というテキストを削除する。
Ｓ１３１０において、ＣＰＵ２５１は、データ部を削除するか否かを判定する。削除範囲はヘッダ部と命令部とデータ部であるため、判定はＹＥＳとなり、Ｓ１３１１に遷移する。
Ｓ１３１１において、ＣＰＵ２５１は、発話区間のテキスト１６０１から命令部に続くテキストである「１０上げる。」というテキストを削除し、Ｓ１３１２に遷移する。
以上の処理が実行されると、図１６（ｂ）のように、発話テキストに含まれる発話区間のテキストから、ヘッダ部と命令部とデータ部が削除されたテキスト１６０２が得られる。

以上、本実施例に示したとおり、音声コマンドとして発話したテキストのうち、議事録に不要なテキストを削除し、議事録に必要なテキストを発話テキストに残すことができる。

（その他の実施例）
本発明は、上述の実施例の１以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける１つ以上のプロセッサーがプログラムを読出し実行する処理でも実現可能である。また、１以上の機能を実現する回路（例えば、ＡＳＩＣ）によっても実現可能である。
また、本発明は、複数の機器から構成されるシステムに適用しても、１つの機器からなる装置に適用してもよい。
本発明は上述の実施例に限定されるものではなく、本発明の趣旨に基づき種々の変形が可能であり、それらを本発明の範囲から除外するものではない。即ち、上述の実施例及びその変形例を組み合わせた構成も全て本発明に含まれるものである。

１００会議システム
１０１会議装置
１０２会議サーバ
６００発話情報テーブル
７００要約情報テーブル
９００議事録
１１００命令部データテーブル
１４００発話テキスト

Claims

発話された音声データを音声認識してテキストにする音声認識手段と、
前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第１の検出手段と、
前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第２の検出手段と、
前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第３の検出手段と、
前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定手段と、を有することを特徴とする情報処理装置。
前記決定手段が決定する前記削除範囲は、前記命令部に応じて、予め記録手段に登録されていることを特徴とする請求項１に記載の情報処理装置。
前記決定手段が決定する前記削除範囲は、前記命令部に応じて、ヘッダ部、ヘッダ部と命令部、ヘッダ部と命令部とデータ部、のうちのいずれかであることを特徴とする請求項１または２に記載の情報処理装置。
前記ヘッダ部として用いられる文言は、予め記録手段に登録されていることを特徴とする請求項１から３のいずれか１項に記載の情報処理装置。
前記命令部として用いられる文言は、予め記録手段に登録されていることを特徴とする請求項１から４のいずれか１項に記載の情報処理装置。
前記テキストから前記削除範囲を削除した内容に基づいて、会議において発生する会議情報を記録することを特徴とする請求項１から５のいずれか１項に記載の情報処理装置。
情報処理装置により撮影された画像に基づいて、会議において発生する会議情報を記録することを特徴とする請求項１から６のいずれか１項に記載の情報処理装置。
前記会議情報に基づいて前記会議の議事録を生成することを特徴とする請求項６または７に記載の情報処理装置。
前記議事録をユーザが指示するアジェンダごとに生成することを特徴とする請求項８に記載の情報処理装置。
発話された音声データを音声認識してテキストにする音声認識工程と、
前記テキストのうち、情報処理装置に対する命令の開始を示す部分である、ヘッダ部を検出する第１の検出工程と、
前記テキストのうち、前記情報処理装置に対する前記命令の種類を示す部分である、命令部を検出する第２の検出工程と、
前記テキストのうち、前記情報処理装置に対する前記命令の内容を示す部分である、データ部を検出する第３の検出工程と、
前記音声データのうち、前記テキストから削除する削除範囲を前記命令部に応じて決定する決定工程と、を有することを特徴とする情報処理方法。
請求項１０に記載の情報処理方法をコンピュータにより実行させるためのプログラム。