JP7299587B2 - 情報処理装置、発話認識システム及び発話認識プログラム - Google Patents
情報処理装置、発話認識システム及び発話認識プログラム Download PDFInfo
- Publication number
- JP7299587B2 JP7299587B2 JP2019019139A JP2019019139A JP7299587B2 JP 7299587 B2 JP7299587 B2 JP 7299587B2 JP 2019019139 A JP2019019139 A JP 2019019139A JP 2019019139 A JP2019019139 A JP 2019019139A JP 7299587 B2 JP7299587 B2 JP 7299587B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- lip
- recognition model
- image data
- person
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- User Interface Of Digital Computer (AREA)
- Image Analysis (AREA)
Description
以下に図面を参照して、第一の実施形態について説明する。図1は、第一の実施形態の発話認識システムについて説明する図である。
以下に図面を参照して、第二の実施形態について説明する。第二の実施形態では、口唇領域画像データを取得する際のフレームレートに応じて認識モデルを選択する点が第一の実施形態と相違する。よって、以下の第二の実施形態の説明では、第一の実施形態との相違点について説明し、第一の実施形態と同様の機能構成を有するものには、第一の実施形態の説明で用いた符号と同様の符号を付与し、その説明を省略する。
以下に図面を参照して、第三の実施形態について説明する。第三の実施形態では、話者の顔の向きに応じて認識モデルを選択する点が第一の実施形態と相違する。以下に図14を参照して、第三の実施形態について説明する。
200、200A 情報処理装置
210 映像入力部
211 人物領域認識部
212 画像補正部
213 顔領域認識部
214 口唇領域抽出部
215 口唇画素数算出部
216、216A 認識モデル選択部
217 口唇画素数変換部
218 口唇特徴量算出部
219 発話内容認識部
220 テキスト出力部
221 フレームレート算出部
222 フレーム補完部
230、230A 記憶部
231、232、233、241、242、243 認識モデル
300 撮像装置
400 表示装置
Claims (8)
- 撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する情報処理装置。 - 前記連続した口唇画像の横幅の画素数の平均値を算出する口唇画素数算出部を有し、
前記平均値を前記口唇領域画像データに付与された属性情報とする、請求項1記載の情報処理装置。 - 前記動画データが示す動画におけるフレームレートを算出するフレームレート算出部を有し、
前記フレームレートを前記属性情報とする、請求項1記載の情報処理装置。 - 前記複数の認識モデルは、
それぞれについて、異なるフレームレートで取得された、連続する口唇画像を示す口唇領域画像データを入力として学習させたモデルである、請求項3記載の情報処理装置。 - 前記口唇領域画像データが、選択された認識モデルの入力データとなるように、前記連続した口唇画像の解像度を異なる解像度に変換する口唇画素数変換部を有する、請求項1乃至4の何れか一項に記載の情報処理装置。
- 一定期間の前記連続した口唇画像の横幅の画素数と縦幅の画素数とが示す画像の8ビットのRGB値を特徴量として算出する特徴量算出部を有し、
前記発話認識部は、
選択された認識モデルと、前記特徴量とを用いて前記発話内容を認識する、請求項1乃至5の何れか一項に記載の情報処理装置。 - 撮像装置と、情報処理装置とを有する発話認識システムであって、
前記情報処理装置は、
前記撮像装置によって撮像された動画データが入力される入力部と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する口唇領域抽出部と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する認識モデル選択部と、
選択された認識モデルを用いて前記人物の発話内容を認識する発話認識部と、
前記発話内容の認識結果を出力する出力部と、
前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルが格納された記憶部と、
前記撮像装置と前記人物との距離に応じて、前記複数の認識モデルの中から、発話内容の認識に使用する認識モデルを選択する認識モデル選択部と、を有し、
前記認識モデル選択部は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する発話認識システム。 - 情報処理装置に、
撮像装置によって撮像された動画データを入力する処理と、
前記動画データに含まれるフレーム毎の画像から、人物の口唇を示す領域を認識し、前記人物の連続した口唇画像を示す口唇領域画像データを抽出する処理と、
前記口唇領域画像データに付与された属性情報に基づき、複数の認識モデルの中から、前記人物の発話内容の認識に用いる認識モデルを選択する処理と、
選択された認識モデルを用いて前記人物の発話内容を認識する処理と、
前記発話内容の認識結果を出力する処理と、
記憶部に格納された、前記撮像装置と前記人物との距離を異ならせて前記人物を撮像した動画データから抽出された口唇領域画像データを用いて学習させた複数の認識モデルから、前記撮像装置と前記人物との距離に応じて、発話内容の認識に使用する認識モデルを選択する処理と、を実行させ、
前記認識モデルを選択する処理は、
前記連続した口唇画像の横幅の画素数の平均値が所定値未満である場合、発話内容の認識不可とし、
前記連続した口唇画像の横幅の画素数の平均値が前記所定値以上であり、且つ、前記所定値より大きい値である第一の値未満である場合に、前記複数の認識モデルの中から、遠距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第一の値以上であり、且つ、前記第一の値よりも大きい値である第二の値未満である場合に、前記複数の認識モデルの中から、中距離用の認識モデルを選択し、
前記連続した口唇画像の横幅の画素数の平均値が前記第二の値以上である場合に、前記複数の認識モデルの中から、近距離用の認識モデルを選択する、発話認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019019139A JP7299587B2 (ja) | 2019-02-05 | 2019-02-05 | 情報処理装置、発話認識システム及び発話認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019019139A JP7299587B2 (ja) | 2019-02-05 | 2019-02-05 | 情報処理装置、発話認識システム及び発話認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020126492A JP2020126492A (ja) | 2020-08-20 |
JP7299587B2 true JP7299587B2 (ja) | 2023-06-28 |
Family
ID=72084059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019019139A Active JP7299587B2 (ja) | 2019-02-05 | 2019-02-05 | 情報処理装置、発話認識システム及び発話認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7299587B2 (ja) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013191061A1 (ja) | 2012-06-20 | 2013-12-27 | コニカミノルタ株式会社 | 画像処理装置 |
JP2015045919A (ja) | 2013-08-27 | 2015-03-12 | トヨタ自動車株式会社 | 画像認識方法及びロボット |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3702978B2 (ja) * | 1996-12-26 | 2005-10-05 | ソニー株式会社 | 認識装置および認識方法、並びに学習装置および学習方法 |
-
2019
- 2019-02-05 JP JP2019019139A patent/JP7299587B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013191061A1 (ja) | 2012-06-20 | 2013-12-27 | コニカミノルタ株式会社 | 画像処理装置 |
JP2015045919A (ja) | 2013-08-27 | 2015-03-12 | トヨタ自動車株式会社 | 画像認識方法及びロボット |
Non-Patent Citations (2)
Title |
---|
Jon Barker,外1名,Energetic and Informational Masking Effects in an Audiovisual Speech Recognition System,IEEE Transactions on Audio, Speech, and Language Processing,Volume 17,Issue 3,2009年03月,pp. 446-458 |
高橋 昌平,外1名,複数画像特徴量を用いた読唇システム オプティカルフロー特徴・形状特徴・離散コサイン変換特徴の統合の検討,情報処理学会 研究報告 コンピュータビジョンとイメージメディア(CVIM)[online] ,情報処理学会,2014年02月24日,Vol. 2014-CVIM-191,No. 7 |
Also Published As
Publication number | Publication date |
---|---|
JP2020126492A (ja) | 2020-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6499583B2 (ja) | 画像処理装置及び画像表示装置 | |
CN106462937B (zh) | 图像处理装置以及图像显示装置 | |
JP5450739B2 (ja) | 画像処理装置及び画像表示装置 | |
WO2014064870A1 (ja) | 画像処理装置および画像処理方法 | |
JP5929221B2 (ja) | 関心領域の動的検知に基づいたシーン状態切換システム及び方法 | |
KR20170047167A (ko) | 전자 장치가 동영상의 얼굴의 인상을 변형하는 방법 및 그 전자 장치 | |
US20190058847A1 (en) | Scaling image of speaker?s face based on distance of face and size of display | |
JP2013122695A (ja) | 情報提示装置、情報提示方法、情報提示プログラム、及び情報伝達システム | |
JP2014106732A (ja) | 情報処理装置および情報処理方法 | |
JP2012216006A (ja) | 情報処理システム、情報処理装置、撮像装置、および情報処理方法 | |
US8675128B2 (en) | Image processing method and system with repetitive pattern detection | |
KR101366776B1 (ko) | 영상 객체 검출 장치 및 그 방법 | |
CN112069863B (zh) | 一种面部特征的有效性判定方法及电子设备 | |
JP5068732B2 (ja) | 3次元形状生成装置 | |
WO2018180578A1 (ja) | 画像処理装置、撮像装置、画像処理方法、およびプログラム | |
JP2011228846A (ja) | 画像処理装置および方法 | |
JP7388188B2 (ja) | 発話者認識システム、発話者認識方法、及び発話者認識プログラム | |
JP2016157166A (ja) | 画像処理プログラム、画像処理装置、及び画像処理方法 | |
JP7299587B2 (ja) | 情報処理装置、発話認識システム及び発話認識プログラム | |
US9159118B2 (en) | Image processing apparatus, image processing system, and non-transitory computer-readable medium | |
US20230306698A1 (en) | System and method to enhance distant people representation | |
JP7243821B2 (ja) | 学習装置、制御方法及びプログラム | |
JP2018174461A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
WO2021245930A1 (ja) | 画像処理装置、画像処理方法、および画像処理プログラム | |
JP6274778B2 (ja) | 画像処理方法、画像処理装置、及びコンピュータプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210824 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211006 |
|
A711 | Notification of change in applicant |
Free format text: JAPANESE INTERMEDIATE CODE: A712 Effective date: 20211006 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211109 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20211109 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220815 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220830 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230516 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7299587 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |