JP7568851B2 - 通話およびオーディオメッセージからのその他の話者の音声フィルタリング - Google Patents
通話およびオーディオメッセージからのその他の話者の音声フィルタリング Download PDFInfo
- Publication number
- JP7568851B2 JP7568851B2 JP2023526417A JP2023526417A JP7568851B2 JP 7568851 B2 JP7568851 B2 JP 7568851B2 JP 2023526417 A JP2023526417 A JP 2023526417A JP 2023526417 A JP2023526417 A JP 2023526417A JP 7568851 B2 JP7568851 B2 JP 7568851B2
- Authority
- JP
- Japan
- Prior art keywords
- voice
- user
- audio
- audio data
- based communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001914 filtration Methods 0.000 title claims description 166
- 238000004891 communication Methods 0.000 claims description 117
- 238000012545 processing Methods 0.000 claims description 64
- 238000000034 method Methods 0.000 claims description 57
- 230000015654 memory Effects 0.000 claims description 47
- 230000003213 activating effect Effects 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims 6
- 230000001755 vocal effect Effects 0.000 claims 5
- 230000008569 process Effects 0.000 description 22
- 238000013145 classification model Methods 0.000 description 19
- 238000004590 computer program Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 8
- 238000010801 machine learning Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000013481 data capture Methods 0.000 description 3
- 230000001815 facial effect Effects 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 229960003965 antiepileptics Drugs 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
- G10L21/028—Voice signal separating using properties of sound source
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/40—Applications of speech amplifiers
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4931—Directory assistance systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
- H04M3/568—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L2015/088—Word spotting
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/221—Announcement of recognition results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0272—Voice signal separating
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- User Interface Of Digital Computer (AREA)
Description
12 メモリハードウェア
16 マイクロフォン、オーディオ出力デバイス
18 画像キャプチャデバイス
20 画像データ
100 システム
102 ユーザ
103 別のユーザ、受信者
104 アシスタント対応デバイス(AED)
105 受信者デバイス
106 第1の発話、発話
107 別の個人、個人
108 ホットワード検出器
109 デジタルアシスタント
110 ホットワード、プリアンブルオーディオ
112 音声フィルタモデル
116 自動音声認識器(ASR)、音声認識器
118 音声ベースのコマンド、音声コマンド
124 発話
126 可聴の内容
128 追加的な音、背景雑音
132 ネットワーク
150 オーディオベースの通信、ビデオ通話
152 改良されたオーディオデータ
155 可聴メッセージ
156 発話
160 ホットワード、プリアンブルオーディオ
168 音声コマンド
176 発話
178 可聴の内容
179 背景雑音
180 追加的な発話
200 音声フィルタリング認識ルーチン、ルーチン
202 文脈入力
210 分類モデル、機械学習分類モデル、モデル
212 分類結果、結果
215 ユーザフィードバック
300 音声フィルタエンジン、音声フィルタリングエンジン
301 生オーディオデータ
302 周波数表現
303 周波数変換器
304 パワー圧縮
306 正規化
310 修正された周波数表現
312 正規化エンジン、正規化
314 畳み込みニューラルネットワーク(CNN)部分
315 ユーザフィードバック
316 リカレントニューラルネットワーク(RNN)部分
317 話者埋め込みエンジン
318 話者埋め込み
320 全結合順伝播型ニューラルネットワーク部分
322 予測されたマスク
324 波形合成器
400 方法
500 コンピューティングデバイス
500a サーバ
500b ラップトップコンピュータ
500c ラックサーバシステム
510 プロセッサ、構成要素
520 メモリ、構成要素
530 ストレージデバイス、構成要素
540 高速インターフェース/コントローラ、構成要素
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素
570 低速バス
580 ディスプレイ
590 低速拡張ポート
Claims (30)
- データ処理ハードウェア(10)において、アシスタント対応デバイス(104)のユーザ(102)と受信者(103)との間のオーディオベースの通信を促進するための前記アシスタント対応デバイス(104)の音声コマンド(118)に対応する生オーディオデータ(301)の第1のインスタンスを受け取るステップであって、前記音声コマンド(118)が、前記ユーザ(102)によって話され、前記アシスタント対応デバイス(104)によってキャプチャされる、ステップと、
前記データ処理ハードウェア(10)において、前記ユーザ(102)によって話され、前記アシスタント対応デバイス(104)によってキャプチャされた前記オーディオベースの通信の可聴の内容(126、178)の発話に対応する前記生オーディオデータ(301)の第2のインスタンスを受け取るステップであって、前記生オーディオデータ(301)の前記第2のインスタンスが、前記ユーザ(102)によって話されていない1つまたは複数の追加的な音をキャプチャする、ステップと、
前記データ処理ハードウェア(10)によって、前記生オーディオデータ(301)の前記第1のインスタンスに基づいて、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の声に関する音声フィルタリングをアクティブ化するかどうかを判定するために音声フィルタリング認識ルーチン(200)を実行するステップであって、前記音声フィルタリング認識ルーチンは、前記オーディオベースの通信に関連する文脈入力に基づいて実行され、前記文脈入力が、前記受信者を特定する情報、前記アシスタント対応デバイスの種類、前記アシスタント対応デバイスの環境、前記アシスタント対応デバイスの環境の背景雑音レベル、前記アシスタント対応デバイスの画像キャプチャデバイスにより取得される画像データのうちの少なくとも1つを含む、ステップと、
前記音声フィルタリング認識ルーチン(200)が、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記データ処理ハードウェア(10)によって、前記ユーザ(102)の声の特性を表す前記ユーザ(102)のそれぞれの話者埋め込み(318)を取得するステップと、
前記ユーザ(102)によって話された前記可聴の内容(126、178)の前記発話を分離し、前記ユーザ(102)によって話されていない前記1つまたは複数の追加的な音の少なくとも一部を除外する、前記オーディオベースの通信に関する改良されたオーディオデータ(152)を生成するために、前記データ処理ハードウェア(10)によって、前記ユーザ(102)の前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理するステップと、
前記データ処理ハードウェア(10)によって、前記改良されたオーディオデータ(152)を前記受信者(103)に関連する受信者デバイス(105)に送信するステップであって、前記改良されたオーディオデータ(152)が、前記受信者デバイス(105)によって受信されるとき、前記受信者デバイス(105)に、前記ユーザ(102)によって話された前記可聴の内容(126、178)の前記発話を聞こえるように出力させる、ステップとを含む、方法(400)。 - スピーチ認識結果(212)を生成するために、前記データ処理ハードウェア(10)によって、スピーチ認識器(116)を使用して、前記生オーディオデータ(301)の前記第1のインスタンスを処理するステップと、
前記生オーディオデータ(301)の前記第1のインスタンスが、前記ユーザ(102)と前記受信者(103)との間の前記オーディオベースの通信を促進するための前記音声コマンド(118)を含むと判定するために、前記データ処理ハードウェア(10)によって、前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して意味解釈を実行するステップとをさらに含む、請求項1に記載の方法(400)。 - 前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、
前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記オーディオベースの通信の前記受信者(103)を特定することと、
前記オーディオベースの通信の前記特定された受信者(103)が、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する前記音声フィルタリングをアクティブ化することが適切であることを示す特定の受信者タイプを含むかどうかを判定することと、
前記オーディオベースの通信の前記特定された受信者(103)が前記特定の受信者タイプを含むとき、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項2に記載の方法(400)。 - 前記受信者タイプが、企業を含む、請求項3に記載の方法(400)。
- 前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、
前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記音声コマンド(118)が、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するための明示的な命令を含むかどうかを判定することと、
前記音声コマンド(118)が少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するための前記明示的な命令を含むとき、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項2から4のいずれか一項に記載の方法(400)。 - 前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記音声コマンド(118)が前記ユーザ(102)および別の個人(107)の声に関する音声フィルタリングをアクティブ化するための明示的な命令を含むと判定するとき、
前記別の個人(107)に関して、前記データ処理ハードウェア(10)によって、前記別の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得するステップをさらに含み、
前記ユーザ(102)によって話されていない、生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記別の個人(107)によって話された前記オーディオベースの通信の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記別の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理するステップが、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記オーディオベースの通信に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記別の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項5に記載の方法(400)。 - 前記生オーディオデータ(301)の前記第1のインスタンスが、前記オーディオベースの通信を促進するための前記アシスタント対応デバイス(104)の前記音声コマンド(118)に先立つプリアンブルオーディオおよびホットワード(110、160)を含み、
前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、
前記アシスタント対応デバイス(104)の前記環境の前記背景雑音レベルを決定するために、前記プリアンブルオーディオおよび/または前記ホットワード(110、160)から音声的特徴を抽出することと、
前記アシスタント対応デバイス(104)の前記環境の前記背景雑音レベルに基づいて、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項1から6のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(10)によって、前記アシスタント対応デバイス(104)の前記種類を決定するステップをさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記アシスタント対応デバイス(104)の前記種類にさらに基づく、請求項1から7のいずれか一項に記載の方法(400)。 - 前記データ処理ハードウェア(10)によって、前記アシスタント対応デバイス(104)が置かれている前記環境を決定するステップをさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記アシスタント対応デバイス(104)が置かれている前記環境にさらに基づく、請求項1から8のいずれか一項に記載の方法(400)。 - 前記アシスタント対応デバイス(104)によって促進される前記オーディオベースの通信がビデオ通話(150)を含むとき、
前記データ処理ハードウェア(10)において、前記アシスタント対応デバイス(104)の前記画像キャプチャデバイス(18)から、少なくとも前記ユーザ(102)が前記ビデオ通話(150)に参加していることを示す画像データ(20)を受信するステップをさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、少なくとも前記ユーザ(102)が前記ビデオ通話(150)に参加していることを示す前記画像データ(20)にさらに基づく、請求項1から9のいずれか一項に記載の方法(400)。 - 前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記ユーザ(102)および少なくとも1人のその他の個人(107)が前記ビデオ通話(150)に参加していることを示す前記画像データ(20)に基づいて、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)の声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記少なくとも1人のその他の個人(107)に関して、前記データ処理ハードウェア(10)によって、前記少なくとも1人のその他の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得するステップをさらに含み、
前記ユーザ(102)によって話されていない、生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記少なくとも1人のその他の個人(107)によって話された前記ビデオ通話(150)の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記少なくとも1人のその他の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理するステップが、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記ビデオ通話(150)に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項10に記載の方法(400)。 - 前記オーディオベースの通信の前記可聴の内容(126、178)に関するスピーチ認識結果(212)を生成するために、前記データ処理ハードウェア(10)によって、スピーチ認識器(116)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理するステップと、
前記データ処理ハードウェア(10)によって、前記オーディオベースの通信の前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して意味解釈を実行するステップとをさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記オーディオベースの通信の前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して実行された前記意味解釈にさらに基づく、請求項1から11のいずれか一項に記載の方法(400)。 - 前記音声フィルタリング認識ルーチン(200)を実行するステップが、前記可聴の内容(126、178)が前記ユーザ(102)と前記受信者(103)との間の前記オーディオベースの通信に参加している少なくとも1人のその他の個人(107)を特定することを示す、前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記ユーザ(102)および少なくとも1人のその他の個人(107)の声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記少なくとも1人のその他の個人(107)に関して、前記データ処理ハードウェア(10)によって、前記少なくとも1人のその他の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得するステップをさらに含み、
前記ユーザ(102)によって話されていない、生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記少なくとも1人のその他の個人(107)によって話された前記オーディオベースの通信の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記少なくとも1人のその他の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理するステップが、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記オーディオベースの通信に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項12に記載の方法(400)。 - 前記オーディオベースの通信が、オーディオ通話、電話、ビデオ通話(150)、オーディオメッセージ(150)、またはブロードキャストされたオーディオのうちの1つを含む、請求項1から13のいずれか一項に記載の方法(400)。
- 前記データ処理ハードウェア(10)によって、前記データ処理ハードウェア(10)と通信するスクリーン上に表示されるグラフィカルユーザインターフェース(GUI)内に、
少なくとも前記ユーザ(102)の前記声に関して音声フィルタリングが現在アクティブ化されているか否かを示すグラフィカルなインジケータと、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化/非アクティブ化するためのコントロールとを表示するステップをさらに含む、請求項1から14のいずれか一項に記載の方法(400)。 - データ処理ハードウェア(10)と、
前記データ処理ハードウェア(10)と通信するメモリハードウェア(12)であって、前記データ処理ハードウェア(10)上で実行されるときに、前記データ処理ハードウェア(10)に、
アシスタント対応デバイス(104)のユーザ(102)と受信者(103)との間のオーディオベースの通信を促進するための前記アシスタント対応デバイス(104)の音声コマンド(118)に対応する生オーディオデータ(301)の第1のインスタンスを受け取る動作であって、前記音声コマンド(118)が、前記ユーザ(102)によって話され、前記アシスタント対応デバイス(104)によってキャプチャされる、動作、
前記ユーザ(102)によって話され、前記アシスタント対応デバイス(104)によってキャプチャされた前記オーディオベースの通信の可聴の内容(126、178)の発話に対応する前記生オーディオデータ(301)の第2のインスタンスを受け取る動作であって、前記生オーディオデータ(301)の前記第2のインスタンスが、前記ユーザ(102)によって話されていない1つまたは複数の追加的な音をキャプチャする、動作、
前記生オーディオデータ(301)の前記第1のインスタンスに基づいて、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の声に関する音声フィルタリングをアクティブ化するかどうかを判定するために音声フィルタリング認識ルーチン(200)を実行する動作であって、前記音声フィルタリング認識ルーチンは、前記オーディオベースの通信に関連する文脈入力に基づいて実行され、前記文脈入力が、前記受信者を特定する情報、前記アシスタント対応デバイスの種類、前記アシスタント対応デバイスの環境、前記アシスタント対応デバイスの環境の背景雑音レベル、前記アシスタント対応デバイスの画像キャプチャデバイスにより取得される画像データのうちの少なくとも1つを含む、動作、
前記音声フィルタリング認識ルーチン(200)が、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記ユーザ(102)の声の特性を表す前記ユーザ(102)のそれぞれの話者埋め込み(318)を取得する動作、および
前記ユーザ(102)によって話された前記可聴の内容(126、178)の前記発話を分離し、前記ユーザ(102)によって話されていない前記1つまたは複数の追加的な音の少なくとも一部を除外する、前記オーディオベースの通信に関する改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)の前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理する動作、ならびに
前記改良されたオーディオデータ(152)を前記受信者(103)に関連する受信者デバイス(105)に送信する動作であって、前記改良されたオーディオデータ(152)が、前記受信者デバイス(105)によって受信されるとき、前記受信者デバイス(105)に、前記ユーザ(102)によって話された前記可聴の内容(126、178)の前記発話を聞こえるように出力させる、動作を含む動作を実行させる命令を記憶する、メモリハードウェア(12)とを含む、システム(100)。 - 前記動作が、
スピーチ認識結果(212)を生成するために、スピーチ認識器(116)を使用して、前記生オーディオデータ(301)の前記第1のインスタンスを処理する動作と、
前記生オーディオデータ(301)の前記第1のインスタンスが、前記ユーザ(102)と前記受信者(103)との間の前記オーディオベースの通信を促進するための前記音声コマンド(118)を含むと判定するために、前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して意味解釈を実行する動作とをさらに含む、請求項16に記載のシステム(100)。 - 前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、
前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記オーディオベースの通信の前記受信者(103)を特定することと、
前記オーディオベースの通信の前記特定された受信者(103)が、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する前記音声フィルタリングをアクティブ化することが適切であることを示す特定の受信者タイプを含むかどうかを判定することと、
前記オーディオベースの通信の前記特定された受信者(103)が前記特定の受信者タイプを含むとき、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項17に記載のシステム(100)。 - 前記受信者タイプが、企業を含む、請求項18に記載のシステム(100)。
- 前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、
前記生オーディオデータ(301)の前記第1のインスタンスに関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記音声コマンド(118)が、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するための明示的な命令を含むかどうかを判定することと、
前記音声コマンド(118)が少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するための前記明示的な命令を含むとき、少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項17から19のいずれか一項に記載のシステム(100)。 - 前記動作が、前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記音声コマンド(118)が前記ユーザ(102)および別の個人(107)の声に関する音声フィルタリングをアクティブ化するための明示的な命令を含むと判定するとき、
前記別の個人(107)に関して、前記別の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得する動作をさらに含み、
前記ユーザ(102)によって話されていない、生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記別の個人(107)によって話された前記オーディオベースの通信の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記別の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理する動作が、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記オーディオベースの通信に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記別の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項20に記載のシステム(100)。 - 前記生オーディオデータ(301)の前記第1のインスタンスが、前記オーディオベースの通信を促進するための前記アシスタント対応デバイス(104)の前記音声コマンド(118)に先立つプリアンブルオーディオおよびホットワード(110、160)を含み、
前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、
前記アシスタント対応デバイス(104)の前記環境の前記背景雑音レベルを決定するために、前記プリアンブルオーディオおよび/または前記ホットワード(110、160)から音声的特徴を抽出することと、
前記アシスタント対応デバイス(104)の前記環境の前記背景雑音レベルに基づいて、前記オーディオベースの通信内の少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化すると決定することとを含む、請求項16から21のいずれか一項に記載のシステム(100)。 - 前記動作が、
前記アシスタント対応デバイス(104)の前記種類を決定する動作をさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記アシスタント対応デバイス(104)の前記種類にさらに基づく、請求項16から22のいずれか一項に記載のシステム(100)。 - 前記動作が、
前記アシスタント対応デバイス(104)が置かれている前記環境を決定する動作をさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記アシスタント対応デバイス(104)が置かれている前記環境にさらに基づく、請求項16から23のいずれか一項に記載のシステム(100)。 - 前記動作が、前記アシスタント対応デバイス(104)によって促進される前記オーディオベースの通信がビデオ通話(150)を含むとき、
前記アシスタント対応デバイス(104)の前記画像キャプチャデバイス(18)から、少なくとも前記ユーザ(102)が前記ビデオ通話(150)に参加していることを示す画像データ(20)を受信する動作をさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、少なくとも前記ユーザ(102)が前記ビデオ通話(150)に参加していることを示す前記画像データ(20)にさらに基づく、請求項16から24のいずれか一項に記載のシステム(100)。 - 前記動作が、前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記ユーザ(102)および少なくとも1人のその他の個人(107)が前記ビデオ通話(150)に参加していることを示す前記画像データ(20)に基づいて、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)の声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記少なくとも1人のその他の個人(107)に関して、前記少なくとも1人のその他の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得する動作をさらに含み、
前記ユーザ(102)によって話されていない、生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記少なくとも1人のその他の個人(107)によって話された前記ビデオ通話(150)の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記少なくとも1人のその他の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理する動作が、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記ビデオ通話(150)に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項25に記載のシステム(100)。 - 前記動作が、
前記オーディオベースの通信の前記可聴の内容(126、178)に関するスピーチ認識結果(212)を生成するために、スピーチ認識器を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理する動作と、
前記オーディオベースの通信の前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して意味解釈を実行する動作とをさらに含み、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化するかどうかを判定するために前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記オーディオベースの通信の前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して実行された前記意味解釈にさらに基づく、請求項26に記載のシステム(100)。 - 前記動作が、前記音声フィルタリング認識ルーチン(200)を実行する動作が、前記可聴の内容(126、178)が前記ユーザ(102)と前記受信者(103)との間の前記オーディオベースの通信に参加している少なくとも1人のその他の個人(107)を特定することを示す、前記可聴の内容(126、178)に関する前記スピーチ認識結果(212)に対して実行された前記意味解釈に基づいて、前記ユーザ(102)および少なくとも1人のその他の個人(107)の声に関する音声フィルタリングをアクティブ化すると決定するとき、
前記少なくとも1人のその他の個人(107)に関して、前記少なくとも1人のその他の個人(107)の声の特性を表すそれぞれの話者埋め込み(318)を取得する動作をさらに含み、
前記ユーザ(102)によって話されていない、前記生オーディオ信号の前記第2のインスタンスによってキャプチャされた前記1つまたは複数の追加的な音が、前記少なくとも1人のその他の個人(107)によって話された前記オーディオベースの通信の可聴の内容(126、178)の追加的な発話(180)と、前記ユーザ(102)または前記少なくとも1人のその他の個人(107)のいずれによっても話されていない背景雑音(128、179)とを含み、
前記改良されたオーディオデータ(152)を生成するために前記生オーディオデータ(301)の前記第2のインスタンスを処理する動作が、前記可聴の内容(126、178)の前記発話および前記追加的な発話(180)を分離し、前記背景雑音(128、179)を除外する前記オーディオベースの通信に関する前記改良されたオーディオデータ(152)を生成するために、前記ユーザ(102)および前記少なくとも1人のその他の個人(107)に関する前記それぞれの話者埋め込み(318)を使用して、前記生オーディオデータ(301)の前記第2のインスタンスを処理することを含む、請求項27に記載のシステム(100)。 - 前記オーディオベースの通信が、オーディオ通話、電話、ビデオ通話(150)、オーディオメッセージ(150)、またはブロードキャストされたオーディオのうちの1つを含む、請求項16から28のいずれか一項に記載のシステム(100)。
- 前記動作が、前記データ処理ハードウェア(10)と通信するスクリーン上に表示されるグラフィカルユーザインターフェース(GUI)内に、
少なくとも前記ユーザ(102)の前記声に関して音声フィルタリングが現在アクティブ化されているか否かを示すグラフィカルなインジケータと、
少なくとも前記ユーザ(102)の前記声に関する音声フィルタリングをアクティブ化/非アクティブ化するためのコントロールとを表示する動作をさらに含む、請求項16から29のいずれか一項に記載のシステム(100)。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/086,296 | 2020-10-30 | ||
US17/086,296 US11462219B2 (en) | 2020-10-30 | 2020-10-30 | Voice filtering other speakers from calls and audio messages |
PCT/US2021/056718 WO2022093872A1 (en) | 2020-10-30 | 2021-10-26 | Voice filtering other speakers from calls and audio messages |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023548157A JP2023548157A (ja) | 2023-11-15 |
JP7568851B2 true JP7568851B2 (ja) | 2024-10-16 |
Family
ID=78820481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2023526417A Active JP7568851B2 (ja) | 2020-10-30 | 2021-10-26 | 通話およびオーディオメッセージからのその他の話者の音声フィルタリング |
Country Status (6)
Country | Link |
---|---|
US (2) | US11462219B2 (ja) |
EP (1) | EP4238090B1 (ja) |
JP (1) | JP7568851B2 (ja) |
KR (1) | KR20230098266A (ja) |
CN (1) | CN116420188A (ja) |
WO (1) | WO2022093872A1 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11462219B2 (en) * | 2020-10-30 | 2022-10-04 | Google Llc | Voice filtering other speakers from calls and audio messages |
US20220172728A1 (en) * | 2020-11-04 | 2022-06-02 | Ian Perera | Method for the Automated Analysis of Dialogue for Generating Team Metrics |
US11404061B1 (en) * | 2021-01-11 | 2022-08-02 | Ford Global Technologies, Llc | Speech filtering for masks |
US20220261218A1 (en) * | 2021-02-18 | 2022-08-18 | Samsung Electronics Co., Ltd. | Electronic device including speaker and microphone and method for operating the same |
US11830514B2 (en) * | 2021-05-27 | 2023-11-28 | GM Global Technology Operations LLC | System and method for augmenting vehicle phone audio with background sounds |
US20240161765A1 (en) * | 2022-11-16 | 2024-05-16 | Cisco Technology, Inc. | Transforming speech signals to attenuate speech of competing individuals and other noise |
US20240212669A1 (en) * | 2022-12-21 | 2024-06-27 | Qualcomm Incorporated | Speech filter for speech processing |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118124A (ja) | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
JP2011170261A (ja) | 2010-02-22 | 2011-09-01 | Oki Electric Industry Co Ltd | 音声強調装置及び音声強調プログラム |
US20180061404A1 (en) | 2016-09-01 | 2018-03-01 | Amazon Technologies, Inc. | Indicator for voice-based communications |
JP2019148780A (ja) | 2018-02-28 | 2019-09-05 | シャープ株式会社 | 音声出力装置、音声出力方法及びプログラム |
US10440324B1 (en) | 2018-09-06 | 2019-10-08 | Amazon Technologies, Inc. | Altering undesirable communication data for communication sessions |
JP2020527739A (ja) | 2017-10-17 | 2020-09-10 | グーグル エルエルシー | 話者ダイアライゼーション |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3010017A1 (en) | 2014-10-14 | 2016-04-20 | Thomson Licensing | Method and apparatus for separating speech data from background data in audio communication |
US10431211B2 (en) | 2016-07-29 | 2019-10-01 | Qualcomm Incorporated | Directional processing of far-field audio |
US10553235B2 (en) | 2017-08-28 | 2020-02-04 | Apple Inc. | Transparent near-end user control over far-end speech enhancement processing |
US10991379B2 (en) * | 2018-06-22 | 2021-04-27 | Babblelabs Llc | Data driven audio enhancement |
US11462219B2 (en) * | 2020-10-30 | 2022-10-04 | Google Llc | Voice filtering other speakers from calls and audio messages |
-
2020
- 2020-10-30 US US17/086,296 patent/US11462219B2/en active Active
-
2021
- 2021-10-26 WO PCT/US2021/056718 patent/WO2022093872A1/en active Application Filing
- 2021-10-26 EP EP21819270.6A patent/EP4238090B1/en active Active
- 2021-10-26 JP JP2023526417A patent/JP7568851B2/ja active Active
- 2021-10-26 CN CN202180074499.9A patent/CN116420188A/zh active Pending
- 2021-10-26 KR KR1020237017980A patent/KR20230098266A/ko active IP Right Grant
-
2022
- 2022-09-09 US US17/930,822 patent/US12087297B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011118124A (ja) | 2009-12-02 | 2011-06-16 | Murata Machinery Ltd | 音声認識システムと認識方法 |
JP2011170261A (ja) | 2010-02-22 | 2011-09-01 | Oki Electric Industry Co Ltd | 音声強調装置及び音声強調プログラム |
US20180061404A1 (en) | 2016-09-01 | 2018-03-01 | Amazon Technologies, Inc. | Indicator for voice-based communications |
JP2020527739A (ja) | 2017-10-17 | 2020-09-10 | グーグル エルエルシー | 話者ダイアライゼーション |
JP2019148780A (ja) | 2018-02-28 | 2019-09-05 | シャープ株式会社 | 音声出力装置、音声出力方法及びプログラム |
US10440324B1 (en) | 2018-09-06 | 2019-10-08 | Amazon Technologies, Inc. | Altering undesirable communication data for communication sessions |
Also Published As
Publication number | Publication date |
---|---|
WO2022093872A1 (en) | 2022-05-05 |
EP4238090A1 (en) | 2023-09-06 |
US11462219B2 (en) | 2022-10-04 |
US20230005480A1 (en) | 2023-01-05 |
US20220139388A1 (en) | 2022-05-05 |
JP2023548157A (ja) | 2023-11-15 |
CN116420188A (zh) | 2023-07-11 |
US12087297B2 (en) | 2024-09-10 |
EP4238090B1 (en) | 2024-09-11 |
KR20230098266A (ko) | 2023-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7568851B2 (ja) | 通話およびオーディオメッセージからのその他の話者の音声フィルタリング | |
US11545147B2 (en) | Utterance classifier | |
US12002464B2 (en) | Systems and methods for recognizing a speech of a speaker | |
US10891952B2 (en) | Speech recognition | |
US10192550B2 (en) | Conversational software agent | |
US11568878B2 (en) | Voice shortcut detection with speaker verification | |
US12190859B2 (en) | Synthesized speech audio data generated on behalf of human participant in conversation | |
US10140988B2 (en) | Speech recognition | |
CN104538043A (zh) | 一种通话中实时情感提示装置 | |
US20170256259A1 (en) | Speech Recognition | |
US20250061887A1 (en) | Synthesized speech audio data generated on behalf of human participant in conversation | |
Basson et al. | Smart attenuation control for microphones |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230623 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230623 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20240527 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240712 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240909 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20241003 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7568851 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |