JP7178394B2 - 音声信号を処理するための方法、装置、機器、および媒体 - Google Patents
音声信号を処理するための方法、装置、機器、および媒体 Download PDFInfo
- Publication number
- JP7178394B2 JP7178394B2 JP2020185936A JP2020185936A JP7178394B2 JP 7178394 B2 JP7178394 B2 JP 7178394B2 JP 2020185936 A JP2020185936 A JP 2020185936A JP 2020185936 A JP2020185936 A JP 2020185936A JP 7178394 B2 JP7178394 B2 JP 7178394B2
- Authority
- JP
- Japan
- Prior art keywords
- text
- audio
- feature set
- degree
- representations
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 62
- 230000005236 sound signal Effects 0.000 title claims description 50
- 238000012545 processing Methods 0.000 title claims description 26
- 238000004590 computer program Methods 0.000 claims description 12
- 230000009471 action Effects 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 3
- 230000003993 interaction Effects 0.000 description 40
- 230000008569 process Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 241000282412 Homo Species 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/01—Assessment or evaluation of speech recognition systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Telephonic Communication Services (AREA)
Description
本開示の第5の態様では、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムを提供し、前記コンピュータプログラムにおける命令が実行された場合に、第1の態様の実施例に記載の方法が実行される。
本開示の実施例によれば、コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムが提供される。当該コンピュータプログラムにおける命令が実行された場合に、上記音声信号を処理するための方法が実行される。
Claims (11)
- 音声信号を処理するための方法であって、
受信された音声信号の音声特徴表現セットを取得するステップと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するステップであって、各ソーステキスト特徴表現は、前記テキスト内の1つの要素に対応し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記1つの要素は1つの文字、1つの音節、または1つのアルファベットであるステップと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するステップと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するステップであって、前記マッチング度合いは、前記テキストの認識の正確さを示すステップと、を含み、
ターゲットテキスト特徴表現セットを生成するステップは、
前記ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するステップと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するステップと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するステップと、を含む、
ことを特徴とする音声信号を処理するための方法。 - 前記方法は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するステップと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の前記音声特徴表現を置き換えるステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。 - 前記マッチング度合いを決定するステップは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するステップと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するステップと、を含む、
ことを特徴とする請求項1に記載の方法。 - 前記方法は、
前記マッチング度合いと閾値度合いとを比較するステップと、
前記マッチング度合いが前記閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するステップと、をさらに含む、
ことを特徴とする請求項1に記載の方法。 - 音声信号を処理するための装置であって、
受信された音声信号の音声特徴表現セットを取得するように構成される取得モジュールと、
前記音声信号から認識されたテキストに基づいて、ソーステキスト特徴表現セットを生成するように構成されるソーステキスト特徴表現セット生成モジュールであって、各ソーステキスト特徴表現は、前記テキスト内の1つの要素に対応し、前記テキストを、ニューラルネットワークによって形成される音声認識結果信頼度モデルに送信することで、前記テキストに対応するソーステキスト特徴表現セットを生成し、前記1つの要素は1つの文字、1つの音節、または1つのアルファベットであるソーステキスト特徴表現セット生成モジュールと、
前記音声特徴表現セットおよび前記ソーステキスト特徴表現セットに基づいて、ターゲットテキスト特徴表現セットを生成するように構成されるターゲットテキスト特徴表現セット生成モジュールと、
前記ターゲットテキスト特徴表現セットと、前記テキストについて事前定義された参照テキスト特徴表現セットとのマッチング度合いを決定するように構成される第1のマッチング度合い決定モジュールであって、前記マッチング度合いは、前記テキストの認識の正確さを示す第1のマッチング度合い決定モジュールと、を含み、
前記ターゲットテキスト特徴表現セット生成モジュールは、
前記ソーステキスト特徴表現セット内の1つのソーステキスト特徴表現と、前記音声特徴表現セット内の複数の音声特徴表現との複数の類似度を決定するように構成される第1の類似度決定モジュールと、
前記複数の類似度を前記複数の音声特徴表現に適用することによって、複数の中間音声特徴表現を生成するように構成される中間音声特徴表現生成モジュールと、
前記複数の中間音声特徴表現を組み合わせることによって、前記ソーステキスト特徴表現に対応するターゲットテキスト特徴表現を生成するように構成される組み合わせモジュールと、を含む、
ことを特徴とする音声信号を処理するための装置。 - 前記装置は、
前記音声特徴表現セット内の音声特徴表現に対して非線形変換を実行するように構成される非線形変換モジュールと、
変換された前記音声特徴表現を用いて前記音声特徴表現セット内の音声特徴表現を置き換えるように構成される置き換えモジュールと、をさらに含む、
ことを特徴とする請求項5に記載の装置。 - 前記第1のマッチング度合い決定モジュールは、
前記ターゲットテキスト特徴表現セット内の複数のターゲットテキスト特徴表現と、前記参照テキスト特徴表現セット内の、複数のターゲットテキスト特徴表現に対応する複数の参照テキスト特徴表現との複数の類似度を決定するように構成される第2の類似度決定モジュールと、
前記複数の類似度の平均値に基づいて前記マッチング度合いを決定するように構成される第2のマッチング度合い決定モジュールと、を含む、
ことを特徴とする請求項5に記載の装置。 - 前記装置は、
前記マッチング度合いと閾値度合いとを比較するように構成される比較モジュールと、
前記マッチング度合いが閾値度合いより高いとの判定に基づいて、前記テキストによって示された動作を実行するように構成される実行モジュールと、をさらに含む、
ことを特徴とする請求項5に記載の装置。 - 一つまたは複数のプロセッサと、
一つまたは複数のプログラムを記憶するための記憶装置と、を含む電子機器であって、
前記一つまたは複数のプログラムが前記一つまたは複数のプロセッサによって実行される場合、前記一つまたは複数のプロセッサが、請求項1~4のいずれかに記載の方法を実現する、
ことを特徴とする電子機器。 - コンピュータプログラムが記憶されているコンピュータ読み取り可能な記憶媒体であっ
て、
前記プログラムがプロセッサによって実行される場合、請求項1~4のいずれかに記載の方法が実現される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体。 - コンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラムであって、
前記コンピュータプログラムにおける命令が実行された場合に、請求項1~4のいずれかに記載の方法が実行される、
ことを特徴とするコンピュータ読み取り可能な記憶媒体に記憶されているコンピュータプログラム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911146748.1 | 2019-11-21 | ||
CN201911146748.1A CN110827799B (zh) | 2019-11-21 | 2019-11-21 | 用于处理语音信号的方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021081713A JP2021081713A (ja) | 2021-05-27 |
JP7178394B2 true JP7178394B2 (ja) | 2022-11-25 |
Family
ID=69557598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020185936A Active JP7178394B2 (ja) | 2019-11-21 | 2020-11-06 | 音声信号を処理するための方法、装置、機器、および媒体 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11322151B2 (ja) |
JP (1) | JP7178394B2 (ja) |
CN (1) | CN110827799B (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
CN113053366B (zh) * | 2021-03-12 | 2023-11-21 | 中国电子科技集团公司第二十八研究所 | 一种基于多模态融合的管制话音复述一致性校验方法 |
CN113707148B (zh) * | 2021-08-05 | 2024-04-19 | 中移(杭州)信息技术有限公司 | 语音识别准确率的确定方法、装置、设备以及介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011075973A (ja) | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2015082036A (ja) | 2013-10-23 | 2015-04-27 | 日本電信電話株式会社 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
JP2019015952A (ja) | 2017-07-05 | 2019-01-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ウェイクアップ方法、デバイス及びシステム、クラウドサーバーと可読媒体 |
Family Cites Families (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3045510B2 (ja) * | 1989-12-06 | 2000-05-29 | 富士通株式会社 | 音声認識処理装置 |
US5689616A (en) * | 1993-11-19 | 1997-11-18 | Itt Corporation | Automatic language identification/verification system |
WO2005098817A2 (en) * | 2004-03-25 | 2005-10-20 | Ashwin Rao | System and method for speech-to-text conversion using constrained dictation in a speak-and-spell mode |
US8447592B2 (en) * | 2005-09-13 | 2013-05-21 | Nuance Communications, Inc. | Methods and apparatus for formant-based voice systems |
WO2007034478A2 (en) * | 2005-09-20 | 2007-03-29 | Gadi Rechlis | System and method for correcting speech |
US8234494B1 (en) * | 2005-12-21 | 2012-07-31 | At&T Intellectual Property Ii, L.P. | Speaker-verification digital signatures |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
US8543393B2 (en) * | 2008-05-20 | 2013-09-24 | Calabrio, Inc. | Systems and methods of improving automated speech recognition accuracy using statistical analysis of search terms |
US20100094622A1 (en) * | 2008-10-10 | 2010-04-15 | Nexidia Inc. | Feature normalization for speech and audio processing |
US10565229B2 (en) * | 2018-05-24 | 2020-02-18 | People.ai, Inc. | Systems and methods for matching electronic activities directly to record objects of systems of record |
US20130080172A1 (en) * | 2011-09-22 | 2013-03-28 | General Motors Llc | Objective evaluation of synthesized speech attributes |
CN103226950A (zh) * | 2012-01-29 | 2013-07-31 | 特克特朗尼克公司 | 电信网络中的语音处理 |
JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
US20150058006A1 (en) * | 2013-08-23 | 2015-02-26 | Xerox Corporation | Phonetic alignment for user-agent dialogue recognition |
US9183830B2 (en) * | 2013-11-01 | 2015-11-10 | Google Inc. | Method and system for non-parametric voice conversion |
US10395645B2 (en) * | 2014-04-22 | 2019-08-27 | Naver Corporation | Method, apparatus, and computer-readable recording medium for improving at least one semantic unit set |
US9564123B1 (en) * | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
CN104299612B (zh) * | 2014-11-10 | 2017-11-07 | 科大讯飞股份有限公司 | 模仿音相似度的检测方法和装置 |
US20160147765A1 (en) * | 2014-11-25 | 2016-05-26 | Quixey, Inc. | Techniques for Using Similarity to Enhance Relevance in Search Results |
US9741342B2 (en) * | 2014-11-26 | 2017-08-22 | Panasonic Intellectual Property Corporation Of America | Method and apparatus for recognizing speech by lip reading |
CN105260416A (zh) * | 2015-09-25 | 2016-01-20 | 百度在线网络技术(北京)有限公司 | 一种基于语音识别的搜索方法及装置 |
CN105185372B (zh) * | 2015-10-20 | 2017-03-22 | 百度在线网络技术(北京)有限公司 | 个性化多声学模型的训练方法、语音合成方法及装置 |
CN105845130A (zh) * | 2016-03-30 | 2016-08-10 | 乐视控股(北京)有限公司 | 用于语音识别的声学模型训练方法及装置 |
CN107844470B (zh) * | 2016-09-18 | 2021-04-30 | 腾讯科技(深圳)有限公司 | 一种语音数据处理方法及其设备 |
US10614813B2 (en) * | 2016-11-04 | 2020-04-07 | Intellisist, Inc. | System and method for performing caller identity verification using multi-step voice analysis |
US11011160B1 (en) * | 2017-01-17 | 2021-05-18 | Open Water Development Llc | Computerized system for transforming recorded speech into a derived expression of intent from the recorded speech |
US10170134B2 (en) * | 2017-02-21 | 2019-01-01 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
CN106971709B (zh) * | 2017-04-19 | 2021-10-15 | 腾讯科技(上海)有限公司 | 统计参数模型建立方法和装置、语音合成方法和装置 |
JP2018191145A (ja) * | 2017-05-08 | 2018-11-29 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム及びディクテーション方法 |
JP6883471B2 (ja) * | 2017-05-11 | 2021-06-09 | オリンパス株式会社 | 収音装置、収音方法、収音プログラム、ディクテーション方法及び情報処理装置 |
CN108305642B (zh) * | 2017-06-30 | 2019-07-19 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
WO2019001458A1 (zh) * | 2017-06-30 | 2019-01-03 | 腾讯科技(深圳)有限公司 | 情感信息的确定方法和装置 |
CN109817220A (zh) * | 2017-11-17 | 2019-05-28 | 阿里巴巴集团控股有限公司 | 语音识别方法、装置及系统 |
CN108305633B (zh) * | 2018-01-16 | 2019-03-29 | 平安科技(深圳)有限公司 | 语音验证方法、装置、计算机设备和计算机可读存储介质 |
CN108763190B (zh) * | 2018-04-12 | 2019-04-02 | 平安科技(深圳)有限公司 | 基于语音的口型动画合成装置、方法及可读存储介质 |
US20200022632A1 (en) * | 2018-07-17 | 2020-01-23 | Limbix Health, Inc. | Digital content processing and generation for a virtual environment |
CN109036384B (zh) * | 2018-09-06 | 2019-11-15 | 百度在线网络技术(北京)有限公司 | 语音识别方法和装置 |
CN109461446B (zh) * | 2018-12-24 | 2019-10-01 | 出门问问信息科技有限公司 | 一种识别用户目标请求的方法、装置、系统及存储介质 |
US10923111B1 (en) * | 2019-03-28 | 2021-02-16 | Amazon Technologies, Inc. | Speech detection and speech recognition |
CN110136747A (zh) * | 2019-05-16 | 2019-08-16 | 上海流利说信息技术有限公司 | 一种评价语音音素正确性的方法、装置、设备及存储介质 |
US11715485B2 (en) * | 2019-05-17 | 2023-08-01 | Lg Electronics Inc. | Artificial intelligence apparatus for converting text and speech in consideration of style and method for the same |
KR20190087353A (ko) * | 2019-07-05 | 2019-07-24 | 엘지전자 주식회사 | 음성 인식 검증 장치 및 방법 |
KR102223736B1 (ko) * | 2019-07-22 | 2021-03-05 | 엘지전자 주식회사 | 인공지능 장치를 이용한 음성 처리 방법 |
CN110827799B (zh) * | 2019-11-21 | 2022-06-10 | 百度在线网络技术(北京)有限公司 | 用于处理语音信号的方法、装置、设备和介质 |
-
2019
- 2019-11-21 CN CN201911146748.1A patent/CN110827799B/zh active Active
-
2020
- 2020-06-22 US US16/907,936 patent/US11322151B2/en active Active
- 2020-11-06 JP JP2020185936A patent/JP7178394B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011075973A (ja) | 2009-10-01 | 2011-04-14 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識装置とその方法と、プログラム |
JP2015082036A (ja) | 2013-10-23 | 2015-04-27 | 日本電信電話株式会社 | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 |
JP2019015952A (ja) | 2017-07-05 | 2019-01-31 | バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド | ウェイクアップ方法、デバイス及びシステム、クラウドサーバーと可読媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2021081713A (ja) | 2021-05-27 |
CN110827799A (zh) | 2020-02-21 |
US11322151B2 (en) | 2022-05-03 |
CN110827799B (zh) | 2022-06-10 |
US20210158823A1 (en) | 2021-05-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111951805B (zh) | 一种文本数据处理方法及装置 | |
WO2021093449A1 (zh) | 基于人工智能的唤醒词检测方法、装置、设备及介质 | |
KR102170199B1 (ko) | 비교 세트를 사용한 입력 예시들 분류 | |
Wöllmer et al. | Combining long short-term memory and dynamic bayesian networks for incremental emotion-sensitive artificial listening | |
CN108694940B (zh) | 一种语音识别方法、装置及电子设备 | |
CN107221320A (zh) | 训练声学特征提取模型的方法、装置、设备和计算机存储介质 | |
JP7178394B2 (ja) | 音声信号を処理するための方法、装置、機器、および媒体 | |
CN112259089B (zh) | 语音识别方法及装置 | |
CN114596844B (zh) | 声学模型的训练方法、语音识别方法及相关设备 | |
CN111428010A (zh) | 人机智能问答的方法和装置 | |
CN111710337B (zh) | 语音数据的处理方法、装置、计算机可读介质及电子设备 | |
JP7063937B2 (ja) | 音声対話するための方法、装置、電子デバイス、コンピュータ読み取り可能な記憶媒体、及びコンピュータプログラム | |
US11961515B2 (en) | Contrastive Siamese network for semi-supervised speech recognition | |
CN113434683A (zh) | 文本分类方法、装置、介质及电子设备 | |
WO2023116572A1 (zh) | 一种词句生成方法及相关设备 | |
CN111126084B (zh) | 数据处理方法、装置、电子设备和存储介质 | |
CN111161724B (zh) | 中文视听结合语音识别方法、系统、设备及介质 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN112037772A (zh) | 基于多模态的响应义务检测方法、系统及装置 | |
CN113362809B (zh) | 语音识别方法、装置和电子设备 | |
US20220222435A1 (en) | Task-Specific Text Generation Based On Multimodal Inputs | |
CN110991155A (zh) | 文本修正方法、设备及介质 | |
CN115273849B (zh) | 一种关于音频数据的意图识别方法及装置 | |
CN112242139B (zh) | 语音交互方法、装置、设备和介质 | |
CN113569918A (zh) | 分类温度调节方法、装置、电子设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201106 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20211129 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220104 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220331 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220802 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20221108 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20221114 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7178394 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |