TWI743798B

TWI743798B - 漢語多重語音識別的方法與裝置

Info

Publication number: TWI743798B
Application number: TW109116776A
Authority: TW
Inventors: 許永昌; 翁祥紘
Original assignee: 易晨智能股份有限公司
Priority date: 2020-05-20
Filing date: 2020-05-20
Publication date: 2021-10-21
Also published as: TW202145194A

Abstract

一種漢語多重語音識別的方法，包含下列步驟：提供一編程介面，用以該編程介面接收一語音信號，並將該語音信號轉換成複數個語音轉文字(speech-to-text,STT)服務器所分別能接受之複數組音頻格式，俾該複數STT服務器可據以產生多組回應文字；依據一第一階段比較方案，從該多組回應文字中選擇至少一組備取回應文字，其中該第一階段比較方案係依據各該多組回應文字之字詞數量的多寡來進行比較；依據一第二階段比較方案，分別將各該至少一組回應文字予以斷詞成複數語詞、分別賦予各該語詞一給分、選出給分總和最高之一組回應文字、以及輸出該組經選出之回應文字；以及輸出所選出的該組回應文字。

Description

漢語多重語音識別的方法與裝置

本發明係關於一種語音識別的方法與裝置，特別是透過網際網路一種漢語多重語音識別的方法與裝置。

在網路媒體發達的年代裡，智能硬體設備可以接收來自使用者的語音輸入，轉換成為電子類比或數位信號之後，透過網際網路的傳輸而讓雲端的語音轉文字(speech-to-text,STT)服務器將語音信號解讀為文字信號，呈現於智能硬體設備得顯示螢幕上。

現行智能硬體設備與雲端STT服務器之間通常以一對一的型式互相溝通，此種方法仰賴單一演算法，但當演算法不準或參數有缺陷時無法及時效正，導致語音識別結果不佳乃至於掉字、掉詞、斷字等現象，一句話無法完整的呈現描敘，亦或者出現發音與語詞不匹配的現象。目前語音識別領域，極大多數的業者都是在改善語音識別的演算法以及識別準確率等方面下功夫，例如在單一算法模型上做參數修正、語料腳本的蒐集、對話文本的識別模型建立、或音頻的標記分類。對話者包含銀髮長輩、幼兒、青年人、男生以及女生，音調各有所不同，語音頻譜也有所不同。目前並無任何一種模型算法能精準有效的識別各種情境場域以及對話者。

因此，如何能夠避免上述的缺點，是需要解決的技術問題。

為了處理語音輸入多種類性的問題，以及單一語音識別演算法裝置服務難以符合需求，導致語音辨識準確率低落，常出現掉字或者語音識別錯誤之情況，而識別錯誤後卻無法取得正確之資訊等諸多缺陷，本發明提出一種漢語多重語音識別的方法與裝置。

依據本發明一實施例，提出一種漢語多重語音識別的方法，包含下列步驟：提供一編程介面，用以該編程介面接收一語音信號，並將該語音信號轉換成複數個語音轉文字(speech-to-text,STT)服務器所分別能接受之複數組音頻格式，俾該複數STT服務器可據以產生多組回應文字；依據一第一階段比較方案，從該多組回應文字中選擇至少一組備取回應文字，其中該第一階段比較方案係依據各該多組回應文字之字詞數量的多寡來進行比較；依據一第二階段比較方案，分別將各該至少一組回應文字予以斷詞成複數語詞、分別賦予各該語詞一給分、選出給分總和最高之一組回應文字、以及輸出該組經選出之回應文字；以及輸出所選出的該組回應文字。

依據本發明另一實施例，提出一種漢語多重語音識別裝置，包含一編程介面以及一過濾引擎。該編程介面係用以接收一語音信號，並將該語音信號轉換成複數語音轉文字(speech-to-text,STT)服務器所分別能接受之複數組音頻格式，俾該複數STT服務器可據以產生多組回應文字。該過濾引擎自該多組回應文字中選出具最多字詞數量之一組。

依據本發明另一實施例，提出一種漢語語音識別裝置，包含一編程介面以及一過濾引擎。該編程介面係用以接收一語音信號，並將該語音信號轉換成複數個語音轉文字(speech-to-text,STT)服務器所分別能接受之複數組音頻格式。該過濾引擎係配置以：分別接收來自該複數STT服務器所產生的多組回應文字；依據一斷詞演算法，分別將各該多組回應文字予以斷詞成複數語詞；分別賦予各該語詞一給分；選出給分總和最高之一組回應文字；以及輸出該組經選出之回應文字。

本發明所提出的漢語多重語音識別方法與裝置，適用於機器人產品、手機平台、電視、車載之聲控系統、帶有A.I.語音互動之所有智能硬體產品，所以具有產業利用性。

2:麥克風

4:音頻處理器

6:傳輸介面

10:漢語多重語音識別裝置

12:編程介面

16:過濾引擎

20:顯示器

141/143/145/411/413/415/511/513/515:STT服務器

301/302/303/304/306/307/308/309/310/401/410/430/501/510/530:步驟

421/423/425:回應文字

521/5623/525:詞語組合

533/535:步驟

550:詞語庫

本案得藉由下列圖式之詳細說明，俾得更深入之瞭解：圖1係本發明漢語多重語音識別的方法與裝置一實施例的示意圖；圖2A係本發明API依據適合的通信協議將信號分別提供不同STT的服務器的一實施例示意圖；圖2B係本發明API依據適合的通信協議將信號分別提供不同STT的服務器的另一實施例示意圖；圖3係本發明過濾引擎一實施例的流程示意圖；圖4係用以說明圖3所示演算法(A)的一個簡單的示意圖；圖5係用以說明圖3所示演算法(B)的一個簡單的示意圖。

本發明將可由下列實施例說明而得到充分瞭解，使熟習本技藝之人士可以據以完成之，然本發明之實施並非可由下列實施例而被限制其實施型態。

請參閱圖1，其顯示依據本發明透過網際網路一種漢語多重語音識別的方法與裝置的一實施例。由於的網際網路的發達，許多人經常利用使用者設備(例如手機、平板電腦或個人電腦)上網。一般的使用者設備通常配置有麥克風、音頻處理器、用以提供與網際網路之間聯絡的傳輸介面、以及面板螢幕之類的顯示器。

如圖所示，使用者所發出的聲音經麥克風2的轉換成為通常為類比形式的語音信號S₁而被傳輸到音頻處理器4，再被轉換成為通常是數位形式的語音信號S₂，透過傳輸介面6而將語音信號S₂利用網際網路傳送到編程介面(API)12。本領域專業人士可以理解，傳輸介面6上傳信號到網際網路的方式可以利用有線通訊的方式連結也可以透過無線通訊的方式連結。

API 12是一種協議轉換介面。許多網路業者如谷歌(Google)、微軟(Microsoft)或百度等公司都自行發展語音轉文字(Speech-to-Text,STT)演算法，各有其優劣之處，但是都可以透過網際網路連接。各家STT演算法的引擎接口適用的音頻格式有所不同，通常分為兩大類別(A)File-Base：將音頻以傳送檔案的方式作為一次性解析不是時時傳輸模式(B)Streaming-Base：將音頻以媒體串流的方式傳輸，時時傳輸的方式進行解析。

由於不同STT的服務器接口協議有所不同，本發明的漢語多重語音識別裝置10在網路輸入端形成統一接口，將STT的服務器通常運用的File-Base和Streaming-Base兩種通訊協議經由API 12標準化，也就是將語音信號S₂轉換成分別應用演算法STT A/STT B/STT C的STT服務器141/145/145所分別能接受之複數組音頻格式的語音信號V_inputA/ V_inputB/V_inputC，好讓這些STT服務器141/145/145可分別據以產生多組回應文字T_exA/T_exB/T_exC，傳送到過濾引擎16。

圖2A顯示的是在網路上利用上述業者如谷歌、微軟或百度所提供各種不同的STT演算法A、STT演算法B、STT演算法C分別進行語音轉文字的功能。由於使用者包含銀髮長輩、幼兒、青年人，或者區分為男生以及女生，音調各有所不同，語音頻譜自然也有所不同。圖2A顯示的是適合各種不同語音頻譜的STT服務器，分別以STT男聲、STT女聲、STT幼兒聲、STT年長聲、STT方言聲來表示。漢語的一大特色是方言雖然眾多，然而都是使用相同的中文漢字與詞彙為基礎，只要能解析方言讀音的特質，就能夠將方言語音轉換成漢字組成的回應文字組。

本發明運用多種語音識別模型同時並存，可以是自行開發的模型演算法，亦可以是其他廠商的模型演算法，不局限於只用自己的語音識別演算法，因此將每一種不同演算法模型建構在一台各別獨立的服務器上，保有擴充的靈活性。本發明提出一種多種語音識別裝置算法同時並存的架構機制，避免單一或某識別演算法無法精準識別出語音或者誤判之時，同時能利用其他識別演算法服務器進行，使用者能獲得最佳化之答案，提升整體精準度。

參閱圖3，其顯示本發明的過濾引擎16一實施例的流程示意圖。過濾引擎16分別接收來自多個STT服務器(例如圖1中的141/145/145)所產生的多組回應文字T_exA/T_exB/T_exC，進行過濾分析。依據本發明一實施例，執行演算法(A)，比較各回應文字的字數，選取文字字數最多者(步驟301)，如果存在唯一的字數最多者時(步驟302結果為否)，就以該字數最多的一組為最佳化的結果(步驟303)。依據另一實施例，可以選擇字數領先的若干組為備取組，進行斷詞演算法以進入下一個階段的演算法(B)，再來決定最佳化的結果(步驟303)。

中文的句子是由個別的文字組成，而相鄰的文字與文字組合可以構成語詞。如果存在多組字數相同而無法決定唯一的字數最多者時(步驟302結果為是)，這些回應文字組可以通過斷詞演算法，比較語詞數量的多寡，以語詞數量較多者為佳(步驟304)。如果存在唯一的詞語數最多者時(步驟306結果為否)，就以該詞語數最多的一組為最佳化的結果(步驟307)。依據另一實施例，也可以選擇詞語數領先的若干組為備取組，以進入下一個階段的演算法(B)，再來決定最佳化的結果(未顯示)。

簡單來說，中文斷詞就是讓電腦可以把中文詞彙以「意義」為單位切割出來，用電腦做自然語言處理或是進行文本分析研究的時候，通常需要先將文本進行斷詞，用詞語這個最小且有意義的單位來進行分析、整理，因此斷詞可以說是整個自然語言處理最基礎的工作。

如果存在多組詞語數相同而無法決定唯一詞語數最多者時(步驟306結果為是)，則進入下一個階段的演算法(B)，需要利用本發明的詞語庫來執行進一步的運算比較(步驟308)，挑選出最佳化的詞語組合(步驟309)。最後，當最佳化的一組回應文字經由上述的流程而被確定時，圖1中的過濾引擎16將所選出的該組回應文字TexO輸出到使用者設備的顯示器20(步驟310)，呈現於使用者眼前。

圖4是用一個簡單的示例來說明圖3所示的演算法(A)。如圖，當使用者的一句話「今天天氣很好我好想出去玩」以口語方式透過聲音進入使用者設備而被API 12依據STT服務器所適合的音頻格式轉化為相應的語音信號V_inputA/V_inputB/V_inputC(步驟401)；這些STT服務器411/413/415分別執行STT演算法A、STT演算法B、STT演算法C據以產生多組回應文字(步驟410)，分別是「今天天氣出去玩」421、「今天我好想出去玩」423和「今天我很好想出去玩」425。演算法(A)是直接計算各組回應文字421/423/425的總字數，依據文字數量的多寡來選擇至少一組備取回應文字，通常是取字數較多者(步驟430)。

圖5是以圖4的示例來介紹圖3所示的演算法(B)。如圖，使用者相同的一句話「今天天氣很好我好想出去玩」以口語方式透過聲音進入使用者設備而被API 12依據STT服務器所適合的音頻格式轉化為相應的語音信號V_inputA/V_inputB/V_inputC(步驟501)；這些STT服務器511/513/515分別執行STT演算法A、STT演算法B、STT演算法C據以產生多組回應文字(步驟510)，這些回應文字再經過斷詞演算法，將整串文字分段切割成為詞語組合，分別是「今天/天氣/出去玩」521、「今天/我/好/想/出去玩」523和「今天/天氣/很/好想/出去玩」525。

依據先前所述的實施例，經過斷詞演算法產生的詞語組合521/523/525可以比較詞語的數量而決定何者為最佳化的結果，稱之為中文分詞演算法。而本發明所提出的演算法(B)則需要進行熱詞比較，也就是要考量詞語組合(以521/523/525為例)中詞語的熱門程度來給分，最後選出給分總和最高之一組回應文字為最佳化的結果(步驟530)。

為了實現步驟530，本發明於雲端維持一個隨時更新的詞語庫550，其中收藏所有的中文詞語，並且賦予其個別的給分，給分的高低是依據當時該詞語在流行媒體出現的頻率而定。簡單的說，當時越是熱門的詞語的給分越高。詞語庫550可以讓過濾引擎16透過網際網路即時查詢，執行步驟530所述的熱詞比較。圖5的示例中是綜合中文分詞演算法和熱詞比較，將三個詞語組合521/523/525中詞語數量較多的兩組523/525進行熱詞比較，分別計算各組的給分加總(步驟533/535)。由於來自STT演算法C的回應文字所產生的詞語組合經計算得到2.06的分數總合，相較於來自STT演算法B的回應文字得到的分數總合1.86為高，所以選擇該組回應文字據以輸出。

依據本發明一實施例，過濾引擎16也可以直接採用演算法(B)進行熱詞比較來選擇最佳化的該組回應文字TexO。換句話說，直接跳過圖3中的步驟301-307也是一種可行的篩選方式。

透過上述的實施方式，本發明可將不同演算法之服務器引擎、不同音頻之判別引擎，成為一綜合平台，突破傳統之限制。過去傳統之算法呈現的是單一領域或者單一演算法之計算方式，皆會有計算之極限。而本發明之引擎框架可有更擴展之兼容性，不只有單純在演算法引擎或者只侷限在方言引擎，而是在表示一種可擴充性雲端識別引擎服務器之框架，可以說是技術的一大創新。

本案雖以較佳實施例揭露如上，然其並非用以限定本案的範圍，任何熟習此項技藝者，在不脫離本案之精神和範圍內所作之變動與修飾，皆應屬本案之涵蓋範圍。