CN101923854A

CN101923854A - 一种交互式语音识别系统和方法

Info

Publication number: CN101923854A
Application number: CN2010102693069A
Authority: CN
Inventors: 李新辉; 王向东; 钱跃良; 林守勋
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2010-08-31
Filing date: 2010-08-31
Publication date: 2010-12-22
Anticipated expiration: 2030-08-31
Also published as: CN101923854B

Abstract

本发明公开了一种交互式语音识别系统，包括：声学模型和语言模型选择模块，用于根据待识别对象信息，为其选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；语音语句提取模块，用于将整段语音信号切分成若干个语音语句并提取出来，送至语音识别模块；语音识别模块，用于对语音语句提取模块提取后得到的语音语句进行识别，并输出中间识别结果；字候选生成和错误修正模块，用于对所述识别中间结果进行处理生成候选集，再根据选择的候选或输入的正确数据来纠正识别错误得到最终识别结果；交互模块，用于将用户输入的数据发送给声学模型和语言模型选择模块，以及向用户反馈所述字候选生成和错误修正模块的识别结果。

Description

一种交互式语音识别系统和方法

技术领域

本发明涉及语音识别技术领域，特别是涉及一种交互式语音识别系统和方法。

背景技术

目前面向特殊应用的中小词汇量语音识别技术已得到实际应用。然而，由于受到背景噪音、方言口音、口语化的自然语音以及语义理解等因素的限制，面向真实场景的大词汇量连续语音识别系统的性能远远无法满足实际应用要求。

在已有的语音识别系统中，已经出现了一些交互技术，主要是错误纠正技术，即在一句话识别后由说话人对识别结果中的错误进行纠正。早期的系统可同时提供多种交互方式，包括单词重新发音(re-speaking)，单词拼写(spelling)，键盘输入、手写输入等。近期语音识别系统中主要采用候选选择修正技术，系统对每个单词给出多个候选，并提供相应的交互界面，允许用户在语音输入的同时或完成之后通过选择候选修正语音识别结果。该系统针对无噪声的朗读语音，可以达到实时应用并能够修正大部分识别错误。总的来说，现有语音识别系统中的交互技术多数集中在对识别结果的修正上，缺乏利用多种交互手段，以及利用交互信息进行自动学习的相关系统。

在语音识别技术中，存在一种识别中的自动学习技术，称作模型自适应技术。模型自适应技术又可分为声学模型自适应和语言模型自适应。语音识别系统中的声学模型是一种估计某种声学信号对应某个发音的概率的模型。声学模型自适应，主要是说话人自适应，即根据不同的说话人的发音特点(包括其嗓音特点、发音习惯以及方言口音等)，对基础声学模型进行调整，以得到更适合当前说话人的模型。按照自适应训练过程有无监督，自适应可以分为：(1)有监督自适应：自适应训练过程中训练语音的内容对于系统是已知的；(2)无监督自适应：自适应训练过程中训练语音的内容对于系统是未知的，需要由系统通过识别获得。显然，有监督自适应由于语音与文本信息是已知的，因此对声学模型的自适应训练更为可靠，其性能要远远优于无监督自适应，特别是在发音不够标准的情况下。但由于很难在识别的同时获得准确的文本信息，因此现有语音识别系统中的声学模型自适应都以无监督自适应为主。

语音识别系统中的语言模型是一种估计某种发音对应某个具体字或词的概率的模型。语言模型自适应的基本思想是，根据不断变化的应用环境，不断调整语言模型中各种语言现象出现的概率，以适应不同应用环境各自的特征。与声学模型自适应类似，可根据语料的可靠性将语言模型自适应分为有监督与无监督自适应，前者采用的为可靠的文本，而后者则动态的将系统识别结果作为自适应语料。显然，有监督自适应的效果要优于无监督自适应，但由于一般的语音识别应用在识别过程中很难得到标准答案，因此绝大多数系统都采用无监督自适应。

另外，对于同时存在多个说话人的语音，如广播语音和会议语音，语音识别系统在做语音识别和自适应时还需要对说话人进行分割和跟踪，以保证自适应在同一个说话人的语音上完成。现有的语音识别系统都是通过系统自动识别来对说话人进行分割和跟踪，这种识别不但消耗了大量的计算资源，而且其结果也不是很准确，错误的结果很可能导致系统性能的恶化。

发明内容

本发明的目的在于提供一种交互式语音识别系统和方法。通过交互的方式，使得语音识别系统输出的候选越来越准确。

为实现本发明的目的而提供的一种交互式语音识别系统，所述系统，包括：声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块，其中：

所述声学模型和语言模型选择模块，用于在语音识别开始前，根据通过交互模块输入的待识别对象信息，为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；

所述语音语句提取模块，用于在语音识别过程中，将整段语音信号切分成若干个语音语句，然后再将每一个语音语句提取出来，送至语音识别模块；

所述语音识别模块，用于根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程，对语音语句提取模块提取后得到的语音语句进行识别，并输出中间识别结果；

所述字候选生成和错误修正模块，用于根据汉语的语言特点，对所述识别中间结果进行处理生成候选集，再根据通过所述交互模块选择的候选或输入的正确数据来纠正识别错误得到最终识别结果；

所述交互模块，用于将用户输入的数据发送给所述声学模型和语言模型选择模块，以及向用户反馈所述字候选生成和错误修正模块的识别结果。

所述系统，包括：

声学模型和语言模型自适应模块，用于利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应，并保存自适应后的声学模型和语言模型。

对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境，所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。

对于特定的识别对象，通过向所述交互模块输入该对象的姓名，所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。

在识别过程中当待识别对象发生切换时，通过所述交互模块指示所切换到的当前待识别对象，所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。

所述语音信号既可以是预先录好的音频文件，也可以是实时的语音信号；对于音频文件，采用端点检测方法对音频文件进行端点检测提取所有的语音语句；对于实时的语音信号，通过实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。

对于实时的语音信号进行实时的识别，采用分段采集和缓冲池的方法，每采集一段固定长的音频就把它放到缓冲池中，同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测，音频采集与端点检测以同步的方式访问缓冲池。

所述固定长的音频的长度值为3秒。

所述中间识别结果是词网格，是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示。

所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络，对该对齐网络按字切分得到字候选，再从所述字候选列中查找正确的字来修正识别错误，或者根据输入的正确数据来修正识别错误。

所述声学模型和语言模型自适应模块，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种：在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应；同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种：在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。

当自适应结束后，所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。

为实现本发明的目的，还提供一种交互式语音识别方法，所述方法，包括下列步骤：

步骤100.在语音识别开始前，通过交互模块输入能反映待识别对象发音特点的信息和将主要讨论的主题信息；

步骤200.根据所述输入信息，声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型；

步骤300.在语音识别过程中，语音信号经语音语句提取模块转化为语音语句送至语音识别模块，语音识别模块根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程，对所述语音语句进行识别，并输出中间识别结果，发送给候选生成与错误修正模块；

步骤400.所述候选生成与错误修正模块对所述中间识别结果进行处理生成候选集；

步骤500.用户通过交互模块选择候选或者输入正确数据来纠正识别错误得到最终识别结果，并输出最终识别结果。

所述方法，包括：

步骤100’.根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型；并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型。

在步骤200中，对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境，所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。

在步骤200中，通过输入特定人的姓名，所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。

在识别过程中当待识别对象发生切换时，通过交互模块指示所切换到的当前待识别对象，所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。

在步骤300中，所述语音信号既可以是预先录好的音频文件，也可以是实时的语音信号；对于音频文件，采用端点检测方法对音频文件进行端点检测提取所有的语音语句；对于实时的语音信号，通过实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。

所述固定长的音频的长度值为3秒。

所述方法，还包括步骤：

步骤600.根据提取到的所述语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应，并保存自适应后的声学模型和语言模型。

所述步骤600中，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种：在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应；同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种：在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。

所述步骤600中，当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。

本发明的有益效果是：

1.本发明的交互式语音识别系统和方法，通过应用大词汇量连续语音识别技术，对说话人语音进行识别并给出识别候选，并采用交互方式选择候选或从终端输入正确数据来修正识别错误；

2.本发明的交互式语音识别系统和方法，根据指导信息和交互信息对声学模型和语言模型进行选择和自适应，使得模型更加接近当前说话人的发音特点和语音内容，从而使系统输出的候选越来越准确；

3.本发明的交互式语音识别系统和方法，是对当前大词汇量连续语音识别在实际应用中的发展和创新，具有重要的商业价值和产业应用前景。同时，对语音识别在其他方向(如实时字幕生成，图书馆音频资料整理等)的应用具有实际的借鉴意义。

附图说明

图1是本发明的交互式语音识别系统的结构示意图；

图2是本发明中对语音语句进行提取的示意图；

图3是本发明中声学模型和语言模型选择及开启识别服务的示意图；

图4是本发明中字候选生成的示意图；

图5是采用本发明的系统和方法的识别错误修正示意图；

图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图；

图7是本发明的交互式语音识别方法的步骤流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明的一种交互式语音识别系统和方法进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明的一种交互式语音识别系统和方法。其核心是通过应用大词汇量连续语音识别技术，对说话人语音进行识别并给出识别候选，并通过选择候选或从系统输入的方式来修正识别错误。同时，还可针对当前语音的特点给出一点的指导信息，使系统根据指导信息和交互信息对声学模型和语言模型进行选择和自适应，使得模型更加接近当前说话人的发音特点和语音内容，从而使系统输出的候选越来越准确。这就相当于把无监督的自适应变成了有监督的自适应，把非特定人的语音识别变成了准特定人的语音识别。

下面结合上述目标详细介绍本发明的交互式语音识别系统，图1是本发明的交互式语音识别系统的结构示意图，如图1所示，所述系统1，主要包括六个模块：声学模型和语言模型选择模块11、语音语句提取模块12、语音识别模块13、候选生成与错误修正模块14，声学模型和语言模型自适应模块15和交互模块16，其中：

所述声学模型和语言模型选择模块11，用于根据输入的待识别对象信息，为每个待识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型；

在大多数语音识别应用场合中，语音识别的对象是比较固定的，且语音内容涉及的领域也是比较单一的，如使用语音识别对某一关于经济领域的会议进行会议记录，该会议中的识别对象会议参加者是比较固定的，并且会议语音内容基本都是有关经济领域的话题。因此在本发明的交互式语音识别系统中，采用声学模型和语言模型选择的方法为每个识别对象选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。

所述语音语句提取模块12，用于将输入的整段语音信号切分成若干个语音语句，然后再将每一个语音语句提取出来；

图2是本发明中对语音语句进行提取的示意图，如图2所示，在大词汇量连续语音识别中，一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前，需要采用某种方法将整段语音切分成若干个语音语句，然后再将每一个语音语句提取出来进行识别。

所述语音识别模块13，用于为每个待识别对象开启一个识别线程，对语音语句提取模块12提取后得到的语音语句进行识别；

图3是本发明中声学模型和语言模型选择及开启识别服务的示意图，如图3所示，识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与识别对象对应的声学模型和语言模型。在开启所有识别线程之后，语音识别模块就对经语音语句提取模块提取后得到的语音语句进行识别，并输出识别结果。在该模块中，语音识别输出的识别结果为词网格，词网格是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示。在语音识别模块中，对于每个识别对象的语音语句都用与之对应的识别线程进行识别。

所述候选生成与错误修正模块14，用于根据汉语的语言特点，对所述语音识别模块13生成的汉语词网格中的弧对齐生成一个对齐网络，对该对齐网络按字切分得到字候选；以及对于每处识别错误，从对应候选列中查找正确的字来修正识别错误，或者通过输入正确的字来修正识别错误。

图4是本发明中字候选生成的示意图，图5是采用本发明的系统和方法的识别错误修正示意图，如图4和图5所示，在交互式语音识别系统中，候选生成是非常重要的一个环节，因为供选择的候选的质量直接影响着整个系统的性能和工作效率。在该模块中，根据汉语的语言特点，采用了一种基于字候选的汉语候选生成方法。该方法首先对语音识别模块生成的汉语词网格中的弧对齐生成一个对齐网络；然后，对该对齐网络按字切分得到字候选。使用该方法生成的候选满足以下三个性质：(1)具有竞争关系的字候选排列在同一字候选列中；(2)字候选列的排列顺序和他们识别的先后时间一致；(3)每个字候选列中的字候选按照他们在词网格中的得分从大到小排列。在系统中，候选生成和错误修正模块除了提供候选生成的功能外，还提供了错误修正的功能。对于每处识别错误，先从对应候选列中查找正确的字，如果正确的字出现在候选列中，可通过选择正确候选字来修正识别错误，如果正确的字未出现在候选列中，则可通过输入正确的字来修正识别错误。因此，修正后的识别结果不包含任何错误。

所述声学模型和语言模型自适应模块15，用于利用修正性的交互信息，对所述声学模型和语言模型进行有监督自适应。

图6是采用本发明的系统和方法的声学模型和语言模型自适应的示意图，如图6所示，在自动语音识别中，尽管有监督声学模型和语言模型自适应的效果要好于无监督自适应，但是大多数系统采用的自适应都为无监督自适应，这主要是因为有监督自适应的已知语料相对比较难获得。不同于自动语音识别，在本发明的交互式语音识别系统中，系统对所有语音语句识别生成的识别结果都会经过修正，将识别结果中的错误修正过来。因此，在交互式语音识别系统中，利用修正性的交互信息，可以对系统中的声学模型和语言模型进行有监督自适应。声学模型和语言模型自适应模块就是利用交互信息对声学模型和语言模型进行有监督自适应。

在该模块中，首先为每个识别对象收集经语音语句提取模块提取后的语音语句，以及收集对该语音语句识别并经修正后的识别结果。然后，利用收集到的语音语料和对应的修正后识别结果，为每个识别对象所对应的声学模型作有监督声学模型自适应。

所述交互模块16，用于将用户的输入信息发送给所述声学模型和语言模型选择模块11，以及向用户反馈所述字候选生成和错误修正模块14的识别结果。

如图1所示，在语音识别开始前，通过交互模块16向系统输入能反映待识别对象发音特点的信息，如性别、地域口音等信息，和输入待识别对象将主要讨论的主题信息，如政治、经济、科技等信息；所述声学模型和语言模型选择模块11根据输入信息为每个待识别对象选择最匹配的声学模型和语言模型。对于特定的识别对象，可以通过向系统输入该对象的姓名，根据姓名为该对象选择特定的声学模型。在为每个待识别对象选择最匹配的声学模型和语言模型之后，所述语音识别模块13根据选择的声学模型和语言模型为每个待识别对象开启一个识别线程。在语音识别过程中，语音信号经语音语句提取模块11转化为语句送至语音识别模块13，语音识别模块13生成识别中间结果词网格，所述字候选生成和错误修正模块14对识别中间结果词网格进行处理生成候选，通过选择候选或终端输入来纠正识别错误得到最终识别结果。同时，所述声学模型和语言模型自适应模块15利用提取到的语音语句和对应的最终识别结果对声学模型和语言模型进行有监督自适应，并保存自适应后的声学模型和语言模型。

相应于本发明的交互式语音识别系统，还提供一种交互式语音识别方法，图7是本发明的交互式语音识别方法的步骤流程图，如图7所示，所述方法，包括下列步骤：

步骤100’.系统根据待识别对象的性别和地域口音预先训练多个声学模型以及一个通用声学模型；并且根据不同的主题领域预先训练多个语言模型和一个通用语言模型；

如图3所示，作为一种可实施方式，本发明的交互式语音识别系统根据待识别对象的性别和地域口音预先训练多个声学模型(如北方男声声学模型、北方女声声学模型、南方男声声学模型、南方女声声学模型等)以及一个通用声学模型；并且根据不同的主题领域预先训练多个语言模型(如有关政治主题的语言模型、有关经济主题的语言模型、有关科技主题的语言模型、有关体育主题的语言模型等)和一个通用语言模型。

步骤100.在语音识别开始前，输入能反映待识别对象发音特点的信息和将主要讨论的主题信息；

步骤200.根据所述输入信息，声学模型和语言模型选择模块为每个待识别对象选择最匹配的声学模型和语言模型，并为每个待识别对象开启一个识别线程；

在语音识别开始前，针对发言者比较固定和语音内容比较单一的应用环境，向系统输入所有待发言者的地域口音和性别信息以及将要谈论的领域信息，系统根据输入的信息为每个待发言者选择与之发音特点最相似的声学模型和为整个识别过程选择与之领域最相似的语言模型。否则，对于发言者不够稳定和语音内容涉及领域比较多变的应用环境，系统将为每个发言者都选择相同的通用声学模型和为整个识别过程选择通用语言模型。

较佳地，系统还可以为某些特定的人训练一个特定人声学模型，通过向系统输入特定人的姓名，系统根据姓名为该特定人选择与之对应的特定人声学模型。在选择完声学模型和语言模型后，系统为每个待发言者开启一个识别线程，识别线程所使用的声学模型和语言模型为经声学模型和语言模型选择模块选择后得到的与发言者对应的声学模型和语言模型。在识别过程中，对每个发言者的语音语句都用与之对应的识别线程进行识别。

当在识别过程中当发言者发生切换时，向系统指示所切换到的当前发言者，系统根据指导信息将提取到语音语句送到与当前发言者所对应的识别线程进行识别。

步骤300.在语音识别过程中，语音信号经语音语句提取模块转化为语音语句送至语音识别模块，语音识别模块生成识别中间结果词网格，发送给候选生成与错误修正模块；

如图2所示，在大词汇量连续语音识别中，一般识别的基本单元为一句话的语音。因此在对一整段语音进行识别成文字之前，需要采用某种方法将整段语音切分成若干个语音语句，然后再将每一个语音语句提取出来进行识别。作为一种可实施方式，在本发明的方法中，发言者的语音输入既可以是事先录好的音频文件输入，又可以是实时的语音输入。对于音频文件输入，本发明直接采用端点检测方法对输入的音频文件进行端点检测提取所有的语音语句；对于实时的语音输入，本发明实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。

在一些实时应用中，要求对实时输入的语音进行实时的识别，这就要求系统能够对实时输入的语音实时地提取语音语句。因此，为了能够满足实时地提取语音语句，本发明采用分段采集和缓冲池的方法，即每采集一段固定长的音频就把它放到缓冲池中，同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测，音频采集与端点检测以同步的方式访问缓冲池。然而，音频固定长度的设定问题成了关键，长度过长使得端点检测等待时间过长而影响实时性，长度过短使得端点检测做了过多的无用检测从而降低系统资源的利用率。本发明设定的长度值为3秒，因为根据实验的统计大部分一句话都在3秒钟内。

步骤400.所述候选生成与错误修正模块对所述中间结果词网格进行处理生成候选集；

如图4所示，作为一种可实施方式，本发明采用一种基于字候选的汉语候选生成方法来生成字候选。该方法首先对语音识别模块生成的中间结果词网格中的弧对齐生成一个对齐网络；然后，对该对齐网络按字切分得到字候选。图4(a)表示为汉语词网格，词网格是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示，其中每条弧都可用一个五元组{S，F，W，A，L}来表示，其中S表示弧的起始时间，F表示弧的结束时间，W表示弧上对应的词假设，A表示弧的声学概率得分，L表示弧的语言概率得分。将满足以下两个条件的弧对齐为一类：(1)弧上对应词假设的最后一个汉字存在语音相似。(2)弧之间存在时间重叠。图4(b)为对图4(a)中的汉语词网格对齐后得到的对齐网络，图中每类词假设中的最后一个汉字都具有语音相似性，且对应弧都具有时间重叠性。在得到对齐网络的基础上，对对齐网络按字切分。首先从第一类开始切分，当某一类中的词假设由多个汉字组成时，则将倒数第二个汉字切分到前一类，倒数第三个汉字切分到前前一类，按该方式切分下去直到剩下最后一个汉字。图4(c)为图4(b)中的对齐网络按字切分得到的字候选。在得到的字候选中，每个字都具有语音相似性。

步骤500.用户通过交互模块选择候选或者输入来纠正识别错误得到最终识别结果，并输出识别文本。

如图5所示，在交互式语音识别系统中，首先通过选择候选集中的字候选来修正识别错误，如图5所示，通过选择“的”来修正识别错误“得”。在通过选择字候选修正识别错误后，对于那些不能通过选择字候选进行修正的识别错误，可输入正确的字来修正识别错误，如在图5中通过输入“方”来修正识别错误“防”。最后得到完全正确的识别结果。

较佳地，所述方法，还包括步骤：

如图6所示，在交互式语音识别系统中，发言者的语音经语音语句提取模块提取后得到的语音语句一路经语音识别模块—候选生成与错误修正模块得到最终识别结果，另一路与对应的最终识别结果一起供系统进行声学模型和语言模型自适应。作为一种可实施方式，在本发明的交互式语音识别系统中，系统为每个发言者收集经语音语句提取模块提取后的语音语句，以及对该语音语句识别并经修正后的识别结果；然后，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种：在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应。同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种：在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。对于在线的声学模型和语言模型自适应，当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。无论是在线自适应还是离线自适应，系统都将保留自适应后的声学模型并与对应的识别对象姓名建立对应关系，当以后再出现该识别对象时只需输入识别对象姓名就可以选择该自适应后的声学模型。

下面以使用本发明中的交互式语音识别系统对会议进行会议记录为例详细说明本发明。例如某次会议有4个会议参加者，其中：王某，男性，北方人；刘某，女性，北方人；谢某，男性，南方人；张某，女性，南方人。此次会议的主题是有关经济领域的一个研讨会。使用本发明中的交互式语音识别系统对本次会议进行会议记录。

目前系统具有5个声学模型(北方男性声学模型，北方女性声学模型，南方男性声学模型，南方女性声学模型，以及一个通用声学模型)和4个语言模型(有关政治领域语言模型，有关经济领域语言模型，有关科技领域语言模型，以及一个通用语言模型)。在会议开始前，向系统输入4个会议参加者的信息(如，王某，男，北方口音)和本次会议主题领域经济，系统根据输入的信息为王某选择北方男性声学模型，为刘某选择北方女性声学模型，为谢某选择南方男性声学模型，为张某选择南方女性声学模型，并且为所有参加者都选择有关经济领域语言模型。在选择完模型后，系统为每个会议参加者开启一个识别线程，等待识别。

在会议中，王某首先进行了发言，系统启动北方男性声学模型对应的线程接受语音进行识别。王某的第一句话为“大家上午好”，系统分别采集了三段音频，系统对该三段音频进行端点检测，在第二段中检测到了这句话的语音起始点，在第三段中检测到了这句话的语音结束点。系统根据检测到起始点和结束点提取该句语音语句，提取到的语音语句一方面送给王某对应的识别线程进行识别，一方面保存到系统中。王某对应的识别线程对该语音语句识别后生成汉语词网格，系统采用字候选生成方法对该词网格生成候选集如下：

大家商务好

打架上午

加晌

通过选择第二列字候选中的“上”，和第三列字候选中的“午”来修正识别错误，最终得到正确识别结果。对于得到的最终识别结果一方面输出得到会议记录，一方面保存到系统中。

在会议中，王某发言结束后，谢某进行了发言，立即通过交互模块向系统指示当前发言人为谢某。此后，系统对谢某的发言提取到的语音语句会发送到谢某所对应的识别线程进行识别。同样，系统一方面输出最终识别结果得到会议记录，一方面保存谢某的语音语句和对应最终识别结果。

在会议中，当系统为王某保存的语音语句超过一定量时，系统利用王某的语音语句和对应的最终识别结果对王某所对应的北方男性声学模型做有监督自适应。并为自适应后得到的北方男性声学模型开启识别线程，同时关闭王某先前对应的识别线程。此后，王某的语音语句都由新开启的识别线程识别。

在会议中，当系统为所有会议参加者保存的最终识别结果(以句为单位)超过一定量时，系统利用保存的所有参加者的识别结果对有关经济领域语言模型做有监督自适应。利用自适应得到的语言模型为所有会议参加者开启新的识别线程，关闭先前的识别线程。

此外，也可以在会议结束后再为所有会议参加者做声学模型有监督自适应，为有关经济领域语言模型做有监督自适应。

最后，保存王某、刘某、谢某、张某的自适应后声学模型，并分别与他们的姓名建立对应关系。

本发明的有益效果在于：

通过结合附图对本发明具体实施例的描述，本发明的其它方面及特征对本领域的技术人员而言是显而易见的。

以上对本发明的具体实施例进行了描述和说明，这些实施例应被认为其只是示例性的，并不用于对本发明进行限制，本发明应根据所附的权利要求进行解释。

Claims

1.一种交互式语音识别系统，其特征在于，所述系统，包括：声学模型和语言模型选择模块、语音语句提取模块、语音识别模块、候选生成与错误修正模块和交互模块，其中：

2.根据权利要求1所述的交互式语音识别系统，其特征在于，所述系统，包括：

3.根据权利要求1所述的交互式语音识别系统，其特征在于，对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境，所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。

4.根据权利要求1所述的交互式语音识别系统，其特征在于，对于特定的识别对象，通过向所述交互模块输入该对象的姓名，所述声学模型和语言模型选择模块根据姓名为该对象选择特定的声学模型。

5.根据权利要求1所述的交互式语音识别系统，其特征在于，在识别过程中当待识别对象发生切换时，通过所述交互模块指示所切换到的当前待识别对象，所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。

6.根据权利要求1所述的交互式语音识别系统，其特征在于，所述语音信号既可以是预先录好的音频文件，也可以是实时的语音信号；对于音频文件，采用端点检测方法对音频文件进行端点检测提取所有的语音语句；对于实时的语音信号，通过实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。

7.根据权利要求6所述的交互式语音识别系统，其特征在于，对于实时的语音信号进行实时的识别，采用分段采集和缓冲池的方法，每采集一段固定长的音频就把它放到缓冲池中，同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测，音频采集与端点检测以同步的方式访问缓冲池。

8.根据权利要求7所述的交互式语音识别系统，其特征在于，所述固定长的音频的长度值为3秒。

9.根据权利要求1所述的交互式语音识别系统，其特征在于，所述中间识别结果是词网格，是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示。

10.根据权利要求9所述的交互式语音识别系统，其特征在于，所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络，对该对齐网络按字切分得到字候选，再从所述字候选列中查找正确的字来修正识别错误，或者根据输入的正确数据来修正识别错误。

11.根据权利要求2所述的交互式语音识别系统，其特征在于，所述声学模型和语言模型自适应模块，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种：在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应；同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种：在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。

12.根据权利要求2所述的交互式语音识别系统，其特征在于，当自适应结束后，所述语音识别模块为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。

13.一种交互式语音识别方法，其特征在于，所述方法，包括下列步骤：

14.根据权利要求13所述的交互式语音识别方法，其特征在于，所述方法，包括：

15.根据权利要求13所述的交互式语音识别方法，其特征在于，在步骤200中，对于待识别对象不够稳定和语音内容涉及领域比较多变的应用环境，所述声学模型和语言模型选择模块将为每个待识别对象都选择相同的通用声学模型和为整个识别过程选择通用语言模型。

16.根据权利要求13所述的交互式语音识别方法，其特征在于，在步骤200中，通过输入特定人的姓名，所述声学模型和语言模型根据姓名为该特定人选择与之对应的特定人声学模型。

17.根据权利要求13所述的交互式语音识别方法，其特征在于，在识别过程中当待识别对象发生切换时，通过交互模块指示所切换到的当前待识别对象，所述声学模型和语言模型根据指导信息将提取到语音语句送到与当前待识别对象所对应的识别线程进行识别。

18.根据权利要求13所述的交互式语音识别方法，其特征在于，在步骤300中，所述语音信号既可以是预先录好的音频文件，也可以是实时的语音信号；对于音频文件，采用端点检测方法对音频文件进行端点检测提取所有的语音语句；对于实时的语音信号，通过实时地采集说话人语音，并对采集到的语音进行端点检测提取语音语句。

19.根据权利要求18所述的交互式语音识别方法，其特征在于，对于实时的语音信号进行实时的识别，采用分段采集和缓冲池的方法，每采集一段固定长的音频就把它放到缓冲池中，同时只要缓冲池不为空就从缓存池中拿出一段音频进行端点检测，音频采集与端点检测以同步的方式访问缓冲池。

20.根据权利要求19所述的交互式语音识别方法，其特征在于，所述固定长的音频的长度值为3秒。

21.根据权利要求13所述的交互式语音识别方法，其特征在于，所述中间识别结果是词网格，是一个定向无环图，它包含大量识别过程中产生的词假设，并用相应的弧及相关的似然度得分来表示。

22.根据权利要求21所述的交互式语音识别方法，其特征在于，所述字候选生成和错误修正模块对所述词网格中的弧对齐生成一个对齐网络，对该对齐网络按字切分得到字候选，再从所述字候选列中查找正确的字来修正识别错误，或者根据输入的正确数据来修正识别错误。

23.根据权利要求13所述的交互式语音识别方法，其特征在于，所述方法，还包括步骤：

24.根据权利要求23所述的交互式语音识别方法，其特征在于，所述步骤600中，利用收集到的语音语料和对应的修正后识别结果，为每个发言者所对应的声学模型作有监督声学模型自适应，该自适应分为两种：在线自适应，当收集到的任何发言者的语音语料超过一定数量时，就为其对应的声学模型作有监督自适应；离线自适应，在所有识别工作结束后，为每个发言者所对应的声学模型作有监督声学模型自适应；同样，利用收集到的所有发言者的修正后识别结果，对语言模型进行有监督自适应，该自适应也分为两种：在线自适应，当收集到的所有修正后识别结果超过一定数量时，就为语言模型作有监督自适应；离线自适应，在所有识别工作结束后，为语言模型作有监督声学模型自适应。

25.根据权利要求23所述的交互式语音识别方法，其特征在于，所述步骤600中，当自适应结束后系统为自适应得到的声学模型和语言模型开启新的识别线程，并关闭自适应前声学模型和语言模型所对应的识别线程。