CN101588322A

CN101588322A - 一种基于语音识别的邮箱系统

Info

Publication number: CN101588322A
Application number: CNA2009100403228A
Authority: CN
Inventors: 罗笑南; 刘宁; 曹旦森
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2009-06-18
Filing date: 2009-06-18
Publication date: 2009-11-25
Anticipated expiration: 2029-06-18
Also published as: CN101588322B

Abstract

本发明公开了一种基于语音识别的邮箱系统。它涉及一种利用语音识别技术来查询处理邮箱中邮件的系统。它涉及一种利用语音识别技术来进行处理邮箱中邮件查询的系统。该语音识别的邮箱系统包括查询终端(如移动手机、带语音输入的PC以及其他各种可采集语音数据的设备)、虚拟身份模块、语音信息处理模块、语音信息校验模块、语音文本互换模块、查询处理模块、邮箱服务器及其邮件仓库所组成。本发明基于语音识别的邮箱系统具有识别率高和安全性好，并且与现在技术相比，具有高适应性，平台无关性，部署灵活，实现对邮箱中邮件的信息进行了结构化信息抽取，也就是将邮件的信息非结构化数据抽取成特定的结构化信息数据。

Description

一种基于语音识别的邮箱系统

技术领域

本发明涉及语音识别技术，具体涉及一种基于语音识别的邮箱系统。

背景技术

语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。

传统的邮件系统搜索都是基于文本信息的，人们利用移动终端或PC等通信终端与邮箱服务器进行消息通信，收发和查询邮件等，没有充分利用到这些终端所具备的语音的功能。

随着现代生活节奏加快，计算、通信、娱乐等技术的迅速发展以及宽带网络进入家庭，人们对快捷方便的信息搜索系统需求越来越明显。尤其是针对电子邮箱这种现代生活中使用频繁，邮箱邮件的搜索不论有私人生活还是各式各样的商业活动中，都不可或缺的应用，但由于各种原因，人们不会长时间保持坐在电脑面前上网或者时刻带着个手提上网，而电话等通信工具却是时刻伴随着，传统的邮箱系统基于网络文本信息来搜索，没有充分利用到自然语言。

综上所述，充分利用自然语言的方便性，快捷方便的改进对电子邮箱中邮件的搜索无疑非常迎合现代人们的生活所需。

发明内容

本发明充分考虑到了自然语言是人类交流信息的工具，通过利用自然语言的语音信息来与邮箱系统进行信息交流，简化操作。

为实现上述目的，本发明的技术方案如下：

本发明提出一种基于语音识别的邮箱系统，涉及一种利用语音识别技术来进行处理邮件查询的系统。该语音识别的邮箱系统包括查询终端、虚拟身份模块、语音信息处理模块、语音信息校验模块、语音文本互换模块、查询处理模块、邮箱服务器及其邮件仓库。

查询终端是可采集语音数据的电子设备，包括移动手机、带语音输入的便携式手提或PC以及其他各种可采集语音数据的设备。主要功能是实现对终端的特定语音的采集并数字化，其所采集的语音数据要求与虚拟身份模块相连的语音数字数据的语言种类相一致，实现向邮件服务器发出查询请求，发送用户终端的安全身份验证信息、IP地址信息、控制命令连接请求等。

虚拟身份模块将个人身份、联系方式、语音信息和住所等虚拟化，提供唯一的虚拟号码，这个虚拟号码具有通信设备的物理端口的无关性，当用户更改其私人信息时，通过初始设定的安全信息校验进行更改，并使更改后的信息与此虚拟号码相关联，但不改变对每个查询终端具有唯一性的虚拟号码。

语音信息处理模块利用语音处理技术对终端采集到的语音数据进行处理，包括频谱整形平稳性处理、滤波处理、去无效冗余帧及抽取语音识别模型的特定参数存储处理。

所述的抽取识别模型采用基于音素隐含马尔科夫模型(Hidden Markov Model，HMM)，在利用隐含马尔科夫模型解决语言处理问题前，先进行模型的训练，实现基于协同发音上下文相关建模，针对一个音受前后相邻音的影响而发生的变化，使得后一个音的频谱与其他条件下的频谱产生差异来进行语音识别，实现基于音节发音变化词典的方法进行识别语音数字数据信息。

用所述的语音数字数据信息由用户终端所采集到的、经语音信息处理模块作了相应处理后所得，数字数据信息与语音识别模型进行模式匹配，通过N-best Viterbi帧同步搜索方法，得到最好的识别结果，具有识别率高的特点。

语音信息校验模块把所述的语音信息处理模块传来的语音数据信息与语音识别模型数据进行模式匹配，利用声学特征的Mel倒谱系数，对两个或多个频率相近的音调同时发出时，并当这两个或多个音调的频率差不小于Mel倒谱系数可测范围内临界带宽时，Mel刻度可以区别这两种语音数据，区分不同语音数据来实现语音信息校验。

所述的语音文本互换模块，用户可以从查询终端中收听E-mail，也可以将一些目标邮件录音直接转换为文本进行存储。其功能包括把语音数字数据转化成文本信息，把邮件中的文本信息转化成与虚拟身份模块相连的语音数字数据的语言种类相一致的语音数据信息，实现语音识别和语音文本的双向转换。

查询处理模块，根据用户终端所提出的操作要求，可以进行的操作有查询、删除、写邮件、发邮件等操作。所述的查询处理模块与所述的邮箱服务器相连，实现对查询请求的预处理和满足用户终端所提出的操作要求。

所述的邮箱服务器与邮件仓库相连，与其进行数据交换、备份的操作。

本发明的有益效果是：

(1)、识别率高，系统的语音初始数据由用户终端所采集得到，在利用隐含马尔科夫模型解决语言处理问题前，先进行模型的训练，并经语音信息处理模块作了相应处理后得到数字化数据信息后，与语音识别模型进行模式匹配，通过N-bestViterbi帧同步搜索方法，具有较高的识别率；

(2)、安全性好，本发明基于语音识别的邮箱系统利用虚拟身份模块将个人身份、联系方式、语音信息和住所虚拟化，有利于操作的安全处理；

(3)、本发明基于语音识别的邮箱系统与现在技术相比，具有高适应性，平台无关性，本发明各个模块低耦合、高内聚，模块通信通过处理过的数字语音数据，实现模块功能高度独立性；

(4)、部署灵活，部署实现时按实际需求，可灵活扩展，具有很强的灵活性；

(5)、实现对邮箱中邮件的信息进行了结构化信息抽取，也就是将邮件的信息非结构化数据抽取成特定的结构化信息数据。

附图说明

下面将结合实施例和附图对本发明作进一步的详细描述：

图1是本发明实施例的结构组成框图；

图2是本发明实施例的工作流程框图；

图3是本发明的虚拟身份数据库结构图；

图4是本发明中语音文本互换模块细化结构图。

具体实施方式

以下参照附图对本发明进行更加全面的描述。

下面结合图1～图2对本发明成熟型的实施例给予详尽的描述。

本发明提出的一种基于语音识别的邮箱系统，其核心思想是当各种终端与邮箱服务器通过综合网络联网时，可以通过采用有线通讯网或无线网络、移动网络，利用语音识别技术来进行邮件的查询。该系统通过查询终端、虚拟身份模块、语音信息处理模块、语音信息校验模块、语音文本互换模块、查询处理模块、邮箱服务器及其邮件仓库等模块相互协作完成整个系统的工作。

其主要的实现步骤如下：

(1)如图1所示，查询终端是可采集语音数据的电子设备。查询终端首先提出查询请求(如图2中流程图所示)，以语音录入方式，如用手机提出该请求时，查询终端实现对终端的特定语音的采集并数字化，其所采集的语音数据要求与虚拟身份模块相连的语音数字数据的语言种类相一致。

(2)如图1所示，虚拟身份模块通过查询终端发来的所采集的语音数据来关联其所连接的虚拟身份数据库所提供唯一的虚拟号码，并断定其安全性和合法性。这个虚拟号码具有通信设备的物理端口的无关性。当用户更改其私人信息时，通过初始设定的安全信息校验进行更改，并使更改后的信息与此虚拟号码相关联，但不改变这个对每个查询终端具有唯一性的虚拟号码。

(3)如图1所示，语音信息处理模块，它对所接收到的终端采集到语音数据利用相应语音处理技术进行处理，包括频谱整形平稳性处理、滤波处理、去无效冗余帧及抽取语音识别模型的特定参数存储处理。所述的语音信息处理模块(如图1所示，)与语音信息校验模块和语音文本互换模块相连接。所述的识别模型采用基于音素隐含的马尔科夫模型(Hidden Markov Model，HMM)，利用协同发音上下文相关建模，根据一个音受前后相邻音的影响而发生变化，从而使得后一个音的频谱与其他条件下的频谱产生差异来进行语音识别。用所述的由用户终端所采集到的经语音信息处理模块作了相应的处理后的数字数据信息与语音识别模型进行模式匹配，通过N-best Viterbi帧同步搜索方法，得到最好的识别结果。具有识别率高的特点。当然，在利用隐含马尔可夫模型解决语言处理问题前，先要进行模型的训练。

(4)语音信息校验模块把所述的语音信息处理模块传来的语音数据信息与语音识别模型数据进行模式匹配，利用声学特征的Mel倒谱系数，对两个或多个频率相近的音调同时发出时，并当这两个或多个音调的频率差不小于Mel倒谱系数可测范围内临界带宽时，Mel刻度可以区别这两种语音数据，区分不同语音数据来实现语音信息校验。

(5)如图1所示，语音文本互换模块，根据数据传输方向(用户终端向邮箱服务器还是邮箱服务器向用户终端返回查询结果)实现语音识别和语音文本的转换，这样一来，用户可以从查询终端中收听E-mail，也可以将一些目标邮件录音直接转换为文本进行存储。

(6)如图2所示，查询处理，针对用户终端所提出的操作要求，可以进行的操作有查询、删除、写邮件、发邮件等操作。所述的查询处理模块与所述的邮箱服务器相连，实现对查询请求的预处理和针对用户终端所提出的操作要求，可以进行的操作有查询、删除、写邮件、发邮件等操作。

(7)如图1所示，邮箱服务器与邮件仓库相连，与其进行数据交换、备份的操作。并实现对邮箱中邮件的信息进行了结构化信息抽取，也就是将邮件的信息非结构化数据抽取成特定的结构化信息数据。

Claims

1、一种基于语音识别的邮箱系统，包括查询终端、虚拟身份模块、语音信息处理模块、语音信息校验模块、语音文本互换模块、查询处理模块、邮箱服务器及其邮件仓库，其特征在于：

查询终端是采集语音数据的电子设备，包括移动手机、带语音输入的便携式手提或PC以及各种可采集语音数据的设备，主要功能是实现对终端的特定语音的采集并数字化，其所采集的语音数据要求与虚拟身份模块相连的语音数字数据的语言种类相一致，实现向邮件服务器发出查询请求，发送用户终端的安全身份验证信息、IP地址信息、控制命令连接请求；

虚拟身份模块将个人身份、联系方式、语音信息和住所虚拟化，提供唯一的虚拟号码，这个虚拟号码具有通信设备的物理端口的无关性，当用户更改其私人信息时，通过初始设定的安全信息校验进行更改，并使更改后的信息与此虚拟号码相关联，但不改变对每个查询终端具有唯一性的虚拟号码；

语音信息处理模块利用语音处理技术对终端采集到的语音数据进行处理，包括频谱整形平稳性处理、滤波处理、去无效冗余帧及抽取语音识别模型的特定参数存储处理；

所述的抽取识别模型采用基于音素隐含马尔科夫模型，在利用隐含马尔科夫模型解决语言处理问题前，先进行模型的训练，实现基于协同发音上下文相关建模，针对一个音受前后相邻音的影响而发生的变化，使得后一个音的频谱与其他条件下的频谱产生差异来进行语音识别，实现基于音节发音变化词典的方法进行识别语音数字数据信息；

用所述的语音数字数据信息由用户终端所采集到的、经语音信息处理模块作了相应处理后所得，数字数据信息与语音识别模型进行模式匹配，通过N-best Viterbi帧同步搜索方法，得到识别结果；

语音信息校验模块把所述的语音信息处理模块传来的语音数据信息与语音识别模型数据进行模式匹配，利用声学特征的Mel倒谱系数，对两个或多个频率相近的音调同时发出时，并当这两个或多个音调的频率差不小于Mel倒谱系数可测范围内临界带宽时，Mel刻度区别这两种语音数据，以区分不同语音数据来实现语音信息校验；

所述的语音文本互换模块，用户从查询终端中收听E-mail，将一些目标邮件录音直接转换为文本进行存储，其功能包括把语音数字数据转化成文本信息，把邮件中的文本信息转化成与虚拟身份模块相连的语音数字数据的语言种类相一致的语音数据信息，实现语音识别和语音文本的双向转换；

查询处理模块，根据用户终端所提出的操作要求，进行的操作有查询、删除、写邮件、发邮件，所述的查询处理模块与所述的邮箱服务器相连，实现对查询请求的预处理和满足用户终端所提出的操作要求；