Nothing Special   »   [go: up one dir, main page]

CN108305643B - 情感信息的确定方法和装置 - Google Patents

情感信息的确定方法和装置 Download PDF

Info

Publication number
CN108305643B
CN108305643B CN201710527121.5A CN201710527121A CN108305643B CN 108305643 B CN108305643 B CN 108305643B CN 201710527121 A CN201710527121 A CN 201710527121A CN 108305643 B CN108305643 B CN 108305643B
Authority
CN
China
Prior art keywords
text
information
audio
emotion
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710527121.5A
Other languages
English (en)
Other versions
CN108305643A (zh
Inventor
刘海波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710527121.5A priority Critical patent/CN108305643B/zh
Priority to PCT/CN2018/093085 priority patent/WO2019001458A1/zh
Publication of CN108305643A publication Critical patent/CN108305643A/zh
Application granted granted Critical
Publication of CN108305643B publication Critical patent/CN108305643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种情感信息的确定方法和装置。其中,该方法包括:获取目标音频,目标音频包括多个音频段;从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。本发明解决了相关技术中无法准确识别说话者的情感信息的技术问题。

Description

情感信息的确定方法和装置
技术领域
本发明涉及互联网领域,具体而言,涉及一种情感信息的确定方法和装置。
背景技术
现在,伴随着多媒体内容的增加,从市场上需求可进行短时间内的视听的内容概要技术。此外,内容的种类呈现多样化的趋势,例如电影、连续剧、家庭录像、新闻、纪录片、音乐内容、生活实时场景、网络小说、文字新闻等,对应于此,试听者的视听要求也越来越多样化。
伴随着这种视听要求的多样化,需要用于对试听者的视听要求立即检索、提示要观看的适配、场面的技术。例如内容概要技术,即基于包含的文字信息而概要内容,在内容概要技术中,通过对文字信息进行分析,从而确定文字信息携带的情感,如笑、生气、悲伤等。
上述的分析方法中,可采用基于音频的情感检测方法对说话者的音频进行检测,使用音频进行情感检测,对说话者具有比较明显的情感表达的情况具有比较好的作用,当说话人的情感表达不强烈,比如一个很高兴的事情,用很平淡的语气表达出来,此时音频中几乎不带有用于表达高兴的特征,对于这种情况,基于语音的情感检测就失去作用,没有办法根据语音特征进行准确判决,甚至可能得到错误的判决结果。
针对相关技术中无法准确识别说话者的情感信息的技术问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种情感信息的确定方法和装置,以至少解决相关技术中无法准确识别说话者的情感信息的技术问题。
根据本发明实施例的一个方面,提供了一种情感信息的确定方法,该确定方法包括:获取目标音频,目标音频包括多个音频段;从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
根据本发明实施例的另一方面,还提供了一种情感信息的确定装置,该确定装置包括:第一获取单元,获取目标音频,其中,目标音频包括多个音频段;识别单元,用于从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;第一确定单元,用于基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
在本发明实施例中,在获取目标音频时,从目标音频的每个音频段中识别出一个第一文本信息,然后基于第一文本信息具有的文本特征和音频段具有的语音特征确定音频段的目标情感信息,在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息,在音频段具有明显的情感表露时能够通过音频段的语音特征来确定情感信息,并且每个音频段都存在对应的一个是情感识别结果,可以解决了相关技术中无法准确识别说话者的情感信息的技术问题,进而达到提高识别说话者的情感信息的准确度的技术效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的情感信息的确定方法的硬件环境的示意图;
图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图;
图3是根据本发明实施例的一种可选的模型训练方法的流程图;
图4是根据本发明实施例的一种可选的模型训练方法的流程图;
图5是根据本发明实施例的一种可选的情感信息的确定方法的流程图;
图6是根据本发明实施例的一种可选的情感信息的确定装置的示意图;
图7是根据本发明实施例的一种可选的情感信息的确定装置的示意图;以及
图8是根据本发明实施例的一种终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种情感信息的确定方法的方法实施例。
可选地,在本实施例中,上述情感信息的确定方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示,服务器102通过网络与终端104进行连接,上述网络包括但不限于:广域网、城域网或局域网,终端104并不限定于PC、手机、平板电脑等。本发明实施例的情感信息的确定方法可以由服务器102来执行,也可以由终端104来执行,还可以是由服务器102和终端104共同执行。其中,终端104执行本发明实施例的情感信息的确定方法也可以是由安装在其上的客户端来执行。
当本发明实施例的情感信息的确定方法由服务器或终端来单独执行时,直接在服务器或终端上来执行与本申请的方法对应的程序代码即可。
当本发明实施例的情感信息的确定方法由服务器和终端共同来执行时,由终端发起识别目标音频的需求,此时,由终端将待识别的目标语音发送给服务器,再由服务器来执行与本申请的方法对应的程序代码,并将识别的结果反馈给终端。
下面以在服务器或终端上来执行与本申请的方法对应的程序代码为例详述本申请的实施例,图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图,如图2所示,该方法可以包括以下步骤:
步骤S202,获取目标音频,目标音频包括多个音频段,目标音频用于表述文本信息。
可以是终端主动获取目标音频,或者接收其它设备发送的目标音频,或者在目标指令的触发下获取目标音频。目标指令相当于用户或者终端触发的用于识别目标音频的指令。获取目标音频是为了识别目标音频中每个音频段的情感信息,该情感信息为通过目标音频表述文本信息时所表露(包括但不局限于通过文本中的字眼或文字、音频中的音调、音色等所表露出的)出来的情感信息。
上述的文本信息是指一个句子或多个句子的组合,一个文本包括但不局限于一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。
情感信息是用于描述说话者情感的信息,如在聊到某件事时,表达出与高兴相关的情感(高兴、平淡、悲伤),如接收到别人道歉时,表达出与原谅相关的情感(原谅、不置可否、不原谅)等。
在目标音频是一个句子时,音频段即该句子中的短语或者词语;在目标音频是一个语段时,音频段即该句子中的一个语句或短语、词语。
步骤S204,从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征。
从音频段中识别出第一文本信息,是指通过语音识别的方式识别出音频段所表达的第一文本信息(此处识别出的第一文本信息可能与实际表述的文本信息存在细微区别)。
对于语音识别而言,语音特征包括以下几方面的特征:感知加权线性预测PLP(Perceptual Linear Predictive)、Mel频率倒谱系数MFCC(Mel-Frequency CepstralCoefficients)、FBANK(Filter-bank特征)、音调PITCH(如高低音)、语音能量ENERGY、I-VECTOR(反映说话人声学差异的一种重要特征)等。本申请中的使用的特征可以为上述中的一个或多个,优选地使用多个。
对于文本识别而言,可以通过语音识别引擎从音频段中识别出上述的第一文本信息,文本信息的文本特征包括文本中每个短语或词汇的情感类型、情感倾向、情感强度等特征,还可以是短语之间的关联关系特征等。
步骤S206,基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
在确定目标音频的目标情感信息时,综合考虑了第一文本信息具有的文本特征和目标音频具有的语音特征,相对于相关技术中,仅采用基于音频的情感检测方法对说话者的音频进行检测而言,既可以使用音频进行情感检测,对说话者具有比较明显的情感表达的情况具有比较好的作用,但当说话人的情感表达不强烈,比如一个很高兴的事情,用很平淡的语气表达出来时,音频中几乎不带有用于表达高兴的特征,对于这种情况,还可以使用基于文本的情感检测方法对说话者的音频中的文本信息进行检测,从而可以根据文本特征进行准确判决,以弥补仅仅通过音频来进行情感检测的不足,达到提高判决结果的准确度的效果。
而且,针对存在情绪有变化的一段音频,由于是每个音频段得到一个对应的目标情感信息,能够使得得到的结果更为精确。
通过上述步骤S202至步骤S206,在获取目标音频时,从目标音频的每个音频段中识别出一个第一文本信息,然后基于第一文本信息具有的文本特征和音频段具有的语音特征确定音频段的目标情感信息,在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息,在音频段具有明显的情感表露时能够通过音频段的语音特征来确定情感信息,并且每个音频段都存在对应的一个是情感识别结果,可以解决了相关技术中无法准确识别说话者的情感信息的技术问题,进而达到提高识别说话者的情感信息的准确度的技术效果。
仅采用基于音频的情感检测方法对说话者的音频进行检测而言,对说话者具有比较明显的情感表达的情况具有比较好的作用,使用基于文本的情感检测方法对说话者的音频中的文本信息具有比较明显的情感表达的情况具有比较好的作用,然而,何时(即什么样的场景或什么样的语音)利用基于音频的情感检测方法进行检测,何时利用基于文本的情感检测方法进行检测是未知的,不可能提前预知使用哪一种方法来对当前待检测音频的检测效果更好。
申请人考虑到,对于某些情感比较明显的文本若使用平淡的语气表述(如情感为高兴的文本若使用平淡的语气表述),使用基于文本的情感检测方法的识别效果明显较好,对于某些情感比平淡显的文本若使用带明显情感的语气表述(如比较平淡的文本用高兴的语气表述),基于音频的情感检测方法的识别效果明显较好,上述情感比较明显的文本可以使用平淡的语气或情感比较明显的语气表述,情感比较平淡的文本也可以使用带显著情感的语气或平淡的语气表述,不会出现某些正向情感比较明显的文本使用反向情感的语气表述,如带高兴情感色彩的文本使用悲伤的语气来表述。
本申请是基于本文和语音相融合的方法,可以弥补利用单一特征进行识别的缺点,两者的融合是文本和音频训练相融合,融合的方法可以是文本输出结果和音频输出结果中间使用一个权重进行加和得到最终结果,且不是整段的加和,而是分段的加和,因为说话人的情感不可能一整段保持不变,而是会有所起伏的,并且一段话中可能就几个关键词的情感比较强烈,采用这种方式能够识别出整段话中不同阶段说话者的情绪特征。
在上述认识的基础上,只要语音或文字带明显的情感色彩(即第一情感等级的情感信息),则可以确定目标语音为带有情感色彩的语音。基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息包括按照如下方式确定每个音频段的目标情感信息:获取根据第一文本信息的文本特征确定的第一识别结果,其中,第一识别结果用于表示根据文本特征识别出的情感信息;获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果,其中,第二识别结果用于表示根据语音特征识别出的情感信息;在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时,将所音频段的目标情感信息确定为第一情感等级的情感信息。
上述的第一情感等级为带比较明显情感信息的等级,而不是趋于中间平淡(不带明显情感)的信息,如对于高兴、平淡、悲伤这一组情感信息而言,第一情感等级的情感信息是指高兴或悲伤,而不是平淡,对于其他类型的情感信息,与此类似,不再赘述。
在本申请的上述进行识别的技术方案中,包括但不局限于采用普通的算法或者机器学习相关的算法进行特征识别和情感信息的识别,为了提高的准确度,可以采用机器学习相关的算法来进行特征识别和情感信息的识别。
(1)基于文本识别的训练流程
在执行本申请的上述步骤S202至步骤S206之前,可先对算法模型进行训练:在获取目标音频之前,使用第二文本信息(训练文本)和第一情感信息对第二卷积神经网络模型(原始卷积神经网络模型)进行训练,以确定第二卷积神经网络模型中参数的取值,并将确定了参数的取值之后的第二卷积神经网络模型设置为第一卷积神经网络模型,其中,第一情感信息为第二文本信息的情感信息。如图3所示:
步骤S301,对第二文本进行分词。
对训练语句进行分词,比如对例句“今天发工资了,我非常开心”分词的结果为:今天、发工资、了、我、非常、开心。这个训练的语句的情感标签(实际情感信息)是高兴。
步骤S302,通过Word2vector对分词后的词语进行词向量化。
词向量顾名思义是用一个向量的形式表示一个词。由于机器学习任务需要把输入量化成数值表示,然后通过充分利用计算机的计算能力,计算得出最终想要的结果,所以需要将词向量化。
根据训练语句中分词的个数,形成一个n*k的矩阵,其中,n是训练语句词的个数,k为向量vector的维数,这个矩阵的类型可以是固定的,也可以是动态的,根据具体的情况进行选择。
目前word2vector有比较多并且稳定的算法,本申请可以选择CBOW和Skip-gram实现,对于CBOW算法模型和Skip-gram算法模型,可以Huffman树作为基础,Huffman树中非叶节点存储的中间向量的初始化值是零向量,而叶节点对应的单词的词向量是随机初始化的。
步骤S303,第二卷积神经网络模型的卷积层进行特征提取。
前一步生成的n*k矩阵,经过卷积层,得到若干个列数为1的矩阵,这个层类似一个特征提取层,生成n个词,k维的vector矩阵,这条句子可以表示为:
xi:i+j是词x1,x2,...,xi+j的组合,符号表示布尔运算异或逻辑运算,一个卷积操作相当于一个滤波器,使用窗长为l的词产生一个新的特征,新的特征可以用ci表示,则卷积操作为:
ci=f(w·xi:i+l-1+b),这个滤波器可以对{x1:l,x2:l,...,xn-l+1:n}不同词组合产生一个新的特征序列c=[c1,c2,...,cn-l+1],使用多个滤波器对应不同的窗长可以产生多个列为1的矩阵。
步骤S304,第二卷积神经网络模型的池层进行池化处理。
前一步生成的若干个列为1的矩阵,可以根据实际情况选取最大或者最大的几个作为新的特征,经过这一层之后形成固定维数的特征,可以解决句子长短的问题。
步骤S305,第二卷积神经网络模型的神经网络层处理得到分类结果(也即第二文本特征)。
通过前一步使用m个滤波器,如果每个滤波器通过池操作选取最大的值作为新的特征,那么就形成一个m维的新的特征(表示第m个滤波器的特征序列c中的特征值最大的特征,m的取值大于1),通过一个NN层yi=w·z+b(w表示权重,b表示偏差),通过多个NN层,得到最终的输出(即第二文本特征)。
步骤S306,通过第二卷积神经网络模型的Back-Propagation(BP层)对参数进行调整优化。
前一步生成的输出与真实的输出通过合适的损失函数(通常是最大熵和最小均方误差函数作为损失函数),使用随机梯度下降法,对CNN模型的参数进行更新,经过多轮迭代使模型达到最优。
随机梯度下降Wi+1=Wi-η△Wi,其中η是学习率,Wi为迭代前的权重(即模型中的参数),Wi+1为迭代后的权重。
最大熵损失函数:对损失函数对权重w和偏差b求偏导,使用随机梯度下降法逐轮对w和b进行更新。
BP算法是从最后一层逐层像对前面不同层的w和b进行更新,训练过程完成后得到CNN模型(第一卷积神经网络模型)。
需要说明的是,上述的训练过程实际是在挖掘情感信息与文本特征之间的关联关系,以使得到的第一卷积神经网络模型能够根据关联关系识别出情感信息。
(2)基于语音的DNN训练过程
在执行本申请的上述步骤S202至步骤S206之前,可先对算法模型进行训练还包括:在获取目标音频之前,使用训练音频(或训练语音)和第二情感信息对第二深度神经网络模型进行训练,以确定第二深度神经网络模型中参数的取值,并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型,其中,第二情感信息为训练音频的情感信息。下面结合图4进行详述:
步骤S401,对训练音频进行分帧。
语音信号因为是准稳态信号,在处理时常把信号分帧,每帧长度约20ms-30ms,在这一区间内把语音信号看作为稳态信号,只有稳态的信息才能进行信号处理,所以要先分帧。
步骤S402,对训练音频分帧后的语音帧进行特征提取,语音特征、情感批注、文本特征送到DNN模型中。
对训练语音进行特征提取,提取的特征可以有很多种,比如PLP,MFCC,FBANK,PITCH,ENERGY,I-VECTOR等,可以提取这多种特征中的一个或者多个,本申请优先使用的特征是多种特征的融合。
步骤S403,对DNN模型进行训练。
根据第一步提取的特征,进行前后帧的扩展,然后送到DNN中,DNN中间层之间的传递与CNN中的NN层是一样的,权重更新的方法与CNN一样,根据训练特征生成的输出与实际标注之间误差,利用损失函数对w和b求偏导,使用Back-Propagation(BP层)和随机梯度下降法对w和b进行更新,方法和CNN的一样,经过多轮迭代使DNN模型达到最优。训练过程完成后得到DNN模型(第一深度神经网络模型)。
需要说明的是,上述的训练过程实际是在挖掘情感信息与语音特征之间的关联关系,以使得到的第一深度神经网络模型能够根据关联关系识别出情感信息。
在步骤S202提供的技术方案中,获取目标音频,如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频。
在步骤S204提供的技术方案中,在从多个音频段中识别出多个第一文本信息之前,对目标音频进行静音检测,检测出目标音频中的静音段;根据静音段识别出目标音频包括的多个音频段,任意两个相邻的音频段之间间隔有一个静音段。
对训练音频根据音频中静音的情况将音频分成不同的段,可使用基于能量、过零率、模型等方法来实现静音检测,本申请用的是基于模型的静音检测。
在确定了多个音频段之后,即可从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征(也即声学特征),第一文本信息具有文本特征。
声学特征的提取与选择是语音识别的一个重要环节,声学特征的提取既是一个信息大幅度压缩的过程,也是一个信号解卷过程,目的是使模式划分器能更好地划分。由于语音信号的时变特性,特征提取必须在一小段语音信号上进行,也即进行短时分析。这一段被认为是平稳的分析区间称之为帧,帧与帧之间的偏移通常取帧长的1/2或1/3。通常提取目标音频中的语音特征的过程中,可对信号进行预加重以提升高频,对信号加窗以避免短时语音段边缘的影响。上述的得到第一文本信息的过程可以通过语音识别引擎实现。
在步骤S206提供的技术方案中,基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。步骤S206提供的技术方案包括至少以下两种实现方式:
(1)方式一
基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息包括按照如下方式确定每个音频段的目标情感信息:获取根据第一文本信息的文本特征确定的第一识别结果,其中,第一识别结果用于表示根据文本特征识别出的情感信息;获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果,其中,第二识别结果用于表示根据语音特征识别出的情感信息;在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时,将所音频段的目标情感信息确定为第一情感等级的情感信息。如对于高兴、平淡、悲伤这一组情感信息而言,在第一识别结果和第二识别结果中只要有一个为高兴或悲伤,则最终的结果(目标情感信息)为高兴或悲伤,而忽略无明显情感倾向的平淡第一等级的情感信息的影响。
上述的第一识别结果和第二识别结果可以直接是识别出的情感信息,也可以是用于指示识别出的情感信息的其他信息(如情感分数、情感类型等)。
可选地,文本特征的识别通过第一卷积神经网络模型实现,获取根据第一文本信息的文本特征确定的第一识别结果时,直接从第一卷积神经网络模型获取根据从第一文本信息中识别出的文本特征确定的第一识别结果。
上述的获取第一卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果包括:通过第一卷积神经网络模型的特征提取层在多个特征维度上对第一文本信息进行特征提取,得到多个文本特征,其中,在每个特征维度上提取得到一个文本特征(也即选取特征值最大的一个或者几个特征);通过第一卷积神经网络模型的分类层对多个文本特征中的第一文本特征进行特征识别,得到第一识别结果,其中,文本特征包括第一文本特征和第二文本特征,第一文本特征的特征值大于任意一个第二文本特征的特征值。
语音特征的识别通过第一深度神经网络模型实现,在获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果时,直接从第一深度神经网络模型获取根据从音频段识别出的语音特征确定的第二识别结果。
(2)方式二
基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息可以通过如下方式实现:获取根据文本特征确定的第一识别结果,第一识别结果包括用于指示根据文本特征识别出的情感信息的第一情感参数;获取根据语音特征确定的第二识别结果,第二识别结果包括用于指示根据语音特征识别出的情感信息的第二情感参数;将用于指示目标情感信息的第三情感参数final_score设置为:第一情感参数Score1*为第一情感参数设置的权重a+第二情感参数Score2*为第二情感参数设置的权重(1-a);将位于第二情感等级的情感信息确定为目标情感信息,第二情感等级是与第三情感参数所在的情感参数区间对应的情感等级,每个情感等级对应有一个情感参数区间。
需要说明的是,在获取根据文本特征确定的第一识别结果时,和获取根据语音特征确定的第二识别结果时,可参见上述的方式一中使用的模型进行计算。
可选地,在基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息之后,逐个播放音频段并展示该音频段的目标情感信息;接收用户的反馈信息,反馈信息中包括用于指示识别出的目标情感信息是否正确的指示信息,在不正确的情况下,反馈信息中还包括用户根据播放的音频段识别出的实际情感信息。
若识别出的目标情感信息不正确,则说明卷积神经网络模型和深度神经网络模型的识别准确度有待提高,尤其是对于这一类识别错误的音频信息,其识别率更差,此时,利用负反馈机制来提高识别率,具体可利用这一类识别错误的音频按照上述的方式对卷积神经网络模型和深度神经网络模型进行重新训练,重新对两个模型中的参数进行赋值,提高其识别准确率。
作为一种可选的实施例,下面结合图5详述本申请的实施例:
步骤S501,进行静音检测,将目标音频分为多个音频段。
步骤S502,对音频段进行分帧。
在处理时把信号分帧为长度约20ms-30ms的语音帧,在这一区间内把语音信号可看作为稳态信号,进而便于进行信号处理。
步骤S503,提取音频段中的语音特征(也即声学特征)。
识别出的语音特征包括但不局限于感知加权线性预测PLP、Mel频率倒谱系数MFCC、FBANK、音调PITCH、语音能量ENERGY、I-VECTOR中的多个。
步骤S504,通过DNN模型对音频段的语音特征进行识别处理。
DNN模型根据上述识别出的语音特征(感知加权线性预测PLP、Mel频率倒谱系数MFCC、FBANK、音调PITCH、语音能量ENERGY、I-VECTOR中的多个)进行识别处理。
步骤S505,得到第二识别结果score2。
步骤S506,通过语音识别引擎对音频段进行语音识别。
在语音识别引擎的训练阶段,可将词汇表中的每一词依次说一遍,并且将其特征矢量作为模板存入模板库。
在通过语音识别引擎进行语音识别的阶段,将输入语音的声学特征矢量依次与模板库中的每个模板进行相似度比较,将相似度最高者作为识别结果输出。
步骤S507,得到文字识别结果(即第一文本信息)。
步骤S508,对第一文本信息进行分词,如对“明天就要放假了,我好开心啊”分词的结果为:明天、就要、放假、了、我、好、开心、啊。
步骤S509,将上述的分词得到的多个词语作为CNN模型的输入,CNN模型对多个词语进行卷积、分类、识别处理。
步骤S510,得到CNN模型输出的第一识别结果score1。
步骤S511,对识别结果进行融合处理得到最终结果。
输入的目标音频,经过特征提取,特征提取分为两种一种用于语音识别,经过语音识别引擎,得到语音识别结果,语音识别结果经过分词,送到文本情感检测引擎,得到文本情感得分score1;另外一种用于基于音频情感检测得分,经过特征提取送到音频情感检测,得到音频得分score2,然后经过一个权重因子得到最终得分final_score:
final_score=a*score1+(1-a)*score2。
a是经过开发集训练得到的权重值,最终的得分是0-1之间的得分。
例如,悲伤对应的得分区间为[0,0.3),平淡对应的得分区间为[0.3,0.7),高兴对应的得分[0.7,1],即可根据最终得到的分值确定实际的情感为高兴、悲伤或者平淡。
在本申请的实施例中,采用基于本文和语音相融合的方法,可以弥补单独的不同方法的缺点,在两者相融合的过程中可以增加一个权重因子用于调节两种方法的权重,以适用不同的场合。本申请可分为两个模块,训练模块和识别模块,训练模块可以单独进行训练,根据不同的情况选取不同的文本和音频,本申请中三种情绪特征,高兴、正常和不高兴,高兴和不高兴的程度都可以用得分来表示,情感的得分在0-1之间,越接近零情绪越消极,越接近1情绪越积极,针对的应用可以是音频段的情感判别。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
根据本发明实施例,还提供了一种用于实施上述情感信息的确定方法的情感信息的确定装置。图6是根据本发明实施例的一种可选的情感信息的确定装置的示意图,如图6所示,该装置可以包括:第一获取单元61、识别单元62以及第一确定单元63。
第一获取单元61,获取目标音频,其中,目标音频包括多个音频段。
可以是终端主动获取目标音频,或者接收其它设备发送的目标音频,或者在目标指令的触发下获取目标音频。目标指令相当于用户或者终端触发的用于识别目标音频的指令。获取目标音频是为了识别目标音频中每个音频段的情感信息,该情感信息为通过目标音频表述文本信息时所表露(包括但不局限于通过文本中的字眼或文字、音频中的音调、音色等所表露出的)出来的情感信息。
上述的文本信息是指一个句子或多个句子的组合,一个文本包括但不局限于一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。
情感信息是用于描述说话者情感的信息,如在聊到某件事时,表达出与高兴相关的情感(高兴、平淡、悲伤),如接收到别人道歉时,表达出与原谅相关的情感(原谅、不置可否、不原谅)等。
在目标音频是一个句子时,音频段即该句子中的短语或者词语;在目标音频是一个语段时,音频段即该句子中的一个语句或短语、词语。
识别单元62,用于从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征。
从音频段中识别出第一文本信息,是指通过语音识别的方式识别出音频段所表达的第一文本信息(此处识别出的第一文本信息可能与实际表述的文本信息存在细微区别)。
对于语音识别而言,语音特征包括以下几方面的特征:感知加权线性预测PLP(Perceptual Linear Predictive)、Mel频率倒谱系数MFCC(Mel-Frequency CepstralCoefficients)、FBANK(Filter-bank特征)、音调PITCH(如高低音)、语音能量ENERGY、I-VECTOR(反映说话人声学差异的一种重要特征)等。本申请中的使用的特征可以为上述中的一个或多个,优选地使用多个。
对于文本识别而言,可以通过语音识别引擎从音频段中识别出上述的第一文本信息,文本信息的文本特征包括文本中每个短语或词汇的情感类型、情感倾向、情感强度等特征,还可以是短语之间的关联关系特征等。
第一确定单元63,用于基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
在确定目标音频的目标情感信息时,综合考虑了第一文本信息具有的文本特征和目标音频具有的语音特征,相对于相关技术中,仅采用基于音频的情感检测方法对说话者的音频进行检测而言,既可以使用音频进行情感检测,对说话者具有比较明显的情感表达的情况具有比较好的作用,但当说话人的情感表达不强烈,比如一个很高兴的事情,用很平淡的语气表达出来时,音频中几乎不带有用于表达高兴的特征,对于这种情况,还可以使用基于文本的情感检测方法对说话者的音频中的文本信息进行检测,从而可以根据文本特征进行准确判决,以弥补仅仅通过音频来进行情感检测的不足,达到提高判决结果的准确度的效果。
而且,针对存在情绪有变化的一段音频,由于是每个音频段得到一个对应的目标情感信息,能够使得得到的结果更为精确。
需要说明的是,该实施例中的第一获取单元61可以用于执行本申请实施例1中的步骤S202,该实施例中的识别单元62可以用于执行本申请实施例1中的步骤S204,该实施例中的第一确定单元63可以用于执行本申请实施例1中的步骤S206。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现。
通过上述模块,在获取目标音频时,从目标音频的每个音频段中识别出一个第一文本信息,然后基于第一文本信息具有的文本特征和音频段具有的语音特征确定音频段的目标情感信息,在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息,在音频段具有明显的情感表露时能够通过音频段的语音特征来确定情感信息,并且每个音频段都存在对应的一个是情感识别结果,可以解决了相关技术中无法准确识别说话者的情感信息的技术问题,进而达到提高识别说话者的情感信息的准确度的技术效果。
仅采用基于音频的情感检测方法对说话者的音频进行检测而言,对说话者具有比较明显的情感表达的情况具有比较好的作用,使用基于文本的情感检测方法对说话者的音频中的文本信息具有比较明显的情感表达的情况具有比较好的作用,然而,何时(即什么样的场景或什么样的语音)利用基于音频的情感检测方法进行检测,何时利用基于文本的情感检测方法进行检测是未知的,不可能提前预知使用哪一种方法来对当前待检测音频的检测效果更好。
申请人考虑到,对于某些情感比较明显的文本若使用平淡的语气表述(如情感为高兴的文本若使用平淡的语气表述),使用基于文本的情感检测方法的识别效果明显较好,对于某些情感比平淡显的文本若使用带明显情感的语气表述(如比较平淡的文本用高兴的语气表述),基于音频的情感检测方法的识别效果明显较好,上述情感比较明显的文本可以使用平淡的语气或情感比较明显的语气表述,情感比较平淡的文本也可以使用带显著情感的语气或平淡的语气表述,不会出现某些正向情感比较明显的文本使用反向情感的语气表述,如带高兴情感色彩的文本使用悲伤的语气来表述。
本申请是基于本文和语音相融合的方法,可以弥补利用单一特征进行识别的缺点,两者的融合是文本和音频训练相融合,融合的方法可以是文本输出结果和音频输出结果中间使用一个权重进行加和得到最终结果,且不是整段的加和,而是分段的加和,因为说话人的情感不可能一整段保持不变,而是会有所起伏的,并且一段话中可能就几个关键词的情感比较强烈,采用这种方式能够识别出整段话中不同阶段说话者的情绪特征。
在上述认识的基础上,只要语音或文字带明显的情感色彩(即第一情感等级的情感信息),则可以确定目标语音为带有情感色彩的语音。
可选地,如图7所示,本申请的装置还可包括:第二获取单元64,用于在基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息之后,获取多个目标情感信息中每个目标情感信息所属的情感等级;第二确定单元65,用于在多个目标情感信息中包括第一情感等级的情感信息时,确定目标音频的情感信息为第一情感等级的情感信息。
本申请的第一确定单元按照如下方式确定每个音频段的目标情感信息:获取根据第一文本信息的文本特征确定的第一识别结果,其中,第一识别结果用于表示根据文本特征识别出的情感信息;获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果,其中,第二识别结果用于表示根据语音特征识别出的情感信息;在第一识别结果和第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时,将所音频段的目标情感信息确定为第一情感等级的情感信息。
第一确定单元获取根据第一文本信息的文本特征确定的第一识别结果时,是从第一卷积神经网络模型获取根据从第一文本信息中识别出的文本特征确定的第一识别结果。
在获取第一卷积神经网络模型根据从第一文本信息中识别出的文本特征确定的第一识别结果的过程中,通过第一卷积神经网络模型的特征提取层在多个特征维度上对第一文本信息进行特征提取,得到多个文本特征,其中,在每个特征维度上提取得到一个文本特征;通过第一卷积神经网络模型的分类层对多个文本特征中的第一文本特征进行特征识别,得到第一识别结果,其中,文本特征包括第一文本特征和第二文本特征,第一文本特征的特征值大于任意一个第二文本特征的特征值。
第一确定单元获取根据与第一文本信息对应的音频段的语音特征确定的第二识别结果时,是从第一深度神经网络模型获取根据从音频段识别出的语音特征确定的第二识别结果。
可选地,本申请的装置还可以包括:检测单元,用于在从多个音频段中识别出多个第一文本信息之前,对目标音频进行静音检测,检测出目标音频中的静音段;第三确定单元,用于根据静音段识别出目标音频包括的多个音频段,其中,任意两个相邻的音频段之间间隔有一个静音段。
在本申请的实施例中,采用基于本文和语音相融合的方法,可以弥补单独的不同方法的缺点,在两者相融合的过程中可以增加一个权重因子用于调节两种方法的权重,以适用不同的场合。本申请可分为两个模块,训练模块和识别模块,训练模块可以单独进行训练,根据不同的情况选取不同的文本和音频,本申请中三种情绪特征,高兴、正常和不高兴,高兴和不高兴的程度都可以用得分来表示,情感的得分在0-1之间,越接近零情绪越消极,越接近1情绪越积极,针对的应用可以是音频段的情感判别。
此处需要说明的是,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在如图1所示的硬件环境中,可以通过软件实现,也可以通过硬件实现,其中,硬件环境包括网络环境。
实施例3
根据本发明实施例,还提供了一种用于实施上述情感信息的确定方法的服务器或终端(也即电子装置)。
图8是根据本发明实施例的一种终端的结构框图,如图8所示,该终端可以包括:一个或多个(图8中仅示出一个)处理器801、存储器803、以及传输装置805(如上述实施例中的发送装置),如图8所示,该终端还可以包括输入输出设备807。
其中,存储器803可用于存储软件程序以及模块,如本发明实施例中的情感信息的确定方法和装置对应的程序指令/模块,处理器801通过运行存储在存储器803内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的情感信息的确定方法。存储器803可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器803可进一步包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
上述的传输装置805用于经由一个网络接收或者发送数据,还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置805包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置805为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
其中,具体地,存储器803用于存储应用程序。
处理器801可以通过传输装置805调用存储器803存储的应用程序,以执行下述步骤:获取目标音频,目标音频包括多个音频段;从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
处理器801还用于执行下述步骤:获取多个目标情感信息中每个目标情感信息所属的情感等级;在多个目标情感信息中包括第一情感等级的情感信息时,确定目标音频的情感信息为第一情感等级的情感信息。
采用本发明实施例,在获取目标音频时,从目标音频的每个音频段中识别出一个第一文本信息,然后基于第一文本信息具有的文本特征和音频段具有的语音特征确定音频段的目标情感信息,在文本信息具有明显的情感表露时能够通过文本信息的文本特征来确定情感信息,在音频段具有明显的情感表露时能够通过音频段的语音特征来确定情感信息,并且每个音频段都存在对应的一个是情感识别结果,可以解决了相关技术中无法准确识别说话者的情感信息的技术问题,进而达到提高识别说话者的情感信息的准确度的技术效果。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
本领域普通技术人员可以理解,图8所示的结构仅为示意,终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices,MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如,终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图8所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例4
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于执行情感信息的确定方法的程序代码。
可选地,在本实施例中,上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:
S11,获取目标音频,目标音频包括多个音频段;
S12,从多个音频段中识别出多个第一文本信息,任意一个第一文本信息是从对应的一个音频段中识别出的,音频段具有语音特征,第一文本信息具有文本特征;
S13,基于多个音频段的语音特征和多个第一文本信息具有的文本特征确定多个音频段的目标情感信息。
可选地,存储介质还被设置为存储用于执行以下步骤的程序代码:
S21,获取多个目标情感信息中每个目标情感信息所属的情感等级;
S22,在多个目标情感信息中包括第一情感等级的情感信息时,确定目标音频的情感信息为第一情感等级的情感信息。
可选地,本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例,本实施例在此不再赘述。
可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种情感信息的确定方法,其特征在于,包括:
获取目标音频,其中,所述目标音频包括多个音频段;
从多个所述音频段中识别出多个第一文本信息,其中,任意一个所述第一文本信息是从对应的一个所述音频段中识别出的,所述音频段具有语音特征,所述第一文本信息具有文本特征;
基于多个所述音频段的语音特征和多个所述第一文本信息具有的文本特征确定多个所述音频段的目标情感信息;
获取多个所述目标情感信息中每个所述目标情感信息所属的情感等级;
在多个所述目标情感信息中包括第一情感等级的情感信息时,确定所述目标音频的情感信息为所述第一情感等级的情感信息,其中,所述第一情感等级是带明显情感信息的等级。
2.根据权利要求1所述的方法,其特征在于,基于多个所述音频段的语音特征和多个所述第一文本信息具有的文本特征确定多个所述音频段的目标情感信息包括按照如下方式确定每个所述音频段的目标情感信息:
获取根据所述第一文本信息的文本特征确定的第一识别结果,其中,所述第一识别结果用于表示根据所述文本特征识别出的情感信息;
获取根据与所述第一文本信息对应的所述音频段的语音特征确定的第二识别结果,其中,所述第二识别结果用于表示根据所述语音特征识别出的情感信息;
在所述第一识别结果和所述第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时,将所音频段的目标情感信息确定为所述第一情感等级的情感信息。
3.根据权利要求2所述的方法,其特征在于,
获取根据所述第一文本信息的文本特征确定的第一识别结果包括:获取第一卷积神经网络模型根据从所述第一文本信息中识别出的所述文本特征确定的所述第一识别结果;
获取根据与所述第一文本信息对应的所述音频段的语音特征确定的第二识别结果包括:获取第一深度神经网络模型根据从所述音频段识别出的所述语音特征确定的所述第二识别结果。
4.根据权利要求3所述的方法,其特征在于,获取第一卷积神经网络模型根据从所述第一文本信息中识别出的所述文本特征确定的所述第一识别结果包括:
通过所述第一卷积神经网络模型的特征提取层在多个特征维度上对所述第一文本信息进行特征提取,得到多个所述文本特征,其中,在每个所述特征维度上提取得到一个所述文本特征;
通过所述第一卷积神经网络模型的分类层对多个所述文本特征中的第一文本特征进行特征识别,得到所述第一识别结果,其中,所述文本特征包括所述第一文本特征和第二文本特征,所述第一文本特征的特征值大于任意一个所述第二文本特征的特征值。
5.根据权利要求1所述的方法,其特征在于,在从多个所述音频段中识别出多个第一文本信息之前,所述方法还包括:
对所述目标音频进行静音检测,检测出所述目标音频中的静音段;
根据所述静音段识别出所述目标音频包括的多个所述音频段,其中,任意两个相邻的所述音频段之间间隔有一个所述静音段。
6.一种情感信息的确定装置,其特征在于,包括:
第一获取单元,用于获取目标音频,其中,所述目标音频包括多个音频段;
识别单元,用于从多个所述音频段中识别出多个第一文本信息,其中,任意一个所述第一文本信息是从对应的一个所述音频段中识别出的,所述音频段具有语音特征,所述第一文本信息具有文本特征;
第一确定单元,用于基于多个所述音频段的语音特征和多个所述第一文本信息具有的文本特征确定多个所述音频段的目标情感信息;
第二获取单元,用于在基于多个所述音频段的语音特征和多个所述第一文本信息具有的文本特征确定多个所述音频段的目标情感信息之后,获取多个所述目标情感信息中每个所述目标情感信息所属的情感等级;
第二确定单元,用于在多个所述目标情感信息中包括第一情感等级的情感信息时,确定所述目标音频的情感信息为所述第一情感等级的情感信息,其中,所述第一情感等级是带明显情感信息的等级。
7.根据权利要求6所述的装置,其特征在于,所述第一确定单元按照如下方式确定每个所述音频段的目标情感信息:
获取根据所述第一文本信息的文本特征确定的第一识别结果,其中,所述第一识别结果用于表示根据所述文本特征识别出的情感信息;
获取根据与所述第一文本信息对应的所述音频段的语音特征确定的第二识别结果,其中,所述第二识别结果用于表示根据所述语音特征识别出的情感信息;
在所述第一识别结果和所述第二识别结果中的至少之一表示的情感信息为第一情感等级的情感信息时,将所音频段的目标情感信息确定为所述第一情感等级的情感信息。
8.根据权利要求6所述的装置,其特征在于,所述装置还包括:
检测单元,用于在从多个所述音频段中识别出多个第一文本信息之前,对所述目标音频进行静音检测,检测出所述目标音频中的静音段;
第三确定单元,用于根据所述静音段识别出所述目标音频包括的多个所述音频段,其中,任意两个相邻的所述音频段之间间隔有一个所述静音段。
9.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,所述程序运行时执行上述权利要求1至5任一项中所述的方法。
10.一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器通过所述计算机程序执行上述权利要求1至5任一项中所述的方法。
CN201710527121.5A 2017-06-30 2017-06-30 情感信息的确定方法和装置 Active CN108305643B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710527121.5A CN108305643B (zh) 2017-06-30 2017-06-30 情感信息的确定方法和装置
PCT/CN2018/093085 WO2019001458A1 (zh) 2017-06-30 2018-06-27 情感信息的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710527121.5A CN108305643B (zh) 2017-06-30 2017-06-30 情感信息的确定方法和装置

Publications (2)

Publication Number Publication Date
CN108305643A CN108305643A (zh) 2018-07-20
CN108305643B true CN108305643B (zh) 2019-12-06

Family

ID=62872608

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710527121.5A Active CN108305643B (zh) 2017-06-30 2017-06-30 情感信息的确定方法和装置

Country Status (1)

Country Link
CN (1) CN108305643B (zh)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109597493B (zh) * 2018-12-11 2022-05-17 科大讯飞股份有限公司 一种表情推荐方法及装置
CN110211563B (zh) * 2019-06-19 2024-05-24 平安科技(深圳)有限公司 面向情景及情感的中文语音合成方法、装置及存储介质
CN110472007A (zh) * 2019-07-04 2019-11-19 深圳追一科技有限公司 信息推送方法、装置、设备及存储介质
CN110675859B (zh) * 2019-09-05 2021-11-23 华南理工大学 结合语音与文本的多情感识别方法、系统、介质及设备
CN110910901B (zh) * 2019-10-08 2023-03-28 平安科技(深圳)有限公司 一种情绪识别方法及装置、电子设备和可读存储介质
CN110890088B (zh) * 2019-10-12 2022-07-15 中国平安财产保险股份有限公司 语音信息反馈方法、装置、计算机设备和存储介质
CN111145786A (zh) * 2019-12-17 2020-05-12 深圳追一科技有限公司 语音情感识别方法和装置、服务器、计算机可读存储介质
CN111091810A (zh) * 2019-12-19 2020-05-01 佛山科学技术学院 基于语音信息的vr游戏人物表情控制方法及存储介质
CN111081279A (zh) * 2019-12-24 2020-04-28 深圳壹账通智能科技有限公司 语音情绪波动分析方法及装置
CN111081280B (zh) * 2019-12-30 2022-10-04 思必驰科技股份有限公司 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN113327620B (zh) * 2020-02-29 2024-10-11 华为技术有限公司 声纹识别的方法和装置
CN111400511B (zh) * 2020-03-12 2024-06-14 北京奇艺世纪科技有限公司 一种多媒体资源的截取方法和装置
CN112733546A (zh) * 2020-12-28 2021-04-30 科大讯飞股份有限公司 表情符号生成方法、装置、电子设备及存储介质
CN114446323B (zh) * 2022-01-25 2023-03-10 电子科技大学 一种动态多维度的音乐情感分析方法及系统
CN114928755B (zh) * 2022-05-10 2023-10-20 咪咕文化科技有限公司 一种视频制作方法、电子设备及计算机可读存储介质
CN115273892B (zh) * 2022-07-27 2024-07-26 腾讯科技(深圳)有限公司 音频处理方法、装置、设备、存储介质和计算机程序产品

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456314A (zh) * 2013-09-03 2013-12-18 广州创维平面显示科技有限公司 一种情感识别方法以及装置
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN104598644A (zh) * 2015-02-12 2015-05-06 腾讯科技(深圳)有限公司 用户喜好标签挖掘方法和装置
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN106297826A (zh) * 2016-08-18 2017-01-04 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103456314A (zh) * 2013-09-03 2013-12-18 广州创维平面显示科技有限公司 一种情感识别方法以及装置
CN104102627A (zh) * 2014-07-11 2014-10-15 合肥工业大学 一种多模态的非接触情感分析记录系统
CN104200804A (zh) * 2014-09-19 2014-12-10 合肥工业大学 一种面向人机交互的多类信息耦合的情感识别方法
CN104598644A (zh) * 2015-02-12 2015-05-06 腾讯科技(深圳)有限公司 用户喜好标签挖掘方法和装置
CN105427869A (zh) * 2015-11-02 2016-03-23 北京大学 一种基于深度学习的会话情感自动分析方法
CN105760852A (zh) * 2016-03-14 2016-07-13 江苏大学 一种融合脸部表情和语音的驾驶员情感实时识别方法
CN106297826A (zh) * 2016-08-18 2017-01-04 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN106503805A (zh) * 2016-11-14 2017-03-15 合肥工业大学 一种基于机器学习的双模态人人对话情感分析系统及其方法

Also Published As

Publication number Publication date
CN108305643A (zh) 2018-07-20

Similar Documents

Publication Publication Date Title
CN108305643B (zh) 情感信息的确定方法和装置
CN108305641B (zh) 情感信息的确定方法和装置
CN108305642B (zh) 情感信息的确定方法和装置
CN109817213B (zh) 用于自适应语种进行语音识别的方法、装置及设备
US9818409B2 (en) Context-dependent modeling of phonemes
US20240021202A1 (en) Method and apparatus for recognizing voice, electronic device and medium
US11450311B2 (en) System and methods for accent and dialect modification
US10839788B2 (en) Systems and methods for selecting accent and dialect based on context
CN108428446A (zh) 语音识别方法和装置
CN112233680B (zh) 说话人角色识别方法、装置、电子设备及存储介质
CN111081280B (zh) 与文本无关的语音情感识别方法及装置、用于识别情感的算法模型的生成方法
CN113314119B (zh) 语音识别智能家居控制方法及装置
CN109976702A (zh) 一种语音识别方法、装置及终端
CN114999441B (zh) 虚拟形象生成方法、装置、设备、存储介质以及程序产品
CN110852075B (zh) 自动添加标点符号的语音转写方法、装置及可读存储介质
CN111344717A (zh) 交互行为预测方法、智能装置和计算机可读存储介质
CN105989839A (zh) 语音识别方法和装置
WO2019001458A1 (zh) 情感信息的确定方法和装置
CN110781329A (zh) 图像搜索方法、装置、终端设备及存储介质
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
US20160005421A1 (en) Language analysis based on word-selection, and language analysis apparatus
US20240321259A1 (en) Synthesis method for emotion speech and synthesis apparatus
JP2015175859A (ja) パターン認識装置、パターン認識方法及びパターン認識プログラム
CN110708619B (zh) 一种智能设备的词向量训练方法及装置
CN114065720A (zh) 会议纪要生成方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant