Nothing Special   »   [go: up one dir, main page]

CN108711423A - 智能语音交互实现方法、装置、计算机设备及存储介质 - Google Patents

智能语音交互实现方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN108711423A
CN108711423A CN201810294041.4A CN201810294041A CN108711423A CN 108711423 A CN108711423 A CN 108711423A CN 201810294041 A CN201810294041 A CN 201810294041A CN 108711423 A CN108711423 A CN 108711423A
Authority
CN
China
Prior art keywords
user
query
intelligent sound
style
response
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810294041.4A
Other languages
English (en)
Inventor
杨鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Shanghai Xiaodu Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810294041.4A priority Critical patent/CN108711423A/zh
Publication of CN108711423A publication Critical patent/CN108711423A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了智能语音交互实现方法、装置、计算机设备及存储介质,其中方法包括:获取来自智能语音设备的用户query,所述query为用户与智能语音设备进行语音交互过程中输入的query;根据获取到的用户的对话风格,生成所述query对应的应答语音,并将应答语音返回给智能语音设备进行播放。本发明方案可基于用户的对话风格来生成应答语音,从而实现了针对不同用户的个性化应答,使得语音交互更加感性、拟人、智能化,为用户带来更加符合人类对话习惯的交互体验等。

Description

智能语音交互实现方法、装置、计算机设备及存储介质
【技术领域】
本发明涉及计算机应用技术,特别涉及智能语音交互实现方法、装置、计算机设备及存储介质。
【背景技术】
智能语音交互是基于语音输入的新一代交互模式,通过说话就可以得到反馈结果。随着技术的发展和完善,智能语音设备越来越普及,得到了越来越广泛的应用。
当前的语音交互对话形式,尽管通过人工预先编辑应答格式,改善音色等,从表面上使得对话更接近人类对话,具备一定亲和感。但是对话依旧固定机械化,缺少人情味,缺少“智能”,只能按照云端预置的固定策略来回答用户,与人类对话习惯差距明显,用户没有代入感,只能满足简单的你问我答,无法满足更高级的人机智能语音对话要求。
【发明内容】
有鉴于此,本发明提供了智能语音交互实现方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种智能语音交互实现方法,包括:
获取来自智能语音设备的用户query,所述query为用户与所述智能语音设备进行语音交互过程中输入的query;
根据获取到的所述用户的对话风格,生成所述query对应的应答语音,并将所述应答语音返回给所述智能语音设备进行播放。
根据本发明一优选实施例,所述对话风格包括以下之一或全部:说话风格、情感风格。
根据本发明一优选实施例,获取所述用户的说话风格包括:
根据用户与所述智能语音设备的历史交互记录,确定出所述用户的说话风格。
根据本发明一优选实施例,所述说话风格包括以下之一或任意组合:
口音、口头禅、说话格式习惯、说话节奏、使用流行词汇。
根据本发明一优选实施例,获取所述用户的情感风格包括:
根据以下信息之一或全部:用户与所述智能语音设备的历史交互记录、实时交互内容,确定出所述用户的情感风格。
根据本发明一优选实施例,所述确定出所述用户的情感风格包括:
通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出所述用户的情感风格。
根据本发明一优选实施例,所述根据获取到的所述用户的对话风格,生成所述query对应的应答语音包括:
获取所述query对应的应答内容;
结合所述用户的对话风格以及所述应答内容,生成所述query对应的应答语音。
一种智能语音交互实现方法,包括:
获取语音交互过程中用户输入的query,将所述query发送给云端服务器,以便所述云端服务器根据获取到的所述用户的对话风格,生成所述query对应的应答语音;
获取来自所述云端服务器的所述应答语音,并进行播放。
根据本发明一优选实施例,所述对话风格包括以下之一或全部:说话风格、情感风格。
一种智能语音交互实现装置,包括:第一处理单元以及第二处理单元;
所述第一处理单元,用于获取来自智能语音设备的用户query,所述query为用户与所述智能语音设备进行语音交互过程中输入的query;
所述第二处理单元,用于根据获取到的所述用户的对话风格,生成所述query对应的应答语音,并将所述应答语音返回给所述智能语音设备进行播放。
根据本发明一优选实施例,所述对话风格包括以下之一或全部:说话风格、情感风格。
根据本发明一优选实施例,所述第二处理单元进一步用于,根据获取到的用户与所述智能语音设备的历史交互记录,确定出所述用户的说话风格。
根据本发明一优选实施例,所述说话风格包括以下之一或任意组合:
口音、口头禅、说话格式习惯、说话节奏、使用流行词汇。
根据本发明一优选实施例,所述第二处理单元进一步用于,根据获取到的以下信息之一或全部:用户与所述智能语音设备的历史交互记录、实时交互内容,确定出所述用户的情感风格。
根据本发明一优选实施例,所述第二处理单元通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出所述用户的情感风格。
根据本发明一优选实施例,所述第二处理单元获取所述query对应的应答内容,结合所述用户的对话风格以及所述应答内容,生成所述query对应的应答语音。
一种智能语音交互实现装置,包括:第三处理单元以及第四处理单元;
所述第三处理单元,用于获取语音交互过程中用户输入的query,将所述query发送给云端服务器,以便所述云端服务器根据获取到的所述用户的对话风格,生成所述query对应的应答语音;
所述第四处理单元,用于获取来自所述云端服务器的所述应答语音,并进行播放。
根据本发明一优选实施例,所述对话风格包括以下之一或全部:说话风格、情感风格。
一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如以上所述的方法。
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如以上所述的方法。
基于上述介绍可以看出,采用本发明所述方案,在获取到来自智能语音设备的用户query后,可根据获取到的用户的对话风格,生成query对应的应答语音,进而将应答语音返回给智能语音设备进行播放,相比于现有技术,本发明所述方案中可基于用户的对话风格来生成应答语音,从而实现了针对不同用户的个性化应答,使得语音交互更加感性、拟人、智能化,为用户带来更加符合人类对话习惯的交互体验等。
【附图说明】
图1为本发明所述智能语音交互实现方法第一实施例的流程图。
图2为本发明所述智能语音交互实现方法第二实施例的流程图。
图3为本发明所述用户、智能语音设备以及云端服务器之间的交互方式示意图。
图4为本发明所述智能语音交互实现装置第一实施例的组成结构示意图。
图5为本发明所述智能语音交互实现装置第二实施例的组成结构示意图。
图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。
【具体实施方式】
用户通过语音来与智能语音设备进行沟通交流,而用户是感性的有情感的,用户会希望设备能够“智能化”,能够具备人的言语风格,理解人的情感等,能够感性、智能合理的进行对话交流。
为此,本发明中提出一种智能语音交互实现方式,通过与用户的对话,智能学习用户的对话风格,并进行应用,从而使语音交互更加个性化、感性化等。
为了使本发明的技术方案更加清楚、明白,以下参照附图并举实施例,对本发明所述方案进行进一步说明。
显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明所述智能语音交互实现方法第一实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,获取来自智能语音设备的用户query,所述query为用户与智能语音设备进行语音交互过程中输入的query。
在102中,根据获取到的用户的对话风格,生成query对应的应答语音,并将应答语音返回给智能语音设备进行播放。
在实际应用中,图1所示流程的执行主体可为云端服务器。
智能语音设备获取到语音交互过程中用户输入的query之后,可将其发送给云端服务器,云端服务器可根据获取到的用户的对话风格,生成获取到的query对应的应答语音,进而将应答语音返回给智能语音设备,由智能语音设备将应答语音播放给用户。
用户的对话风格,可以包括说话风格,也可以包括情感风格,还可以同时包括说话风格和情感风格等,分别介绍如下。
一)说话风格
较佳地,可根据用户与智能语音设备的历史交互记录,确定出用户的说话风格。
智能语音设备可将与用户的历史交互记录发送给云端服务器,云端服务器根据获取到的历史交互记录对用户的说话风格进行学习。
所述历史交互记录可以是指智能语音设备开始启用后与用户的所有交互记录,也可以是指如最近一段时间内的交互记录等,通常来说,智能语音设备所提供的历史交互记录的内容越多,云端服务器学习到的用户的说话风格越准确、越全面。
智能语音设备何时向云端服务器发送历史交互记录不作限制,比如,每隔N天,N为正整数,智能语音设备则可将截至当前时刻获取到的与用户的历史交互记录发送给云端服务器,以便云端服务器根据获取到的历史交互记录学习或更新用户的说话风格。
云端服务器学习到用户的说话风格后,可将其应用到与用户的对话中,从而让用户觉得有亲切感和趣味性等。
所述说话风格可包括以下之一或任意组合:口音、口头禅、说话格式习惯、说话节奏、使用流行词汇等。
1)口音
很多用户使用智能语音设备时,会带有口音,比如东南沿海一带的用户,会说“广普”、“闽普”等,甚至普通话与方言高频词汇夹杂着使用。可通过说话风格学习,模拟用户的口音与用户进行对话。
比如,某用户为福建人,在与智能语音设备进行聊天时,会说“你会说什么发(话)”,那么播放给用户的应答语音可以为“我会说普通发、英语”。
也就是说,通过口音分析,会模拟用户的口音与用户进行对话,从而更好地融入与用户的对话,更加亲切、智能化。
2)口头禅
很多用户有使用口头禅的习惯,比如,有些用户在说话时会经常习惯性的加上口头禅“其实呢”、“你说的很对”、“挺好的”等,那么用户在与智能语音设备进行语音交互时,也会习惯性地用上口头禅。可基于历史交互记录中的词汇的出现频率等,分析确定作为用户的口头禅的词汇,进而模拟用户使用口头禅,与用户进行对话。
比如,用户的口头禅是“这样子呢”,在对话中会不自觉使用这句口头禅,如用户输入的query为“这样子呢,今天北京天气适合郊游吗?”,那么播放给用户的应答语音可为“是这样子呢,北京今天天气不错,空气也好,适合出去逛逛郊游”。
即通过分析,判定“这样子呢”这一词汇出现的频率很高,很多次对话中都存在这个词汇,那么则可判定为用户的口头禅之一,进而可在与用户的对话中随机说出口头禅,从而赋予智能语音设备拟人的说话风格,增强趣味、亲切感。
3)说话格式习惯
比如有些用户习惯用语气词“呀、啊、呢、哈、嗯、咩”等,有些用户喜欢说简短的结论风格的句式,有些用户喜欢说情感丰富的完整句式,那么,同样是想表达今天是否会下雨的意思,针对喜欢说简短的结论风格的句式的用户,播放的应答语音可为“今天不会下雨”,而针对喜欢说情感丰富的完整句式的用户,播放的应答语音可为“今天根据天气预报显示,天气很好,大概率是不会下雨的”。
4)说话节奏(速度)
不同用户的说话速度不同,说话速度快的用户,更习惯快速率的对话,而说话速度慢的用户,更习惯慢速率的对话。可根据历史交互记录中用户说话的速度,来适配调整智能语音设备的对话的速度。
5)使用流行词汇
有些用户喜欢在说话时用流行词汇,而有些用户则相对保守沉稳,不喜欢用流行词汇。可以根据历史交互记录中用户对于流行词汇的使用频率来判断用户是否喜欢使用流行词汇,进而可适当的加入到对话中等。
在实际应用中,云端服务器获取到智能语音设备发送来的用户query之后,可首先对其进行语音识别,从而得到文本形式的语音识别结果,之后可根据语音识别结果,按照现有方式确定出应答内容,按照现有处理方式,之后会通过语音合成技术等根据应答内容生成应答语音,进而返回给智能语音设备进行播放,而本实施例中,在确定出应答内容之后,可结合学习到的用户的说话风格以及应答内容,生成应答语音。
比如,可根据学习到的用户的口音,按照相应的口音播放应答内容,可根据学习到的用户的口头禅,在应答内容中加入用户的口头禅,可根据学习到的用户的说话格式习惯,对应答内容进行精简(如去除修饰词等),可根据学习到的用户的说话节奏,调整应答语音的播放速度,可根据学习到的用户的喜欢使用流行词汇的习惯,将应答内容中的某些词汇替换为对应的流行词汇等,如将“难受想哭”替换为“蓝瘦香菇”。
二)情感风格
较佳地,可根据以下信息之一或全部:用户与智能语音设备的历史交互记录、实时交互内容,确定出用户的情感风格。
基于历史交互记录,可学习出用户过往通常表现出的情感风格,如用户是一个积极开心的人,或是一个消极阴沉的经常很不开心的人,可根据用户过往通常表现出的情感风格,预测出用户当前的情感风格。或者,可基于实时交互内容,确定出用户当前的情感风格。或者,也可将二者结合使用。
实时交互内容可以是指最新获取到的query,或者,本次语音交互过程中获取到的query等。
可通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出用户的情感风格。
1)词汇情感分析
可针对query中的词汇进行情感分析。汉字的情感有褒义词、贬义词、积极与消极的语气词、骂人词等,不同词汇有着其情感代表。比如,表达用户到家的query有:平淡无情感——“我回来了”;开心积极情感——“我回来了呀”;很开心情感——“嘿嘿,我回来了哦”。
2)句意情感分析
可针对query中的词汇和完整句意,通过自然语言处理(NLP,Natural LanguageProcessing)分析,来进行情感分析。句意情感分析主要是基于词汇情感分析进行的。
3)声音节奏情感分析
可对query声音进行分析,与历史交互记录以及标准声音情感节奏库等进行对比判断声音节奏,预测情感。
可结合用户的情感风格以及应答内容,生成用户输入的query对应的应答语音。
比如,用户输入的query为“我回来了呀”,开心积极的情感风格,按照现有技术获取到的应答内容为“欢迎回来,请问需要什么帮助吗”,那么按照本实施例所述处理方式,可将应答内容调整为“欢迎回来,有什么需要帮助的吗,我可是很厉害的哟”。
另外,还可以结合用户的说话风格,情感风格以及应答内容,生成用户输入的query对应的应答语音。
比如,用户遇到了烦心事,很不开心,那么则可不在应答内容中使用流行词汇、不使用用户的口头禅、不使用用户的口音等,仅按照用户的说话节奏进行应答语音播放等。反之,如果用户很开心,则可在应答内容中使用流行词汇、用户的口头禅等,从而使得应答语音更具趣味性。
此外,对于不同的用户,可通过声纹识别区别不同的用户,进而实现针对不同用户的个性化展现。
比如,智能语音设备为智能音箱,家里共有三口人,每个人都会用到该设备,那么可通过声纹识别区分不同的用户,分别针对不同用户的历史交互记录进行不同用户的对话风格学习等。
图2为本发明所述智能语音交互实现方法第二实施例的流程图。如图2所示,包括以下具体实现方式。
在201中,获取语音交互过程中用户输入的query,将query发送给云端服务器,以便云端服务器根据获取到的用户的对话风格,生成query对应的应答语音。
在202中,获取来自云端服务器的应答语音,并进行播放。
所述对话风格可包括以下之一或全部:说话风格、情感风格等。说话风格又可进一步包括以下之一或任意组合:口音、口头禅、说话格式习惯、说话节奏、使用流行词汇等。
基于上述介绍,图3为本发明所述用户、智能语音设备以及云端服务器之间的交互方式示意图。如图3所示,用户与智能语音设备进行语音交互时,通常会先通过唤醒词唤醒智能语音设备,之后,用户则可与智能语音设备进行正常的语音交互,向智能语音设备输入query,并获取智能语音设备播放的应答语音。智能语音设备可将每次获取到的query发送给云端服务器,云端服务器可根据获取自智能语音设备的用户与智能语音设备的历史交互记录等,学习出用户的对话风格,如说话风格和情感风格,并进行应用,即根据用户的对话风格,生成每次获取到的query对应的应答语音,进而将应答语音返回给智能语音设备进行播放等。
需要说明的是,对于前述的各方法实施例,为了简单描述,都将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
总之,采用上述各方法实施例所述方案,可基于用户的对话风格来生成应答语音,从而实现了针对不同用户的个性化应答,使得语音交互更加感性、拟人、智能化,为用户带来更加符合人类对话习惯的交互体验等。
以上是关于方法实施例的介绍,以下通过装置实施例,对本发明所述方案进行进一步说明。
图4为本发明所述智能语音交互实现装置第一实施例的组成结构示意图。如图4所示,包括:第一处理单元401以及第二处理单元402。
第一处理单元401,用于获取来自智能语音设备的用户query,所述query为用户与智能语音设备进行语音交互过程中输入的query。
第二处理单元402,用于根据获取到的用户的对话风格,生成query对应的应答语音,并将应答语音返回给智能语音设备进行播放。
用户的对话风格,可以包括说话风格,也可以包括情感风格,还可以同时包括说话风格和情感风格等。
较佳地,第二处理单元402可根据获取到的用户与智能语音设备的历史交互记录,确定出用户的说话风格。
也就是说,第二处理单元402可通过对从智能语音设备处获取的、用户与智能语音设备的历史交互记录进行学习,学习到用户的说话风格。
所述说话风格可包括以下之一或任意组合:口音、口头禅、说话格式习惯、说话节奏、使用流行词汇等。
第二处理单元402在获取到智能语音设备发送来的用户query之后,可首先对其进行语音识别,从而得到文本形式的语音识别结果,之后可根据语音识别结果,按照现有方式确定出应答内容,按照现有处理方式,之后会通过语音合成技术等根据应答内容生成应答语音,进而返回给智能语音设备进行播放,而本实施例中,在确定出应答内容之后,可结合学习到的用户的说话风格以及应答内容,生成应答语音。
比如,可根据学习到的用户的口音,按照相应的口音播放应答内容,可根据学习到的用户的口头禅,在应答内容中加入用户的口头禅等。
第二处理单元402还可根据获取到的以下信息之一或全部:用户与智能语音设备的历史交互记录、实时交互内容,确定出用户的情感风格。
基于历史交互记录,可学习出用户过往通常表现出的情感风格,如用户是一个积极开心的人,或是一个消极阴沉的经常很不开心的人,可根据用户过往通常表现出的情感风格,预测出用户当前的情感风格。或者,可基于实时交互内容,确定出用户当前的情感风格。或者,也可将二者结合使用。
具体地,第二处理单元402可通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出用户的情感风格。
第二处理单元402可结合用户的情感风格以及应答内容,生成用户输入的query对应的应答语音。
比如,用户输入的query为“我回来了呀”,开心积极的情感风格,按照现有技术获取到的应答内容为“欢迎回来,请问需要什么帮助吗”,那么按照本实施例所述处理方式,可将应答内容调整为“欢迎回来,有什么需要帮助的吗,我可是很厉害的哟”。
另外,第二处理单元402还可以结合用户的说话风格,情感风格以及应答内容,生成用户输入的query对应的应答语音。
比如,用户遇到了烦心事,很不开心,那么则可不在应答内容中使用流行词汇、不使用用户的口头禅、不使用用户的口音等,仅按照用户的说话节奏进行应答语音播放等。反之,如果用户很开心,则可在应答内容中使用流行词汇、用户的口头禅等,从而使得应答语音更具趣味性。
图5为本发明所述智能语音交互实现装置第二实施例的组成结构示意图。第如图5所示,包括:第三处理单元501以及第四处理单元502。
第三处理单元501,用于获取语音交互过程中用户输入的query,将query发送给云端服务器,以便云端服务器根据获取到的用户的对话风格,生成query对应的应答语音。
第四处理单元502,用于获取来自云端服务器的应答语音,并进行播放。
所述对话风格可包括以下之一或全部:说话风格、情感风格等。说话风格又可进一步包括以下之一或任意组合:口音、口头禅、说话格式习惯、说话节奏、使用流行词汇等。
图4和图5所示装置实施例的具体工作流程请参照前述方法实施例中的相应说明,不再赘述。
图6示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图6显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器(处理单元)16,存储器28,连接不同系统组件(包括存储器28和处理器16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图6未显示,通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器16通过运行存储在存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现图1或2所示实施例中的方法。
本发明同时公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时将实现如图1或2所示实施例中的方法。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法等,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (20)

1.一种智能语音交互实现方法,其特征在于,包括:
获取来自智能语音设备的用户query,所述query为用户与所述智能语音设备进行语音交互过程中输入的query;
根据获取到的所述用户的对话风格,生成所述query对应的应答语音,并将所述应答语音返回给所述智能语音设备进行播放。
2.根据权利要求1所述的方法,其特征在于,
所述对话风格包括以下之一或全部:说话风格、情感风格。
3.根据权利要求2所述的方法,其特征在于,
获取所述用户的说话风格包括:
根据用户与所述智能语音设备的历史交互记录,确定出所述用户的说话风格。
4.根据权利要求3所述的方法,其特征在于,
所述说话风格包括以下之一或任意组合:
口音、口头禅、说话格式习惯、说话节奏、使用流行词汇。
5.根据权利要求2所述的方法,其特征在于,
获取所述用户的情感风格包括:
根据以下信息之一或全部:用户与所述智能语音设备的历史交互记录、实时交互内容,确定出所述用户的情感风格。
6.根据权利要求5所述的方法,其特征在于,
所述确定出所述用户的情感风格包括:
通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出所述用户的情感风格。
7.根据权利要求1所述的方法,其特征在于,
所述根据获取到的所述用户的对话风格,生成所述query对应的应答语音包括:
获取所述query对应的应答内容;
结合所述用户的对话风格以及所述应答内容,生成所述query对应的应答语音。
8.一种智能语音交互实现方法,其特征在于,包括:
获取语音交互过程中用户输入的query,将所述query发送给云端服务器,以便所述云端服务器根据获取到的所述用户的对话风格,生成所述query对应的应答语音;
获取来自所述云端服务器的所述应答语音,并进行播放。
9.根据权利要求8所述的方法,其特征在于,
所述对话风格包括以下之一或全部:说话风格、情感风格。
10.一种智能语音交互实现装置,其特征在于,包括:第一处理单元以及第二处理单元;
所述第一处理单元,用于获取来自智能语音设备的用户query,所述query为用户与所述智能语音设备进行语音交互过程中输入的query;
所述第二处理单元,用于根据获取到的所述用户的对话风格,生成所述query对应的应答语音,并将所述应答语音返回给所述智能语音设备进行播放。
11.根据权利要求10所述的装置,其特征在于,
所述对话风格包括以下之一或全部:说话风格、情感风格。
12.根据权利要求11所述的装置,其特征在于,
所述第二处理单元进一步用于,根据获取到的用户与所述智能语音设备的历史交互记录,确定出所述用户的说话风格。
13.根据权利要求12所述的装置,其特征在于,
所述说话风格包括以下之一或任意组合:
口音、口头禅、说话格式习惯、说话节奏、使用流行词汇。
14.根据权利要求11所述的装置,其特征在于,
所述第二处理单元进一步用于,根据获取到的以下信息之一或全部:用户与所述智能语音设备的历史交互记录、实时交互内容,确定出所述用户的情感风格。
15.根据权利要求14所述的装置,其特征在于,
所述第二处理单元通过以下情感分析方式之一或任意组合:词汇情感分析、句意情感分析、声音节奏情感分析,确定出所述用户的情感风格。
16.根据权利要求10所述的装置,其特征在于,
所述第二处理单元获取所述query对应的应答内容,结合所述用户的对话风格以及所述应答内容,生成所述query对应的应答语音。
17.一种智能语音交互实现装置,其特征在于,包括:第三处理单元以及第四处理单元;
所述第三处理单元,用于获取语音交互过程中用户输入的query,将所述query发送给云端服务器,以便所述云端服务器根据获取到的所述用户的对话风格,生成所述query对应的应答语音;
所述第四处理单元,用于获取来自所述云端服务器的所述应答语音,并进行播放。
18.根据权利要求17所述的装置,其特征在于,
所述对话风格包括以下之一或全部:说话风格、情感风格。
19.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1~9中任一项所述的方法。
20.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1~9中任一项所述的方法。
CN201810294041.4A 2018-03-30 2018-03-30 智能语音交互实现方法、装置、计算机设备及存储介质 Pending CN108711423A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810294041.4A CN108711423A (zh) 2018-03-30 2018-03-30 智能语音交互实现方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810294041.4A CN108711423A (zh) 2018-03-30 2018-03-30 智能语音交互实现方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN108711423A true CN108711423A (zh) 2018-10-26

Family

ID=63866477

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810294041.4A Pending CN108711423A (zh) 2018-03-30 2018-03-30 智能语音交互实现方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN108711423A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN109413277A (zh) * 2018-11-20 2019-03-01 维沃移动通信有限公司 一种语音输出方法及终端设备
CN110265021A (zh) * 2019-07-22 2019-09-20 深圳前海微众银行股份有限公司 个性化语音交互方法、机器人终端、装置及可读存储介质
CN111199732A (zh) * 2018-11-16 2020-05-26 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
CN111292737A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 语音交互及语音唤醒检测方法、装置、设备及存储介质
CN111475020A (zh) * 2020-04-02 2020-07-31 深圳创维-Rgb电子有限公司 一种信息的交互方法、交互装置、电子设备及存储介质
CN111724789A (zh) * 2019-03-19 2020-09-29 华为终端有限公司 语音交互的方法和终端设备
CN111833854A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111862938A (zh) * 2020-05-07 2020-10-30 北京嘀嘀无限科技发展有限公司 一种智能应答方法与终端、计算机可读存储介质
CN112181348A (zh) * 2020-08-28 2021-01-05 星络智能科技有限公司 声音风格切换方法、系统、计算机设备及可读存储介质
CN112445901A (zh) * 2019-09-03 2021-03-05 上海智臻智能网络科技股份有限公司 一种设置智能设备的语言的方法和装置
CN112634886A (zh) * 2020-12-02 2021-04-09 海信电子科技(武汉)有限公司 一种智能设备的交互方法、服务器、计算设备及存储介质
WO2021068467A1 (zh) * 2019-10-12 2021-04-15 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
CN112667796A (zh) * 2021-01-05 2021-04-16 网易(杭州)网络有限公司 一种对话回复方法、装置、电子设备及可读存储介质
CN113053373A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持声音克隆的智能车载语音交互系统
CN113689881A (zh) * 2020-05-18 2021-11-23 北京中关村科金技术有限公司 针对语音画像进行音频交互的方法、装置以及存储介质
CN114203150A (zh) * 2021-11-26 2022-03-18 南京星云数字技术有限公司 语音数据处理方法及装置
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413418A (zh) * 2011-10-13 2012-04-11 任峰 通过智能手机界面实现ivr流程的解释器
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN106934452A (zh) * 2017-01-19 2017-07-07 深圳前海勇艺达机器人有限公司 机器人对话方法与系统
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102413418A (zh) * 2011-10-13 2012-04-11 任峰 通过智能手机界面实现ivr流程的解释器
CN104391673A (zh) * 2014-11-20 2015-03-04 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN106469212A (zh) * 2016-09-05 2017-03-01 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106328139A (zh) * 2016-09-14 2017-01-11 努比亚技术有限公司 一种语音交互的方法和系统
CN106504743A (zh) * 2016-11-14 2017-03-15 北京光年无限科技有限公司 一种用于智能机器人的语音交互输出方法及机器人
CN106934452A (zh) * 2017-01-19 2017-07-07 深圳前海勇艺达机器人有限公司 机器人对话方法与系统
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107146610A (zh) * 2017-04-10 2017-09-08 北京猎户星空科技有限公司 一种用户意图的确定方法及装置
CN111199732A (zh) * 2018-11-16 2020-05-26 深圳Tcl新技术有限公司 一种基于情感的语音交互方法、存储介质及终端设备
CN109413277A (zh) * 2018-11-20 2019-03-01 维沃移动通信有限公司 一种语音输出方法及终端设备
CN111292737A (zh) * 2018-12-07 2020-06-16 阿里巴巴集团控股有限公司 语音交互及语音唤醒检测方法、装置、设备及存储介质
CN111724789A (zh) * 2019-03-19 2020-09-29 华为终端有限公司 语音交互的方法和终端设备
CN110265021A (zh) * 2019-07-22 2019-09-20 深圳前海微众银行股份有限公司 个性化语音交互方法、机器人终端、装置及可读存储介质
CN112445901A (zh) * 2019-09-03 2021-03-05 上海智臻智能网络科技股份有限公司 一种设置智能设备的语言的方法和装置
WO2021068467A1 (zh) * 2019-10-12 2021-04-15 百度在线网络技术(北京)有限公司 语音包的推荐方法、装置、电子设备和存储介质
CN111833854A (zh) * 2020-01-08 2020-10-27 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111833854B (zh) * 2020-01-08 2024-07-16 北京嘀嘀无限科技发展有限公司 一种人机交互方法与终端、计算机可读存储介质
CN111475020A (zh) * 2020-04-02 2020-07-31 深圳创维-Rgb电子有限公司 一种信息的交互方法、交互装置、电子设备及存储介质
CN111862938A (zh) * 2020-05-07 2020-10-30 北京嘀嘀无限科技发展有限公司 一种智能应答方法与终端、计算机可读存储介质
CN113689881A (zh) * 2020-05-18 2021-11-23 北京中关村科金技术有限公司 针对语音画像进行音频交互的方法、装置以及存储介质
CN112181348A (zh) * 2020-08-28 2021-01-05 星络智能科技有限公司 声音风格切换方法、系统、计算机设备及可读存储介质
CN112634886A (zh) * 2020-12-02 2021-04-09 海信电子科技(武汉)有限公司 一种智能设备的交互方法、服务器、计算设备及存储介质
CN112634886B (zh) * 2020-12-02 2024-03-01 海信电子科技(武汉)有限公司 一种智能设备的交互方法、服务器、计算设备及存储介质
CN112667796A (zh) * 2021-01-05 2021-04-16 网易(杭州)网络有限公司 一种对话回复方法、装置、电子设备及可读存储介质
CN112667796B (zh) * 2021-01-05 2023-08-11 网易(杭州)网络有限公司 一种对话回复方法、装置、电子设备及可读存储介质
CN113053373A (zh) * 2021-02-26 2021-06-29 上海声通信息科技股份有限公司 一种支持声音克隆的智能车载语音交互系统
CN114203150A (zh) * 2021-11-26 2022-03-18 南京星云数字技术有限公司 语音数据处理方法及装置
CN115101048A (zh) * 2022-08-24 2022-09-23 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质
CN115101048B (zh) * 2022-08-24 2022-11-11 深圳市人马互动科技有限公司 科普信息交互方法、装置、系统、交互设备和存储介质

Similar Documents

Publication Publication Date Title
CN108711423A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN108962217B (zh) 语音合成方法及相关设备
EP3438972B1 (en) Information processing system and method for generating speech
US20200279553A1 (en) Linguistic style matching agent
US20180203946A1 (en) Computer generated emulation of a subject
CN110491382A (zh) 基于人工智能的语音识别方法、装置及语音交互设备
CN112349273B (zh) 基于说话人的语音合成方法、模型训练方法及相关设备
Zhou et al. Speech synthesis with mixed emotions
CN109189980A (zh) 与用户进行语音交互的方法和电子设备
Latif et al. Self supervised adversarial domain adaptation for cross-corpus and cross-language speech emotion recognition
CN108597509A (zh) 智能语音交互实现方法、装置、计算机设备及存储介质
CN112331177B (zh) 基于韵律的语音合成方法、模型训练方法及相关设备
CN107516511A (zh) 意图识别和情绪的文本到语音学习系统
KR20170026593A (ko) 소셜 대화형 입력들에 대한 컴퓨터 응답 생성
WO2000038808A1 (fr) Processeur d'informations, dispositif portable, dispositif d'animal de compagnie electronique, support enregistre sur lequel la procedure de traitement des informations est enregistree et procede de traitement des informations
JP2003521750A (ja) スピーチシステム
JPWO2017200074A1 (ja) 対話方法、対話システム、対話装置、及びプログラム
Singh The role of speech technology in biometrics, forensics and man-machine interface.
CN113838448B (zh) 一种语音合成方法、装置、设备及计算机可读存储介质
Wang et al. Comic-guided speech synthesis
CN113761268A (zh) 音频节目内容的播放控制方法、装置、设备和存储介质
KR100917552B1 (ko) 대화 시스템의 충실도를 향상시키는 방법 및 컴퓨터이용가능 매체
JP2009151314A (ja) 情報処理装置及び情報処理方法
CN115442495A (zh) 一种ai演播室系统
WO2017200077A1 (ja) 対話方法、対話システム、対話装置、及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant after: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.

Applicant after: Shanghai Xiaodu Technology Co.,Ltd.

Address before: 100085 Baidu Building, 10 Shangdi Tenth Street, Haidian District, Beijing

Applicant before: BEIJING BAIDU NETCOM SCIENCE AND TECHNOLOGY Co.,Ltd.