CN110633475A - 基于计算机场景的自然语言理解方法、装置、系统和存储介质 - Google Patents
基于计算机场景的自然语言理解方法、装置、系统和存储介质 Download PDFInfo
- Publication number
- CN110633475A CN110633475A CN201910923032.1A CN201910923032A CN110633475A CN 110633475 A CN110633475 A CN 110633475A CN 201910923032 A CN201910923032 A CN 201910923032A CN 110633475 A CN110633475 A CN 110633475A
- Authority
- CN
- China
- Prior art keywords
- natural language
- computer
- language understanding
- tool
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 230000011218 segmentation Effects 0.000 claims abstract description 10
- 238000013519 translation Methods 0.000 claims abstract description 10
- 238000000605 extraction Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 9
- 239000013604 expression vector Substances 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 6
- 238000007477 logistic regression Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 4
- 230000003993 interaction Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 241000238558 Eucarida Species 0.000 description 1
- 241000001667 Eueretagrotis sigmoides Species 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及数据处理领域,尤其涉及一种基于计算机场景的自然语言理解方法、装置、系统和存储介质,该方法包括:首先输入目标文本,然后,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词,接下来,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来,然后,使用sklearn作为意图判定的工具,标注句子所属的类别,最后,对处理的文本内容进行语言翻译,本发明提供一种基于计算机场景的自然语言理解方法,该方法可以应用于计算机端软件,配以相应的硬件设备,将可以为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,能精确的解析用户的意图。
Description
技术领域
本发明涉及数据处理领域,尤其涉及一种基于计算机场景的自然语言理解方法、装置、系统和存储介质。
背景技术
NLP(Nature Language Process)自然语言处理是当下人工智能领域非常热门的一个分支,NLP大致可以分为三个阶段,其中包括语义理解之前的处理阶段,自然语言理解阶段和理解之后的处理阶段,所以NLU(Nature Language Understand)是NLP的子集,也是这三个阶段中最重要的一环,NLU也被称为语义解码,文中单词的确切含义并不重要,重要的是文本传达的语义信息。
目前,市面上的语音识别设备与软件也特别多,大多局限于移动设备端,如苹果手机端的Siri便是利用了自然语言理解的方法,但是在PC端的语音智能设备还非常的稀缺,这是NLU由于几个原因而具有挑战性,例如语音识别错误,含糊不清,不流利,为了解决这些问题,本发明将采取统计训练模型的方式来解决这些问题,即采用注释数据进行统计模型训练。
发明内容
针对上述存在的问题,本发明的目的是为了填补计算机场景下语音交互的空缺,利用自然语言处理将文本转换为语义表示,为使用PC端办公的人们提供便捷服务,使人们在使用计算机的时候也可以体验语音交互的功能,为了解决上述现有技术中存在的问题,本发明提供一种基于计算机场景的自然语言理解方法,包括以下步骤:
步骤S1:输入目标文本;
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别;
步骤S5:对处理的文本内容进行语言翻译。
优选的,步骤S3中所述实体为人名,地名,机构名及专有名词。
优选的,步骤S3中所述识别采用的是标准的HMM模型和Viterbi算法。
优选的,步骤S4中所述sklearn包括
分类,找出描述并区分数据类或概念的模型;
Logistic回归,通过Logistic函数将预测映射到0到1中间,因此预测值就可以看成某个类别的概率,所述的Logistic函数是Sigmoid函数;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类,基于数据的内部结构寻找观察样本的自然族群,即集群。
为达上述目的,本发明还提供一种基于计算机场景的自然语言理解装置,包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
为达上述目的,本发明还提供一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
为达上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
本发明的有益效果:
本发明提供一种基于计算机场景的自然语言理解方法,该方法可以应用于计算机端软件,配以相应的硬件设备,为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,运用当下最新的人工智能领域的自然语言处理技术,能精确的解析用户的意图。
附图说明
图1为本发明具体实施例1基于计算机场景的自然语言理解方法的整体流程图。
图2为本发明具体实施例2基于计算机场景的自然语言理解装置的结构框图。
具体实施方式
下面将结合本发明的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
图1为本发明基于计算机场景的自然语言理解方法提供具体实施例1整体流程图。如图1所示,一种基于计算机场景的自然语言理解方法,包括以下步骤:
步骤S1:输入目标文本。
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词。
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来。本步骤中,所述实体为人名,地名,机构名及专有名词;所述识别采用的是标准的HMM模型和Viterbi算法。
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别。本步骤中,所述sklearn包括
分类,分类(classification)是这样的过程:找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类,分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多,分类的目的是学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中;
Logistic回归,Logistic回归是与线性回归相对应的一种分类方法,且该算法的基本概念由线性回归推导而出,Logistic回归通过Logistic函数(即Sigmoid函数)将预测映射到0到1中间,因此预测值就可以看成某个类别的概率;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维。寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类是一种无监督学习任务,该算法基于数据的内部结构寻找观察样本的自然族群(即集群),使用案例包括细分客户、新闻聚类、文章推荐等。
步骤S5:对处理的文本内容进行语言翻译。
实施例2
图2为本发明基于计算机场景的自然语言理解装置提供具体实施例2的结构框图。如图2所示,本实施例提供一种基于计算机场景的自然语言理解装置,包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
实施例3
本实施例提供一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
实施例4
本实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法的步骤。
综上,本发明上述各实施例公开的基于计算机场景的自然语言理解方法、装置、系统和存储介质,可以应用于计算机端软件,配以相应的硬件设备,为用户提供智能语音交互功能,填补了计算机场景下语音交互技术的空缺,运用当下最新的人工智能领域的自然语言处理技术,能精确的解析用户的意图。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或更替,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权力要求书的保护范围为准。
Claims (7)
1.一种基于计算机场景的自然语言理解方法,其特征在于包括以下步骤:
步骤S1:输入目标文本;
步骤S2:使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
步骤S3:使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
步骤S4:采用多种方案结合的方式提供意图判定服务,使用sklearn作为意图判定的工具,标注句子所属的类别;
步骤S5:对处理的文本内容进行语言翻译。
2.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S3中所述实体为人名,地名,机构名及专有名词。
3.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S3中所述识别采用的是标准的HMM模型和Viterbi算法。
4.如权利要求1所述的基于计算机场景的自然语言理解方法,其特征在于:步骤S4中所述sklearn包括
分类,找出描述并区分数据类或概念的模型;
Logistic回归,通过Logistic函数将预测映射到0到1中间,因此预测值就可以看成某个类别的概率,所述的Logistic函数是Sigmoid函数;
降维,通过单幅图像数据的高维化,将单幅图像转化为高维空间中的数据集合,对其进行非线性降维,寻求其高维数据流形本征结构的一维表示向量,将其作为图像数据的特征表达向量;
聚类,基于数据的内部结构寻找观察样本的自然族群,即集群。
5.一种基于计算机场景的自然语言理解装置,其特征在于:包括
输入模块,用于输入目标文本;
分词模块,使用jieba与HanLp为开源中文分词工具进行分词,将一个汉字序列切分成一个个单独的词;
识别模块,使用MITIE作为特征提取和实体识别的工具将一段文本序列中包含的实体识别出来;
意图判定模块,使用sklearn作为意图判定的工具,标注句子所属的类别;
翻译模块,对处理的文本内容进行语言翻译。
6.一种基于计算机场景的自然语言理解系统,包括存储器,处理器以及存储于存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现上述权利要求1至4中任一所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述程序被处理器执行时实现上述权利要求1至4中任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923032.1A CN110633475A (zh) | 2019-09-27 | 2019-09-27 | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910923032.1A CN110633475A (zh) | 2019-09-27 | 2019-09-27 | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110633475A true CN110633475A (zh) | 2019-12-31 |
Family
ID=68974522
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910923032.1A Pending CN110633475A (zh) | 2019-09-27 | 2019-09-27 | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110633475A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967334A (zh) * | 2020-07-20 | 2020-11-20 | 中国人民解放军军事科学院国防科技创新研究院 | 一种人体意图识别方法、系统以及存储介质 |
CN112133306A (zh) * | 2020-08-03 | 2020-12-25 | 浙江百世技术有限公司 | 一种基于快递用户的应答方法、装置和计算机设备 |
CN113312928A (zh) * | 2021-06-01 | 2021-08-27 | 北京字跳网络技术有限公司 | 文本翻译方法、装置、电子设备和存储介质 |
CN113569918A (zh) * | 2021-07-05 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 分类温度调节方法、装置、电子设备及介质 |
CN116611452A (zh) * | 2023-07-19 | 2023-08-18 | 青岛大学 | 一种根据自然语言描述推荐api的方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120101803A1 (en) * | 2007-11-14 | 2012-04-26 | Ivaylo Popov | Formalization of a natural language |
CN105786798A (zh) * | 2016-02-25 | 2016-07-20 | 上海交通大学 | 一种人机交互中自然语言意图理解方法 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
-
2019
- 2019-09-27 CN CN201910923032.1A patent/CN110633475A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120101803A1 (en) * | 2007-11-14 | 2012-04-26 | Ivaylo Popov | Formalization of a natural language |
CN105786798A (zh) * | 2016-02-25 | 2016-07-20 | 上海交通大学 | 一种人机交互中自然语言意图理解方法 |
CN110209791A (zh) * | 2019-06-12 | 2019-09-06 | 百融云创科技股份有限公司 | 一种多轮对话智能语音交互系统及装置 |
Non-Patent Citations (2)
Title |
---|
杨志明等: "深度学习算法在问句意图分类中的应用研究", 《计算机工程与应用》 * |
王雅君: ""基于RASA的智能语音对话系统"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111967334A (zh) * | 2020-07-20 | 2020-11-20 | 中国人民解放军军事科学院国防科技创新研究院 | 一种人体意图识别方法、系统以及存储介质 |
CN112133306A (zh) * | 2020-08-03 | 2020-12-25 | 浙江百世技术有限公司 | 一种基于快递用户的应答方法、装置和计算机设备 |
CN112133306B (zh) * | 2020-08-03 | 2023-10-03 | 浙江百世技术有限公司 | 一种基于快递用户的应答方法、装置和计算机设备 |
CN113312928A (zh) * | 2021-06-01 | 2021-08-27 | 北京字跳网络技术有限公司 | 文本翻译方法、装置、电子设备和存储介质 |
CN113569918A (zh) * | 2021-07-05 | 2021-10-29 | 北京淇瑀信息科技有限公司 | 分类温度调节方法、装置、电子设备及介质 |
CN116611452A (zh) * | 2023-07-19 | 2023-08-18 | 青岛大学 | 一种根据自然语言描述推荐api的方法 |
CN116611452B (zh) * | 2023-07-19 | 2023-10-24 | 青岛大学 | 一种根据自然语言描述推荐api的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112685565B (zh) | 基于多模态信息融合的文本分类方法、及其相关设备 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
WO2021121198A1 (zh) | 基于语义相似度的实体关系抽取方法、装置、设备及介质 | |
CN110633475A (zh) | 基于计算机场景的自然语言理解方法、装置、系统和存储介质 | |
CN112084337A (zh) | 文本分类模型的训练方法、文本分类方法及设备 | |
CN112164391A (zh) | 语句处理方法、装置、电子设备及存储介质 | |
CN112507704B (zh) | 多意图识别方法、装置、设备及存储介质 | |
CN111444723A (zh) | 信息抽取模型训练方法、装置、计算机设备和存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN112633003A (zh) | 一种地址识别方法、装置、计算机设备及存储介质 | |
CN112188311B (zh) | 用于确定新闻的视频素材的方法和装置 | |
CN112699686B (zh) | 基于任务型对话系统的语义理解方法、装置、设备及介质 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN112347760A (zh) | 意图识别模型的训练方法及装置、意图识别方法及装置 | |
CN112380853A (zh) | 业务场景交互方法、装置、终端设备及存储介质 | |
CN116108857B (zh) | 信息抽取方法、装置、电子设备以及存储介质 | |
CN112632244A (zh) | 一种人机通话的优化方法、装置、计算机设备及存储介质 | |
CN113821605A (zh) | 一种事件抽取方法 | |
CN111144102A (zh) | 用于识别语句中实体的方法、装置和电子设备 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN112560506A (zh) | 文本语义解析方法、装置、终端设备及存储介质 | |
CN114817478A (zh) | 基于文本的问答方法、装置、计算机设备及存储介质 | |
CN109063772B (zh) | 一种基于深度学习的图像个性化语义分析方法、装置及设备 | |
CN113705192A (zh) | 文本处理方法、装置与存储介质 | |
CN115858776B (zh) | 一种变体文本分类识别方法、系统、存储介质和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191231 |
|
RJ01 | Rejection of invention patent application after publication |