CN113946668A - 基于边缘节点的语义处理方法、系统、装置及存储介质 - Google Patents
基于边缘节点的语义处理方法、系统、装置及存储介质 Download PDFInfo
- Publication number
- CN113946668A CN113946668A CN202111165947.4A CN202111165947A CN113946668A CN 113946668 A CN113946668 A CN 113946668A CN 202111165947 A CN202111165947 A CN 202111165947A CN 113946668 A CN113946668 A CN 113946668A
- Authority
- CN
- China
- Prior art keywords
- semantic
- edge node
- corpus
- industry
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 78
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000008569 process Effects 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims description 16
- 230000015654 memory Effects 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000009286 beneficial effect Effects 0.000 abstract description 8
- 230000008092 positive effect Effects 0.000 abstract description 5
- 238000010586 diagram Methods 0.000 description 6
- 230000003993 interaction Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于边缘节点的语义处理方法、系统、装置及存储介质,其中该方法由边缘节点来执行,首先边缘节点获取到终端发来的待处理语料,并根据位于边缘节点的行业知识库和场景化语料库,对待处理语料进行行业特征匹配,确定待处理语料对应的语料场景;根据语料场景,选取对应的行业语言模型对待处理语料进行处理,生成对应于待处理语料的第一语义结果,边缘节点将该第一语义结果发送回终端,完成本次语义处理。本申请实施例提出通过行业语言模型来对待处理语料进行处理,有助于提高语义处理结果与行业的拟合度;另外,本申请实施例的语义处理过程主要在边缘节点完成,有助于满足用户的安全性和隐私性要求,对于语义处理技术的推广有积极的作用。
Description
技术领域
本申请涉及语义处理技术领域,尤其涉及一种基于边缘节点的语义处理方法、系统、装置及存储介质。
背景技术
随着人工智能技术的不断发展,基于语义处理、理解的语义处理技术也发展迅速。以应用语义理解的人机交互设备为例,通过语义处理,人们可以使用更为自然的语言,更方便地完成人与机器的交互,从而达到降低人机交互设备的操作门槛,提高各项工作的效率的目的。
然而,相关技术中的通用语义理解服务,并不能很好地适应于各种具体的业务场景。例如医疗、金融等行业中包含大量的专用词汇,又例如一些网新媒体行业的用词更新非常快速,相关技术中的通用语义理解服务难以满足特定业务的场景化识别需求。另外,各个行业内的信息数据资产有一定的安全性和隐私性要求,这些要求通用语义处理服务也难以满足。
发明内容
本申请旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本申请提出一种基于边缘节点的语义处理方法、系统、装置及存储介质。
第一方面,本申请实施例提供了一种基于边缘节点的语义处理方法,所述方法由基于边缘节点的语义处理系统中的边缘节点执行,所述基于边缘节点的语义处理系统包括边缘节点和终端,所述方法包括:获取待处理语料;根据位于所述边缘节点的行业知识库和场景化语料库,对所述待处理语料进行行业特征匹配,确定语料场景;根据所述语料场景,确定行业语言模型;根据所述行业语言模型和所述待处理语料,确定第一语义结果;将所述第一语义结果返回所述终端。
可选地,所述基于边缘节点的语义处理系统还包括云端,所述方法还包括:根据所述行业知识库和场景化语料库,计算所述第一语义结果的第一置信度;当所述第一置信度低于预设的置信度阈值,向云端发起协同处理请求,以使云端获取补充语料,并将所述补充语料返回所述边缘节点;根据所述补充语料和所述第一语义结果,确定若干第二语义结果;根据所述行业知识库和场景化语料库,计算所述第二语义结果的第二置信度;将所述第二置信度最高的第二语义结果返回所述终端。
可选地,所述方法还包括:将所述补充语料加入到所述行业知识库和场景化语料库中。
可选地,所述以使云端获取补充语料,包括:根据预设的检索条件,以使云端在互联网中进行检索所述补充语料;其中,所述检索条件包括与所述第一语义结果发音相同。
可选地,所述方法还包括所述行业语言模型的构建过程,具体包括:在获取到的语料样本中随机抽取N类样本作为第一样本集,所述第一样本集中包含N类第一样本;其中,所述第一样本集中的样本类别包括场景结果和目标主题;在每一类所述第一样本中,抽取K个实例作为第一实例集,所述第一实例集中包含K个第一实例;其中,所述实例为特征词;将抽取出来的所有第一实例作为支持集,将所述第一样本集中除所述第一实例以外的所有实例作为查询集;其中,所述支持集用于模型训练,所述查询集用于模型测试;利用所述支持集和所述查询集对所述行业语言模型进行训练和测试;在训练过程中,采用梯度权值增加的方法逐步增加所述第一实例中标记实例的权重;当训练次数达到预设的第一数量,完成对所述行业语言模型的构建;其中,N和M均为正整数。
第二方面,本申请实施例提供了一种基于边缘节点的语义处理系统,所述装置应用于基于边缘节点的语义处理系统中的边缘节点,所述基于边缘节点的语义处理系统包括边缘节点和终端,所述装置包括:第一模块、第二模块、第三模块、第四模块和第五模块;所述第一模块用于获取待处理语料;所述第二模块用于对所述待处理语料进行行业特征匹配,确定语料场景;所述第三模块用于根据所述语料场景,确定行业语言模型;所述第四模块用于根据所述行业语言模型和所述待处理语料,确定第一语义结果;所述第五模块用于将所述第一语义结果返回所述终端。
可选地,所述基于边缘节点的语义处理系统还包括云端,所述装置还包括:第六模块、第七模块、第八模块、第九模块和第十模块;所述第六模块用于根据位于所述边缘节点的行业知识库和场景化语料库,计算所述第一语义结果的第一置信度;所述第七模块用于当所述第一置信度低于预设的置信度阈值,通过云端获取补充语料;所述第八模块用于根据所述补充语料和所述第一语义结果,确定若干第二语义结果;所述第九模块用于根据所述行业知识库和场景化语料库,计算所述第二语义结果的第二置信度;所述第十模块用于将所述第二置信度最高的第二语义结果返回所述终端。
第三方面,本申请实施例提供了一种装置,包括:至少一个处理器;至少一个存储器,用于存储至少一个程序;当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如第一方面所述的基于边缘节点的语义处理方法。
第四方面,本申请实施例提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如第一方面所述的基于边缘节点的语义处理方法。
本申请实施例的有益效果如下:该方法由边缘节点来执行,首先边缘节点获取到终端发来的待处理语料,并根据位于边缘节点的行业知识库和场景化语料库,对所述待处理语料进行行业特征匹配,确定待处理语料对应的语料场景;根据所述语料场景,选取对应的行业语言模型对待处理语料进行处理,生成对应于待处理语料的第一语义结果,边缘节点将该第一语义结果发送回终端,完成本次语义处理。本申请实施例提出通过行业语言模型来对待处理语料进行处理,有助于提高语义处理结果与对应行业、对应业务场景的拟合度;另外,本申请实施例的语义处理过程主要在边缘节点完成,边缘节点的设计有助于满足用户的安全性和隐私性要求,对于语义处理技术的推广有积极的作用。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1是本申请实施例提供的基于边缘节点的语义处理系统的示意图;
图2为本申请实施例提供的基于边缘节点的语义处理方法的步骤流程图;
图3为本申请实施例提供的场景结果、特征词和目标主题之间的对应关系;
图4为本申请实施例提供的根据第三方资源进行语义结果更新的步骤流程图;
图5为本申请实施例提供的基于边缘节点的语义处理系统的示意图;
图6为本申请实施例提供的一种装置的示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在系统示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于系统中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
下面结合附图,对本申请实施例作进一步阐述。
参考图1,图1是本申请实施例提供的基于边缘节点的语义处理系统的示意图,如图1所示,该系统100包括终端110和边缘节点120。在本申请实施例中,终端可以为任意一种能够向边缘节点提交语义处理请求的电子设备,例如手机、智能手机、个人数字助手(Personal Digital Assistant,PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等。可以理解的是,终端可通过键盘、触摸板、触摸屏、遥控器、语音交互或手写设备等一种或多种方式进行人机交互。终端设备可以向边缘节点提交语义处理请求,并且接收边缘节点返回的语义处理结果。
边缘节点可以为任意一种能够进行语义处理的电子设备,例如手机、智能手机、个人数字助手(Personal Digital Assistant,PDA)、可穿戴设备、掌上电脑PPC(Pocket PC)、平板电脑等。边缘节点可以接收来自终端的语义处理请求,进行语义处理服务,并且向终端返回语义处理结果。
在另一些实施例中,如图1所示,本申请实施例提出的基于边缘节点的语义处理系统还包括云端130。在本申请实施例中,云端为提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。云端可以接收来自边缘节点的协同处理请求,执行对应的网络搜索服务,并且向边缘节点返回补充语料。
通过如图1所示的基于边缘节点的语义处理系统,可以实现本申请实施例提出的基于边缘节点的语义处理方法,该方法的具体实现过程将在以下内容中说明。
参照图2,图2为本申请实施例提供的基于边缘节点的语义处理方法的步骤流程图,该方法由图1所示系的基于边缘节点的语义处理系统中的边缘节点120执行,该方法包括但不限于步骤S200-S240:
S200、获取待处理语料;
具体地,边缘节点获取到需要进行语义处理的待处理语料,该待处理语料由图1中的终端110发送。边缘节点根据终端的语义处理请求,对待处理语料进行语义处理。在本申请实施例中,待处理语料为同一个行业内的语料,语料的表现形式包括但不限于用户对话、常用指令、行业论文、行业相关新闻等等,以行业内的语料作为语义处理的训练语料,能够提高语义处理服务与本行业的拟合度,有助于提高基于边缘节点的语义处理方法的准确性。
S210、根据位于边缘节点的行业知识库和场景化语料库,对待处理语料进行行业特征匹配,确定语料场景;
具体地,不同行业一般有不同的专有名词,在语义分析的过程中,需要依赖这些名词的解释来帮助进行语义分析。因此,本申请实施例提出存储在边缘节点中的行业知识库,该行业知识库中的内容一般为对行业内专有名词的解释。例如交通运输行业,行业知识库中可以存储对“早高峰”、“事故易发路段”、“盲点”等等名词的解释。而在对语句进行语义分析时,不仅需要明确语句中一些行业专有名词的具体含义,还需要通过语句中词语的关系等等,明确该语句的意图。因此,本申请实施例还提出存储在边缘节点中的场景化语料库,通过该场景化语料库,可以对语句的具体含义进行分析。例如在汽车控制领域,当输入的语句为:“打开驾驶座车窗”,则根据本申请实施例提出的行业知识库,可以是确定“驾驶座”、“车窗”的具体含义;而通过场景化语料库,可以分析确定该语句的意图应当是打开指定的车窗,则可以确定车辆接下来需要执行的动作。
在本步骤中,将获得的待处理语料与行业知识库和场景化语料库进行行业特征匹配,从而确定当前待处理语料是属于哪个行业。可以理解的是,即使是同一行业内,针对不同业务的语料特征也有可能不同,因此可以根据不同业务场景,对行业内语料在进行细分,在本步骤中,行业特征匹配还可以识别出待处理语料是属于行业内的哪个业务场景,从而确定出当前待处理语料对应的语料场景。
在一些实施例中,行业特征匹配具体可以是先对行业知识库中的重点词或者说关键词进行标注,将待处理语料中的词语与这些关键词进行匹配,在不同的行业知识库中,与待处理语料匹配的关键词最多的行业知识库则可以代表该待处理语料所对应的行业。
在另外一些实施例中,可能相似行业的行业知识库的语料重合度也较高,也就是说在进行行业特征匹配的时候,相似行业可能区分度比较低,难以为待处理语料匹配到正确的行业。则在进行行业匹配时,也可以综合考虑同一关键词在不同行业知识库中的词频,在待处理语料与两个行业知识库中的关键词匹配数量相近的情况下,可以考虑通过对比关键词在不同行业知识库中的词频来确定待处理语料所在行业。
S220、根据语料场景,确定行业语言模型;
具体地,本申请实施例中的边缘节点处存储有多种行业对应的语言模型,因此,根据步骤S210确定的语料场景,可以确定对应的行业语言模型。行业语言模型是在通用语言模型的基础上添加行业特征语言属性;通用语言模型一般定义了自然语言中标记序列的概率分布,标记一般可以是词、字符或字节等。该语言模型用于对语料进行识别,并生成语义处理结果。该行业语言模型为设置于边缘节点的轻量模型,可以通过比较少的语料样本训练得到,该行业语言模型的训练方法在以下内容中说明。
在本申请实施例中,需要对行业语言模型进行训练。首先,考虑到一些行业的语料比较匮乏,因此采用小样本学习(few shot learning)的方法进行训练,具体是获取到该行业的大量语料样本,并在这些语料样本中随机抽取N类样本作为第一样本集,第一样本集中包含N类第一样本;其中,第一样本集中的样本类别包括场景结果和目标主题;在每一类第一样本中,抽取K个实例作为第一实例集,第一实例集中包含K个第一实例;其中,实例为特征词;将抽取出来的所有第一实例作为支持集,将第一样本集中除第一实例以外的所有实例作为查询集;其中,支持集用于模型训练,查询集用于模型测试;利用支持集和查询集对行业语言模型进行训练和测试。参照图3,图3为本申请实施例提供的场景结果、特征词和目标主题之间的对应关系,如图3所示,该对应关系是非线性的,M为对应关系的条数,N为特征词的数量。在训练的过程中,采用梯度权值增加的方法逐步增加第一实例中标记实例的权重,标记实例是第一实例中人工标记出来的一部分,也就是人工增加图3中一部分标记的特征词的权重。增加权重的依据,可以是特征词的词频、词序列等等自定义的内容。例如,场景化的语义识别中,认为特征词的标记作用比较显著,则对于场景化识别有关键作用的特征词赋予固定的高权值,次要作用的特征词赋予较低权值,以此类推。通过梯度权值增加的方法,实现该行业语言模型支持个性化场景的语义理解的目标。当训练次数达到预设的第一数量,完成对行业语言模型的构建。
S230、根据行业语言模型和待处理语料,确定第一语义结果;
具体地,根据上述步骤S220确定的行业语言模型,对待处理语料进行处理,也就是将待处理语料输入行业语言模型,行业语言模型输出对应的语义处理结果,称为第一语义结果,第一语义结果的具体内容包括但不限于请求类型和请求结果。
S240、将第一语义结果返回终端;
具体地,边缘节点将第一语义结果返回到终端,获取到第一语义结果的终端可以根据该语义结果执行对应的服务,从而完成由终端到边缘节点,再由边缘节点到终端的整个语义处理过程。
参照图1,本申请实施例提供了一种基于边缘节点的语义处理系统,该系统包括终端和边缘节点。通过步骤S200-S240,本申请实施例提供了一种基于边缘节点的语义处理方法,该方法由图1所示的边缘节点来执行,首先边缘节点获取到终端发来的待处理语料,并根据位于边缘节点的行业知识库和场景化语料库,对待处理语料进行行业特征匹配,确定待处理语料对应的语料场景;根据语料场景,选取对应的行业语言模型对待处理语料进行处理,生成对应于待处理语料的第一语义结果,边缘节点将该第一语义结果发送回终端,完成本次语义处理。本申请实施例提出通过行业语言模型来对待处理语料进行处理,有助于提高语义处理结果与对应行业、对应业务场景的拟合度;另外,本申请实施例的语义处理过程主要在边缘节点完成,边缘节点的设计有助于满足用户的安全性和隐私性要求,对于语义处理技术的推广有积极的作用。
在一些实施例中,本申请实施例提出的基于边缘节点的语义处理方法还包括根据第三方资源进行语义结果更新的步骤,参照图4,图4为本申请实施例提供的根据第三方资源进行语义结果更新的步骤流程图,该方法包括但不限于步骤S400-S440:
S400、根据行业知识库和场景化语料库,计算第一语义结果的第一置信度;
具体地,根据待处理语料对应的行业知识库和场景化语料库,计算第一语义结果的第一置信度,第一置信度用于表征该第一语义结果与对应行业、对应业务场景的拟合程度,根据第一置信度,可以反映出第一语义结果的可靠性。
S410、当第一置信度低于预设的置信度阈值,向云端发起协同处理请求,以使云端获取补充语料,并将补充语料返回边缘节点;
具体地,上述步骤S400计算出第一语义结果的第一置信度,将该第一置信度与预先设置的置信度阈值进行对比,置信度阈值用于表征该第一语义结果可靠的所需要的最低置信度。那么可以理解的是,若第一置信度高于或等于预设的置信度阈值,说明当前第一语义结果比较可靠,则边缘节点可以将该第一语义结果直接返回终端。相反地,若第一置信度低于预设的置信度阈值,说明当前第一语义结果不够可靠,或者说,可以认为当前的行业语言模型没有对应的处理结果。
根据第一置信度确定当前的第一语义结果不够可靠,则边缘节点会向云端发起协同处理请求,并且接收云端发回的补充语料。由于在边缘节点中,行业知识库和场景化语料库的存储量确实是有限的,而在本申请实施例中,补充语料是指除了行业知识库和场景化语料库记载的内容以外的,同一行业内的语料。
而云端获取补充语料的具体方式,可以是云端在包括但不限于第三方的行业知识库和场景化语料库,或者是社交网络中进行检索,在检索中也可以切换不同的搜索引擎以期获得更全面的检索结果。而在检索时,预设的检索条件可以是与第一语义结果含有相同发音的内容,例如通过词语的整个拼音单元或者是词语发音首字母来进行检索。在另外一些实施例中,还可以基于词汇同现等信息,对于第一语义结果相似的内容进行检索。本申请实施例不对云端的检索方式和检索途径作具体限制,本申请想要说明的是,当边缘节点中的行业知识库和场景化语料库没有与第一语义结果对应的处理结果,则可以通过云端协同的方式扩大行业知识的范围,得到能够补充行业知识库和场景化语料库的补充语料。
S420、根据补充语料和第一语义结果,确定若干第二语义结果;
具体地,通过云端发回的补充语料,对第一语义结果进行补充。补充的形式可以是选取补充语料中的若干个关键文本加入第一语义结果中,从而在第一语义结果的基础上,生成若干个第二语义结果。
可以理解的是,若从补充语料中选取不同数量或者是不同的关键文本,添加到第一语义结果中,可以得到不同的第二语义结果,因此对应同一段补充语料和同一第一语义结果,可能会得到多个第二语义结果。
S430、根据行业知识库和场景化语料库,计算第二语义结果的第二置信度;
具体地,类似于上述步骤S400,计算步骤S420获得的若干个第二语义结果所对应的若干个第二置信度。类似于第一置信度,第二置信度用于表征该第二语义结果与对应行业、对应业务场景的拟合程度,根据第二置信度,可以反映出第二语义结果的可靠性。
S440、将第二置信度最高的第二语义结果返回终端;
具体地,在步骤S430计算得到的若干个第二置信度中选择数值最高的一个,该最高的第二置信度所对应的第二语义结果可以认为是最可靠的语义处理结果,因此,边缘节点将该第二语义结果作为本次语义处理过程的结果,返回到终端中。
在一些实施例中,可以将上述步骤S410获取到的补充语料补充到对应的行业知识库和场景化语料库中,在每次加入新的补充语料后,可以根据更新后的行业知识库和场景化语料库对行业语言模型进行迭代更新,从而令行业语言模型能够尽量跟上对应行业的语料更新速度,令该行业语言模型能够更好地与对应行业、对应业务场景拟合,得到置信度更高的语义处理结果。
通过步骤S400-S440,本申请实施例提供了根据第三方资源进行语义结果更新的方案,对于行业语料更新比较快的行业,本申请实施例可以及时根据第三方资源对行业知识库和场景化语料库进行更新,并利用更新后的行业知识库和场景化语料库对行业语言模型进行更新,从而令行业语言模型始终与本行业的语料有较高的拟合度,有助于提高语义识别的准确度,对于不同的行业场景下的语义处理服务都有积极的作用。
通过以上实施例中的一个或多个,本申请实施例提出一种由边缘节点执行的语义理解方法,首先边缘节点获取到终端发来的待处理语料,并根据位于边缘节点的行业知识库和场景化语料库,对待处理语料进行行业特征匹配,确定待处理语料对应的语料场景;根据语料场景,选取对应的行业语言模型对待处理语料进行处理,生成对应于待处理语料的第一语义结果,边缘节点将该第一语义结果发送回终端,完成本次语义处理。本申请实施例提出通过行业语言模型来对待处理语料进行处理,有助于提高语义处理结果与对应行业、对应业务场景的拟合度;另外,本申请实施例的语义处理过程主要在边缘节点完成,边缘节点的设计有助于满足用户的安全性和隐私性要求,对于语义处理技术的推广有积极的作用。
参照图5,图5为本申请实施例提供的基于边缘节点的语义处理系统的示意图,该装置应用于基于边缘节点的语义处理系统中的边缘节点,该装置500包括第一模块510、第二模块520、第三模块530、第四模块540和第五模块550;第一模块用于获取待处理语料;第二模块用于对待处理语料进行行业特征匹配,确定语料场景;第三模块用于根据语料场景,确定行业语言模型;第四模块用于根据行业语言模型和待处理语料,确定第一语义结果;第五模块用于将第一语义结果返回终端。
在另一些实施例中,本申请实施例提供的基于边缘节点的语义处理系统还包括第六模块、第七模块、第八模块、第九模块和第十模块;第六模块用于根据位于边缘节点的行业知识库和场景化语料库,计算第一语义结果的第一置信度;第七模块用于当第一置信度低于预设的置信度阈值,通过云端获取补充语料;第八模块用于根据补充语料和第一语义结果,确定若干第二语义结果;第九模块用于根据行业知识库和场景化语料库,计算第二语义结果的第二置信度;第十模块用于将第二置信度最高的第二语义结果返回终端。
参考图6,图6为本申请实施例提供的一种装置的示意图,该装置600包括至少一个处理器610,还包括至少一个存储器620,用于存储至少一个程序;图6中以一个处理器及一个存储器为例。
处理器和存储器可以通过总线或者其他方式连接,图6中以通过总线连接为例。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本申请实施例还公开了一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,处理器可执行的程序在由处理器执行时用于实现本申请提出的基于边缘节点的语义处理方法。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (9)
1.一种基于边缘节点的语义处理方法,其特征在于,所述方法由基于边缘节点的语义处理系统中的边缘节点执行,所述基于边缘节点的语义处理系统包括边缘节点和终端,所述方法包括:
获取待处理语料;
根据位于所述边缘节点的行业知识库和场景化语料库,对所述待处理语料进行行业特征匹配,确定语料场景;
根据所述语料场景,确定行业语言模型;
根据所述行业语言模型和所述待处理语料,确定第一语义结果;所述第一语义结果包括请求类型和请求意图;
将所述第一语义结果返回所述终端。
2.根据权利要求1所述的基于边缘节点的语义处理方法,其特征在于,所述基于边缘节点的语义处理系统还包括云端,所述方法还包括:
根据所述行业知识库和所述场景化语料库,计算所述第一语义结果的第一置信度;
当所述第一置信度低于预设的置信度阈值,向云端发起协同处理请求,以使云端获取补充语料,并将所述补充语料返回所述边缘节点;
根据所述补充语料和所述第一语义结果,确定若干第二语义结果;
根据所述行业知识库和所述场景化语料库,计算所述第二语义结果的第二置信度;
将所述第二置信度最高的第二语义结果返回所述终端。
3.根据权利要求2所述的基于边缘节点的语义处理方法,其特征在于,所述方法还包括:
将所述补充语料加入到所述行业知识库和所述场景化语料库中。
4.根据权利要求2所述的基于边缘节点的语义处理方法,其特征在于,所述以使云端获取补充语料,包括:
根据预设的检索条件,以使云端在互联网中进行检索所述补充语料;
其中,所述检索条件包括与所述第一语义结果发音相同。
5.根据权利要求1-4任一项所述的基于边缘节点的语义处理方法,其特征在于,所述方法还包括所述行业语言模型的构建过程,具体包括:
在获取到的语料样本中随机抽取N类样本作为第一样本集,所述第一样本集中包含N类第一样本;其中,所述第一样本集中的样本类别包括场景结果和目标主题;
在每一类所述第一样本中,抽取K个实例作为第一实例集,所述第一实例集中包含K个第一实例;其中,所述实例为特征词;
将抽取出来的所有第一实例作为支持集,将所述第一样本集中除所述第一实例以外的所有实例作为查询集;其中,所述支持集用于模型训练,所述查询集用于模型测试;
利用所述支持集和所述查询集对所述行业语言模型进行训练和测试;
在训练过程中,采用梯度权值增加的方法逐步增加所述第一实例中标记实例的权重;
当训练次数达到预设的第一数量,完成对所述行业语言模型的构建;
其中,N和M均为正整数。
6.一种基于边缘节点的语义处理系统,其特征在于,所述装置应用于基于边缘节点的语义处理系统中的边缘节点,所述基于边缘节点的语义处理系统包括边缘节点和终端,所述装置包括:第一模块、第二模块、第三模块、第四模块和第五模块;
所述第一模块用于获取待处理语料;
所述第二模块用于对所述待处理语料进行行业特征匹配,确定语料场景;
所述第三模块用于根据所述语料场景,确定行业语言模型;
所述第四模块用于根据所述行业语言模型和所述待处理语料,确定第一语义结果;
所述第五模块用于将所述第一语义结果返回所述终端。
7.根据权利要求6所述的基于边缘节点的语义处理系统,其特征在于,所述基于边缘节点的语义处理系统还包括云端,所述装置还包括:第六模块、第七模块、第八模块、第九模块和第十模块;
所述第六模块用于根据位于所述边缘节点的行业知识库和场景化知识库,计算所述第一语义结果的第一置信度;
所述第七模块用于当所述第一置信度低于预设的置信度阈值,通过云端获取补充语料;
所述第八模块用于根据所述补充语料和所述第一语义结果,确定若干第二语义结果;
所述第九模块用于根据所述行业知识库和所述场景化知识库,计算所述第二语义结果的第二置信度;
所述第十模块用于将所述第二置信度最高的第二语义结果返回所述终端。
8.一种装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-5中任一项所述的基于边缘节点的语义处理方法。
9.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1-5中任一项所述的基于边缘节点的语义处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165947.4A CN113946668A (zh) | 2021-09-30 | 2021-09-30 | 基于边缘节点的语义处理方法、系统、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111165947.4A CN113946668A (zh) | 2021-09-30 | 2021-09-30 | 基于边缘节点的语义处理方法、系统、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113946668A true CN113946668A (zh) | 2022-01-18 |
Family
ID=79329837
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111165947.4A Pending CN113946668A (zh) | 2021-09-30 | 2021-09-30 | 基于边缘节点的语义处理方法、系统、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113946668A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117827947A (zh) * | 2023-12-27 | 2024-04-05 | 江南大学 | 采用可信边缘通道的工业设备语义数据分级管理存储方法 |
WO2024182980A1 (zh) * | 2023-03-06 | 2024-09-12 | 北京小米移动软件有限公司 | 一种知识库管理方法、装置、设备及存储介质 |
-
2021
- 2021-09-30 CN CN202111165947.4A patent/CN113946668A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024182980A1 (zh) * | 2023-03-06 | 2024-09-12 | 北京小米移动软件有限公司 | 一种知识库管理方法、装置、设备及存储介质 |
CN117827947A (zh) * | 2023-12-27 | 2024-04-05 | 江南大学 | 采用可信边缘通道的工业设备语义数据分级管理存储方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110765244B (zh) | 获取应答话术的方法、装置、计算机设备及存储介质 | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
CN108153901B (zh) | 基于知识图谱的信息推送方法和装置 | |
CN107832414B (zh) | 用于推送信息的方法和装置 | |
CN106649818B (zh) | 应用搜索意图的识别方法、装置、应用搜索方法和服务器 | |
CN107256267B (zh) | 查询方法和装置 | |
US9582757B1 (en) | Scalable curation system | |
CN111708869B (zh) | 人机对话的处理方法及装置 | |
WO2020077896A1 (zh) | 提问数据生成方法、装置、计算机设备和存储介质 | |
US10783877B2 (en) | Word clustering and categorization | |
CN109508458B (zh) | 法律实体的识别方法及装置 | |
CN109766418B (zh) | 用于输出信息的方法和装置 | |
CN104471568A (zh) | 对自然语言问题的基于学习的处理 | |
US20160110415A1 (en) | Using question answering (qa) systems to identify answers and evidence of different medium types | |
CN111539197A (zh) | 文本匹配方法和装置以及计算机系统和可读存储介质 | |
CN112256863B (zh) | 一种确定语料意图的方法、装置及电子设备 | |
CN108228567B (zh) | 用于提取组织机构的简称的方法和装置 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
WO2021063089A1 (zh) | 规则匹配方法、规则匹配装置、存储介质及电子设备 | |
CN113343108B (zh) | 推荐信息处理方法、装置、设备及存储介质 | |
CN112926308B (zh) | 匹配正文的方法、装置、设备、存储介质以及程序产品 | |
CN111414735A (zh) | 文本数据的生成方法和装置 | |
CN113946668A (zh) | 基于边缘节点的语义处理方法、系统、装置及存储介质 | |
CN112182150A (zh) | 基于多元数据的聚合检索方法、装置、设备及存储介质 | |
CN115878752A (zh) | 文本情感的分析方法、装置、设备、介质及程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |