CN112418875A - 跨平台税务智能客服语料迁移方法及装置 - Google Patents
跨平台税务智能客服语料迁移方法及装置 Download PDFInfo
- Publication number
- CN112418875A CN112418875A CN202011131586.7A CN202011131586A CN112418875A CN 112418875 A CN112418875 A CN 112418875A CN 202011131586 A CN202011131586 A CN 202011131586A CN 112418875 A CN112418875 A CN 112418875A
- Authority
- CN
- China
- Prior art keywords
- corpus
- target
- standard
- platform
- customer service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000013508 migration Methods 0.000 title claims description 20
- 230000005012 migration Effects 0.000 title claims description 20
- 239000000463 material Substances 0.000 claims abstract description 55
- 230000008569 process Effects 0.000 claims description 7
- 238000012216 screening Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 5
- 230000008520 organization Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- PCHJSUWPFVWCPO-UHFFFAOYSA-N gold Chemical compound [Au] PCHJSUWPFVWCPO-UHFFFAOYSA-N 0.000 description 2
- 239000010931 gold Substances 0.000 description 2
- 229910052737 gold Inorganic materials 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/01—Customer relationship services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
- G06Q40/123—Tax preparation or submission
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Technology Law (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了跨平台税务智能客服语料迁移方法及装置。该方法包括:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;从原有平台的源语料库中,分别提取与各标准问题对应的答案;照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。该方法可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。
Description
技术领域
本发明属于税务服务技术领域,具体涉及跨平台税务智能客服语料迁移方法及装置。
背景技术
目前,税务领域中智能客服系统所依托的平台多种多样,其各自使用的语料模型并不相同。在因现有平台使用期限到期而面临将智能客服切换到其他平台的场景中,需要将现有平台的语料库迁移到目标平台的语料库中。
通常,已有语料库的语料模型与目标平台语料库要求的语料模型并不匹配。语料库动辄10万+的语料,如果由语料录入员人工逐条录入,工作量庞大,作业效率低,不能满足开发要求。
另外,目前客服语料跨平台迁移后,目标平台重建语料结果质量不佳。
发明内容
针对现有技术的不足,本发明提供的跨平台税务智能客服语料迁移方法和装置,以解决现有技术中因为语料模型不匹配导致跨平台建立语料库失败的问题。
第一方面,本发明提供一种跨平台税务智能客服语料迁移方法,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
第二方面,本发明提供一种跨平台税务智能客服语料迁移装置,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
相较于目前智能客服无法跨平台共用知识库/语料库的现象,本发明提供的跨平台税务智能客服语料迁移的方法,可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,解决了因为语料模型不匹配导致语料库建立失败的问题,降低了在因平台使用期限到期而导致的建立语料模型的成本,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1为本发明优选实施方式的跨平台税务智能客服语料迁移方法的流程示意图;
图2是本发明优选实施方式的跨平台税务智能客服语料迁移装置的组成示意图;
图3为本发明优选实施方式中智能客服的问答示例;
图4为本发明优选实施方式中X省的excel语料文件内容展示图;
图5为本发明优选实施方式中按照语料模型对应的样式模板组织以标准问题为索引的语料的word文档形式的示意图。
具体实施方式
现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。
除非另有说明,此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。
具体地,税务领域包括金税、金融、金盾等行业领域,其中,开票是用户量较大的业务类型之一。
随着人工智能技术的飞速发展,纳税服务步入“互联网+税务”的智能化时代。智能客服系统24小时在线为纳税人提供便捷智能、无处不在的客户服务,例如某以微信公众号为平台的智能客服系统。在纳税服务平台提供的咨询入口,纳税人通过语音或文字输入其咨询的问题,并触发纳税服务平台的智能客服提供针对该问题的答案。
应该理解为,具体实施时,迁移就是将从第一个智能客服的平台的语料库迁移到第二个智能客服的平台中,使得第二个智能客服的平台可以使用第一个智能客服的平台在开发、使用和维护过程中积累的语料库中的有用信息。
如图1所示,本发明实施例的跨平台税务智能客服语料迁移方法,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
进一步地,预先构建的目标平台的语料模型中,以标准问题为索引,
标准问题对应的格式数据包括:标准问题、类别标记、关联问题、相似问题及答案;
其中,标准问题是对应有标准答案的问题,在目标语料库内,各标准问题相互不重复;
关联问题是从业务流程上,与标准问题对应的向上延伸问题或向下延伸问题,该关联问题对应有标准答案;
相似问题是与标准问题的问法不同,但语义相似、且可以用同一个答案来回答的问题;
答案是分别对应于标准问题、关联问题及相似问题的标准答案。
进一步地,按照语料模型对应的样式模板组织各标准问题对应的格式数据,包括;
在样式模板中,将标准问题作为当前的问题,占一个内容格;
向标准问题附加其对应的类别标记,类别标记占一个内容格;
向标准问题附加其对应的各相似问题,每一个相似问题占一个内容格;
向标准问题附加其对应的关联问题,每一个关联问题占一个内容格;
向标准问题附加其对应的标准答案,标准答案占一个内容格。
应该理解为,这里的内容格可以为数据库中的一个记录项,可以为excel文档中的一个记录格,也可以为word文档中的一个文本区域和/或图片区域。
进一步地,利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
进一步地,利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到相似问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
进一步地,按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库,包括:
目标平台的目标语料库为word文档的形式;
在获取到答案中的文本后,将该文本写入到目标word语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到目标word语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,下载图片并将下载的图片插入到目标word语料文档中;
在获取到答案中图片对应的超链接地址后,下载图片并将下载的图片插入到目标word语料文档中;
在目标word语料文档中,答案中的文本、图片和网址保留在源语料库中的先后顺序。
进一步地,将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库,包括:
将目标word语料文档上传到目标平台的智能客服的后台,后台在训练智能客服的过程中,生成由目标平台的智能客服使用的知识库;目标平台的智能客服利用知识库提供税务智能客户服务。
进一步地,在待迁移的原有平台的源语料库为excel文档的形式时,
在获取到答案中的文本后,将该文本写入到中间txt语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到中间txt语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,将存储地址写入到中间txt语料文档中;
在获取到答案中图片对应的超链接地址后,将超链接地址写入到中间txt语料文档中;
在中间txt语料文档中,答案中的文本、图片和网址保留在源语料库中的先后顺序。
进一步地,税务智能客服应用中,问题的类别标记包括:注册、登录、开发票、发票管理。
应该理解为,具体实施时,在迁移源语料库时,根据问题的内容将问题进行分类,并为问题附加对应的类别标记,以便于后续在使用目标语料库时,进行分类搜索,提高搜索效率。
后续使用目标语料库,包括以下场景:
将该目标语料库上传到智能客服的后台,通过训练智能客服,生成用于提供客户服务的知识库中。该智能客服上线后,通过后台在线提供客户服务。针对接收到的用户在对话窗口咨询的问题,智能客服通过检索知识库及调用预先训练的规则,在对话窗口显示针对该咨询问题的答案。
应该理解为,具体实施时,类别标记根据业务类型预先确定。如,某税务智能客服应用中,可提供咨询的问题种类包括:注册、登录、开发票、发票管理等。例如注册有关的问题中,“如何注册”分在“注册”的类别。例如登录有关的问题中,“登录不了”就分在“登录”的类别。例如,发票管理有关的问题中,“Ukey发票管理”,就分在“发票管理”的类别。
应该理解为,采用数字、文字、符号、及标点的组合(称为文本)来记载用户可能咨询的问题,也即通过人机接口获取的用户问题。
知识管理员根据税务智能客服的服务范围、服务特点及业务规则,并根据实际答疑的具体情况,将用户问题分为关联问题、相似问题、标准问题,并确定适用于目标平台的语料模型。
具体实施时,智能客服在线服务时,作为日志的一部分,同步地记录用户问的问题及提供的匹配该问题的答案。
具体地,构建目标平台的语料模型,包括:
1.1)、标准问题
标准问题是对应有标准答案的问题。标准问题在语料库或知识库内,是不可重复的。这里的不可重复,是指标准问题本身可以作为语料库内的标识,在后续知识搜索时作为关键词或索引来使用。
具体地,一个标准问题一定对应有一个答案;
而一个答案可能对应于多个标准问题。
为了便于后续智能客服进行知识检索,通常,一个标准问题一定对应有一个类别标识。
例如:用户在平台的咨询入口通过语音或文字反馈的“不能进行实时认证”就是一个排他的标准问题;在语料库中,没有另一个标准问题与该标准问题的内涵或外延是相同的。
应该理解为,针对税务智能客服的目标平台,其预先设定的全部的标准问题以枚举的方式记载在语料文档内。
另外,一个标准问题通常可以作为另一个标准问题的关联问题。
1.2)、关联问题
关联问题是从业务流程上,一个标准问题对应的向上延伸或向下延伸的问题。例如咨询了注册之后,有可能接下来就咨询登录问题,因此把登陆问题作为注册问题的关联问题,将登陆问题挂在注册问题上。
应该理解为,关联问题本身也是标准问题;在其对应的标准问题有关的知识范畴内,该关联问题以关联问题而存在且具有定向跳转的功能。
具体地,一个标准问题可以对应有多个关联问题,或者不具有关联问题。
在语料库或知识库中,一个标准问题的关联问题可以通过该标准问题直接且唯一地确定。
具体实施时,关联问题是在编辑语料时,手动添加至与其关联的标准问题的格式数据中的。
当用户在对话窗口询问的时候,在与该标准问题对应的答案显示之后,与该标准问题对应的全部的关联问题随后在用户聊天的界面显示;当用户点击其中某一个关联问题时,就相当于用户在咨询这个关联问题,客服机器人再将与这个关联问题对应的答案回复给用户/显示在聊天界面。
1.3)、相似问题
相似问题是指与标准问题的问法不同,但问题的语义相似的、且可以用同一个答案来回答的问题。相似问题,可以理解为换了一个问法的标准问题。相似问题的语义与标准问题从语义理解上是大体一致的。各相似问题对应的答案与该标准问题对应的答案相同。
例如:以下是可以等同为“不能进行实时认证”这一标准问题的5个相似问题:
相似问题:1、采集认证界面实时认证按钮是灰色的?
相似问题:2、实时认证的按钮是灰色是要安装插件吗?
相似问题:3、实时认证是灰色的。
相似问题:4、为什么不能进行实时认证,那个按钮是灰色的?
相似问题:5、实时认证点不了。
应该理解为,该语料模型对应有一个语料模板。该语料模板中,每一条语料以问题本身作为检索时的索引来使用。
应该理解为,语料库为动态更新的,并不是固定不变的。在税务智能客服开发、使用及维护的过程中,可以持续更新语料,如增加语料、删除语料或编辑语料(如对语料进行修改或调整)。
1.4)、答案
各标准问题、各关联问题、各相似问题均分别对应有一个答案,也即,答案不会为空或Null。答案的样式模板中,包含以下样式元素:
1、字体。字体以粗体、斜体、或下划线等样式组合后呈现;
2、字号。字号分为大、中、小三种字号,可选择;
3、行级图片。行级图片是在模板中占一行的图片;也就是说,该行中,除外该图片,再无其他显示内容(如,文字或符号);可以有多个行级图片。
4、超链接。超链接记载为超链接的地址。用户在对话窗口中点击该超链接后,对应的内容页面以新建页面展示。
超链接对应的页面将以新页面打开,一般不会在聊天框/对话窗口内显示超链接的内容。
5、无序列表:无序列的列表。
6、有序列表:以递增或递减的阿拉伯数字为序号的列表。
具体实施时,针对具体问题的答案,可以只有文本(包括超链接)、只有图片(至少一张),或者图文结合。通常,图文结合,既有文字又有图片或超链接,称为富文本格式的答案。
在向用户展示回复的答案时,通常展示图片的原始大小而不是与屏幕尺寸成比例的缩略图。用户可以通过增大浏览页面(如,浏览器)的显示比例,达到使图片以更大尺寸显示的目的。
另外,行级图片的行距是不定义的;可以间隔单行或多行;并且在模板中设置为多行行距时,待语料从知识库中被检索到并在用户对话窗口显示时,也只有一行的行距。
某包含图片及文本行的答案示例展示图3所示。
1.5)、语料模型的样式模板
某税务智能客服平台的语料模型的样式模板如下表1所示。应该理解为,表1中各内容格的顺序和展示样式仅作为示例,并不用于限制语料模型的样式模板。
表1、语料模型的样式模板示例
以标准问题为索引,其对应格式数据包括:类别标记、关联问题、相似问题及答案。
该语料模型的样式模板中,标准问题也即当前的问题行;类别标记占样式模板中的一个内容格;各相似问题分别占样式模板中的一个内容格;标准问题对应的答案占样式模板中的一个内容格。
标准问题及与其对应的全部相似问题对应相同的答案。
具体地,根据获取的源语料库,生成适用于目标平台的目标语料库,包括:
2.1)、对源语料库中的问题去重
源语料库/源知识库在经过长期、多人的维护后,随着知识的增加、删除、修改,可能会出现在多个相同问题出现多次的结果。而具体实施时,知识维护人员,面对庞大的知识语料,为了效率等因素考量,有时候并不会做整体上的删除操作。因此,需要对问题进行去重处理。
从源知识库的知识分别对应的源语料中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
2.2)、对语料中的相似问题去重
从源知识库的知识分别对应的源语料中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
若某一标准问题没有搜索到相似问题,也没有预先定义的相似问题,则从目标语料文档中删去为相似问题预留的内容格。也即,目标语料文档中不留没有内容的空行。
以下具体展示通过搜索源语料文档,对其对重复之处进行去重操作的步骤。
X省的excel源语料数据如图4所示。按照目标平台的语料模型的样式模板对该待迁移的语料库进行改造。具体地,将图4中的标准问法替换为相应的标准问题;将关联问题答案作为标准问题的答案进行提取;将其关联问题调整为该标准问题的相似问题。
具体地,在某源excel语料文档中,同一个标准问题出现了8次;因为标准问题在新的目标语料文档中是唯一的,所以需要把重复的7次删除。具体地,针对该源excel语料文档去重时,因记载在第一列的8行中记载的标准问题一致,则将后面7行的标准问题删掉;若第二列仍有重复,仍需删除重复项。但如果第三列的相似问题有重复,则不需要删除重复项。
进一步地,将记载在第二列的关联问题分别作为其他的标准问题写入目标word语料文档中。
具体地,目标Word语料文档中标准问题不能重复(也即,目标Word语料文档中同一个标准问题只能被记载一次),相似问题可以重复(也即,目标Word语料文档中,同一个相似问题可以被记载多次)。
具体实施时,采用代码编程实现以上去重步骤,得到目标语料文档。
具体实施时,去重步骤包括:搜索存在重复标准问题、关联问题及相似问题的源语料文档,并在确定重复项后进行相应的删除操作。
2.3)、提取答案内容,生成目标语料库
进一步地,搜索源语料,生成与各标准问题分别对应的答案。具体地,各答案涉及提取以下三类内容:文本、图片和网址。
具体实施时,从现有平台的知识库/语料库中获取的语料,以excel文档和/或word文档的形式存储。因为Excel语料文档中不能插入图片作为答案。而目前的情况是,各类问题的答案多需要以图片格式呈现。因此,需要将源Excel语料文档转换成目标word文档。
具体实施时,从现有平台的知识库/语料库以正则匹配的方式提取文字、图片地址和网址时,可以利用如下命令行:
匹配图片地址:re.compile("src=\\S*")
匹配文字:re.compile(">[^<]+<")
匹配网址:re.compile("href=\\S*")。
具体实施时,文本夹在符号“>”与符号“<”之间;具体地,在获取到文本后,将其插入到txt文件或目标word语料文档中;
具体实施时,图片地址以“src=”开头;具体地,在获取到图片的存储地址后,下载图片并插入到目标word语料文档中;
具体实施时,网址以“href=”开头;具体地,在获取到网址后,以超链接的形式将该网址写入到目标word语料文档中。
特别地,为了保证语义上的逻辑,在写入到目标word语料文档中时,文本、图片和网址等这三类内容仍旧保留源语料中的先后顺序,如图5所示。
具体地,将源Excel语料文档处理为目标word语料文档时,包括以下步骤:
1、删除第一行表头;表头包括:标准问题、关联问题、相似问题、答案等展示语料要素属性的关键词。
2、对各列去重,删除重复的记录项;
3、将excel另存为以制表符\t分隔的txt文件;
4、读取txt文件内容,提取标准问题、关联问题、相似问题、答案等内容写入word文档。
以上步骤中,在Excel语料文档中删除重复的问题后,另存为以制表符\t分隔的txt文件,以方便后续读取和写入到word语料文档。这里,txt文件作为是中间文件,用于进一步处理得到word语料文档。
应该理解为,这里“以制表符\t分隔”是指将标准问题、相似问题、关联问题、答案等采用制表符分隔。
具体地,针对Excel里以链接的形式记载的图片,通过点击链接访问对应的图片,并将图片插入到word文档内。
转换好的目标word语料文档中,可能会出现图片插入后word文档较大的情况,但是,目标平台选择的数据组织方式/存储方式,可以兼容大容量的word文件,并支持针对大容量文件的搜索或调用,因此,不会影响后续语料的上传、下载、搜索、使用及在对话窗口内展示。
具体地,根据目标语料库,完成源语料库的跨平台迁移,包括:
转换好的目标word语料文档即为源语料库跨平台迁移后生成的目标语料库。该目标语料库上传到智能客服的后台,通过训练智能客服,生成用于提供客户服务的知识库。
该智能客服上线后,通过后台在线提供客户服务。针对接收到的用户在对话窗口咨询的问题,智能客服通过检索知识库及调用预先训练的规则,在对话窗口显示针对该咨询问题的答案。
在后续智能客服平台运行及维护时,通过编辑当前的目标word语料文档,可以生成新的目标语料库,用于训练智能客服,以用于改进智能客服的搜索效率及准确度。
综上,相较于目前智能客服跨平台无法共用知识库/语料库的现象,本实施例的方法可以快速、准确地将智能客服原有平台的语料库迁移到智能客服的目标平台中,完成语料跨平台迁移,解决了因为语料模型不匹配导致语料库建立失败的问题,降低了在因平台使用期限到期而导致的建立语料模型的成本,满足了智能客服系统对语料的精确搜索,逐步提升了纳税人对客户服务的满意度。
第二方面,本发明实施例的跨平台税务智能客服语料迁移装置,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
该跨平台税务智能客服语料迁移装置为与第一方面中的跨平台税务智能客服语料迁移方法对应的装置,具有与该跨平台税务智能客服语料迁移方法相同的技术构思、技术方案及技术效果,这里不再赘述。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。
通常地,在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。
Claims (10)
1.一种跨平台税务智能客服语料迁移方法,其特征在于,包括:
利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
从原有平台的源语料库中,分别提取与各标准问题对应的答案;
按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
2.根据权利要求1所述的方法,其特征在于,
所述预先构建的目标平台的语料模型中,以标准问题为索引,
所述标准问题对应的格式数据包括:标准问题、类别标记、关联问题、相似问题及答案;
其中,标准问题是对应有标准答案的问题,在目标语料库内,各标准问题相互不重复;
关联问题是从业务流程上,与标准问题对应的向上延伸问题或向下延伸问题,该关联问题对应有标准答案;
相似问题是与标准问题的问法不同,但语义相似、且可以用同一个答案来回答的问题;
答案是分别对应于标准问题、关联问题及相似问题的标准答案。
3.根据权利要求2所述的方法,其特征在于,
所述按照语料模型对应的样式模板组织各标准问题对应的格式数据,包括;
在所述样式模板中,将标准问题作为当前的问题,占一个内容格;
向标准问题附加其对应的类别标记,所述类别标记占一个内容格;
向标准问题附加其对应的各相似问题,每一个相似问题占一个内容格;
向标准问题附加其对应的关联问题,每一个关联问题占一个内容格;
向标准问题附加其对应的标准答案,所述标准答案占一个内容格。
4.根据权利要求3所述的方法,其特征在于,
所述利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相同的多个问题,并保留其中一个问题作为标准问题保留,将其他问题删除。
5.根据权利要求4所述的方法,其特征在于,
所述利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到相似问题,包括:
从待迁移的原有平台的源语料库中,根据预先设定的类别标记及标准问题,筛选出与任一标准问题语义相似的多个问题,保留其中一个问题作为标准问题,将其他问题标记为该标准问题的相似问题。
6.根据权利要求5所述的方法,其特征在于,
所述按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库,包括:
所述目标平台的目标语料库为word文档的形式;
在获取到答案中的文本后,将该文本写入到目标word语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到目标word语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,下载图片并将下载的图片插入到目标word语料文档中;
在获取到答案中图片对应的超链接地址后,下载图片并将下载的图片插入到目标word语料文档中;
在目标word语料文档中,所述答案中的文本、图片和网址保留在源语料库中的先后顺序。
7.根据权利要求6所述的方法,其特征在于,
所述将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库,包括:
将所述目标word语料文档上传到目标平台的智能客服的后台,所述后台在训练智能客服的过程中,生成由目标平台的智能客服使用的知识库;所述目标平台的智能客服利用所述知识库提供税务智能客户服务。
8.根据权利要求7所述的方法,其特征在于,
在所述待迁移的原有平台的源语料库为excel文档的形式时,
在获取到答案中的文本后,将该文本写入到中间txt语料文档中;
在提取到答案中的网址后,以超链接的形式将该网址写入到中间txt语料文档中;
在获取到答案中的图片在本地或服务器的存储地址后,将所述存储地址写入到中间txt语料文档中;
在获取到答案中图片对应的超链接地址后,将所述超链接地址写入到中间txt语料文档中;
在中间txt语料文档中,所述答案中的文本、图片和网址保留在源语料库中的先后顺序。
9.根据权利要求8所述的方法,其特征在于,
所述税务智能客服应用中,问题的类别标记包括:注册、登录、开发票、发票管理。
10.一种跨平台税务智能客服语料迁移装置,其特征在于,包括:
源语料库去重模块,用于:利用预先构建的目标平台的语料模型,对原有平台的源语料库去重,得到标准问题及相似问题;
答案提取模块,用于:从原有平台的源语料库中,分别提取与各标准问题对应的答案;
目标语料库组织模块,用于:按照语料模型对应的样式模板组织各标准问题对应的格式数据,得到适用于目标平台的目标语料库;
目标语料库迁移模块,用于:将适用于目标平台的目标语料库迁移到目标平台,以使得目标平台利用目标语料库生成智能客服用知识库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131586.7A CN112418875B (zh) | 2020-10-21 | 2020-10-21 | 跨平台税务智能客服语料迁移方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011131586.7A CN112418875B (zh) | 2020-10-21 | 2020-10-21 | 跨平台税务智能客服语料迁移方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112418875A true CN112418875A (zh) | 2021-02-26 |
CN112418875B CN112418875B (zh) | 2024-03-26 |
Family
ID=74841567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011131586.7A Active CN112418875B (zh) | 2020-10-21 | 2020-10-21 | 跨平台税务智能客服语料迁移方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418875B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434657A (zh) * | 2021-07-21 | 2021-09-24 | 广州华多网络科技有限公司 | 电商客服应答方法及其相应的装置、设备、介质 |
WO2023155737A1 (en) * | 2022-02-15 | 2023-08-24 | International Business Machines Corporation | Method and system to transfer learning from one machine to another machine |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016008453A1 (zh) * | 2014-07-18 | 2016-01-21 | 上海触乐信息科技有限公司 | 智能服务交互平台装置、系统及其实现方法 |
US20160098737A1 (en) * | 2014-10-06 | 2016-04-07 | International Business Machines Corporation | Corpus Management Based on Question Affinity |
US20160196334A1 (en) * | 2015-01-02 | 2016-07-07 | International Business Machines Corporation | Corpus Augmentation System |
CA2918806A1 (en) * | 2015-01-22 | 2016-07-22 | Gubagoo Inc. | Systems and methods for call backup and takeover using web and mobile interfaces |
US20170161363A1 (en) * | 2015-12-04 | 2017-06-08 | International Business Machines Corporation | Automatic Corpus Expansion using Question Answering Techniques |
CN107305578A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答方法和装置 |
US20170323204A1 (en) * | 2016-05-03 | 2017-11-09 | International Business Machines Corporation | Text Simplification for a Question and Answer System |
CN109658114A (zh) * | 2018-12-21 | 2019-04-19 | 万达信息股份有限公司 | 大型语料库的高效智能客服方法 |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
US20200073882A1 (en) * | 2018-08-31 | 2020-03-05 | Accenture Global Solutions Limited | Artificial intelligence based corpus enrichment for knowledge population and query response |
CN110990546A (zh) * | 2019-11-29 | 2020-04-10 | 中国银行股份有限公司 | 智能问答语料库更新方法和装置 |
CN111654581A (zh) * | 2020-04-30 | 2020-09-11 | 南京智音云数字科技有限公司 | 一种智能对话机器人控制方法及系统 |
CN111767382A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 生成反馈信息的方法、装置及终端设备 |
US20200327196A1 (en) * | 2019-04-15 | 2020-10-15 | Accenture Global Solutions Limited | Chatbot generator platform |
-
2020
- 2020-10-21 CN CN202011131586.7A patent/CN112418875B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016008453A1 (zh) * | 2014-07-18 | 2016-01-21 | 上海触乐信息科技有限公司 | 智能服务交互平台装置、系统及其实现方法 |
US20160098737A1 (en) * | 2014-10-06 | 2016-04-07 | International Business Machines Corporation | Corpus Management Based on Question Affinity |
US20160196334A1 (en) * | 2015-01-02 | 2016-07-07 | International Business Machines Corporation | Corpus Augmentation System |
CA2918806A1 (en) * | 2015-01-22 | 2016-07-22 | Gubagoo Inc. | Systems and methods for call backup and takeover using web and mobile interfaces |
US20170161363A1 (en) * | 2015-12-04 | 2017-06-08 | International Business Machines Corporation | Automatic Corpus Expansion using Question Answering Techniques |
CN107305578A (zh) * | 2016-04-25 | 2017-10-31 | 北京京东尚科信息技术有限公司 | 人机智能问答方法和装置 |
US20170323204A1 (en) * | 2016-05-03 | 2017-11-09 | International Business Machines Corporation | Text Simplification for a Question and Answer System |
US20200073882A1 (en) * | 2018-08-31 | 2020-03-05 | Accenture Global Solutions Limited | Artificial intelligence based corpus enrichment for knowledge population and query response |
CN109658114A (zh) * | 2018-12-21 | 2019-04-19 | 万达信息股份有限公司 | 大型语料库的高效智能客服方法 |
US20200327196A1 (en) * | 2019-04-15 | 2020-10-15 | Accenture Global Solutions Limited | Chatbot generator platform |
CN110516055A (zh) * | 2019-08-16 | 2019-11-29 | 西北工业大学 | 一种结合bert的用于教学任务的跨平台智能问答实现方法 |
CN110990546A (zh) * | 2019-11-29 | 2020-04-10 | 中国银行股份有限公司 | 智能问答语料库更新方法和装置 |
CN111654581A (zh) * | 2020-04-30 | 2020-09-11 | 南京智音云数字科技有限公司 | 一种智能对话机器人控制方法及系统 |
CN111767382A (zh) * | 2020-06-30 | 2020-10-13 | 平安国际智慧城市科技股份有限公司 | 生成反馈信息的方法、装置及终端设备 |
Non-Patent Citations (1)
Title |
---|
蔡志文;林建宗;: "基于购买意向的移动电子商务智能客服系统", 科技管理研究, no. 18 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434657A (zh) * | 2021-07-21 | 2021-09-24 | 广州华多网络科技有限公司 | 电商客服应答方法及其相应的装置、设备、介质 |
WO2023155737A1 (en) * | 2022-02-15 | 2023-08-24 | International Business Machines Corporation | Method and system to transfer learning from one machine to another machine |
Also Published As
Publication number | Publication date |
---|---|
CN112418875B (zh) | 2024-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10896214B2 (en) | Artificial intelligence based-document processing | |
US20190220490A1 (en) | Combining website characteristics in an automatically generated website | |
CN114616572A (zh) | 跨文档智能写作和处理助手 | |
CN109074383B (zh) | 文档背景内可视化的文档搜索 | |
US11610066B2 (en) | Creation of component templates based on semantically similar content | |
US9613003B1 (en) | Identifying topics in a digital work | |
US9639518B1 (en) | Identifying entities in a digital work | |
CN112631997A (zh) | 数据处理方法、装置、终端及存储介质 | |
US20220121668A1 (en) | Method for recommending document, electronic device and storage medium | |
US20170109442A1 (en) | Customizing a website string content specific to an industry | |
US11887011B2 (en) | Schema augmentation system for exploratory research | |
CN113407678B (zh) | 知识图谱构建方法、装置和设备 | |
CN112418875B (zh) | 跨平台税务智能客服语料迁移方法及装置 | |
US11386263B2 (en) | Automatic generation of form application | |
CN114528413A (zh) | 众包标注支持的知识图谱更新方法、系统和可读存储介质 | |
CN114024955B (zh) | 基于rpa及ai的文件处理方法、装置、设备及介质 | |
KR102434880B1 (ko) | 멀티미디어 플랫폼 기반 지식 공유 서비스 제공 시스템 | |
Kumar et al. | Implementation of MVC (Model-View-Controller) design architecture to develop web based Institutional repositories: A tool for Information and knowledge sharing | |
JP2000250908A (ja) | 電子書籍の作成支援装置 | |
CN113742291A (zh) | 一种文件保存方法、装置以及计算机存储介质 | |
Hutchinson et al. | Improving Subject Description of an LGBTQ+ Collection | |
Yasmin et al. | Potential candidate selection using information extraction and skyline queries | |
CN113176878B (zh) | 自动查询方法、装置和设备 | |
US20220207092A1 (en) | Computer service for indexing threaded comments with pagination support | |
JP2012018667A (ja) | テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |