CN113761897A

CN113761897A - 基于文本大数据的呼叫中心客服工单实体识别的方法

Info

Publication number: CN113761897A
Application number: CN202110921005.8A
Authority: CN
Inventors: 李言良; 王福君; 雷晓宇; 王鸿强
Original assignee: Beijing Zhongyun Jinnuo Technology Co ltd
Current assignee: Beijing Zhongyun Jinnuo Technology Co ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-12-07

Abstract

本发明公开了一种基于文本大数据的呼叫中心客服工单实体识别的方法，包括以下步骤：步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备，提升文本预处理阶段的准确性；步骤2、以RESTful接口方式与工单系统对接，获取工单文本数据；步骤3、利用步骤1中汇总的词库，对获取的工单文本进行预处理，包括分词、去停用词、生成词向量；步骤4、利用工单实体抽取模型，提取工单中关键信息；步骤5、利用关键词统计分析法对工单定性关键词进行提取做统计分类。本发明的有益效果在于：解决了呼叫中心客服领域工单文本录入规则不确定、数据规模大、场景模式匹配复杂的难题；减少人为因素影响、节约工单处理时间，并为非结构化的文本工单分析提供依据。

Description

基于文本大数据的呼叫中心客服工单实体识别的方法

技术领域

本发明涉及呼叫中心客服大数据文本挖掘分析领域，尤其涉及基于文本大数据的呼叫中心客服工单实体识别的方法。

背景技术

呼叫中心工单系统又称为呼叫中心工单管理系统，通过创建工单，将客户的需求创建成工单，通过工单管理系统可以使工单流转，可以进行跨部门跨企业协作，记录、处理、追踪任务完成情况，提高客户服务中心服务能力。呼叫中心工单系统一般被广泛用于客户帮助支持服务，客户售后服务，企业IT支持服务，呼叫中心等，用来创建，挂起，解决客户或企业内部职员提交的事务请求。

而呼叫中心客服代表在填写工单时，均通过手工方式进行投诉产品、故障设备、目标地址、争议内容、解决措施等内容的录入。工单包含的元素类别较多，考虑到坐席服务指标考核因素，而导致录入时间过长，录入的元素过多提炼不够充分，耗时耗力，效率低下。且无固化的信息识别工具来辅助完成工单内容的填写。

发明内容

本发明的目的是为了解决呼叫中心领域工单文本录入规则不确定、数据规模大的问题，提供基于文本大数据的呼叫中心客服工单实体识别的方法，减少人为因素偏差、节约工单处理时间。

另外还可通过对非结构化的文本工单关键信息的提取提炼，为呼叫中心精细化运营提供分析分类的依据。

为了实现根据本发明的这些目的和其它优点，提供了基于文本大数据的呼叫中心客服工单实体识别的方法，包括以下步骤：

步骤1、通过预先对所属行业呼叫中心客服领域词库进行准备，提升文本预处理阶段的准确性；

步骤2、以RESTful接口方式与工单系统对接，获取工单文本数据；

步骤3、利用步骤1中汇总的词库，对获取的工单文本进行预处理，包括分词、去停用词、生成词向量；

步骤4、利用工单实体抽取模型，提取工单中关键信息；

步骤5、在所述步骤4的基础上，利用关键词统计分析法对工单定性关键词进行提取做统计分类。

其中，所述步骤1中对所属行业呼叫中心客服词库的准备包括以下步骤：

步骤1.1、批量导入现有的所属行业呼叫中心客户工单的数据，以此作为词库提炼的样本数据；

步骤1.2、利用通用“结巴中文分词”工具进行分词，得到分词词集，分词过程中将根据行业属性进行分解颗粒度的调节优化，获得初始分词集合；

步骤1.3、通过将分词结果相邻的1个、2个、3个、4个词进行组合成新词，形成新词以此来解决“结巴中文分词”后颗粒度过细的问题，并利用改进互信息过滤方法进行去重，形成初始化的、属于该行业的呼叫中心客服词库。

其中，所述步骤4中的工单中关键信息提取包括产品名称提取、地址提取、费用术语提取、增值业务提取。

其中，所述步骤4中利用Bi-LSTM算法、BIO标注法构建实体抽取模型，通过抽取模型提取到工单关键信息后导入生成工单文本数，具体方法为：

步骤4.1、利用工单样本数据，经过文本预处理后进行词向量标注，将标注后的结果利用Bi-LSTM算法模型实现工单文本的上下文信息捕获，获得对实体标注有效的特征，通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配；

步骤4.2、获取工单文本上下文信息后，经过CRF以BIO标注法进行所抽取实体的标注，标注形成抽取模型需要的提取规则，提取规则包括时间提取规则、地址提取规则、产品名称提取规则、费用术语提取规则、增值业务提取规则，最终将其固化为抽取模型。

其中，所述步骤5中工单关键词统计分析通过TF-IDF模型统计方法实现，采用改TF-IDF模型统计方法作为过滤的评估标准，对所提供的关键词进一步筛选，该方法将提炼工单文本所表述的主要分类信息，作为工单文本大数据分析的分类统计基础。

其中，所述步骤4中，工单的实体模型通过BIO标注组合方式实现，通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配。

其中，所述步骤4中，工单关键数据标注后形成的抽取模型准确率、召回率等指标采用minibach梯度下降方法进行模型训练，不断调整batch和epoch的值对比准确率、召回率、F1值，找到最合适的所属行业呼叫中心客服的参数组合。

其中，所述步骤4中，采用Focal Loss损失函数来解决样本不均衡问题，加大Loss权重比从而让模型学习到更多的差异化工单的文本信息。

其中，所述步骤4中，模型构建中，采用Batchnorm来缓解普通归一带来的数据特征损失，提升模型的训练速度，减少特殊信息数据的损失。

本发明至少包括以下有益效果：

本发明通过采用呼叫中心客服领域词库构建，优化工单预处理结果，本方案采用采用序列标注法、Bi-Lstm-Crf标注法以及基于深度学习方式来对客服录入的长文本工单内容中费用术语、通信术语、增值业务、营业厅地址等关键元素进行提取提炼，通过工单实体识别模型的介入处理后，实现工单由非结构化长文本向半结构化工单的自动录入转化，方便对工单进行大数据分析，提升录入审核以及运营分析服务的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述基于文本大数据的呼叫中心客服工单实体识别的方法的流程框图；

图2是本发明所述基于文本大数据的呼叫中心客服工单实体识别的方法的应用架构图；

图3是本发明所述基于文本大数据的呼叫中心客服工单实体识别的方法的原理图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1、图3所示，基于文本大数据的呼叫中心客服工单实体识别的方法，包括以下步骤：

步骤4、利用工单实体抽取模型，提取工单中关键信息；

在上述方案中，本发明通过采用呼叫中心客服领域词库构建，优化工单预处理结果，本方案采用序列标注法、Bi-Lstm-Crf标注法以及基于深度学习方式来对客服录入的长文本工单内容中诸如：2i2c产品、app名、费用术语、否定词、基站设备、解决措施、配送服务、情绪侦测、上网问题、通信术语、投诉风险、信号问题、信息安全、业务办理、增值业务、资费争议、营业厅地址等等关键元素进行提取提炼，通过工单实体识别模型的介入处理后，实现工单由非结构化长文本向半结构化工单的自动录入转化、工单大数据分析，提升录入审核以及运营分析服务的效率；

呼叫中心客服领域词库的构建，是深度运用结巴中文分词创建呼叫中心客服领域专用分词库，包括“新词组合”解决分词颗粒度问题、使用改进互信息算法进行过滤等，如：“开通电信夜间流量套餐”分词后“开通”、“电信”、“夜间流量”、“套餐”，组合成新词“开通套餐”、“电信套餐”、“夜间流量套餐”、“电信夜间流量套餐”等，提高分词精度。

word2vec模型训练：将每个词映射到一个较短的词向量上，将训练语料中的每一个词映射成一个固定长度的向量，用词向量表示，词向量为0、1、2、3构成的向量，0表示单字，1表示词的起始字，3表示词的终止字，2表示词的中间字，将生成的词向量结果传入Bi-LSTM中，捕获工单文本的上下文信息，获得对实体标注有效的特征，Crf由两组随机变量组成，是给定一组输入随机变量条件下另一组输出随机变量的条件概率分布模型，所有的词向量组成一个向量空间，这样就可以把词向量对应成空间中的一个点，如：“这个月：[1,0,0,0,…0]”转化为词向量“这个月：[0.1,-0.4,…,0.5]”；解决离散标识的纬度较低、提升语义表达能力。

BIO标注法：其中”B“表示实体起始位置，”I“表示实体内容位置，”O“表示非实体，如使用：Time(时间)、Loc(地点)、Num(数字)三类模型做预测，基于BIO标注的组合方式进行目标实体的提炼：如：用户名称：(B-Person、I-Person)，(B-Person、I-Person、I-Person)；APP名称：(B-APP、I-APP、I-APP)，(B-APP、I-APP、I-APP、I-APP)；产品信息：(B-product，I-product、I-product)，(B-product，I-product、I-product、I-product)等等，基于标签的不同组合模式，来对不同的实体进行提取。

如时间提取：

我——O

是——O

3——B-Time

月——I-Time

1——I-Time

2——I-Time

号——I-Time

发——O

现——O

如地点提取：

故——O

障——O

的——O

地——O

点——O

是——O

北——B-Location

京——I-Location

路——I-Location

与——I-Location

解——I-Location

放——I-Location

路——I-Location

交——I-Location

叉——I-Location

口——I-Location

改进的TF-IDF模型统计方法：采用改进的TF-IDF模型统计方法作为过滤的评估标准，对所提供的语料的词进一步筛选，以此方法评估出“关键词”，以此做为“工单定性关键词”提取，每个词条的词频表示的是该词条在对应的一条工单信息中出现的频率，词条的逆向文件频率的计算则是用工单中信息的总条数除以包含特定词条的文章数加1，并取对数，通过这样的设计，可以保证像“频繁无灯”、“开关故障”这样的具有代表性的词可以被重视起来，又可以保证其不会被“客户”、“用户”这样的词取代，而且不同的工单情况会被有效区分开来。

通过词库构建、word2vec词向量转化以及BIO标注法，利用Bi-LTSM-CRF模型完成工单实体的提取以及自动填充，TF-IDF来对工单进行概括统计。

整个呼叫中心客服工单的实体关键信息提取采用接口和模型自动完成，信息的提取无需人工干预，极大的减少坐席工单录入时长，提供更多的工单诉求信息，提升呼叫中心客服服务的业务水平和服务效果。

例1：

客户投诉：今年来，池州贵池区里山街道这一片信号一直不好，严重影响使用，再不解决，就换号了！

工单实体识别提取：故障：网络信号；地址：池州贵池区里山街道；关键词：网络投诉。

例2：

客户投诉：昨天、今天在宿州市砀山县移动公司旁边经常出现串号，无法通话，串号15155790688，18855727369。

工单实体识别提取：故障：网络串号；地址：宿州市砀山县移动公司旁边；问题号码：15155790688，18855727369；关键词：网络投诉。

优选的，所述步骤1中对所属行业呼叫中心客服词库的准备包括以下步骤：

步骤1.3、通过将分词结果相邻的1个、2个、3个、4个词进行组合成新词，形成新词以此来解决“结巴中文分词”后颗粒度过细的问题，并利用改进互信息过滤方法进行去重，分词后的词，用停用词表筛选过滤，如分词结果中出现了停用词，如“的”、“是”、“在”等等，直接进行过滤，过滤的数据作为“初始化词库”，利用“初始化词库”进行工单文本的分词预处理，利用jieba分词工具，选用精确分词模式，导入建立的分词词典，以保证分词结果的准确性，形成初始化的、属于该行业的呼叫中心客服词库。

优选的，结合行业特性，比如人名，特殊商品/业务名称等，可以再为词库进行扩充，使之文本预处理更加精准。

优选的，所述步骤4中利用Bi-LSTM算法、BIO标注法构建实体抽取模型，通过抽取模型提取到工单关键信息后导入生成工单文本数，具体方法为：

步骤4.2、获取工单文本上下文信息后，经过CRF以BIO标注法进行所抽取实体的标注，标注形成抽取模型需要的提取规则，提取规则包括时间提取规则、地址提取规则、产品名称提取规则、费用术语提取规则、增值业务提取规则等等，最终将其固化为抽取模型。

如：工单地址填写字段关联“地址抽取模型”，增值业务字段关联“增值产品抽取模型”，将工单文本导入上述模型中，即可将提取的核心字段自动填写到工单相关字段中，同时将所述文本对话内容匹配至所述客户信息下。

优选的，所述步骤4中，工单的实体模型通过BIO标注组合方式实现，通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配。

优选的，所述步骤4中，工单关键数据标注后形成的抽取模型准确率、召回率等指标采用minibach梯度下降方法进行模型训练，不断调整batch和epoch的值对比准确率、召回率、F1值，找到最合适的所属行业呼叫中心客服的参数组合。

优选的，所述步骤4中，采用Focal Loss损失函数来解决样本不均衡问题，FocalLoss损失函数来替代交叉熵损失函数，让模型能兼顾到样本少的特殊坐席输入方式，从而学习到它们的特征，通过加大Loss权重比从而让模型学习到更多的差异化工单的文本信息，已解决客服人员对业务理解不同、日常文本表达存在差异性导致提交的工单文本表述形式差异化较大的问题。

优选的，所述步骤4中，模型构建中，采用Batchnorm来缓解普通归一带来的数据特征损失，提升模型的训练速度，减少特殊信息数据的损失。

优选的，所述步骤5中工单关键词统计分析通过TF-IDF模型统计方法实现，采用改TF-IDF模型统计方法作为过滤的评估标准，对所提供的关键词进一步筛选，该方法将提炼工单文本所表述的主要分类信息，作为工单文本大数据分析的分类统计基础。

如图2所示，整个架构包括：

1、基础层：为保证训练模型的效果，必须积累足够多的高质量的数据资源，采用分布式计算存储数据。

2、平台层：平台层的主要功能是支持服务部署。采用docker将服务及其依赖打包成一个可移植的镜像，然后将镜像发布到任何安装docker引擎的linux服务器上，利用k8s完成应用的部署，并获得隔离、一致的运行效果。

3、技术层：技术层主要涉及开发过程所采用的具体技术栈。NLP通用技术如停用词过滤、词干提取、词袋模型、TF-IDF、Word2Vec、分词技术等，开发语言选用当前热门的python语言，在算法上，Bi-Lstm-Crf及BIO标注进行建模。

4、基于以上基础构建应用，功能大致分三类：一是投诉工单实体智能提取，二是投诉实体抽取模型更新迭代，三是实体能力工单集成。

尽管本发明的实施方案已公开如上，但以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：包括以下步骤：

步骤4、利用工单实体抽取模型，提取工单中关键信息；

2.如权利要求1所述基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤1中对所属行业呼叫中心客服词库的准备包括以下步骤：

3.如权利要求1所述基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中的工单中关键信息提取包括产品名称提取、地址提取、费用术语提取、增值业务提取。

4.根据权利要求3所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中利用Bi-LSTM算法、BIO标注法构建实体抽取模型，通过抽取模型提取到工单关键信息后导入生成工单文本数，具体方法为：

5.根据权利要求1所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤5中工单关键词统计分析通过TF-IDF模型统计方法实现，采用改TF-IDF模型统计方法作为过滤的评估标准，对所提供的关键词进一步筛选，该方法将提炼工单文本所表述的主要分类信息，作为工单文本大数据分析的分类统计基础。

6.根据权利要求4所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中，工单的实体模型通过BIO标注组合方式实现，通过BIO标注来对多种呼叫中心客服业务的关键信息进行映射匹配。

7.根据权利要求6所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中，工单关键数据标注后形成的抽取模型准确率、召回率等指标采用minibach梯度下降方法进行模型训练，不断调整batch和epoch的值对比准确率、召回率、F1值，找到最合适的所属行业呼叫中心客服的参数组合。

8.根据权利要求7所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中，采用Focal Loss损失函数来解决样本不均衡问题，加大Loss权重比从而让模型学习到更多的差异化工单的文本信息。

9.根据权利要求8所述的基于文本大数据的呼叫中心客服工单实体识别的方法，其特征在于：所述步骤4中，模型构建中，采用Batchnorm来缓解普通归一带来的数据特征损失，提升模型的训练速度，减少特殊信息数据的损失。