CN114564942B - 一种用于监管领域的文本纠错方法、存储介质和装置 - Google Patents
一种用于监管领域的文本纠错方法、存储介质和装置 Download PDFInfo
- Publication number
- CN114564942B CN114564942B CN202111052921.9A CN202111052921A CN114564942B CN 114564942 B CN114564942 B CN 114564942B CN 202111052921 A CN202111052921 A CN 202111052921A CN 114564942 B CN114564942 B CN 114564942B
- Authority
- CN
- China
- Prior art keywords
- text
- error correction
- bert
- model
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012937 correction Methods 0.000 title claims abstract description 133
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013519 translation Methods 0.000 claims abstract description 56
- 238000013145 classification model Methods 0.000 claims abstract description 43
- 238000002372 labelling Methods 0.000 claims abstract description 28
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 43
- 239000013598 vector Substances 0.000 claims description 23
- 230000001105 regulatory effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 13
- 238000004422 calculation algorithm Methods 0.000 claims description 12
- 238000010606 normalization Methods 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 10
- 210000002569 neuron Anatomy 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 7
- 238000007635 classification algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000001613 Gambling Diseases 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 108020001568 subdomains Proteins 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于监管领域的文本纠错方法、存储介质和装置,涉及直播领域。该方法包括:获取ASR实时转译文本,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本。通过BERT分类模型对转译文本进行分类处理,经分类处理后,根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理,获得纠错文本,有效的提升直播场景下监管各领域内ASR对音频转译文本的字准确率,并快速应用到相关领域。
Description
技术领域
本发明涉及直播领域,尤其涉及一种用于监管领域的文本纠错方法、存储介质和装置。
背景技术
随着网络直播行业的兴起,极大扩张了人们的社交渠道,与此同时,网络行业的监管需愈加复杂。由于直播环境和自动语音识别技术(简称ASR,下同)的不足,使得ASR出现足以改变音频语义的错误转译信息,使得监管问题层出不穷,因此对直播场景中的监管领域数据的ASR转译数据进行纠正成为了重要的技术瓶颈。
传统的纠错方法是直接在ASR转译文本后只使用通用领域的纠错方法。此类方法的缺陷一方面是监管和通用领域的数据分布不够匹配,通用领域的数据分布要包含监管领域的数据分布,并且更为广泛。另一方面是监管领域包含众多细分的监管,将众多监管子领域纠错任务集成在一起,难以获得准确领域结果,传统纠错方式对监管领域的评估效果较差。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种用于监管领域的文本纠错方法、存储介质和装置。
本发明解决上述技术问题的技术方案如下:
一种用于监管领域的文本纠错方法,包括:
S1,获取ASR实时转译文本;
S2,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;
S3,通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本。
本发明的有益效果是:本方案通过BERT分类模型对转译文本进行分类处理,经分类处理后,根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理,获得纠错文本,有效的提升直播场景下监管各领域内 ASR对音频转译文本的字准确率,并快速应用到相关领域。
对于每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据。使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分。
进一步地,所述S3之后还包括:
将所述纠错文本输入所述BERT分类模型中进行分类处理,当所述分类结果中的所述领域与所述标签一致,则返回所述纠错文本和所述标签;如果不一致,则对所述转译文本重新分类。
采用上述进一步方案的有益效果是:本方案通过纠错文本输入所述 BERT分类模型中进行分类处理,判断分类结果中的所述领域与所述标签是否一致,来实现纠错文本的分类复查,提高分类和纠错精确度。
进一步地,在所述S2之前还包括:
采用双编码的BERT模型;
在所述BERT模型的输出层设置句子向量;
在所述BERT模型的输出层使用softmax函数,并在输出层设置分类参数;
通过交叉熵损失函数计算所述BERT模型的迭代损失;
通过Adam使用学习率衰减方法更新BERT模型参数,实现所述BERT 分类模型构建。
采用上述进一步方案的有益效果是:本发通过构建的BERT分类模型实现转译文本的监管子领域划分,提升各子监管领域和纠错算法的适配性和监管准确性。
进一步地,所述S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
按照监管类别分别对所述转译文本和所述标准文本标注所属监管子领域,获得第一标注语料转译文本和第一标注语料标准文本;
通过所述第一标注语料转译文本和所述第一标注语料标准文本存入数据库中对应的监管领域数据库,构成原始语料库。
采用上述进一步方案的有益效果是:本方案通过构建的原始语料库为 BERT分类模型和子领域BERT纠错模型提供训练源。
进一步地,所述S2之前还包括:将所述第一标注语料转译文本设置为所述BERT分类模型的负样本;
在所述第一标注语料标准文本中选取容易误判为所述负样本的正面语料和随机选取正常语料作为所述BERT分类模型的正样本;
根据所述负样本和所述正样本构建分类训练集;
设置所述BERT分类模型的模型参数;
将所述分类训练集输入所述BERT分类模型中对所述BERT分类模型进行训练,获得训练后的所述BERT分类模型。
采用上述进一步方案的有益效果是:本方案采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据,使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分结果。
进一步地,在所述S3之前还包括:
在所述原始语料库中分别获取每个监管子领域的ASR的转译文本和人工转译的标准文本;
使用对齐算法对所述转译文本和所述标准文本进行对齐处理,获得纠错训练集。
进一步地,在所述S3之前还包括:设置所述子领域BERT纠错模型的训练参数,将所述纠错训练集作为所述子领域BERT纠错模型的输入,将所述标准文本作为训练目标,对所述子领域BERT纠错模型进行训练,获得训练后的所述子领域BERT纠错模型。
采用上述进一步方案的有益效果是:本方案通过训练后的子领域BERT 纠错模型实现对每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
进一步地,在所述S3之前还包括:
在子领域BERT纠错模型的输出层新增一层全连接网络层;
将所述子领域BERT纠错模型每个token神经元的输出映射为所述 BERT预训练模型的词向量维度值;
通过layer normalization对所述子领域BERT纠错模型进行归一化约束处理,获取归一化处理后的所述子领域BERT纠错模型的embedding参数矩阵;
通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述子领域BERT纠错模型的词向量值;
通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述子领域BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新所述子领域BERT纠错模型的 embedding参数矩阵。
采用上述进一步方案的有益效果是:本方案通过新增一层全连接网络层、每个token神经元的输出映射为BERT词向量的维度大小,将每个token 位置的全连接输出映射到BERT词表大小的向量,过交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,实现子领域BERT纠错模型的参数优化。
本发明解决上述技术问题的另一种技术方案如下:
一种存储介质,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如上述任一方案所述的一种用于监管领域的文本纠错方法。
本发明解决上述技术问题的另一种技术方案如下:
一种文本纠错装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如上述任一方案所述的一种用于监管领域的文本纠错方法。
本发明附加的方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明实践了解到。
附图说明
图1为本发明的实施例提供的流程示意图;
图2为本发明的其他实施例提供的文本纠错方法的示意图;
图3为本发明的其他实施例提供的BERT分类模型结构示意图;
图4为本发明的其他实施例提供的transformer block的结构示意图;
图5为本发明的其他实施例提供的子领域BERT纠错模型结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实施例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,为本发明实施例提供的一种用于监管领域的文本纠错方法,包括:
S1,获取ASR实时转译文本;
S2,通过训练后的BERT分类模型对转译文本进行分类处理,并输出转译文本所属监管子领域,并根据监管子领域对转译文本打上标签;
在某一实施例中,获得训练后的BERT分类模型可以包括:
收集直播下ASR的转译文本语料和原始语音信息,并使用语音信息进行数据标注得到标准文本信息,同时人工按照不同监管的类别,分别提取标注语料作为监管划分模型的训练样本,并依据监管子领域的类别,对每个 ASR标注样本进行人工标注,标上所属子领域。其中,不同监管的类别可以包括:色情监管、政治监管、违禁等,每种监管的数据分布具有较大的不一致,例如,色情:包含色情内容的文本1;违禁:包含属于监管或违禁内容的文本2。需要说明的是,标注语料可以是由人工标注得到的,这里主要是确定标注语料的监管标签,有两方面的标注:①音频到文本的字的标注,这里产生训练纠错模型的pair对;②文本所属监管标签的标注,有专门的定义来区分所属标签,这里将pair对进行细分,分属于不同监管标签的纠错pair 对。
同时,标注语料的提取有多种方式:①随机抽取直播业务数据,进行标注(文本到音频、文本标签)流程;②使用已有的监管分类模型先进行初筛,筛取大致类别,在进行两个标注流程,的到最后的数据。一般起步时使用①,初步得到数据后会构建分类模型,此时使用②。
将需要监管的ASR标注语料样本设置为模型的负面样本,选取容易误判为负样本的正面语料和随机选取一批正常语料作为正面样本,进行样本的构建;需要说明的是,选取容易误判为负样本的正面语料可以包括:赌博和读博是纠错的相关样本,这里构建的是监管标签分类样本,用于分类模型,将样本区分为是否所属某个监管标签。这里需要正负样本相关性,但不是赌博和读博这样的相关,如色情标签下,是:包含色情内容的文本1?
选择采用双向编码的chinese_base版本的BERT模型作为预训练模型,使用输出层第一个token位置的“[CLS]”token的向量表示整个输入句子的句子向量,输出层使用softmax,并且设为n+1分类,每个类别表示监管字领域1、监管字领域2、...,监管字领域n和正常类别,并使用交叉熵损失函数来计算BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,由此构建得到BERT监管子领域划分模型。
设置BERT子领域划分模型训练的参数,构建的样本作为输入放入 BERT分类模型中进行训练;
将训练完成的BERT子领域划分模型进行存储。
S3,通过训练后的子领域BERT纠错模型对带标签的转译文本进行纠错处理,获得纠错文本。
在某一实施例中,获得训练后的子领域BERT纠错模型可以包括:
收集监管子领域下ASR的转译文本语料和原始语音信息,同时使用语音信息进行数据标注得到标准文本信息,作为微调ASR纠错模型的原始语料库。例如ASR转译文本:开学了,包含属于监管或违禁内容的文本,音频标注文本:开学了,与包含属于监管或违禁内容的文本读音接近的文本,形成pair对。
使用原始语音信息通过ASR系统采集N-best转译文本结语料,对应语音的标准文本信息,扩充语料库,进行微调ASR纠错模型的语料库的数据增强。在某一实施例中,ASR系统在进行音频到文本的转译过程中,对于一条音频,会给出前top-N-best(简称N-best)个文本候选结果,最终的转译结果是top-N-best中的最优的一个。比如top-50等,但这50个文本信息中,往往含有比top-one更多的转译错误对应信息,是一种很好的数据增强和扩充方式。
将获得的所有语料构建微调BERT的训练语料并微调BERT,微调过程可如下:
使用基于Levenshtein距离的对齐算法对标准文本和转译文本信息进行文本字符串对齐,对齐后得到正确、插入、删除、替换这几种标识,以标准文本为模板,只保留转译文本中的正确和替换标识字符,其他标识的字符替换为标准文本中对应位置字符,构建微调BERT的训练语料。
选择采用双向编码的chinese_base版本的BERT模型作为预训练模型,在12层结束后新增一层全连接网络将BERT模型每个token神经元的输出影射为BERT词向量的维度大小,并应用layer normalization归一化约束后,使用共享BERT预训练模型内部的embedding参数矩阵将每个token位置的全连接输出映射到BERT词表大小的向量,并使用softmax进行概率归一化,并使用交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数。
设置BERT的训练参数,训练数据使用上述步骤构造的转译文本字符序列作为输入,标注的标注文本字符序列作为目标。
将训练完成的BERT纠错模型进行存储。
在某一实施例中,如图2所示,文本纠错方法具体包括:
步骤1:获取ASR实时转译文本。
步骤2:ASR实时转译文本经过BERT子领域划分模型,输出该文本所属的监管子领域,若不属于正常,则为该文本打上所属的监管子标签。
步骤3:基于步骤2获取含有监管子标签的ASR转译文本,构建基于微调纠错BERT的inference文本,即将简单的转译文本构建成模型的输入形式。并选择使用该监管子领域语料微调的BERT纠错模型进行纠错,得到纠错文本。需要说明的是,对于监管子领域数据分布差异大的,要建立不同的纠错 BERT,对于相似的,可以只建立了一个,如色情-重度、色情-轻度等这种具有强相关的可使用一个。如果资源不足,也可以所有的监管领域使用一个,可以根据实际应用场景进行选择。
步骤4:使用子领域纠错完成的纠错文本,再次进行监管子领域的划分,若不属于正常,则返回最终的纠错结果和监管标签。
本方案通过BERT分类模型对转译文本进行分类处理,经分类处理后,根据不同监管子领域文本通过对应的子领域BERT纠错模型进行纠错处理,获得纠错文本,有效的提升直播场景下监管各领域内ASR对音频转译文本的字准确率,并快速应用到相关领域。
对于每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据。使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分。
优选地,在上述任意实施例中,S3之后还包括:
将纠错文本输入BERT分类模型中进行分类处理,当分类结果中的领域与标签一致,则返回纠错文本和标签;如果不一致,则对转译文本重新分类。
本方案通过纠错文本输入BERT分类模型中进行分类处理,判断分类结果中的领域与标签是否一致,来实现纠错文本的分类复查,提高分类和纠错精确度。
优选地,在上述任意实施例中,在S2之前还包括:
采用双编码的BERT模型;
在BERT模型的输出层设置句子向量;
在BERT模型的输出层使用softmax函数,并在输出层设置分类参数;
通过交叉熵损失函数计算BERT模型的迭代损失;
通过Adam使用学习率衰减方法更新BERT模型参数,实现BERT分类模型构建。
在某一实施例中,如图3所示,BERT分类模型结构包括:码结构包括:输入、embedding、BERT双向编码结构和输出,其中,BERT双向编码结构包括多个Trm,Trm即transformer block的结构如图4所示。
本发通过构建的BERT分类模型实现转译文本的监管子领域划分,提升各子监管领域和纠错算法的适配性和监管准确性。
优选地,在上述任意实施例中,S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
按照监管类别分别对转译文本和标准文本标注所属监管子领域,获得第一标注语料转译文本和第一标注语料标准文本;
通过第一标注语料转译文本和第一标注语料标准文本存入数据库中对应的监管领域数据库,构成原始语料库。
本方案通过构建的原始语料库为BERT分类模型和子领域BERT纠错模型提供训练源。
优选地,在上述任意实施例中,S2之前还包括:将第一标注语料转译文本设置为BERT分类模型的负样本;
在第一标注语料标准文本中选取容易误判为负样本的正面语料和随机选取正常语料作为BERT分类模型的正样本;
根据负样本和正样本构建分类训练集;
设置BERT分类模型的模型参数;
将分类训练集输入BERT分类模型中对BERT分类模型进行训练,获得训练后的BERT分类模型。
本方案采用基于双向自编码预训练语言BERT模型的分类算法将数据标记为非监管数据和详细的监管数据,使得监管领域数据和非监管数据区分开,并且得到更为详细的监管子领域划分结果。
优选地,在上述任意实施例中,在S3之前还包括:
在原始语料库中分别获取每个监管子领域的ASR的转译文本和人工转译的标准文本;
使用对齐算法对转译文本和标准文本进行对齐处理,获得纠错训练集。
优选地,在上述任意实施例中,在S3之前还包括:设置子领域BERT 纠错模型的训练参数,将纠错训练集作为子领域BERT纠错模型的输入,将标准文本作为训练目标,对子领域BERT纠错模型进行训练,获得训练后的子领域BERT纠错模型。
在某一实施例中,如图5所示,子领域BERT纠错模型结构包括:输入、embedding、BERT双向编码结构和输出,其中,BERT双向编码结构包括多个Trm,Trm即transformerblock的结构如图4所示。
本方案通过训练后的子领域BERT纠错模型实现对每个监管子领域的数据采用基于BERT的方法对各领域数据进行纠错。BERT模型只需要子领域数据微调即可实现即插即用,提升各子监管领域和纠错算法的适配性和监管准确性。
优选地,在上述任意实施例中,在S3之前还包括:
在子领域BERT纠错模型的输出层新增一层全连接网络层;
将子领域BERT纠错模型每个token神经元的输出映射为BERT预训练模型的词向量维度值;
通过layer normalization对子领域BERT纠错模型进行归一化约束处理,获取归一化处理后的子领域BERT纠错模型的embedding参数矩阵;
通过embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为子领域BERT纠错模型的词向量值;
通过softmax对词向量维度值和词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调子领域BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新子领域BERT纠错模型的 embedding参数矩阵。
本方案通过新增一层全连接网络层、每个token神经元的输出映射为 BERT词向量的维度大小,将每个token位置的全连接输出映射到BERT词表大小的向量,过交叉熵损失函数来计算在有效字符位置的微调BERT的迭代损失,最后使用Adam作为优化器和学习率衰减的方式更新模型参数,实现子领域BERT纠错模型的参数优化。
一种存储介质,存储介质中存储有指令,当计算机读取指令时,使计算机执行如上述任一实施例的一种用于监管领域的文本纠错方法。
一种文本纠错装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序,实现如上述任一实施例的一种用于监管领域的文本纠错方法。
可以理解,在一些实施例中,可以包含如上述各实施例中的部分或全部可选实施方式。
需要说明的是,上述各实施例是与在先方法实施例对应的产品实施例,对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明,在此不再赘述。
读者应理解,在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种用于监管领域的文本纠错方法,其特征在于,包括:
S1,获取ASR实时转译文本;
S2,通过训练后的BERT分类模型对所述转译文本进行分类处理,并输出所述转译文本所属监管子领域,并根据所述监管子领域对所述转译文本打上标签;
S3,通过训练后的子领域BERT纠错模型对带标签的所述转译文本进行纠错处理,获得纠错文本;
其中,在所述S2之前还包括:
采用双编码的BERT模型;
在所述BERT模型的输出层设置句子向量;
在所述BERT模型的输出层使用softmax函数,并在输出层设置分类参数;
通过交叉熵损失函数计算所述BERT模型的迭代损失;
通过Adam使用学习率衰减方法更新BERT模型参数,实现所述BERT分类模型构建;
所述S2之前还包括:
收集历史直播场景下原始语音信息的ASR的转译文本和人工转译的标准文本;
按照监管类别分别对所述转译文本和所述标准文本标注所属监管子领域,获得第一标注语料转译文本和第一标注语料标准文本;
通过所述第一标注语料转译文本和所述第一标注语料标准文本存入数据库中对应的监管领域数据库,构成原始语料库;
所述S2之前还包括:将所述第一标注语料转译文本设置为所述BERT分类模型的负样本;
在所述第一标注语料标准文本中选取容易误判为所述负样本的正面语料和随机选取正常语料作为所述BERT分类模型的正样本;
根据所述负样本和所述正样本构建分类训练集;
设置所述BERT分类模型的模型参数;
将所述分类训练集输入所述BERT分类模型中对所述BERT分类模型进行训练,获得训练后的所述BERT分类模型;
在所述S3之前还包括:在所述原始语料库中分别获取每个监管子领域的ASR的转译文本和人工转译的标准文本;
使用对齐算法对所述转译文本和所述标准文本进行对齐处理,获得纠错训练集;
所述使用对齐算法对所述转译文本和所述标准文本进行对齐处理,获得纠错训练集,具体包括:
使用基于Levenshtein距离的对齐算法对标准文本和转译文本信息进行文本字符串对齐,对齐后得到正确、插入、删除、替换这几种标识,以标准文本为模板,只保留转译文本中的正确和替换标识字符,其他标识的字符替换为标准文本中对应位置字符,获得纠错训练集。
2.根据权利要求1所述的一种用于监管领域的文本纠错方法,其特征在于,所述S3之后还包括:
将所述纠错文本输入所述BERT分类模型中进行分类处理,当所述分类结果中的所述领域与所述标签一致,则返回所述纠错文本和所述标签;如果不一致,则对所述转译文本重新分类。
3.根据权利要求1所述的一种用于监管领域的文本纠错方法,其特征在于,在所述S3之前还包括:设置所述子领域BERT纠错模型的训练参数,将所述纠错训练集作为所述子领域BERT纠错模型的输入,将所述标准文本作为训练目标,对所述子领域BERT纠错模型进行训练,获得训练后的所述子领域BERT纠错模型。
4.根据权利要求1或3所述的一种用于监管领域的文本纠错方法,其特征在于,在所述S3之前还包括:
在子领域BERT纠错模型的输出层新增一层全连接网络层;
将所述子领域BERT纠错模型每个token神经元的输出映射为所述BERT预训练模型的词向量维度值;
通过layer normalization对所述子领域BERT纠错模型进行归一化约束处理,获取归一化处理后的所述子领域BERT纠错模型的embedding参数矩阵;
通过所述embedding参数矩阵将每个token神经元位置的全连接网络层的输出映射为所述子领域BERT纠错模型的词向量值;
通过softmax对所述词向量维度值和所述词向量值进行归一化处理,并通过交叉熵损失函数来计算在有效字符位置的微调所述子领域BERT纠错模型的迭代损失;
最后通过Adam使用学习率衰减方式更新所述子领域BERT纠错模型的embedding参数矩阵。
5.一种存储介质,其特征在于,所述存储介质中存储有指令,当计算机读取所述指令时,使所述计算机执行如权利要求1至4中任一项所述的一种用于监管领域的文本纠错方法。
6.一种文本纠错装置,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,实现如权利要求1至4中任一项所述的一种用于监管领域的文本纠错方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052921.9A CN114564942B (zh) | 2021-09-06 | 2021-09-06 | 一种用于监管领域的文本纠错方法、存储介质和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111052921.9A CN114564942B (zh) | 2021-09-06 | 2021-09-06 | 一种用于监管领域的文本纠错方法、存储介质和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114564942A CN114564942A (zh) | 2022-05-31 |
CN114564942B true CN114564942B (zh) | 2023-07-18 |
Family
ID=81712134
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111052921.9A Active CN114564942B (zh) | 2021-09-06 | 2021-09-06 | 一种用于监管领域的文本纠错方法、存储介质和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114564942B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115858776B (zh) * | 2022-10-31 | 2023-06-23 | 北京数美时代科技有限公司 | 一种变体文本分类识别方法、系统、存储介质和电子设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101655837B (zh) * | 2009-09-08 | 2010-10-13 | 北京邮电大学 | 一种对语音识别后文本进行检错并纠错的方法 |
CN109918497A (zh) * | 2018-12-21 | 2019-06-21 | 厦门市美亚柏科信息股份有限公司 | 一种基于改进textCNN模型的文本分类方法、装置及存储介质 |
CN113297833B (zh) * | 2020-02-21 | 2024-10-22 | 华为技术有限公司 | 文本纠错方法、装置、终端设备及计算机存储介质 |
CN111931490B (zh) * | 2020-09-27 | 2021-01-08 | 平安科技(深圳)有限公司 | 文本纠错方法、装置及存储介质 |
-
2021
- 2021-09-06 CN CN202111052921.9A patent/CN114564942B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108091328A (zh) * | 2017-11-20 | 2018-05-29 | 北京百度网讯科技有限公司 | 基于人工智能的语音识别纠错方法、装置及可读介质 |
Non-Patent Citations (2)
Title |
---|
一文读懂BERT(原理篇);废柴当自强;《CSDN》;20190419;1-13 * |
基于BERT的ASR纠错;zenRRan;《CSDN》;20200716;1-6 * |
Also Published As
Publication number | Publication date |
---|---|
CN114564942A (zh) | 2022-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111694924B (zh) | 一种事件抽取方法和系统 | |
CN110532353B (zh) | 基于深度学习的文本实体匹配方法、系统、装置 | |
CN111046670B (zh) | 基于毒品案件法律文书的实体及关系联合抽取方法 | |
CN107943911A (zh) | 数据抽取方法、装置、计算机设备及可读存储介质 | |
CN113191148B (zh) | 一种基于半监督学习和聚类的轨道交通实体识别方法 | |
CN110750993A (zh) | 分词方法及分词器、命名实体识别方法及系统 | |
CN107391495B (zh) | 一种双语平行语料的句对齐方法 | |
CN108959474B (zh) | 实体关系提取方法 | |
CN112307773B (zh) | 机器阅读理解系统的自定义问题数据自动生成方法 | |
CN107993636B (zh) | 基于递归神经网络的乐谱建模与生成方法 | |
CN109858025B (zh) | 一种地址标准化语料的分词方法及系统 | |
CN116361306A (zh) | 面向开放域科普的问答库自动更新方法和装置 | |
CN114564942B (zh) | 一种用于监管领域的文本纠错方法、存储介质和装置 | |
CN111581346A (zh) | 一种事件抽取方法和装置 | |
CN111898337B (zh) | 一种基于深度学习的单句摘要缺陷报告标题自动生成方法 | |
CN114330350A (zh) | 一种命名实体识别方法、装置、电子设备及存储介质 | |
CN116483990B (zh) | 一种基于大数据的互联网新闻内容自动生成方法 | |
CN115688789B (zh) | 一种基于动态标签的实体关系抽取模型训练方法及系统 | |
CN116090449B (zh) | 一种质量问题分析报告的实体关系抽取方法及系统 | |
CN114996442B (zh) | 一种联合抽象程度判别和摘要优化的文本摘要生成系统 | |
CN114595459B (zh) | 基于深度学习的问题整改建议生成方法 | |
CN115757815A (zh) | 知识图谱的构建方法、装置及存储介质 | |
CN115422349A (zh) | 一种基于预训练生成模型的层次文本分类方法 | |
CN115687334B (zh) | 数据质检方法、装置、设备及存储介质 | |
CN116821349B (zh) | 一种基于大数据的文献分析方法及管理系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |