CN113204975A - 一种基于远程监督的敏感文风识别方法 - Google Patents
一种基于远程监督的敏感文风识别方法 Download PDFInfo
- Publication number
- CN113204975A CN113204975A CN202110558876.8A CN202110558876A CN113204975A CN 113204975 A CN113204975 A CN 113204975A CN 202110558876 A CN202110558876 A CN 202110558876A CN 113204975 A CN113204975 A CN 113204975A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- text
- model
- word
- remote supervision
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 31
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000013136 deep learning model Methods 0.000 claims abstract description 10
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims abstract description 9
- 230000003044 adaptive effect Effects 0.000 claims abstract description 4
- 230000007246 mechanism Effects 0.000 claims description 23
- 230000006870 function Effects 0.000 claims description 18
- 230000009466 transformation Effects 0.000 claims description 10
- 230000004913 activation Effects 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 7
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 2
- 230000009193 crawling Effects 0.000 claims 1
- 238000002372 labelling Methods 0.000 abstract description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 3
- 238000012512 characterization method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000009795 derivation Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000003292 glue Substances 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S4搭建BERT+self‑attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;S5输出文本语料中具有敏感信息的文本。本发明提高了对敏感文本识别的准确率和召回率。
Description
技术领域
本发明用于计算机信息处理技术领域,特别涉及一种基于远程监督的敏感文风识别方法。
背景技术
互联网中遍布着大量的新闻,评论等各种各样的文本数据,这些数据为用户们查询信息、沟通交流和拓宽视野等提供了极大的便利。然而这些数据中也包含了大量的涉政、色情、辱骂等大量噪音数据,严重的影响了用户的体验,同时污染我们的生活环境,内容安全的防治刻不容缓。
通过机器学习算法,精准高效识别各类场景涉政、色情、辱骂和广告法敏感词、垃圾广告等违规内容,可以帮助政府和企业提前发现敏感内容。然而,目前的方法仍然存在如下问题:第一、训练模型的标注数据不足,而人工的数据标注需要消耗大量的人力和物力;第二、模型的准确率有待提高。
现阶段的方法主要将敏感文本的识别看成一个多分类问题,然而由于训练语料的缺失,使得敏感文本识别模型准确率和召回率都有待提高,而对训练语料进行人工数据进行标注人工成本特别高。而远程监督是借助外部知识库为数据提供标签,从而省去人工标注的时间和成本。但是远程监督会产生噪音数据,因此还需要搭建模型来进行对敏感文本的识别。
Word2vec是Google公司在2013年提出的词向量模型,主要任务是将词映射到高维空间转化为相应词向量,该词向量具有语义相似度。Word2vec的原理是构造一个网络模型,该网络模型有两种主要结构,分别是skip-gram和CBOW(Continuous Bag Of Words,CBOW)模型。两个模型具有类似的结构,分别由输入层、映射层(隐藏层)和输出层组成。简单来说,skip-gram的核心思想是根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率。
BERT的全称是Bidirectional Encoder Representation from Transformers。BERT在机器阅读理解顶级水平测试SQuAD1.1中表现出惊人的成绩:全部两个衡量指标上全面超越人类,并且在11种不同NLP测试中创出SOTA表现,包括将GLUE基准推高至80.4%(绝对改进7.6%),MultiNLI准确度达到86.7%(绝对改进5.6%),成为NLP发展史上的里程碑式的模型成就。
目前现有技术中,对敏感文风的识别常采用的技术方案多为以远程监督方法为主,将文本与现有知识库进行启发式地标注构建大规模语料后,再采用有监督的方法进行学习。例如,专利申请号为CN202010523627.0的发明专利,该发明公开了一种面向社交媒体的敏感数据发现方法,通过主题模型与词向量模型,利用词语相似度与文档中的词共现信息,实现弱监督的文本分类算法,通过依靠实现设定少量敏感信息相关的关键词,结合大规模语料训练的词向量,来对敏感信息进行分类过滤,高效率、低成本地解决社交媒体敏感数据发现问题,但是该专利没有考虑噪音数据对模型的干扰;例如,专利申请号为CN202011362711.5的发明专利,该专利公开了一种基于多任务多示例的远程监督关系抽取方法,采用多任务和多示例的学习架构,以及Word2vec词向量预训练和多示例的句子级别注意力机制方法进行远程监督关系抽取,具体包括:数据预处理、输入表征、抽象语义表示、实体类型表征和多任务多示例关系抽取等步骤;该发明有效解决了噪声、训练不充分和数据的类不均衡问题,有效降低噪声对分类的影响,提高真实句子对分类的贡献,对缓解噪声和NA对分类的影响,具有一定的实用价值。
目前并没有将远程监督与Word2vec词向量、BERT模型相结合的高准确率和召回率的识别方法,因此发明人在这一方向上进行了进一步的伸入研究。
发明内容
本发明为解决公知技术中存在的技术问题提供一种基于远程监督的敏感文风识别方法,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。针对远程监督产生的噪音数据,采用了融入BERT先验知识,使用自注意力机制获取关键特征的BERT+self-attention+softmax模型,降低噪声数据对模型的干扰,很好的提高对敏感文本识别的准确率和召回率。
本发明包括如下技术方案:一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;S5输出文本语料中具有敏感信息的文本。
进一步的,S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型,训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系。根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率,以应对训练语料不足的情况。
进一步的,S2中类别划分主要为涉黄、反动、暴恐三类,S2中的敏感种子词扩充过程中进行人工校正。S2中的类别划分包括但不限于上述三类,类别划分可以根据具体识别需要进行修改或扩充,在每个类别下进行扩充来得到更多的触发词,应对word2vec词向量模型训练语料不足的情况。
进一步的,S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集。本发明通过S3这一步骤来达到减少人工标注的目的。
进一步的,S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别。
进一步的,S4中利用BERT对待输入的句子进行编码,作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。BERT模型具有进一步增加词向量模型泛化的能力,能够充分描述字符级、词级、句子级甚至句间关系特征,是真正的双向编码。
进一步的,在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的,因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰,本发明采用多头注意力机制。多头注意力是利用多个查询,来平行地计算从输入信息中选取多个信息,每个注意力关注输入信息的不同部分。
进一步的,所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果。
进一步的,S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。Sigmoid作为激活函数有平滑、易于求导的优点。步骤S4降低了噪声数据对模型的干扰,很好的提高模型对敏感文本识别的准确率和召回率。
本发明具有的优点和积极效果:
1、本发明利用远程监督的思想,可以在缺少训练语料的情况下,通过半监督的方法生成训练集来训练模型,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。
2、本发明能够减少人工标注的工作,并且构建和训练准确率、召回率较高的深度学习模型。
3、本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型,使用BERT对文本进行编码,使用自注意力机制关注重要的敏感文本特征,从大规模文本数据中准确的识别出包含敏感字眼的文本数据,实现敏感文本的自动识别,进而为用户提供一个干净而且文明的网络环境,提高用户上网体验。
4、本发明采用多头注意力机制减少噪音数据对训练模型的干扰,通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃,采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。
附图说明
图1是基于远程监督的敏感文风识别流程图。
具体实施方式
为能进一步公开本发明的发明内容、特点及功效,特例举以下实例并结合附图详细说明,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
实施例:参阅附图1,一种基于远程监督的敏感文风识别方法,包括以下步骤:S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;Word2vec是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学的词文本。神经网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。S1中的所述文本语料从网络中爬取后利用分词软件(如HanLP、结巴分词、FudanNLP、LTP等)进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型;根据当前词来预测上下文窗口中每个词的生成概率,最大化背景词的输出概率,以应对训练语料不足的情况。
S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;S2中类别划分主要为涉黄、反动、暴恐三类,类别划分可以根据具体识别需要进行修改或扩充,S2中的敏感种子词扩充过程中进行人工校正,得到最终的各个类别的触发词词汇集合;S2中的类别划分包括但不限于上述三类,在每个类别下进行扩充来得到更多的触发词,应对word2vec词向量模型训练语料不足的情况。
S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集;本发明通过S3这一步骤来达到减少人工标注的目的。
S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别。Adam优化算法是一种在深度学习模型中用来替代随机梯度下降的优化算法。Adam算法和传统的随机梯度下降不同。随机梯度下降保持单一的学习率(即alpha)更新所有的权重,学习率在训练过程中并不会改变。而Adam通过计算梯度的一阶矩估计和二阶矩估计而为不同的参数设计独立的自适应性学习率。Adam结合了AdaGrad和RMSProp算法最优的性能,它还是能提供解决稀疏梯度和噪声问题的优化方法。Adam优化算法的调参相对简单,默认参数就可以处理绝大部分的问题。
BERT模型具有进一步增加词向量模型泛化的能力,能够充分描述字符级、词级、句子级甚至句间关系特征,是真正的双向编码:Masked LM类似完形填空,尽管仍旧看到所有位置信息,但需要预测的词已被特殊符号代替,可以放心双向编码。Transformer做encoder实现上下文相关可以有更深的层数、具有更好并行性。并且线性的Transformer比lstm更易免受mask标记影响,只需要通过self-attention减小mask标记权重即可。提升至句子级别:学习句子/句对关系表示,句子级负采样。首先给定的一个句子,下一句子正例(正确词),随机采样一句负例(随机采样词),句子级上来做二分类(即判断句子是当前句子的下一句还是噪声)。S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别;S4中利用BERT对待输入的句子进行编码,作为模型的输入。利用BERT能够自监督学习的特征来减少人工标注数据的工作。
在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。由于训练数据是基于远程监督的方法构建的,因此训练数据中存在一定的噪声。为了减少噪音数据对训练模型的干扰,本发明采用多头注意力机制。多头注意力是利用多个查询,来平行地计算从输入信息中选取多个信息,每个注意力关注输入信息的不同部分。注意力机制本身是一个函数,该函数实现了从query和一系列键值对(key-value pair)到输出结果output的映射,其中query、key和value都是向量。输出结果output的计算通过对value进行加权求和来得到,而每一个value所对应的权值是由query和key通过一个相容性函数来计算获取。通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃。S4中采用的所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果;
S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。Sigmoid函数是一个在生物学中常见的S型函数,也称为S型生长曲线。在信息科学中,由于其单增以及反函数单增等性质,Sigmoid函数常被用作神经网络的激活函数,将变量映射到0,1之间。Sigmoid函数也叫Logistic函数,用于隐层神经元输出,取值范围为(0,1),它可以将一个实数映射到(0,1)的区间,可以用来做二分类。在特征相差比较复杂或是相差不是特别大时效果比较好。Sigmoid作为激活函数有平滑、易于求导的优点。
S5输出文本语料中具有敏感信息的文本。
工作原理:S1获取文本语料;S2构建扩展种子词;S3利用自适应模板,基于种子词抽取包含敏感文本的语料;S4训练BERT+self-attention+softmax模型,识别敏感文风;S5输出具有敏感信息的文本。
本发明利用远程监督的思想,可以在缺少训练语料的情况下,通过半监督的方法生成训练集来训练模型,很好的解决了训练语料不足可能导致的模型过拟合和召回率低的问题。本发明能够减少人工标注的工作,并且构建和训练准确率和召回率较高的深度学习模型。
本发明采用BERT编码结合self-attention层以及softmax层的敏感文风识别模型,使用BERT对文本进行编码,使用自注意力机制关注重要的敏感文本特征,从大规模文本数据中准确的识别出包含敏感字眼的文本数据,实现敏感文本的自动识别,进而为用户提供一个干净而且文明的网络环境,提高用户上网体验。
本发明采用多头注意力机制减少噪音数据对训练模型的干扰,通过多头注意力机制,模型能够使用不同序列位置的不同子空间的表征信息来进行序列数据处理,而在单一注意力机制中这些不同位置不同子空间的表征信息由于取均值操作的存在而将被模型丢弃,采用多头注意力机制很好的提高模型对敏感文本识别的准确率和召回率。
尽管上面对本发明的优选实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,并不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可以作出很多形式。这些均属于本发明的保护范围之内。
Claims (9)
1.一种基于远程监督的敏感文风识别方法,其特征在于包括以下步骤:
S1获取文本语料,针对互联网中获取的大量的文本语料利用word2vec训练词向量模型,获得文本中每一个词语的语义向量表示;
S2根据业务需求进行类别划分并构建各个类别的种子词,针对各个类别的的种子词,利用训练好的词向量模型,对各个类别的种子词进行扩充,获得每个敏感类别的触发词集合;
S3针对获得的每个触发词,利用自适应模板,回到原始文本语料中进行回标,获得带有目标敏感标签的训练语料;
S4搭建BERT+self-attention+softmax深度学习模型,选用adam优化算法对模型进行训练,训练好的模型用于对敏感文本进行识别;
S5输出文本语料中具有敏感信息的文本。
2.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S1中的所述文本语料从网络中爬取后利用分词软件进行数据预处理,然后基于已经分词的文本数据训练word2vec词向量模型。
3.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S2中类别划分主要为涉黄、反动、暴恐三类,S2中的敏感种子词扩充过程中进行人工校正。
4.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S3中如果词语命中,则将该句子打上相应的类别标签;如果没有命中的句子则打上相应的负类标签,最终形成模型的训练数据集。
5.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S4中给定一条句子,输入到所述BERT+self-attention+softmax深度学习模型中,该模型自动输出该句子所属的类别。
6.根据权利要求1所述的基于远程监督的敏感文风识别方法,其特征在于:S4中利用BERT对待输入的句子进行编码,作为模型的输入。
7.根据权利要求6所述的基于远程监督的敏感文风识别方法,其特征在于:在S4中搭建self-attention层并采用多头注意力机制自动的挖掘BERT编码的重要特征。
8.根据权利要求7所述的基于远程监督的敏感文风识别方法,其特征在于:所述多头注意力机制的Query、Key、Value首先经过一个线性变换,然后输入到放缩点积attention,每次Query、Key、Value进行线性变换的参数W均不同,将多次的放缩点积attention结果进行拼接,再进行一次线性变换得到的值作为多头attention的结果。
9.根据权利要求7所述的基于远程监督的敏感文风识别方法,其特征在于:S4中在self-attention层后搭建一个softmax层,使用sigmoid作为激活函数用来对多分类的结果进行归一化,输出待预测文本在各个标签上的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558876.8A CN113204975A (zh) | 2021-05-21 | 2021-05-21 | 一种基于远程监督的敏感文风识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110558876.8A CN113204975A (zh) | 2021-05-21 | 2021-05-21 | 一种基于远程监督的敏感文风识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113204975A true CN113204975A (zh) | 2021-08-03 |
Family
ID=77022976
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110558876.8A Pending CN113204975A (zh) | 2021-05-21 | 2021-05-21 | 一种基于远程监督的敏感文风识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113204975A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672732A (zh) * | 2021-08-19 | 2021-11-19 | 胜斗士(上海)科技技术发展有限公司 | 用于对业务数据进行分类的方法和设备 |
CN113963296A (zh) * | 2021-10-22 | 2022-01-21 | 维沃移动通信有限公司 | 视频识别方法、装置、设备及存储介质 |
CN114547670A (zh) * | 2022-01-14 | 2022-05-27 | 北京理工大学 | 利用差分隐私词嵌入扰动的敏感文本脱敏方法 |
CN114942995A (zh) * | 2022-06-22 | 2022-08-26 | 深圳市百川数安科技有限公司 | 互联网社区的相似敏感词的扩展方法、装置及存储介质 |
CN117349889A (zh) * | 2023-10-20 | 2024-01-05 | 深圳市志合创伟信息技术有限公司 | 一种基于云计算的安全数据的访问控制方法、系统及终端 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110534087A (zh) * | 2019-09-04 | 2019-12-03 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
CN111324769A (zh) * | 2020-01-20 | 2020-06-23 | 腾讯科技(北京)有限公司 | 视频信息处理模型的训练方法、视频信息处理方法及装置 |
WO2020211756A1 (zh) * | 2019-04-15 | 2020-10-22 | 深圳数字生命研究院 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
-
2021
- 2021-05-21 CN CN202110558876.8A patent/CN113204975A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020211756A1 (zh) * | 2019-04-15 | 2020-10-22 | 深圳数字生命研究院 | 语义识别方法、装置、计算机可读存储介质和计算机设备 |
CN110334210A (zh) * | 2019-05-30 | 2019-10-15 | 哈尔滨理工大学 | 一种基于bert与lstm、cnn融合的中文情感分析方法 |
CN110534087A (zh) * | 2019-09-04 | 2019-12-03 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN110990564A (zh) * | 2019-11-19 | 2020-04-10 | 北京信息科技大学 | 一种基于情感计算与多头注意力机制的负面新闻识别方法 |
CN110929034A (zh) * | 2019-11-26 | 2020-03-27 | 北京工商大学 | 一种基于改进lstm的商品评论细粒度情感分类方法 |
CN111324769A (zh) * | 2020-01-20 | 2020-06-23 | 腾讯科技(北京)有限公司 | 视频信息处理模型的训练方法、视频信息处理方法及装置 |
Non-Patent Citations (1)
Title |
---|
张冬瑜等: "基于Transformer和BERT的名词隐喻识别", 数据分析与知识发现, no. 4, 30 April 2020 (2020-04-30), pages 100 - 108 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113672732A (zh) * | 2021-08-19 | 2021-11-19 | 胜斗士(上海)科技技术发展有限公司 | 用于对业务数据进行分类的方法和设备 |
CN113672732B (zh) * | 2021-08-19 | 2024-04-26 | 胜斗士(上海)科技技术发展有限公司 | 用于对业务数据进行分类的方法和设备 |
CN113963296A (zh) * | 2021-10-22 | 2022-01-21 | 维沃移动通信有限公司 | 视频识别方法、装置、设备及存储介质 |
CN114547670A (zh) * | 2022-01-14 | 2022-05-27 | 北京理工大学 | 利用差分隐私词嵌入扰动的敏感文本脱敏方法 |
CN114942995A (zh) * | 2022-06-22 | 2022-08-26 | 深圳市百川数安科技有限公司 | 互联网社区的相似敏感词的扩展方法、装置及存储介质 |
CN117349889A (zh) * | 2023-10-20 | 2024-01-05 | 深圳市志合创伟信息技术有限公司 | 一种基于云计算的安全数据的访问控制方法、系统及终端 |
CN117349889B (zh) * | 2023-10-20 | 2024-10-18 | 深圳市志合创伟信息技术有限公司 | 一种基于云计算的安全数据的访问控制方法、系统及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113761936B (zh) | 一种基于多头自注意力机制的多任务篇章级事件抽取方法 | |
CN108984526B (zh) | 一种基于深度学习的文档主题向量抽取方法 | |
CN109977416B (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
CN109800437B (zh) | 一种基于特征融合的命名实体识别方法 | |
CN113204975A (zh) | 一种基于远程监督的敏感文风识别方法 | |
Zhao et al. | Attention-Based Convolutional Neural Networks for Sentence Classification. | |
CN112115995A (zh) | 一种基于半监督学习的图像多标签分类方法 | |
CN109189925A (zh) | 基于点互信息的词向量模型和基于cnn的文本分类方法 | |
CN108228569B (zh) | 一种基于松散条件下协同学习的中文微博情感分析方法 | |
CN110502753A (zh) | 一种基于语义增强的深度学习情感分析模型及其分析方法 | |
Wu et al. | Linguistic steganalysis with graph neural networks | |
CN106980683A (zh) | 基于深度学习的博客文本摘要生成方法 | |
CN106569998A (zh) | 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法 | |
CN111563143B (zh) | 一种新词的确定方法及装置 | |
Yang et al. | Rits: Real-time interactive text steganography based on automatic dialogue model | |
CN116521882A (zh) | 基于知识图谱的领域长文本分类方法及系统 | |
CN113515632A (zh) | 基于图路径知识萃取的文本分类方法 | |
CN111125367A (zh) | 一种基于多层次注意力机制的多种人物关系抽取方法 | |
CN111309918A (zh) | 一种基于标签关联性的多标签文本分类方法 | |
CN107346327A (zh) | 基于监督转移的零样本哈希图片检索方法 | |
CN115203406A (zh) | 一种基于RoBERTa模型的长文本信息立场检测方法 | |
CN114925205A (zh) | 基于对比学习的gcn-gru文本分类方法 | |
CN102436512A (zh) | 一种基于偏好度的网页文本内容管控方法 | |
CN116150372A (zh) | 一种基于双曲图注意力网络的短文本分类方法及装置 | |
CN115292490A (zh) | 一种用于政策解读语义的分析算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20211227 Address after: A111, 1f, building 3, No. 1, zone 1, Lize Zhongyuan, Wangjing emerging industrial zone, Chaoyang District, Beijing 100020 Applicant after: MIAOZHEN INFORMATION TECHNOLOGY Co.,Ltd. Address before: Floor 29, 30, 31, 32, No. 701, Yunjin Road, Xuhui District, Shanghai, 200030 Applicant before: Shanghai minglue artificial intelligence (Group) Co.,Ltd. |
|
TA01 | Transfer of patent application right |