CN116910279A - 标签提取方法、设备及计算机可读存储介质 - Google Patents
标签提取方法、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116910279A CN116910279A CN202311178989.0A CN202311178989A CN116910279A CN 116910279 A CN116910279 A CN 116910279A CN 202311178989 A CN202311178989 A CN 202311178989A CN 116910279 A CN116910279 A CN 116910279A
- Authority
- CN
- China
- Prior art keywords
- semantic
- vector
- tag
- model
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 60
- 238000003860 storage Methods 0.000 title claims abstract description 18
- 239000013598 vector Substances 0.000 claims abstract description 133
- 238000000034 method Methods 0.000 claims abstract description 41
- 238000012549 training Methods 0.000 claims description 62
- 230000006870 function Effects 0.000 claims description 36
- 238000011176 pooling Methods 0.000 claims description 13
- 238000012360 testing method Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 230000011218 segmentation Effects 0.000 claims description 11
- 239000012634 fragment Substances 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000009193 crawling Effects 0.000 claims description 4
- 238000005520 cutting process Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 238000013210 evaluation model Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000008569 process Effects 0.000 description 17
- 230000014509 gene expression Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 239000002699 waste material Substances 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 101000928335 Homo sapiens Ankyrin repeat and KH domain-containing protein 1 Proteins 0.000 description 1
- 101000701393 Homo sapiens Serine/threonine-protein kinase 26 Proteins 0.000 description 1
- 102100030617 Serine/threonine-protein kinase 26 Human genes 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种标签提取方法、设备及计算机可读存储介质,属于信息处理技术领域。该方法包括:基于待提取的非结构化文本确定数字向量,所述数字向量表征所述非结构化文本的上下文信息和语义信息;将所述数字向量输入训练好的语义模型,得到对应的语义特征;将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签。本发明旨在提取非结构化文本的标签信息。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及标签提取方法、设备及计算机可读存储介质。
背景技术
为快速获取到需要的信息,越来越多的用户会选择自动化提取方式,即利用计算机技术从海量数据中提取出精炼的、有价值的信息,极大提升了信息提取的效率。
在相关技术中,通常使用正则表达式快速提取所需信息,具体步骤如下:寻找模式,即确定要提取的信息的模式,例如日期、号码等;构建正则表达式,即基于所需的模式,构建合适的正则表达式;编译正则表达式,即在代码中使用合适的编程语言将正则表达式编译为可执行的模式;匹配文本,即将要提取信息的文本输入到编译后的正则表达式中,以查找匹配的模式;提取信息和处理结果,即根据匹配到的模式,提取所需的信息,并对提取到的信息进行必要的处理。
然而,正则表达式只能处理基于模式的匹配,无法理解文本的上下文,因此,针对需要理解语义的非结构化文本,如自然语言文本,正则表达式无法进行信息提取。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种标签提取方法、设备及计算机可读存储介质,旨在解决现有信息提取方式的提取广度有限的技术问题。
为实现上述目的,本发明提供一种标签提取方法,所述标签提取方法包括以下步骤:
基于待提取的非结构化文本确定数字向量,所述数字向量表征所述非结构化文本的上下文信息和语义信息;
将所述数字向量输入训练好的语义模型,得到对应的语义特征;
将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签。
可选地,所述数字向量包括加权值向量,所述基于待提取的非结构化文本确定数字向量的步骤包括:
根据分词算法,将待提取的非结构化文本中的长句,切割成若干固定长度的词片段;
确定每个所述词片段的查询向量、键向量和值向量,并根据所述查询向量和所述键向量,计算每个所述词片段的注意力权重;
对所述注意力权重和所述值向量进行加权求和,得到每个所述词片段的加权值向量。
可选地,所述训练好的语义模型包括训练好的掩码语言模型和训练好的句子预测模型,所述将所述数字向量输入训练好的语义模型,得到对应的语义特征的步骤包括:
随机选定部分所述数字向量,并将选定的所述数字向量替换为掩码标记;
将所述数字向量和所述掩码标记输入训练好的掩码语言模型,预测所述掩码标记所屏蔽的词片段;
将所述数字向量输入训练好的句子预测模型,预测各所述词片段所在长句的相邻关系;
根据预测词片段和预测相邻关系,理解语义信息,并确定所述语义信息对应的语义特征;
将所有所述语义特征划分为若干同类语义特征组,并对各所述同类语义特征组进行池化操作,得到对应的代表语义特征。
可选地,所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤包括:
获取标签池的若干标签,并比较所述代表语义特征和所有所述标签之间的向量相似度;
将所述向量相似度最高的标签确定为目标标签。
可选地,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
通过爬虫技术,爬取网页上的数据,得到半结构化文本;
根据本体属性,将所述半结构化文本划分为结构化文本和非结构化文本;
所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤之后,包括:
按照文本存储时的标准格式,对所述结构化文本进行解析和提取,直接生成关键信息;
对所述目标标签和所述关键信息进行数据融合,得到对应的目标结构化文本。
可选地,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
获取训练样本以及对应的标准语义特征,并基于所述训练样本确定训练数字向量,所述训练数字向量表征所述训练样本的上下文信息和语义信息;
将所述训练数字向量输入预训练的语义模型,得到对应的训练语义特征;
根据预置的损失函数,计算所述训练语义特征和所述标准语义特征之间的损失函数值,并根据所述损失函数值调整所述预训练的语义模型,直至达到最小损失函数值。
可选地,所述根据预置的损失函数,计算所述训练语义特征和所述标准语义特征之间的损失函数值,并根据所述损失函数值调整所述预训练的语义模型,直至达到最小损失函数值的步骤之后,包括:
通过测试样本评估模型,计算所述预训练的语义模型的准确率、召回率和平衡指标;
根据计算结果和对应的权重值,计算所述预训练的语义模型的综合指标值;
若所述综合指标值满足指标阈值,则导出训练好的语义模型。
可选地,所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤包括:
将所述语义特征和标签池进行匹配,若匹配率不满足最低匹配率,则将所述语义特征作为新的标签,加入所述标签池。
此外,为实现上述目的,本发明还提供一种标签提取设备,所述标签提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签提取程序,所述标签提取程序配置为实现所述的标签提取方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有标签提取程序,所述标签提取程序被处理器执行时实现所述的标签提取方法的步骤。
在本发明提供的一个技术方案中,确定非结构化文本的数字向量,然后将数字向量输入训练好的语义模型,得到对应的语义特征,最后根据语义特征和标签池的匹配结果,确定文本的目标标签。本方案通过数据处理和语义模型,可以理解非结构化文本的上下文信息和语义信息,进而对文本中难以理解的抽象信息进行精确提取,并预与之匹配目标标签,实现非结构化文本的自动化提取,后续还可以基于每个文本的目标标签,快速实现文本分类。而且,本方案所采用的语义模型的通用性较高,故在面对新政策时,不存在频繁迭代和更新的问题,从而极大地降低了信息提取工具维护和更新的成本。
附图说明
图1为本发明标签提取方法第一实施例的流程示意图;
图2为本发明标签提取方法第二实施例的流程示意图;
图3为本发明标签提取方法第三实施例的流程示意图;
图4为本发明实施例方案涉及的硬件运行环境的标签提取设备的结构示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在自动化提取信息的过程中,通常需要构建正则表达式、构建关系词库等。
然而,正则表达式只能处理基于模式的匹配,无法理解文本的上下文,因此,针对需要理解语义的非结构化文本,如自然语言文本,正则表达式无法进行信息提取。而且,不同类型的文件和不同时期的文件,对应的信息模式不同,因此,针对上述文件,需要不断构建和编译正则表达式,造成信息提取成本过高,且通用性较低。
至于关系词库,在构建过程中会比较消耗资源,同时随着越来越多的文本录入,词库也需要不断地更新与优化,导致运营成本较高。
为解决上述问题,本发明先从非结构化文本中提取出数字向量,将其输入训练好的语义模型得到语义特征,然后经标签池匹配,确定目标标签,以此实现非结构文本的信息理解和标签提取,拓展信息提取广度。
为了更好的理解上述技术方案,下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例,然而应当理解,可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本申请,并且能够将本申请的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种标签提取方法,参照图1,图1为本发明一种标签提取方法第一实施例的流程示意图。
本实施例中,所述标签提取方法包括:
步骤S11:基于待提取的非结构化文本确定数字向量,所述数字向量表征所述非结构化文本的上下文信息和语义信息;
本方案的应用场景包括但不限于:政府部门基于现有政策或者信息进行政策解读、管理公共事务、调研、更新政策等相关工作,法律相关单位或机构处理法律文书、辅助司法决策等工作,企业筛选信息、精炼信息、舆情监控、市场调研等工作,金融相关单位或机构筛选信息、制定方向、进行合规检查等工作。为便于理解,本方案以提取政策文件中的标签为例进行说明。
可以理解的是,非结构化文本,是指没有明确的格式或组织结构的文本数据,这种文本通常不遵循特定的模式或规则,难以被直接理解,需要转换为数值形式才能进行进一步的分析和处理;数字向量,是一种典型的非结构文本的数值形式,能够表征非结构化文本的上下文和语义。
可选地,词袋模型(Bag-of-Words Model):将待提取的非结构化文本看作是由词语组成的集合,统计每个词语在文本中的出现次数或频率。具体可以使用CountVectorizer或TfidfVectorizer等工具将文本转化为词袋模型表示的数字向量。
可选地,词频-逆向文件频率提取法(Term Frequency–Inverse DocumentFrequency,TF-IDF):在词袋模型的基础上引入词语的重要性权重,TF表示词语在文本中的频率,IDF表示词语在整个文集中的逆文档频率。通过计算TF和IDF的乘积,可以得到词语的TF-IDF权重。具体可以使用TfidfVectorizer工具将文本转化为TF-IDF表示的数字向量。
可选地,所述数字向量包括加权值向量,步骤S11包括:
步骤S111:根据分词算法,将待提取的非结构化文本中的长句,切割成若干固定长度的词片段;
可以理解的是,政策文件通常是由长句子按段落形式构成的,而BERT模型所需的输入格式是固定长度的词片段,并且需要将文字转换为数字。因此,在进行政策文件预处理时,需要进行分词、编码和添加掩码等步骤,以使政策文件能够适配BERT模型。
可选地,使用分词算法,如基于规则的分词算法、统计分词算法、基于机器学习的分词算法、基于深度学习的分词算法等,将政策文本中的长句,切割成一个个独立的单词或词汇单元,统称为词片段。
示例性地,采用Word Piece算法,经初始化词汇表、计算词频、合并字符片段、切割文本等步骤,将政策文本切割成固定长度的词片段,例如,对于句子“Bert is a powerfulNLP model”,分词后得到的词片段为:“Bert”、“is”、“a”、“powerful”、“NLP”、“model”。
步骤S112:确定每个所述词片段的查询向量、键向量和值向量,并根据所述查询向量和所述键向量,计算每个所述词片段的注意力权重;
可以理解的是,编码过程涉及基于转换器的双向编码模型(BidirectionalEncoder Representations from Transformer,BERT),尤其是Transformer模型的自注意力机制,自注意力机制允许每个词片段与其他词片段进行交互,以便有效地捕捉上下文的语义关系。
可选地,在Transformer模型中,每个词片段都会被分别映射为查询向量、键向量和值向量。这一步骤通常是通过一个线性变换来实现的,具体来说,对于每个词片段的输入向量,会分别乘以三个权重矩阵(查询权重矩阵、键权重矩阵和值权重矩阵)来得到对应的查询向量、键向量和值向量,这些向量用于计算注意力权重,以便将上下文中相关信息聚焦到当前词片段上。
进一步地,通过计算查询向量与所有词片段的键向量的点积,然后对点积进行缩放和softmax操作,得到归一化的注意力权重,这些权重表示了当前词片段与其他词片段之间的相似度,即上下文中的重要性。
步骤S113:对所述注意力权重和所述值向量进行加权求和,得到每个所述词片段的加权值向量。
可选地,使用注意力权重对每个词片段的值向量进行加权求和,得到最终的表示,即每个词片段的加权值向量。
一方面,通过计算注意力权重,加权值向量捕捉了词片段与其他词片段之间的关系,模型可以关注与当前词片段相关的其他词片段,从而捕捉上下文中的语义和语法关系,因此,加权值向量可以表征非结构化文本的上下文信息。
另一方面,通过注意力机制对值向量进行加权求和,可以将不同词片段的语义信息融合到最终的表示中,因此,加权值向量包含了词片段的综合性的语义信息,故加权值向量可以表征非结构化文本的语义信息。
需要注意的是,BERT模型采用多头注意力机制,这意味着模型学习了多个不同的注意力权重,从不同的角度关注上下文中的信息。最后,这些不同头的输出会被拼接在一起,并通过线性变换得到最终的向量表示。
需要注意的是,词频-逆向文件频率(term frequency–inverse documentfrequency,TF-IDF)等文本特征提取方法,对文章长度非常敏感,而文本中可能存在大量短篇通知,如政策延期通知、政策废止通知等。在面对这些政策文件时,TF-IDF的关键词提取容易出现不精确的问题。在本方案中,BERT模型不局限于非结构文本的长短与否,无论是短文本、长文本,甚至整个文档,都需要进行相应的分词操作,然后对每个片段进行编码,这样可以任何篇幅文本中的局部和全局信息。
步骤S12:将所述数字向量输入训练好的语义模型,得到对应的语义特征;
可以理解的是,训练好的语义模型是指通过大规模的数据集进行训练,能够理解和表示语义的模型,这些模型通过学习文本数据中的语义关系和上下文信息,可以对自然语言进行理解和处理。
可选地,ERNIE(Enhanced Representation through Knowledge Integration)是一种基于Transformer的预训练语言模型,通过ERNIE模型的前向传播过程,获取数字向量对应的语义特征。
可选地,使用BERT-Base,Chinese模型,一款专门针对中文语言处理的预训练模型,所述训练好的语义模型包括训练好的掩码语言模型和训练好的句子预测模型,步骤S12包括:
步骤S121:随机选定部分所述数字向量,并将选定的所述数字向量替换为掩码标记;
步骤S122:将所述数字向量和所述掩码标记输入训练好的掩码语言模型,预测所述掩码标记所屏蔽的词片段;
步骤S123:将所述数字向量输入训练好的句子预测模型,预测各所述词片段所在长句的相邻关系;
步骤S124:根据预测词片段和预测相邻关系,理解语义信息,并确定所述语义信息对应的语义特征;
步骤S125:将所有所述语义特征划分为若干同类语义特征组,并对各所述同类语义特征组进行池化操作,得到对应的代表语义特征。
可以理解的是,将已处理的政策文本数据以固定向量的形式输入到BERT模型中,BERT通过执行掩码语言模型(MaskedLanguageModel,MLM)和句子预测模型(NextSentencePrediction,NSP),获取语义特征。
可选地,在MLM中,模型会随机地屏蔽文本中的一些词片段的数字向量,并将其替换为一个特殊的掩码标记"[MASK]"。将数字向量和掩码标记输入训练好的句子预测模型,模型基于之前训练过程中学到的词汇之间的关系,预测掩码标记所屏蔽的词片段。掩码标记可以帮助模型更好地学习上下文信息,并避免过度依赖输入中的某些词汇。
进一步地,在NSP中,检测到数字向量(包括预测词片段的数字向量)的输入操作后,模型会基于之前训练过程中学到的句子之间的关系,分析各词片段(包括预测词片段)所在的长句,在原始文本中是否存在相邻关系,即两个句子之间是否是连续的,以把握句子间的语义和连贯性。
至此,基于MLM预测的词片段和NSP预测的相邻关系,理解每个数字向量的具体语义信息,进而确定语义信息对应的语义特征,如“通信”、“网络”、“计算机”等。
接着,根据语义的相似程度,将所有的语义特征进行划分,归类为若干个同类语义特征组,如A组为建筑类,包括建筑、建设、房地产等语义特征,又如B组为绿色类,包括绿色、节约、环保等语义特征。
在完成归类后,对同类语义特征组进行池化操作,池化操作可以通过保留最显著的特征来提取重要的特征信息。池化操作主要分为两种类型,最大池化(MaxPooling)和平均池化(AveragePooling)。其中,最大池化通过从每个特征维度的向量中选取最大的值,并将其作为该特征维度的输出值,实质上是在每个特征维度上选择具有最高权重或最强表示的词向量,具体来说,就是比较同类语义特征组中,各语义特征的向量值大小,将最大向量值对应的语义特征,作为本组的代表语义特征;平均池化是计算输入向量中每个特征维度的平均值,并将其作为相应特征维度的输出值,可以将平均池化视为对词向量的整体语义的平均表示,具体来说,就是求得一个同类语义特征组中,所有语义特征的平均向量值,并将该平均向量值对应的语义特征,作为本组的代表语义特征。
需要注意的是,选择何种池化方式将在后续模型的优化与迭代中决定。然而,池化的最终目的是借助获得的固定长度向量,这样可以将整个文本序列的语义信息进行压缩和表示,便于将数据输入后续的神经网络层或分类器,以实现政策文本的分类任务。
步骤S13:将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签。
可以理解的是,在多标签学习任务中,每个非结构化文本可以属于多个标签,因此需要一个标签池来表示所有可能的标签。如在行业标签池中,包括建筑工程行业、绿色建筑相关行业、建筑节能相关行业、建筑废弃物相关行业等标签。
可选地,预先定义一些规则或规则集,用于判断语义特征和标签之间的匹配关系,这些规则可以基于先验知识、领域专业知识或经验总结而来。根据规则进行匹配,将符合规则的标签与语义特征进行匹配。
可选地,步骤S13包括:
步骤S131:获取标签池的若干标签,并比较所述代表语义特征和所有所述标签之间的向量相似度;
步骤S132:将所述向量相似度最高的标签确定为目标标签。
可选地,将语义特征和标签池进行匹配,并根据语义特征和每个标签的匹配结果选择目标标签,具体过程为,获取标签池中的所有标签,然后使用文本相似度计算方法(如余弦相似度、编辑距离等)来比较语义特征和每个标签之间的向量相似度,并选择相似度最高的标签作为目标标签,即非结构化文本的标签信息。
需要注意的是,如果语义特征和现有标签的匹配率均低于预置的最低匹配率,即,即向量相似度低于最低相似度,说明现有标签池内没有特别相关的标签,因此,可以将语义特征作为新的标签,加入标签池,便于后续文本的标签提取工作。
在本实施例提供的一个技术方案中,确定非结构化文本的数字向量,然后将数字向量输入训练好的语义模型,得到对应的语义特征,最后根据语义特征和标签池的匹配结果,确定文本的目标标签。本方案通过数据处理和语义模型,可以理解非结构化文本的上下文信息和语义信息,进而对文本中难以理解的抽象信息进行精确提取,并预与之匹配目标标签,实现非结构化文本的自动化提取,后续还可以基于每个文本的目标标签,快速实现文本分类。而且,本方案所采用的语义模型的通用性较高,故在面对新政策时,不存在频繁迭代和更新的问题,从而极大地降低了信息提取工具维护和更新的成本。
进一步的,参照图2,提出本发明标签提取方法的第二实施例。基于上述图1所示的实施例,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
步骤S21:通过爬虫技术,爬取网页上的数据,得到半结构化文本;
步骤S22:根据本体属性,将所述半结构化文本划分为结构化文本和非结构化文本;
可选地,爬虫是一种自动化程序,可以模拟人的操作,访问网页并提取所需的数据。通过爬虫技术,具体包括确定目标网页、发送HTTP请求、解析HTML内容、数据清洗和整理、存储数据等步骤,爬取网页上的数据,得到半结构化文本。
可以理解的是,本体属性是指描述一个物体的体征,在本发明的举例中,本体属性主要是指政策文件的一些特点(例如政策发布时间、政策涉及行业等)。由于半结构化数据具有部分结构化特点,但也包含了一些非结构化的数据,因此,按照本体属性对半结构化数据进行细化。
可选地,若本体属性为政策内容中包含的关键信息(例如政策发布机构、政策有效期等),则将该部分内容划分为结构化文本;若本体属性为抽象信息(例如涉及行业、公文对象等),则将该部分内容划分为非结构化文本。
所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤之后,包括:
步骤S23:按照文本存储时的标准格式,对所述结构化文本进行解析和提取,直接生成关键信息;
步骤S24:对所述目标标签和所述关键信息进行数据融合,得到对应的目标结构化文本。
可以理解的是,结构化文本在存储时,是以表格、行、列等标准合适存储的,每一行代表一个独立的数据实例,而每列代表的数据类型是在数据模型设计时就已经确定好的。因此,在对结构化文本进行信息提取时,可以直接按照存储时的标准格式,如参照词语的位置、上下文关系、语法规则等进行解析和提取,汇总生成关键信息。
可选地,根据共同的字段或标识符将目标标签和关键信息进行连接或合并,以创建一个包含两者的综合结构化文本,亦或是,使用文本挖掘和自然语言处理技术提取和处理这些信息,本实施例不作具体限定。
在本实施例提供的一个技术方案中,将半结构化文本划分为结构化文本和非结构化文本,针对非结构化文本,采用语义模型进行语义理解并提取目标标签,针对结构化文本,采用标准格式进行解析和提取,最后将两者进行数据融合。将结构化数据和非结构化数据分开处理,不仅可以提高数据处理效率,还可以利用各自的特点,进行精确的计算和分析,更好地适应不同的应用需求,提供更准确和有效的数据分析结果。
进一步的,参照图3,提出本发明标签提取方法的第三实施例。基于上述图1所示的实施例,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
步骤S31:获取训练样本以及对应的标准语义特征,并基于所述训练样本确定训练数字向量,所述训练数字向量表征所述训练样本的上下文信息和语义信息;
步骤S32:将所述训练数字向量输入预训练的语义模型,得到对应的训练语义特征;
步骤S33:根据预置的损失函数,计算所述训练语义特征和所述标准语义特征之间的损失函数值,并根据所述损失函数值调整所述预训练的语义模型,直至达到最小损失函数值。
可以理解的是,技术人员会预先准备训练样本,并人工标注对应的标准语义特征,如训练文本“规范建筑废弃物综合利用产品认定活动,进一步提高我市建筑废弃物综合利用水平”,对应的标准语义特征为“绿色”、“节能”等。
可选地,获取训练样本以及标准语义特征后,进行数据预处理,即基于训练样本确定训练数字向量,所述数字向量表征训练样本的上下文信息和语义信息,具体过程同步骤S11,在此不作赘述。
进一步地,将训练数字向量输入预训练的语义模型,得到对应的训练语义特征,具体过程同步骤S12,在此不作赘述。
更进一步地,使用预置的函数值,如均方误差、交叉熵损失等,以均方误差为例,假设训练语义特征的向量为x,标准语义特征的向量为y,损失函数为L(x, y),均方误差损失函数的计算过程为:计算差异,即将训练向量x与标准向量y进行逐元素相减,得到差异向量diff;计算平方差,即对差异向量diff的每个元素进行平方运算,得到平方差向量diff_squared;计算均值,即对平方差向量diff_squared进行求和,并除以向量的长度,得到均值mean_squared;计算损失函数值,即将均值mean_squared作为损失函数值。具体的计算公式如下: L(x, y) = (1/n) * Σ(diff_squared),其中,n表示向量的长度,Σ表示求和。
亦或是,在BERT模型中,使用两个主要的损失函数来进行训练,分别是MLM损失函数和NSP损失函数。其中,MLM损失函数用于训练BERT模型的预测能力,即通过遮蔽一部分输入的词语,然后让模型预测这些被遮蔽的词语,并将预测结果与原始句子中遮蔽的词语进行比较,计算交叉熵损失;NSP损失函数用于训练BERT模型的语义理解能力,即通过预测两个句子是否是连续的,并将预测结果与实际标签进行比较,计算交叉熵损失。
最后,根据损失函数值,使用反向传播算法计算模型参数的梯度,并根据梯度值,使用优化算法(如梯度下降法)更新模型参数,使损失函数值逐渐减小。重复前面的步骤,直到达到预设的停止条件,即达到最小损失函数值。
需要注意的是,本方案的训练是将模型暴露于训练数据,使其逐渐适应数据的过程,这里的训练目标是使模型能够从训练数据中学习到数据的模式、特征和关系,以便在未见过的数据上表现出好的性能。在训练期间,模型通过与训练数据对比,不断调整模型参数,以最小化定义的损失函数,这有助于模型逐渐调整自身,使其预测与实际标签更加接近。
步骤S35:通过测试样本评估模型,计算所述训练好的语义模型的准确率、召回率和平衡指标;
步骤S35:根据计算结果和对应的权重值,计算所述预训练的语义模型的综合指标值;
步骤S36:若所述综合指标值满足指标阈值,则导出训练好的语义模型。
可以理解的是,一旦模型完成了训练,它可能会在训练数据上表现良好,但这并不意味着它在真实世界的未知数据上也能表现得很好。因此,本方案是对训练后的模型进行微调和优化,目的是确保模型的泛化能力,即在未见过的数据上表现良好。
可选地,事先将数据样本划分为训练样本和测试样本,确保训练样本和测试样本是相互独立的。在使用训练样本对模型完成训练之后,使用测试样本对模型进行测试,得到测试结果。
进一步地,计算准确率,准确率是指模型预测正确的样本数占总样本数的比例,即准确率=预测正确的样本数/总样本数;计算召回率,召回率是指模型正确预测为正例的样本数占真实正例样本数的比例,即召回率=预测正确的正例样本数/真实正例样本数;计算平衡指标,平衡指标综合考虑了准确率和召回率,如F1值是准确率和召回率的调和平均值,F1值= 2 * (准确率*召回率) / (准确率+召回率)。
更进一步地,根据计算结果和对应的权重值,如准确率、召回率和平衡指标的权重值分别为0.3、0.3和0.4,相乘后相加,得到预训练的语义模型的综合指标值。
如果综合指标值满足指标阈值,说明模型在面对未知数据时也能表现得很好,故导出训练好的语义模型,投入正式使用;如果综合指标值不满足指标阈值,说明模型在训练数据上表现很好,但在测试数据上表现不佳,因此需要进行微调。
在本实施例提供的一个技术方案中,先使用训练样本对预训练模型进行训练,并基于损失函数对模型进行调整,在达到最小损失函数之后,使用测试样本评估模型进行评估。训练集是模型用来学习和调整参数的数据,而测试集是用来评估模型在未见过的数据上的性能,如此设置,可以帮助检测和避免过拟合,即模型在训练集上表现良好,但在测试集上表现较差时,可能是因为模型过度拟合了训练集的特定特征,而无法泛化到新的数据。
参照图4,图4为本发明实施例方案涉及的硬件运行环境的标签提取设备结构示意图。
如图4所示,该标签提取设备可以包括:处理器1001,例如中央处理器(CentralProcessing Unit,CPU),通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如无线保真(WIreless-FIdelity,WI-FI)接口)。存储器1005可以是高速的随机存取存储器(RandomAccess Memory,RAM)存储器,也可以是稳定的非易失性存储器(Non-Volatile Memory,NVM),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图4中示出的结构并不构成对标签提取设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图4所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及标签提取程序。
在图4所示的标签提取设备中,网络接口1004主要用于与其他设备进行数据通信;用户接口1003主要用于与用户进行数据交互;本发明标签提取设备中的处理器1001、存储器1005可以设置在标签提取设备中,所述标签提取设备通过处理器1001调用存储器1005中存储的标签提取程序,并执行本发明实施例提供的标签提取方法。
本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时实现上述标签提取方法任一实施例中的步骤。
由于计算机可读存储介质部分的实施例与方法部分的实施例相互对应,因此计算机可读存储介质部分的实施例请参见方法部分的实施例的描述,在此暂不赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述 实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通 过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术作出贡献的部分可以以软件产品的形式体 现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种标签提取方法,其特征在于,所述标签提取方法包括以下步骤:
基于待提取的非结构化文本确定数字向量,所述数字向量表征所述非结构化文本的上下文信息和语义信息;
将所述数字向量输入训练好的语义模型,得到对应的语义特征;
将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签。
2.如权利要求1所述的标签提取方法,其特征在于,所述数字向量包括加权值向量,所述基于待提取的非结构化文本确定数字向量的步骤包括:
根据分词算法,将待提取的非结构化文本中的长句,切割成若干固定长度的词片段;
确定每个所述词片段的查询向量、键向量和值向量,并根据所述查询向量和所述键向量,计算每个所述词片段的注意力权重;
对所述注意力权重和所述值向量进行加权求和,得到每个所述词片段的加权值向量。
3.如权利要求2所述的标签提取方法,其特征在于,所述训练好的语义模型包括训练好的掩码语言模型和训练好的句子预测模型,所述将所述数字向量输入训练好的语义模型,得到对应的语义特征的步骤包括:
随机选定部分所述数字向量,并将选定的所述数字向量替换为掩码标记;
将所述数字向量和所述掩码标记输入训练好的掩码语言模型,预测所述掩码标记所屏蔽的词片段;
将所述数字向量输入训练好的句子预测模型,预测各所述词片段所在长句的相邻关系;
根据预测词片段和预测相邻关系,理解语义信息,并确定所述语义信息对应的语义特征;
将所有所述语义特征划分为若干同类语义特征组,并对各所述同类语义特征组进行池化操作,得到对应的代表语义特征。
4.如权利要求3所述的标签提取方法,其特征在于,所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤包括:
获取标签池的若干标签,并比较所述代表语义特征和所有所述标签之间的向量相似度;
将所述向量相似度最高的标签确定为目标标签。
5.如权利要求1所述的标签提取方法,其特征在于,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
通过爬虫技术,爬取网页上的数据,得到半结构化文本;
根据本体属性,将所述半结构化文本划分为结构化文本和非结构化文本;
所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤之后,包括:
按照文本存储时的标准格式,对所述结构化文本进行解析和提取,直接生成关键信息;
对所述目标标签和所述关键信息进行数据融合,得到对应的目标结构化文本。
6.如权利要求1所述的标签提取方法,其特征在于,所述基于待提取的非结构化文本确定数字向量的步骤之前,包括:
获取训练样本以及对应的标准语义特征,并基于所述训练样本确定训练数字向量,所述训练数字向量表征所述训练样本的上下文信息和语义信息;
将所述训练数字向量输入预训练的语义模型,得到对应的训练语义特征;
根据预置的损失函数,计算所述训练语义特征和所述标准语义特征之间的损失函数值,并根据所述损失函数值调整所述预训练的语义模型,直至达到最小损失函数值。
7.如权利要求6所述的标签提取方法,其特征在于,所述根据预置的损失函数,计算所述训练语义特征和所述标准语义特征之间的损失函数值,并根据所述损失函数值调整所述预训练的语义模型,直至达到最小损失函数值的步骤之后,包括:
通过测试样本评估模型,计算所述预训练的语义模型的准确率、召回率和平衡指标;
根据计算结果和对应的权重值,计算所述预训练的语义模型的综合指标值;
若所述综合指标值满足指标阈值,则导出训练好的语义模型。
8.如权利要求1所述的标签提取方法,其特征在于,所述将所述语义特征和标签池进行匹配,并根据匹配结果确定目标标签的步骤包括:
将所述语义特征和标签池进行匹配,若匹配率不满足最低匹配率,则将所述语义特征作为新的标签,加入所述标签池。
9.一种标签提取设备,其特征在于,所述标签提取设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的标签提取程序,所述标签提取程序配置为实现如权利要求1至8中任一项所述的标签提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有标签提取程序,所述标签提取程序被处理器执行时实现如权利要求1至8任一项所述的标签提取方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178989.0A CN116910279B (zh) | 2023-09-13 | 2023-09-13 | 标签提取方法、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311178989.0A CN116910279B (zh) | 2023-09-13 | 2023-09-13 | 标签提取方法、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116910279A true CN116910279A (zh) | 2023-10-20 |
CN116910279B CN116910279B (zh) | 2024-01-05 |
Family
ID=88355081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311178989.0A Active CN116910279B (zh) | 2023-09-13 | 2023-09-13 | 标签提取方法、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910279B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093897A (zh) * | 2024-04-28 | 2024-05-28 | 浙江大华技术股份有限公司 | 一种数据元匹配方法、电子设备及计算机可读存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115203421A (zh) * | 2022-08-02 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 一种长文本的标签生成方法、装置、设备及存储介质 |
CN115269834A (zh) * | 2022-06-28 | 2022-11-01 | 国家计算机网络与信息安全管理中心 | 一种基于bert的高精度文本分类方法及装置 |
CN115374771A (zh) * | 2022-07-12 | 2022-11-22 | 北京沃东天骏信息技术有限公司 | 文本标签确定方法及装置 |
WO2023278070A1 (en) * | 2021-06-29 | 2023-01-05 | Microsoft Technology Licensing, Llc | Automatic labeling of text data |
CN115658906A (zh) * | 2022-11-08 | 2023-01-31 | 浙江大学 | 基于标签自适应文本表征的大规模多标签文本分类方法 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN116108133A (zh) * | 2022-12-09 | 2023-05-12 | 广州仰望星空云科技有限公司 | 一种基于bert模型的文本数据处理方法及装置 |
US20230161952A1 (en) * | 2021-11-22 | 2023-05-25 | Adobe Inc. | Automatic semantic labeling of form fields with limited annotations |
-
2023
- 2023-09-13 CN CN202311178989.0A patent/CN116910279B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023278070A1 (en) * | 2021-06-29 | 2023-01-05 | Microsoft Technology Licensing, Llc | Automatic labeling of text data |
US20230161952A1 (en) * | 2021-11-22 | 2023-05-25 | Adobe Inc. | Automatic semantic labeling of form fields with limited annotations |
CN115269834A (zh) * | 2022-06-28 | 2022-11-01 | 国家计算机网络与信息安全管理中心 | 一种基于bert的高精度文本分类方法及装置 |
CN115374771A (zh) * | 2022-07-12 | 2022-11-22 | 北京沃东天骏信息技术有限公司 | 文本标签确定方法及装置 |
CN115203421A (zh) * | 2022-08-02 | 2022-10-18 | 中国平安人寿保险股份有限公司 | 一种长文本的标签生成方法、装置、设备及存储介质 |
CN115658906A (zh) * | 2022-11-08 | 2023-01-31 | 浙江大学 | 基于标签自适应文本表征的大规模多标签文本分类方法 |
CN115687625A (zh) * | 2022-11-14 | 2023-02-03 | 五邑大学 | 文本分类方法、装置、设备及介质 |
CN116108133A (zh) * | 2022-12-09 | 2023-05-12 | 广州仰望星空云科技有限公司 | 一种基于bert模型的文本数据处理方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118093897A (zh) * | 2024-04-28 | 2024-05-28 | 浙江大华技术股份有限公司 | 一种数据元匹配方法、电子设备及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116910279B (zh) | 2024-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Vijayakumar et al. | Automated risk identification using NLP in cloud based development environments | |
CN109871688B (zh) | 漏洞威胁程度评估方法 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
Moreo et al. | Learning regular expressions to template-based FAQ retrieval systems | |
CN116342167B (zh) | 基于序列标注命名实体识别的智能成本度量方法和装置 | |
Loyola et al. | UNSL at eRisk 2021: A Comparison of Three Early Alert Policies for Early Risk Detection. | |
CN116910279B (zh) | 标签提取方法、设备及计算机可读存储介质 | |
Gunaseelan et al. | Automatic extraction of segments from resumes using machine learning | |
Zheng et al. | Named entity recognition in electric power metering domain based on attention mechanism | |
CN114900346B (zh) | 基于知识图谱的网络安全测试方法及系统 | |
Wang et al. | Interpretable machine learning-based text classification method for construction quality defect reports | |
US12062454B2 (en) | Artificial intelligence-assisted non-pharmaceutical intervention data curation | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
CN117633518A (zh) | 一种产业链构建方法及系统 | |
CN109658148B (zh) | 一种基于自然语言处理技术的营销活动投诉风险预测方法 | |
CN112036841A (zh) | 基于智能语义识别的政策解析系统及方法 | |
CN117435718A (zh) | 一种科技情报推荐方法及系统 | |
CN116305257A (zh) | 隐私信息监测装置和隐私信息监测方法 | |
Corpuz | An application method of long short-term memory neural network in classifying english and tagalog-based customer complaints, feedbacks, and commendations | |
CN114398482A (zh) | 一种词典构造方法、装置、电子设备及存储介质 | |
CN113157892A (zh) | 用户意图处理方法、装置、计算机设备及存储介质 | |
CN118503456B (zh) | 一种生态环境区域空间环评知识图谱生成方法及系统 | |
Sharma et al. | Weighted Ensemble LSTM Model with Word Embedding Attention for E-Commerce Product Recommendation | |
KR102494256B1 (ko) | 업무 정보를 활용한 기업의 의사결정 추천 정보를 생성하는 방법, 장치 및 컴퓨터-판독 가능 기록 매체 | |
CN118246453B (zh) | 基于图卷积的嵌套实体识别模型及其构建方法、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |