CN109582787A - 一种火力发电领域语料数据的实体分类方法及装置 - Google Patents
一种火力发电领域语料数据的实体分类方法及装置 Download PDFInfo
- Publication number
- CN109582787A CN109582787A CN201811311803.3A CN201811311803A CN109582787A CN 109582787 A CN109582787 A CN 109582787A CN 201811311803 A CN201811311803 A CN 201811311803A CN 109582787 A CN109582787 A CN 109582787A
- Authority
- CN
- China
- Prior art keywords
- entity
- word
- field
- neologisms
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种火力发电领域语料数据的实体分类方法及装置,属于火力发电技术领域,方法包括,对包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;提取未成功分类文本集合S2中的实体新词,建立实体新词列表E;将实体新词列表中的实体新词逐一与已成功分类文本集合S1进行实体对齐,确认实体新词的实体类别。本发明利用火力发电领域文本数据,综合采用无监督专业词汇发现算法和文本分类算法,实现对发电语料数据的实体分类,其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。
Description
技术领域
本发明涉及火力发电技术领域,尤其是一种火力发电领域语料数据的实体分类方法及装置。
背景技术
作为典型的非/半结构化数据,对于文本数据的处理一直是数据挖掘的热点之一。
对火力发电领域的文本数据分析挖掘对于火力发电企业定期的缺陷盘点,以及企业长远的信息化建设的企业知识图谱的构建,辅助企业从全局层面了解生产设备的运行和健康状况、进行多维数据融合及深层知识的挖掘具有重要意义。
目前,对于火力发电领域的文本数据分析挖掘尚处于起步阶段。主要原因在于,火力发电领域所积累的文档数据尚未建立完备的语料库,在语料库不充分的情况下,许多统计机器学习的方法难奏效。利用自然语言处理的方法很难从文本中挖掘出具有显著性意义的结果,
发电企业对日常操作记录文档主要有值班日志和缺陷记录。在对发电语料数据进行实体分类时,由于在日常记录中设备的名称可能由于个人用语习惯不同而有表述上的差异,使得利用标准的设备名称进行分类时无法将相应的记录进行正确地归类。
发明内容
鉴于上述的分析,本发明旨在提供一种火力发电领域语料数据的实体分类方法及装置,将基于统计的新词识别方法和分类算法相结合,实现对发电文本语料数据的实体分类。
本发明的目的主要是通过以下技术方案实现的:
一种火力发电领域语料数据的实体分类方法,包括如下步骤:
对包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;
通过建立的备选新词库,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
将实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐,得到实体对齐结果;
根据得到的所述实体对齐结果,确定该实体新词的实体类别。
进一步地,所述备选新词库的构建方法,包括:
建立领域词库候选词集;
对所述领域词库候选词集中的候选词语进行量化;
对量化后的候选词语进行阈值筛选后构成领域词库;
剔除所述领域词库中的通用词语后构成备选新词库。
进一步地,所述建立领域词库候选词集,包括:
对火力发电领域语料数据进行预处理;
将预处理后的语料数据进行子串切分得到子串;
对得到的所述子串进行词语切分,构成领域词库的候选词集。
进一步地,所述候选词语的量化包括词频、内部凝固度、自由度和位置成词概率的量化。
进一步地,所述阈值筛选中设置的阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值。
进一步地,所述初次分类,包括,
建立待分类文本集合S:{s1,s2,···,si,···sm},si为集合中的某条文本记录;
建立已登录的实体设备列表N:{n1,n2,···,nj,···nK},nj为某个实体的类别编号;
对待分类文本进行包括去除数字、字母、记录拆分在内的预处理;
对预处理后的文本集合S按照实体设备列表N进行分类,得到已成功分类的文档样本空间S1{Sn1:s11,s12,···;Snj:sj1,sj2,···;···;Snk:sk1,sk2,···},k为S1中的实体类别总数,Snj是属于实体类别nj的文档子集。
进一步地,将所述实体新词与所述已成功分类文本集合S1进行实体对齐,包括;
建立包含实体名词列表E的文档子集Se,Se∈S2;
计算所述文档子集Se到已成功分类文本集合S1中每个文档子集Snj的距离d(e,nj);e为所述新词列表E中的实体新词,nj为已成功分类文本集合S1的实体类别;
选取距离d最大值出现次数最多的文档子集Snj,将实体新词e归类到所述文档子集Snj属于的实体类别。
进一步地,对于无法实体对齐的实体新词,通过创建新的实体类别进行分类;将所述创建实体类别加入已登录的实体设备列表N。
进一步地,对于包含实体新词e的实体名词列表E以及实体新词e所属实体类别,经过人机交互,由用户进行最终的确认。
一种火力发电领域语料数据的实体分类装置,包括初次分类模块、备选新词库、新词提取模块和实体对齐模块;
所述初次分类模块,用于对输入的包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;
所述备选新词库,用于存储火力发电领域的实体新词;
所述新词提取模块,与所述初次分类模块和所述备选新词库分别连接,用于接收初次分类模块输入的未成功分类文本集合S2,根据备选新词库内容,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
所述实体对齐模块,与所述初次分类模块和所述新词提取模块分别连接,用于接收初次分类模块输出的已成功分类文本集合S1和所述新词提取模块输出的实体新词列表E,将所述实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐,得到实体对齐结果;并根据得到的所述实体对齐结果,确定该实体新词的实体类别。
本发明有益效果如下:
利用火力发电领域文本数据,综合采用无监督专业词汇发现算法和文本分类算法,实现对发电语料数据的实体分类,其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件。
图1为本发明实施例的实体分类方法流程图;
图2为本发明实施例的实体分类装置组成连接示意图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理。
本发明实施例公开了一种火力发电领域语料数据的实体分类方法,如图1所示,包括如下步骤:
步骤S1、对包含火力发电领域语料数据的待分类文本集合S进行初次分类;
1)建立用于分类的输入数据;
输入数据具体包括:
待分类文本集合S:{s1,s2,···,si,···sm},其中,si为集合中的某条文本记录,与设备实体中某一实体相对应,m为文本记录的数量;
已登录的实体设备列表N:{n1,n2,···,nj,···nk},其中,nj为某个实体的类别编号,该类别由设备的一个或者多个名称构成,k为实体设备列表总数;
2)对分类文本集合S中的待分类文本进行预处理;
为了消除对分类无用的多余信息,对待分类文本进行包括去除数字、字母、记录拆分等预处理措施,使待分类文本更加简洁;
3)对预处理后的文本集合S按照实体设备列表N进行分类;
通过对分类文本集合S:{s1,s2,···,si,···sm}分类,得到成功分类文本集合S1和未成功分类文本集合S2;
已成功分类文本集合S1的文档样本空间为{Sn1:s11,s12,···;Snj:sj1,sj2,···;···;Snk:sk1,sk2,···},k为S1中的实体类别总数,Snj是属于实体类别nj的文档子集。
步骤S2、通过建立的备选新词库,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
步骤中的建立备选新词库的方法包括:
1)建立领域词库候选词集;
用于建立领域词库候选词集可采用某个火力发电企业积累的火力发电领域语料数据文本;该语料数据主要包括值班日志和缺陷单等。
对积累的火力发电领域语料数据文本进行预处理;具体的预处理操作包括对数据进行去重处理,和消除明确不是实体词语的包括字母、符号和数字等无效字符;使后续处理的语料数据更加简洁。
对预处理后的语料数据文本,用空格、换行符等符号将文本中的句子切分成子串;
再对子串进行词语切分,构成领域词库的候选词集;
特殊的,可采用N-gram算法对子串进行N元切分,将子串中的词语进行切分,得到包括火力发电领域发电设备名称、该领域内技术人员习惯用语和领域中设备故障的专业描述的词语,构成领域词库候选词集。
例如:对语料子串“高温过热器后对空排气一次门内漏”采用N-gram算法对子串进行N元切分(N=6),切分后得到的候选词集有:
高温
高温过
高温过热
高温过热器
高温过热器后
温过
温过热
温过热器
温过热器后
温过热器后对
...。
2)对所述领域词库候选词集中的候选词语进行量化;
所述候选词语的量化量化标准包括词频、内部凝固度、自由度和位置成词概率;
内部凝固度采用公式表示,式中,x和y表示语料中两个不同的字,p(xy)表示x和y同时出现在语料中的概率;p(x)为x单独出现在语料中的概率;p(y)为y单独出现在语料中的概率;当pmi(x,y)>>0时,表明x和y是高度相关的,即x和y经常同时出现,字符串xy越可能构成新词。
自由度用左、右连接词信息熵来进行衡量;即,自由度=min(左连接词信息熵,右连接词信息熵);
式中,sl为候选词w的左邻连接字;sr为候选词w的右邻连接字;p(wl|w)为候选词w出现的情况下其左邻连接字为wl的条件概率;p(wr|w)为候选词w出现的情况下其右邻连接字为wr的条件概率。
所述位置成词概率式中i是ci词出现的位置;N(ci,i)为ci出现在词中i位置的所有词语的频次;N(ci)为ci在语料中出现的总频次。
3)对量化后的候选词语进行阈值筛选后构成领域词库;
阈值筛选中设置阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值;
通过设置左、右连接词信息熵阈值,确定自由度阈值;
通过将设置的凝固度阈值和自由度阈值进行结合,对候选词集中的词语进行判断筛选,得到本领域应用的词语;
通过设置词频阈值,当候选词语出现的词频大于阈值时,说明该词语为本领域应用的常用词,对词语进行筛选构成了领域词库;
通过设置位置成词概率阈值,对生成的领域词库中成词位置进行评估和判断,提高成词的正确率。
4)对所述领域词库与通用词库进行比对,剔除所述领域词库中的通用词语后构成备选新词库。
由于上一步构成的领域词库并没有进行专业词的鉴别,词库中的词语包括本领域使用的通用词语,而这些词语与设备并不相关,不需要进行实体分类;由此,通过与通用词库(电厂80年代有一个电厂专业用语词库,这个是国家的以前的标准通用词汇版本)进行比对,剔除所述领域词库中的通用词语后构成备选新词库。
通过建立的备选新词库,对未成功分类文本集合S2中的词语进行比对提取,提取出未成功分类文本集合S2中包含的属于建立的备选新词库中的实体新词,建立实体新词列表E。
特殊的,为了建立实体新词列表E更加准确,经过人机交互,由用户进行最终对归类结果进行确认。
步骤S3、将实体新词列表中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐;确认实体新词的实体类别。
具体的对齐过程包括:
1)建立包含实体名词列表E的文档子集Se,Se∈S2;
2)计算所述文档子集Se到已成功分类文本集合S1中每个文档子集Snj的距离d(e,nj);e为所述新词列表E中的实体新词,nj为已成功分类文本集合S1的实体类别;
3)选取距离d最大值出现次数最多的文档子集Snj,将实体新词e归类到所述文档子集Snj属于的实体类别;
4)更新已成功分类文本集合S1的文档子集Snj,重复上述过程,直至将文档子集Se合并到文档子集Snj。
特殊的,由于火电设备的更新,存在还没有登录进实体设备列表N的新设备,与所述新设备相关的实体新词,通过上述对齐过程,无法实现实体对齐;
对于无法对齐的实体新词,需通过创建新的实体类别进行分类;并将所述创建实体类别加入已登录的实体设备列表N。
特殊的,为了使实体新词e的归类更加准确,经过人机交互,由用户进行最终对归类结果进行确认。
本发明实施例还公开了一种火力发电领域语料数据的实体分类装置,如图2所示,包括初次分类模块、备选新词库、新词提取模块和实体对齐模块;
所述初次分类模块,用于对输入的包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;
所述备选新词库,用于存储火力发电领域包括的实体新词;
所述新词提取模块,与所述初次分类模块和所述备选新词库分别连接,用于接收初次分类模块输入的未成功分类文本集合S2,根据备选新词库内容,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
所述实体对齐模块,与所述初次分类模块和所述新词提取模块分别连接,用于接收初次分类模块输出的已成功分类文本集合S1和所述新词提取模块输出的实体新词列表E,将所述实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐,得到实体对齐结果;并根据得到的所述实体对齐结果,确定该实体新词的实体类别。
可选的,所述备选新词库的构建方法包括:
1)建立领域词库候选词集;
用于建立领域词库候选词集可采用某个火力发电企业积累的火力发电领域语料数据文本;该语料数据主要包括值班日志和缺陷单等。
对积累的火力发电领域语料数据文本进行预处理;具体的预处理操作包括对数据进行去重处理,和消除明确不是实体词语的包括字母、符号和数字等无效字符;使后续处理的语料数据更加简洁。
对预处理后的语料数据文本,用空格、换行符等符号将文本中的句子切分成子串;
再对子串进行词语切分,构成领域词库的候选词集;
特殊的,可采用N-gram算法对子串进行N元切分,将子串中的词语进行切分,得到包括火力发电领域发电设备名称、该领域内技术人员习惯用语和领域中设备故障的专业描述的词语,构成领域词库候选词集。
2)对所述领域词库候选词集中的候选词语进行量化;
所述候选词语的量化量化标准包括词频、内部凝固度、自由度和位置成词概率;
内部凝固度采用公式表示,式中,x和y表示语料中两个不同的字,p(xy)表示x和y同时出现在语料中的概率;p(x)为x单独出现在语料中的概率;p(y)为y单独出现在语料中的概率;当pmi(x,y)>>0时,表明x和y是高度相关的,即x和y经常同时出现,字符串xy越可能构成新词。
自由度用左、右连接词信息熵来进行衡量;即,自由度=min(左连接词信息熵,右连接词信息熵);
式中,sl为候选词w的左邻连接字;sr为候选词w的右邻连接字;p(wl|w)为候选词w出现的情况下其左邻连接字为wl的条件概率;p(wr|w)为候选词w出现的情况下其右邻连接字为wr的条件概率。
所述位置成词概率式中i是ci词出现的位置;N(ci,i)为ci出现在词中i位置的所有词语的频次;N(ci)为ci在语料中出现的总频次。
3)对量化后的候选词语进行阈值筛选后构成领域词库;
阈值筛选中设置阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值;
通过设置左、右连接词信息熵阈值,确定自由度阈值;
通过将设置的凝固度阈值和自由度阈值进行结合,对候选词集中的词语进行判断筛选,得到本领域应用的词语;
通过设置词频阈值,当候选词语出现的词频大于阈值时,说明该词语为本领域应用的常用词,对词语进行筛选构成了领域词库;
通过设置位置成词概率阈值,对生成的领域词库中成词位置进行评估和判断,提高成词的正确率。
4)对所述领域词库与通用词库进行比对,剔除所述领域词库中的通用词语后构成备选新词库。
由于上一步构成的领域词库并没有进行专业词的鉴别,词库中的词语包括本领域使用的通用词语,而这些词语与设备并不相关,不需要进行实体分类;由此,通过与通用词库进行比对,剔除所述领域词库中的通用词语后构成备选新词库。
综上所述,本发明实施例给出的火力发电领域语料数据的实体分类方法及装置,利用火力发电领域文本数据,综合采用无监督专业词汇发现算法和文本分类算法,实现对发电语料数据的实体分类,其所构建的火力发电专业词库也可用于该领域内文本数据挖掘的语料支撑。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种火力发电领域语料数据的实体分类方法,其特征在于,包括如下步骤:
对包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;
通过建立的备选新词库,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
将实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐,得到实体对齐结果;
根据得到的所述实体对齐结果,确定该实体新词的实体类别。
2.根据权利要求1所述的实体分类方法,其特征在于,所述备选新词库的构建方法,包括:
建立领域词库候选词集;
对所述领域词库候选词集中的候选词语进行量化;
对量化后的候选词语进行阈值筛选后构成领域词库;
剔除所述领域词库中的通用词语后构成备选新词库。
3.根据权利要求2所述的实体分类方法,其特征在于,所述建立领域词库候选词集,包括:
对火力发电领域语料数据进行预处理;
将预处理后的语料数据进行子串切分得到子串;
对得到的所述子串进行词语切分,构成领域词库的候选词集。
4.根据权利要求2所述的实体分类方法,其特征在于,所述候选词语的量化包括词频、内部凝固度、自由度和位置成词概率的量化。
5.根据权利要求4所述的实体分类方法,其特征在于,所述阈值筛选中设置的阈值包括词频阈值、凝固度阈值和左、右连接词信息熵阈值以及位置成词概率阈值。
6.根据权利要求1或2所述的实体分类方法,其特征在于,所述初次分类,包括,
建立待分类文本集合S:{s1,s2,…,si,…sm},si为集合中的某条文本记录;
建立已登录的实体设备列表N:{n1,n2,…,nj,…nK},nj为某个实体的类别编号;
对待分类文本进行包括去除数字、字母、记录拆分在内的预处理;
对预处理后的文本集合S按照实体设备列表N进行分类,得到已成功分类的文档样本空间S1{Sn1:s11,s12,…;Snj:sj1,sj2,…;…;Snk:sk1,sk2,…},k为S1中的实体类别总数,Snj是属于实体类别nj的文档子集。
7.根据权利要求1所述的实体分类方法,其特征在于,将所述实体新词与所述已成功分类文本集合S1进行实体对齐,包括;
建立包含实体名词列表E的文档子集Se,Se∈S2;
计算所述文档子集Se到已成功分类文本集合S1中每个文档子集Snj的距离d(e,nj);e为所述新词列表E中的实体新词,nj为已成功分类文本集合S1的实体类别;
选取距离d最大值出现次数最多的文档子集Snj,将实体新词e归类到所述文档子集Snj属于的实体类别。
8.根据权利要求7所述的实体分类方法,其特征在于,对于无法实体对齐的实体新词,通过创建新的实体类别进行分类;将所述创建实体类别加入已登录的实体设备列表N。
9.根据权利要求8所述的实体分类方法,其特征在于,对于包含实体新词e的实体名词列表E以及实体新词e所属实体类别,经过人机交互,由用户进行最终的确认。
10.一种火力发电领域语料数据的实体分类装置,其特征在于,包括初次分类模块、备选新词库、新词提取模块和实体对齐模块;
所述初次分类模块,用于对输入的包含火力发电领域语料数据的待分类文本集合S进行初次分类,得到已成功分类文本集合S1和未成功分类文本集合S2;
所述备选新词库,用于存储火力发电领域的实体新词;
所述新词提取模块,与所述初次分类模块和所述备选新词库分别连接,用于接收初次分类模块输入的未成功分类文本集合S2,根据备选新词库内容,提取所述未成功分类文本集合S2中的实体新词,建立实体新词列表E;
所述实体对齐模块,与所述初次分类模块和所述新词提取模块分别连接,用于接收初次分类模块输出的已成功分类文本集合S1和所述新词提取模块输出的实体新词列表E,将所述实体新词列表E中的实体新词逐一与所述已成功分类文本集合S1进行实体对齐,得到实体对齐结果;并根据得到的所述实体对齐结果,确定该实体新词的实体类别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311803.3A CN109582787B (zh) | 2018-11-05 | 2018-11-05 | 一种火力发电领域语料数据的实体分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811311803.3A CN109582787B (zh) | 2018-11-05 | 2018-11-05 | 一种火力发电领域语料数据的实体分类方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109582787A true CN109582787A (zh) | 2019-04-05 |
CN109582787B CN109582787B (zh) | 2020-10-20 |
Family
ID=65921571
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811311803.3A Active CN109582787B (zh) | 2018-11-05 | 2018-11-05 | 一种火力发电领域语料数据的实体分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109582787B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN111177403A (zh) * | 2019-12-16 | 2020-05-19 | 恩亿科(北京)数据科技有限公司 | 样本数据的处理方法和装置 |
CN112597760A (zh) * | 2020-12-04 | 2021-04-02 | 光大科技有限公司 | 文档中的领域词提取方法和装置 |
CN112948570A (zh) * | 2019-12-11 | 2021-06-11 | 复旦大学 | 无监督的领域知识图谱自动化构建系统 |
CN113157903A (zh) * | 2020-12-28 | 2021-07-23 | 国网浙江省电力有限公司信息通信分公司 | 一种面向多领域的电力词库构建方法 |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138087A (en) * | 1994-09-30 | 2000-10-24 | Budzinski; Robert L. | Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes and/or directed graphs |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
-
2018
- 2018-11-05 CN CN201811311803.3A patent/CN109582787B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6138087A (en) * | 1994-09-30 | 2000-10-24 | Budzinski; Robert L. | Memory system for storing and retrieving experience and knowledge with natural language utilizing state representation data, word sense numbers, function codes and/or directed graphs |
CN106095736A (zh) * | 2016-06-07 | 2016-11-09 | 华东师范大学 | 一种领域新词抽取的方法 |
CN106447346A (zh) * | 2016-08-29 | 2017-02-22 | 北京中电普华信息技术有限公司 | 一种智能电力客服系统的构建方法及系统 |
CN107748799A (zh) * | 2017-11-08 | 2018-03-02 | 四川长虹电器股份有限公司 | 一种多数据源影视数据实体对齐的方法 |
CN108363691A (zh) * | 2018-02-09 | 2018-08-03 | 国网江苏省电力有限公司电力科学研究院 | 一种用于电力95598工单的领域术语识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
邱剑: "电力中文文本数据挖掘技术及其在可靠性中的应用研究", 《中国博士学位论文全文数据库工程科技Ⅱ辑》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110852109A (zh) * | 2019-11-11 | 2020-02-28 | 腾讯科技(深圳)有限公司 | 语料生成方法、语料生成装置、和存储介质 |
CN112948570A (zh) * | 2019-12-11 | 2021-06-11 | 复旦大学 | 无监督的领域知识图谱自动化构建系统 |
CN111177403A (zh) * | 2019-12-16 | 2020-05-19 | 恩亿科(北京)数据科技有限公司 | 样本数据的处理方法和装置 |
CN111177403B (zh) * | 2019-12-16 | 2023-06-23 | 恩亿科(北京)数据科技有限公司 | 样本数据的处理方法和装置 |
CN112597760A (zh) * | 2020-12-04 | 2021-04-02 | 光大科技有限公司 | 文档中的领域词提取方法和装置 |
CN113157903A (zh) * | 2020-12-28 | 2021-07-23 | 国网浙江省电力有限公司信息通信分公司 | 一种面向多领域的电力词库构建方法 |
CN113468332A (zh) * | 2021-07-14 | 2021-10-01 | 广州华多网络科技有限公司 | 分类模型更新方法及其相应的装置、设备、介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109582787B (zh) | 2020-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109582787A (zh) | 一种火力发电领域语料数据的实体分类方法及装置 | |
Xia et al. | Dual sentiment analysis: Considering two sides of one review | |
US10776583B2 (en) | Error correction for tables in document conversion | |
Hai et al. | Identifying features in opinion mining via intrinsic and extrinsic domain relevance | |
Lawrie et al. | Normalizing source code vocabulary | |
Kmail et al. | An automatic online recruitment system based on exploiting multiple semantic resources and concept-relatedness measures | |
Bhargava et al. | MSATS: Multilingual sentiment analysis via text summarization | |
Firdhous | Automating legal research through data mining | |
Chasin et al. | Extracting and displaying temporal and geospatial entities from articles on historical events | |
Babhulgaonkar et al. | Language identification for multilingual machine translation | |
Wities et al. | A consolidated open knowledge representation for multiple texts | |
Harandizadeh et al. | Tweeki: Linking named entities on Twitter to a knowledge graph | |
Yang et al. | Ontology generation for large email collections. | |
Li et al. | Automatic extraction for product feature words from comments on the web | |
Liu et al. | Opinion searching in multi-product reviews | |
Moin et al. | Framework for rumors detection in social media | |
Islam et al. | Near-synonym choice using a 5-gram language model | |
Oliveira et al. | Assessing concept weighting in integer linear programming based single-document summarization | |
Bloodgood et al. | Data cleaning for XML electronic dictionaries via statistical anomaly detection | |
Mesquita et al. | Extracting information networks from the blogosphere: State-of-the-art and challenges | |
Wang et al. | Sentiment detection and visualization of Chinese micro-blog | |
González Pellicer et al. | The talp participation at tac-kbp 2012 | |
Li et al. | Keyword extraction based on lexical chains and word co-occurrence for Chinese news web pages | |
Perez-Tellez et al. | Weblog and short text feature extraction and impact on categorisation | |
Heinzerling et al. | Trust, but verify! Better entity linking through automatic verification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |