CN101645083A - 一种基于概念符号的文本领域的获取系统及方法 - Google Patents
一种基于概念符号的文本领域的获取系统及方法 Download PDFInfo
- Publication number
- CN101645083A CN101645083A CN200910077018A CN200910077018A CN101645083A CN 101645083 A CN101645083 A CN 101645083A CN 200910077018 A CN200910077018 A CN 200910077018A CN 200910077018 A CN200910077018 A CN 200910077018A CN 101645083 A CN101645083 A CN 101645083A
- Authority
- CN
- China
- Prior art keywords
- field
- statement
- text
- concept
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于概念符号的文本领域的获取系统及方法。该系统包括:一用于表达词语概念和领域类别的概念符号集、一存储词语及其概念符号的词语知识库、一分词处理器、一语句语义分析器、一领域判别器。该方法包括以下步骤:(1)把输入文本切分为段落、语句、词语;(2)对语句进行语义分析,得到语句的概念类别和语义块;(3)根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;(4)对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符号作为语句的领域;(5)对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;(6)根据文本标题、句群在文本中出现频次和位置得到文本的领域。
Description
技术领域
本发明涉及利用计算机科学与技术对文本进行语言文字信息处理的领域,特别涉及一种基于概念符号的文本领域的获取系统及方法。
背景技术
文本分类技术是利用计算机,根据一定的规则、知识和步骤,把一篇文本归为一个或多个领域类别的方法和过程。文本分类的一般方法是将文本表示成特征向量,当两篇文本的特征向量的“夹角”小于某个角度时,它们被归为同一类别。一般选取词语作为文本特征构成文本的特征向量,特征向量的构造方法多采用TF*IDF方法或由此衍生的TF*IWF方法,TF*IDF即用词语在文档中的出现频率和在文档集合中出现频率的倒数之乘积作为特征向量中该特征词语对应的取值。文本分类的K近邻方法、贝叶斯方法、支持向量机、神经网络、决策树等都是以文本的向量空间模型为基础的统计方法,在分类之前要求有事先分类好的大量文本集进行参数优化训练,训练后可以将新文本归入到某一定义好的类别中。中国专利文件(公开号CN100353361)公开了一种新的面向文本分类的特征向量权重的方法和装置,在TF*IWF方法的基础上引入了DBV和TF的n词方根,通过按词语频率选取各分类领域的不同特征词数(50、100、200、500、1000、1500、2000、2500、3000、3500、4000)的实验,发现取3500词时其实验系统性能较好。
由于文本分类方法要求事先知道文本的领域类别集合和分类标准,在分类类别不确定和训练文本集获取困难的情况下,文本分类方法将很难实施。因此,又出现了文本聚类技术。常用的文本聚类方法的典型代表是K-Means算法,即首先从文本集中任选K个文本作为聚类中心,其它文本根据与聚类中心的特征向量“距离”划归到距离最近的那个聚类中;然后再以K个类中所有文本的特征向量的均值作为新的聚类中心,所有文本又根据与聚类中心的距离再聚类,如此迭代计算直到评价函数收敛为止。但是,文本自动聚类得到的领域类别非常粗糙,由于缺乏分类指导其结果很难适应实际的需求。而且同一个文本聚类方法,对某个文本集效果较好,对另一个文本集效果却可能很差,即文本聚类的实用性和稳定性都存在缺点。
综上,文本分类的统计方法需要大量的事先分类好的训练语料,这往往是分类时所难以提供的。而文本聚类虽然能克服这一缺点,但聚类结果却很难与分类的实际需求相结合。
发明内容
为了克服上述现有技术中的问题,本发明提供了一种基于概念符号的文本领域的获取系统及方法,该系统及方法具有分类标准可配置和分类方法规则化的特点,可以在没有训练语料的情况下获得文本的基本领域分类,并可以根据实际需要定制文本的分类类别,可用于文本的自动聚类。
为了达到上述目的,本发明提供的一种基于概念符号的文本领域的获取系统,如图1所示,包括:
一领域概念符号集,用于表达词语概念和领域类别,并向领域判别器提供所需的领域概念符号。
一词语知识库,用于存储词语及其概念符号,并向分词处理器和语句语义分析器提供所需的词语及其概念符号。
一分词处理器,用于把输入文本切分为段落、语句、词语,并送入语句语义分析器。
一语句语义分析器,用于对语句进行语义分析,得到语句的概念类别和构成语句的语义块,包括:语义块的角色、边界和内部构成。
一领域判别器,用于根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;然后根据语句中的激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符合作为语句的领域;接着对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。
其中,所述语义块的角色类型分为:特征语义块E、作用者语义块A、对象语义块B及内容语义块C;所述特征语义块类型E分为两种类型:a)全局特征语义块Eg,是语句第一级层次中的特征语义块E;b)局部特征语义块El,是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。
其中,所述领域概念符号集包括以下高层节点符号:
“71,72”表示心理活动及精神状态;“8”表示人类思维活动;“a,b”表示专业及追求活动(第二类劳动);“d”表示理念活动;“q6”表示第一类劳动;“q7”表示业余活动;“q8”表示信仰活动;“6m”表示本能活动,其中m=0~5;“3228α”表示灾祸,其中α=8~b;“503,50α”表示状态,其中α=8~b;
领域概念高层节点 | 表示的领域 |
71,72 | 心理活动及精神状态 |
8 | 人类思维活动 |
a,b | 专业及追求活动(第二类劳动) |
d | 理念活动 |
q6 | 第一类劳动 |
q7 | 业余活动 |
q8 | 信仰活动 |
6m(m=0~5) | 本能活动 |
3228α(α=8~b) | 灾祸 |
503,50α(α=8~b) | 状态 |
以及所述高层节点向下延伸的更具体的领域概念节点符号。
其中,所述领域判别器按如下方法确定语句S的领域:首先,从句类分析的结果中获得激活词语所处语义块的类型;然后,按全局特征语义块Eg>局部特征语义块El>内容语义块C>(对象语义块B或作用者语义块A)的语义块类型顺序依次确定语句S的领域;当同一类型语义块中有多个激活词语(W1,W2,...,Wn)时,假设激活词语对应的领域概念符号分别为(D1,D2,...,Dn),那么根据如下计算公式计算每一个领域概念符号在语句中的得分:
S(Di)=Rel(i)+Fre(i)+Pos(i),1≤i≤n;
其中,Rel(i)表示第i个领域概念符号Di在语句中与其它领域概念符号Dj(j≠i,1≤j≤n)的关系得分;Fre(i)表示第i个领域概念符号Di在语句S中的出现频次,频次越高其值越大;Pos(i)表示第i个领域概念符号Di在语句S中的出现位置,位置越靠后其值越大。将得分S(Di)最高的第i个领域概念符号Di作为语句S的领域。
其中,所述领域判别器判断文本领域的原则还包括:如果文本中有标题,那么标题的领域作为文本的领域;如果文本中没有标题,那么文本中最先出现的频次最多的句群领域作为文本的领域。
本发明提供的一种基于概念符号的文本领域的获取方法,如图2所示,包括以下步骤:
(1)分段分句分词:分词处理器把输入文本切分为段落、语句、词语。
一个输入文本在计算机中被作为一个字符串T。以字符串T中的“回车、换行”符为切分点,把文本T切分为若干个段落P。以段落P中的“句号、问号、叹号和分号”等字符为切分点,把段落P切分成若干个语句S。
语句S由汉字和其他字符构成。设A、B、C是语句S中出现的汉字,若“AB”是词语知识库中的词语,则“ABC”切分为“AB/C”;同理,若“BC”是词中的词语,则“ABC”切分为“A/BC”。如果“AB”和“BC”都是词库中的词语,那么按照左切分原则切分为“A/BC”;如果“ABC”是词库中的词语,那么按照最大词长原则切分为“/ABC/”。于是,语句S被切分为若干个词语W,分词结束。
(2)语句语义分析:语句语义分析器对语句进行语义分析,得到语句的概念类别和构成语句的语义块,包括:语义块的角色、边界和内部构成。
对于每一个语句S,分析语句得到其语义类别(句类)代码SCode,格式代码SFomat,句类表达式SExpression,构成语句的语义块的种类、范围、在句类表达式中的具体名称等等。特别是确定语义块的类型是E(特征语义块)、A(作用者语义块)、B(对象语义块)、还是C(内容语义块)。在特征语义块类型E中,又分为两种类型:一种是Eg(全局特征语义块),是语句第一级层次中的特征语义块E;一种是El(局部特征语义块),它是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。
(3)获取激活词语:领域判别器根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语。
激活词语是语句S中含有领域概念符号的词语。词语知识库包括:词形、音调、义项数、义项号、概念类别、词频及语境、语义知识、句类代码、格式变换、@S、@K、@CA、@CT。其中语义知识就是用概念基元的符号表达的,而领域符号也是概念基元符号体系中的一个子集,因此词语的概念符号中可能蕴含着领域概念符号信息。在概念基元符号体系中,并不是所有的概念基元节点都用于描述领域,与领域相关的概念的高层节点有:71,72(心理活动及精神状态);8(人类思维活动);a,b(专业及追求活动(第二类劳动));d(理念活动);q6(第一类劳动);q7(业余活动);q8(信仰活动);6m(m=0~5)(本能活动);3228α(α=8~b)(灾祸);503,50α(α=8~b)(状态)。这些领域概念符号的高层节点可以向下延伸得到更为具体的领域概念节点符号,例如a(专业活动)向下延伸为:a1(政治)、a2(经济)、a3(文化)、a4(军事)、a5(法律)、a6(科技)、a7(教育)、a8(卫保),而a1(政治)向下可依次延伸为:a11(政权活动),a113(最高领导人(国家或地方政府)更迭),a113b(选举)。
领域的概念符号和词语知识库中语义知识的概念符号使用的是同一个概念基元符号体系,当一个词语W的语义知识的概念符号中出现了领域概念符号的高层节点或其衍生节点时,词语W就是就是激活词语。领域概念符号表达了某一层次或类型的领域,语句S中的激活词语所蕴含的所有领域概念符号被作为语句S的候选领域。
(4)语句领域判别:领域判别器根据语句中激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符号作为语句的领域。
其中,所述步骤(4)中语句领域来源于激活词语的领域概念符号。当语句S中有多个激活词语时,按如下方法确定语句领域:首先,从句类分析的结果中获得激活词语所处语义块的类型;然后按全局特征语义块Eg>局部特征语义块El>内容语义块C>对象语义块B或作用者语义块A的语义块类型顺序依次确定语句S的领域,即若Eg中有激活词语W则取W的领域概念符号作为语句领域,若Eg中没有激活词语则从El则,若El中没有激活词语则从C中取,若C中没有则从B或A中取。
当同一类型的语义块中有多个激活词语(W1,W2,...,Wn)时,假设激活词语对应的领域概念符号分别为(D1,D2,...,Dn),那么根据如下计算公式计算每一个领域概念符号在语句中的得分:S(Di)=Rel(i)+Fre(i)+Pos(i),1≤i≤n。在公式S(Di)=Rel(i)+Fre(i)+Pos(i)中,Rel(i)表示第i个领域概念符号Di在语句中与其它领域概念符号Dj(j≠i,1≤j≤n)的关系得分;Fre(i)表示第i个领域概念符号Di在语句S中的出现频次,频次越高其值越大;Pos(i)表示第i个领域概念符号Di在语句S中的出现位置,位置越靠后其值越大。将得分S(Di)最高的第i个领域概念符号Di作为语句S的领域。
Rel(i)的分值来自领域概念符号Di与Dj的关系。当Di是Dj的概念延伸表示时,Di的分值加1;当Di与Dj强相关时,Di的分值加1。如果计算完S(Di)后Di是语句的领域,Di前有否定概念修饰,那么应取Di′(即其相反领域概念符号)作为语句的领域。如果如果计算完S(Di)后Di是语句的领域,而Dj的Rel(i)+Fre(i)得分与Di相同,且Di与Dj是同一概念节点的子节点,那么取Di与Dj的上一级父节点领域概念符号作为语句的领域。
如果一个激活词语Wi(1≤i≤n)中有多个领域概念符号(Di1,Di2,...,Dim),那么这m个领域概念符号都需要计算S(Di)的领域分值,只是在计算Rel(i)时不需要考虑Dij(1≤j≤m)与Dik(j≠i,1≤k≤m)之间的领域概念符号关系。如果Dij与Dik的最终计算分值S(Dij)和S(Dik)依然相同,那么取词语知识库中排在前面的领域概念符号作为语句S的领域。
(5)句群及其领域判别:领域判别器对段落中的语句按照其领域概念符号进行合并,得到句群及其领域。
句群由连续的描述同一中心话题的语句组成。句群的中心话题是指相同或近似的领域概念符号所表达的话题或领域。最小的句群为一个语句,最大的句群为一个段落。所述步骤(5)中,对于文本T的某个段落Pi中的语句(S1,S2,...,Sn),每个语句的句群归属依据以下步骤确定,如图3所示:
(5a)取第一个语句S1作为句群G1,取S1的领域D1作为句群G1的领域DG1;
(5b)S1为当前语句Si,G1为当前句群Gj,转(5g);
(5c)如果Si的领域Di是Si-1的领域Di-1的符号延伸,那么语句Si归入Gj,Gj的领域改为Di,转(5g);
(5d)如果Si-1的领域Di-1是Si的领域Di的符号延伸,那么语句Si归入Gj,转(5g);
(5e)如果当前语句Si的领域Di与上一语句Si-1的领域Di-1相同,那么语句Si归入Gj,转(5g);
(5f)取Si的下一语句Si+1为新句群Gj+1,领域DGj+1为语句Si+1的领域Di+1;
(5g)如果当前语句Si为最后一个语句Sn,那么转(5n);
(5k)如果Si的领域为空且Si是S1,那么语句S2归入G1,G1的领域改为D2,把S2作为当前语句Si,转(5c);
(5l)如果Si的领域为空且Si不是S1,那么语句Si归入Gj,转(5g);
(5m)如果Si的领域不为空,那么把Si+1作为当前语句Si,转(5c);
(5n)对获得的所有句群Gj,将相邻的领域相同的句群合并为一个句群,其中1≤j≤m,1≤m≤n。
经过上述步骤的并合操作,一个段落就被划分为若干个句群,同时它们的领域也根据语句的领域确定下来,实现了段落中句群的划分以及句群领域的判别。
(6)文本领域判别:领域判别器根据文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。
其中,所述步骤(6)还包括:如果输入文本中有标题,那么标题的领域被作为输入文本的领域,如果标题段落P1中只有一个句群,那么该句群的领域就是文本的领域;如果段落P1中有多个句群,那么选取段落P1中第一个句群的领域和最后一个句群的领域共同作为文本的领域。
如果文本中没有标题,那么文本中所有句群的领域被作为文本领域的候选领域。文本T中n个句群的领域按句群出现顺序记为D=(DG1,DG2,...,DGn),从DG1到DGn按以下步骤操作,如图4所示:
(6a)把DG1作为DGi,统计D中与DGi领域概念符号相同的领域个数CGi,将DGi与CGi存入表HTab中;
(6b)如果DGi为DGn,那么转(6f)
(6c)把DGi+1作为DGi;
(6d)如果DGi的领域概念符号已经被存入表HTab中,那么转(6c);
(6e)统计D中与DGi领域概念符号相同的领域个数CGi,将DGi与CGi存入表HTab中,转(6b);
(6f)得到表HTab=((DG1,CG1),...,(DGm,CGm)),其中1≤m≤n;
(6g)对表HTab中的元素(DGj,CGj),1≤j≤m按照CGj的大小从大到小排序,得到新表HTab′=((DG1′,CG1′),...,(DGm′,CGm′))。
把新表中的第一个元素的领域概念符号作为文本T的领域,当文本T中没有标题时文本T的领域可以用上述步骤获取。
本发明的优点在于:
1、本发明提供的文本领域获取系统及方法用于文本分类时,不需要事先分类好的大量训练语料,只需要确定与分类类别相关的领域概念符号。
2、本发明提供的文本领域获取系统及方法的领域概念符号具有层次性特点,既可以适应种类繁多的同层次分类类别,还可以适应具体的细小类别的跨层次分类。
3、本发明提供的文本领域获取系统及方法主要采用语义分析的方法深入概念层次确定文本的领域类别,同时又引入统计特性的频次特征,使文本领域的获取方法更加准确和适合大规模文本的处理。
4、本发明提供的文本领域获取系统及方法提出的句群领域可用于文本的分类处理,也可用于文本的聚类分析与文本的话题分析。
附图说明
图1是本发明文本领域的获取系统的结构图;
图2是本发明文本领域的获取方法的流程图;
图3是本发明句群及其领域的确定方法的流程图;
图4是本发明文本没有标题时文本领域获取方法的流程图。
具体实施方式
下面结合具体实施例及附图对本发明做详细说明。
首先,从互联网下载了一些关于2004年雅典奥运会比赛的新闻报道文本11篇,共60个自然段,6501个汉字。
其次,根据《语言概念空间的基本定理和数学物理表示式》(海洋出版社,2004年7月)中的设计原则和设计符号具体完善了q73(比赛)领域的概念符号,得到关于比赛领域的概念符号集。同时丰富了词语知识库中关于比赛的词语及其语义知识。
第三,使用分词处理器对一篇文本进行分段、分句和分词处理。例如以下文本:Title:马来西亚“小旗手”一名之差未进跳水半决赛
新华网雅典8月27日电在当地时间27日下午举行的奥运会男子十米跳台跳水的比赛中,来自马来西亚的布莱恩-尼克森预赛成绩排名第十九,未能晋级半决赛。根据规则,预赛的33名选手中,成绩排在前18名的选手晋级半决赛。
经过分词处理器的处理后,得到的结果如下:[Title:][马来西亚][“小旗手”][一名之差][未进][跳水][半决赛]
[新华网][雅典][8月27日]电在[当地][时间][27日][下午][举行]的[奥运会][男子][十米][跳台][跳水]的[比赛]中
[来自][马来西亚]的布莱恩-尼克森[预赛][成绩][排名]第[十九]
[未能][晋级][半决赛]
[根据][规则]
[预赛]的[33名][选手]中
[成绩]排在前[18名]的[选手][晋级][半决赛]
第四,使用语句语义分析器对语句进行分析,然后使用领域判别器获取激活词语并分析句群及其领域,在合并句群领域后得到如下结果:
//DOM:(q734)
Title:[马来西亚][“小旗手”]一名之差未进[跳水(a339\4)][半决赛(q734)]
新华网[雅典(a219\10pw)]8月27日电在[当地][时间]27日[下午][举行(a02)]的[奥运会(a339i)][男子]十米[跳台(a339\4)][跳水(a339\4)]的[比赛(q73)]中,[来自][马来西亚]的布莱恩-尼克森[预赛(q734)][成绩(a0099b)][排名(q730e25d0[n])]第十九,[未能][晋级(a01ad0ne25)][半决赛(q734)]。[根据][规则(a009a9)],[预赛(q734)]的33名[选手(q730)]中,[成绩(a0099b)]排在前18名的[选手(q730)][晋级(a01ad0ne25)][半决赛(q734)]。
在文本中,第一个语句“Title:马来西亚‘小旗手’一名之差未进跳水半决赛”,其语义分析结果为“Title:马来西亚‘小旗手’(SB)||一名之差未进(S0)||跳水半决赛(SC)”。由于全局特征语义块Eg(即S0)没有领域概念符号信息,所以从含有领域信息的内容语义块C(即SC)中选取语句的领域。SC语义块中的“跳水”和“半决赛”都含有领域概念符号信息,通过分值计算它们的领域关系得分和频次得分都一样,但是“半决赛”的位置得分要大于“跳水”,所以语句的领域为“q734”。因此第一个段落总共就一个语句,整个段落是一个句群,句群的领域就是“q734”。由于第一个段落是文本标题,所以文本的领域也就是“q734”。
这样,依据激活词语的领域概念符号,通过分析激活词语在语句中所处的语义块的类型以及词语位置、频次等可得到语句的领域、句群的领域,最终得到了文本的领域。
Claims (10)
1、一种基于概念符号的文本领域的获取系统,其特征在于,所述获取系统包括:
一领域概念符号集,用于表达词语概念和领域类别,并向领域判别器提供所需的领域概念符号;
一词语知识库,用于存储词语及其概念符号,并向分词处理器和语句语义分析器提供所需的词语及其概念符号;
一分词处理器,用于把输入文本切分为段落、语句、词语,并送入语句语义分析器;
一语句语义分析器,用于对语句进行语义分析,得到语句的概念类别和构成语句的语义块,包括:语义块的角色、边界和内部构成;
一领域判别器,用于根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;然后根据语句中的激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符合作为语句的领域;接着对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。
2、根据权利要求1所述的文本领域的获取系统,其特征在于,所述语义块的角色类型分为:特征语义块E、作用者语义块A、对象语义块B及内容语义块C;所述特征语义块类型E分为两种类型:a)全局特征语义块Eg,是语句第一级层次中的特征语义块E;b)局部特征语义块El,是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。
3、根据权利要求1所述的文本领域的获取系统,其特征在于,所述领域概念符号集包括以下高层节点符号:
以及所述高层节点向下延伸的更具体的领域概念节点符号。
4、根据权利要求1所述的文本领域的获取系统,其特征在于,所述领域判别器按如下方法确定语句S的领域:首先,从语句语义分析的结果中获得激活词语所处语义块的类型;然后,按“全局特征语义块Eg>局部特征语义块El>内容语义块C>对象语义块B或作用者语义块A”的语义块类型顺序依次确定语句S的领域;当同一类型语义块中有多个激活词语W1,W2,...,Wn时,假设激活词语对应的领域概念符号分别为D1,D2,...,Dn,那么根据如下计算公式计算每一个领域概念符号在语句中的得分:
S(Di)=Rel(i)+Fre(i)+Pos(i),1≤i≤n;
其中,Rel(i)表示第i个领域概念符号Di在语句中与其它领域概念符号Dj(j≠i,1≤j≤n)的关系得分;Fre(i)表示第i个领域概念符号Di在语句S中的出现频次,频次越高其值越大;Pos(i)表示第i个领域概念符号Di在语句S中的出现位置,位置越靠后其值越大,将得分S(Di)最高的第i个领域概念符号Di作为语句S的领域。
5、根据权利要求1所述的文本领域的获取系统,其特征在于,所述领域判别器判断文本领域的原则还包括:如果文本中有标题,那么标题的领域作为文本的领域;如果文本中没有标题,那么文本中最先出现的频次最多的句群领域作为文本的领域。
6、一种基于概念符号的文本领域的获取方法,包括以下步骤:
(1)分段分句分词:分词处理器把输入文本切分为段落、语句、词语;
(2)语句语义分析:语句语义分析器对语句进行语义分析,得到语句的概念类别和构成语句的语义块,包括:语义块的角色、边界和内部构成;
(3)获取激活词语:领域判别器根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语;
(4)语句领域判别:领域判别器根据语句中激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分,取得分最高的领域概念符号作为语句的领域;
(5)句群及其领域判别:领域判别器对段落中的语句按照其领域概念符号进行合并,得到句群及其领域;
(6)文本领域判别:领域判别器根据文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。
7、根据权利要求6的文本领域的获取方法,其特征在于,所述步骤(4)按如下方法确定语句S的领域:首先,从语句语义分析的结果中获得激活词语所处语义块的类型;然后,按“全局特征语义块Eg>局部特征语义块El>内容语义块C>对象语义块B或作用者语义块A”的语义块类型顺序依次确定语句S的领域;当同一类型语义块中有多个激活词语W1,W2,...,Wn时,假设激活词语对应的领域概念符号分别为D1,D2,...,Dn,那么根据如下计算公式计算每一个领域概念符号在语句中的得分:
S(Di)=Rel(i)+Fre(i)+Pos(i),1≤i≤n;
其中,Rel(i)表示第i个领域概念符号Di在语句中与其它领域概念符号Dj(j≠i,1≤j≤n)的关系得分;Fre(i)表示第i个领域概念符号Di在语句S中的出现频次,频次越高其值越大;Pos(i)表示第i个领域概念符号Di在语句S中的出现位置,位置越靠后其值越大,将得分S(Di)最高的第i个领域概念符号Di作为语句S的领域。
8、根据权利要求6的文本领域的获取方法,其特征在于,所述步骤(5)中,对于文本T的某个段落Pi中的语句S1,S2,...,Sn,每个语句的句群归属依据以下步骤确定:
(5a)取第一个语句S1作为句群G1,取S1的领域D1作为句群G1的领域DG1;
(5b)S1为当前语句Si,G1为当前句群Gj,转(5g);
(5c)如果Si的领域Di是Si-1的领域Di-1的符号延伸,那么语句Si归入Gj,Gj的领域改为Di,转(5g);
(5d)如果Si-1的领域Di-1是Si的领域Di的符号延伸,那么语句Si归入Gj,转(5g);
(5e)如果当前语句Si的领域Di与上一语句Si-1的领域Di-1相同,那么语句Si归入Gj,转(5g);
(5f)取Si的下一语句Si+1为新句群Gj+1,领域DGj+1为语句Si+1的领域Di+1;
(5g)如果当前语句Si为最后一个语句Sn,那么转(5n);
(5k)如果Si的领域为空且Si是S1,那么语句S2归入G1,G1的领域改为D2,把S2作为当前语句Si,转(5c);
(5l)如果Si的领域为空且Si不是S1,那么语句Si归入Gj,转(5g);
(5m)如果Si的领域不为空,那么把Si+1作为当前语句Si,转(5c);
(5n)对获得的所有句群Gj,将相邻的领域相同的句群合并为一个句群,其中1≤j≤m,1≤m≤n。
9、根据权利要求6的文本领域的获取方法,其特征在于,所述步骤(6)还包括:如果输入文本中有标题,那么标题的领域被作为输入文本的领域;如果输入文本中没有标题,那么输入文本中最先出现的频次最多的句群领域被作为输入文本领域的候选领域的步骤。
10、根据权利要求9所述的文本领域的获取方法,其特征在于,如果文本中没有标题,文本T中n个句群的领域按句群出现顺序记为D=(DG1,DG2,...,DGn),从DG1到DGn按以下步骤操作获取文本领域:
(6a)把DG1作为DGi,统计D中与DGi领域概念符号相同的领域个数CGi,将DGi与CGi存入表HTab中;
(6b)如果DGi为DGn,那么转(6f);
(6c)把DGi+1作为DGi;
(6d)如果DGi的领域概念符号已经被存入表HTab中,那么转(6c);
(6e)统计D中与DGi领域概念符号相同的领域个数CGi,将DGi与CGi存入表HTab中,转(6b);
(6f)得到表HTab=((DG1,CG1),...,(DGm,CGm)),其中1≤m≤n;
(6g)对表HTab中的元素(DGj,CGj),1≤j≤m按照CGj的大小从大到小排序,得到新表HTab′=((DG1′,CG1′),...,(DGm′,CGm′)),把该新表中的第一个元素的领域概念符号作为文本T的领域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100770180A CN101645083B (zh) | 2009-01-16 | 2009-01-16 | 一种基于概念符号的文本领域的获取系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100770180A CN101645083B (zh) | 2009-01-16 | 2009-01-16 | 一种基于概念符号的文本领域的获取系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101645083A true CN101645083A (zh) | 2010-02-10 |
CN101645083B CN101645083B (zh) | 2012-07-04 |
Family
ID=41656971
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100770180A Expired - Fee Related CN101645083B (zh) | 2009-01-16 | 2009-01-16 | 一种基于概念符号的文本领域的获取系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101645083B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937462A (zh) * | 2010-09-03 | 2011-01-05 | 中国科学院声学研究所 | 文献自动评价方法及系统 |
CN104281566A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种语义化文本描述方法及系统 |
CN106250398A (zh) * | 2016-07-19 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 一种投诉事件的投诉内容分类判定方法及装置 |
CN106294186A (zh) * | 2016-08-30 | 2017-01-04 | 深圳市悲画软件自动化技术有限公司 | 智能软件自动化测试方法 |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
CN109564505A (zh) * | 2016-01-27 | 2019-04-02 | 伯尼塞艾公司 | 被配置为使用教学编程语言进行工作以训练经训练的人工智能模型的人工智能引擎 |
CN110413989A (zh) * | 2019-06-19 | 2019-11-05 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与系统 |
CN112699237A (zh) * | 2020-12-24 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 标签确定方法、设备和存储介质 |
US11120299B2 (en) | 2016-01-27 | 2021-09-14 | Microsoft Technology Licensing, Llc | Installation and operation of different processes of an AI engine adapted to different configurations of hardware located on-premises and in hybrid environments |
US11775850B2 (en) | 2016-01-27 | 2023-10-03 | Microsoft Technology Licensing, Llc | Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model |
US11841789B2 (en) | 2016-01-27 | 2023-12-12 | Microsoft Technology Licensing, Llc | Visual aids for debugging |
US11868896B2 (en) | 2016-01-27 | 2024-01-09 | Microsoft Technology Licensing, Llc | Interface for working with simulations on premises |
CN117875908A (zh) * | 2024-03-08 | 2024-04-12 | 蒲惠智造科技股份有限公司 | 一种基于企业管理软件saas的工单处理方法和系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001344256A (ja) * | 2000-06-01 | 2001-12-14 | Matsushita Electric Ind Co Ltd | 単語クラス自動決定装置、用例文検索装置、媒体及び情報集合体 |
JP2002259371A (ja) * | 2001-03-02 | 2002-09-13 | Nippon Telegr & Teleph Corp <Ntt> | 文書要約方法および装置と文書要約プログラムおよび該プログラムを記録した記録媒体 |
CN101067808B (zh) * | 2007-05-24 | 2010-12-15 | 上海大学 | 文本关键词的提取方法 |
CN100520782C (zh) * | 2007-11-09 | 2009-07-29 | 清华大学 | 一种基于词频和多元文法的新闻关键词抽取方法 |
CN101281530A (zh) * | 2008-05-20 | 2008-10-08 | 上海大学 | 基于概念衍生树的关键词层次聚类方法 |
-
2009
- 2009-01-16 CN CN2009100770180A patent/CN101645083B/zh not_active Expired - Fee Related
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101937462A (zh) * | 2010-09-03 | 2011-01-05 | 中国科学院声学研究所 | 文献自动评价方法及系统 |
CN101937462B (zh) * | 2010-09-03 | 2016-08-24 | 中国科学院声学研究所 | 文献评价自动检索方法及系统 |
CN104281566A (zh) * | 2014-10-13 | 2015-01-14 | 安徽华贞信息科技有限公司 | 一种语义化文本描述方法及系统 |
CN109564505A (zh) * | 2016-01-27 | 2019-04-02 | 伯尼塞艾公司 | 被配置为使用教学编程语言进行工作以训练经训练的人工智能模型的人工智能引擎 |
US11164109B2 (en) | 2016-01-27 | 2021-11-02 | Microsoft Technology Licensing, Llc | Artificial intelligence engine for mixing and enhancing features from one or more trained pre-existing machine-learning models |
CN109564505B (zh) * | 2016-01-27 | 2022-03-25 | 微软技术许可有限责任公司 | 人工智能引擎、系统及机器可读存储设备 |
US11775850B2 (en) | 2016-01-27 | 2023-10-03 | Microsoft Technology Licensing, Llc | Artificial intelligence engine having various algorithms to build different concepts contained within a same AI model |
US11868896B2 (en) | 2016-01-27 | 2024-01-09 | Microsoft Technology Licensing, Llc | Interface for working with simulations on premises |
US11762635B2 (en) | 2016-01-27 | 2023-09-19 | Microsoft Technology Licensing, Llc | Artificial intelligence engine with enhanced computing hardware throughput |
US11841789B2 (en) | 2016-01-27 | 2023-12-12 | Microsoft Technology Licensing, Llc | Visual aids for debugging |
US11842172B2 (en) | 2016-01-27 | 2023-12-12 | Microsoft Technology Licensing, Llc | Graphical user interface to an artificial intelligence engine utilized to generate one or more trained artificial intelligence models |
US11100423B2 (en) | 2016-01-27 | 2021-08-24 | Microsoft Technology Licensing, Llc | Artificial intelligence engine hosted on an online platform |
US11120365B2 (en) | 2016-01-27 | 2021-09-14 | Microsoft Technology Licensing, Llc | For hierarchical decomposition deep reinforcement learning for an artificial intelligence model |
US11120299B2 (en) | 2016-01-27 | 2021-09-14 | Microsoft Technology Licensing, Llc | Installation and operation of different processes of an AI engine adapted to different configurations of hardware located on-premises and in hybrid environments |
CN106250398B (zh) * | 2016-07-19 | 2020-03-27 | 北京京东尚科信息技术有限公司 | 一种投诉事件的投诉内容分类判定方法及装置 |
CN106250398A (zh) * | 2016-07-19 | 2016-12-21 | 北京京东尚科信息技术有限公司 | 一种投诉事件的投诉内容分类判定方法及装置 |
CN106294186A (zh) * | 2016-08-30 | 2017-01-04 | 深圳市悲画软件自动化技术有限公司 | 智能软件自动化测试方法 |
CN108153734A (zh) * | 2017-12-26 | 2018-06-12 | 北京嘉和美康信息技术有限公司 | 一种文本处理方法及装置 |
CN110413989B (zh) * | 2019-06-19 | 2020-11-20 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与系统 |
CN110413989A (zh) * | 2019-06-19 | 2019-11-05 | 北京邮电大学 | 一种基于领域语义关系图的文本领域确定方法与系统 |
CN112699237B (zh) * | 2020-12-24 | 2021-10-15 | 百度在线网络技术(北京)有限公司 | 标签确定方法、设备和存储介质 |
CN112699237A (zh) * | 2020-12-24 | 2021-04-23 | 百度在线网络技术(北京)有限公司 | 标签确定方法、设备和存储介质 |
CN117875908A (zh) * | 2024-03-08 | 2024-04-12 | 蒲惠智造科技股份有限公司 | 一种基于企业管理软件saas的工单处理方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
CN101645083B (zh) | 2012-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101645083B (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN104778209B (zh) | 一种针对千万级规模新闻评论的观点挖掘方法 | |
CN106570179B (zh) | 一种面向评价性文本的核心实体识别方法及装置 | |
CN101470732B (zh) | 一种辅助词库的生成方法和装置 | |
US20210056571A1 (en) | Determining of summary of user-generated content and recommendation of user-generated content | |
CN106709040B (zh) | 一种应用搜索方法和服务器 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN107180025B (zh) | 一种新词的识别方法及装置 | |
CN109145260B (zh) | 一种文本信息自动提取方法 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN101751455B (zh) | 采用人工智能技术自动产生标题的方法 | |
CN106021410A (zh) | 一种基于机器学习的源代码注释质量评估方法 | |
CN106709754A (zh) | 一种用基于文本挖掘的电力用户分群方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN106202372A (zh) | 一种网络文本信息情感分类的方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN110879831A (zh) | 基于实体识别技术的中医药语句分词方法 | |
CN103123633A (zh) | 评价参数的生成方法以及基于评价参数的信息搜索方法 | |
CN106599032A (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN103646088A (zh) | 基于CRFs和SVM的产品评论细粒度情感要素提取 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
CN110134799B (zh) | 一种基于bm25算法的文本语料库的搭建和优化方法 | |
CN109934251B (zh) | 一种用于小语种文本识别的方法、识别系统及存储介质 | |
CN110674296B (zh) | 一种基于关键词的资讯摘要提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120704 Termination date: 20160116 |
|
EXPY | Termination of patent right or utility model |