CN101645083A

CN101645083A - 一种基于概念符号的文本领域的获取系统及方法

Info

Publication number: CN101645083A
Application number: CN200910077018A
Authority: CN
Inventors: 韦向峰; 黄曾阳; 张全; 缪建明
Original assignee: Institute of Acoustics CAS
Current assignee: Institute of Acoustics CAS
Priority date: 2009-01-16
Filing date: 2009-01-16
Publication date: 2010-02-10
Anticipated expiration: 2029-01-16
Also published as: CN101645083B

Abstract

本发明公开了一种基于概念符号的文本领域的获取系统及方法。该系统包括：一用于表达词语概念和领域类别的概念符号集、一存储词语及其概念符号的词语知识库、一分词处理器、一语句语义分析器、一领域判别器。该方法包括以下步骤：(1)把输入文本切分为段落、语句、词语；(2)对语句进行语义分析，得到语句的概念类别和语义块；(3)根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语；(4)对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符号作为语句的领域；(5)对段落中的语句按照其领域概念符号进行合并，得到句群及其领域；(6)根据文本标题、句群在文本中出现频次和位置得到文本的领域。

Description

一种基于概念符号的文本领域的获取系统及方法

技术领域

本发明涉及利用计算机科学与技术对文本进行语言文字信息处理的领域，特别涉及一种基于概念符号的文本领域的获取系统及方法。

背景技术

文本分类技术是利用计算机，根据一定的规则、知识和步骤，把一篇文本归为一个或多个领域类别的方法和过程。文本分类的一般方法是将文本表示成特征向量，当两篇文本的特征向量的“夹角”小于某个角度时，它们被归为同一类别。一般选取词语作为文本特征构成文本的特征向量，特征向量的构造方法多采用TF*IDF方法或由此衍生的TF*IWF方法，TF*IDF即用词语在文档中的出现频率和在文档集合中出现频率的倒数之乘积作为特征向量中该特征词语对应的取值。文本分类的K近邻方法、贝叶斯方法、支持向量机、神经网络、决策树等都是以文本的向量空间模型为基础的统计方法，在分类之前要求有事先分类好的大量文本集进行参数优化训练，训练后可以将新文本归入到某一定义好的类别中。中国专利文件(公开号CN100353361)公开了一种新的面向文本分类的特征向量权重的方法和装置，在TF*IWF方法的基础上引入了DBV和TF的n词方根，通过按词语频率选取各分类领域的不同特征词数(50、100、200、500、1000、1500、2000、2500、3000、3500、4000)的实验，发现取3500词时其实验系统性能较好。

由于文本分类方法要求事先知道文本的领域类别集合和分类标准，在分类类别不确定和训练文本集获取困难的情况下，文本分类方法将很难实施。因此，又出现了文本聚类技术。常用的文本聚类方法的典型代表是K-Means算法，即首先从文本集中任选K个文本作为聚类中心，其它文本根据与聚类中心的特征向量“距离”划归到距离最近的那个聚类中；然后再以K个类中所有文本的特征向量的均值作为新的聚类中心，所有文本又根据与聚类中心的距离再聚类，如此迭代计算直到评价函数收敛为止。但是，文本自动聚类得到的领域类别非常粗糙，由于缺乏分类指导其结果很难适应实际的需求。而且同一个文本聚类方法，对某个文本集效果较好，对另一个文本集效果却可能很差，即文本聚类的实用性和稳定性都存在缺点。

综上，文本分类的统计方法需要大量的事先分类好的训练语料，这往往是分类时所难以提供的。而文本聚类虽然能克服这一缺点，但聚类结果却很难与分类的实际需求相结合。

发明内容

为了克服上述现有技术中的问题，本发明提供了一种基于概念符号的文本领域的获取系统及方法，该系统及方法具有分类标准可配置和分类方法规则化的特点，可以在没有训练语料的情况下获得文本的基本领域分类，并可以根据实际需要定制文本的分类类别，可用于文本的自动聚类。

为了达到上述目的，本发明提供的一种基于概念符号的文本领域的获取系统，如图1所示，包括：

一领域概念符号集，用于表达词语概念和领域类别，并向领域判别器提供所需的领域概念符号。

一词语知识库，用于存储词语及其概念符号，并向分词处理器和语句语义分析器提供所需的词语及其概念符号。

一分词处理器，用于把输入文本切分为段落、语句、词语，并送入语句语义分析器。

一语句语义分析器，用于对语句进行语义分析，得到语句的概念类别和构成语句的语义块，包括：语义块的角色、边界和内部构成。

一领域判别器，用于根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语；然后根据语句中的激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符合作为语句的领域；接着对段落中的语句按照其领域概念符号进行合并，得到句群及其领域；最后根据输入文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。

其中，所述语义块的角色类型分为：特征语义块E、作用者语义块A、对象语义块B及内容语义块C；所述特征语义块类型E分为两种类型：a)全局特征语义块Eg，是语句第一级层次中的特征语义块E；b)局部特征语义块El，是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。

其中，所述领域概念符号集包括以下高层节点符号：

“71，72”表示心理活动及精神状态；“8”表示人类思维活动；“a，b”表示专业及追求活动(第二类劳动)；“d”表示理念活动；“q6”表示第一类劳动；“q7”表示业余活动；“q8”表示信仰活动；“6m”表示本能活动，其中m＝0～5；“3228α”表示灾祸，其中α＝8～b；“503，50α”表示状态，其中α＝8～b；

领域概念高层节点	表示的领域
领域概念高层节点	表示的领域	71，72	心理活动及精神状态
8	人类思维活动	71，72	心理活动及精神状态
8	人类思维活动	a，b	专业及追求活动(第二类劳动)
d	理念活动	a，b	专业及追求活动(第二类劳动)
d	理念活动	q6	第一类劳动
q7	业余活动	q6	第一类劳动
q7	业余活动	q8	信仰活动
6m(m＝0～5)	本能活动	q8	信仰活动
6m(m＝0～5)	本能活动	3228α(α＝8～b)	灾祸
503，50α(α＝8～b)	状态	3228α(α＝8～b)	灾祸

以及所述高层节点向下延伸的更具体的领域概念节点符号。

其中，所述领域判别器按如下方法确定语句S的领域：首先，从句类分析的结果中获得激活词语所处语义块的类型；然后，按全局特征语义块Eg＞局部特征语义块El＞内容语义块C＞(对象语义块B或作用者语义块A)的语义块类型顺序依次确定语句S的领域；当同一类型语义块中有多个激活词语(W₁，W₂，...，W_n)时，假设激活词语对应的领域概念符号分别为(D₁，D₂，...，D_n)，那么根据如下计算公式计算每一个领域概念符号在语句中的得分：

S(D_i)＝Rel(i)+Fre(i)+Pos(i)，1≤i≤n；

其中，Rel(i)表示第i个领域概念符号D_i在语句中与其它领域概念符号D_j(j≠i，1≤j≤n)的关系得分；Fre(i)表示第i个领域概念符号D_i在语句S中的出现频次，频次越高其值越大；Pos(i)表示第i个领域概念符号D_i在语句S中的出现位置，位置越靠后其值越大。将得分S(D_i)最高的第i个领域概念符号D_i作为语句S的领域。

其中，所述领域判别器判断文本领域的原则还包括：如果文本中有标题，那么标题的领域作为文本的领域；如果文本中没有标题，那么文本中最先出现的频次最多的句群领域作为文本的领域。

本发明提供的一种基于概念符号的文本领域的获取方法，如图2所示，包括以下步骤：

(1)分段分句分词：分词处理器把输入文本切分为段落、语句、词语。

一个输入文本在计算机中被作为一个字符串T。以字符串T中的“回车、换行”符为切分点，把文本T切分为若干个段落P。以段落P中的“句号、问号、叹号和分号”等字符为切分点，把段落P切分成若干个语句S。

语句S由汉字和其他字符构成。设A、B、C是语句S中出现的汉字，若“AB”是词语知识库中的词语，则“ABC”切分为“AB/C”；同理，若“BC”是词中的词语，则“ABC”切分为“A/BC”。如果“AB”和“BC”都是词库中的词语，那么按照左切分原则切分为“A/BC”；如果“ABC”是词库中的词语，那么按照最大词长原则切分为“/ABC/”。于是，语句S被切分为若干个词语W，分词结束。

(2)语句语义分析：语句语义分析器对语句进行语义分析，得到语句的概念类别和构成语句的语义块，包括：语义块的角色、边界和内部构成。

对于每一个语句S，分析语句得到其语义类别(句类)代码SCode，格式代码SFomat，句类表达式SExpression，构成语句的语义块的种类、范围、在句类表达式中的具体名称等等。特别是确定语义块的类型是E(特征语义块)、A(作用者语义块)、B(对象语义块)、还是C(内容语义块)。在特征语义块类型E中，又分为两种类型：一种是Eg(全局特征语义块)，是语句第一级层次中的特征语义块E；一种是El(局部特征语义块)，它是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。

(3)获取激活词语：领域判别器根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语。

激活词语是语句S中含有领域概念符号的词语。词语知识库包括：词形、音调、义项数、义项号、概念类别、词频及语境、语义知识、句类代码、格式变换、@S、@K、@CA、@CT。其中语义知识就是用概念基元的符号表达的，而领域符号也是概念基元符号体系中的一个子集，因此词语的概念符号中可能蕴含着领域概念符号信息。在概念基元符号体系中，并不是所有的概念基元节点都用于描述领域，与领域相关的概念的高层节点有：71，72(心理活动及精神状态)；8(人类思维活动)；a，b(专业及追求活动(第二类劳动))；d(理念活动)；q6(第一类劳动)；q7(业余活动)；q8(信仰活动)；6m(m＝0～5)(本能活动)；3228α(α＝8～b)(灾祸)；503，50α(α＝8～b)(状态)。这些领域概念符号的高层节点可以向下延伸得到更为具体的领域概念节点符号，例如a(专业活动)向下延伸为：a1(政治)、a2(经济)、a3(文化)、a4(军事)、a5(法律)、a6(科技)、a7(教育)、a8(卫保)，而a1(政治)向下可依次延伸为：a11(政权活动)，a113(最高领导人(国家或地方政府)更迭)，a113b(选举)。

领域的概念符号和词语知识库中语义知识的概念符号使用的是同一个概念基元符号体系，当一个词语W的语义知识的概念符号中出现了领域概念符号的高层节点或其衍生节点时，词语W就是就是激活词语。领域概念符号表达了某一层次或类型的领域，语句S中的激活词语所蕴含的所有领域概念符号被作为语句S的候选领域。

(4)语句领域判别：领域判别器根据语句中激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符号作为语句的领域。

其中，所述步骤(4)中语句领域来源于激活词语的领域概念符号。当语句S中有多个激活词语时，按如下方法确定语句领域：首先，从句类分析的结果中获得激活词语所处语义块的类型；然后按全局特征语义块Eg＞局部特征语义块El＞内容语义块C＞对象语义块B或作用者语义块A的语义块类型顺序依次确定语句S的领域，即若Eg中有激活词语W则取W的领域概念符号作为语句领域，若Eg中没有激活词语则从El则，若El中没有激活词语则从C中取，若C中没有则从B或A中取。

当同一类型的语义块中有多个激活词语(W1，W2，...，Wn)时，假设激活词语对应的领域概念符号分别为(D1，D2，...，Dn)，那么根据如下计算公式计算每一个领域概念符号在语句中的得分：S(D_i)＝Rel(i)+Fre(i)+Pos(i)，1≤i≤n。在公式S(D_i)＝Rel(i)+Fre(i)+Pos(i)中，Rel(i)表示第i个领域概念符号D_i在语句中与其它领域概念符号D_j(j≠i，1≤j≤n)的关系得分；Fre(i)表示第i个领域概念符号D_i在语句S中的出现频次，频次越高其值越大；Pos(i)表示第i个领域概念符号D_i在语句S中的出现位置，位置越靠后其值越大。将得分S(D_i)最高的第i个领域概念符号D_i作为语句S的领域。

Rel(i)的分值来自领域概念符号D_i与D_j的关系。当D_i是D_j的概念延伸表示时，D_i的分值加1；当D_i与D_j强相关时，D_i的分值加1。如果计算完S(D_i)后D_i是语句的领域，D_i前有否定概念修饰，那么应取D_i′(即其相反领域概念符号)作为语句的领域。如果如果计算完S(D_i)后Di是语句的领域，而D_j的Rel(i)+Fre(i)得分与D_i相同，且D_i与D_j是同一概念节点的子节点，那么取D_i与D_j的上一级父节点领域概念符号作为语句的领域。

如果一个激活词语W_i(1≤i≤n)中有多个领域概念符号(D_i1，D_i2，...，D_im)，那么这m个领域概念符号都需要计算S(D_i)的领域分值，只是在计算Rel(i)时不需要考虑D_ij(1≤j≤m)与D_ik(j≠i，1≤k≤m)之间的领域概念符号关系。如果D_ij与D_ik的最终计算分值S(D_ij)和S(D_ik)依然相同，那么取词语知识库中排在前面的领域概念符号作为语句S的领域。

(5)句群及其领域判别：领域判别器对段落中的语句按照其领域概念符号进行合并，得到句群及其领域。

句群由连续的描述同一中心话题的语句组成。句群的中心话题是指相同或近似的领域概念符号所表达的话题或领域。最小的句群为一个语句，最大的句群为一个段落。所述步骤(5)中，对于文本T的某个段落Pi中的语句(S₁，S₂，...，S_n)，每个语句的句群归属依据以下步骤确定，如图3所示：

(5a)取第一个语句S₁作为句群G₁，取S₁的领域D₁作为句群G₁的领域D_G1；

(5b)S₁为当前语句S_i，G₁为当前句群G_j，转(5g)；

(5c)如果S_i的领域D_i是S_i-1的领域D_i-1的符号延伸，那么语句S_i归入G_j，G_j的领域改为D_i，转(5g)；

(5d)如果S_i-1的领域D_i-1是S_i的领域D_i的符号延伸，那么语句S_i归入G_j，转(5g)；

(5e)如果当前语句S_i的领域D_i与上一语句S_i-1的领域D_i-1相同，那么语句S_i归入G_j，转(5g)；

(5f)取S_i的下一语句S_i+1为新句群G_j+1，领域D_Gj+1为语句S_i+1的领域D_i+1；

(5g)如果当前语句S_i为最后一个语句S_n，那么转(5n)；

(5k)如果S_i的领域为空且S_i是S₁，那么语句S₂归入G₁，G₁的领域改为D₂，把S₂作为当前语句S_i，转(5c)；

(5l)如果S_i的领域为空且S_i不是S₁，那么语句S_i归入G_j，转(5g)；

(5m)如果S_i的领域不为空，那么把S_i+1作为当前语句S_i，转(5c)；

(5n)对获得的所有句群G_j，将相邻的领域相同的句群合并为一个句群，其中1≤j≤m，1≤m≤n。

经过上述步骤的并合操作，一个段落就被划分为若干个句群，同时它们的领域也根据语句的领域确定下来，实现了段落中句群的划分以及句群领域的判别。

(6)文本领域判别：领域判别器根据文本标题、句群在输入文本中出现频次和位置得到输入文本的领域。

其中，所述步骤(6)还包括：如果输入文本中有标题，那么标题的领域被作为输入文本的领域，如果标题段落P₁中只有一个句群，那么该句群的领域就是文本的领域；如果段落P₁中有多个句群，那么选取段落P₁中第一个句群的领域和最后一个句群的领域共同作为文本的领域。

如果文本中没有标题，那么文本中所有句群的领域被作为文本领域的候选领域。文本T中n个句群的领域按句群出现顺序记为D＝(D_G1，D_G2，...，D_Gn)，从D_G1到D_Gn按以下步骤操作，如图4所示：

(6a)把D_G1作为D_Gi，统计D中与D_Gi领域概念符号相同的领域个数C_Gi，将D_Gi与C_Gi存入表HTab中；

(6b)如果D_Gi为D_Gn，那么转(6f)

(6c)把D_Gi+1作为D_Gi；

(6d)如果D_Gi的领域概念符号已经被存入表HTab中，那么转(6c)；

(6e)统计D中与D_Gi领域概念符号相同的领域个数C_Gi，将D_Gi与C_Gi存入表HTab中，转(6b)；

(6f)得到表HTab＝((D_G1，C_G1)，...，(D_Gm，C_Gm))，其中1≤m≤n；

(6g)对表HTab中的元素(D_Gj，C_Gj)，1≤j≤m按照C_Gj的大小从大到小排序，得到新表HTab′＝((D_G1′，C_G1′)，...，(D_Gm′，C_Gm′))。

把新表中的第一个元素的领域概念符号作为文本T的领域，当文本T中没有标题时文本T的领域可以用上述步骤获取。

本发明的优点在于：

1、本发明提供的文本领域获取系统及方法用于文本分类时，不需要事先分类好的大量训练语料，只需要确定与分类类别相关的领域概念符号。

2、本发明提供的文本领域获取系统及方法的领域概念符号具有层次性特点，既可以适应种类繁多的同层次分类类别，还可以适应具体的细小类别的跨层次分类。

3、本发明提供的文本领域获取系统及方法主要采用语义分析的方法深入概念层次确定文本的领域类别，同时又引入统计特性的频次特征，使文本领域的获取方法更加准确和适合大规模文本的处理。

4、本发明提供的文本领域获取系统及方法提出的句群领域可用于文本的分类处理，也可用于文本的聚类分析与文本的话题分析。

附图说明

图1是本发明文本领域的获取系统的结构图；

图2是本发明文本领域的获取方法的流程图；

图3是本发明句群及其领域的确定方法的流程图；

图4是本发明文本没有标题时文本领域获取方法的流程图。

具体实施方式

下面结合具体实施例及附图对本发明做详细说明。

首先，从互联网下载了一些关于2004年雅典奥运会比赛的新闻报道文本11篇，共60个自然段，6501个汉字。

其次，根据《语言概念空间的基本定理和数学物理表示式》(海洋出版社，2004年7月)中的设计原则和设计符号具体完善了q73(比赛)领域的概念符号，得到关于比赛领域的概念符号集。同时丰富了词语知识库中关于比赛的词语及其语义知识。

第三，使用分词处理器对一篇文本进行分段、分句和分词处理。例如以下文本：Title：马来西亚“小旗手”一名之差未进跳水半决赛

新华网雅典8月27日电在当地时间27日下午举行的奥运会男子十米跳台跳水的比赛中，来自马来西亚的布莱恩-尼克森预赛成绩排名第十九，未能晋级半决赛。根据规则，预赛的33名选手中，成绩排在前18名的选手晋级半决赛。

经过分词处理器的处理后，得到的结果如下：[Title：][马来西亚][“小旗手”][一名之差][未进][跳水][半决赛]

[新华网][雅典][8月27日]电在[当地][时间][27日][下午][举行]的[奥运会][男子][十米][跳台][跳水]的[比赛]中

[来自][马来西亚]的布莱恩-尼克森[预赛][成绩][排名]第[十九]

[未能][晋级][半决赛]

[根据][规则]

[预赛]的[33名][选手]中

[成绩]排在前[18名]的[选手][晋级][半决赛]

第四，使用语句语义分析器对语句进行分析，然后使用领域判别器获取激活词语并分析句群及其领域，在合并句群领域后得到如下结果：

//DOM：(q734)

Title：[马来西亚][“小旗手”]一名之差未进[跳水(a339\4)][半决赛(q734)]

新华网[雅典(a219\10pw)]8月27日电在[当地][时间]27日[下午][举行(a02)]的[奥运会(a339i)][男子]十米[跳台(a339\4)][跳水(a339\4)]的[比赛(q73)]中，[来自][马来西亚]的布莱恩-尼克森[预赛(q734)][成绩(a0099b)][排名(q730e25d0[n])]第十九，[未能][晋级(a01ad0ne25)][半决赛(q734)]。[根据][规则(a009a9)]，[预赛(q734)]的33名[选手(q730)]中，[成绩(a0099b)]排在前18名的[选手(q730)][晋级(a01ad0ne25)][半决赛(q734)]。

在文本中，第一个语句“Title：马来西亚‘小旗手’一名之差未进跳水半决赛”，其语义分析结果为“Title：马来西亚‘小旗手’(SB)||一名之差未进(S0)||跳水半决赛(SC)”。由于全局特征语义块Eg(即S0)没有领域概念符号信息，所以从含有领域信息的内容语义块C(即SC)中选取语句的领域。SC语义块中的“跳水”和“半决赛”都含有领域概念符号信息，通过分值计算它们的领域关系得分和频次得分都一样，但是“半决赛”的位置得分要大于“跳水”，所以语句的领域为“q734”。因此第一个段落总共就一个语句，整个段落是一个句群，句群的领域就是“q734”。由于第一个段落是文本标题，所以文本的领域也就是“q734”。

这样，依据激活词语的领域概念符号，通过分析激活词语在语句中所处的语义块的类型以及词语位置、频次等可得到语句的领域、句群的领域，最终得到了文本的领域。

Claims

1、一种基于概念符号的文本领域的获取系统，其特征在于，所述获取系统包括：

一领域概念符号集，用于表达词语概念和领域类别，并向领域判别器提供所需的领域概念符号；

一词语知识库，用于存储词语及其概念符号，并向分词处理器和语句语义分析器提供所需的词语及其概念符号；

一分词处理器，用于把输入文本切分为段落、语句、词语，并送入语句语义分析器；

一语句语义分析器，用于对语句进行语义分析，得到语句的概念类别和构成语句的语义块，包括：语义块的角色、边界和内部构成；

2、根据权利要求1所述的文本领域的获取系统，其特征在于，所述语义块的角色类型分为：特征语义块E、作用者语义块A、对象语义块B及内容语义块C；所述特征语义块类型E分为两种类型：a)全局特征语义块Eg，是语句第一级层次中的特征语义块E；b)局部特征语义块El，是语义块中嵌套语句S′时嵌套语句S′的特征语义块E。

3、根据权利要求1所述的文本领域的获取系统，其特征在于，所述领域概念符号集包括以下高层节点符号：

领域概念高层节点表示的领域 71，72 心理活动及精神状态 8 人类思维活动 a，b 专业及追求活动 d 理念活动 q6 第一类劳动 q7 业余活动 q8 信仰活动 6m(m＝0～5) 本能活动 3228α(α＝8～b) 灾祸 503,50α(α＝8～b) 状态

以及所述高层节点向下延伸的更具体的领域概念节点符号。

4、根据权利要求1所述的文本领域的获取系统，其特征在于，所述领域判别器按如下方法确定语句S的领域：首先，从语句语义分析的结果中获得激活词语所处语义块的类型；然后，按“全局特征语义块Eg＞局部特征语义块El＞内容语义块C＞对象语义块B或作用者语义块A”的语义块类型顺序依次确定语句S的领域；当同一类型语义块中有多个激活词语W₁，W₂，...，W_n时，假设激活词语对应的领域概念符号分别为D₁，D₂，...，D_n，那么根据如下计算公式计算每一个领域概念符号在语句中的得分：

S(D_i)＝Rel(i)+Fre(i)+Pos(i)，1≤i≤n；

其中，Rel(i)表示第i个领域概念符号D_i在语句中与其它领域概念符号D_j(j≠i，1≤j≤n)的关系得分；Fre(i)表示第i个领域概念符号D_i在语句S中的出现频次，频次越高其值越大；Pos(i)表示第i个领域概念符号D_i在语句S中的出现位置，位置越靠后其值越大，将得分S(D_i)最高的第i个领域概念符号D_i作为语句S的领域。

5、根据权利要求1所述的文本领域的获取系统，其特征在于，所述领域判别器判断文本领域的原则还包括：如果文本中有标题，那么标题的领域作为文本的领域；如果文本中没有标题，那么文本中最先出现的频次最多的句群领域作为文本的领域。

6、一种基于概念符号的文本领域的获取方法，包括以下步骤：

(1)分段分句分词：分词处理器把输入文本切分为段落、语句、词语；

(2)语句语义分析：语句语义分析器对语句进行语义分析，得到语句的概念类别和构成语句的语义块，包括：语义块的角色、边界和内部构成；

(3)获取激活词语：领域判别器根据领域概念符号集和词语知识库中的语义概念符号得到语句中的激活词语；

(4)语句领域判别：领域判别器根据语句中激活词语的语义块类型、领域概念符号关系、出现频次及出现位置对激活词语的领域概念符号进行综合评分，取得分最高的领域概念符号作为语句的领域；

(5)句群及其领域判别：领域判别器对段落中的语句按照其领域概念符号进行合并，得到句群及其领域；

7、根据权利要求6的文本领域的获取方法，其特征在于，所述步骤(4)按如下方法确定语句S的领域：首先，从语句语义分析的结果中获得激活词语所处语义块的类型；然后，按“全局特征语义块Eg＞局部特征语义块El＞内容语义块C＞对象语义块B或作用者语义块A”的语义块类型顺序依次确定语句S的领域；当同一类型语义块中有多个激活词语W₁，W₂，...，W_n时，假设激活词语对应的领域概念符号分别为D₁，D₂，...，D_n，那么根据如下计算公式计算每一个领域概念符号在语句中的得分：

S(D_i)＝Rel(i)+Fre(i)+Pos(i)，1≤i≤n；

8、根据权利要求6的文本领域的获取方法，其特征在于，所述步骤(5)中，对于文本T的某个段落P_i中的语句S₁，S₂，...，S_n，每个语句的句群归属依据以下步骤确定：

(5b)S₁为当前语句S_i，G₁为当前句群G_j，转(5g)；

(5g)如果当前语句S_i为最后一个语句S_n，那么转(5n)；

9、根据权利要求6的文本领域的获取方法，其特征在于，所述步骤(6)还包括：如果输入文本中有标题，那么标题的领域被作为输入文本的领域；如果输入文本中没有标题，那么输入文本中最先出现的频次最多的句群领域被作为输入文本领域的候选领域的步骤。

10、根据权利要求9所述的文本领域的获取方法，其特征在于，如果文本中没有标题，文本T中n个句群的领域按句群出现顺序记为D＝(D_G1，D_G2，...，D_Gn)，从D_G1到D_Gn按以下步骤操作获取文本领域：

(6b)如果D_Gi为D_Gn，那么转(6f)；

(6c)把D_Gi+1作为D_Gi；

(6d)如果D_Gi的领域概念符号已经被存入表HTab中，那么转(6c)；

(6f)得到表HTab＝((D_G1，C_G1)，...，(D_Gm，C_Gm))，其中1≤m≤n；

(6g)对表HTab中的元素(D_Gj，C_Gj)，1≤j≤m按照C_Gj的大小从大到小排序，得到新表HTab′＝((D_G1′，C_G1′)，...，(D_Gm′，C_Gm′))，把该新表中的第一个元素的领域概念符号作为文本T的领域。