CN109325096B - 一种基于知识资源分类的知识资源搜索系统 - Google Patents
一种基于知识资源分类的知识资源搜索系统 Download PDFInfo
- Publication number
- CN109325096B CN109325096B CN201810757626.5A CN201810757626A CN109325096B CN 109325096 B CN109325096 B CN 109325096B CN 201810757626 A CN201810757626 A CN 201810757626A CN 109325096 B CN109325096 B CN 109325096B
- Authority
- CN
- China
- Prior art keywords
- knowledge resource
- server
- knowledge
- classification
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000004891 communication Methods 0.000 claims abstract description 20
- 238000012549 training Methods 0.000 claims abstract description 20
- 238000000034 method Methods 0.000 claims abstract description 11
- 239000013598 vector Substances 0.000 claims description 20
- 238000013145 classification model Methods 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 6
- 238000004458 analytical method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,采集服务器通信连接学员信息服务器;模型服务器通信连接采集服务器和知识资源库服务器;分类服务器通信连接模型服务器和知识资源库服务器;搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器。该发明有效解决由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。
Description
技术领域
本发明涉及资源分类与搜索领域,尤其涉及一种基于知识资源分类的知识资源搜索系统。
背景技术
高等院校的数据库中知识资源的分类存储意义重大,尤其对于积累了大量电力培训知识资源的高等电力院校,若资源分类不明确将造成资源利用率不高、资源检索准确率较低等情况,学生无法准确获取到所需知识资源,知识资源没有被充分利用起来会造成的教学知识资源的空置浪费,这种浪费限制了院校培训教学质量的提升。而且现有技术中没有针对高等院校知识资源的特点进行分类的知识分类手段,因此分类精度不够,同时也造成了学生检索效果不够理想,如何提高知识资源利用率、为学生提供更科学的辅助教学服务,成为电力培训教学必须要解决的问题。
发明内容
为解决上述技术问题,本发明提出了一种基于知识资源分类的知识资源搜索系统,解决了由于知识资源分类精度不够,造成的学员检索效果不理想,电力培训教学效果差的问题。
本发明的技术方案如下:
一种基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学生专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作。
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
所述预处理模块中设置有分词器。
所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,
所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
本发明具有以下有益效果:
本发明提供的一种基于知识资源分类的知识资源搜索系统,对知识资源按照越远所在专业类别进行分类,按学员专业构建个性化知识资源搜索引擎。有效改善知识资源分类精度,提高知识资源利用率,为学生提供更科学的辅助教学服务。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明提供的一种基于知识资源分类的知识资源搜索系统的结构示意图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
术语解释部分:包括自定义术语、不常见术语、需要解释限定清楚的术语、引用文献涉及内容等、
正如背景技术所介绍的,现有技术中存在学生检索效果不够理想,知识资源利用率低的不足,为了解决如上的技术问题,本申请提出了一种基于知识资源分类的知识资源搜索系统。
本发明的一种典型的实施方式,如图1所示,本发明提供的基于知识资源分类的知识资源搜索系统,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
采集服务器,通信连接学员信息服务器,并从中获取学员的专业类别信息。
模型服务器,通信连接采集服务器和知识资源库服务器,从知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用数据分类模型对训练集数据进行训练,生成知识资源分类模型。
进一步地,分类服务器包括预处理模块、向量提取模块和分类模块,所述预处理模块、向量提取模块和分类模块依次通信连接,其中:
预处理模块,对知识资源库中的每一知识资源进行分词并去除停用词和低频词,选择知识资源特征词。ICTCLAS(Institute of Computing Technology,Chinese LexicalAnalysis System)是中国科学院计算技术研究所研制的汉语词法分析系统,本发明中的预处理模块中设置有具有ICTCLAS的分词器。选用分词器对知识资源进行分词,并去除不能反映知识资源所属类别的词语、通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语以及低频词语;
中文分词是将中文语句中的词语切分开来的过程。它和英文的分词是存在区别的,英文的语句是以由字母组成的单词为基本单位的,单词之间存在一个空格,因此其本身已经完成了分词的过程。而中文的语句是以字为基本单位的。词语通常有多个字组成,因此对于中文来说分词的过程是必不可少的。
停用词(Stop Words),词典译为“电脑检索中的虚字、非检索用字”。通常意义上,停用词(Stop Words)大致可分为如下两类:使用频率较高的单词。比如英文的“is”、“what”,中文的“我”、“就”之类词几乎在每个知识资源上均会出现,这些词存在于每一个类别的知识资源中,不能反映知识资源所属类别,对于知识分类实际价值。因此,需要去除这部分词语。文本实际意义不大的词。这一类主要包括了语气助词、副词、介词、连词等,通常自身并无明确意义,只有将其放入一个完整的句子中才有一定连接语句作用的词语。如常见的“的”、“在”、“只是”之类的。
向量提取模块,通过提取知识资源特征词的特征,得到知识资源的TF-IDF特征向量,可选地,所述向量提取模块中设置有CHI统计器和TF-IDF权重计算器,CHI统计器是利用CHI法统计知识资源特征词的装置,TF-IDF权重计算器是利用TF-IDF法计算CHI统计器选取的知识资源特征词的权重的装置。具体地,
CHI统计器用以计算知识资源特征词与知识资源类别的CHI统计量,然后按值大小排序,根据实际需要选取CHI值大的知识资源特征词,计算公式如下:
(本申请的CHI统计器的CHI计算公式),
(传统CHI计算公式),
其中,用χ2(tk,ci)来度量知识资源特征词tk和知识资源类别ci之间的相关程度;
特征词频度tf(tk,ci),知识资源特征词tk在某类知识资源类别ci中出现的次数;
类间聚集度其中|C|为训练集数据中总的类别数,|Ck|为包含知识资源特征词tk的类别数;
类内分散度用dfi(tk)/Ni表示,其中dfi(tk)表示知识资源特征词tk在知识资源类别ci内出现的知识资源数,Ni表示知识资源类别ci内知识总数;
TF-IDF权重计算器用来评估所选取的CHI值大的知识资源特征词的重要程度,词频率-逆文档频率TF-IDF°,用来评估特征词的重要程度,特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF°特征向量,传统的TF-IDF在计算特征词权重时只考虑了特征词频率和包含特征词的知识资源数量,没有考虑特征词的长度信息,通常较长的特征词包含更多的信息,对于文本分类起更大的决定作用,因此需要增大较长词的权重。因此我们对TF-IDF°值进行改进。其公式如下,
TFIDF°=TFIDF×ln(L+3)(本申请TF-IDF权重计算器的TF-IDF°计算公式),
(传统TF-IDF计算公式),
其中nk,i是所选取的CHI值大的知识资源特征词tk在知识资源di中出现的次数,是知识资源中出现所选取的CHI值大的知识资源特征词的总数,N是知识资源总数,N(tk)是包含所选取的CHI值大的知识资源特征词tk的知识资源总数。
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类。
分类服务器5,通信连接模型服务器4和知识资源库服务器2,利用知识资源分类模型对知识资源库进行分类。
搜索服务器6,通信连接学员信息服务器1、分类服务器5和知识资源库服务器2,确定该学生专业,按该专业类别从分类后的知识资源库中选取其对应的底层知识资源库,然后在该底层知识资源库内进行搜索操作。
以上所述的本发明实施方式并不构成对本发明保护范围的限定。本领域技术人员在考虑说明书及实践这里发明的公开后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
Claims (5)
1.一种基于知识资源分类的知识资源搜索系统,其特征在于,包括采集服务器、模型服务器、分类服务器、学员信息服务器、知识资源库服务器和搜索服务器,其中,
学员信息服务器,用于存储学员的专业类别信息;
知识资源库服务器,具有存储知识资源数据的知识资源数据库;
采集服务器,通信连接所述学员信息服务器,用于从所述学员信息服务器中获取学员的专业类别信息;
模型服务器,通信连接所述采集服务器和知识资源库服务器;用于从所述知识资源库服务器的知识资源数据中为每一专业类别选取数据分类模型的训练原始数据,对得到的训练原始数据集进行数据处理提取数据特征作为训练集数据,使用所述数据分类模型对所述训练集数据进行训练,生成知识资源分类模型;
分类服务器,通信连接模型服务器和知识资源库服务器,利用所述知识资源分类模型对知识资源数据库进行分类;
搜索服务器,通信连接学员信息服务器、分类服务器和知识资源库服务器,用于确定该学员 专业,按该专业类别从分类后的知识资源数据库中选取其对应的底层知识资源数据库,然后在该底层知识资源数据库内进行搜索操作;
所述分类服务器包括:
预处理模块,对知识资源数据库中的每一知识资源数据进行分词并去除停用词和低频词,选择知识资源特征词;
向量提取模块,通过提取知识资源特征词的特征,得到知识资源数据的TF-IDF特征向量;所述向量提取模块中包括CHI统计器和TF-IDF权重计算器,TF-IDF权重计算器根据特征词频率、包含特征词的知识资源数量以及特征词的长度信息,计算词频率-逆文档频率TF-IDF°数值,计算中通过增加特征词的长度信息的变量信息增加较长词的权重;
分类模块,将TF-IDF特征向量输入到知识资源分类模型中进行分类;
所述预处理模块、向量提取模块和分类模块依次通信连接。
2.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述预处理模块中设置有分词器。
3.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述CHI统计器用以计算知识资源数据特征词与知识资源数据类别的统计量CHI值,然后按所述CHI值大小排序,选取CHI值大的知识资源特征词。
4.根据权利要求1要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述TF-IDF权重计算器用来评估所述选取的CHI值大的知识资源特征词的重要程度,即计算词频率-逆文档频率TF-IDF,用来评估特征词的重要程度,计算过程为:特征词在知识资源中的权重为特征词在知识资源中出现的频率反比于包含该特征词的知识资源数目,选取出现频率大的知识资源特征词作为TF-IDF特征向量。
5.根据权利要求1-4任一项要求所述的基于知识资源分类的知识资源搜索系统,其特征在于,所述学员信息服务器为实时数据库处理器和/或关系数据库处理器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810757626.5A CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810757626.5A CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109325096A CN109325096A (zh) | 2019-02-12 |
CN109325096B true CN109325096B (zh) | 2019-12-06 |
Family
ID=65263672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810757626.5A Expired - Fee Related CN109325096B (zh) | 2018-07-11 | 2018-07-11 | 一种基于知识资源分类的知识资源搜索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325096B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109993235A (zh) * | 2019-04-10 | 2019-07-09 | 苏州浪潮智能科技有限公司 | 一种多变量数据分类方法与装置 |
CN112632298B (zh) * | 2021-01-13 | 2023-06-02 | 中教云智数字科技有限公司 | 一种数字教育资源检索系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170262529A1 (en) * | 2010-10-01 | 2017-09-14 | Google Inc. | Sponsor answers and user-approved, system-suggested links in a social search engine |
CN105678575B (zh) * | 2015-12-31 | 2020-11-13 | 华南师范大学 | 基于用户属性知识库的个性化推荐方法和系统 |
CN107886949B (zh) * | 2017-11-24 | 2021-04-30 | 科大讯飞股份有限公司 | 一种内容推荐方法及装置 |
-
2018
- 2018-07-11 CN CN201810757626.5A patent/CN109325096B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN109325096A (zh) | 2019-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106874292B (zh) | 话题处理方法及装置 | |
US11210334B2 (en) | Method, apparatus, server and storage medium for image retrieval | |
US10482146B2 (en) | Systems and methods for automatic customization of content filtering | |
CN110334209B (zh) | 文本分类方法、装置、介质及电子设备 | |
CN107491518A (zh) | 一种搜索召回方法和装置、服务器、存储介质 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
US10565253B2 (en) | Model generation method, word weighting method, device, apparatus, and computer storage medium | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
CN111538903B (zh) | 搜索推荐词确定方法、装置、电子设备及计算机可读介质 | |
CN104111925A (zh) | 项目推荐方法和装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
CN106294786A (zh) | 一种代码搜索方法和系统 | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106708926B (zh) | 一种支持海量长文本数据分类的分析模型的实现方法 | |
CN114330329A (zh) | 一种业务内容搜索方法、装置、电子设备及存储介质 | |
CN117592470A (zh) | 大语言模型驱动的低成本公报数据抽取方法 | |
CN113468339A (zh) | 基于知识图谱的标签提取方法、系统、电子设备及介质 | |
CN109325096B (zh) | 一种基于知识资源分类的知识资源搜索系统 | |
CN112069314A (zh) | 一种基于科技文献数据的特定领域态势分析系统 | |
CN116109732A (zh) | 图像标注方法、装置、处理设备及存储介质 | |
CN104881446A (zh) | 搜索方法及装置 | |
CN112926297B (zh) | 处理信息的方法、装置、设备和存储介质 | |
CN111831819B (zh) | 一种文本更新方法及装置 | |
CN112559711A (zh) | 一种同义文本提示方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20191206 Termination date: 20210711 |
|
CF01 | Termination of patent right due to non-payment of annual fee |