Nothing Special   »   [go: up one dir, main page]

CN111444409A - 一种基于大数据的学情分析系统 - Google Patents

一种基于大数据的学情分析系统 Download PDF

Info

Publication number
CN111444409A
CN111444409A CN202010228973.6A CN202010228973A CN111444409A CN 111444409 A CN111444409 A CN 111444409A CN 202010228973 A CN202010228973 A CN 202010228973A CN 111444409 A CN111444409 A CN 111444409A
Authority
CN
China
Prior art keywords
data
unit
information
post
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010228973.6A
Other languages
English (en)
Inventor
龚历
何金洋
宋学永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Yidaoyun Technology Development Co ltd
Original Assignee
Jiangsu Yidaoyun Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Yidaoyun Technology Development Co ltd filed Critical Jiangsu Yidaoyun Technology Development Co ltd
Priority to CN202010228973.6A priority Critical patent/CN111444409A/zh
Publication of CN111444409A publication Critical patent/CN111444409A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开一种基于大数据的学情分析系统,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;用户单元与所述数据采集单元、数据服务单元链接;所述数据采集单元采集数据,构建非结构化数据集;所述数据挖掘单元基于开源大数据平台Hadoop构建,实现数据存储与数据预处理,数据聚类分析和相似度推荐,数据挖掘结果数据的存储;所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示信息。本发明利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理和挖掘,建立一个高效的、智能化的学情分析系统,加快高校信息化建设的速度和质量。

Description

一种基于大数据的学情分析系统
技术领域
本发明属于数据分析技术领域,具体是涉及一种基于大数据的学情分析系统。
背景技术
学情分析是伴随现代教学设计理论产生的,现代教学设计理论认为,认真研究学生的实际需要、能力水平、认知倾向以及社会对人才的需求分析,“为学习者设计教学”,优化教学过程,可以更有效地达成教学目标,提高教学效率。
学情分析指的是学生在学习方面有何特点、学习方法怎样、习惯怎样、兴趣如何,成绩如何等。其设计理念包括教学方法、学法指导和教学设想,根据获取的数据研究者可以从高校创新创业教育改革、创新创业人才培养、基于产业发展需求的专业结构调整研究、学生学习行为分析、教师教授行为分析,以及个性化推荐等角度展开研究。
大数据作为当前互联网的潮流,大数据的5V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。分析师团队认为,大数据(Bigdata)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。
数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。数据挖掘通常与计算机科学有关,并通过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。数据的类型可以是结构化的、半结构化的,甚至是异构型的。发现知识的方法可以是数学的、非数学的,也可以是归纳的。最终被发现了的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。数据挖掘的对象可以是任何类型的数据源。可以是关系数据库,此类包含结构化数据的数据源;也可以是数据仓库、文本、多媒体数据、空间数据、时序数据、Web数据,此类包含半结构化数据甚至异构性数据的数据源。发现知识的方法可以是数字的、非数字的,也可以是归纳的。最终被发现的知识可以用于信息管理、查询优化、决策支持及数据自身的维护等。对教育大数据进行分析,需要从大量数据中进行提取与挖掘,在这个过程包括数据的采集、存储、清洗、数据挖掘、数据展示等,旨在最大限度地保持与还原客观事实,提高院校管理效率和教学水平。
大数据在教育领域的应用总体上呈现出“产业应用的成熟度大于学校应用的成熟度”的态势。传统学期分析系统通过分析学生表现如出勤率、考试成绩等传统的结构化数据来帮助学生,很难处理大规模、复杂结构、多维度的教育数据。比如,单机数据库服务器面对巨大数据吞吐量会呈现查询效率低、处理速度慢的现象,关系型数据库系统无法处理文本、报表、多媒体数据等非结构化数据。高校中蕴藏着十分丰富的非结构化信息资源,这些信息资源数量巨大形式混杂,传统的学期分析系统很难找到合适的方法对海量非结构化数据进行有效管理。大数据技术的不断成熟能够满足高校对教育大数据处理的速度、维度、精细度的要求。
基于教育大数据的数据分析和数据挖掘仍处于发展的初期,传统的数据分析技术无法充分挖掘教育大数据中的价值,在实际的应用中不能依靠教育大数据提供的有价值信息促进学生学习,对学校、教师、学生提供的信息滞后且片面。
发明内容
发明目的:本发明目的在于针对现有技术的不足,提供一种基于大数据的学情分析系统,利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理和挖掘,建立一个高效的、智能化的学情分析系统,加快高校信息化建设的速度和质量。
技术方案:本发明所述基于大数据的学情分析系统,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;
所述用户单元通过通信网络与所述数据采集单元、数据服务单元链接,用户通过用户单元访问数据采集单元和数据服务单元;
所述数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集;
所述数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;
所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。
本发明进一步优选地技术方案为,所述数据挖掘单元对非结构化数据库中数据预处理过程包括对数据源进行初步整理和分析,针对岗位数据需要规范岗位名称、过滤垃圾信息、去除重复信息、对岗位描述进行分词;
数据挖掘单元结果数据包括使用聚类算法获取特定岗位在各省份分布数据、特定岗位需要的技能点的权重、特定岗位对学历和工作经验的要求等统计信息;使用向量相似度算法应用于岗位信息与学生信息,实现对学生的岗位推荐和定制化学习路线。
作为优选地,数据挖掘单元在数据挖掘过程中:
针对学生的学习相关数据,对遗漏数据进行补全,采用默认值或者填写均值操作;
对逻辑上出现的错误数据进行聚类并人工检查使其逻辑上一致,去除可忽略的字段,去除多数据源导致的重复属性,重复字段,重复信息的问题;
纠正不一致数据,去掉数据中的空、丢失值,数据的合理与完整保证了模型结果更加精准,学校相关信息系统需要与相关职能部分沟通数据中有价值或权重较高的字段或描述,确定技术可行性和评估数据源价值。
优选地,所述数据服务单元通过web技术为用户单元展示信息。
优选地,用户通过用户单元,采用浏览器、移动APP、小程序和公众号的方式访问数据采集单元和数据服务单元。
有益效果:(1)本发明改进教育数据采集方法和手段,使用网络爬虫和网站日志采集等手段获取特定岗位招聘信息网站、特定企业岗位需求信息、学生信息管理系统、招生就业系统、校园考勤系统、图书管理系统平台、教务系统等真实数据构建多维度的教育数据集;使用先进的大数据技术和数据挖掘技术对教育大数据进行分析获取有价值的信息应用于教学过程、教育决策以及人才培养方案的制定,利用大数据和互联网技术对海量的、多维的教育数据进行收集、存储、处理、挖掘,建立一个高效的、智能化的学情分析系统,能够加快高校信息化建设的速度和质量。
(2)本发明通过大数据技术和数据挖掘技术对每位学生学习行为数据、成绩信息、就业岗位信息进行学习分析构建用户画像,创建个性化学习计划,推荐合适工作岗位。改善教与学的方式,促进学生发展;同时找到合适的方法对高校中蕴藏的数量巨大形式混杂的的非结构化信息资源进行有效管理,满足高校对教育大数据处理的速度、维度、精细度的要求。
(3)本发明对教育大数据进行分析,需要从大量数据中进行提取与挖掘,在这个过程包括数据的采集、存储、清洗、数据挖掘、数据展示等,旨在最大限度地保持与还原客观事实,提高院校管理效率和教学水平。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例:一种基于大数据的学情分析系统,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元。
用户单元通过通信网络与数据采集单元、数据服务单元链接,用户通过用户单元采用浏览器、移动APP、小程序和公众号的方式访问数据采集单元和数据服务单元;用户包括系统管理员、学生、教师、扫描专员。
数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集。
数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;
数据挖掘单元对非结构化数据库中数据预处理过程包括对数据源进行初步整理和分析,针对岗位数据需要规范岗位名称、过滤垃圾信息、去除重复信息、对岗位描述进行分词;
数据挖掘单元结果数据包括使用聚类算法获取特定岗位在各省份分布数据、特定岗位需要的技能点的权重、特定岗位对学历和工作经验的要求等统计信息;使用向量相似度算法应用于岗位信息与学生信息,实现对学生的岗位推荐和定制化学习路线。
数据挖掘单元在数据挖掘过程中:
针对学生的学习相关数据,对遗漏数据进行补全,采用默认值或者填写均值操作;
对逻辑上出现的错误数据进行聚类并人工检查使其逻辑上一致,去除可忽略的字段,去除多数据源导致的重复属性,重复字段,重复信息的问题;
纠正不一致数据,去掉数据中的空、丢失值,数据的合理与完整保证了模型结果更加精准,学校相关信息系统需要与相关职能部分沟通数据中有价值或权重较高的字段或描述,确定技术可行性和评估数据源价值。
数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,通过web技术为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (5)

1.一种基于大数据的学情分析系统,其特征在于,包括用户单元、数据采集单元、数据挖掘单元和数据服务单元;
所述用户单元通过通信网络与所述数据采集单元、数据服务单元链接,用户通过用户单元访问数据采集单元和数据服务单元;
所述数据采集单元通过网络爬虫和定时推送日志记录的方式采集包括特定岗位招聘信息网站和特定企业岗位需求信息,构建非结构化数据集;
所述数据挖掘单元基于开源大数据平台Hadoop构建,包括分布式非结构化数据库HBase,实现数据存储与数据预处理;实现数据聚类分析和相似度推荐;数据库MongoDB,实现数据挖掘结果数据的存储;
所述数据服务单元使用数据挖掘单元开放的接口,调用数据挖掘单元中的数据库数据,为用户单元直观展示包括特定岗位招聘信息的地理分布、特定岗位技能点权重、学生就业岗位推荐和定制化学习路线推荐的信息。
2.根据权利要求1所述的基于大数据的学情分析系统,其特征在于,所述数据挖掘单元对非结构化数据库中数据预处理过程包括对数据源进行初步整理和分析,针对岗位数据需要规范岗位名称、过滤垃圾信息、去除重复信息、对岗位描述进行分词;
数据挖掘单元结果数据包括使用聚类算法获取特定岗位在各省份分布数据、特定岗位需要的技能点的权重、特定岗位对学历和工作经验的要求等统计信息;使用向量相似度算法应用于岗位信息与学生信息,实现对学生的岗位推荐和定制化学习路线。
3.根据权利要求2所述的基于大数据的学情分析系统,其特征在于,数据挖掘单元在数据挖掘过程中:
针对学生的学习相关数据,对遗漏数据进行补全,采用默认值或者填写均值操作;
对逻辑上出现的错误数据进行聚类并人工检查使其逻辑上一致,去除可忽略的字段,去除多数据源导致的重复属性,重复字段,重复信息的问题;
纠正不一致数据,去掉数据中的空、丢失值,数据的合理与完整保证了模型结果更加精准,学校相关信息系统需要与相关职能部分沟通数据中有价值或权重较高的字段或描述,确定技术可行性和评估数据源价值。
4.根据权利要求1所述的基于大数据的学情分析系统,其特征在于,所述数据服务单元通过web技术为用户单元展示信息。
5.根据权利要求1所述的基于大数据的学情分析系统,其特征在于,用户通过用户单元,采用浏览器、移动APP、小程序和公众号的方式访问数据采集单元和数据服务单元。
CN202010228973.6A 2020-03-27 2020-03-27 一种基于大数据的学情分析系统 Pending CN111444409A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010228973.6A CN111444409A (zh) 2020-03-27 2020-03-27 一种基于大数据的学情分析系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010228973.6A CN111444409A (zh) 2020-03-27 2020-03-27 一种基于大数据的学情分析系统

Publications (1)

Publication Number Publication Date
CN111444409A true CN111444409A (zh) 2020-07-24

Family

ID=71652509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010228973.6A Pending CN111444409A (zh) 2020-03-27 2020-03-27 一种基于大数据的学情分析系统

Country Status (1)

Country Link
CN (1) CN111444409A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113468240A (zh) * 2021-06-25 2021-10-01 和元达信息科技有限公司 基于移动终端上网行为大数据分析的方法
CN113486098A (zh) * 2021-06-23 2021-10-08 北京德风新征程科技有限公司 一种工业互联网大数据平台系统
CN118071302A (zh) * 2024-04-17 2024-05-24 南京审计大学 一种基于大数据的审计教育信息匹配方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN108648120A (zh) * 2018-05-11 2018-10-12 重庆工商职业学院 一种学院就业数据分析方法及系统
CN109710851A (zh) * 2018-12-27 2019-05-03 三盟科技股份有限公司 基于互联网模式下多源数据分析的就业推荐方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106168965A (zh) * 2016-07-01 2016-11-30 竹间智能科技(上海)有限公司 知识图谱构建系统
CN108648120A (zh) * 2018-05-11 2018-10-12 重庆工商职业学院 一种学院就业数据分析方法及系统
CN109710851A (zh) * 2018-12-27 2019-05-03 三盟科技股份有限公司 基于互联网模式下多源数据分析的就业推荐方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113486098A (zh) * 2021-06-23 2021-10-08 北京德风新征程科技有限公司 一种工业互联网大数据平台系统
CN113468240A (zh) * 2021-06-25 2021-10-01 和元达信息科技有限公司 基于移动终端上网行为大数据分析的方法
CN118071302A (zh) * 2024-04-17 2024-05-24 南京审计大学 一种基于大数据的审计教育信息匹配方法及系统

Similar Documents

Publication Publication Date Title
CN110992227B (zh) 一种校企结合职业技能人才培养系统和方法
CN111444409A (zh) 一种基于大数据的学情分析系统
Zhong et al. Design of a personalized recommendation system for learning resources based on collaborative filtering
Ekong et al. Harnessing big data technology to benefit effective delivery and performance maximization in pedagogy
Manohar et al. Utilizing big data analytics to improve education
Aziz et al. A FRAMEWORK FOR EDUCATIONAL DATA WAREHOUSE (EDW) ARCHITECTURE USING BUSINESS INTELLIGENCE (BI) TECHNOLOGIES.
He et al. Design and implementation of a unified MOOC recommendation system for social work major: Experiences and lessons
Tarekegn et al. Application of data mining techniques to predict students placement in to Departments
Majeed et al. Current state of art of academic data mining and future vision
Al-shargabi et al. Discovering vital patterns from UST students data by applying data mining techniques
Sun et al. Research on big data analytics technology of MOOC
Li et al. Design of an online learning early warning system based on learning behaviour analysis
Shayakhmetova et al. Descriptive big data analytics in the field of education
Shi et al. Knowledge management platforms and intelligent knowledge beyond data mining
Chen Quality evaluation of student education management work based on wireless network data mining
Borges et al. A multidimensional data model for the analysis of learning management systems under different perspectives
Chairungruang et al. Business Intelligence for Data-Driven Decision-Making in Vocational Education
Islam et al. Parametric study of student learning in IT using data mining to improve academic performance
Zhang et al. Study on learning effect prediction models based on principal component analysis in MOOCs
Wang et al. Personalized recommendation method of ideological and political education resources based on data mining
He et al. Research on educational data mining based on big data
Abdulaziz et al. A survey on Big Data Analytics for Education
Nimy et al. Web-based Clustering Application for Determining and Understanding Student Engagement Levels in Virtual Learning Environments
Vaitheeswaran et al. Big Data for Education in Students’ Perspective
Sengupta et al. In-detail analysis on custom teaching and learning framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200724

RJ01 Rejection of invention patent application after publication