Nothing Special   »   [go: up one dir, main page]

CN104462431A - 一种爬取网页招聘信息的方法 - Google Patents

一种爬取网页招聘信息的方法 Download PDF

Info

Publication number
CN104462431A
CN104462431A CN201410774571.0A CN201410774571A CN104462431A CN 104462431 A CN104462431 A CN 104462431A CN 201410774571 A CN201410774571 A CN 201410774571A CN 104462431 A CN104462431 A CN 104462431A
Authority
CN
China
Prior art keywords
recruitment
information
recruitment information
web page
page
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410774571.0A
Other languages
English (en)
Inventor
邱继钊
于治楼
范莹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Group Co Ltd
Original Assignee
Inspur Software Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Group Co Ltd filed Critical Inspur Software Group Co Ltd
Priority to CN201410774571.0A priority Critical patent/CN104462431A/zh
Publication of CN104462431A publication Critical patent/CN104462431A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明是一种爬取网页招聘信息的方法,解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。

Description

一种爬取网页招聘信息的方法
技术领域
本发明涉及一种计算机应用, 具体地说是一种爬取网页招聘信息的方法。
背景技术
随着互联网的普及,招聘信息的载体逐渐由纸质报刊转向互联网上的各类招聘网站。当今,招聘网站已成为企业与应聘者发布与获取招聘信息的主要途径。企业为了能够招聘到高精尖的人才,都会在不同的招聘网站上发布相应的招聘信息,应聘者为了能够找到满意的工作,也会去不同的网站去寻找相应的招聘信息。随着招聘网站的不断增多,招聘信息也呈现出不断增长的趋势,而且信息内容随着岗位与企业的不同也呈现出不同与多变,这给采集也带了众多难题如下:
1.  页面不规则,造成规则的多变;
2.  随着数据量的不断增大,分页地址不断变化;
3.  网站信息更新速度快。
发明内容
本发明的目的是提供一种爬取网页招聘信息的方法。
本发明的目的是针对招聘网站上的各类招聘信息进行采集,主要是因为招聘网站已成为当今企业与应聘者发布获取招聘信息最主要的途径。根据采集互联网上数据的规则,对招聘网站中各类招聘信息进行采集:本发明的目的是按以下方式实现的,具体步骤如下:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站; 
5)利用抓包工具获得各类招聘信息的分页地址; 
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
本发明的目的有益效果是:解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。
附图说明
图1是爬取网页招聘信息的流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
由于不同招聘网站地址不一样,不同类别的招聘信息地址更是不一样,因此,分以下几个步骤对招聘信息进行数据采集:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站; 
5)利用抓包工具获得各类招聘信息的分页地址; 
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。

Claims (1)

1.一种爬取网页招聘信息的方法, 其特征在于具体步骤如下:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站; 
5)利用抓包工具获得各类招聘信息的分页地址; 
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
CN201410774571.0A 2014-12-16 2014-12-16 一种爬取网页招聘信息的方法 Pending CN104462431A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410774571.0A CN104462431A (zh) 2014-12-16 2014-12-16 一种爬取网页招聘信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410774571.0A CN104462431A (zh) 2014-12-16 2014-12-16 一种爬取网页招聘信息的方法

Publications (1)

Publication Number Publication Date
CN104462431A true CN104462431A (zh) 2015-03-25

Family

ID=52908466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410774571.0A Pending CN104462431A (zh) 2014-12-16 2014-12-16 一种爬取网页招聘信息的方法

Country Status (1)

Country Link
CN (1) CN104462431A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN107203872A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才需求量化分析方法
CN108733827A (zh) * 2018-05-24 2018-11-02 佛山市轻遣网络有限公司 一种招聘网站外的招聘信息获取方法及系统
CN112506986A (zh) * 2020-11-19 2021-03-16 阿坝师范学院 基于web招聘信息的特定专业人才技能需求挖掘系统
CN113254745A (zh) * 2021-04-28 2021-08-13 深圳格隆汇信息科技有限公司 经济信息收集系统、方法、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145695A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd フィルタリング情報処理システム
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101957866A (zh) * 2010-10-25 2011-01-26 中国农业大学 网络文本信息集成方法和装置
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN103186613A (zh) * 2011-12-30 2013-07-03 大连天维科技有限公司 影视资源聚合系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004145695A (ja) * 2002-10-25 2004-05-20 Matsushita Electric Ind Co Ltd フィルタリング情報処理システム
CN101452463A (zh) * 2007-12-05 2009-06-10 浙江大学 定向抓取页面资源的方法和装置
CN101957866A (zh) * 2010-10-25 2011-01-26 中国农业大学 网络文本信息集成方法和装置
CN102184227A (zh) * 2011-05-10 2011-09-14 北京邮电大学 一种面向web服务的通用爬虫引擎系统及其工作方法
CN103186613A (zh) * 2011-12-30 2013-07-03 大连天维科技有限公司 影视资源聚合系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
HIHEIHEICDN: "招聘信息抓取系统", 《HTTP://BLOG.CSDN.NET/HIHEIHEICDN/ARTICLE/DETAILS/6470642》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN107203872A (zh) * 2017-05-26 2017-09-26 山东省科学院情报研究所 基于大数据的区域人才需求量化分析方法
CN107203872B (zh) * 2017-05-26 2020-06-02 山东省科学院情报研究所 基于大数据的区域人才需求量化分析方法
CN108733827A (zh) * 2018-05-24 2018-11-02 佛山市轻遣网络有限公司 一种招聘网站外的招聘信息获取方法及系统
CN112506986A (zh) * 2020-11-19 2021-03-16 阿坝师范学院 基于web招聘信息的特定专业人才技能需求挖掘系统
CN113254745A (zh) * 2021-04-28 2021-08-13 深圳格隆汇信息科技有限公司 经济信息收集系统、方法、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN104462431A (zh) 一种爬取网页招聘信息的方法
US10838605B2 (en) Reactive graphical display of real-time values
WO2015002947A3 (en) Welding system parameter comparison system and method
GB201011179D0 (en) Method of optimizing data flow between a software application and a database server
MX2017007761A (es) Generacion de sugerencias de navegacion basadas en datos de dispositivos en el internet de las cosas.
MX2016001077A (es) Sistemas y metodos para un laboratorio clinico distribuido.
MX340212B (es) Método para administración de aplicación, así como dispositivo, servidor y dispositivo terminal del mismo.
MX2016005088A (es) Metodo y aparato de optimizacion de recursos de memoria.
GB201204006D0 (en) Point of interest database maintenance system
GB2493854A (en) Providing a WWW access to a web page
RU2014149895A (ru) Способ определения местоположения точек интенсификации разрыва пласта с использованием минералогического состава, а также соответствующие система и программный продукт
MX2018005255A (es) Sugerencia operativa generada por maquina en funcion del tiempo.
WO2014141222A3 (en) Business methods for providing a selective research-funding portal
CN106547774B (zh) 网站内容的检测方法及装置
EP2840500A3 (en) Information processing terminal and control method
TW200713056A (en) Tab order management in a portal environment
CN106156162A (zh) 数据库查询量统计方法和设备
CN103810183A (zh) 一种得到真实访客停留时长的方法
Mitra et al. Pathways for meeting India’s climate goals
Alpaydin 2 machine learning, statistics, and data analytics
Ye et al. Big data analytics and cloud computing in the smart grid
CN106503213A (zh) 一种网络数据信息展示管理方法及系统
Sedkaoui Data analytics process: there's great work behind the scenes
CA3085643A1 (en) Map visualization for well data
Issa et al. Product-related Environmental Performance Indicators: a systematic literature review

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150325