CN104462431A - 一种爬取网页招聘信息的方法 - Google Patents
一种爬取网页招聘信息的方法 Download PDFInfo
- Publication number
- CN104462431A CN104462431A CN201410774571.0A CN201410774571A CN104462431A CN 104462431 A CN104462431 A CN 104462431A CN 201410774571 A CN201410774571 A CN 201410774571A CN 104462431 A CN104462431 A CN 104462431A
- Authority
- CN
- China
- Prior art keywords
- recruitment
- information
- recruitment information
- web page
- page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007115 recruitment Effects 0.000 title claims abstract description 58
- 238000000034 method Methods 0.000 title claims abstract description 8
- 230000009193 crawling Effects 0.000 title abstract description 6
- 238000004458 analytical method Methods 0.000 claims abstract description 5
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明是一种爬取网页招聘信息的方法,解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。
Description
技术领域
本发明涉及一种计算机应用, 具体地说是一种爬取网页招聘信息的方法。
背景技术
随着互联网的普及,招聘信息的载体逐渐由纸质报刊转向互联网上的各类招聘网站。当今,招聘网站已成为企业与应聘者发布与获取招聘信息的主要途径。企业为了能够招聘到高精尖的人才,都会在不同的招聘网站上发布相应的招聘信息,应聘者为了能够找到满意的工作,也会去不同的网站去寻找相应的招聘信息。随着招聘网站的不断增多,招聘信息也呈现出不断增长的趋势,而且信息内容随着岗位与企业的不同也呈现出不同与多变,这给采集也带了众多难题如下:
1. 页面不规则,造成规则的多变;
2. 随着数据量的不断增大,分页地址不断变化;
3. 网站信息更新速度快。
发明内容
本发明的目的是提供一种爬取网页招聘信息的方法。
本发明的目的是针对招聘网站上的各类招聘信息进行采集,主要是因为招聘网站已成为当今企业与应聘者发布获取招聘信息最主要的途径。根据采集互联网上数据的规则,对招聘网站中各类招聘信息进行采集:本发明的目的是按以下方式实现的,具体步骤如下:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站;
5)利用抓包工具获得各类招聘信息的分页地址;
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
本发明的目的有益效果是:解决了网页招聘信息采集难、入库难的问题。目前互联网上存在一定数目的招聘网站,而如今企业的主要招聘是通过在招聘网站发布招聘信息进行的,同样的,应聘者获取工作的主要途径是企业在招聘网站上发布的招聘信息。这些招聘信息在一定程度上能够反应当今社会经济结构的需求与变化;如果对招聘信息进行科学的处理与分析,可以实现更具针对性的政策调整与人才培养。
附图说明
图1是爬取网页招聘信息的流程图。
具体实施方式
参照说明书附图对本发明的方法作以下详细地说明。
由于不同招聘网站地址不一样,不同类别的招聘信息地址更是不一样,因此,分以下几个步骤对招聘信息进行数据采集:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站;
5)利用抓包工具获得各类招聘信息的分页地址;
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
除说明书所述的技术特征外,均为本专业技术人员的已知技术。
Claims (1)
1.一种爬取网页招聘信息的方法, 其特征在于具体步骤如下:
1)安装采集软件及抓包工具;
2)分析招聘网站地址,寻找各自不同类别招聘信息的地址;
3)通过抓包工具获取分页信息,配置相关工具实施数据采集;
4)从互联网上找到要采集的主流招聘网站;
5)利用抓包工具获得各类招聘信息的分页地址;
6)分析页面,找到要抓取的招聘信息的页面规则;
7)通过配置分析好的规则进行信息采集;
8)把采集的数据储存到数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410774571.0A CN104462431A (zh) | 2014-12-16 | 2014-12-16 | 一种爬取网页招聘信息的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410774571.0A CN104462431A (zh) | 2014-12-16 | 2014-12-16 | 一种爬取网页招聘信息的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104462431A true CN104462431A (zh) | 2015-03-25 |
Family
ID=52908466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410774571.0A Pending CN104462431A (zh) | 2014-12-16 | 2014-12-16 | 一种爬取网页招聘信息的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104462431A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
CN107203872A (zh) * | 2017-05-26 | 2017-09-26 | 山东省科学院情报研究所 | 基于大数据的区域人才需求量化分析方法 |
CN108733827A (zh) * | 2018-05-24 | 2018-11-02 | 佛山市轻遣网络有限公司 | 一种招聘网站外的招聘信息获取方法及系统 |
CN112506986A (zh) * | 2020-11-19 | 2021-03-16 | 阿坝师范学院 | 基于web招聘信息的特定专业人才技能需求挖掘系统 |
CN113254745A (zh) * | 2021-04-28 | 2021-08-13 | 深圳格隆汇信息科技有限公司 | 经济信息收集系统、方法、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145695A (ja) * | 2002-10-25 | 2004-05-20 | Matsushita Electric Ind Co Ltd | フィルタリング情報処理システム |
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN102184227A (zh) * | 2011-05-10 | 2011-09-14 | 北京邮电大学 | 一种面向web服务的通用爬虫引擎系统及其工作方法 |
CN103186613A (zh) * | 2011-12-30 | 2013-07-03 | 大连天维科技有限公司 | 影视资源聚合系统 |
-
2014
- 2014-12-16 CN CN201410774571.0A patent/CN104462431A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004145695A (ja) * | 2002-10-25 | 2004-05-20 | Matsushita Electric Ind Co Ltd | フィルタリング情報処理システム |
CN101452463A (zh) * | 2007-12-05 | 2009-06-10 | 浙江大学 | 定向抓取页面资源的方法和装置 |
CN101957866A (zh) * | 2010-10-25 | 2011-01-26 | 中国农业大学 | 网络文本信息集成方法和装置 |
CN102184227A (zh) * | 2011-05-10 | 2011-09-14 | 北京邮电大学 | 一种面向web服务的通用爬虫引擎系统及其工作方法 |
CN103186613A (zh) * | 2011-12-30 | 2013-07-03 | 大连天维科技有限公司 | 影视资源聚合系统 |
Non-Patent Citations (1)
Title |
---|
HIHEIHEICDN: "招聘信息抓取系统", 《HTTP://BLOG.CSDN.NET/HIHEIHEICDN/ARTICLE/DETAILS/6470642》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
CN107203872A (zh) * | 2017-05-26 | 2017-09-26 | 山东省科学院情报研究所 | 基于大数据的区域人才需求量化分析方法 |
CN107203872B (zh) * | 2017-05-26 | 2020-06-02 | 山东省科学院情报研究所 | 基于大数据的区域人才需求量化分析方法 |
CN108733827A (zh) * | 2018-05-24 | 2018-11-02 | 佛山市轻遣网络有限公司 | 一种招聘网站外的招聘信息获取方法及系统 |
CN112506986A (zh) * | 2020-11-19 | 2021-03-16 | 阿坝师范学院 | 基于web招聘信息的特定专业人才技能需求挖掘系统 |
CN113254745A (zh) * | 2021-04-28 | 2021-08-13 | 深圳格隆汇信息科技有限公司 | 经济信息收集系统、方法、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104462431A (zh) | 一种爬取网页招聘信息的方法 | |
US10838605B2 (en) | Reactive graphical display of real-time values | |
WO2015002947A3 (en) | Welding system parameter comparison system and method | |
GB201011179D0 (en) | Method of optimizing data flow between a software application and a database server | |
MX2017007761A (es) | Generacion de sugerencias de navegacion basadas en datos de dispositivos en el internet de las cosas. | |
MX2016001077A (es) | Sistemas y metodos para un laboratorio clinico distribuido. | |
MX340212B (es) | Método para administración de aplicación, así como dispositivo, servidor y dispositivo terminal del mismo. | |
MX2016005088A (es) | Metodo y aparato de optimizacion de recursos de memoria. | |
GB201204006D0 (en) | Point of interest database maintenance system | |
GB2493854A (en) | Providing a WWW access to a web page | |
RU2014149895A (ru) | Способ определения местоположения точек интенсификации разрыва пласта с использованием минералогического состава, а также соответствующие система и программный продукт | |
MX2018005255A (es) | Sugerencia operativa generada por maquina en funcion del tiempo. | |
WO2014141222A3 (en) | Business methods for providing a selective research-funding portal | |
CN106547774B (zh) | 网站内容的检测方法及装置 | |
EP2840500A3 (en) | Information processing terminal and control method | |
TW200713056A (en) | Tab order management in a portal environment | |
CN106156162A (zh) | 数据库查询量统计方法和设备 | |
CN103810183A (zh) | 一种得到真实访客停留时长的方法 | |
Mitra et al. | Pathways for meeting India’s climate goals | |
Alpaydin | 2 machine learning, statistics, and data analytics | |
Ye et al. | Big data analytics and cloud computing in the smart grid | |
CN106503213A (zh) | 一种网络数据信息展示管理方法及系统 | |
Sedkaoui | Data analytics process: there's great work behind the scenes | |
CA3085643A1 (en) | Map visualization for well data | |
Issa et al. | Product-related Environmental Performance Indicators: a systematic literature review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20150325 |