CN103761330A - 基于模版配置实现互联网信息自动提取的系统及方法 - Google Patents
基于模版配置实现互联网信息自动提取的系统及方法 Download PDFInfo
- Publication number
- CN103761330A CN103761330A CN201410046071.5A CN201410046071A CN103761330A CN 103761330 A CN103761330 A CN 103761330A CN 201410046071 A CN201410046071 A CN 201410046071A CN 103761330 A CN103761330 A CN 103761330A
- Authority
- CN
- China
- Prior art keywords
- masterplate
- webpage
- module
- domain model
- configuration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Game Theory and Decision Science (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Description
Claims (8)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410046071.5A CN103761330A (zh) | 2014-02-10 | 2014-02-10 | 基于模版配置实现互联网信息自动提取的系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410046071.5A CN103761330A (zh) | 2014-02-10 | 2014-02-10 | 基于模版配置实现互联网信息自动提取的系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103761330A true CN103761330A (zh) | 2014-04-30 |
Family
ID=50528566
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410046071.5A Pending CN103761330A (zh) | 2014-02-10 | 2014-02-10 | 基于模版配置实现互联网信息自动提取的系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103761330A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142985A (zh) * | 2014-07-23 | 2014-11-12 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN105095416A (zh) * | 2015-07-13 | 2015-11-25 | 北京奇虎科技有限公司 | 一种在搜索中实现内容推广的方法和装置 |
CN107102850A (zh) * | 2017-03-03 | 2017-08-29 | 九次方大数据信息集团有限公司 | 一种适用于电子商务的通用商品模型及其实现方法 |
CN107257390A (zh) * | 2017-05-27 | 2017-10-17 | 北京思特奇信息技术股份有限公司 | 一种url地址的解析方法和系统 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN107301166A (zh) * | 2017-02-13 | 2017-10-27 | 上海大学 | 面向跨领域进行信息抽取的多层次特征模型和特征评价方法 |
CN108153663A (zh) * | 2016-12-02 | 2018-06-12 | 阿里巴巴集团控股有限公司 | 页面数据处理方法及装置 |
CN108628702A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 聊天记录的备忘方法、装置、电子设备和存储介质 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN109299392A (zh) * | 2018-11-21 | 2019-02-01 | 安徽云融信息技术有限公司 | 一种网络爬虫抓取数据的优化方法 |
CN109542441A (zh) * | 2018-11-29 | 2019-03-29 | 方正璞华软件(武汉)股份有限公司 | 一种商品页面定制方法、装置及设备 |
CN109657117A (zh) * | 2018-11-12 | 2019-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种网页要素的自动提取方法、系统及计算机存储介质 |
CN110020236A (zh) * | 2017-08-29 | 2019-07-16 | 北京国双科技有限公司 | 网页解析方法、装置、存储介质、处理器和设备 |
CN110046295A (zh) * | 2019-03-12 | 2019-07-23 | 重庆金融资产交易所有限责任公司 | 网页结构变更检测方法、装置及计算机可读存储介质 |
CN111061476A (zh) * | 2019-11-18 | 2020-04-24 | 用友网络科技股份有限公司 | 移动模版构建方法、服务器和计算机可读存储介质 |
CN112650910A (zh) * | 2020-12-30 | 2021-04-13 | 北京百度网讯科技有限公司 | 确定网站更新信息的方法、装置、设备和存储介质 |
CN113312892A (zh) * | 2021-06-10 | 2021-08-27 | 车智互联(北京)科技有限公司 | 一种优惠券生成方法、计算设备及存储介质 |
CN113435731A (zh) * | 2021-06-23 | 2021-09-24 | 成都房联云码科技有限公司 | 一种住房保障动态监管系统 |
-
2014
- 2014-02-10 CN CN201410046071.5A patent/CN103761330A/zh active Pending
Non-Patent Citations (1)
Title |
---|
何恒昌: "Web挖掘中信息采集技术研究与实现", 《北京物资学院2010年硕士论文》 * |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104142985B (zh) * | 2014-07-23 | 2018-02-06 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN104142985A (zh) * | 2014-07-23 | 2014-11-12 | 哈尔滨工业大学(威海) | 一种半自动化的垂直爬虫生成工具及方法 |
CN105095416B (zh) * | 2015-07-13 | 2018-12-07 | 北京奇虎科技有限公司 | 一种在搜索中实现内容推广的方法和装置 |
CN105095416A (zh) * | 2015-07-13 | 2015-11-25 | 北京奇虎科技有限公司 | 一种在搜索中实现内容推广的方法和装置 |
CN108153663A (zh) * | 2016-12-02 | 2018-06-12 | 阿里巴巴集团控股有限公司 | 页面数据处理方法及装置 |
CN107301166A (zh) * | 2017-02-13 | 2017-10-27 | 上海大学 | 面向跨领域进行信息抽取的多层次特征模型和特征评价方法 |
CN107102850A (zh) * | 2017-03-03 | 2017-08-29 | 九次方大数据信息集团有限公司 | 一种适用于电子商务的通用商品模型及其实现方法 |
CN108628702A (zh) * | 2017-03-24 | 2018-10-09 | 北京京东尚科信息技术有限公司 | 聊天记录的备忘方法、装置、电子设备和存储介质 |
CN107257390A (zh) * | 2017-05-27 | 2017-10-17 | 北京思特奇信息技术股份有限公司 | 一种url地址的解析方法和系统 |
CN107257390B (zh) * | 2017-05-27 | 2020-10-09 | 北京思特奇信息技术股份有限公司 | 一种url地址的解析方法和系统 |
CN107256274A (zh) * | 2017-06-29 | 2017-10-17 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
WO2019000303A1 (zh) * | 2017-06-29 | 2019-01-03 | 麦格创科技(深圳)有限公司 | 网页的智能采集方法及系统 |
CN110020236A (zh) * | 2017-08-29 | 2019-07-16 | 北京国双科技有限公司 | 网页解析方法、装置、存储介质、处理器和设备 |
CN109657117A (zh) * | 2018-11-12 | 2019-04-19 | 厦门市美亚柏科信息股份有限公司 | 一种网页要素的自动提取方法、系统及计算机存储介质 |
CN109299392A (zh) * | 2018-11-21 | 2019-02-01 | 安徽云融信息技术有限公司 | 一种网络爬虫抓取数据的优化方法 |
CN109542441A (zh) * | 2018-11-29 | 2019-03-29 | 方正璞华软件(武汉)股份有限公司 | 一种商品页面定制方法、装置及设备 |
CN110046295A (zh) * | 2019-03-12 | 2019-07-23 | 重庆金融资产交易所有限责任公司 | 网页结构变更检测方法、装置及计算机可读存储介质 |
CN111061476A (zh) * | 2019-11-18 | 2020-04-24 | 用友网络科技股份有限公司 | 移动模版构建方法、服务器和计算机可读存储介质 |
CN111061476B (zh) * | 2019-11-18 | 2023-12-26 | 用友网络科技股份有限公司 | 移动模版构建方法、服务器和计算机可读存储介质 |
CN112650910A (zh) * | 2020-12-30 | 2021-04-13 | 北京百度网讯科技有限公司 | 确定网站更新信息的方法、装置、设备和存储介质 |
CN112650910B (zh) * | 2020-12-30 | 2024-03-12 | 北京百度网讯科技有限公司 | 确定网站更新信息的方法、装置、设备和存储介质 |
CN113312892A (zh) * | 2021-06-10 | 2021-08-27 | 车智互联(北京)科技有限公司 | 一种优惠券生成方法、计算设备及存储介质 |
CN113312892B (zh) * | 2021-06-10 | 2024-04-23 | 车智互联(北京)科技有限公司 | 一种优惠券生成方法、计算设备及存储介质 |
CN113435731A (zh) * | 2021-06-23 | 2021-09-24 | 成都房联云码科技有限公司 | 一种住房保障动态监管系统 |
CN113435731B (zh) * | 2021-06-23 | 2022-07-01 | 成都房联云码科技有限公司 | 一种住房保障动态监管系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103761330A (zh) | 基于模版配置实现互联网信息自动提取的系统及方法 | |
US10904117B1 (en) | Insights for web service providers | |
US11308163B1 (en) | Monitoring system control interface for asset tree determination | |
CN107403333B (zh) | 使用消费者提供的上下文同步消息传送 | |
CN101370024B (zh) | 信息的分布式采集方法及系统 | |
CN101635826B (zh) | 一种获取网络音视频节目地址的方法 | |
US20140358883A1 (en) | Semantically associated text index and the population and use thereof | |
US20130024441A1 (en) | Configuring web crawler to extract web page information | |
CN106096056A (zh) | 一种基于分布式的舆情数据实时采集方法和系统 | |
US20110060644A1 (en) | Synthesizing messaging using context provided by consumers | |
WO2012030730A2 (en) | Systems and methods for ruled based inclusion of pixel retargeting in campaign management | |
CN101488151A (zh) | 一种聚合Web站点内容的系统和方法 | |
CN102323955A (zh) | 私有云搜索系统及其实现方法 | |
CN107256232A (zh) | 一种信息推荐方法和装置 | |
CA3048034A1 (en) | Systems and methods for harvesting data associated with fraudulent content in a networked environment | |
CN108197244A (zh) | 一种搜索推荐词的推送方法和装置 | |
CN108574669A (zh) | 用户行为树构建方法及装置 | |
US10643178B1 (en) | Asynchronous real-time procurement system | |
CN105164662A (zh) | 用于动态地改变可见页面内容的方法覆盖的使用 | |
US11017426B1 (en) | Content performance analytics | |
Smyrnaios | How does news infomediation operate online? The examples of Google and Facebook | |
Dextras‐Romagnino et al. | Segmentifier: Interactive refinement of clickstream data | |
US20170278193A1 (en) | Rule based hierarchical configuration | |
US20130263079A1 (en) | Computer-aided method for producing a software-based analysis module | |
Yuan | Design and Visualization of Python Web Scraping Based on Third-Party Libraries and Selenium Tools |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
ASS | Succession or assignment of patent right |
Owner name: BEIJING MEIQI HUAYUE COMMUNICATION TECHNOLOGY CO., Free format text: FORMER OWNER: CERTUS INFORMATION TECHNOLOGY CO., LTD. Effective date: 20140808 |
|
C41 | Transfer of patent application or patent right or utility model | ||
COR | Change of bibliographic data |
Free format text: CORRECT: ADDRESS; FROM: 210042 NANJING, JIANGSU PROVINCE TO: 100052 XUANWU, BEIJING |
|
TA01 | Transfer of patent application right |
Effective date of registration: 20140808 Address after: 100052, Beijing, Xuanwu, No. 10, 1015 square Avenue, central office building, north wing, room 10 Applicant after: BEIJING MEIQI HUAYUE COMMUNICATION TECHNOLOGY CO., LTD. Address before: 210042 Xuanwu District, Xuanwu District, Jiangsu, Nanjing, No. 699-22, building 18 Applicant before: CERTUSNET CORP. |
|
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20160314 Address after: 100086 Beijing city Haidian District Zhongguancun academy road section Information Center No. 2 B block 8 layer Applicant after: BEIJING CERTUSNET INFORMATION TECHNOLOGY CO., LTD. Address before: 100052, Beijing, Xuanwu, No. 10, 1015 square Avenue, central office building, north wing, room 10 Applicant before: BEIJING MEIQI HUAYUE COMMUNICATION TECHNOLOGY CO., LTD. |
|
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140430 |
|
RJ01 | Rejection of invention patent application after publication |