CN111597279B - 基于深度学习的信息预测方法及相关设备 - Google Patents
基于深度学习的信息预测方法及相关设备 Download PDFInfo
- Publication number
- CN111597279B CN111597279B CN202010244175.2A CN202010244175A CN111597279B CN 111597279 B CN111597279 B CN 111597279B CN 202010244175 A CN202010244175 A CN 202010244175A CN 111597279 B CN111597279 B CN 111597279B
- Authority
- CN
- China
- Prior art keywords
- poi
- target
- dotting
- grid
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9537—Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Fuzzy Systems (AREA)
- Medical Informatics (AREA)
- Remote Sensing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于深度学习的信息预测方法,包括:获取LBS信息;将LBS信息输入至聚类模型中,获得第一基础特征;对第一基础特征进行转化,获得第二基础特征;从多个兴趣点POI网格中,确定多个目标网格;获取目标网格的多个POI类别的TF‑IDF特征以及POI类别区分特征;将多个打点位置映射至每个目标网格中,并获得打点特征;对多个打点位置进行聚类,获得多个驻留点,并将多个驻留点映射至多个目标网格中,并获得驻留点POI特征;将TF‑IDF特征、POI类别区分特征、打点特征、驻留点POI特征进行融合,并获得位置兴趣点特征;将第二基础特征以及位置兴趣点特征输入至预先训练好的模型中,获得信息预测结果。本发明还提供相关设备。本发明能提高基于用户的LBS信息的预测的准确率。
Description
技术领域
本发明涉及深度学习技术领域,尤其涉及一种基于深度学习的信息预测方法及相关设备。
背景技术
目前,用户的基于位置的服务(Location Based Services,LBS)信息在如今有了越来越广泛的应用,可以根据用户的LBS信息挖掘出用户潜在的行为习惯、活动轨迹以及预测用户之间的关系等。
然而,实践中发现,对基于用户的LBS信息的标签预测中,一般都是将用户的打点位置和距离位置最近的POI(Point of Interest,兴趣点)信息进行结合,从而构建用户地理特征,最后进行预测。这种方式中,如果距离用户的打点位置最近的POI有多个,则无法确定用户在这个地点打卡是去了哪个POI,因此,也无法对基于用户的LBS信息进行准确预测。
因此,如何提高基于用户的LBS信息的预测的准确率是一个亟待解决的技术问题。
发明内容
鉴于以上内容,有必要提供一种基于深度学习的信息预测方法及相关设备,能够提高基于用户的LBS信息的预测的准确率。
本发明的第一方面提供一种基于深度学习的信息预测方法,所述方法包括:
获取目标用户的基于位置的服务LBS信息;
将所述LBS信息输入至聚类模型中,并获得第一基础特征,所述第一基础特征用于表示所述目标用户的个人基本信息;
对所述第一基础特征中的非数值特征进行数值转化以获得第二基础特征,其中,所述第二基础特征使用数值表示;
从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格;
针对每个所述目标网格,获取每个所述目标网格的多个POI类别的TF-IDF特征以及每个所述目标网格的POI类别区分特征;
将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征;
对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中以获得所述驻留点在每个所述目标网格中的驻留点POI特征;
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征;
将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
在一种可能的实现方式中,所述获取目标用户的基于位置的服务LBS信息包括:
当检测到电子设备的全球定位系统GPS启动时,通过所述GPS对所述目标用户进行定位,并获得所述目标用户的LBS信息;或
当检测到电子设备的任一个应用程序APP启动时,通过所述任一个APP获取所述目标用户的LBS信息。
在一种可能的实现方式中,所述对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征包括:
从所述第一基础特征中的非数值特征中确定与城市相关的城市特征,以及确定与地址相关的地址特征;
获取城市等级对应关系,并根据所述城市等级对应关系,确定所述城市特征对应的城市等级;
获取地址编码对应关系,并根据所述地址编码对应关系,确定所述地址特征对应的小区编码或工作单位编码;
将所述城市等级、所述小区编码、工作单位编码以及所述第一基础特征中的数值特征确定为第二基础特征。
在一种可能的实现方式中,所述获取目标用户的基于位置的服务LBS信息之前,所述方法还包括:
获取POI数据集;
将所述POI数据集映射至电子地图上;
在所述电子地图上,将映射有所述POI数据集的区域按照预设网格大小进行网格划分,并获得多个POI网格。
在一种可能的实现方式中,所述方法还包括:
针对每个所述POI网格,统计所述POI网格中每种POI类别的POI数量;
根据所述每种POI类别的POI数量,计算所述POI类别的词频-逆文本频率指数TF-IDF值,并将所述POI类别的TF-IDF值确定为所述POI类别的TF-IDF特征;
将所述POI网格中的最大TF-IDF值确定为POI类别区分特征;
保存每个所述POI网格中每种所述POI类别的TF-IDF特征以及所述POI网格的POI类别区分特征。
在一种可能的实现方式中,所述方法还包括:
根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分特征的获取来源;
所述将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征包括:
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征以及点区分特征进行融合,并获得所述目标用户的位置兴趣点特征。
在一种可能的实现方式中,将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果包括:
对所述第二基础特征和所述位置兴趣点特征进行特征工程处理,获得特征向量;
使用所述LightGBM模型对所述特征向量进行预测,获得所述目标用户的信息预测结果。
本发明的第二方面提供一种信息预测装置,所述装置包括:
获取模块,用于获取目标用户的基于位置的服务LBS信息;
输入模块,用于将所述LBS信息输入至聚类模型中,并获得第一基础特征;
转化模块,用于对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征,其中,所述第二基础特征使用数值表示;
确定模块,用于从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格;
所述获取模块,还用于针对每个所述目标网格,获取所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征;
映射模块,用于将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征;
聚类映射模块,用于对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征;
融合模块,用于将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征;
所述输入模块,还用于将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
本发明的第三方面提供一种电子设备,所述电子设备包括处理器和存储器,所述处理器用于执行所述存储器中存储的计算机程序时实现所述的基于深度学习的信息预测方法。
本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述的基于深度学习的信息预测方法。
由以上技术方案,本发明中,可以使用网格的所有POI信息(即多个POI类别的信息)代替单个POI信息,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,这样,能够有效描述用户在打点位置的整体环境描述,丰富了用户的打点信息,另外,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。通过上述两个方面,可以提高基于用户的LBS信息的预测的准确率。
附图说明
图1是本发明公开的一种基于深度学习的信息预测方法的较佳实施例的流程图。
图2是本发明公开的一种信息预测装置的较佳实施例的功能模块图。
图3是本发明实现基于深度学习的信息预测方法的较佳实施例的电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”是用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。
此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
所述电子设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字处理器(DSP)、嵌入式设备等。所述电子设备还可包括网络设备和/或用户设备。其中,所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量主机或网络服务器构成的云。所述用户设备包括但不限于任何一种可与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品,例如,个人计算机、平板电脑、智能手机、个人数字助理PDA等。
图1是本发明公开的一种基于深度学习的信息预测方法的较佳实施例的流程图。其中,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
S11、电子设备获取目标用户的基于位置的服务LBS信息。
具体的,所述获取目标用户的基于位置的服务LBS信息包括:
当检测到电子设备的全球定位系统GPS(Global Positioning System)启动时,通过所述GPS对所述目标用户进行定位,并获得所述目标用户的LBS信息;或
当检测到电子设备的任一个应用程序APP(Application)启动时,通过所述任一个APP获取所述目标用户的LBS信息。
其中,LBS(Location Based Services,基于位置的服务)信息可以包括所述目标用户的用户标识(比如用户名称)、目标用户当前所处位置的经纬度以及所述目标用户在当前位置的打点时间。
S12、电子设备将所述LBS信息输入至聚类模型中,并获得第一基础特征。
其中,所述第一基础特征用于表示所述目标用户的个人基本信息,比如家、工作单位、通勤距离、工作城市、居住地城市、是否跨地工作、籍贯、是否外来务工、节假日常去城市、是否有房产、是否周末宅、工作性质(差旅用户、加班,夜班)等。
具体的,可以先获取预设的业务规则,将所述LBS信息输入至聚类模型中,使用所述聚类模型根据所述业务规则,从所述LBS信息中提取第一基础特征。
其中,业务规则可以是预先根据业务的需要制定的符合业务的一些规则,比如针对用户是否有房的判断,可以检测用户在三年中家的地理坐标位置是否出现大的变化,若没有,则判定此用户有房。
其中,聚类模型可以包括但不限于层次聚类、原型聚类-K-means、模型聚类-GMM、EM算法-LDA主题模型、密度聚类-DBSCAN、图聚类-谱聚类。
其中,可以通过聚类模型从所述LBS信息中学习内在的性质和规律,将有限的数据进行分类,使得类内对象尽可能的相似,类间对象尽可能不相似,从而可以根据业务规则,从所述LBS信息中提取出符合所述业务规则的第一基础特征。其中,通过聚类模型得到的第一基础特征通常是准确率较高的。
S13、电子设备对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征。
其中,所述第二基础特征使用数值表示。
其中,所述第一基础特征中有部分特征是用数值表示的,比如通勤距离、是否跨地工作、是否外来务工、是否有房产、是否周末宅、工作性质(差旅用户、加班,夜班)等,而其他部分特征不是用数值表示的,比如家、工作单位、工作城市、居住地城市、籍贯等,而电子设备只能识别出用数值表示的特征,因此,还需要对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征。其中,所述第二基础特征全部是用数值表示的,即所述第二基础特征包括所述第一基础特征中的部分数值特征以及对所述第一基础特征中的非数值特征进行数值转化后的部分数值特征。
具体的,对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征包括:
从所述第一基础特征中的非数值特征中确定与城市相关的城市特征,以及确定与地址相关的地址特征;
获取城市等级对应关系,并根据所述城市等级对应关系,确定所述城市特征对应的城市等级;
获取地址编码对应关系,并根据所述地址编码对应关系,确定所述地址特征对应的小区编码或工作单位编码;
将所述城市等级、所述小区编码、工作单位编码以及所述第一基础特征中的数值特征确定为第二基础特征。
其中,与城市相关的城市特征比如工作城市、居住地城市、籍贯,不同的城市有不同的等级,比如一线城市、二线城市等,不同等级的城市可以使用不同的编码来表示,可以预先建立城市等级对应关系,在确定城市特征之后,即可根据城市等级对应关系,确定该城市特征对应的城市等级的编码。
其中,与地址相关的地址特征比如家的地址、工作单位的地址等。不同的地址有不同的地址编码,比如小区编码或工作单位编码等,不同的地址特征可以使用不同的地址编码来表示。可以预先建立地址编码对应关系,在确定地址特征之后,即可根据地址编码对应关系,确定该地址特征对应的地址编码。
在数值转换结束后,即可将所有的数值特征确定为第二基础特征。
S14、电子设备从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格。
其中,预先设置的多个兴趣点POI网格是根据所有的POI的地理位置设置的,类似于一张囊括所有POI的POI地图。该POI地图被划分成多个网格,比如按照100*100进行网格划分。
其中,可以从所述LBS信息中确定打点位置,并从多个POI网格中,判断所述打点位置落个哪个POI网格中,并将落入的POI网格确定为覆盖所述LBS信息的打点位置的多个目标网格。
可选的,步骤S11之前,所述方法还包括:
获取POI数据集;
将所述POI数据集映射至电子地图上;
在所述电子地图上,将映射有所述POI数据集的区域按照预设网格大小进行网格划分,并获得多个POI网格。
其中,POI数据集由多个POI构成,POI可以包括但不限于各种美食商城、各种购物商城、各种学校、机构团体、汽车、生活服务、文化场馆、公司企业、银行金融等所在的地理坐标点。可以预先从第三方(比如供应商城)获取多个POI,或者,也可以预先通过网络爬虫技术从公开的数据集中去查找多个POI。
在获取到POI数据集后,即可根据POI数据集的各个地理坐标点,将所述POI数据集映射至电子地图上,进一步地,还可以在电子地图上,将所述POI数据集按照预设大小(比如100*100)进行网格划分,获得多个POI网格。
其中,进行网格划分后,可以将网格内的多个POI信息确定为目标用户在所述LBS信息的打点位置的信息。也即,如果目标用户的LBS信息的打点位置落在某个网格内,可以将该网格内的所有POI信息作为该打点位置的POI信息。
相较于现有技术的单个POI信息而言,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,从而可以有效地描述目标用户在此地打点的整体环境描述,丰富了目标用户的打点信息。
可选的,所述方法还包括:
针对每个所述POI网格,统计所述POI网格中每种POI类别的POI数量;
根据所述每种POI类别的POI数量,计算所述POI类别的词频-逆文本频率指数TF-IDF值,并将所述POI类别的TF-IDF值确定为所述POI类别的TF-IDF特征;
将所述POI网格中的最大TF-IDF值确定为POI类别区分特征;
保存每个所述POI网格中每种所述POI类别的TF-IDF特征以及所述POI网格的POI类别区分特征。
其中,针对每个所述POI网格,可以分别统计每种POI类别的POI数量,其中,每个所述POI网格的POI类别相同,比如POI类别可以包括18种类别:美食、教育学校、机构团体、汽车、娱乐休闲、生活服务……购物、医疗保健、旅游景点、文化场馆等。
其中,TF-IDF用于衡量每种POI类别的类别区分能力,通常,TF-IDF值越大,表明所述TF-IDF值对应的POI类别在所有的POI类别中的类别区分度较高,反之,TF-IDF值越小,表明所述TF-IDF值对应的POI类别在所有的POI类别中的类别区分度较低。其中,TF-IDF值的计算方法为:TF-IDF值=POI种类数量/lg(网格总数/此种类在网格中出现的次数)。通过计算TF-IDF值,可以平衡某些种类POI,如“美食POI”的数量远远高于“运动健身POI”而导致单纯频率统计出现的不合理行为。
此外,为了捕获重要的POI信息,还可以增加一个新维度的特征,即将所述POI网格中的最大TF-IDF值确定为POI类别区分特征,该POI类别区分特征即网格中重要的POI信息。
S15、电子设备针对每个所述目标网格,获取所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征。
其中,可以预先计算并保存每个POI网格的每个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征,在确定覆盖所述LBS信息的打点位置的多个目标网格之后,即可从数据库中获取针对所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征。
S16、电子设备将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征。
其中,所述打点特征包括打点频率以及打点时间。
通过打点频率可以知道目标用户在同一个打点位置的打点次数的多少,通过打点时间可以知道目标用户在一个打点位置的时间(白天或晚上)。
S17、电子设备对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征。
其中,DBSCAN(Density-Based Spatial Clustering of Applications withNoise)聚类是一个比较有代表性的基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
本发明中,对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,该多个驻留点能够代表目标用户打点频率较高的位置。
其中,所述驻留点POI特征包括打点频率和打点时间。由于所述驻留点是根据打点位置聚类得到的,不能靠统计得到相关信息,可以将打点频率设置为1,打点时间设置为0。
S18、电子设备将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征。
其中,可以采用常用的融合算法(比如线性加权融合法、交叉融合法、瀑布融合法、特征融合法、预测融合法),对所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征。
其中,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。
可选的,所述方法还包括:
根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分特征的获取来源;
所述将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征包括:
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征以及点区分特征进行融合,并获得所述目标用户的位置兴趣点特征。
在该实施方式中,由于所述打点特征以及所述驻留点POI特征的来源不同,所述打点特征是通过简单的统计获得的,而所述驻留点POI特征是通过聚类得到的,为了区分不同的特征,可以根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分哪些点是通过直接统计得到的,哪些点是通过聚类方式得到的。
之后,再将所述点区分特征以及前面所获得的特征一起进行融合,获得所述目标用户的位置兴趣点特征。
S19、电子设备将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
其中,所述信息预测结果通常是不同通过基础特征获得的结果,属于不能轻易得到的用户的隐私信息,比如用户是否有车、用户消费等级、消费偏好等。
其中,该信息预测结果中,通常是与地理相关的预测结果的准确率比其他非地理相关的预测结果的准确率高些。
具体的,将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果包括:
对所述第二基础特征和所述位置兴趣点特征进行特征工程处理,获得特征向量;
使用所述LightGBM模型对所述特征向量进行预测,获得所述目标用户的信息预测结果。
其中,特征工程处理主要包括多项式特征交叉融合(类别变量之间拼接,连续变量之间加减乘除),类别变量和连续变量之间group by处理,以及特征筛选等。
其中,所述LightGBM模型的训练方式与常规的模型训练方式类似,在此不再赘述。
在图1所描述的方法流程中,可以使用网格的所有POI信息(即多个POI类别的信息)代替单个POI信息,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,这样,能够有效描述用户在打点位置的整体环境描述,丰富了用户的打点信息,另外,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。通过上述两个方面,可以提高基于用户的LBS信息的预测的准确率。
以上所述,仅是本发明的具体实施方式,但本发明的保护范围并不局限于此,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
图2是本发明公开的一种信息预测装置的较佳实施例的功能模块图。
在一些实施例中,所述信息预测装置运行于电子设备中。所述信息预测装置可以包括多个由程序代码段所组成的功能模块。所述信息预测装置中的各个程序段的程序代码可以存储于存储器中,并由至少一个处理器所执行,以执行图1所描述的基于深度学习的信息预测方法中的部分或全部步骤。
本实施例中,所述信息预测装置根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:获取模块201、输入模块202、转化模块203、确定模块204、映射模块205、聚类映射模块206及融合模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。
获取模块201,用于获取目标用户的基于位置的服务LBS信息。
具体的,所述获取模块201获取目标用户的基于位置的服务LBS信息包括:
当检测到电子设备的全球定位系统GPS启动时,通过所述GPS对所述目标用户进行定位,并获得所述目标用户的LBS信息;或
当检测到电子设备的任一个应用程序APP启动时,通过所述任一个APP获取所述目标用户的LBS信息。
其中,LBS信息可以包括所述目标用户的用户标识(比如用户名称)、目标用户当前所处位置的经纬度以及所述目标用户在当前位置的打点时间。
输入模块202,用于将所述LBS信息输入至聚类模型中,并获得第一基础特征。
其中,所述第一基础特征用于表示所述目标用户的个人基本信息,比如家、工作单位、通勤距离、工作城市、居住地城市、是否跨地工作、籍贯、是否外来务工、节假日常去城市、是否有房产、是否周末宅、工作性质(差旅用户、加班,夜班)等。
具体的,可以先获取预设的业务规则,将所述LBS信息输入至聚类模型中,使用所述聚类模型根据所述业务规则,从所述LBS信息中提取第一基础特征。
其中,业务规则可以是预先根据业务的需要制定的符合业务的一些规则,比如针对用户是否有房的判断,可以检测用户在三年中家的地理坐标位置是否出现大的变化,若没有,则判定此用户有房。
其中,聚类模型可以包括但不限于层次聚类、原型聚类-K-means、模型聚类-GMM、EM算法-LDA主题模型、密度聚类-DBSCAN、图聚类-谱聚类。
其中,可以通过聚类模型从所述LBS信息中学习内在的性质和规律,将有限的数据进行分类,使得类内对象尽可能的相似,类间对象尽可能不相似,从而可以根据业务规则,从所述LBS信息中提取出符合所述业务规则的第一基础特征。其中,通过聚类模型得到的第一基础特征通常是准确率较高的。
转化模块203,用于对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征,其中,所述第二基础特征使用数值表示。
其中,所述第一基础特征中有部分特征是用数值表示的,比如通勤距离、是否跨地工作、是否外来务工、是否有房产、是否周末宅、工作性质(差旅用户、加班,夜班)等,而其他部分特征不是用数值表示的,比如家、工作单位、工作城市、居住地城市、籍贯等,而电子设备只能识别出用数值表示的特征,因此,还需要对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征。其中,所述第二基础特征全部是用数值表示的,即所述第二基础特征包括所述第一基础特征中的部分数值特征以及对所述第一基础特征中的非数值特征进行数值转化后的部分数值特征。
具体的,所述转化模块203对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征包括:
从所述第一基础特征中的非数值特征中确定与城市相关的城市特征,以及确定与地址相关的地址特征;
获取城市等级对应关系,并根据所述城市等级对应关系,确定所述城市特征对应的城市等级;
获取地址编码对应关系,并根据所述地址编码对应关系,确定所述地址特征对应的小区编码或工作单位编码;
将所述城市等级、所述小区编码、工作单位编码以及所述第一基础特征中的数值特征确定为第二基础特征。
其中,与城市相关的城市特征比如工作城市、居住地城市、籍贯,不同的城市有不同的等级,比如一线城市、二线城市等,不同等级的城市可以使用不同的编码来表示,可以预先建立城市等级对应关系,在确定城市特征之后,即可根据城市等级对应关系,确定该城市特征对应的城市等级的编码。
其中,与地址相关的地址特征比如家的地址、工作单位的地址等。不同的地址有不同的地址编码,比如小区编码或工作单位编码等,不同的地址特征可以使用不同的地址编码来表示。可以预先建立地址编码对应关系,在确定地址特征之后,即可根据地址编码对应关系,确定该地址特征对应的地址编码。
在数值转换结束后,即可将所有的数值特征确定为第二基础特征。
确定模块204,用于从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格。
其中,预先设置的多个兴趣点POI网格是根据所有的POI的地理位置设置的,类似于一张囊括所有POI的POI地图。该POI地图被划分成多个网格,比如按照100*100进行网格划分。
其中,可以从所述LBS信息中确定打点位置,并从多个POI网格中,判断所述打点位置落个哪个POI网格中,并将落入的POI网格确定为覆盖所述LBS信息的打点位置的多个目标网格。
可选的,所述获取模块201,还用于获取POI数据集;
所述映射模块205,还用于将所述POI数据集映射至电子地图上;
所述信息预测装置还包括:
划分模块,用于在所述电子地图上,将映射有所述POI数据集的区域按照预设网格大小进行网格划分,并获得多个POI网格。
其中,POI数据集由多个POI构成,POI可以包括但不限于各种美食商城、各种购物商城、各种学校、机构团体、汽车、生活服务、文化场馆、公司企业、银行金融等所在的地理坐标点。可以预先从第三方(比如供应商城)获取多个POI,或者,也可以预先通过网络爬虫技术从公开的数据集中去查找多个POI。
在获取到POI数据集后,即可根据POI数据集的各个地理坐标点,将所述POI数据集映射至电子地图上,进一步地,还可以在电子地图上,将所述POI数据集按照预设大小(比如100*100)进行网格划分,获得多个POI网格。
其中,进行网格划分后,可以将网格内的多个POI信息确定为目标用户在所述LBS信息的打点位置的信息。也即,如果目标用户的LBS信息的打点位置落在某个网格内,可以将该网格内的所有POI信息作为该打点位置的POI信息。
相较于现有技术的单个POI信息而言,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,从而可以有效地描述目标用户在此地打点的整体环境描述,丰富了目标用户的打点信息。
可选的,所述信息预测装置还包括:
统计模块,用于针对每个所述POI网格,统计所述POI网格中每种POI类别的POI数量;
计算模块,用于根据所述每种POI类别的POI数量,计算所述POI类别的词频-逆文本频率指数TF-IDF值,并将所述POI类别的TF-IDF值确定为所述POI类别的TF-IDF特征;
所述确定模块204,还用于将所述POI网格中的最大TF-IDF值确定为POI类别区分特征;
保存模块,用于保存每个所述POI网格中每种所述POI类别的TF-IDF特征以及所述POI网格的POI类别区分特征。
其中,针对每个所述POI网格,可以分别统计每种POI类别的POI数量,其中,每个所述POI网格的POI类别相同,比如POI类别可以包括18种类别:美食、教育学校、机构团体、汽车、娱乐休闲、生活服务……购物、医疗保健、旅游景点、文化场馆等。
其中,TF-IDF用于衡量每种POI类别的类别区分能力,通常,TF-IDF值越大,表明所述TF-IDF值对应的POI类别在所有的POI类别中的类别区分度较高,反之,TF-IDF值越小,表明所述TF-IDF值对应的POI类别在所有的POI类别中的类别区分度较低。其中,TF-IDF值的计算方法为:TF-IDF值=POI种类数量/lg(网格总数/此种类在网格中出现的次数)。通过计算TF-IDF值,可以平衡某些种类POI,如“美食POI”的数量远远高于“运动健身POI”而导致单纯频率统计出现的不合理行为。
此外,为了捕获重要的POI信息,还可以增加一个新维度的特征,即将所述POI网格中的最大TF-IDF值确定为POI类别区分特征,该POI类别区分特征即网格中重要的POI信息。
所述获取模块201,还用于针对每个所述目标网格,获取所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征。
其中,可以预先计算并保存每个POI网格的每个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征,在确定覆盖所述LBS信息的打点位置的多个目标网格之后,即可从数据库中获取针对所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征。
映射模块205,用于将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征。
其中,所述打点特征包括打点频率以及打点时间。
通过打点频率可以知道目标用户在同一个打点位置的打点次数的多少,通过打点时间可以知道目标用户在一个打点位置的时间(白天或晚上)。
聚类映射模块206,用于对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征。
其中,DBSCAN(Density-Based Spatial Clustering of Applications withNoise)聚类是一个比较有代表性的基于密度的聚类算法,它将簇定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并可在噪声的空间数据库中发现任意形状的聚类。
本发明中,对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,该多个驻留点能够代表目标用户打点频率较高的位置。
其中,所述驻留点POI特征包括打点频率和打点时间。由于所述驻留点是根据打点位置聚类得到的,不能靠统计得到相关信息,可以将打点频率设置为1,打点时间设置为0。
融合模块207,用于将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征。
其中,可以采用常用的融合算法(比如线性加权融合法、交叉融合法、瀑布融合法、特征融合法、预测融合法),对所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征。
其中,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。
可选的,所述信息预测装置还包括:
构建模块,用于根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分特征的获取来源;
所述融合模块207将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征包括:
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征以及点区分特征进行融合,并获得所述目标用户的位置兴趣点特征。
在该实施方式中,由于所述打点特征以及所述驻留点POI特征的来源不同,所述打点特征是通过简单的统计获得的,而所述驻留点POI特征是通过聚类得到的,为了区分不同的特征,可以根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分哪些点是通过直接统计得到的,哪些点是通过聚类方式得到的。
之后,再将所述点区分特征以及前面所获得的特征一起进行融合,获得所述目标用户的位置兴趣点特征。
所述输入模块202,还用于将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
其中,所述信息预测结果通常是不同通过基础特征获得的结果,属于不能轻易得到的用户的隐私信息,比如用户是否有车、用户消费等级、消费偏好等。
其中,该信息预测结果中,通常是与地理相关的预测结果的准确率比其他非地理相关的预测结果的准确率高些。
可选的,所述输入模块202将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果包括:
对所述第二基础特征和所述位置兴趣点特征进行特征工程处理,获得特征向量;
使用所述LightGBM模型对所述特征向量进行预测,获得所述目标用户的信息预测结果。
其中,特征工程处理主要包括多项式特征交叉融合(类别变量之间拼接,连续变量之间加减乘除),类别变量和连续变量之间group by处理,以及特征筛选等。
其中,所述LightGBM模型的训练方式与常规的模型训练方式类似,在此不再赘述。
在图2所描述的信息预测装置中,可以使用网格的所有POI信息(即多个POI类别的信息)代替单个POI信息,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,这样,能够有效描述用户在打点位置的整体环境描述,丰富了用户的打点信息,另外,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。通过上述两个方面,可以提高基于用户的LBS信息的预测的准确率。
图3是本发明实现基于深度学习的信息预测方法的较佳实施例的电子设备的结构示意图。所述电子设备3包括存储器31、至少一个处理器32、存储在所述存储器31中并可在所述至少一个处理器32上运行的计算机程序33及至少一条通讯总线34。
本领域技术人员可以理解,图3所示的示意图仅仅是所述电子设备3的示例,并不构成对所述电子设备3的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述电子设备3还可以包括输入输出设备、网络接入设备等。
所述至少一个处理器32可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。该处理器32可以是微处理器或者该处理器32也可以是任何常规的处理器等,所述处理器32是所述电子设备3的控制中心,利用各种接口和线路连接整个电子设备3的各个部分。
所述存储器31可用于存储所述计算机程序33和/或模块/单元,所述处理器32通过运行或执行存储在所述存储器31内的计算机程序和/或模块/单元,以及调用存储在存储器31内的数据,实现所述电子设备3的各种功能。所述存储器31可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备3的使用所创建的数据(比如音频数据)等。此外,存储器31可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。
结合图1,所述电子设备3中的所述存储器31存储多个指令以实现一种基于深度学习的信息预测方法,所述处理器32可执行所述多个指令从而实现:
获取目标用户的基于位置的服务LBS信息;
将所述LBS信息输入至聚类模型中,并获得第一基础特征;
对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征,其中,所述第二基础特征使用数值表示;
从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格;
针对每个所述目标网格,获取所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征;
将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征;
对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征;
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征;
将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
具体地,所述处理器32对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述,在此不赘述。
在图3所描述的电子设备3中,可以使用网格的所有POI信息(即多个POI类别的信息)代替单个POI信息,不仅有效解决打点误差导致POI计算不准确的问题,而且增加了当前打点位置周围的POI信息,这样,能够有效描述用户在打点位置的整体环境描述,丰富了用户的打点信息,另外,所述位置兴趣点特征(即地理特征)相较于基础特征而言,它没有特定的场景,可以在任意场景下使用,只要使用方拥有用户的LBS信息,就可以得到用户的地理特征,并添加到他们的模型中提升信息预测的准确率,通用性极强。通过上述两个方面,可以提高基于用户的LBS信息的预测的准确率。
所述电子设备3集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器以及只读存储器(ROM,Read-Only Memory)。
在本发明所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种基于深度学习的信息预测方法,其特征在于,所述方法包括:
获取目标用户的基于位置的服务LBS信息;
将所述LBS信息输入至聚类模型中,并获得第一基础特征,所述第一基础特征用于表示所述目标用户的个人基本信息;
对所述第一基础特征中的非数值特征进行数值转化以获得第二基础特征,其中,所述第二基础特征使用数值表示;
从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格;
针对每个所述目标网格,获取每个所述目标网格的多个POI类别的TF-IDF特征以及每个所述目标网格的POI类别区分特征;
将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征;
对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征;
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合以获得所述目标用户的位置兴趣点特征;
将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
2.根据权利要求1所述的基于深度学习的信息预测方法,其特征在于,所述获取目标用户的基于位置的服务LBS信息包括:
当检测到电子设备的全球定位系统GPS启动时,通过所述GPS对所述目标用户进行定位,并获得所述目标用户的LBS信息;或
当检测到电子设备的任一个应用程序APP启动时,通过所述任一个APP获取所述目标用户的LBS信息。
3.根据权利要求1所述的基于深度学习的信息预测方法,其特征在于,所述对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征包括:
从所述第一基础特征中的非数值特征中确定与城市相关的城市特征,以及确定与地址相关的地址特征;
获取城市等级对应关系,并根据所述城市等级对应关系,确定所述城市特征对应的城市等级;
获取地址编码对应关系,并根据所述地址编码对应关系,确定所述地址特征对应的小区编码或工作单位编码;
将所述城市等级、所述小区编码、工作单位编码以及所述第一基础特征中的数值特征确定为第二基础特征。
4.根据权利要求1所述的基于深度学习的信息预测方法,其特征在于,所述获取目标用户的基于位置的服务LBS信息之前,所述基于深度学习的信息预测方法还包括:
获取POI数据集;
将所述POI数据集映射至电子地图上;
在所述电子地图上,将映射有所述POI数据集的区域按照预设网格大小进行网格划分,并获得多个POI网格。
5.根据权利要求4所述的基于深度学习的信息预测方法,其特征在于,所述基于深度学习的信息预测方法还包括:
统计每个所述POI网格中每种POI类别的POI数量;
根据所述每种POI类别的POI数量,计算所述POI类别的词频-逆文本频率指数TF-IDF值,并将所述POI类别的TF-IDF值确定为所述POI类别的TF-IDF特征;
将所述POI网格中的最大TF-IDF值确定为POI类别区分特征;
保存每个所述POI网格中每种所述POI类别的TF-IDF特征以及所述POI网格的POI类别区分特征。
6.根据权利要求1所述的基于深度学习的信息预测方法,其特征在于,所述基于深度学习的信息预测方法还包括:
根据所述打点特征以及所述驻留点POI特征,构建点区分特征,其中,所述点区分特征用于区分特征的获取来源;
所述将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征包括:
将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征以及点区分特征进行融合,并获得所述目标用户的位置兴趣点特征。
7.根据权利要求1所述的基于深度学习的信息预测方法,其特征在于,将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果包括:
对所述第二基础特征和所述位置兴趣点特征进行特征工程处理,获得特征向量;
使用所述LightGBM模型对所述特征向量进行预测,获得所述目标用户的信息预测结果。
8.一种信息预测装置,其特征在于,所述信息预测装置包括:
获取模块,用于获取目标用户的基于位置的服务LBS信息;
输入模块,用于将所述LBS信息输入至聚类模型中,并获得第一基础特征;
转化模块,用于对所述第一基础特征中的非数值特征进行数值转化,并获得第二基础特征,其中,所述第二基础特征使用数值表示;
确定模块,用于从预先设置好的多个兴趣点POI网格中,确定覆盖所述LBS信息的打点位置的多个目标网格;
所述获取模块,还用于针对每个所述目标网格,获取所述目标网格的多个POI类别的TF-IDF特征以及所述目标网格的POI类别区分特征;
映射模块,用于将多个所述打点位置映射至每个所述目标网格中,并获得所述打点位置在每个所述目标网格中的打点特征;
聚类映射模块,用于对多个所述打点位置进行DBSCAN聚类,获得多个驻留点,并将所述多个驻留点映射至所述多个目标网格中,并获得所述驻留点在每个所述目标网格中的驻留点POI特征;
融合模块,用于将所有所述目标网格的所述多个POI类别的TF-IDF特征、所述目标网格的POI类别区分特征、所述打点位置在每个所述目标网格中的打点特征、所述驻留点POI特征进行融合,并获得所述目标用户的位置兴趣点特征;
所述输入模块,还用于将所述第二基础特征以及所述位置兴趣点特征输入至预先训练好的LightGBM模型中,获得所述目标用户的信息预测结果。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述处理器用于执行存储器中存储的计算机程序以实现如权利要求1至7中任意一项所述的基于深度学习的信息预测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于深度学习的信息预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244175.2A CN111597279B (zh) | 2020-03-31 | 2020-03-31 | 基于深度学习的信息预测方法及相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010244175.2A CN111597279B (zh) | 2020-03-31 | 2020-03-31 | 基于深度学习的信息预测方法及相关设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111597279A CN111597279A (zh) | 2020-08-28 |
CN111597279B true CN111597279B (zh) | 2023-07-25 |
Family
ID=72181618
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010244175.2A Active CN111597279B (zh) | 2020-03-31 | 2020-03-31 | 基于深度学习的信息预测方法及相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111597279B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235714B (zh) * | 2020-10-13 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的poi定位方法、装置、计算机设备及介质 |
CN114359774B (zh) * | 2021-11-17 | 2023-04-07 | 山东省国土测绘院 | 行人移动模式分类方法、装置及电子设备 |
CN114741612B (zh) * | 2022-06-13 | 2022-09-02 | 北京融信数联科技有限公司 | 一种基于大数据的消费习惯分类方法、系统和存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266691A (zh) * | 2008-04-24 | 2008-09-17 | 浙江大学 | 一种任意拓扑的多边形网格模型融合方法 |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106484748B (zh) * | 2015-09-02 | 2019-07-23 | 阿里巴巴集团控股有限公司 | 一种确定兴趣点poi布设需求的方法及装置 |
-
2020
- 2020-03-31 CN CN202010244175.2A patent/CN111597279B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101266691A (zh) * | 2008-04-24 | 2008-09-17 | 浙江大学 | 一种任意拓扑的多边形网格模型融合方法 |
CN103609144A (zh) * | 2011-06-16 | 2014-02-26 | 诺基亚公司 | 用于解析地理标识的方法和装置 |
CN109993184A (zh) * | 2017-12-30 | 2019-07-09 | 华为技术有限公司 | 一种数据融合的方法以及数据融合设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111597279A (zh) | 2020-08-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10991248B2 (en) | Parking identification and availability prediction | |
CN112861972B (zh) | 一种展业区域的选址方法、装置、计算机设备和介质 | |
CN111597279B (zh) | 基于深度学习的信息预测方法及相关设备 | |
CN111212383B (zh) | 区域常住人口数量的确定方法、装置、服务器和介质 | |
CN107220308B (zh) | Poi的合理性的检测方法及装置、设备及可读介质 | |
CN108182240B (zh) | 兴趣点新增率预测模型训练及预测方法、装置及存储介质 | |
EP3192061B1 (en) | Measuring and diagnosing noise in urban environment | |
CN107291784B (zh) | 地理围栏类别的获取方法、装置及业务设备 | |
Lansley et al. | Challenges to representing the population from new forms of consumer data | |
Langley et al. | Using meta-quality to assess the utility of volunteered geographic information for science | |
CN110895543B (zh) | 人口迁徙跟踪展示方法、装置及存储介质 | |
CN112748453A (zh) | 道路侧定位方法、装置、设备及存储介质 | |
WO2019070412A1 (en) | SYSTEM FOR GENERATING AND USING GEOGRAPHIC HASH EXPRESSIONS | |
CN113704373A (zh) | 基于移动轨迹数据的用户识别方法、装置及存储介质 | |
CN115525642A (zh) | 逆地理编码方法、装置及电子设备 | |
CN113569564B (zh) | 一种地址信息的处理、显示方法和装置 | |
CN110619090A (zh) | 一种区域吸引力评估方法及设备 | |
Yan et al. | A new approach for identifying urban employment centers using mobile phone data: A case study of Shanghai | |
CN115456691A (zh) | 线下广告位的推荐方法、装置、电子设备及存储介质 | |
CN111126120B (zh) | 城市区域分类方法、装置、设备和介质 | |
CN114676344A (zh) | 一种兴趣点坐标确定方法、装置、存储介质及电子设备 | |
CN111737374A (zh) | 位置坐标确定方法、装置、电子设备及存储介质 | |
Badran et al. | A review of techniques to extract road network features from global positioning system data for transport modelling | |
CN111125272A (zh) | 一种区域特征获取方法、装置、计算机设备及介质 | |
Zhang et al. | Urban region representation learning with human trajectories: a multi-view approach incorporating transition, spatial, and temporal perspectives |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |