一种信息推送方法、装置、电子设备及存储介质
技术领域
本公开涉及计算机技术领域,具体而言,涉及一种信息推送方法、装置、电子设备及存储介质。
背景技术
随着互联网技术的发展,新闻媒体端每天均会推送大量不同类型的文章供用户阅览,比如人物传记类、旅行类、美食类等。用户可以在新闻媒体端的输入框输入想要查看的具体内容,即可以查找到想要阅览的文章。用户在阅览完基于输入框输入具体内容搜索的文章后,可能还需要再次进行搜索相关内容,为了简化用户的搜索方式,可以在用户阅览的当前文章的设定位置处,展示与当前文章相关的推荐信息,便于用户直接点击推荐信息浏览与当前文章相关的其它文章,但是相关技术中的推荐信息获取方式均较为机械和简单,准确度较低,提供给用户的文章页面可能并不包含用户感兴趣的文章,无法满足用户的真实需求。
发明内容
有鉴于此,本公开至少提供一种信息推送方案,以提高推荐信息的准确度以及信息推送的效率。
第一方面,本公开实施例提供了一种信息推送方法,包括:
针对文章库中的待确定推荐信息的目标文章,获取所述目标文章的多个关键词以及所述目标文章的文章属性标识信息;其中,对应的文本相似度和/或图片相似度满足预设条件的多篇文章具有相同的文章属性标识信息;
基于所述目标文章的多个关键词和文章属性标识信息,确定所述目标文章对应的多条推荐标题信息,以便在所述目标文章被用户端打开的情况下,将所述多条推荐标题信息作为搜索关键词推送给所述用户端。
在一种可能的实施方式中,确定所述目标文章对应的多条推荐标题信息之后,还包括:
在检测到所述目标文章在用户端被打开的情况下,将所述多条推荐标题信息推送给所述用户端;
响应针对所述多条推荐标题信息中目标推荐标题信息的触发操作,向所述用户端推送与所述目标推荐标题信息关联的搜索页面信息;所述搜索页面信息中包含与所述目标推荐标题信息关联的多篇文章的链接信息。
在一种可能的实施方式中,所述基于所述目标文章的多个关键词和文章属性标识信息,确定所述目标文章对应的多条推荐标题信息,包括:
在最近预设时长内的历史搜索记录中提取包含至少一个所述关键词的搜索记录信息;以及,在与所述目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取包含至少一个所述关键词的文章标题;以及,获取与所述目标文章具有相同文章属性标识信息的其它文章的链接信息;
基于所述搜索记录信息、所述文章标题和所述链接信息,确定所述目标文章对应的多条推荐标题信息。
在一种可能的实施方式中,所述基于所述搜索记录信息、所述文章标题和所述链接信息,确定所述目标文章对应的多条推荐标题信息,包括:
将所述搜索记录信息、所述文章标题和所述链接信息作为候选推荐标题信息,确定每条候选推荐标题信息分别在多种属性特征下的特征信息;
将所述特征信息输入预先训练的推荐预测模型,确定每条候选推荐标题信息被选中的概率值;
基于每条候选推荐标题信息被选中的概率值,选取所述多条推荐标题信息。
在一种可能的实施方式中,所述多种属性特征包括以下类型中的多种:
关键词数量、来源类型、字符长度、最近搜索时间、以及关键词相对位置差;其中,所述来源类型包括来源于搜索记录信息类型、来源于文章标题、以及来源于链接信息。
在一种可能的实施方式中,若所述多种属性特征包括关键词相对位置差,则针对任一候选推荐标题信息,按照以下方式确定该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息:
确定所述任一候选推荐标题信息中包含的目标关键词,以及所述目标关键词在该任一候选推荐标题信息中的第一平均距离,所述第一平均距离为基于所述任一候选推荐标题信息中每两个所述目标关键词的距离,以及所述目标关键词的数目确定的;
确定该任一候选推荐标题信息中包含的所述目标关键词在所述目标文章中的第二平均距离;所述第二平均距离为基于所述目标文章中每两个所述目标关键词的距离,以及所述目标关键词的数目确定的;
将所述第一平均距离和所述第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
在一种可能的实施方式中,按照以下方式训练所述推荐预测模型:
构建训练样本库,所述训练样本库包括多条推荐标题信息样本中每条推荐标题信息样本在多种属性特征下的特征信息,以及表征该推荐标题信息样本是否被搜索的概率值;
将每条所述推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,训练得到所述推荐预测模型。
在一种可能的实施方式中,向用户端推送与所述目标推荐标题信息关联的搜索页面信息之后,还包括:
响应针对所述搜索页面信息中目标推荐文章的链接信息的触发操作,向所述用户端推送所述目标推荐文章的阅览页面信息。
在一种可能的实施方式中,获取所述目标文章的多个关键词,包括:
对所述目标文章进行分词,得到多个词单元;
统计每个词单元在所述目标文章中出现的次数以及所述目标文章的词单元总数;
基于每个词单元在所述目标文章中出现的次数以及所述文章的词单元总数,确定每个词单元的频度;
基于每个词单元的频度,从所述多个词单元中选取所述目标文章的多个关键词。
第二方面,本公开实施例提供了一种信息推送装置,包括:
获取模块,用于针对文章库中的待确定推荐信息的目标文章,获取所述目标文章的多个关键词以及所述目标文章的文章属性标识信息;其中,对应的文本相似度和/或图片相似度满足预设条件的多篇文章具有相同的文章属性标识信息;
确定模块,用于基于所述目标文章的多个关键词和文章属性标识信息,确定所述目标文章对应的多条推荐标题信息,以便在所述目标文章被用户端打开的情况下,将所述多条推荐标题信息作为搜索关键词推送给所述用户端。
在一种可能的实施方式中,所述信息推送装置还包括推送模块,在所述确定模块确定所述目标文章对应的多条推荐标题信息之后,所述推送模块用于:
检测到所述目标文章在用户端被打开的情况下,将所述多条推荐标题信息推送给所述用户端;
响应针对所述多条推荐标题信息中目标推荐标题信息的触发操作,向所述用户端推送与所述目标推荐标题信息关联的搜索页面信息;所述搜索页面信息中包含与所述目标推荐标题信息关联的多篇文章的链接信息。
在一种可能的实施方式中,所述确定模块在用于基于所述目标文章的多个关键词和文章属性标识信息,确定所述目标文章对应的多条推荐标题信息时,包括:
在最近预设时长内的历史搜索记录中提取包含至少一个所述关键词的搜索记录信息;以及,在与所述目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取包含至少一个所述关键词的文章标题;以及,获取与所述目标文章具有相同文章属性标识信息的其它文章的链接信息;
基于所述搜索记录信息、所述文章标题和所述链接信息,确定所述目标文章对应的多条推荐标题信息。
在一种可能的实施方式中,所述确定模块在用于基于所述搜索记录信息、所述文章标题和所述链接信息,确定所述目标文章对应的多条推荐标题信息时,包括:
将所述搜索记录信息、所述文章标题和所述链接信息作为候选推荐标题信息,确定每条候选推荐标题信息分别在多种属性特征下的特征信息;
将所述特征信息输入预先训练的推荐预测模型,确定每条候选推荐标题信息被选中的概率值;
基于每条候选推荐标题信息被选中的概率值,选取所述多条推荐标题信息。
在一种可能的实施方式中,所述多种属性特征包括以下类型中的多种:
关键词数量、来源类型、字符长度、最近搜索时间、以及关键词相对位置差;其中,所述来源类型包括来源于搜索记录信息类型、来源于文章标题、以及来源于链接信息。
在一种可能的实施方式中,若所述多种属性特征包括关键词相对位置差,则针对任一候选推荐标题信息,所述确定模块按照以下方式确定该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息:
确定所述任一候选推荐标题信息中包含的目标关键词,以及所述目标关键词在该任一候选推荐标题信息中的第一平均距离,所述第一平均距离为基于所述任一候选推荐标题信息中每两个所述目标关键词的距离,以及所述目标关键词的数目确定的;
确定该任一候选推荐标题信息中包含的所述目标关键词在所述目标文章中的第二平均距离;所述第二平均距离为基于所述目标文章中每两个所述目标关键词的距离,以及所述目标关键词的数目确定的;
将所述第一平均距离和所述第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
在一种可能的实施方式中,所述信息推送装置还包括训练模块,所述训练模块按照以下方式训练所述推荐预测模型:
构建训练样本库,所述训练样本库包括多条推荐标题信息样本中每条推荐标题信息样本在多种属性特征下的特征信息,以及表征该推荐标题信息样本是否被搜索的概率值;
将每条所述推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,训练得到所述推荐预测模型。
在一种可能的实施方式中,所述推送模块在向用户端推送与所述目标推荐标题信息关联的搜索页面信息之后,还用于:
响应针对所述搜索页面信息中目标推荐文章的链接信息的触发操作,向所述用户端推送所述目标推荐文章的阅览页面信息。
在一种可能的实施方式中,所述获取模块在用于获取所述目标文章的多个关键词时,包括:
对所述目标文章进行分词,得到多个词单元;
统计每个词单元在所述目标文章中出现的次数以及所述目标文章的词单元总数;
基于每个词单元在所述目标文章中出现的次数以及所述文章的词单元总数,确定每个词单元的频度;
基于每个词单元的频度,从所述多个词单元中选取所述目标文章的多个关键词。
第三方面,本公开实施例提供了一种电子设备,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如第一方面任一所述信息推送方法的步骤。
第四方面,本公开实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如第一方面任一所述信息推送方法的步骤。
本公开实施例提供的信息推送方法,针对文章库中的待确定推荐信息的目标文章,能够在获取到该目标文章的多个关键词以及该目标文章的文章属性标识信息后,基于该目标文章的多个关键词和文章属性标识信息,确定该目标文章对应的多条推荐标题信息,这里基于多种因素共同确定与该目标文章关联的多条推荐标题信息,能够得到准确度较高的多条推荐标题信息,当目标文章在用户端被打开的情况下,将准确度较高的多条推荐标题信息作为搜索关键词推送给用户端,便于用户端基于该搜索关键词查找感兴趣的文章内容,从而提高信息推送效率。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本公开实施例所提供的一种信息推送方法的流程图;
图2示出了本公开实施例所提供的一种确定目标文章对应的多条推荐信息的流程图;
图3示出了本公开实施例所提供的一种基于搜索记录信息、文章标题和链接信息,来确定目标文章对应的多条推荐标题信息的方法流程图;
图4示出了本公开实施例所提供的一种向用户端推送多条推荐标题信息的方法流程图;
图5示出了本公开实施例所提供的一种信息推送装置的结构示意图;
图6示出了本公开实施例所提供的一种电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,应当理解,本公开中附图仅起到说明和描述的目的,并不用于限定本公开的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本公开中使用的流程图示出了根据本公开的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本公开内容的指引下,可以向流程图添加一个或多个其他操作,也可以从流程图中移除一个或多个操作。
另外,所描述的实施例仅仅是本公开一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本公开实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本公开的实施例的详细描述并非旨在限制要求保护的本公开的范围,而是仅仅表示本公开的选定实施例。基于本公开的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
一般情况下,在用户阅览的文章内容后推送的搜索关键词是基于当前文章内容所属的类型确定的,得到的推荐信息的准确度较低,并不能帮助用户节省搜索时间,搜索效率较低,针对此,本公开提供了一种信息推送方法,用于提高推荐信息的准确度,以便提高搜索效率。
为便于对本实施例进行理解,首先对本公开实施例所公开的一种信息推送方法进行详细介绍,本公开实施例所提供的信息推送方法的执行主体一般为具有数据处理能力的处理装置,该处理装置可以是独立的设备,也可以部署在车辆端或云平台服务器端,本公开实施例中不作限定。
参见图1所示,为本公开实施例提供的一种信息推送方法,具体包括以下步骤:
S101,针对文章库中的待确定推荐信息的目标文章,获取目标文章的多个关键词以及目标文章的文章属性标识信息;其中,对应的文本相似度和/或图片相似度满足预设条件的多篇文章具有相同的文章属性标识信息。
S102,基于目标文章的多个关键词和文章属性标识信息,确定目标文章对应的多条推荐标题信息,以便在目标文章被用户端打开的情况下,将多条推荐标题信息作为搜索关键词推送给用户端。
下面分别对上述步骤S101~S102进行详细描述。
针对上述S101,这里的文章库中存储有大量文章供用户端调用,目标文章是指这些大量文章中,需要确定推荐信息的文章,这里可以按照设定周期确定目标文章,也可以当文章库中更新的文章条数达到设定阈值时,重新确定目标文章,在此不做具体限定。
这里目标文章的关键词是指该目标文章中出现频度较高的词单元,具体地,可以按照以下步骤预先确定该目标文章的多个关键词:
(1)对目标文章进行分词,得到多个词单元;
(2)统计每个词单元在目标文章中出现的次数以及目标文章的词单元总数;
(3)基于每个词单元在目标文章中出现的次数以及文章的词单元总数,确定每个词单元的频度;
(4)基于每个词单元的频度,从多个词单元中选取目标文章的多个关键词。
比如,针对任一词单元,若该任一词单元在目标文章中出现的次数为R次,该目标文章的词单元总数为M,则该词单元的频度f可以通过以下公式(1)确定:
f=R/M (1);
按照该方式,可以确定出每个词单元的频度,然后可以基于每个词单元对应的频度,将目标文章中的词单元按照对应频度递减的方式进行排序,选择排序靠前的设定个数的词单元作为该目标文章的关键词。
特别地,为了减少计算量,在对目标文章进行分词,得到多个词单元后,还可以先对一些停用词进行过滤,然后确定过滤后剩余的词单元的频度,进而在剩余的词单元中选择出该目标文章的多个关键词。
步骤S101中目标文章的文章属性标识信息可以是提前确定的,可以通过数字表示,比如可以通过simID来表示文章属性标识信息,可以按照以下方式预先确定文章库中属于同一simID的文章:
第一种情况,针对既有文本信息和图片信息的文章,按照以下方式预先确定属于同一simID的文章:
1-1,在所述文章库中,提取每篇文章的文本信息和图片信息。
1-2,基于每篇文章的文本信息和图片信息,确定文章库中相似度高于设定阈值的文章集。
这里可以通过提取的每篇文章的文本信息,计算每两篇文章之间的文本相似度,以及提取的每篇文章的图片信息,计算每两篇文章之间的图片相似度,将文本相似度和图片相似度均满足预设条件的多篇文章确定为相似度高于设定阈值的文章集。
1-3,将相似度高于设定阈值的文章集中的每篇文章确定为具有相同simID的文章。
这里同一个文章集中的每篇文章具有相同的simID,不同文章集中的文章具有不同的simID,比如文章库中确定出100个文章集,可以按照数值范围001-100对每个文章集进行编码,比如第一个文章集中每篇文章的偏码可以为001,第二个文章集中的每篇文章的编码可以为002,依次类推,确定文章库中所有文章集对应的编码,这里文章集对应的编码即可以作为该文章集对应的simID。
第二种情况,针对只有文本信息没有图片信息的文章,按照以下方式预先确定属于同一simID的文章:
2-1,在所述文章库中,提取每篇文章的文本信息。
2-2,基于每篇文章的文本信息,确定文章库中相似度高于设定阈值的文章集。
这里可以通过提取的每篇文章的文本信息,计算每两篇文章之间的文本相似度,将文本相似度满足预设条件的多篇文章确定为相似度高于设定阈值的文章集。
2-3,将相似度高于设定阈值的文章集中的各个文章确定为属于同一simID的文章。
该过程与上述1-3对应的过程相同,在此不再赘述。
第三种情况,针对只有图片信息没有文本信息的文章,按照以下方式预先确定属于同一simID的文章:
3-1,在所述文章库中,提取每篇文章的图片信息。
3-2,基于每篇文章的图片信息,确定文章库中相似度高于设定阈值的文章集。
这里可以通过提取的每篇文章的文本信息,计算每两篇文章之间的文本相似度,将文本相似度满足预设条件的多篇文章确定为相似度高于设定阈值的文章集。
3-3,将相似度高于设定阈值的文章集中的各个文章确定为属于同一simID的文章。
该过程与上述1-3对应的过程相同,在此不再赘述。
以上基于文本信息确定文本相似度的方式可以通过常规的文本相似度的确定方式确定,比如计算文本的余弦值,通过余弦值来表征文本的相似度;基于图片信息确定图片相似度的方式也可以通过常规的图片相似度的确定方式确定,比如通过图片识别后,基于像素点对比方式确定图片相似度,当然还可以是其它方式,在此不再赘述。
针对上述S102,这里的推荐标题信息是指与目标文章关联的搜索关键词,当目标文章在用户端被打开后,可以在与目标文章阅览区域间隔设定距离的区域显示这些推荐标题信息,比如在目标文章阅览区域的下方、左侧或者右侧的区域进行显示,便于用户通过触发这些推荐标题信息快速找到与该目标文章相关度较高的其它文章,以满足于用户对相关文章的阅读需求。
具体地,在获取到目标文章的多个关键词以及该目标文章的文章属性标识信息后,可以基于该目标文章的多个关键词和文章属性标识信息,确定该目标文章对应的多条推荐标题信息,如图2所示,可以包括以下步骤S201~S204:
S201,在最近预设时长内的历史搜索记录中提取包含至少一个关键词的搜索记录信息。
这里的历史搜索记录中保存有大量用户在最近预设时长内搜索文章时对应的搜索信息,然后在这些历史搜索记录中提取包含至少一个关键词的搜索信息作为这里的搜索记录信息。
因为搜索记录信息中至少包含目标文章的一个关键词且是在最近预设时长内被用户搜索过的,其与目标文章具有相同的关键词,具有一定的相关度,基于此,可以将该搜索记录信息作为其中一类候选推荐标题信息,针对每条搜索记录信息是否能够作为目标文章对应的推荐标题信息,将在后文继续介绍。
S202,在与目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取包含至少一个关键词的文章标题。
文章库中每篇文章存储时,可以按照其对应的文章类型进行分类存储,文章类型可以包括金融类、环保类、宠物类、娱乐类、军事类等。
这里在提取包含至少一个关键词的文章标题时,是在与目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中提取的,这样提取的文章标题与目标文章与具有一定的相关度,因此也可以将该文章标题作为其中一类候选推荐标题信息,针对提取的每个文章标题是否能够作为目标文章对应的推荐标题信息,将在后文继续介绍。
特别地,考虑到语言的特殊性,很多词单元均有近义词,这里提取包含至少一个关键词的文章标题,也可以是包含至少一个关键词的近义词的文章标题。
S203,获取与目标文章具有相同文章属性标识信息的其它文章的链接信息。
这里首先根据目标文章的文章属性标识信息,确定出与该目标文章具有相同文章属性标识信息的其它文章,比如与该目标文章具有相同文章属性标识信息的其它文章包括文章A,则这里是指提取文章A的链接信息,用户可以在触发文章A的链接信息后打开文章A的阅览页面信息。
比如文章A的链接信息为“国庆长城旅客增多”,即用户点击“国庆长城旅客增多”或者在输入框中输入“国庆长城旅客增多”,则可以打开文章A的阅览页面信息,这里因为与目标文章具有相同文章属性标识信息的其它文章与该目标文章的相似度较高,则这里的其它文章的链接信息也可以作为其中一类候选推荐标题信息,针对提取的链接信息是否能够作为目标文章对应的推荐标题信息,将在后文继续介绍。
S204,基于搜索记录信息、文章标题和链接信息,确定目标文章对应的多条推荐标题信息。
其中,步骤S201~S203可以并列执行,也可以依次执行,在这里不限定执行顺序。
针对上述步骤S201~S203,这里以一个具体例子说明基于目标文章的多个关键词和文章属性标识信息,确定该目标文章对应的多条候选推荐标题信息的过程:
比如针对旅游类型的目标文章P,得到该目标文章P的关键词为“故宫”、“下雪”和“拥挤”,按照步骤S201中的描述,若在最近24小时内的历史搜索记录中,提取到包含“故宫”的一条搜索记录信息“故宫的门票”,以及包含“故宫”和“下雪”的一条搜索记录信息“故宫下雪后的景色”,则这里搜索记录信息“故宫的门票”和“故宫下雪后的景色”即作为两条候选推荐标题信息;按照步骤S202中的描述,在与目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取出包含“故宫”的文章标题“故宫每日接纳的游客数量”,则这里的文章标题“故宫每日接纳的游客数量”也作为一个候选推荐标题信息;按照步骤S203中的描述,获取与目标文章具有相同文章属性标识信息的其它文章的链接信息为“故宫下雪后游客增多”,则这里的链接信息“故宫下雪后游客增多”也作为一个候选推荐标题信息;按照这样的方式,即得到4条候选推荐标题信息,后续会在这4条候选推荐标题信息选择出目标文章对应的多条推荐标题信息。
在得到搜索记录信息、文章标题和链接信息后,即可以基于搜索记录信息、文章标题和链接信息,来确定目标文章对应的多条推荐标题信息,如图3所示,具体包括以下步骤S301~S303:
S301,将搜索记录信息、文章标题和链接信息作为候选推荐标题信息,确定每条候选推荐标题信息分别在多种属性特征下的特征信息。
S302,将特征信息输入预先训练的推荐预测模型,确定每条候选推荐标题信息被选中的概率值。
S303,基于每条候选推荐标题信息被选中的概率值,选取多条推荐标题信息。
下面分别对上述步骤S301~S303进行详细描述。
针对上述S301提到的多种属性特征包括以下类型中的多种:
关键词数量、来源类型、字符长度、最近搜索时间、以及关键词相对位置差;其中,来源类型包括来源于搜索记录信息、来源于文章标题、以及来源于链接信息。
这里的关键词数量是指该候选推荐标题信息中包含目标文章的关键词的数量;这里可以通过不同的标识字符表示来源类型,比如通过1来表示来源于搜索记录信息,通过2来表示来源于文章标题,通过3来表示来源于链接信息;字符长度是指候选推荐标题信息的字符个数;最近索引时间是指该候选推荐标题信息被作为链接信息搜索文章时的最近时间。
上述关键词相对位置差是指候选推荐标题信息中包含的目标文章的关键词在该候选推荐标题信息中的平均距离与在目标文章中的平均距离的差值,若多种属性特征包括关键词相对位置差,则针对任一候选推荐标题信息,按照以下方式确定该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息:
(1)确定任一候选推荐标题信息中包含的目标关键词,以及目标关键词在该任一候选推荐标题信息中的第一平均距离,第一平均距离为基于任一候选推荐标题信息中每两个目标关键词的距离,以及目标关键词的数目确定的。
这里的目标关键词即指该任一候选推荐标题信息包含的目标文章中的关键词,这里每两个目标关键词的距离是指每两个目标关键词之间间隔的字符个数,可以通过以下公式(2)来确定第一平均距离:
其中,
表示第i个候选推荐标题信息中的第一平均距离;其中N表示第i个候选推荐标题信息中包含的目标关键词个数,n表示在第i个候选推荐标题信息中对每两个目标关键词进行配对的配对数量,这里,针对每对目标关键词求取对应的两个目标关键词之间的距离,也即求取的距离个数为n个,即
比如N=4时,n=6,即第i个候选推荐标题信息中对每两个目标关键词进行配对的配对数量为6;k表示第k对目标关键词;l
k表示第k对目标关键词的距离在该第i个候选推荐标题信息中对应的字符个数。
(2)确定该任一候选推荐标题信息中包含的目标关键词在目标文章中的第二平均距离;第二平均距离为基于目标文章中每两个目标关键词的距离,以及目标关键词的数目确定的。
这里的第二平均距离是基于目标文章中每两个目标关键词的距离,以及目标关键词的数目确定的,可以通过以下公式(3)来确定第一平均距离:
其中,
表示第i个候选推荐标题信息中包含的目标关键词在目标文章中的第二平均距离;其中H表示第i个候选推荐标题信息中包含的目标关键词在目标文章中的个数,h表示在目标文章中对每两个目标关键词进行配对的配对数量,这里,针对每对目标关键词求取对应的两个目标关键词之间的距离,也即求取的距离个数为h个,即
比如H=4时,h=6,即目标文章中每两个目标关键词进行配对的配对数量为6;k表示第k对目标关键词;L
k表示第k对目标关键词的距离在该目标文章中对应的字符个数。
(3)将第一平均距离和第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
在得到任一候选推荐标题信息对应的第一平均距离和第二平均距离后,将第一平均距离和第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
针对上述步骤S302,在将特征信息输入预先训练的推荐预存模型后,即可以确定出每条候选推荐信息被选中的概率值,具体地,可以按照以下方式训练推荐预测模型:
(1)构建训练样本库,训练样本库包括多条推荐标题信息样本中每条推荐标题信息样本在多种属性特征下的特征信息,以及表征该推荐标题信息样本是否被搜索的概率值。
(2)将每条推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,训练得到推荐预测模型。
通过构建训练样本库,其中,构建训练样本库中包括多篇目标文章样本,以及每篇目标文章样本对应的多条推荐标题信息样本、以及每条推荐信息样本在多种属性特征下的特征信息,这里的多条推荐标题信息样本和每条推荐信息样本在多种属性特征下的特征信息与上文确定推荐标题信息和推荐信息样本在多种属性特征下的特征信息类似,在此不再赘述。
表征该推荐标题信息样本是否被搜索的概率值可以通过统计用户在阅览目标文章样本后是否选择该推荐标题信息样本得到,若用户在阅览目标文章样本后选择了该推荐标题信息样本,则该推荐标题信息样本对应的概率值即为1,否则即为0。
将每条推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,进行多次训练,在达到训练截止条件时,即可以得到推荐预测模型。
针对上述S303,将每条候选推荐标题信息分别在多种属性特征下的特征信息属于预先训练的推荐预测模型后,得到每条候选推荐标题信息被选中的概率值,然后基于对应概率值的大小,将每条候选推荐标题信息按照概率值由大到小的顺序进行排序,然后选择排序靠前的设定个数的候选推荐标题信息作为该目标文章的推荐标题信息。
以上内容是确定文章库中的待确定推荐信息的目标文章对应的多条推荐标题信息的过程,此过程综合多种途径选择与目标文章关联的候选推荐标题信息,然后再基于每条候选推荐标题信息分别在多种属性特征下的特征信息,确定每条候选推荐标题信息被用户选择的概率值,最终将概率值靠前的候选推荐标题信息作为与目标文章关联的推荐标题信息,按照该方式,确定的推荐标题信息与目标文章的相关度较大,即提高了推荐标题信息的准确度,从而提高了信息推送效率。
进一步地,在确定目标文章对应的多条推荐标题信息之后,本公开提供的信息推送方法还可以在检测到目标文章在用户端被打开的情况下,向用户端推送这些推荐标题信息,便于用户基于在这些推荐标题信息中选择感兴趣的推荐标题信息,从而快速找到需要查找的文章,该过程如图4所示,具体包括以下步骤S401~S403:
S401,在检测到目标文章在用户端被打开的情况下,将多条推荐标题信息推送给用户端。
这里是指在检测到目标文章在用户端被打开的情况下,比如用户端向服务器发送了该目标文章的索引链接信息后,服务器将目标文章发送至用户端,当用户端打开该目标文章后,即可以在与目标文章阅览区域间隔设定距离的区域显示这些推荐标题信息,比如在目标文章阅览区域的下方、左侧或者右侧的区域进行显示。
S402,响应针对多条推荐标题信息中目标推荐标题信息的触发操作,向用户端推送与目标推荐标题信息关联的搜索页面信息;搜索页面信息中包含与目标推荐标题信息关联的多篇文章的链接信息。
用户可以在用户端显示的多条推荐标题信息中选择感兴趣的目标推荐标题信息,当用户触发目标推荐标题信息后,服务器能够向用户端推送与目标推荐标题信息关联的搜索页面信息。
这里搜索页面信息中包含的与目标推荐标题信息关联的多篇文章的链接信息,可以是从执行本公开实施例中的信息推送方法的服务器预先保存的每条推荐标题信息与文章的映射表中得到的,也可以是从其它服务器预先保存的每条推荐标题信息与文章的映射表中得到的,具体地,在建立每条推荐标题信息与文章的映射表时,可以根据包含每条推荐标题信息中的词单元的个数以及最近预设时长内的用户阅览次数得到,具体可以按照以下方式确定每条推荐标题信息与文章的映射表:
(1)针对每条推荐标题信息,对该条推荐标题信息进行分词,去除停用词后,得到多个词单元;
(2)在预存的文章库中,提取包含多个词单元的文章,得到包含超过设定个数的词单元的文章作为候选文章,并确定每篇候选文章对应的链接信息;
(3)针对每篇候选文章,确定该候选文章在最近预设时长内对应的用户阅览次数;
(4)按照对应的用户阅览次数,对每篇候选文章进行降序排序,得到每篇候选文章在搜索页面信息中的显示顺序;
(5)将每条推荐标题信息与对应候选文章的链接信息以及该链接信息在搜索页面信息中的显示顺序进行关联。
S403,响应针对搜索页面信息中目标推荐文章的链接信息的触发操作,向用户端推送目标推荐文章的阅览页面信息。
这里的阅览页面信息即显示目标推荐文章的具体内容的页面信息,可以包括文本信息、图片信息等。
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
基于同一技术构思,本公开实施例中还提供了与信息推送方法对应的信息推送装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述信息推送方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
如图5所示,为本申请实施例提供的一种信息推送装置500的结构示意图,包括:
获取模块501,用于针对文章库中的待确定推荐信息的目标文章,获取目标文章的多个关键词以及目标文章的文章属性标识信息;其中,对应的文本相似度和/或图片相似度满足预设条件的多篇文章具有相同的文章属性标识信息;
确定模块502,用于基于目标文章的多个关键词和文章属性标识信息,确定目标文章对应的多条推荐标题信息,以便在目标文章被用户端打开的情况下,将多条推荐标题信息作为搜索关键词推送给用户端。
在一种可能的实施方式中,信息推送装置还包括推送模块503,在确定模块确定目标文章对应的多条推荐标题信息之后,推送模块503用于:
检测到目标文章在用户端被打开的情况下,将多条推荐标题信息推送给用户端;
响应针对多条推荐标题信息中目标推荐标题信息的触发操作,向用户端推送与目标推荐标题信息关联的搜索页面信息;搜索页面信息中包含与目标推荐标题信息关联的多篇文章的链接信息。
在一种可能的实施方式中,确定模块502在用于基于目标文章的多个关键词和文章属性标识信息,确定目标文章对应的多条推荐标题信息时,包括:
在最近预设时长内的历史搜索记录中提取包含至少一个关键词的搜索记录信息;以及,在与目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取包含至少一个关键词的文章标题;以及,获取与目标文章具有相同文章属性标识信息的其它文章的链接信息;
基于搜索记录信息、文章标题和链接信息,确定目标文章对应的多条推荐标题信息。
在一种可能的实施方式中,确定模块502在用于基于搜索记录信息、文章标题和链接信息,确定目标文章对应的多条推荐标题信息时,包括:
将搜索记录信息、文章标题和链接信息作为候选推荐标题信息,确定每条候选推荐标题信息分别在多种属性特征下的特征信息;
将特征信息输入预先训练的推荐预测模型,确定每条候选推荐标题信息被选中的概率值;
基于每条候选推荐标题信息被选中的概率值,选取多条推荐标题信息。
在一种可能的实施方式中,多种属性特征包括以下类型中的多种:
关键词数量、来源类型、字符长度、最近搜索时间、以及关键词相对位置差;其中,来源类型包括来源于搜索记录信息类型、来源于文章标题、以及来源于链接信息。
在一种可能的实施方式中,若多种属性特征包括关键词相对位置差,则针对任一候选推荐标题信息,确定模块502按照以下方式确定该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息:
确定任一候选推荐标题信息中包含的目标关键词,以及目标关键词在该任一候选推荐标题信息中的第一平均距离,第一平均距离为基于任一候选推荐标题信息中每两个目标关键词的距离,以及目标关键词的数目确定的;
确定该任一候选推荐标题信息中包含的目标关键词在目标文章中的第二平均距离;第二平均距离为基于目标文章中每两个目标关键词的距离,以及目标关键词的数目确定的;
将第一平均距离和第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
在一种可能的实施方式中,信息推送装置还包括训练模块504,训练模块504按照以下方式训练推荐预测模型:
构建训练样本库,训练样本库包括多条推荐标题信息样本中每条推荐标题信息样本在多种属性特征下的特征信息,以及表征该推荐标题信息样本是否被搜索的概率值;
将每条推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,训练得到推荐预测模型。
在一种可能的实施方式中,推送模块503在向用户端推送与目标推荐标题信息关联的搜索页面信息之后,还用于:
响应针对搜索页面信息中目标推荐文章的链接信息的触发操作,向用户端推送目标推荐文章的阅览页面信息。
在一种可能的实施方式中,获取模块501在用于获取目标文章的多个关键词时,包括:
对目标文章进行分词,得到多个词单元;
统计每个词单元在目标文章中出现的次数以及目标文章的词单元总数;
基于每个词单元在目标文章中出现的次数以及文章的词单元总数,确定每个词单元的频度;
基于每个词单元的频度,从多个词单元中选取目标文章的关键词。
本公开实施例还提供了一种电子设备600,如图6所示,为本公开实施例提供的电子设备600的结构示意图,包括:处理器601、存储介质602、和总线603。存储介质602存储有处理器601可执行的机器可读指令(比如,图4中的装置中获取模块501和确定模块502对应的执行指令等),当电子设备600运行时,处理器601与存储介质602之间通过总线603通信,机器可读指令被处理器601执行时执行如下处理:
针对文章库中的待确定推荐信息的目标文章,获取目标文章的多个关键词以及目标文章的文章属性标识信息;其中,对应的文本相似度和/或图片相似度满足预设条件的多篇文章具有相同的文章属性标识信息;
基于目标文章的多个关键词和文章属性标识信息,确定目标文章对应的多条推荐标题信息,以便在目标文章被用户端被打开的情况下,将多条推荐标题信息作为搜索关键词推送给用户端。
一种可能的实施方式中,确定目标文章对应的多条推荐标题信息之后,处理器601执行的指令中,还包括:
在检测到目标文章在用户端被打开的情况下,将多条推荐标题信息推送给用户端;
响应针对多条推荐标题信息中目标推荐标题信息的触发操作,向用户端推送与目标推荐标题信息关联的搜索页面信息;搜索页面信息中包含与目标推荐标题信息关联的多篇文章的链接信息。
一种可能的实施方式中,处理器601执行的指令中,包括:
在最近预设时长内的历史搜索记录中提取包含至少一个关键词的搜索记录信息;以及,在与目标文章同类型、且对应的最近预设时长的用户阅览次数满足预设条件的多篇文章中,提取包含至少一个关键词的文章标题;以及,获取与目标文章具有相同文章属性标识信息的其它文章的链接信息;
基于搜索记录信息、文章标题和链接信息,确定目标文章对应的多条推荐标题信息。
一种可能的实施方式中,处理器601执行的指令中,包括:
将搜索记录信息、文章标题和链接信息作为候选推荐标题信息,确定每条候选推荐标题信息分别在多种属性特征下的特征信息;
将特征信息输入预先训练的推荐预测模型,确定每条候选推荐标题信息被选中的概率值;
基于每条候选推荐标题信息被选中的概率值,选取多条推荐标题信息。
一种可能的实施方式中,多种属性特征包括以下类型中的多种:
关键词数量、来源类型、字符长度、最近搜索时间、以及关键词相对位置差;其中,来源类型包括来源于搜索记录信息类型、来源于文章标题、以及来源于链接信息。
一种可能的实施方式中,若多种属性特征包括关键词相对位置差,则针对任一候选推荐标题信息,处理器601执行的指令中,按照以下方式确定该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息:
确定任一候选推荐标题信息中包含的目标关键词,以及目标关键词在该任一候选推荐标题信息中的第一平均距离,第一平均距离为基于任一候选推荐标题信息中每两个目标关键词的距离,以及目标关键词的数目确定的;
确定该任一候选推荐标题信息中包含的目标关键词在目标文章中的第二平均距离;第二平均距离为基于目标文章中每两个目标关键词的距离,以及目标关键词的数目确定的;
将第一平均距离和第二平均距离的差值作为该任一候选推荐标题信息在关键词相对位置差这种属性特征下的特征信息。
一种可能的实施方式中,处理器601执行的指令中,按照以下方式训练推荐预测模型:
构建训练样本库,训练样本库包括多条推荐标题信息样本中每条推荐标题信息样本在多种属性特征下的特征信息,以及表征该推荐标题信息样本是否被搜索的概率值;
将每条推荐标题信息样本在多种属性特征下的特征信息输入待训练的推荐预测模型,将表征该条推荐标题信息样本是否被搜索的概率值作为输出结果,训练得到推荐预测模型。
一种可能的实施方式中,向用户端推送与目标推荐标题信息关联的搜索页面信息之后,处理器601执行的指令中,还包括:
响应针对搜索页面信息中目标推荐文章的链接信息的触发操作,向用户端推送目标推荐文章的阅览页面信息。
一种可能的实施方式中,处理器601执行的指令中,包括:对目标文章进行分词,得到多个词单元;
统计每个词单元在目标文章中出现的次数以及目标文章的词单元总数;
基于每个词单元在目标文章中出现的次数以及文章的词单元总数,确定每个词单元的频度;
基于每个词单元的频度,从多个词单元中选取目标文章的多个关键词。
本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述信息推送方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述的访问请求处理方法,从而在保障客户端正常访问的前提下,提高访问效率。
本公开实施例所提供的进行访问请求处理方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
本公开实施例所提供的访问请求处理装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本公开实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,前述描述的系统、装置和单元的具体工作过程,均可以参考上述方法实施例中的对应过程,在此不再赘述。
在本公开所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开提供的实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围。都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。