Nothing Special   »   [go: up one dir, main page]

CN112445953A - 信息的搜索纠错方法、计算设备及存储介质 - Google Patents

信息的搜索纠错方法、计算设备及存储介质 Download PDF

Info

Publication number
CN112445953A
CN112445953A CN201910749084.1A CN201910749084A CN112445953A CN 112445953 A CN112445953 A CN 112445953A CN 201910749084 A CN201910749084 A CN 201910749084A CN 112445953 A CN112445953 A CN 112445953A
Authority
CN
China
Prior art keywords
data
error correction
queried
word
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910749084.1A
Other languages
English (en)
Other versions
CN112445953B (zh
Inventor
刘恒友
李辰
包祖贻
黄睿
徐光伟
李林琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910749084.1A priority Critical patent/CN112445953B/zh
Publication of CN112445953A publication Critical patent/CN112445953A/zh
Application granted granted Critical
Publication of CN112445953B publication Critical patent/CN112445953B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Databases & Information Systems (AREA)
  • Finance (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本申请实施例提供一种信息的搜索纠错方法、计算设备及存储介质。在本申请实施例中,获取历史查询数据中的多个单词数据;从多个单词数据中提取目标单词数据;对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度;通过得到的修改后单词数据以及对应目标单词数据,可以对用户输入的待查询数据进行纠错,能够更加准确地对待查询数据进行纠错,同时,提高纠错时间以及减少纠错计算开销,从而为用户展示其真正搜索的数据或信息。

Description

信息的搜索纠错方法、计算设备及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种信息的搜索纠错方法、计算设备及存储介质。
背景技术
随着信息技术的发展,越来越多的用户可以通过设置在计算机上的程序来实现众多功能,如,线上售票、线上娱乐、线上视频直播等功能,其中,线上购物是为用户提供线上付款线下收货的服务。然而,用户在购物时会主动搜索自己想要购买的物品,但是免不了用户会输入错误的搜索数据或查询数据,从而向用户展示了不是用户想要的物品。
发明内容
本申请的多个方面提供一种信息的搜索纠错方法、计算设备及存储介质,用以更快且更加精准地对待查询数据进行纠错。
本申请实施例提供一种信息的搜索纠错方法,包括:获取待查询数据中的多个单词数据;根据所述单词数据的出现次数,从所述多个单词数据中提取目标单词数据;对所述目标单词数据进行修改,修改后单词数据与对应所述目标单词数据具有第一预置相似度。
本申请实施例还提供一种信息的搜索纠错方法,包括:根据纠错数据,确定待查询数据中的至少一个待纠错数据;对所述至少一个待纠错数据进行修改,修改后待纠错数据与对应所述待纠错数据具有第一预置相似度;获取每个所述修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,所述第二数据根据待查询数据以及待展示数据获取到,所述第一数据与对应所述第二数据存在第二预置相似度;根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及所述待查询数据符合语言逻辑的第二概率;若最高第一概率大于所述第二概率,且大于的部分高于概率阈值,根据最高第一概率的所述第二数据,查询待展示数据。
本申请实施例还提供一种信息的搜索纠错方法,包括:对历史查询数据进行划分,生成多个划分数据;根据划分数据中单字的出现次数,生成待处理纠错数据;根据所述待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
本申请实施例还提供一种信息的搜索纠错方法,包括:提供搜索界面,所述界面中展示了待查询数据的输入区域以及对所述待查询数据进行纠错的提示信息;响应于输入操作,获取所述输入操作中的所述待查询数据以及纠错指示;发送所述待查询数据以及所述纠错指示至查询设备,以对所述待查询数据进行纠错以及根据纠错结果进行数据查询。
本申请实施例还提供一种信息的搜索纠错系统,包括:第一设备以及第二设备;所述第一设备,响应于输入操作,获取待查询数据以及对所述待查询数据进行纠错的指示;发送所述待查询数据以及所述指示至所述第二设备;所述第二设备,根据所述指示,对所述待查询数据进行纠错以及根据纠错结果进行数据查询,并将查询结果返回至所述第一设备。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:获取历史查询数据中的多个单词数据;根据所述单词数据的出现次数,从所述多个单词数据中提取目标单词数据;对所述目标单词数据进行修改,修改后单词数据与对应所述目标单词数据具有第一预置相似度。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:将待查询数据与纠错数据进行匹配,确定所述待查询数据中的至少一个待纠错数据;对所述至少一个待纠错数据进行修改,修改后待纠错数据与对应所述待纠错数据具有第一预置相似度;获取每个所述修改后待纠错数据匹配的所述第一数据,从而确定匹配的第二数据,所述第二数据根据待查询数据以及待展示数据获取到,所述第一数据与对应所述第二数据存在第二预置相似度;根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及所述待查询数据符合语言逻辑的第二概率;若最高第一概率大于所述第二概率,且大于的部分高于概率阈值,根据最高第一概率的所述第二数据,查询待展示数据。
本申请实施例还提供一种计算设备,包括存储器以及处理器;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:对历史查询数据进行划分,生成多个划分数据;根据划分数据中单字的出现次数,生成待处理纠错数据;根据所述待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
本申请实施例还提供一种计算设备,包括存储器、处理器以及通信组件;所述存储器,用于存储计算机程序;所述处理器,用于执行所述计算机程序,以用于:提供搜索界面,所述界面中展示了待查询数据的输入区域以及对所述待查询数据进行纠错的提示信息;响应于输入操作,获取所述输入操作中的所述待查询数据以及纠错指示;所述通信组件,用于发送所述待查询数据以及所述纠错指示至查询设备,以对所述待查询数据进行纠错以及根据纠错结果进行数据查询。
本申请实施例还提供一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现上述信息的搜索纠错方法中的步骤。
在本申请实施例中,获取历史查询数据中的多个单词数据;从多个单词数据中提取目标单词数据;对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度;通过得到的修改后单词数据以及对应目标单词数据,可以对用户输入的待查询数据进行纠错,能够更加准确地对待查询数据进行纠错,同时,提高纠错时间以及减少纠错计算开销,从而为用户展示其真正搜索的数据或信息。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1A为本申请一示例性实施例的信息的搜索纠错系统的结构示意图;
图1B为本申请一示例性实施例的信息的搜索纠错系统的结构示意图;
图2为本申请一示例性实施例的信息的搜索纠错方法的流程示意图;
图3为本申请又一示例性实施例的信息的搜索纠错方法的流程示意图;
图4为本申请又一示例性实施例的信息的搜索纠错方法的流程示意图;
图5为本申请一示例性实施例提供的信息的搜索纠错装置的结构示意图;
图6为本申请又一示例性实施例提供的信息的搜索纠错装置的结构示意图;
图7为本申请又一示例性实施例提供的信息的搜索纠错装置的结构示意图;
图8为本申请一示例性实施例提供的计算设备的结构示意图;
图9为本申请又一示例性实施例提供的计算设备的结构示意图;
图10为本申请又一示例性实施例提供的计算设备的结构示意图;
图11为本申请一示例性实施例的信息的搜索纠错的示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在新零售电商搜索的纠错场景下,对于用户输入的错误query(查询数据,也可以称为待查询数据,如查询词)会返回零少搜索结果,可以通过对query进行纠错,去发起搜索,但如果将用户输入正确的query误纠成其他错误query,会造成返回不符合用户需求的搜索结果,影响用户的搜索体验。
本申请实施例提供了一种搜索纠错方法,既保证纠错精度,又满足对尽可能多的错误query进行纠错的实际需求,来提高纠错效果,提升用户的搜索体验。
在本申请实施例中,获取历史查询数据中的多个单词数据;从多个单词数据中提取目标单词数据;对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度;通过得到的修改后单词数据以及对应目标单词数据,可以对用户输入的待查询数据进行纠错,能够更加准确地对待查询数据进行纠错,同时,提高纠错时间以及减少纠错计算开销,从而为用户展示其真正搜索的数据或信息。
以下结合附图,详细说明本申请各实施例提供的技术方案。
图1A为本申请一示例性实施例提供的一种信息的搜索纠错系统的结构示意图。如图1A所示,该搜索纠错系统100A可以包括:第一设备101以及第二设备102。
其中,第一设备101可以是任何具有一定计算能力的计算设备。第一设备101的基本结构可以包括:至少一个处理器。处理器的数量取决于第一设备101的配置和类型。第一设备101也可以包括存储器,该存储器可以为易失性的,例如RAM,也可以为非易失性的,例如只读存储器(Read-Only Memory,ROM)、闪存等,或者也可以同时包括两种类型。存储器内通常存储有操作系统(Operating System,OS)、一个或多个应用程序,也可以存储有程序数据等。除了处理单元和存储器之外,第一设备101还包括一些基本配置,例如网卡芯片、IO总线、显示组件以及一些外围设备等。可选地,一些外围设备可以包括,例如键盘、鼠标、输入笔、打印机等。其它外围设备在本领域中是众所周知的,在此不做赘述。可选地,第一设备101可以为智能终端,如手机、平板电脑、台式电脑等。
第二设备102是指可以在网络虚拟环境中提供计算处理服务的设备,通常是指利用网络进行信息搜索纠错的服务器。在物理实现上,第二设备102可以是任何能够提供计算服务,响应服务请求,并进行处理的设备,例如可以是常规服务器、云服务器、云主机、虚拟中心等。第二设备102的构成主要包括处理器、硬盘、内存、系统总线等,和通用的计算机架构类似。
在本申请实例中,第一设备101,用于响应于输入操作,获取待查询数据,响应于用户的搜索请求,将用户在第一设备101输入的待查询数据,如,待查询数据中的搜索词语“白色车衣”发送至第二设备102;接收第二设备102返回的搜索结果,展示给用户。
在该搜索请求中还可以携带对所述待查询数据进行纠错的指示。
第二设备102,用于获取历史查询数据中的多个单词数据;根据单词数据的出现次数,从多个单词数据中提取目标单词数据;对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度。
第二设备102,用于接收第一设备101发送的搜索词语(也可以称为待查询数据),基于修改后单词数据与对应目标单词数据,对搜索词语进行纠错,根据纠错结果,进行数据搜索,将搜索结果返回至第一设备101。
在本申请实施例的应用场景中,如图1B所示,如,线上购物的商品搜索应用场景中,用户通过第一设备101,如手机安装的线上购物APP,进行商品的购买,在购买前,用户在线上购物APP提供的商品搜索界面上的输入框中输入商品的搜索词或查询词,如,牛来(正确搜索词应为“牛奶”),并触发搜索指令,手机响应于该搜索指令,手机向第二设备102,如购物服务器发送搜索词,服务器接收到该搜索词后,对该搜索词进行纠错,得到正确的搜索数据,牛奶,根据纠错结果“牛奶”进行商品搜索,并将搜索到的商品信息发送至手机的线上购物APP上,并由手机展示给用户搜索到的商品信息。
在上述本实施例中,第一设备101可以与第二设备102进行网络连接,该网络连接可以是无线或有线网络连接。若第一设备101与第二设备102是通信连接,该移动网络的网络制式可以为2G(GSM)、2.5G(GPRS)、3G(WCDMA、TD-SCDMA、CDMA2000、UTMS)、4G(LTE)、4G+(LTE+)、WiMax等中的任意一种。
下面结合方法实施例,针对第二设备102信息搜索纠错的过程进行详细说明。
图2为本申请一示例性实施例的信息的搜索纠错方法的流程示意图。本申请实施例提供的该方法200由第二设备执行,如,服务器,该方法200包括以下步骤:
201:获取历史查询数据中的多个单词数据。
202:根据单词数据的出现次数,从多个单词数据中提取目标单词数据。
203:对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度。
以下针对上述步骤进行详细阐述:
201:获取历史查询数据中的多个单词数据。
其中,查询数据(也可以称为待查询数据)是指用于搜索信息的检索数据;例如,在线上购物场景下的搜索商品的关键词,如,酸奶。而历史查询数据是指在已经获取到搜索信息的已存在检索信息,如,在一个月前,用户通过检索信息“酸奶”,获取到酸奶商品,其中,检索信息“酸奶”为历史查询数据。
单词数据是指由至少两个单字组成的数据;对于中文而言,可以是至少两个中文汉字组成的,如酸奶;对于拼音,可以是至少两个汉字的拼音组成的,如suannai;对于英文可以是至少两个英文单词组成的,如Plain yogurt,这里应理解,单个汉字对应一个英文单词。
在一些实例中,获取历史查询数据中的多个单词数据,包括:对每个历史查询数据进行二元语法切分和三元语法切分,得到每个历史查询数据对应的多个单词数据。
其中,二元语法(也可以称为二元语法模型,bi-gram)是指在语言当中,一个字(或一个拼音或一个英文单词)的出现与其所在句子中前一个字(或前一个拼音或前一个英文单词)有关。
三元语法(也可以称为三元语法模型,tri-gram)是指是指在语言当中,一个字(一个拼音或一个英文单词)的出现与其所在句子中的前两个字(前两个拼音或前两个英文单词)有关。
例如,服务器可以从服务器的数据库中获取到多个历史查询数据,以“国外酸奶”一个历史查询数据为例说明,根据二元语法可将该数据切分为:国外、外酸、酸奶;根据三元语法可将该数据切分为:国外酸、外酸奶。
202:根据单词数据的出现次数,从多个单词数据中提取目标单词数据。
在一些实例中,当出现次数大于次数阈值,则将该出现次数对应的单词数据作为目标单词数据提取出来。
例如,根据前文所述,服务器在获取到多个单词数据后,对每个单词数据的出现次数进行统计,提取出出现次数大于次数阈值的单词数据,作为目标单词数据,如单词数据“酸奶”的出现次数为1.5万次,次数阈值为1万次,那么将单词数据“酸奶”作为目标单词数据提取出来。
203:对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度。
其中,第一预置相似度是指用于两个单词数据之间具有一定的相似性。
在一些实例中,当目标单词数据为中文,则将中文转换为拼音,对拼音执行修改,而对应目标单词数据则以中文形式存在。若目标单词数据为拼音或英文,则无需进行转换。
例如,根据前文所述,服务器在获取到多个目标单词数据后,对每个目标单词数据进行删除字符修改,编辑距离小于等于3,如目标单词数据“酸奶”,由于该单词数据为中文,先将该单词数据转换为拼音“suannai”,然后,进行删除修改“suanna”、“sunai”等等,满足编辑距离。得到修改后单词数据“suanna”、“sunai”对应目标单词数据为“酸奶”,其存储形式可以为<修改后单词数据,对应目标单词数据>,例如,<sunai,酸奶>。
需要说明的是,删除字符修改方式,且编辑距离小于等于3,可以模拟出字符删除、插入、换位、替换操作。
此外,修改方式不局限于删除方式,只要可以使得修改后单词数据与对应目标单词数据具有较高的相似性或预置相似度,都属于本申请实施例的保护范围。
在本申请实施例中,服务器获取到修改后单词数据以及对应目标单词数据后,就可以根据修改后单词数据以及对应目标单词数据对线上购物的大部分搜索场景乃至线上大部分搜索场景,实现待查询数据的纠错,为用户提供满足用户需求的搜索数据,提高用户的使用体验,提高纠错效率等等。
在一些实例中,该方法200还包括:将修改后单词数据与对应目标单词数据,作为第一集合;根据第一集合,对待查询数据进行纠错。
其中,待查询数据是指后续用户输入的检索数据,可以由终端发送至服务器,服务器获取到该待查询数据后,根据该待查询数据进行数据搜索。
例如,根据前文所述,为了更加方便对待查询数据进行纠错,服务器可以将修改后单词数据以及对应目标单词数据设置在一个合集中,方便进行纠错,在该第一集合中,可以将修改后单词数据以及对应目标单词数据作为纠错候选数据或纠错候选,其存储形式可以为<修改后单词数据,对应目标单词数据>,例如,<sunai,酸奶>,根据第一集合对待查询数据进行纠错。
在一些实例中,该方法200还包括:对多个待展示数据进行修改,修改后展示数据与对应待展示数据具有第一预置相似度;将修改后展示数据作为修改后单词数据,将待展示数据作为目标单词数据,将修改后展示数据与对应待展示数据设置在第一集合中。
其中,待展示数据,是通过待查询数据获取到的搜索结果,例如,在线上购物场景中,各个待展示的商品数据,可以包括商品名称、商品描述信息等等。需要说明的是,待展示数据与历史查询数据可以不具有关联关系。
在一些实例中,当待展示数据为中文,则将中文转换为拼音,对拼音执行删除操作。若待展示数据为拼音或英文,则无需进行转换。
例如,根据前文所述,服务器可以从服务器的数据库获取到多个商品数据,对每个商品数据进行删除字符修改,编辑距离小于等于3,如商品数据“国外酸奶”,由于该单词数据为中文,先将该单词数据转换为拼音“guowaisuannai”,然后,进行删除修改“guwaisuannai”、“guowasuannai”等等,满足编辑距离。得到修改后展示数据“guwaisuannai”、“guowasuannai”对应目标单词数据为“国外酸奶”,其存储形式可以为<修改后展示数据,对应目标单词数据>,例如,<guwaisuannai,国外酸奶>。服务器将修改后展示数据与对应待展示数据也设置在第一合集中。
值得说明的是,为了更加精准地保证纠错效果,除了将历史查询数据作为基准考量待查询数据,还可以进一步将待展示数据也作为基准考量待查询数据。
以下针对如何进行数据纠错的过程进行详细地阐述:
在一些实例中,根据第一集合,对待查询数据进行纠错,包括:将待查询数据与纠错数据进行匹配,确定待查询数据中的至少一个待纠错数据;对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第二预置相似度;获取第一集合中与每个修改后待纠错数据匹配的修改后单词数据,从而确定匹配的目标单词数据;根据预置模型,确定每个目标单词数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率;若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的目标单词数据,查询待展示数据。
其中,纠错数据是指用于查找出待查询数据中需要纠错的数据,即待纠错数据,该待纠错数据可以是最可能出错的低频词语,可以是中文词语、汉字、拼音以及英文单词等。
待纠错数据是指具有较高出错可能性的低频词语。
第二预置相似度是指用于两个数据之间具有一定的相似性,例如,字数据之间或者由字数据组成的词数据,应理解,字数据也可以为英文单词。
预置模型是指用于确定词语是否符合语言逻辑的模型,该模型可以通过对词语进行打分来确定词语符合语言逻辑的情况,分数高则视为该词语具有较高的可能性符合语言逻辑。该模型可以为开源n-gram LM(n-gram language model)工具(如KenLM,languagemodel)。
需要说明的是,n-gram LM是一种统计语言模型,可以计算一个词语的概率的模型,该模型可以以历史查询数据或者其他数据作为训练样本,由于其训练过程属于现有技术,此处就不再赘述。KenLM是一种统计语言模型,可以计算一个词语的概率的模型,该模型可以以历史查询数据或者其他数据作为训练样本,由于其训练过程属于现有技术,此处就不再赘述。
语言逻辑是指符合自然语言的语言规则,例如语法规则等等。
在一些实例中,确定待查询数据中的至少一个待纠错数据,包括:当待查询数据中至少一个数据与至少一个纠错数据中的正确数据匹配后,确定匹配度最高的纠错数据;获取匹配度最高的纠错数据中的隐藏数据;根据隐藏数据,获取待查询数据中对应数据作为待纠错数据。
其中,纠错数据可以包括但不限于正确数据以及隐藏数据,其中,正确数据在纠错数据可以正常显示出其数据值,而隐藏数据在纠错数据不显示其数据值,可以通过通配符号表示,如“*”。
在一些实例中,当待纠错数据为中文,则将中文转换为拼音,对拼音执行删除操作。若是拼音或英文则不进行处理。
例如,根据前文所述,服务器接收到终端发送的用户输入的待查询数据“Aadishoes”,服务器将该待查询数据与纠错数据进行匹配,待查询数据“Aadi shoes”与多个纠错数据匹配上,根据最长匹配原则,即匹配度最高,选择纠错数据,例如,匹配度最高的纠错数据为“**shoes”,其中正确数据是“shoes”,隐藏数据是“**”,应理解,每个“*”表示一个隐藏数据,根据该隐藏数据在纠错数据的位置,确定待查询数据中的对应数据为“Aadi”,作为待纠错数据。
将该待纠错数据进行删除字符修改,编辑距离小于等于2,如“Ad”以及“Aad”等,将修改后待纠错数据作为查询候选,将该查询候选与第一集合中的修改后字数据进行匹配,如“Ad”匹配上第一集合中的<Ad,阿帝>的Ad,确定目标单词数据“阿帝”;“Aad”匹配上第一集合中的<Aad,艾帝>的Aad,确定目标单词数据“艾帝”,将“阿帝”以及“艾帝”输入至KenLM模型中,得到每个数据的第一打分分别为“90”分以及“60”分,可以视为概率分别为“90%”以及“60%”,以及将“Aadi”输入至KenLM模型中,得到该数据的第二打分“80”,可以视为概率为“80%”,先确定最高第一概率为“90%”的“阿帝”,由于最高第一概率“90%”大于第二概率“80%”,且高出的“10%”大于概率阈值5%,则根据“阿帝”,来搜索商品结果,并展示给用户。
应理解,在对待纠错数据进行修改时,可以生成多个修改结果,如果每个修改结果在第一集合中都具有匹配的修改后字数据,那么也具有多个对应目标单词数据。那么预置模型需要对每个目标单词数据进行打分,选择分数最高的目标单词数据,将该最高分数与待查询数据的打分进行比较。
概率可以通过打分来体现。
需要说明的是,若纠错数据中的隐藏数据的个数比待查询数据中的对应数据个数多时,则以对应数据以及对应数据的个数为准,若隐藏数据的个数比待查询数据中的对应数据个数少时,则以隐藏数据以及隐藏数据的个数为准。
当对应数据为多个时,可以将多个对应数据作为一个待纠错数据的词集合,当词集合不为空时,则表示待查询数据与纠错数据匹配上了,当集合为空时,则表示待查询数据未与纠错数据匹配上。
通过生成纠错数据以及第一集合进行纠错,确定出最可能出错的低频词,然后针对此词进行词粒度纠错。一方面具有较高的纠错准确率,另一方面可以减少纠错计算开销,提升纠错响应时间。
在一些实例中,该方法200还包括:否则,根据待查询数据,查询对应待展示数据。
例如,根据前文所述,服务器确定最高第一概率“90%”虽然大于第二概率“80%”,但高出的“10%”等于概率阈值10%,则服务器根据“Aadi shoes”来搜索商品结果,并展示给用户。
在一些实例中,该方法200方法还包括:对历史查询数据进行划分,生成多个划分数据;根据划分数据中单字的出现次数,生成待处理纠错数据;根据待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
在一些实例中,可以根据n元语法切分历史查询数据。
在一些实例中,生成待处理纠错数据,包括:若单字的出现次数大于次数阈值,将单字作为正确数据;若单字的出现次数小于等于次数阈值,将单字作为隐藏数据;根据正确数据和隐藏数据,生成待处理纠错数据。
例如,根据前文所述,服务器获取到多个历史查询数据,针对每个历史查询数据,生成n-gram(n元语法模型)集合,其中,n可以=2,3,可根据实际数据调整成n=2,3,4。如历史查询数据为:‘ABCD’进行n元语法(也可以称为n元语法模型)切分,生成的在n=2,3时的n-gram集合为:[A B,B C,CD,ABC,BC D]。对于n-gram集合中的每个n-gram,将位于高频单字数据中的单字保留,即单字出现次数大于次数阈值的单字取出,作为正确数据,如“AB”,非高频单字用通配符号*替换,作为隐藏数据;生成如“AB**”或“**shoes”的待处理纠错数据,也可以成为pattern模式。再从生成的待处理纠错数据中,取出出现次数大于次数阈值的pattern(目标纠错数据),即提取出目标纠错数据组成pattern(目标纠错数据)数据集合。
需要说明的是,上述可以称为是通过词粒度来对待查询数据进行纠错的,由于该词粒度可以覆盖大部分搜索场景,所以可以满足用户发送的大部分待查询数据。为了能够覆盖更大的搜索场景,本申请实施例还提出了字粒度来对待查询数据进行纠错的。
在一些实例中,该方法200还包括:获取历史查询数据中的多个字数据;根据字数据的出现次数,从多个字数据中提取目标字数据;对目标字数据进行修改,修改后字数据与对应目标字数据具有第一预置相似度;将修改后字数据与对应目标字数据,作为第二集合;根据第二集合,对待查询数据进行纠错。
需要说明的是,第二集合的生成与第一集合的生成过程雷同,此处就不再过多解释,仅举例说明:
其中,字可以是指中文单字,中文单字对应的拼音以及一个英文单词,应理解,在英文中,一个英文单词相当于中文中的一个单字。
例如,根据前文所述,服务器获取到多个历史查询数据,如“国外酸奶”,对其中每个字进行出现次数的统计,如“国”、“外”、“酸”、“奶”,选取出大于次数阈值的单字,如“奶”,作为目标字数据。服务器在获取到多个目标字数据后,对每个目标字数据进行删除字符修改,编辑距离小于等于3,如目标字数据“奶”,由于该单词数据为中文,先将该字数据转换为拼音“nai”,然后,进行删除修改“na”、“ai”等等,满足编辑距离。得到修改后字数据“na”、“ai”对应目标单词数据为“奶”,其存储形式可以为<修改后字数据,对应目标字数据>,例如,<na,奶>。服务器可以将修改后字数据以及对应目标字数据设置在一个合集中,方便进行纠错,在该第二集合中,可以将修改后字数据以及对应目标字数据作为纠错候选数据。根据第二集合对待查询数据进行纠错。
在一些实例中,根据第二集合,对待查询数据进行纠错,包括:将待查询数据与纠错数据进行匹配,当不存在待纠错数据,对待查询数据中每个单字进行修改,修改后单字与对应单字具有第二预置相似度;针对每个修改后单字,替换待查询数据中对应单字,生成该修改后单字对应的修改后待查询数据;根据预置模型,确定每个修改后待查询数据符合语言逻辑的第三概率以及待查询数据符合语言逻辑的第四概率;若最高第三概率大于第四概率,且大于的部分高于概率阈值,根据最高第三概率的修改后待查询数据,查询待展示数据。
在一些实例中,该方法200还包括:否则,根据待查询数据,查询对应待展示数据。
需要说明的是,根据第二集合,对查询数据进行纠错的过程与根据第一集合,对查询数据进行纠错的过程相似,此处就不再过多解释,仅举例说明:
例如,根据前文所述,服务器接收到终端发送的用户输入的待查询数据“Aadishoes”,服务器将该待查询数据与纠错数据进行匹配,如果未与任何纠错数据匹配上,则不存在待纠错数据,直接对待查询数据“Aadi shoes”的每个单词进行字符删除,编辑距离小于等于2,如修改后单字“Ad”、“Aad”、“shoe”以及“sho”等,将修改后单字替换对应单字,如,修改后待查询数据“Ad shoes”、“Aad shoes”等。将“Ad shoes”、“Aad shoes”等输入至KenLM模型中,得到每个数据的第一打分分别为“90”分以及“60”分,可以视为概率分别为“90%”以及“60%”,以及将待查询数据“Aadi shoes”输入至KenLM模型中,得到该数据的第二打分“80”,可以视为概率为“80%”,先确定最高第一概率为“90%”的“Ad shoes”,由于最高第一概率“90%”大于第二概率“80%”,且高出的“10%”大于概率阈值5%,则根据“Adshoes”,来搜索商品结果,并展示给用户。
若最高第一概率“90%”大于第二概率“80%”,但高出的“10%”等于概率阈值10%,则服务器根据“Aadi shoes”,来搜索商品结果,并展示给用户。
在一些实例中,该方法200还包括:接收待查询数据以及对待查询数据进行纠错的指示,指示表示用户选择对待查询数据进行纠错;根据指示,对待查询数据进行纠错。
例如,根据前文所述,服务器可以接收终端发送的查询请求,该查询请求是由用户通过终端,如手机上安装的购物APP,发出的。用户在购物APP输入待查询数据,如牛奶,并选中手机提供搜索界面上的纠错指示,并点击搜索界面上的搜索按钮。手机通过APP响应该操作,向服务器发送查询请求,该查询请求中携带了待查询数据以及纠错指示。服务器根据该纠错指示,来对待查询数据进行纠错,并根据纠错结果进行查询,并将查询结果返回至手机APP,并向用户展示查询结果。
在一些实例中,该方法200还包括:当未接收到指示,则直接根据待查询数据,查询对应待展示数据。
例如,根据前文所述,服务器在接收到查询请求后,当查询请求中未携带纠错指示时,服务器则不对待查询数据进行纠错,直接根据待查询数据进行查询,将查询结果返回至手机APP,并向用户展示查询结果。
在本申请实施例中,结合了词粒度纠错的高精度和单字粒度纠错的高召回,来提高纠错效果,提升用户的搜索体验。
图3为本申请另一示例性实施例提供的又一种信息的搜索纠错方法的流程示意图。本申请实施例提供的该方法300由第二设备执行,如,服务器,该方法300包括以下步骤:
301:根据纠错数据,确定待查询数据中的至少一个待纠错数据。
302:对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第一预置相似度。
303:获取每个修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,第二数据根据待查询数据以及待展示数据获取到,第一数据与对应第二数据存在第二预置相似度。
304:根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率。
305:若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的第二数据,查询待展示数据。
需要说明的是,由于步骤301-305在前文中已经详细阐述过了,这里就不再赘述。其中,步骤302中的第一预置相似度是步骤201-203中具体实施方式中的第二预置相似度,而步骤303中的第二预置相似度是步骤201-203中具体实施方式中的第一预置相似度。
在一些实例中,第一数据包括字数据和词数据;第二数据包括字数据和词数据。应理解,第一数据中的字数据是步骤201-203中具体实施方式中的修改后字数据,第一数据中的词数据是步骤201-203中具体实施方式中的修改后单词数据。第二数据中的字数据是步骤201-203中具体实施方式中的目标字数据,第二数据中的词数据是步骤201-203中具体实施方式中的目标单词数据。
图4为本申请另一示例性实施例提供的又一种信息的搜索纠错方法的流程示意图。本申请实施例提供的该方法400由第二设备执行,如,服务器,该方法400包括以下步骤:
401:对历史查询数据进行划分,生成多个划分数据。
402:根据划分数据中单字的出现次数,生成待处理纠错数据。
403:根据待处理纠错数据的出现次数,提取待处理纠错数据,作为纠错数据。
由于步骤401-403在前文中已经详细赘述过,此处就不再赘述。
在一些实例中,生成待处理纠错数据,包括:若单字的出现次数大于次数阈值,将单字作为正确数据;根据正确数据,生成待处理纠错数据。
由于前文已经详细阐述过本实例,此处就不再赘述。
图5为本申请一示例性实施例提供的信息的搜索纠错装置的结构框架示意图。该装置500可以应用于第二设备执行,如,服务器,该装置500包括获取模块501、提取模块502以及修改模块503,以下针对各个模块的功能进行详细的阐述:
获取模块501,用于获取历史查询数据中的多个单词数据。
提取模块502,用于根据单词数据的出现次数,从多个单词数据中提取目标单词数据。
修改模块503,用于对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度。
在一些实例中,该装置500还包括:纠错模块,用于将修改后单词数据与对应目标单词数据,作为第一集合;根据第一集合,对待查询数据进行纠错。
在一些实例中,获取模块501,还用于获取历史查询数据中的多个字数据;提取模块502,还用于根据字数据的出现次数,从多个字数据中提取目标字数据;修改模块503,还用于对目标字数据进行修改,修改后字数据与对应目标字数据具有第一预置相似度;将修改后字数据与对应目标字数据,作为第二集合;纠错模块,还用于根据第二集合,对待查询数据进行纠错。
在一些实例中,修改模块503,还用于对多个待展示数据进行修改,修改后展示数据与对应待展示数据具有第一预置相似度;该装置500还包括:设置模块,用于将修改后展示数据作为修改后单词数据,将待展示数据作为目标单词数据,将修改后展示数据与对应待展示数据设置在第一集合中;其中,待展示数据是通过待查询数据获取到的。
在一些实例中,纠错模块,包括:匹配单元,用于将待查询数据与纠错数据进行匹配,确定待查询数据中的至少一个待纠错数据;修改单元,用于对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第二预置相似度;获取单元,用于获取第一集合中与每个修改后待纠错数据匹配的修改后单词数据,从而确定匹配的目标单词数据;确定单元,用于根据预置模型,确定每个目标单词数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率;查询单元,用于若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的目标单词数据,查询待展示数据。
在一些实例中,否则,查询单元,还用于根据待查询数据,查询对应待展示数据。
在一些实例中,该装置500还包括:划分模块,用于对历史查询数据进行划分,生成多个划分数据;生成模块,用于根据划分数据中单字的出现次数,生成待处理纠错数据;提取模块502,还用于根据待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
在一些实例中,生成模块,具体用于若单字的出现次数大于次数阈值,将单字作为正确数据;若单字的出现次数小于等于次数阈值,将单字作为隐藏数据;根据正确数据和隐藏数据,生成待处理纠错数据。
在一些实例中,匹配单元,用于当待查询数据中至少一个数据与至少一个纠错数据中的正确数据匹配后,确定匹配度最高的纠错数据;获取匹配度最高的纠错数据中的隐藏数据;根据隐藏数据,获取待查询数据中对应数据作为待纠错数据。
在一些实例中,匹配单元,还用于将待查询数据与纠错数据进行匹配,当不存在待纠错数据,对待查询数据中每个单字进行修改,修改后单字与对应单字具有第二预置相似度;纠错模块,还包括:替换单元,用于针对每个修改后单字,替换待查询数据中对应单字,生成该修改后单字对应的修改后待查询数据;确定单元,还用于根据预置模型,确定每个修改后待查询数据符合语言逻辑的第三概率以及待查询数据符合语言逻辑的第四概率;查询单元,还用于若最高第三概率大于第四概率,且大于的部分高于概率阈值,根据最高第三概率的修改后待查询数据,查询待展示数据。
在一些实例中,否则,查询单元,还用于根据待查询数据,查询对应待展示数据。
在一些实例中,获取模块501,用于对每个历史查询数据进行二元语法切分和三元语法切分,得到每个历史查询数据对应的多个单词数据。
在一些实例中,该装置500还包括:接收模块,用于接收待查询数据以及对待查询数据进行纠错的指示,指示表示用户选择对待查询数据进行纠错;纠错模块,用于根据指示,对待查询数据进行纠错。
在一些实例中,该装置500还包括:查询模块,用于当未接收到指示,则直接根据待查询数据,查询对应待展示数据。
图6为本申请又一示例性实施例提供的又一种信息的搜索纠错装置的结构框架示意图。该装置600可以应用于第二设备中,例如,服务器;该装置600包括:确定模块601、修改模块602、获取模块603以及查询模块604,以下针对各个模块的功能进行详细的阐述:
确定模块601,用于根据纠错数据,确定待查询数据中的至少一个待纠错数据。
修改模块602,用于对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第一预置相似度。
获取模块603,用于获取每个修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,第二数据根据待查询数据以及待展示数据获取到,第一数据与对应第二数据存在第二预置相似度。
确定模块601,用于根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率。
查询模块604,用于若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的第二数据,查询待展示数据。
在一些实例中,第一数据包括字数据和词数据;第二数据包括字数据和词数据。
图7为本申请又一示例性实施例提供的又一种信息的搜索纠错装置的结构框架示意图。该装置700可以应用于第二设备执行,如,服务器;该装置700包括:生成模块701以及提取模块702,以下针对各个模块的功能进行详细的阐述:
生成模块701,用于对历史查询数据进行划分,生成多个划分数据。
生成模块701,用于根据划分数据中单字的出现次数,生成待处理纠错数据。
提取模块702,用于根据待处理纠错数据的出现次数,提取待处理纠错数据,作为纠错数据。
在一些实例中,生成模块701,用于若单字的出现次数大于次数阈值,将单字作为正确数据;若单字的出现次数小于等于次数阈值,将单字作为隐藏数据;根据正确数据和隐藏数据,生成待处理纠错数据。
以上描述了图5所示的搜索纠错装置500的内部功能和结构,在一个可能的设计中,图5所示的搜索纠错装置500的结构可实现为服务器,如图8所示,该服务器800可以包括:存储器801以及处理器802;
存储器801,用于存储计算机程序;
处理器802,用于执行计算机程序,以用于:获取历史查询数据中的多个单词数据;根据单词数据的出现次数,从多个单词数据中提取目标单词数据;对目标单词数据进行修改,修改后单词数据与对应目标单词数据具有第一预置相似度。
在一些实例中,处理器802,还用于:将修改后单词数据与对应目标单词数据,作为第一集合;根据第一集合,对待查询数据进行纠错。
在一些实例中,处理器802,还用于:获取历史查询数据中的多个字数据;根据字数据的出现次数,从多个字数据中提取目标字数据;对目标字数据进行修改,修改后字数据与对应目标字数据具有第一预置相似度;将修改后字数据与对应目标字数据,作为第二集合;根据第二集合,对待查询数据进行纠错。
在一些实例中,处理器802,还用于:对多个待展示数据进行修改,修改后展示数据与对应待展示数据具有第一预置相似度;将修改后展示数据作为修改后单词数据,将待展示数据作为目标单词数据,将修改后展示数据与对应待展示数据设置在第一集合中;其中,待展示数据是通过待查询数据获取到的。
在一些实例中,处理器802,具体用于:将待查询数据与纠错数据进行匹配,确定待查询数据中的至少一个待纠错数据;对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第二预置相似度;获取第一集合中与每个修改后待纠错数据匹配的修改后单词数据,从而确定匹配的目标单词数据;根据预置模型,确定每个目标单词数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率;若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的目标单词数据,查询待展示数据。
在一些实例中,否则,处理器802,还用于:根据待查询数据,查询对应待展示数据。
在一些实例中,处理器802,还用于:对历史查询数据进行划分,生成多个划分数据;根据划分数据中单字的出现次数,生成待处理纠错数据;根据待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
在一些实例中,处理器802,具体用于:若单字的出现次数大于次数阈值,将单字作为正确数据;若单字的出现次数小于等于次数阈值,将单字作为隐藏数据;根据正确数据和隐藏数据,生成待处理纠错数据。
在一些实例中,处理器802,具体用于:当待查询数据中至少一个数据与至少一个纠错数据中的正确数据匹配后,确定匹配度最高的纠错数据;获取匹配度最高的纠错数据中的隐藏数据;根据隐藏数据,获取待查询数据中对应数据作为待纠错数据。
在一些实例中,处理器802,具体用于::将待查询数据与纠错数据进行匹配,当不存在待纠错数据,对待查询数据中每个单字进行修改,修改后单字与对应单字具有第二预置相似度;针对每个修改后单字,替换待查询数据中对应单字,生成该修改后单字对应的修改后待查询数据;根据预置模型,确定每个修改后待查询数据符合语言逻辑的第三概率以及待查询数据符合语言逻辑的第四概率;若最高第三概率大于第四概率,且大于的部分高于概率阈值,根据最高第三概率的修改后待查询数据,查询待展示数据。
在一些实例中,否则,处理器802,还用于:根据待查询数据,查询对应待展示数据。
在一些实例中,处理器802,具体用于:对每个历史查询数据进行二元语法切分和三元语法切分,得到每个历史查询数据对应的多个单词数据。
在一些实例中,处理器802,还用于:接收待查询数据以及对待查询数据进行纠错的指示,指示表示用户选择对待查询数据进行纠错;根据指示,对待查询数据进行纠错。
在一些实例中,处理器802,还用于:当未接收到指示,则直接根据待查询数据,查询对应待展示数据。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图2方法实施例中信息的搜索纠错方法的步骤。
以上描述了图6所示的搜索纠错装置600的内部功能和结构,在一个可能的设计中,图6所示的搜索纠错装置600的结构可实现为服务器,如图9所示,该服务器900可以包括:存储器901以及处理器902;
存储器901,用于存储计算机程序;
处理器902,用于执行计算机程序,以用于:根据纠错数据,确定待查询数据中的至少一个待纠错数据;对至少一个待纠错数据进行修改,修改后待纠错数据与对应待纠错数据具有第一预置相似度;获取每个修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,第二数据根据待查询数据以及待展示数据获取到,第一数据与对应第二数据存在第二预置相似度;根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及待查询数据符合语言逻辑的第二概率;若最高第一概率大于第二概率,且大于的部分高于概率阈值,根据最高第一概率的第二数据,查询待展示数据。
在一些实例中,第一数据包括字数据和词数据;第二数据包括字数据和词数据。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图3方法实施例中信息的搜索纠错方法的步骤。
以上描述了图7所示的搜索纠错装置700的内部功能和结构,在一个可能的设计中,图7所示的搜索纠错装置700的结构可实现为服务器,如图10所示,该服务器1000可以包括:存储器1001以及处理器1002;
存储器1001,用于存储计算机程序;
处理器1002,用于执行计算机程序,以用于:对历史查询数据进行划分,生成多个划分数据;根据划分数据中单字的出现次数,生成待处理纠错数据;根据待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
在一些实例中,处理器1002,具体用于:用于若单字的出现次数大于次数阈值,将单字作为正确数据;若单字的出现次数小于等于次数阈值,将单字作为隐藏数据;根据正确数据和隐藏数据,生成待处理纠错数据。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现图4方法实施例中信息的搜索纠错方法的步骤。
本申请另一示例性实施例提供的又一种信息的搜索纠错方法。本申请实施例提供的该方法1100A由第一设备执行,如,手机,该方法1100A包括以下步骤:
1101:提供搜索界面,界面中展示了待查询数据的输入区域以及对待查询数据进行纠错的提示信息。
1102:响应于输入操作,获取输入操作中的待查询数据以及纠错指示。
1103:发送待查询数据以及纠错指示至查询设备,以对待查询数据进行纠错以及根据纠错结果进行数据查询。
由于步骤1101-1103在前文中已经详细赘述过,此处就不再赘述。
仅根据附图进行简要阐述:
例如,如图11所示,根据前文所述,用户点击手机上安装的购物APP,进入到该APP,当用户想要对购买的东西进行搜索时,可以直接在手机1104提供的搜索界面中的搜索输入框中输入商品名称,如牛来(纠正后的名称为牛奶)。该搜索界面上还展示了是否对待查询数据进行纠错的提示信息“纠错指示”。用户可以选中该纠错指示,并点击搜索界面上的搜索按钮。手机1104通过APP响应该操作,向服务器1105发送查询请求,该请求中携带纠错指示以及待查询数据“牛来”。服务器1105根据该纠错指示,对待查询数据进行纠错,并根据纠错结果进行查询,将查询结果发送至手机1104的APP,以展示给用户知晓。
本申请一示例性实施例提供的信息的搜索纠错装置。该装置1200可以应用于第一设备执行,如,手机,该装置1200包括提供模块1201、获取模块1202以及发送模块1203,以下针对各个模块的功能进行详细的阐述:
提供模块1201,用于提供搜索界面,界面中展示了待查询数据的输入区域以及对待查询数据进行纠错的提示信息。
获取模块1202,用于响应于输入操作,获取输入操作中的待查询数据以及纠错指示。
发送模块1203,用于发送待查询数据以及纠错指示至查询设备,以对待查询数据进行纠错以及根据纠错结果进行数据查询。
以上描述了搜索纠错装置1200的内部功能和结构,在一个可能的设计中,搜索纠错装置1200的结构可实现为终端,如手机,该终端1300可以包括:存储器1301以及处理器1302;
存储器1301,用于存储计算机程序;
处理器1302,用于执行计算机程序,以用于:提供搜索界面,界面中展示了待查询数据的输入区域以及对待查询数据进行纠错的提示信息;响应于输入操作,获取输入操作中的待查询数据以及纠错指示;发送待查询数据以及纠错指示至查询设备,以对待查询数据进行纠错以及根据纠错结果进行数据查询。
另外,本发明实施例提供了一种计算机存储介质,计算机程序被一个或多个处理器执行时,致使一个或多个处理器实现方法1100A实施例中信息的搜索纠错方法的步骤。
另外,在上述实施例及附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如201、202、203等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现,当然也可以通过硬件和软件结合的方式来实现。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程多媒体数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程多媒体数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程多媒体数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程多媒体数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (24)

1.一种信息的搜索纠错方法,其特征在于,包括:
获取历史查询数据中的多个单词数据;
根据所述单词数据的出现次数,从所述多个单词数据中提取目标单词数据;
对所述目标单词数据进行修改,修改后单词数据与对应所述目标单词数据具有第一预置相似度。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
将所述修改后单词数据与对应所述目标单词数据,作为第一集合;
根据所述第一集合,对待查询数据进行纠错。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
获取所述历史查询数据中的多个字数据;
根据所述字数据的出现次数,从所述多个字数据中提取目标字数据;
对所述目标字数据进行修改,修改后字数据与对应所述目标字数据具有所述第一预置相似度;
将所述修改后字数据与对应所述目标字数据,作为第二集合;
根据所述第二集合,对待查询数据进行纠错。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对多个待展示数据进行修改,修改后展示数据与对应所述待展示数据具有所述第一预置相似度;
将所述修改后展示数据作为所述修改后单词数据,将所述待展示数据作为所述目标单词数据,将所述修改后展示数据与对应所述待展示数据设置在所述第一集合中;
其中,所述待展示数据是通过所述待查询数据获取到的。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一集合,对待查询数据进行纠错,包括:
将所述待查询数据与纠错数据进行匹配,确定所述待查询数据中的至少一个待纠错数据;
对所述至少一个待纠错数据进行修改,修改后待纠错数据与对应所述待纠错数据具有第二预置相似度;
获取所述第一集合中与每个所述修改后待纠错数据匹配的所述修改后单词数据,从而确定匹配的所述目标单词数据;
根据预置模型,确定每个目标单词数据符合语言逻辑的第一概率以及所述待查询数据符合语言逻辑的第二概率;
若最高第一概率大于所述第二概率,且大于的部分高于概率阈值,根据最高第一概率的所述目标单词数据,查询待展示数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
否则,根据所述待查询数据,查询对应所述待展示数据。
7.根据权利要求1或5所述的方法,其特征在于,所述方法还包括:
对所述历史查询数据进行划分,生成多个划分数据;
根据所述划分数据中单字的出现次数,生成待处理纠错数据;
根据所述待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
8.根据权利要求7所述的方法,其特征在于,所述生成待处理纠错数据,包括:
若所述单字的出现次数大于次数阈值,将所述单字作为正确数据;
若所述单字的出现次数小于等于次数阈值,将所述单字作为隐藏数据;
根据所述正确数据和所述隐藏数据,生成所述待处理纠错数据。
9.根据权利要求7所述的方法,其特征在于,所述确定所述待查询数据中的至少一个待纠错数据,包括:
当所述待查询数据中至少一个数据与至少一个所述纠错数据中的正确数据匹配后,确定匹配度最高的所述纠错数据;
获取匹配度最高的所述纠错数据中的所述隐藏数据;
根据所述隐藏数据,获取所述待查询数据中对应数据作为所述待纠错数据。
10.根据权利要求4所述的方法,其特征在于,所述根据所述第二集合,对待查询数据进行纠错,包括:
将所述待查询数据与纠错数据进行匹配,当不存在待纠错数据,对所述待查询数据中每个单字进行修改,修改后单字与对应所述单字具有第二预置相似度;
针对每个修改后单字,替换所述待查询数据中对应单字,生成该修改后单字对应的修改后待查询数据;
根据预置模型,确定每个修改后待查询数据符合语言逻辑的第三概率以及所述待查询数据符合语言逻辑的第四概率;
若最高第三概率大于所述第四概率,且大于的部分高于概率阈值,根据最高第三概率的所述修改后待查询数据,查询待展示数据。
11.根据权利要求10所述的方法,其特征在于,所述方法还包括:
否则,根据所述待查询数据,查询对应所述待展示数据。
12.根据权利要求1所述的方法,其特征在于,所述获取历史查询数据中的多个单词数据,包括:
对每个所述历史查询数据进行二元语法切分和三元语法切分,得到每个所述历史查询数据对应的多个单词数据。
13.根据权利要求1-12任一项所述的方法,其特征在于,所述方法还包括:
接收所述待查询数据以及对所述待查询数据进行纠错的指示,所述指示表示用户选择对所述待查询数据进行纠错;
根据所述指示,对所述待查询数据进行纠错。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
当未接收到所述指示,则直接根据所述待查询数据,查询对应所述待展示数据。
15.一种信息的搜索纠错方法,其特征在于,包括:
根据纠错数据,确定待查询数据中的至少一个待纠错数据;
对所述至少一个待纠错数据进行修改,修改后待纠错数据与对应所述待纠错数据具有第一预置相似度;
获取每个所述修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,所述第二数据根据待查询数据以及待展示数据获取到,所述第一数据与对应所述第二数据存在第二预置相似度;
根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及所述待查询数据符合语言逻辑的第二概率;
若最高第一概率大于所述第二概率,且大于的部分高于概率阈值,根据最高第一概率的所述第二数据,查询待展示数据。
16.根据权利要求15所述的方法,其特征在于,所述第一数据包括字数据和词数据;所述第二数据包括字数据和词数据。
17.一种信息的搜索纠错方法,其特征在于,包括:
对历史查询数据进行划分,生成多个划分数据;
根据划分数据中单字的出现次数,生成待处理纠错数据;
根据所述待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
18.一种信息的搜索纠错方法,其特征在于,包括:
提供搜索界面,所述界面中展示了待查询数据的输入区域以及对所述待查询数据进行纠错的提示信息;
响应于输入操作,获取所述输入操作中的所述待查询数据以及纠错指示;
发送所述待查询数据以及所述纠错指示至查询设备,以对所述待查询数据进行纠错以及根据纠错结果进行数据查询。
19.一种信息的搜索纠错系统,其特征在于,包括:第一设备以及第二设备;
所述第一设备,响应于输入操作,获取待查询数据以及对所述待查询数据进行纠错的指示;
发送所述待查询数据以及所述指示至所述第二设备;
所述第二设备,根据所述指示,对所述待查询数据进行纠错以及根据纠错结果进行数据查询,并将查询结果返回至所述第一设备。
20.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
获取历史查询数据中的多个单词数据;
根据所述单词数据的出现次数,从所述多个单词数据中提取目标单词数据;
对所述目标单词数据进行修改,修改后单词数据与对应所述目标单词数据具有第一预置相似度。
21.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
根据纠错数据,确定待查询数据中的至少一个待纠错数据;
对所述至少一个待纠错数据进行修改,修改后待纠错数据与对应所述待纠错数据具有第一预置相似度;
获取每个所述修改后待纠错数据匹配的第一数据,从而确定匹配的第二数据,所述第二数据根据待查询数据以及待展示数据获取到,所述第一数据与对应所述第二数据存在第二预置相似度;
根据预置模型,确定每个第二数据符合语言逻辑的第一概率以及所述待查询数据符合语言逻辑的第二概率;
若最高第一概率大于所述第二概率,且大于的部分高于概率阈值,根据最高第一概率的所述第二数据,查询待展示数据。
22.一种计算设备,包括存储器以及处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
对历史查询数据进行划分,生成多个划分数据;
根据划分数据中单字的出现次数,生成待处理纠错数据;
根据所述待处理纠错数据的出现次数,提取目标纠错数据,作为纠错数据。
23.一种计算设备,包括存储器、处理器以及通信组件;
所述存储器,用于存储计算机程序;
所述处理器,用于执行所述计算机程序,以用于:
提供搜索界面,所述界面中展示了待查询数据的输入区域以及对所述待查询数据进行纠错的提示信息;
响应于输入操作,获取所述输入操作中的所述待查询数据以及纠错指示;
所述通信组件,用于发送所述待查询数据以及所述纠错指示至查询设备,以对所述待查询数据进行纠错以及根据纠错结果进行数据查询。
24.一种存储有计算机程序的计算机可读存储介质,其特征在于,计算机程序被一个或多个处理器执行时,致使所述一个或多个处理器实现权利要求1-18任一项所述方法中的步骤。
CN201910749084.1A 2019-08-14 2019-08-14 信息的搜索纠错方法、计算设备及存储介质 Active CN112445953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910749084.1A CN112445953B (zh) 2019-08-14 2019-08-14 信息的搜索纠错方法、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910749084.1A CN112445953B (zh) 2019-08-14 2019-08-14 信息的搜索纠错方法、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN112445953A true CN112445953A (zh) 2021-03-05
CN112445953B CN112445953B (zh) 2024-07-19

Family

ID=74741934

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910749084.1A Active CN112445953B (zh) 2019-08-14 2019-08-14 信息的搜索纠错方法、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN112445953B (zh)

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152204A1 (en) * 1998-07-15 2002-10-17 Ortega Ruben Ernesto System and methods for predicting correct spellings of terms in multiple-term search queries
CN1755671A (zh) * 2004-09-30 2006-04-05 北京大学 搜索引擎中的查询词自动纠错方法
CN101002198A (zh) * 2004-06-23 2007-07-18 Google公司 用于非罗马字符和字的拼写校正系统和方法
CN101133411A (zh) * 2004-08-25 2008-02-27 Google公司 非罗马字符的容错罗马化输入方法
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN107066533A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 搜索查询纠错系统及方法

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020152204A1 (en) * 1998-07-15 2002-10-17 Ortega Ruben Ernesto System and methods for predicting correct spellings of terms in multiple-term search queries
CN101002198A (zh) * 2004-06-23 2007-07-18 Google公司 用于非罗马字符和字的拼写校正系统和方法
CN101133411A (zh) * 2004-08-25 2008-02-27 Google公司 非罗马字符的容错罗马化输入方法
CN1755671A (zh) * 2004-09-30 2006-04-05 北京大学 搜索引擎中的查询词自动纠错方法
CN101241514A (zh) * 2008-03-21 2008-08-13 北京搜狗科技发展有限公司 一种生成纠错数据库的方法、自动纠错的方法和系统
CN102156551A (zh) * 2011-03-30 2011-08-17 北京搜狗科技发展有限公司 一种字词输入的纠错方法及系统
CN104298672A (zh) * 2013-07-16 2015-01-21 北京搜狗科技发展有限公司 一种输入的纠错方法和装置
CN105550171A (zh) * 2015-12-31 2016-05-04 北京奇艺世纪科技有限公司 一种垂直搜索引擎的查询信息纠错方法和系统
CN106959977A (zh) * 2016-01-12 2017-07-18 广州市动景计算机科技有限公司 文字输入中的候选集合计算方法及装置、文字纠错方法及装置
CN105975625A (zh) * 2016-05-26 2016-09-28 同方知网数字出版技术股份有限公司 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN106095778A (zh) * 2016-05-26 2016-11-09 达而观信息科技(上海)有限公司 搜索引擎的中文搜索词自动纠错方法
CN106528845A (zh) * 2016-11-22 2017-03-22 北京百度网讯科技有限公司 基于人工智能的检索纠错方法及装置
CN107066533A (zh) * 2017-03-01 2017-08-18 北京奇艺世纪科技有限公司 搜索查询纠错系统及方法

Also Published As

Publication number Publication date
CN112445953B (zh) 2024-07-19

Similar Documents

Publication Publication Date Title
CN108287858B (zh) 自然语言的语义提取方法及装置
CN108959257B (zh) 一种自然语言解析方法、装置、服务器及存储介质
US11907659B2 (en) Item recall method and system, electronic device and readable storage medium
CN111428494A (zh) 专有名词的智能纠错方法、装置、设备及存储介质
US20130339369A1 (en) Search Method and Apparatus
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
JP7254925B2 (ja) 改良されたデータマッチングのためのデータレコードの字訳
US11468346B2 (en) Identifying sequence headings in a document
CN114402384A (zh) 数据处理方法、装置、服务器和存储介质
CN113591476A (zh) 一种基于机器学习的数据标签推荐方法
CN111949838A (zh) 一种数据的传播路径生成方法、装置、设备及存储介质
CN112445953B (zh) 信息的搜索纠错方法、计算设备及存储介质
JP5379813B2 (ja) データ抽出装置、データ抽出方法、及びプログラム
JP6787755B2 (ja) 文書検索装置
CN111310442B (zh) 形近字纠错语料挖掘方法、纠错方法、设备及存储介质
CN114625889A (zh) 一种语义消歧方法、装置、电子设备及存储介质
CN114970531A (zh) 基于即时通信消息的意图识别与命名实体提取方法及装置
CN113672700A (zh) 内容项的搜索方法、装置、电子设备以及存储介质
CN113919352A (zh) 数据库敏感数据识别方法及装置
CN112395408A (zh) 停用词表生成方法、装置、电子设备及存储介质
CN113010573A (zh) 一种关联关系提取方法、装置及电子设备
CN111597368A (zh) 一种数据处理方法及装置
CN116306616B (zh) 用于确定文本的关键词的方法和装置
CN111400577A (zh) 一种搜索召回方法及装置
CN118780261A (zh) 日志模板的确定方法、装置、计算机设备、介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant