CN115878924B - 一种基于双字典树数据处理方法、装置、介质及电子设备 - Google Patents
一种基于双字典树数据处理方法、装置、介质及电子设备 Download PDFInfo
- Publication number
- CN115878924B CN115878924B CN202111136399.2A CN202111136399A CN115878924B CN 115878924 B CN115878924 B CN 115878924B CN 202111136399 A CN202111136399 A CN 202111136399A CN 115878924 B CN115878924 B CN 115878924B
- Authority
- CN
- China
- Prior art keywords
- dictionary tree
- processed
- target
- website field
- website
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 14
- 230000009977 dual effect Effects 0.000 claims description 16
- 230000006399 behavior Effects 0.000 claims description 12
- 239000002243 precursor Substances 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 7
- 239000002609 medium Substances 0.000 description 13
- 238000010586 diagram Methods 0.000 description 4
- 230000007704 transition Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 239000012120 mounting media Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本申请实施例公开了一种基于双字典树数据处理方法、装置、介质及电子设备。该方法包括:获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。本技术方案,能够降低数据处理的时间和资源,从而达到提高效率的目的。
Description
技术领域
本申请实施例涉及字段匹配技术领域,尤其涉及一种基于双字典树数据处理方法、装置、介质及电子设备。
背景技术
随着移动互联网的崛起,多元化的数据使得我们对各类数据的分析挖掘需求更为迫切。用户上网日志数据中包含了用户的上网行为,通过对上网日志数据进行分析挖掘,能够更好的筛出目标用户,以便于业务需求。
目前,解析用户上网日志数据,通常采用传统线性字符串匹配的方法对大量上网日志数据进行匹配。
采用传统线性字符串匹配,会消耗大量时间和资源,在资源有限的情况下,挖掘用户上网日志数据加工变得十分艰难,大大降低了处理的效率。
发明内容
本申请实施例提供一种基于双字典树数据处理方法、装置、介质及电子设备,能够降低数据处理的时间和资源,从而达到提高效率的目的。
第一方面,本申请实施例提供了一种基于双字典树数据处理方法,该方法包括:
获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
第二方面,本申请实施例提供了一种基于双字典树数据处理装置,该装置包括:
网址字段获取模块,用于获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
待处理字典树生成模块,用于将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
标签确定模块,用于根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
第三方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请实施例所述的基于双字典树数据处理方法。
第四方面,本申请实施例提供了一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本申请实施例所述的基于双字典树数据处理方法。
本申请实施例所提供的技术方案,获取用户浏览的网址字段;将网址字段,按照预设处理规则生成待处理字典树;其中,待处理字典树包括父节点和子节点;父节点用于存储字符串首字母;子节点用于存储字符串其余字母;根据预先确定的目标字典树的标签,确定与网址字段相对应的标签,以根据标签对网址字段进行处理。本技术方案,能够降低数据处理的时间和资源,从而达到提高效率的目的。
附图说明
图1是本申请实施例一提供的基于双字典树数据处理方法的流程图;
图2是本申请实施例二提供的基于双字典树数据处理装置的结构示意图;
图3是本申请实施例四提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本申请,而非对本申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本申请相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本申请实施例一提供的基于双字典树数据处理方法的流程图,本实施例可适用于对用户浏览的网址字段进行处理的情况,该方法可以由本申请实施例所提供的基于双字典树数据处理装置执行,该装置可以由软件和/或硬件的方式来实现,并可集成于用于网址字段处理的智能终端等设备中。
如图1所示,所述基于双字典树数据处理方法包括:
S110、获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
在本方案中,网址字段可以是指用户访问的网址url。可以从数据库获取用户浏览的网址字段,也可以从上网日志中获取用户浏览的网址字段。
其中,网址字段由至少一个字符串构成,各字符串由多个字母组成。
在本技术方案中,可选的,获取用户浏览的网址字段,包括:
通过扫描预先获取的上网日志表,得到用户浏览的网址字段。
其中,上网日志表可以从后台数据库中进行获取,通过hive sql扫描上网日志表获取用户浏览网址字段。其中,上网日志表中包含全联通用户每条上网全量日志。
通过对网址字段进行获取,能够基于双字典树高效地筛出目标用户并打上对应标签,不同标签用户再进行组合等逻辑,形成业务所需规则数据,从而实现数据变现,保证了业务所需的准确性和时效性。
在本技术方案中,可选的,在获取用户浏览的网址字段之前,所述方法还包括:
获取用户上网行为,并基于所述上网行为生成目标字典树;其中,所述目标字典树各节点用于存储字母和标签。
在本实施例中,字典树是一种高效的索引方法,它实际上是一种确定有限自动机(DFA),在树的结构中,每一个结点对应一个DFA状态,每一个从父结点指向子结点(有向)标记的边对应一个DFA转换。字典树核心思想是空间换取时间,利用字符串的公共前缀来节省查询时间,常用于统计与排序大量字符串。
其中,用户上网行为可以是指用户浏览网址的各种行为。例如,浏览各个网址,对网址内容进行查看等。
在本实施例中,根据实际业务需求,形成用户上网行为自有检索字典库,并处理生成目标字典树。
基于目标字典树的标签,能够确定与网址字段相对应的标签,提高了数据的处理效率,减少了数据处理时间和资源。
S120、将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
在本实施例中,获取网址字段后,将网址字段按照字符串进行分割,将每个字符串中的字母按照先后顺序生成字典树。
在本技术方案中,可选的,将所述网址字段,按照预设处理规则生成待处理字典树,包括:
依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树。
在本实施例中,获取网址字段后,将网址字段按照字符串进行分割,按照每个字符串中字母的先后顺序创建待处理字典树。例如,网址字段中包含b,abc,abd,bcd,abcd,efg,hii这6个字符串,按照字母顺序生成待处理字典树可以是a-b-c-d,a-b-d,b-c-d,e-f-g,h-i-i。其中,a-b-c-d和a-b-d父节点相同。
通过采用字典树算法解析分析上网日志字符串,大大提高了解析效率,提升了数据读取的速度,同时释放了现有资源,解决了有限资源下难以进行海量数据处理的问题。
在本技术方案中,可选的,在依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树之后,所述方法还包括:
根据所述待处理字典树确定待处理基值数组和待处理校验值数组,并将所述待处理基值数组和待处理校验值数组生成待处理文件;其中,所述待处理基值数组用于存储所述待处理字典树各节点的当前状态;所述待处理校验值数据用于存储所述待处理字典树各节点的前驱状态。
在本方案中,基值数组的每个元素表示一个字典树节点,即一个状态(分为空闲状态和占用状态),校验值数组的每个元素表示某个状态的前驱状态。双数组结合了array查询效率高、list节省空间的优点,具体是通过两个数组base、check来实现:base数组中的s代表当前状态的下标,t代表转移状态的下标,c代表输入字符的数值,则base[s]+c=t表示一次状态转移;由于转移后状态下标为t,且父子关系是唯一的,所以可通过检验当前元素的前驱状态确定转移是否成功,check[t]=s检验状态转移是否成功。只需要一个加法一次比较即可完成一次状态转移,只花费了常数时间。
将网址字段生成双数组字典树,保证了数据处理效率的同时减少了存储空间的使用,解决了有限资源下难以进行海量数据处理的问题。
S130、根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
其中,标签可以用字母、数字或者字符串等形式进行表示。同一类型网址字段对应的标签相同。
在本实施例中,目标字典树的各个节点中包含字母,以及字母与标签的对应关系,可以将待处理字典树与目标字典树进行匹配,确定与网址字段相对应的标签。不同标签用户再进行组合等逻辑,形成业务所需规则数据,从而实现数据变现,保证了业务所需的准确性和时效性。
在本技术方案中,可选的,根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,包括:
将所述待处理字典树的父节点与目标字典树的父节点进行匹配;
若匹配成功,则将所述待处理字典树的子节点与目标字典树的子节点进行匹配,确定与所述网址字段相对应的标签。
在本实施例中,首先将待处理字典树的父节点与目标字典树的父节点进行匹配,若匹配不成功,则说明该目标字典树中不包含该网址字段,则可以按照标签打标规则重新给该网址字段进行打标,并将该网址字段信息更新至目标字典树。若匹配成功,则将待处理字典树的子节点与目标字典树的子节点进行匹配,直至匹配成功,确定与网址字段相对应的标签。
基于双字典树匹配方法,较高效地筛出目标用户并打上对应标签,不同标签用户再进行组合等逻辑,形成业务所需规则数据,从而实现数据变现,保证了业务所需的准确性和时效性。
在本技术方案中,可选的,基于所述上网行为生成目标字典树之后,所述方法还包括:
根据所述目标字典树确定目标基值数组和目标校验值数组,并将所述目标基值数组和目标校验值数组生成目标文件;其中,所述目标基值数组用于存储所述目标字典树各节点的当前状态和标签;所述目标校验值数据用于存储所述目标字典树各节点的前驱状态;
相应的,根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,包括:
将所述目标文件中的数组和待处理文件中的数组进行匹配,若匹配成功,则确定与所述网址字段相对应的标签。
在本方案中,字典树能够利用词的共同前缀达到节省空间的目的,将目标文件中的数组和待处理文件中的数组进行匹配,能够较高效地筛出目标用户并打上对应标签。不同标签用户再进行组合等逻辑,形成业务所需规则数据,从而实现数据变现,保证了业务所需的准确性和时效性。
基于双数组字典树对网址字段进行处理,能够降低数据处理的时间和资源,从而达到提高效率的目的。
本申请实施例所提供的技术方案,获取用户浏览的网址字段;将网址字段,按照预设处理规则生成待处理字典树;其中,待处理字典树包括父节点和子节点;父节点用于存储字符串首字母;子节点用于存储字符串其余字母;根据预先确定的目标字典树的标签,确定与网址字段相对应的标签,以根据标签对网址字段进行处理。通过执行本技术方案,可以能够降低数据处理的时间和资源,从而达到提高效率的目的,能够有效解决数据处理时间长的难点,从而能够给后续找到目标用户提供了有力解决方案,促进工作的开展。
实施例二
图2是本申请实施例二提供的基于双字典树数据处理装置的结构示意图,如图2所示,基于双字典树数据处理装置包括:
网址字段获取模块210,用于获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
待处理字典树生成模块220,用于将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
标签确定模块230,用于根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
在本技术方案中,可选的,待处理字典树生成模块220,包括:
待处理字典树创建单元,用于依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树。
在本技术方案中,可选的,待处理字典树生成模块220,还包括:
待处理文件生成单元,用于根据所述待处理字典树确定待处理基值数组和待处理校验值数组,并将所述待处理基值数组和待处理校验值数组生成待处理文件;其中,所述待处理基值数组用于存储所述待处理字典树各节点的当前状态;所述待处理校验值数据用于存储所述待处理字典树各节点的前驱状态。
在本技术方案中,可选的,标签确定模块230,具体用于:
将所述待处理字典树的父节点与目标字典树的父节点进行匹配;
若匹配成功,则将所述待处理字典树的子节点与目标字典树的子节点进行匹配,确定与所述网址字段相对应的标签。
在本技术方案中,可选的,网址字段获取模块210,具体用于:
通过扫描预先获取的上网日志表,得到用户浏览的网址字段。
在本技术方案中,可选的,所述装置还包括:
目标字典树生成模块,用于获取用户上网行为,并基于所述上网行为生成目标字典树;其中,所述目标字典树各节点用于存储字母和标签。
在本技术方案中,可选的,所述装置还包括:
目标文件生成模块,用于根据所述目标字典树确定目标基值数组和目标校验值数组,并将所述目标基值数组和目标校验值数组生成目标文件;其中,所述目标基值数组用于存储所述目标字典树各节点的当前状态和标签;所述目标校验值数据用于存储所述目标字典树各节点的前驱状态;
相应的,标签确定模块230,还用于:
将所述目标文件中的数组和待处理文件中的数组进行匹配,若匹配成功,则确定与所述网址字段相对应的标签。
上述产品可执行本申请实施例所提供的方法,具备执行方法相应的功能模块和有益效果。
实施例三
本申请实施例还提供一种包含计算机可执行指令的介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于双字典树数据处理方法,该方法包括:
获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
介质——任何的各种类型的存储器设备或存储设备。术语“介质”旨在包括:安装介质,例如CD-ROM、软盘或磁带装置;计算机系统存储器或随机存取存储器,诸如DRAM、DDRRAM、SRAM、EDO RAM,兰巴斯(Rambus)RAM等;非易失性存储器,诸如闪存、磁介质(例如硬盘或光存储);寄存器或其它相似类型的存储器元件等。介质可以还包括其它类型的存储器或其组合。另外,介质可以位于程序在其中被执行的计算机系统中,或者可以位于不同的第二计算机系统中,第二计算机系统通过网络(诸如因特网)连接到计算机系统。第二计算机系统可以提供程序指令给计算机用于执行。术语“介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多介质。介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。
当然,本申请实施例所提供的一种包含计算机可执行指令的介质,其计算机可执行指令不限于如上所述的基于双字典树数据处理操作,还可以执行本申请任意实施例所提供的基于双字典树数据处理方法中的相关操作。
实施例四
本申请实施例提供了一种电子设备,该电子设备中可集成本申请实施例提供的基于双字典树数据处理装置。图3是本申请实施例四提供的一种电子设备的结构示意图。如图3所示,本实施例提供了一种电子设备300,其包括:一个或多个处理器320;存储装置310,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器320执行,使得所述一个或多个处理器320实现本申请实施例所提供的基于双字典树数据处理方法,该方法包括:
获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理。
当然,本领域技术人员可以理解,处理器320还实现本申请任意实施例所提供的基于双字典树数据处理方法的技术方案。
图3显示的电子设备300仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图3所示,该电子设备300包括处理器320、存储装置310、输入装置330和输出装置340;电子设备中处理器320的数量可以是一个或多个,图3中以一个处理器320为例;电子设备中的处理器320、存储装置310、输入装置330和输出装置340可以通过总线或其他方式连接,图3中以通过总线350连接为例。
存储装置310作为一种计算机可读介质,可用于存储软件程序、计算机可执行程序以及模块单元,如本申请实施例中的基于双字典树数据处理方法对应的程序指令。
存储装置310可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储装置310可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储装置310可进一步包括相对于处理器320远程设置的存储器,这些远程存储器可以通过网络连接。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置330可用于接收输入的数字、字符信息或语音信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入。输出装置340可包括显示屏、扬声器等电子设备。
本申请实施例提供的电子设备,可以降低数据处理的时间和资源,从而达到提高效率的目的。
上述实施例中提供的基于双字典树数据处理装置、介质及电子设备可执行本申请任意实施例所提供的基于双字典树数据处理方法,具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本申请任意实施例所提供的基于双字典树数据处理方法。
注意,上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解,本申请不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此,虽然通过以上实施例对本申请进行了较为详细的说明,但是本申请不仅仅限于以上实施例,在不脱离本申请构思的情况下,还可以包括更多其他等效实施例,而本申请的范围由所附的权利要求范围决定。
Claims (8)
1.一种基于双字典树数据处理方法,其特征在于,包括:
获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理;
将所述网址字段,按照预设处理规则生成待处理字典树,包括:
依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树;
根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,包括:
将所述待处理字典树的父节点与目标字典树的父节点进行匹配;
若匹配成功,则将所述待处理字典树的子节点与目标字典树的子节点进行匹配,确定与所述网址字段相对应的标签。
2.根据权利要求1所述的方法,其特征在于,在依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树之后,所述方法还包括:
根据所述待处理字典树确定待处理基值数组和待处理校验值数组,并将所述待处理基值数组和待处理校验值数组生成待处理文件;其中,所述待处理基值数组用于存储所述待处理字典树各节点的当前状态;所述待处理校验值数组用于存储所述待处理字典树各节点的前驱状态。
3.根据权利要求1所述的方法,其特征在于,获取用户浏览的网址字段,包括:
通过扫描预先获取的上网日志表,得到用户浏览的网址字段。
4.根据权利要求1所述的方法,其特征在于,在获取用户浏览的网址字段之前,所述方法还包括:
获取用户上网行为,并基于所述上网行为生成目标字典树;其中,所述目标字典树各节点用于存储字母和标签。
5.根据权利要求4所述的方法,其特征在于,基于所述上网行为生成目标字典树之后,所述方法还包括:
根据所述目标字典树确定目标基值数组和目标校验值数组,并将所述目标基值数组和目标校验值数组生成目标文件;其中,所述目标基值数组用于存储所述目标字典树各节点的当前状态和标签;所述目标校验值数组用于存储所述目标字典树各节点的前驱状态;
相应的,根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,包括:
将所述目标文件中的数组和待处理文件中的数组进行匹配,若匹配成功,则确定与所述网址字段相对应的标签。
6.一种基于双字典树数据处理装置,其特征在于,包括:
网址字段获取模块,用于获取用户浏览的网址字段;其中,所述网址字段包括至少一个字符串;
待处理字典树生成模块,用于将所述网址字段,按照预设处理规则生成待处理字典树;其中,所述待处理字典树包括父节点和子节点;所述父节点用于存储字符串首字母;所述子节点用于存储字符串其余字母;
标签确定模块,用于根据预先确定的目标字典树的标签,确定与所述网址字段相对应的标签,以根据所述标签对所述网址字段进行处理;
待处理字典树创建单元,用于依次获取所述网址字段中字符串,按照所述字符串中字母的先后顺序创建待处理字典树;
标签确定模块,具体用于:
将所述待处理字典树的父节点与目标字典树的父节点进行匹配;
若匹配成功,则将所述待处理字典树的子节点与目标字典树的子节点进行匹配,确定与所述网址字段相对应的标签。
7.一种计算机可读介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-5中任一项所述的基于双字典树数据处理方法。
8.一种电子设备,包括存储器,处理器及存储在存储器上并可在处理器运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-5中任一项所述的基于双字典树数据处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136399.2A CN115878924B (zh) | 2021-09-27 | 2021-09-27 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136399.2A CN115878924B (zh) | 2021-09-27 | 2021-09-27 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115878924A CN115878924A (zh) | 2023-03-31 |
CN115878924B true CN115878924B (zh) | 2024-03-12 |
Family
ID=85762983
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111136399.2A Active CN115878924B (zh) | 2021-09-27 | 2021-09-27 | 一种基于双字典树数据处理方法、装置、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115878924B (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN105095369A (zh) * | 2015-06-29 | 2015-11-25 | 北京金山安全软件有限公司 | 网址匹配方法及装置 |
CN105373601A (zh) * | 2015-11-09 | 2016-03-02 | 国家计算机网络与信息安全管理中心 | 一种基于关键字词频特征的多模式匹配方法 |
CN110929107A (zh) * | 2019-10-23 | 2020-03-27 | 广州艾媒数聚信息咨询股份有限公司 | 一种分析网络访问日志的方法、系统、装置和存储介质 |
CN111460311A (zh) * | 2019-11-12 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 基于字典树的搜索处理方法、装置、设备和存储介质 |
CN111541615A (zh) * | 2020-04-24 | 2020-08-14 | 北京邮电大学 | 基于VxWorks操作系统的双协议栈系统 |
EP3702937A1 (en) * | 2019-03-01 | 2020-09-02 | Palantir Technologies Inc. | Fuzzy searching and applications therefor |
WO2021077585A1 (zh) * | 2019-10-23 | 2021-04-29 | 深圳计算科学研究院 | 一种查询自动补全的方法和装置 |
CN112800170A (zh) * | 2019-11-14 | 2021-05-14 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7523171B2 (en) * | 2003-09-09 | 2009-04-21 | International Business Machines Corporation | Multidimensional hashed tree based URL matching engine using progressive hashing |
-
2021
- 2021-09-27 CN CN202111136399.2A patent/CN115878924B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104537107A (zh) * | 2015-01-15 | 2015-04-22 | 中国联合网络通信集团有限公司 | 一种网址存储匹配方法及装置 |
CN104951508A (zh) * | 2015-05-21 | 2015-09-30 | 腾讯科技(深圳)有限公司 | 时间信息识别方法和装置 |
CN105095369A (zh) * | 2015-06-29 | 2015-11-25 | 北京金山安全软件有限公司 | 网址匹配方法及装置 |
CN105373601A (zh) * | 2015-11-09 | 2016-03-02 | 国家计算机网络与信息安全管理中心 | 一种基于关键字词频特征的多模式匹配方法 |
EP3702937A1 (en) * | 2019-03-01 | 2020-09-02 | Palantir Technologies Inc. | Fuzzy searching and applications therefor |
CN110929107A (zh) * | 2019-10-23 | 2020-03-27 | 广州艾媒数聚信息咨询股份有限公司 | 一种分析网络访问日志的方法、系统、装置和存储介质 |
WO2021077585A1 (zh) * | 2019-10-23 | 2021-04-29 | 深圳计算科学研究院 | 一种查询自动补全的方法和装置 |
CN111460311A (zh) * | 2019-11-12 | 2020-07-28 | 腾讯云计算(北京)有限责任公司 | 基于字典树的搜索处理方法、装置、设备和存储介质 |
CN112800170A (zh) * | 2019-11-14 | 2021-05-14 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
WO2021093755A1 (zh) * | 2019-11-14 | 2021-05-20 | 华为技术有限公司 | 问题的匹配方法及装置、问题的回复方法及装置 |
CN111541615A (zh) * | 2020-04-24 | 2020-08-14 | 北京邮电大学 | 基于VxWorks操作系统的双协议栈系统 |
Non-Patent Citations (1)
Title |
---|
"基于大规模URL模式串匹配方法的网络过滤算法";齐国顺等;《黑龙江电力》;367-372 * |
Also Published As
Publication number | Publication date |
---|---|
CN115878924A (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10394946B2 (en) | Refining extraction rules based on selected text within events | |
US9594814B2 (en) | Advanced field extractor with modification of an extracted field | |
US6304872B1 (en) | Search system for providing fulltext search over web pages of world wide web servers | |
CN102591969A (zh) | 基于用户历史行为提供搜索结果的方法及服务器 | |
CN106294695A (zh) | 一种面向实时大数据搜索引擎的实现方法 | |
CN107145538B (zh) | 表格数据查询方法、装置与系统 | |
CN110941779A (zh) | 加载页面的方法、装置、存储介质及电子设备 | |
CN110738049A (zh) | 相似文本的处理方法、装置及计算机可读存储介质 | |
CN114820080A (zh) | 基于人群流转的用户分群方法、系统、装置及介质 | |
CN103744883A (zh) | 一种快速选取信息碎片的方法及系统 | |
CN115878924B (zh) | 一种基于双字典树数据处理方法、装置、介质及电子设备 | |
US8589426B1 (en) | Simultaneous file editor | |
CN109697234B (zh) | 实体的多属性信息查询方法、装置、服务器和介质 | |
CN115687560B (zh) | 一种基于有限确定自动机的海量关键词查找方法 | |
CN113779117A (zh) | 一种数据监控方法、装置、存储介质和电子设备 | |
CN116594628A (zh) | 数据溯源方法、装置和计算机设备 | |
CN114611039B (zh) | 异步加载规则的解析方法、装置、存储介质和电子设备 | |
CN104866545A (zh) | 在信息展示页面上检索关键字的方法 | |
CN104424223A (zh) | 一种基于输入法的app搜索与快捷启动方法及相关输入法系统 | |
CN104239452A (zh) | 资源获取方法及装置 | |
CN113407803A (zh) | 一种一步式采集互联网数据的方法 | |
CN111475997A (zh) | 一种印刷电路板图的位号编排方法、系统、设备和介质 | |
CN114547206A (zh) | 一种数据同步方法和数据同步系统 | |
CN112181391A (zh) | 一种可动态扩展数据的方法及系统 | |
CN116700725B (zh) | 页面生成方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |