Nothing Special   »   [go: up one dir, main page]

CN114911917B - 资产元信息搜索方法、装置、计算机设备及可读存储介质 - Google Patents

资产元信息搜索方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN114911917B
CN114911917B CN202210818195.5A CN202210818195A CN114911917B CN 114911917 B CN114911917 B CN 114911917B CN 202210818195 A CN202210818195 A CN 202210818195A CN 114911917 B CN114911917 B CN 114911917B
Authority
CN
China
Prior art keywords
preset
information
sample
asset
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210818195.5A
Other languages
English (en)
Other versions
CN114911917A (zh
Inventor
李开金
谭振海
刘伏桃
李建民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rootcloud Technology Co Ltd
Original Assignee
Rootcloud Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rootcloud Technology Co Ltd filed Critical Rootcloud Technology Co Ltd
Priority to CN202210818195.5A priority Critical patent/CN114911917B/zh
Publication of CN114911917A publication Critical patent/CN114911917A/zh
Application granted granted Critical
Publication of CN114911917B publication Critical patent/CN114911917B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种资产元信息搜索方法、装置、计算机设备及可读存储介质,所述搜索方法包括:获取搜索语料数据;根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本;基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有目标标签的关键词;根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引;根据所述目标资产元信息索引在预设的资产数据库中导出目标资产元信息。基于专业术语数据库和标签数据库的构建,能够有效缩小进行资产搜索时的搜索范围,从而能够在复杂的检索环境中精确搜索到目标资产元信息。

Description

资产元信息搜索方法、装置、计算机设备及可读存储介质
技术领域
本发明涉及数据搜索领域,尤其涉及一种资产元信息搜索方法、装置、计算机设备及可读存储介质。
背景技术
现有的对数据资产元信息(数据表、报表、API、数据产品和指标)的搜索方案中,存在以下几个问题:
1.与普通文本相比,表具有从表到列、再由列到数据的层次结构,难以用统一的schema进行描述,数据复杂多样。搜索时需要区分各个字段的重要性程度,并挖掘数据之间的潜在关系,如数据表之间是否存在业务关联等。
2.专业术语多:大量表中数据以code(码表)方式存在于表中,需要转译为业务语言形式,才能被检索到。数据对应的业务语言表述多,需要将全简称、别名、术语名词解释等对应到标准名称上。
综上,现有的针对数据资产元信息的搜索方案在数据结构复杂、专业术语较多等复杂场景下,无法满足高精度搜索的要求。
发明内容
为了解决上述技术问题,本申请实施例提供了一种资产元信息搜索方法、装置、计算机设备及可读存储介质,具体方案如下:
第一方面,本申请实施例提供了一种资产元信息搜索方法,所述资产元信息搜索方法包括:
获取搜索语料数据;
根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有目标标签的关键词;
根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引;
根据所述目标资产元信息索引在预设的资产数据库中导出目标资产元信息。
根据本申请实施例的一种具体实施方式,所述预设的专业术语数据库的构建步骤,包括:
初始化专业术语数据库和资产数据库,以得到初始专业术语数据库和预设的资产数据库;
对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本;
基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本;
根据所述初始专业术语数据库、所述第一关键词样本和所述第二关键词样本,构建所述预设的专业术语数据库。
根据本申请实施例的一种具体实施方式,对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本的步骤,包括:
对于预设网络文本数据进行预处理,以得到预设数量的词语样本,所述预处理包括分词、词性标注和去除停用词;
计算各词语样本在所述网络文本数据中的词频和逆文本频率;
根据各词语样本的词频和逆文本频率计算各词语样本的第一权值分数;
确定所述第一权值分数大于第一预设分数阈值的词语样本作为所述第一关键词样本。
根据本申请实施例的一种具体实施方式,基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本的步骤,包括:
获取所述预设的资产数据库中的各资产元信息的待选关键词样本;
计算各所述待选关键词样本的目标特征的特征分数,其中,所述目标特征包括词频-逆文本频率特征、长度特征、首位置特征、词跨度特征和主题特征;
基于各所述待选关键词样本的目标特征的特征分数计算对应各所述待选关键词样本的第二权值分数;
选择所述第二权值分数大于第二预设分数阈值的待选关键词样本作为所述第二关键词样本。
根据本申请实施例的一种具体实施方式,基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本的步骤,包括:
根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签;
确定与所述关键词关联的唯一标签数据,以得到所述目标分词样本。
根据本申请实施例的一种具体实施方式,根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签的步骤,包括:
在预设的标签数据库中匹配与所述初始分词样本中各关键词对应的多个待选标签,所述待选标签为被使用次数超过预设次数阈值的标签数据;
根据所述初始分词样本中的各关键词以及匹配到的多个所述待选标签,构建数据-标签矩阵;
根据各关键词的待选标签之间的相似度构建数据相似度矩阵;
基于预设算法处理所述数据相似度矩阵,以得到对应一个关键词的各待选标签评分;
选择评分超过预设阈值的待选标签作为所述关键词的目标标签。
根据本申请实施例的一种具体实施方式,根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引的步骤,包括:
根据预设的标签数据查找对应的候选表数据,其中,所述候选表数据包括表名/表别名和表格中的码表数据;
根据预设的语义权重处理所述候选表数据以得到预设数量的第一语义向量;
根据所述目标分词样本中的关键词得到第二语义向量;
综合所述第一语义向量和所述第二语义向量计算所述资产元信息索引数据库中每一资产元信息索引的匹配得分,将所述匹配得分最高的资产元信息索引作为所述目标资产元信息索引。
第二方面,本申请实施例提供了一种资产元信息搜索装置,所述资产元信息搜索装置包括:
获取模块,用于获取搜索语料数据;
分词模块,用于根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
标签化模块,用于基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有对应标签的关键词;
匹配模块,用于根据所述目标分词样本在预设的资产元信息索引数据库中匹配对应的资产元信息索引;
索引模块,用于根据所述资产元信息索引在预设的资产数据库中导出对应的目标资产元信息。
第三方面,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行前述第一方面及第一方面任一实施方式所述的资产元信息搜索方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行前述第一方面及第一方面任一实施方式所述的资产元信息搜索方法。
本申请实施例提供了一种资产元信息搜索方法、装置、计算机设备及可读存储介质,所述资产元信息搜索方法包括:获取搜索语料数据;根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有目标标签的关键词;根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引;根据所述目标资产元信息索引在预设的资产数据库中导出目标资产元信息。基于专业术语数据库和标签数据库的构建,能够有效缩小进行数据搜索时的搜索范围,从而能够在复杂的检索环境中精确搜索到目标数据。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本申请实施例提供的一种资产元信息搜索方法的方法流程示意图;
图2示出了本申请实施例提供的一种资产元信息搜索装置的装置模块示意图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
参考图1,为本申请实施例提供的一种资产元信息搜索方法的方法流程示意图,本申请实施例提供的资产元信息搜索方法,如图1所示,所述资产元信息搜索方法包括:
步骤S101,获取搜索语料数据;
在具体实施方式中,所述搜索语料数据为用户通过前端界面输入的文本数据。
在本实施例中,所述搜索语料数据为搜索预设的资产元信息的文本数据。
所述预设的资产元信息包括企业的数据表、报表、API、数据产品和指标等元信息数据。
步骤S102,根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
在具体实施方式中,在获取所述搜索语料数据后,即根据提前构建的专业术语数据库中的专业术语信息对所述搜索语料数据进行术语匹配。
如果匹配到所述专业术语数据库中的专业术语信息,则记录所述专业术语信息,在对所述搜索语料数据进行分词时,单独隔开作为所述初始分词样本中的关键词。
需知的,若未在专业术语数据库中匹配到相关的专业术语信息,则根据常规的分词方法对所述搜索语料数据进行分词处理,并记录对所述搜索语料数据的分词结果。当分词结果中的某一词汇记录数量超过预设数量时,将所述词汇添加至所述专业术语数据库中。
根据本申请实施例的一种具体实施方式,所述预设的专业术语数据库的构建步骤,包括:
初始化专业术语数据库和资产数据库,以得到初始专业术语数据库和预设的资产数据库;
对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本;
基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本;
根据所述初始专业术语数据库、所述第一关键词样本和所述第二关键词样本,构建所述预设的专业术语数据库。
在具体实施例中,基于数据搜索平台的术语库维护功能,通过人工对专业术语库进行初始化处理,即向专业术语数据库中导入与企业数据资产相关的常用术语以构建初始专业术语数据库。
同时,基于预设的TF-IDF(Term Frequency-inverse Document Frequency 词频-逆文件频率)关键词抽取算法对预设的网络文本数据进行筛选处理,可以得到用于构建预设的专业术语数据库的第一关键词样本。
其中,预设的网络文本数据可以为通过互联网获取的和企业生产内容相关的文本数据。
在进行数据库初始化步骤时,用户还可以通过导入企业资产元信息以构建预设的资产数据库,所述预设的资产数据库中存储企业的所有可供搜索的资产元信息。
基于关键词权重计算模型对所述资产数据库中的资产元信息数据进行权重计算,能够从所述资产数据库中提取出用于构建预设的专业术语数据库的所述第二关键词样本。
需知的,在获取所述第二关键词样本时,还可以通过所述关键词权重计算模型处理用户的历史搜索语料数据,以提取出用户历史搜索语料数据中的关键词样本。
通过上述初始专业术语库的构建步骤,第一关键词样本和第二关键词样本的获取步骤,能够极大程度的将搜索分词过程中需要识别的专业术语提前存储在数据库中,从而能够使数据资产搜索过程更加快速和精准。
根据本申请实施例的一种具体实施方式,对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本的步骤,包括:
对于预设网络文本数据进行预处理,以得到预设数量的词语样本,所述预处理包括分词、词性标注和去除停用词;
计算各词语样本在所述网络文本数据中的词频和逆文本频率;
根据各词语样本的词频和逆文本频率计算各词语样本的第一权值分数;
确定所述第一权值分数大于第一预设分数阈值的词语样本作为所述第一关键词样本。
在具体实施方式中,由于人工维护专业术语数据库的工作量极大,所以需要通过网络词汇抽取的方式进行术语抽取。本方案采用TF-IDF(Term Frequency-inverseDocument Frequency 词频-逆文件频率)关键词抽取算法对网络文本中的所有候选关键词进行加权处理,并根据权值对各候选关键词进行排序。
选取排序在前列的预设数量个候选关键词存储至所述初始专业术语数据库,以构建预设的专业术语数据库。
所述预设的专业术语数据库可以为MySQL数据库。
具体的,假设Dn为测试语料的大小,基于TF-IDF的关键词抽取算法的步骤如下所示:
步骤一,对于给定的文本D进行分词、词性标注和去除停用词等数据预处理操作,以得到n个候选关键词,即D=[t1,t2,…,tn] ;
步骤二,计算词语ti在文本D中的词频;
步骤三,计算词语ti在整个测试语料的逆文本频率IDF=log(
Figure M_220705141740431_431420001
),
Figure M_220705141740495_495859002
为测试语料库中词语ti出现的文档个数;
步骤四,计算得到词语ti的词频-逆文件频率TF-IDF=TF*IDF,并重复前述步骤以得到所有候选关键词的TF-IDF数值;
步骤五,基于所有候选关键词的TF-IDF数值对所有候选关键词进行倒序排列;
步骤六,将排序在前的预设数量个候选关键词存储在所述初始专业术语数据库中。
在具体实施例中,所述第一权值分数即词语的词频-逆文件频率TF-IDF=TF*IDF。
所述第一预设分数阈值可以根据实际应用场景进行自适应选择,以筛选出第一取值分数大于所述第一预设分数阈值的预设数量的候选关键词,作为第一关键词样本。
通过代码实现的具体的步骤包括:读取样本源文件F,F可以是不同文本格式;获取每行文本记录的标题和摘要字段,并拼接这两个字段;加载自定义停用词表stopWord.txt,并对拼接的文本进行数据预处理操作,包括分词、筛选出符合词性的词语、去停用词,用空格分隔拼接成初始文本记录;遍历所述初始文本记录,将目标文本放入文档集C中;使用CountVectorizer()函数得到词频矩阵,a[j][i]表示第j个词在第i篇文档中的词频;使用TfidfTransformer()函数计算每个词的TF-IDF权值;得到TF-IDF矩阵;遍历TF-IDF矩阵,得到每篇目标文档的词汇以及对应的权重;对每篇目标文档,按照词语权重值降序排列,选取排名前topN个词最为文本关键词,并写入数据框中;将所述数据框写入MySQL数据库中。
根据本申请实施例的一种具体实施方式,基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本的步骤,包括:
获取所述预设的资产数据库中的各资产元信息的待选关键词样本;
计算各所述待选关键词样本的目标特征的特征分数,其中,所述目标特征包括词频-逆文本频率特征、长度特征、首位置特征、词跨度特征和主题特征;
基于各所述待选关键词样本的目标特征的特征分数计算对应各所述待选关键词样本的第二权值分数;
选择所述第二权值分数大于第二预设分数阈值的待选关键词样本作为所述第二关键词样本。
在具体实施例中,五种资产的元信息数据和用户搜索语句是提取专业术语的重要来源,为了从元信息中抽取关键词作为专业术语录入所述专业术语数据库,本实施例从词频-逆文档频率、位置特征、词跨度特征、长度特征、主题特征等5部分目标特征考虑,构建数据关键词权重计算模型,以计算数据中各个词语的综合权值,从而选出合理的数据关键词。
具体的,所述第二权值分数W的计算方法如下所示:
W=Dtf-idf*LG(len)*(1+
Figure M_220705141740511_511951001
)*(1+
Figure M_220705141740558_558430002
)*Dt
其中:
Dtf-idf :词频-逆文档频率特征,如果Dtf-idf的值越大,说明当前词语对文本的重要性越高;如果Dtf-idf的值越小,说明当前词语对文本重要性越低。
LG(len) :长度特征,len指词长,关键词的长度为2~8个字节,采用以2为底的对数函数。
1+
Figure M_220705141740590_590080001
:首次出现的位置特征,di指词语在文本中首次出现的位置。
1+
Figure M_220705141740636_636966001
:词跨度特征,如果文本的开头位置和结尾位置都出现了同一个词,则该词有可能被重点强调,有可能是文本的关键词。公式中n代表该文本数据的词语总数,l a 指词语在文本结尾出现的位置。
Dt :主题特征,一般认为出现在主题中的词语更有可能成为关键词,Dt=1 时,即某词出现在标题中;Dt=1.5 时,即某词未出现在标题中。
需知的,上述各目标特征的数值选取范围可以根据实际应用场景进行自适应替换,此处不作唯一限定。
通过实践证明,本实施例的关键词权重计算模型,能够准确的将五种资产元信息中的关键词抽取出来,并录入所述初始专业术语数据库,为所述预设的专业术语数据库的构建提供了有效支持。
通过上述构建步骤,能够构建一个数据量非常完整的专业术语数据库,从而能够极大的提升对搜索预料数据进行分词时的分词精度。
步骤S103,基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有目标标签的关键词;
在具体实施方式中,在获取所述初始分词样本后,所述初始分词样本在分词过程中,会将用户输入的搜索语料数据中的数据实体识别出来,从而能够根据所述数据实体对目标数据资产索引进行匹配。
具体的,所述数据实体即分词过程中识别出的关键词部分。所述数据实体可以为待搜索资产元信息的产品名称、产品类型、产品地域等指向信息。
在获得所述数据实体后,会根据标签推荐算法在预设的标签数据库中提取出对应的多个待选标签,以对所述初始分词样本进行标签化处理。
具体的,所述标签可以为搜索时间、资产类型等信息。
根据本申请实施例的一种具体实施方式,基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本的步骤,包括:
根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签;
确定与所述关键词关联的唯一标签数据,以得到所述目标分词样本。
在具体实施例中,每一关键词具由唯一对应的标签数据,在获得所述初始分词样本后,会基于预设的标签推荐算法从预设的标签库中提取出相应的标签数据,以供对所述初始分词样本中的关键词进行标签化处理。
在对所述关键词进行标签化步骤后,能够得到每一关键词均具有标签数据的目标分词样本。
通过所述标签化处理的步骤,能够进一步缩小对于目标资产的元数据索引的匹配过程的待匹配数据范围,从而能够提升搜索数据资产的效率。
根据本申请实施例的一种具体实施方式,根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签的步骤,包括:
在预设的标签数据库中匹配与所述初始分词样本中各关键词对应的多个待选标签,所述待选标签为被使用次数超过预设次数阈值的标签数据;
根据所述初始分词样本中的各关键词以及匹配到的多个所述待选标签,构建数据-标签矩阵;
根据各关键词的待选标签之间的相似度构建数据相似度矩阵;
基于预设算法处理所述数据相似度矩阵,以得到对应一个关键词的各待选标签评分;
选择评分超过预设阈值的待选标签作为所述关键词的目标标签。
在具体实施例中,基于内容标签的推荐核心算法如下:
步骤一,基于用户标签记录构建数据-标签权重矩阵Tn×k(n行表示有n条数据,k列表示有k个频繁标签),频繁标签权重计算公式如下:
Figure M_220705141740655_655495001
其中,t(i,k)表示数据i的第k个标签的标记次数,K表示数据i的频繁标签集合。
步骤二,基于Tn×k构建数据相似度矩阵SDn×n,提取数据i和数据j的频繁标签构成坐标空间,然后根据不同数据的标签权值来构造数据的向量D(i)和D(j),基于标签权重的数据相似度计算如下:
Figure M_220705141740718_718492001
步骤三,基于SDn×n使用协同过滤方法构建所有数据的预测评分矩阵PRm×n,基于数据相似度的预测评分计算如下:
Figure M_220705141740765_765361001
其中
Figure M_220705141740827_827923001
表示用户u对数据i的预测评分,r(j)表示数据j的平均评分,otherdata表示其他数据的集合。
步骤四,基于用户数据评分记录和SDn×n使用内容推荐方法计算用户未评分数据的预测评分值 URm×n,基于用户评分记录的预测评分计算如下:
Figure M_220705141740860_860557001
其中,r(v)表示用户u对v的评分,userrated表示用户u已经评分过的数据集合。
步骤五,对PRm×n和URm×n进行归一化处理,得到最终的预测评分矩阵Rm×n
步骤六,将预测评分值最高的topN个标签数据推荐给用户。
在具体实施例中,在计算得到与所述初始分词样本中关键词对应的各标签的预测评分后,可以通过设置一个评分阈值的方式,将大于所述评分阈值的所有标签数据导出,并推荐给用户,以供用户选择最贴合用户搜索目标的标签数据。
具体的,也可以自动使用评分值最高的标签数据与所述关键词建立关联关系,根据实际应用场景进行自适应选择,此处不作限定。
步骤S104,根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引;
在具体实施方式中,分词后的数据实体,包括数据表的表名/表别名和列名/列别名等数据,而对数据实体关联的目标标签可以极大缩小表匹配模型进行匹配的范围。
例如,当目标标签为资产的类型,资产类型为数据表时,即只在预设的资产元信息索引数据库中存储的数据表之间进行搜索,以匹配对应的目标资产元信息索引。
根据本申请实施例的一种具体实施方式,根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引的步骤,包括:
根据预设的标签数据查找对应的候选表数据,其中,所述候选表数据包括表名/表别名和表格中的码表数据;
根据预设的语义权重处理所述候选表数据以得到预设数量的第一语义向量;
根据所述目标分词样本中的关键词得到第二语义向量;
综合所述第一语义向量和所述第二语义向量计算所述资产元信息索引数据库中每一资产元信息索引的匹配得分,将所述匹配得分最高的资产元信息索引作为所述目标资产元信息索引。
在具体实施例中,在获取所述目标分词样本后,能够根据预设的标签数据获取对应的候选表数据。
具体的,举例来说,当所述目标分词样本为“泵送 摄像头”时,其中,对应“摄像头”的标签为“信息宽表”,对应“泵送”的标签为“公司名称”。根据所述目标分词样本即可以得到表名为“摄像头信息宽表”,表格中的码表数据为“公司名称:泵送”的候选表数据。
基于预设的BERT语义权重预训练模型对所述目标分词样本和候选表数据进行语义编码处理,可以得到预设数量的第一语义向量和第二语义向量。
其中,所述第一语义向量的数量是根据候选表数据包括的信息决定的,当所述候选表数据仅包括表名/表别名时,所述第一语义向量的数量为1。当所述候选表数据包括表名/表别名和表格中的码表数据时,所述第一语义向量的数量为2。
在得到所述第一语义向量和所述第二语义向量后,计算所述第一语义向量和所述第二语义向量的内积后,通过Softmax归一化处理,即可以计算所述资产元信息索引数据库中每一资产元信息索引的匹配得分,选择匹配得分最高的资产元信息索引作为对应目标分词样本的计算结果。
步骤S105,根据所述目标资产元信息索引在预设的资产数据库中导出目标资产元信息。
在具体实施方式中,在获取目标资产元信息索引后,即可以在预先构建的资产数据库中进行目标资产元信息获取的步骤。
具体的,通过所述目标资产元信息索引获取所述目标资产元信息的步骤可以采用现有技术中任意一种查询方法,例如SQL语句查询。
如果被召回的数据较多,返回的数据量会很大,这样对于采用宽表设计的结构会带来很大的存储压力,在生产环境中可能会产生严重问题。针对这种情况,系统采取了多层缓存策略进行数据索引:
其中,Redis作为一级缓存,在缓存用户的搜索结果时,以关键字信息作为key,将所述搜索结果存储存储在Redis中。搜索服务首先会对Redis进行查询,如果命中数据,则将所述搜索结果实时返回到前端。
二级缓存为构建一个搜索热点库,根据每天用户查询历史记录,获取每天的用户搜索热词,并将所述搜索热词存储在所述搜索热点库中。
用户在进行搜索时,对热词进行索引,将搜索热词与资产元信息索引进行关联,以提高查询效率,关键词命中热词时,直接通过关联的所述资产元信息索引进行条件查询。
三级缓存为,通过关键字字典索引,根据关键字与数据表的映射关系将数据按关键字的方式存储到ES,关键字下将包括所有数据,用户通过搜索关键字将所有资产元信息返回。数据通过两步处理并返回,首先通过关键字字典返回所有数据,通过返回的资产数据列表获取所有的资产元信息唯一标识ID。将返回的资产标识ID列表与用户搜索条件合并在一起,对元信息索引进行搜索。
通过所述资产元信息搜索方法,能够极大程度的减小搜索目标数据资产时的搜索范围,从而有效提升搜索目标数据资产的效率和精度。通过三级缓存结构,使得本实施例的资产元信息搜索方法能够适应各类大数据量的数据资产的搜索方案。
参考图2,为本申请实施例提供的一种资产元信息搜索装置200的装置模块示意图,本申请实施例提供的资产元信息搜索装置200,如图2所示,所述资产元信息搜索装置200包括:
获取模块201,用于获取搜索语料数据;
分词模块202,用于根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
标签化模块203,用于基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有对应标签的关键词;
匹配模块204,用于根据所述目标分词样本在预设的资产元信息索引数据库中匹配对应的资产元信息索引;
索引模块205,用于根据所述资产元信息索引在预设的资产数据库中导出对应的目标资产元信息。
另外,本申请实施例提供了一种计算机设备,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行前述实施例中所述的资产元信息搜索方法。
本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行前述实施例中所述的资产元信息搜索方法。
综上所述,本申请实施例提供了一种资产元信息搜索方法、装置、计算机设备及可读存储介质,通过专业术语数据库的构建,可以在搜索目标数据资产时,通过专业术语数据库中的专业术语信息提升对搜索语料数据的分词效率和分词精度。通过标签数据库的构建,可以在得到搜索预料数据的分词结果后,进一步通过标签化处理缩小资产元信息索引的匹配范围,从而能够提升搜索的速度和准确度。最后,通过多级缓存结构,能够使得本实施例的资产元信息搜索方法可以处理大数量数据的数据搜索方案。另外,上述实施例中提到的资产元信息搜索装置、计算机设备及计算机可读存储介质的具体实施过程,可以参见上述方法实施例的具体实施过程,在此不再一一赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。

Claims (6)

1.一种资产元信息搜索方法,其特征在于,所述资产元信息搜索方法包括:
获取搜索语料数据;
根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有目标标签的关键词;
根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引;
根据所述目标资产元信息索引在预设的资产数据库中导出目标资产元信息,所述目标资产元信息为数据表、报表、API、数据产品或指标中的任意一种资产元信息;
根据所述目标分词样本在预设的资产元信息索引数据库中匹配目标资产元信息索引的步骤,包括:
根据预设的标签数据查找对应的候选表数据,其中,所述候选表数据包括表名/表别名和表格中的码表数据;根据预设的语义权重处理所述候选表数据以得到预设数量的第一语义向量;根据所述目标分词样本中的关键词得到第二语义向量;综合所述第一语义向量和所述第二语义向量计算所述资产元信息索引数据库中每一资产元信息索引的匹配得分,将所述匹配得分最高的资产元信息索引作为所述目标资产元信息索引;
所述预设的专业术语数据库的构建步骤,包括:
初始化专业术语数据库和资产数据库,以得到初始专业术语数据库和预设的资产数据库;对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本;基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本;根据所述初始专业术语数据库、所述第一关键词样本和所述第二关键词样本,构建所述预设的专业术语数据库;
对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本的步骤,包括:
对于预设网络文本数据进行预处理,以得到预设数量的词语样本,所述预处理包括分词、词性标注和去除停用词;计算各词语样本在所述网络文本数据中的词频和逆文本频率;根据各词语样本的词频和逆文本频率计算各词语样本的第一权值分数;确定所述第一权值分数大于第一预设分数阈值的词语样本作为所述第一关键词样本;
基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本的步骤,包括:
获取所述预设的资产数据库中的各资产元信息的待选关键词样本;
计算各所述待选关键词样本的目标特征的特征分数,其中,所述目标特征包括词频-逆文本频率特征、长度特征、首位置特征、词跨度特征和主题特征;
基于各所述待选关键词样本的目标特征的特征分数计算对应各所述待选关键词样本的第二权值分数;
选择所述第二权值分数大于第二预设分数阈值的待选关键词样本作为所述第二关键词样本。
2.根据权利要求1所述的资产元信息搜索方法,其特征在于,基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本的步骤,包括:
根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签;
确定与所述关键词关联的唯一标签数据,以得到所述目标分词样本。
3.根据权利要求2所述的资产元信息搜索方法,其特征在于,根据预设的标签推荐算法在预设的标签数据库中匹配与所述初始分词样本中关键词对应的目标标签的步骤,包括:
在预设的标签数据库中匹配与所述初始分词样本中各关键词对应的多个待选标签,所述待选标签为被使用次数超过预设次数阈值的标签数据;
根据所述初始分词样本中的各关键词以及匹配到的多个所述待选标签,构建数据-标签矩阵;
根据各关键词的待选标签之间的相似度构建数据相似度矩阵;
基于预设算法处理所述数据相似度矩阵,以得到对应一个关键词的各待选标签评分;
选择评分超过预设阈值的待选标签作为所述关键词的目标标签。
4.一种资产元信息搜索装置,其特征在于,所述资产元信息搜索装置包括:
获取模块,用于获取搜索语料数据;
分词模块,用于根据预设的专业术语数据库中的专业术语信息对所述搜索语料数据进行分词处理,以得到初始分词样本,所述初始分词样本中包括所述专业术语数据库中对应专业术语信息的关键词;
标签化模块,用于基于预设的标签数据库对所述初始分词样本进行标签化,以得到目标分词样本,其中,所述目标分词样本包括具有对应标签的关键词;
匹配模块,用于根据所述目标分词样本在预设的资产元信息索引数据库中匹配对应的资产元信息索引;
索引模块,用于根据所述资产元信息索引在预设的资产数据库中导出对应的目标资产元信息,所述目标资产元信息为数据表、报表、API、数据产品或指标中的任意一种资产元信息;
所述匹配模块,具体用于根据预设的标签数据查找对应的候选表数据,其中,所述候选表数据包括表名/表别名和表格中的码表数据;根据预设的语义权重处理所述候选表数据以得到预设数量的第一语义向量;根据所述目标分词样本中的关键词得到第二语义向量;综合所述第一语义向量和所述第二语义向量计算所述资产元信息索引数据库中每一资产元信息索引的匹配得分,将所述匹配得分最高的资产元信息索引作为所述目标资产元信息索引;
所述预设的专业术语数据库的构建步骤,包括:
初始化专业术语数据库和资产数据库,以得到初始专业术语数据库和预设的资产数据库;对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本;基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本;根据所述初始专业术语数据库、所述第一关键词样本和所述第二关键词样本,构建所述预设的专业术语数据库;
对预设网络文本数据进行筛选处理,以得到预设数量的第一关键词样本的步骤,包括:
对于预设网络文本数据进行预处理,以得到预设数量的词语样本,所述预处理包括分词、词性标注和去除停用词;计算各词语样本在所述网络文本数据中的词频和逆文本频率;根据各词语样本的词频和逆文本频率计算各词语样本的第一权值分数;确定所述第一权值分数大于第一预设分数阈值的词语样本作为所述第一关键词样本;
基于关键词权重计算模型处理所述预设的资产数据库中的资产元信息,以得到预设数量的第二关键词样本的步骤,包括:
获取所述预设的资产数据库中的各资产元信息的待选关键词样本;计算各所述待选关键词样本的目标特征的特征分数,其中,所述目标特征包括词频-逆文本频率特征、长度特征、首位置特征、词跨度特征和主题特征;基于各所述待选关键词样本的目标特征的特征分数计算对应各所述待选关键词样本的第二权值分数;选择所述第二权值分数大于第二预设分数阈值的待选关键词样本作为所述第二关键词样本。
5.一种计算机设备,其特征在于,所述计算机设备包括处理器和存储器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至3任一项所述的资产元信息搜索方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至3中任一项所述的资产元信息搜索方法。
CN202210818195.5A 2022-07-13 2022-07-13 资产元信息搜索方法、装置、计算机设备及可读存储介质 Active CN114911917B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210818195.5A CN114911917B (zh) 2022-07-13 2022-07-13 资产元信息搜索方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210818195.5A CN114911917B (zh) 2022-07-13 2022-07-13 资产元信息搜索方法、装置、计算机设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114911917A CN114911917A (zh) 2022-08-16
CN114911917B true CN114911917B (zh) 2023-01-03

Family

ID=82773037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210818195.5A Active CN114911917B (zh) 2022-07-13 2022-07-13 资产元信息搜索方法、装置、计算机设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114911917B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116244496B (zh) * 2022-12-06 2023-12-01 山东紫菜云数字科技有限公司 一种基于产业链的资源推荐方法
CN116226297B (zh) * 2023-05-05 2023-07-25 深圳市唯特视科技有限公司 数据模型的可视化搜索方法、系统、设备及存储介质
CN117131070B (zh) * 2023-10-27 2024-02-09 之江实验室 一种自适应规则引导的大语言模型生成sql系统
CN117573956B (zh) * 2024-01-16 2024-05-07 中国电信股份有限公司深圳分公司 元数据管理方法、装置、设备及存储介质
CN117688593B (zh) * 2024-02-02 2024-04-30 新汽有限公司 一种网络大数据的管理系统
CN117807282A (zh) * 2024-03-01 2024-04-02 恩核(北京)信息技术有限公司 业务数据处理方法、装置、电子设备和可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090771A (zh) * 2019-10-31 2020-05-01 腾讯音乐娱乐科技(深圳)有限公司 歌曲搜索方法、装置及计算机存储介质
CN111090668A (zh) * 2019-12-09 2020-05-01 北京海益同展信息科技有限公司 数据检索方法及装置、电子设备和计算机可读存储介质
CN111797115A (zh) * 2020-06-28 2020-10-20 中国工商银行股份有限公司 一种员工信息的搜索方法及装置
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537101A (zh) * 2015-01-12 2015-04-22 杏树林信息技术(北京)有限公司 医学信息搜索引擎系统和搜索方法
CN105912662A (zh) * 2016-04-11 2016-08-31 天津大学 基于Coreseek的垂直搜索引擎研究与优化的方法
CN112507116B (zh) * 2020-12-16 2023-10-10 平安科技(深圳)有限公司 基于客户应答语料的客户画像方法及其相关设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111090771A (zh) * 2019-10-31 2020-05-01 腾讯音乐娱乐科技(深圳)有限公司 歌曲搜索方法、装置及计算机存储介质
CN111090668A (zh) * 2019-12-09 2020-05-01 北京海益同展信息科技有限公司 数据检索方法及装置、电子设备和计算机可读存储介质
CN111797115A (zh) * 2020-06-28 2020-10-20 中国工商银行股份有限公司 一种员工信息的搜索方法及装置
WO2022134575A1 (zh) * 2020-12-23 2022-06-30 深圳壹账通智能科技有限公司 业务关键词的提取方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
城市轨道交通线网全文检索系统的设计与实现;刘建委等;《城市轨道交通研究》;20151210(第12期);第135-139页 *

Also Published As

Publication number Publication date
CN114911917A (zh) 2022-08-16

Similar Documents

Publication Publication Date Title
CN114911917B (zh) 资产元信息搜索方法、装置、计算机设备及可读存储介质
CN111104794B (zh) 一种基于主题词的文本相似度匹配方法
CN103678576B (zh) 基于动态语义分析的全文检索系统
CN102479191B (zh) 提供多粒度分词结果的方法及其装置
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN106294320B (zh) 一种面向学术论文的术语抽取方法及系统
KR101681109B1 (ko) 대표 색인어와 유사도를 이용한 문서 자동 분류 방법
US8661049B2 (en) Weight-based stemming for improving search quality
CN102253930B (zh) 一种文本翻译的方法及装置
KR101511656B1 (ko) 퍼스널 아이덴티티를 기술하는 데이터에 대한 액셔너블 속성의 애스클라이빙
KR100847376B1 (ko) 질의어 자동 추출을 이용한 검색 방법 및 장치
WO2020074017A1 (zh) 基于深度学习的医学文献中关键词筛选方法及装置
CN115983233B (zh) 一种基于数据流匹配的电子病历查重率估计方法
CN107239455B (zh) 核心词识别方法及装置
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
CN111881695A (zh) 一种审计知识的检索方法及装置
CN115017404B (zh) 基于压缩空间句子选择的目标新闻话题摘要方法
CN117076599A (zh) 一种基于知识图谱的数据搜索方法、装置及电子设备
CN115828893A (zh) 非结构化文档问答的方法、装置、存储介质和设备
Mallek et al. An Unsupervised Approach for Precise Context Identification from Unstructured Text Documents
Umadevi et al. Text summarization of Spanish documents
CN112507687A (zh) 一种基于二次排序的工单检索方法
Ehrlinger et al. A schema readability metric for automated data quality measurement
CN111400577A (zh) 一种搜索召回方法及装置
CN113094469B (zh) 文本数据分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant