CN113626558A - 一种基于智能推荐的字段标准化的方法和系统 - Google Patents
一种基于智能推荐的字段标准化的方法和系统 Download PDFInfo
- Publication number
- CN113626558A CN113626558A CN202110767556.3A CN202110767556A CN113626558A CN 113626558 A CN113626558 A CN 113626558A CN 202110767556 A CN202110767556 A CN 202110767556A CN 113626558 A CN113626558 A CN 113626558A
- Authority
- CN
- China
- Prior art keywords
- data
- field
- type
- content
- normalization
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明给出了一种基于智能推荐的字段标准化的方法和系统,包括将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合;利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。该方法和系统可以自动分析出字段属性和内容特征,智能推荐字段的标准化处理方案,大大提升原始数据解析入库的效率。
Description
技术领域
本发明涉及数据处理的技术领域,尤其是一种基于智能推荐的字段标准化的方法和系统。
背景技术
大数据系统接入的原始数据,依托于不同的业务需求和工具产生,行业跨度大且缺乏统一的数据标准,数据标准的缺乏和滞后,导致数据源以多种形式存在,业务口径差异大、基础信息编码多套并存、加剧原始数据接入大数据系统后的数据整合难度,从而无法真正实现数据资产融合的价值。因此数据标准化是大数据系统的基础,如何快速准确地提供描述一致、清晰可查、内容准确的数据定义,服务于大数据系统的数据融合和业务应用,这成为大数据系统能否高效支撑各类业务工作的主要因素。
由于大数据系统接入的原始数据,具有形式多样,业务口径差异大、信息编码标准不一等特征,目前市场上现有的字段标准化方法,主要依靠数据接入人员采用人工映射方法进行操作,这些技术存在以下不足:
1)字段标准化的效率差,传统方式对每种接入数据的字段,只能一个一个字段进行设置,无法自动根据字段属性特征进行匹配操作,导致字段标准化的工作效率低下,进而影响大数据系统接入更多的数据资源。
2)字段标准化的准确度低,传统方法只能依靠数据接入人员的经验来进行字段映射,而数据接入人员的水平参次不齐,这就导致海量接入数据经常会有一些字段映射出错,导致数据无法融合应用,影响大数据系统更好地为业务工作服务。
发明内容
为了解决现有技术中字段标准化的效率和准确度低等一系列的技术问题,本发明提出了一种基于智能推荐的字段标准化的方法和系统,以解决上述技术问题。
根据本发明的一个方面,提出了一种基于智能推荐的字段标准化的方法,该方法包括:
S1:将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合;
S2:利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;
S3:调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。
在一些具体的实施例中,标准化处理包括非空处理、归一化和前后缀处理。
在一些具体的实施例中,属性特征包括字段的命名、注释、类型和长度。根据上述属性特征可以获得原始数据的字段真实含义。
在一些具体的实施例中,步骤S2具体包括:
S21:获取现有标准数据元和数据元限定词,形成标准数据集;
S22:分别按字段名称和关键词在标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词。
在一些具体的实施例中,步骤S2还包括S23:核对交集与标准数据集的类型和长度验证推荐结果的可信度。通过类型和长度验证结果可信度,可以进一步提高准确性。
在一些具体的实施例中,关键词包括单词和相邻词组的多词关键词。单词或多词关键词可以便于进行与标准数据元或限定词的检索。
在一些具体的实施例中,步骤S3具体包括:
S21:构建数据特征分析的字段列集合M,集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;
S22:遍历内容分析集合,令集合M的列序号=内容分析集合的序号;若内容分析集合中的内容为空,集合M的有效数量为0,否则为1;集合M根据数据类型检验规则库调用检验引擎检验内容分析集合的内容,若匹配则集合M的数据类型为检验引擎对应的数据类型;对集合M的有效数量进行累加,获得集合M的出现次数最多类型和出现次数;
S23:响应于集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将集合M的出现次数最多类型置空,并输出最终结果集合。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有一或多个计算机程序,该一或多个计算机程序被计算机处理器执行时实施上述任一项的方法。
根据本发明的第三方面,提出了一种基于智能推荐的字段标准化的系统,该系统包括:
数据解析单元:配置用于将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合;
标准化处理单元:配置用于利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;
校验单元:配置用于调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。
在一些具体的实施例中,标准化处理包括非空处理、归一化和前后缀处理,属性特征包括字段的命名、注释、类型和长度。根据上述属性特征可以获得原始数据的字段真实含义。
在一些具体的实施例中,标准化处理单元中包括属性特征分析模块:用于获取现有标准数据元和数据元限定词,形成标准数据集;分别按字段名称和关键词在标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词。
在一些具体的实施例中,标准化处理单元中还包括验证模块:用于核对交集与标准数据集的类型和长度验证推荐结果的可信度。通过类型和长度验证结果可信度,可以进一步提高准确性。
在一些具体的实施例中,校验单元中包括数据特征分析模块:构建数据特征分析的字段列集合M,集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;遍历内容分析集合,令集合M的列序号=内容分析集合的序号;若内容分析集合中的内容为空,集合M的有效数量为0,否则为1;集合M根据数据类型检验规则库调用检验引擎检验内容分析集合的内容,若匹配则集合M的数据类型为检验引擎对应的数据类型;对集合M的有效数量进行累加,获得集合M的出现次数最多类型和出现次数;响应于集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将集合M的出现次数最多类型置空,并输出最终结果集合。
本发明提出了一种基于智能推荐的字段标准化的方法和系统,该方法利用属性特征分析和数据特征分析2种算法,通过分析字段的命名、注释、类型和长度等维度的特征,得到原始数据的字段真实含义,实现字段的快速标准化处理;根据原始数据每列内容,分析出每列对应的数据类型,检验通过属性特征分析的字段标准化方案的准确性,高效支撑各种不同数据源的自动接入,提升大数据智能化接入效率和准确性。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的基于智能推荐的字段标准化的方法的流程图;
图2是本申请的一个具体的实施例的基于智能推荐的字段标准化的方法的总体分析流程图;
图3是本申请的一个具体的实施例的基于智能推荐的字段标准化的方法的流程图;
图4是本申请的一个具体的实施例的属性特征分析的流程图;
图5是本申请的一个实施例的基于智能推荐的字段标准化的系统的框架图;
图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的基于智能推荐的字段标准化的方法,图1示出了根据本申请的实施例的基于智能推荐的字段标准化的方法的流程图。如图1所示,该方法包括:
S101:将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合。
S102:利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合。
在具体的实施例中,标准化处理包括非空处理、归一化和前后缀处理。属性特征包括字段的命名、注释、类型和长度。根据上述属性特征可以获得原始数据的字段真实含义。
在具体的实施例中,标准化字段集合的生成具体包括:获取现有标准数据元和数据元限定词,形成标准数据集;分别按字段名称和关键词在标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词;核对交集与标准数据集的类型和长度验证推荐结果的可信度。通过类型和长度验证结果可信度,可以进一步提高准确性。其中,关键词可以为单词或相邻词组的多词关键词,以便于进行与标准数据元或限定词的检索。
S103:调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。
在具体的实施例中,结果集合具体形成包括:构建数据特征分析的字段列集合M,集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;遍历内容分析集合,令集合M的列序号=内容分析集合的序号;若内容分析集合中的内容为空,集合M的有效数量为0,否则为1;集合M根据数据类型检验规则库调用检验引擎检验内容分析集合的内容,若匹配则集合M的数据类型为检验引擎对应的数据类型;对集合M的有效数量进行累加,获得集合M的出现次数最多类型和出现次数;响应于集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将集合M的出现次数最多类型置空,并输出最终结果集合。比对标准化字段集合与最终结果集合的元素编码,若一致则表示推荐结果正确。
继续参考图2,图2示出了本申请的一个具体的实施例的基于智能推荐的字段标准化的方法的总体分析流程图,如图2所示,该方法包括:
步骤201:数据字段处理。
步骤202:属性特征分析。具体从命名2021、注释2022、类型2023和长度2024进行属性特征分析。
步骤203:分析结果。
步骤204:数据特征分析。
步骤205:推荐结果核查。
针对如何快速准确地分析出接入大数据平台的原始数据的含义,并制定字段标准化方案的场景,本申请通过新属性特征分析和数据特征分析2种算法,通过分析字段的命名、注释、类型和长度等维度的特征,得到原始数据的字段真实含义,快速实现字段的标准化处理;自动根据原始数据每列内容,分析出每列对应的数据类型,进一步检验并提高通过属性特征分析的推荐结果的准确性,高效支撑各种不同数据源的自动接入,提升大数据智能化接入效率和准确性。
字段标准化流程主要基于字段标准化规则库和数据类型检验规则库两个核心库。字段标准化规则库:获取不同字段属性,调用处理类型的规则,定义如下表1。
表1.字段标准化规则库
数据类型检验规则库:获取每种数据类型的检验引擎定义,定义如下表2。
表2.数据类型检验规则表
图3示出了本申请的一个具体的实施例的基于智能推荐的字段标准化的方法的流程图;该方法包括:
步骤S301:样例数据解析。所有原始数据入库时,都是以资源层面来处理数据,动态映射抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合T,要素为命名、注释、类型和长度,抽取原始数据的前一千条数据作为内容分析集合Q。
步骤S302:字段标准化处理。标准化处理包括非空处理、归一化、前后缀处理、特殊处理等,这些处理类封装成handler也支持对特殊字段手动填写hander处理类。遍历字段集合T,根据字段标准化规则库,提取集合T的每个字段所需的handler,进行标准化处理,将处理结果保存为标准化的字段集合P。步骤S303:类型分析。同一来源产生的原始数据,打包生成文本文件时,会因命名差异,导致解析程序识别到的文件类型出错,进而导致解析失败,本算法通过文件头来判断文件类型,最后得到整个文件的类型[Fn].Type,遍历文件特征库Tn,获取有存在相同来源相同类型的特征记录Tn。
步骤S303:属性特征分析。绝大多数比较规范的业务场景下产生,接入大数据平台的原始数据的主要含义都会体现在字段属性信息里,本算法通过分析字段的命名、注释、类型和长度等维度的特征,得到原始数据的字段真实含义,实现字段的快速标准化处理。
在具体的实施例中,通过分析字段的命名、注释、类型和长度等维度的特征,得到原始数据的字段真实含义,实现字段的快速标准化处理,具体算法如图4示出的本申请的一个具体的实施例的属性特征分析的流程图所示,该分析流程包括:
步骤401:整理标准数据元和数据元限定词。从字段标准化规则库,获取现有标准数据元和限定词,形成对标用的标准数据集T,要素为:数据元内部标识符、限定词内部标识符、数据项标识符、出现属性值、关键词、类型和长度。
步骤402:按字段名称检索标准数据元或数据元限定词。根据[T].possFieldlike%字段名称%过滤T得到该字段名可能对应的标准数据元,保存成集合P。例如:FIPH(手机号)与B020005之间的对应关系<FIELD key="B020005"nullGetFeilds="CONTACTOR_TEL">FIPH</FIELD>,存入标准数据元集合P1。
步骤403:判断是否找到。若找到则进入步骤410,若否,则进入步骤404。
步骤404:分析字段说明,提取多个关键词。对说明进行分词和词性标注处理,并过滤掉停用词、只保留指定词性的单词,如名词,将单词在说明中进行标记,若形成相邻词组,则组合成多词关键词K。例:“登记单位名称”、“登记单位的名称”的说明提取的关键词为“单位”and“名称”。
步骤405:按关键词检索标准数据元或数据元限定词。根据[T].keyword like‘%K%’过滤T得到该说明关键词可能对应的标准数据元,保存成集合P2。
步骤406:判断是否找到。若是则进入步骤409,若否则进入步骤407。
步骤407:判断多个字段是否可提取共性概念。若是则进入步骤408。
步骤408:编写限定词。
步骤409:编写数据元。
步骤410:推荐数据元或限定词。取P1与P2的交集P,P对应的数据元内部标识符、限定词内部标识符即为该字段推荐的标准化数据元和限定词。
步骤411:根据类型和长度验证推荐结果。核对P的类型和长度与T的类型和长度,如果一致则该推荐结果可信度100%,如果不一致,则该推荐结果的可信度置70%。
步骤S304:数据特征分析。通过字段属性分析的结果有可能存在一定的误差,原始数据的内容往往也能比较准确地反映某列字段代表的含义,该算法通过适配mac,imsi,手机号,身份证等已知特征的校验引擎,自动根据原始数据每列内容,分析出每列对应的数据类型,进一步检验并提高通过属性特征分析的推荐结果的准确性。该算法的核心部分为:构建数据特征分析的字段列集合M,要素为列序号、有效数量、数据类型、出现次数最多类型、出现次数;遍历Qn{[M].列序号=[Qn].序号;[M].有效数量=IF([Qn].内容为空,0,1);根据数据类型检验规则库调用检验引擎检验[Qn].内容,如匹配则[M].数据类型=检验引擎对应的数据类型},根据M的序号对M进行合并处理,处理规则为将[M].有效数量进行累加,取出现次数最多的数据类型赋值给[M].出现次数最多类型和[M].出现次数,如[M].出现次数/[M].有效数量<数据类型检验规则库的最低比例,则[M].出现次数最多类型置空,输出最终结果M。
步骤305:分析结果核查。比对Pn和Mn的itemCode元素编码,如一致则证明根据字段属性特征推荐的标准化结果与样例数据吻合,则该推荐结果为正确结果,[Pn].准确率=100,如不一致则作为存疑项,[Pn].准确率=70,由用户进行人工核验,确保字段标准结果的正确性。
步骤306:保存分析结果。保存字段标准化的智能推荐结果Pn。在一个具体的实施例中,表3中示出了一个字段标准化的智能推荐结果。
表3.智能推荐结果示例
字段 | 字段中文名 | 数据元编号 | 数据元名称 | 限定词编号 | 限定词名称 | 可信度 |
zxjbr | 注销经办人 | DE00002 | 姓名 | DQ00064 | 注销人 | 100 |
zxjg | 注销机关(异地) | DE00538 | 机关名称 | DQ00049 | 注销单位 | 100 |
xsdw | 销售单位 | |||||
xsjg | 销售价格 |
针对如何快速准确地分析出接入大数据平台的原始数据的含义,并制定字段标准化方案的场景,分析程序实现字段的快速标准化处理,利用检验算法提高字段标准化处理结果的准确性,解决多源异构数据如何快速准确入库的问题。提出了利用属性特征分析和数据特征分析2种算法,通过分析字段的命名、注释、类型和长度等维度的特征,得到原始数据的字段真实含义,实现字段的快速标准化处理;自动根据原始数据每列内容,分析出每列对应的数据类型,进一步检验并提高通过属性特征分析的推荐结果的准确性,高效支撑各种不同数据源的自动接入,提升大数据智能化接入效率和准确性。基于海量原始数据场景下,可以自动分析出字段属性和内容特征,智能推荐字段的标准化处理方案,大大提升原始数据解析入库的效率,入库效率比传统的人工匹配方法提高超过2倍以上
继续参考图5,图5示出了根据本发明的实施例的基于智能推荐的字段标准化的系统的框架图。该系统具体包括数据解析单元501、标准化处理单元502和校验单元503。
在具体的实施例中,数据解析单元501配置用于将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合;标准化处理单元502配置用于利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;校验单元503配置用于调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。
在一些具体的实施例中,标准化处理单元502中包括属性特征分析模块和验证模块,属性特征分析模块用于获取现有标准数据元和数据元限定词,形成标准数据集;分别按字段名称和关键词在标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词。验证模块用于核对交集与标准数据集的类型和长度验证推荐结果的可信度
在一些具体的实施例中,校验单元503中包括数据特征分析模块,数据特征分析模块用于构建数据特征分析的字段列集合M,集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;遍历内容分析集合,令集合M的列序号=内容分析集合的序号;若内容分析集合中的内容为空,集合M的有效数量为0,否则为1;集合M根据数据类型检验规则库调用检验引擎检验内容分析集合的内容,若匹配则集合M的数据类型为检验引擎对应的数据类型;对集合M的有效数量进行累加,获得集合M的出现次数最多类型和出现次数;响应于集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将集合M的出现次数最多类型置空,并输出最终结果集合。
下面参考图6,其示出了适于用来实现本申请实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中,还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程序程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:将原始数据入库,抽取部分原始数据作为内容分析集合,动态映像抽取原始数据相应的字段到数据目录表中,形成待分析的字段集合;利用字段的属性特征获取原始数据的字段的真实表征,对字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;调用特征校验引擎识别内容分析集合获取数据特征的结果集合,保存与结果集合的数据吻合的标准化字段集合。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (13)
1.一种基于智能推荐的字段标准化的方法,其特征在于,包括:
S1:将原始数据入库,抽取部分所述原始数据作为内容分析集合,动态映像抽取所述原始数据相应的字段到数据目录表中,形成待分析的字段集合;
S2:利用所述字段的属性特征获取所述原始数据的字段的真实表征,对所述字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;
S3:调用特征校验引擎识别所述内容分析集合获取数据特征的结果集合,保存与所述结果集合的数据吻合的标准化字段集合。
2.根据权利要求1所述的基于智能推荐的字段标准化的方法,其特征在于,所述标准化处理包括非空处理、归一化和前后缀处理。
3.根据权利要求1所述的基于智能推荐的字段标准化的方法,其特征在于,所述属性特征包括字段的命名、注释、类型和长度。
4.根据权利要求1所述的基于智能推荐的字段标准化的方法,其特征在于,所述步骤S2具体包括:
S21:获取现有标准数据元和数据元限定词,形成标准数据集;
S22:分别按字段名称和关键词在所述标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词。
5.根据权利要求4所述的基于智能推荐的字段标准化的方法,其特征在于,所述步骤S2还包括S23:核对所述交集与所述标准数据集的类型和长度验证推荐结果的可信度。
6.根据权利要求4所述的基于智能推荐的字段标准化的方法,其特征在于,所述关键词包括单词和相邻词组的多词关键词。
7.根据权利要求1所述的基于智能推荐的字段标准化的方法,其特征在于,所述步骤S3具体包括:
S21:构建数据特征分析的字段列集合M,所述集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;
S22:遍历所述内容分析集合,令所述集合M的列序号=所述内容分析集合的序号;若所述内容分析集合中的内容为空,所述集合M的有效数量为0,否则为1;所述集合M根据数据类型检验规则库调用检验引擎检验所述内容分析集合的内容,若匹配则所述集合M的数据类型为检验引擎对应的数据类型;对所述集合M的有效数量进行累加,获得所述集合M的出现次数最多类型和出现次数;
S23:响应于所述集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将所述集合M的出现次数最多类型置空,并输出最终结果集合。
8.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。
9.一种基于智能推荐的字段标准化的系统,其特征在于,所述系统包括:
数据解析单元:配置用于将原始数据入库,抽取部分所述原始数据作为内容分析集合,动态映像抽取所述原始数据相应的字段到数据目录表中,形成待分析的字段集合;
标准化处理单元:配置用于利用所述字段的属性特征获取所述原始数据的字段的真实表征,对所述字段集合进行标准化处理以获取包括推荐数据元和限定词的标准化字段集合;
校验单元:配置用于调用特征校验引擎识别所述内容分析集合获取数据特征的结果集合,保存与所述结果集合的数据吻合的标准化字段集合。
10.根据权利要求9所述的基于智能推荐的字段标准化的系统,其特征在于,所述标准化处理包括非空处理、归一化和前后缀处理,所述属性特征包括字段的命名、注释、类型和长度。
11.根据权利要求9所述的基于智能推荐的字段标准化的系统,其特征在于,所述标准化处理单元中包括属性特征分析模块:用于获取现有标准数据元和数据元限定词,形成标准数据集;分别按字段名称和关键词在所述标准数据集中检索标准数据元或数据元限定词,输出检索结果的交集,即推荐数据元或限定词。
12.根据权利要求11所述的基于智能推荐的字段标准化的系统,其特征在于,所述标准化处理单元中还包括验证模块:用于核对所述交集与所述标准数据集的类型和长度验证推荐结果的可信度。
13.根据权利要求9所述的基于智能推荐的字段标准化的系统,其特征在于,所述校验单元中包括数据特征分析模块:构建数据特征分析的字段列集合M,所述集合M要素包括列序号、有效数量、数据类型、出现次数最多类型和出现次数;遍历所述内容分析集合,令所述集合M的列序号=所述内容分析集合的序号;若所述内容分析集合中的内容为空,所述集合M的有效数量为0,否则为1;所述集合M根据数据类型检验规则库调用检验引擎检验所述内容分析集合的内容,若匹配则所述集合M的数据类型为检验引擎对应的数据类型;对所述集合M的有效数量进行累加,获得所述集合M的出现次数最多类型和出现次数;响应于所述集合M的出现次数与有效数量的比值小于数据类型检验规则库的最低比例,将所述集合M的出现次数最多类型置空,并输出最终结果集合。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767556.3A CN113626558B (zh) | 2021-07-07 | 2021-07-07 | 一种基于智能推荐的字段标准化的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110767556.3A CN113626558B (zh) | 2021-07-07 | 2021-07-07 | 一种基于智能推荐的字段标准化的方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113626558A true CN113626558A (zh) | 2021-11-09 |
CN113626558B CN113626558B (zh) | 2022-10-25 |
Family
ID=78379229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110767556.3A Active CN113626558B (zh) | 2021-07-07 | 2021-07-07 | 一种基于智能推荐的字段标准化的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113626558B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251745A (zh) * | 2023-11-17 | 2023-12-19 | 山东顺国电子科技有限公司 | 深度学习的大数据智能化标准管理方法、系统及存储介质 |
CN117493442A (zh) * | 2023-11-27 | 2024-02-02 | 深圳市马博士网络科技有限公司 | 一种数据标准化的方法与装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147639A (zh) * | 2017-05-08 | 2017-09-08 | 国家电网公司 | 一种基于复杂事件处理的实时安全预警方法 |
CN109584975A (zh) * | 2018-11-21 | 2019-04-05 | 金色熊猫有限公司 | 医疗数据标准化处理方法及装置 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索系统及方法 |
WO2021114624A1 (zh) * | 2020-05-29 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于人工智能的用药推荐方法、装置、设备及存储介质 |
-
2021
- 2021-07-07 CN CN202110767556.3A patent/CN113626558B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107147639A (zh) * | 2017-05-08 | 2017-09-08 | 国家电网公司 | 一种基于复杂事件处理的实时安全预警方法 |
CN109584975A (zh) * | 2018-11-21 | 2019-04-05 | 金色熊猫有限公司 | 医疗数据标准化处理方法及装置 |
CN110795482A (zh) * | 2019-10-16 | 2020-02-14 | 浙江大华技术股份有限公司 | 数据对标方法、装置、及存储装置 |
CN111061833A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
WO2021114624A1 (zh) * | 2020-05-29 | 2021-06-17 | 平安科技(深圳)有限公司 | 基于人工智能的用药推荐方法、装置、设备及存储介质 |
CN112464640A (zh) * | 2020-10-22 | 2021-03-09 | 浙江大华技术股份有限公司 | 数据要素分析方法、装置、电子装置和存储介质 |
CN112233746A (zh) * | 2020-11-05 | 2021-01-15 | 克拉玛依市中心医院 | 一种医疗数据自动标准化的方法 |
CN112905728A (zh) * | 2021-02-26 | 2021-06-04 | 中国科学院电子学研究所苏州研究院 | 一种面向多源地名数据的高效融合与检索系统及方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117251745A (zh) * | 2023-11-17 | 2023-12-19 | 山东顺国电子科技有限公司 | 深度学习的大数据智能化标准管理方法、系统及存储介质 |
CN117493442A (zh) * | 2023-11-27 | 2024-02-02 | 深圳市马博士网络科技有限公司 | 一种数据标准化的方法与装置 |
CN117493442B (zh) * | 2023-11-27 | 2024-06-11 | 深圳市马博士网络科技有限公司 | 一种数据标准化的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113626558B (zh) | 2022-10-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3745276A1 (en) | Discovering a semantic meaning of data fields from profile data of the data fields | |
KR101976220B1 (ko) | 데이터 보강 제안 기법 | |
CN111553137B (zh) | 报告生成方法、装置、存储介质及计算机设备 | |
CN111522927B (zh) | 基于知识图谱的实体查询方法和装置 | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN112364206A (zh) | 一种对多格式数据文件进行解析翻译的方法及装置 | |
CN113626558B (zh) | 一种基于智能推荐的字段标准化的方法和系统 | |
CN111913954A (zh) | 智能数据标准目录生成方法和装置 | |
CN113535817B (zh) | 特征宽表生成及业务处理模型的训练方法和装置 | |
CN117407414A (zh) | 结构化查询语句的处理方法、装置、设备、介质 | |
CN116226166A (zh) | 基于数据源的数据查询方法及系统 | |
CN110895587B (zh) | 用于确定目标用户的方法和装置 | |
CN118133973B (zh) | 基于大语言模型的报告生成方法及装置 | |
CN110399431A (zh) | 一种关联关系构建方法、装置及设备 | |
CN117827902A (zh) | 业务数据处理方法、装置、计算机设备以及存储介质 | |
CN113051919A (zh) | 一种识别命名实体的方法和装置 | |
CN105868380A (zh) | 一种异源数据读取方法和电子设备 | |
CN116127154A (zh) | 知识标签推荐方法、装置、电子设备及存储介质 | |
CN111143203B (zh) | 机器学习、隐私代码确定方法、装置及电子设备 | |
CN112612817A (zh) | 数据处理方法、装置、终端设备及计算机可读存储介质 | |
CN113626385B (zh) | 一种基于文本数据读取的方法和系统 | |
KR102588238B1 (ko) | 컨텐츠 제작 어플리케이션 및 상기 컨텐츠 제작 어플리케이션 구동 방법 | |
CN113837278B (zh) | 一种脏数据检测的方法和装置 | |
CN112667755B (zh) | 基于Kudu的数据分析装置和方法 | |
CN117149651A (zh) | 测试方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |