Nothing Special   »   [go: up one dir, main page]

CN118132805A - 一种数据管理方法、装置、设备以及存储介质 - Google Patents

一种数据管理方法、装置、设备以及存储介质 Download PDF

Info

Publication number
CN118132805A
CN118132805A CN202410168098.5A CN202410168098A CN118132805A CN 118132805 A CN118132805 A CN 118132805A CN 202410168098 A CN202410168098 A CN 202410168098A CN 118132805 A CN118132805 A CN 118132805A
Authority
CN
China
Prior art keywords
data
storage
model
training
warehouse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410168098.5A
Other languages
English (en)
Inventor
靳志娟
余家忠
施林苏
刘昱含
李飞
刘子伟
梁清华
刘凯
董高
曹润东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tower Zhilian Technology Co ltd
China Tower Co Ltd
Original Assignee
Tower Zhilian Technology Co ltd
China Tower Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tower Zhilian Technology Co ltd, China Tower Co Ltd filed Critical Tower Zhilian Technology Co ltd
Priority to CN202410168098.5A priority Critical patent/CN118132805A/zh
Publication of CN118132805A publication Critical patent/CN118132805A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据管理方法,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。方法包括:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。

Description

一种数据管理方法、装置、设备以及存储介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据管理方法、装置、设备、存储介质以及计算机程序产品。
背景技术
随着技术的发展,深度学习已经慢慢进入一个比较成熟的阶段,出现了数据驱动的人工智能,涌现了一批深度学习开源框架。
人工智能行业的发展离不开大量样本数据的支撑,目前已有的人工智能模型在具体应用场景使用中一般多采用人工方式进行样本数据的管理以及样本标注工具的选择,在人工模型的训练过程中,原始数据、样本数据、标注数据、训练数据、模型、应用等各个模块紧耦合,混为一体,数据管理灵活度较差够。
且随着样本数据量的日益增大,传统的样本数据管理方法面临着诸多挑战:
1、样本数据的查询问题:现有的样本数据管理方法很大程度上依赖于传统的人工管理方式,很难精准快速地实现样本数据的定位查找,无法充分满足现代人工智能算法研发对样本库管理的高效性、准确性和可追踪性的要求。
2、缺少针对样本数据标注工具的管理:现有的样本数据库针对数据标注工具缺少任务分发、标注结果审核以及数据指令检测等管理功能。
由此可见,如何优化样本数据库,以使得用户可以更加精准高效地对样本数据进行管理,成为当前亟待解决的问题。
发明内容
本申请实施例提供一种数据管理方法,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。
本申请实施例还提供一种数据管理装置,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。
本申请实施例还提供一种数据管理设备,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。
本申请实施例还提供一种计算机可读存储介质,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。
本申请实施例还提供一种计算机程序产品,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。
本申请实施例采用下述技术方案:
一种数据管理方法,包括:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
一种数据管理装置,包括:数据获取单元,用于获取待入库数据;数据清洗单元,用于对所述待入库数据进行数据清洗,得到入库数据;数据增广单元,用于将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;数据标注单元,用于对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;模型部署单元,用于根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
一种数据管理设备,包括:
处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行以下操作:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
采用本申请实施例提供的数据管理方法,针对采集到的用于人工智能模型训练的数据,在存入数据库前,首先会对该些待入库数据进行数据清洗,得到入库数据,确定各入库数据的类型标签,并按照类型标签将入库数据保存至样本数据库,同时对入库数据进行数据增广,得到待标注数据集;创建数据标注任务,并按照数据标注工具对待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集,使用训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署,从而实现了从数据入库,数据标注、训练样本生成、模型训练到模型部署的全流程数据管理。相比与现有的训练数据管理方法,采用本申请实施例所提供的数据管理方法,在数据入库前,确定了待入库数据的类型标签,并按照数据的类型标签对数据进行存储,方便后续的数据查询以及管理;其次,在数据标注阶段,为了提高数据标注效率,提供了基于人工标注以及智能标注的多种标注工具,并可以根据标注工具的不同,灵活地进行标注任务的划分,提高了数据标注的效率;最后,通过对标注结果进行审核,提高了数据标注的准确性,进而后续使用基于审核结果构建训练样本集合进行模型训练,极大地提升了人工智能模型的研发效率以及性能。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本申请实施例提供的一种数据管理方法的具体流程示意图;
图2为本申请实施例提供的一种数据管理装置的具体结构示意图;
图3为本申请实施例构建的一种数据管理设备的具体结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供的数据管理方法的执行主体,可以但不限于为人工智能模型训练服务器、模型研发服务器、样本管理服务器或者数据管理服务器等中的至少一种;此外,该方法的执行主体还可以是在该些服务器上运行的应用程序(Application,APP)或者系统本身。
为便于描述,下文以该方法的执行主体为人工智能模型训练系统为例,对该方法的实施方式进行介绍。可以理解,该方法的执行主体为人工智能模型训练系统只是一种示例性的说明,并不应理解为对该方法的限定。
本申请所提供的数据管理方法的具体实现流程示意图如图1所示,主要包括下述步骤:
步骤11,获取待入库数据;
在本申请实施例中,该些待入库数据可以是由业务系统自动采集到的、可用于模型训练的相关数据,也可以是由人工智能模型训练系统在互联网上获取到的数据。
在一种实施方式中,获取到的待入库数据的数据格式可以包括图片格式数据、视频格式数据以及文字格式数据等。为了便于后续对该些数据的检索查询,在将该些数据存入数据库之前,人工智能模型训练系统首先可以确定各待入库数据对应的类型标签,进而后续可以按照该类型标签进行数据存储。比如,可以确定数据所对应的行业、地区、季节、天气等类型标签,进而后续可以根据该些类型标签进行数据入库存储。
这里需要说明的是,当获取到的待入库数据为视频格式数据时,人工智能模型训练系统首先会将该视频格式数据转化为图片格式数据,在进行后续操作;而针对非视频格式的数据,则人工智能模型训练系统可以直接通过该数据的物理文件,获取该数据对应的类型标签,具体地,在一种实施方式中,本申请实施例提供的方法可以包括:确定所述待入库数据的数据格式;当确定所述待入库数据为视频格式数据时,对所述待入库数据进行抽帧处理,得到所述待入库数据对应的图片格式数据,通过图像识别技术,确定所述图像格式数据对应的类型标签;当确定所述待入库数据为非视频格式数据时,获取所述待入库数据对应的物理文件,根据所述物理文件,确定所述待入库数据对应的类型标签。
具体地,在本申请实施例中,人工智能模型训练系统可以按照预设的抽帧频率,对视频格式数据进行抽帧处理,进而将视频格式文件转换为图片格式文件;或者,人工智能模型训练系统还可以通过关键帧提取的方式,提取视频格式数据的关键帧,进而将视频格式文件转换为图片格式文件,本申请实施例对具体采用何种方式将视频文件转换为图片格式文件不做限定。
步骤12,对通过执行步骤1获取到的待入库数据进行数据清洗,得到入库数据;
为了保证后续模型训练的准确性以及训练效率,在数据入库前,人工智能模型训练系统可以对该些待入库数据进行数据清洗,去除重复数据以及质量较差的数据,在一种实施方式中,步骤12的具体实现方式可以包括:根据相似度算法,计算各所述待入库数据之间的相似度,并根据所述相似度,对所述待入库数据进行筛选,得到待入库数据集;将所述待入库数据集输入预设的清晰度评估模型,得到清晰度评估结果;根据所述清晰度评估结果,对所述待入库数据集进行数据清洗,得到入库数据。
在一种实施方式中,人工智能模型训练系统可以使用学习感知图像块相似度算法(Learned Perceptual Image Patch Similarity,LPIPS)来对待入库数据进行相似度识别,并根据相似度识别结果,对相似度大于预设相似度阈值的待入库数据进行筛选过滤。
例如,在一种实施方式中,人工智能模型训练系统可以将待入库图像输入Alexnet神经网络模型中进行特征提取,对每一层的输出结果激活后,进行归一化处理,例如,可以将针对第l层得到的结果记为
接着,利用向量缩放激活通道并计算l2距离,最后在空间上求平均值,根据如下公式[1]在信道上求和计算得到图像之间的相似度距离:
根据通过上述方法计算确定的图片相似度,对待入库数据中的相同图片进行去重过滤。这里需要说明的是,在本申请实施例中除了可以使用LPIPS算法计算图片相似度以外,还可以使用峰值信噪比算法(peaksignal-to-noise ratio,PSNR)以及结构相似性(Structural Similarity,SSIM)算法等方式来计算图片相似度,从而实现数据去重,本申请实施例对具体采用何种相似度算法不做具体限定。
在通过上述方法完成对待入库数据的去重过滤后,人工智能模型训练系统可以通过图像质量评估模型(比如可以为图像清晰度评估模型)对去重后的待入库数据进行图像质量评估,并根据图像质量评估结果,对去重后的待入库数据进行二次清洗,进而得到入库数据。
另外这里还需要说明的是,在本申请实施例中可以使用图像增强因子算法(lmageEnhancement Factor,IEF),通用质量指标(Universal Quality Index,UQI)或者PSNR算法等方法来进行图像质量评估,本申请实施例对具体采用何种图像质量评估算法不做具体限定。
步骤13,将通过执行步骤12获取到的入库数据保存至样本数据库,并对入库数据进行数据增广,得到待标注数据集;
在本申请实施例中,人工智能模型训练系统可以通过旋转、镜像、裁剪或者多个组合对样本数据库中的数据进行数据扩充,实现对数据集的增广,进而根据数据增广处理后得到的数据构建待标注数据集。
步骤14,对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;
这里需要说明的是,为了提高数据标注效率,在本申请实施例中,人工智能模型训练系统可以创建数据标注任务,并根据系统当前所配置的数据标注模型,对数据标注任务进行分发,通过并行处理以及多模型协助处理的方式,对数据进行标注,具体地,本申请实施例所提供的方法可以包括:根据所述待标注数据集,创建数据标注任务;根据预设的标注模型,对所述数据标注任务进行任务分配,通过所述标注模型,对所述待标注数据集进行数据标注。
在一种实施方式中,人工智能模型训练系统可以将生成的标注任务划分为多个子任务,并将这些子任务分配给不同的标注模型。
在本申请实施例中,人工智能模型训练系统可以提供人工手动标注以及智能标注两种标注方法。其中,手动标注可以通过人工智能模型训练系统上安装的标注工具实现,比如,LabelImg标注工具、VGG图像注释器、计算机视觉注释工具(Computer VisionAnnotation Tool,CVAT)或者视觉对象标记工具(VoTT),本申请实施例对具体使用何种标注工具进行手动标注不做具体限定。
另外,这里还需要说明的是,人工智能模型训练系统还可以使用预先训练的神经网络模型进行自动标注,比如,可以使用基于YOLOv5算法,或者YOLOv8算法来训练神经网络模型,进行智能标注。
训练样本数据的标注质量对模型训练和测试结果具有重要影响,因而在本申请实施例中,人工智能模型训练系统可以对数据标注的结果进行审核,针对有问题的标注结果,人工智能模型训练系统可以将该数据分配给其他标注模型或者标注工具进行重新标注,在完成对所有标注结果的审核后,可以人工智能模型训练系统将根据标注数据生成训练样本数据集。
步骤15,根据通过执行步骤14得到的训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
具体地,人工智能模型训练系统首先可以使用训练样本集进行YOLOV8检测网络的学习,进而确定模型的权重文件,进而完成人工智能模型的训练。
在一种实施方式中,步骤15的具体实现方式可以包括:
子步骤1501,将准备好的训练样本集划分为训练集、验证集和测试集;
子步骤1502,设置学习率、批处理大小、训练轮数等参数,同时设置权重初始化、正则化等训练策略;
子步骤1503,根据上述步骤所设置的训练策略以及训练集、验证集和测试集数据,对模型仓库中的各模型进行模型训练,训练过程中需要不断观察训练损失和验证损失的变化,以便及时调整训练策略,最终完成模块训练。
同时,为了保证训练得到的模型效果,在本申请实施例中,人工智能模型训练系统可以对各模型进行评分,并选择评分最高的算法模型进行生产部署。
采用本申请实施例提供的数据管理方法,针对采集到的用于人工智能模型训练的数据,在存入数据库前,首先会对该些待入库数据进行数据清洗,得到入库数据,确定各入库数据的类型标签,并按照类型标签将入库数据保存至样本数据库,同时对入库数据进行数据增广,得到待标注数据集;创建数据标注任务,并按照数据标注工具对待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集,使用训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署,从而实现了从数据入库,数据标注、训练样本生成、模型训练到模型部署的全流程数据管理。相比与现有的训练数据管理方法,采用本申请实施例所提供的数据管理方法,在数据入库前,确定了待入库数据的类型标签,并按照数据的类型标签对数据进行存储,方便后续的数据查询以及管理;其次,在数据标注阶段,为了提高数据标注效率,提供了基于人工标注以及智能标注的多种标注工具,并可以根据标注工具的不同,灵活地进行标注任务的划分,提高了数据标注的效率;最后,通过对标注结果进行审核,提高了数据标注的准确性,进而后续使用基于审核结果构建训练样本集合进行模型训练,极大地提升了人工智能模型的研发效率以及性能。
在一种实施方式中,本申请实施例还提供了一种数据管理装置,用以解决现有样本数据库存在的样本数据查询效率低以及缺少针对样本数据标注工具的管理的问题。该数据管理装置的具体结构示意图如图2所示,包括:数据获取单元21、数据清洗单元22、数据增广单元23、数据标注单元24以及模型部署单元25。
其中,数据获取单元21,用于获取待入库数据;
数据清洗单元22,用于对所述待入库数据进行数据清洗,得到入库数据;
数据增广单元23,用于将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;
数据标注单元24,用于对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;
模型部署单元25,用于根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
在一种实施方式中,数据获取单元21,具体用于:获取待入库数据,确定所述待入库数据对应的类型标签。
在一种实施方式中,数据获取单元21,具体用于:确定所述待入库数据的数据格式;当确定所述待入库数据为视频格式数据时,对所述待入库数据进行抽帧处理,得到所述待入库数据对应的图片格式数据,通过图像识别技术,确定所述图像格式数据对应的类型标签;当确定所述待入库数据为非视频格式数据时,获取所述待入库数据对应的物理文件,根据所述物理文件,确定所述待入库数据对应的类型标签。
在一种实施方式中,数据清洗单元22,具体用于:根据相似度算法,计算各所述待入库数据之间的相似度,并根据所述相似度,对所述待入库数据进行筛选,得到待入库数据集;将所述待入库数据集输入预设的清晰度评估模型,得到清晰度评估结果;根据所述清晰度评估结果,对所述待入库数据集进行数据清洗,得到入库数据。
在一种实施方式中,数据标注单元24,具体用于:根据所述待标注数据集,创建数据标注任务;根据预设的标注模型,对所述数据标注任务进行任务分配,通过所述标注模型,对所述待标注数据集进行数据标注。
采用本申请实施例提供的数据管理装置,针对采集到的用于人工智能模型训练的数据,在存入数据库前,首先会对该些待入库数据进行数据清洗,得到入库数据,确定各入库数据的类型标签,并按照类型标签将入库数据保存至样本数据库,同时对入库数据进行数据增广,得到待标注数据集;创建数据标注任务,并按照数据标注工具对待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集,使用训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署,从而实现了从数据入库,数据标注、训练样本生成、模型训练到模型部署的全流程数据管理。相比与现有的训练数据管理方法,采用本申请实施例所提供的数据管理方法,在数据入库前,确定了待入库数据的类型标签,并按照数据的类型标签对数据进行存储,方便后续的数据查询以及管理;其次,在数据标注阶段,为了提高数据标注效率,提供了基于人工标注以及智能标注的多种标注工具,并可以根据标注工具的不同,灵活地进行标注任务的划分,提高了数据标注的效率;最后,通过对标注结果进行审核,提高了数据标注的准确性,进而后续使用基于审核结果构建训练样本集合进行模型训练,极大地提升了人工智能模型的研发效率以及性能。
图3是本申请的一个实施例电子设备的结构示意图。请参考图3,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图3中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据管理装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
上述如本申请图3所示实施例揭示的数据管理电子设备执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取待入库数据;对所述待入库数据进行数据清洗,得到入库数据;将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (11)

1.一种数据管理方法,其特征在于,包括:
获取待入库数据;
对所述待入库数据进行数据清洗,得到入库数据;
将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;
对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;
根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
2.根据权利要求1所述的方法,其特征在于,所述获取待入库数据,具体包括:
获取待入库数据,确定所述待入库数据对应的类型标签。
3.根据权利要求2所述的方法,其特征在于,所述确定所述待入库数据对应的类型标签,具体包括:
确定所述待入库数据的数据格式;
当确定所述待入库数据为视频格式数据时,对所述待入库数据进行抽帧处理,得到所述待入库数据对应的图片格式数据,通过图像识别技术,确定所述图像格式数据对应的类型标签;
当确定所述待入库数据为非视频格式数据时,获取所述待入库数据对应的物理文件,根据所述物理文件,确定所述待入库数据对应的类型标签。
4.根据权利要求1所述的方法,其特征在于,所述对所述待入库数据进行数据清洗,得到入库数据,具体包括:
根据相似度算法,计算各所述待入库数据之间的相似度,并根据所述相似度,对所述待入库数据进行筛选,得到待入库数据集;
将所述待入库数据集输入预设的清晰度评估模型,得到清晰度评估结果;
根据所述清晰度评估结果,对所述待入库数据集进行数据清洗,得到入库数据。
5.根据权利要求1所述的方法,其特征在于,所述对所述待标注数据集进行数据标注,具体包括:
根据所述待标注数据集,创建数据标注任务;
根据预设的标注模型,对所述数据标注任务进行任务分配,通过所述标注模型,对所述待标注数据集进行数据标注。
6.一种数据管理装置,其特征在于,包括:
数据获取单元,用于获取待入库数据;
数据清洗单元,用于对所述待入库数据进行数据清洗,得到入库数据;
数据增广单元,用于将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;
数据标注单元,用于对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;
模型部署单元,用于根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
7.根据权利要求6所述的装置,其特征在于,数据获取单元,具体用于:
确定所述待入库数据的数据格式;
当确定所述待入库数据为视频格式数据时,对所述待入库数据进行抽帧处理,得到所述待入库数据对应的图片格式数据,通过图像识别技术,确定所述图像格式数据对应的类型标签;
当确定所述待入库数据为非视频格式数据时,获取所述待入库数据对应的物理文件,根据所述物理文件,确定所述待入库数据对应的类型标签。
8.根据权利要求6所述的装置,其特征在于,数据清洗单元,具体用于:
根据相似度算法,计算各所述待入库数据之间的相似度,并根据所述相似度,对所述待入库数据进行筛选,得到待入库数据集;
将所述待入库数据集输入预设的清晰度评估模型,得到清晰度评估结果;
根据所述清晰度评估结果,对所述待入库数据集进行数据清洗,得到入库数据。
9.一种数据管理设备,包括:
处理器;
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器执行以下操作:
获取待入库数据;
对所述待入库数据进行数据清洗,得到入库数据;
将所述入库数据保存至样本数据库,并对所述入库数据进行数据增广,得到待标注数据集;
对所述待标注数据集进行数据标注,并对数据标注结果进行数据校验,得到训练样本数据集;
根据所述训练样本集对模型仓库中的模型进行训练,根据模型训练结果对所述模型仓库中的各模型进行评分,得到模型评分,并根据所述模型评分,选择模型进行生产部署。
10.一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子设备执行时,使得所述电子设备执行如权利要求1-5任一权项所述的方法。
11.一种计算机程序产品,其特征在于,包括计算机程序,该计算机程序被处理器执行时实现如权利要求1-5任一权项所述的数据管理方法。
CN202410168098.5A 2024-02-05 2024-02-05 一种数据管理方法、装置、设备以及存储介质 Pending CN118132805A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410168098.5A CN118132805A (zh) 2024-02-05 2024-02-05 一种数据管理方法、装置、设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410168098.5A CN118132805A (zh) 2024-02-05 2024-02-05 一种数据管理方法、装置、设备以及存储介质

Publications (1)

Publication Number Publication Date
CN118132805A true CN118132805A (zh) 2024-06-04

Family

ID=91239633

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410168098.5A Pending CN118132805A (zh) 2024-02-05 2024-02-05 一种数据管理方法、装置、设备以及存储介质

Country Status (1)

Country Link
CN (1) CN118132805A (zh)

Similar Documents

Publication Publication Date Title
CN104035917B (zh) 一种基于语义空间映射的知识图谱管理方法和系统
CN110348393B (zh) 车辆特征提取模型训练方法、车辆识别方法及设备
CN110348392B (zh) 车辆匹配方法及设备
CN114282586A (zh) 一种数据标注方法、系统和电子设备
CN110570348A (zh) 一种脸部图像替换方法及设备
CN111258905B (zh) 缺陷定位方法、装置和电子设备及计算机可读存储介质
CN112446361A (zh) 一种训练数据的清洗方法及设备
CN110209863B (zh) 用于相似图片检索的方法与设备
CN116206334A (zh) 一种野生动物识别方法和装置
CN111931920A (zh) 基于级联神经网络的目标检测方法、装置及存储介质
CN118132805A (zh) 一种数据管理方法、装置、设备以及存储介质
CN110263618B (zh) 一种核身模型的迭代方法和装置
CN116805387A (zh) 基于知识蒸馏的模型训练方法、质检方法和相关设备
CN106776654B (zh) 一种数据搜索方法及装置
CN116740712A (zh) 红外图像的目标标注方法、装置及电子设备、存储介质
CN114782720A (zh) 文案的配图确定方法、装置、电子设备、介质及程序产品
CN114550129A (zh) 一种基于数据集的机器学习模型处理方法和系统
CN106708901B (zh) 网站内搜索词的聚类方法及装置
CN109710833B (zh) 用于确定内容节点的方法与设备
CN116071375B (zh) 图像分割方法和装置、存储介质及电子设备
CN113888567A (zh) 一种图像分割模型的训练方法、图像分割方法及装置
CN112861874A (zh) 一种基于多滤波器去噪结果的专家场去噪方法及系统
CN116386060B (zh) 一种水尺数据自动标注方法、装置、设备及介质
CN106776652B (zh) 数据处理方法及装置
CN118051228A (zh) 页面模板的确定方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination