Nothing Special   »   [go: up one dir, main page]

CN114003750B - 物料上线方法、装置、设备及存储介质 - Google Patents

物料上线方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114003750B
CN114003750B CN202111273705.7A CN202111273705A CN114003750B CN 114003750 B CN114003750 B CN 114003750B CN 202111273705 A CN202111273705 A CN 202111273705A CN 114003750 B CN114003750 B CN 114003750B
Authority
CN
China
Prior art keywords
text
character
word
word segmentation
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111273705.7A
Other languages
English (en)
Other versions
CN114003750A (zh
Inventor
李志宏
刘雪毅
王浩
卢春辉
范宜发
王芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Bank Co Ltd
Original Assignee
Ping An Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Bank Co Ltd filed Critical Ping An Bank Co Ltd
Priority to CN202111273705.7A priority Critical patent/CN114003750B/zh
Publication of CN114003750A publication Critical patent/CN114003750A/zh
Application granted granted Critical
Publication of CN114003750B publication Critical patent/CN114003750B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及线上物料管理领域,公开了一种物料上线方法、装置、设备以及存储介质,该方法获取用户上传至审核的物料;通过OCR文本识别技术对图片进行文本识别,得到图片识别文本信息;使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;根据敏感词词库,对文本分词进行敏感词过滤;若过滤成功,则通过大数据标签库对文本分词进行标签匹配,得到对应的标签添加到物料的审核页面,经签报后发布上线。本方法通过对上传的图片内容进行OCR文本识别,得出文本内容,对文本内容通过标签库打标,敏感词过滤,快速实现图片,文本内容的打标,内容合法正规性审核。减少运营操作流程,从而达到快速上线物料的目的。

Description

物料上线方法、装置、设备及存储介质
技术领域
本发明涉及线上物料管理领域,尤其涉及一种物料上线方法、装置、设备及存储介质。
背景技术
随着人工智能技术的发展,尤其是在业务上线审核应用中,智能上线审核已成为一种趋势。目前的智能上线审核方式中,主要是通过物料库等相关运营位置对待上线的图片、文本素材展示后,然后分别对图片和文本素材做标签,但是现有的标签方式仅仅是基于图片或文本素材中的实词汇的实际语义进行标签,若文本素材或者图片中存在多个语义不同的词汇时,其标签会存在多个,而多个标签使得该业务上线的审核可能存在多个标准,导致业务最终上线分类不准确,从而导致业务审核的效率低。
发明内容
本发明的主要目的在于以解决现有的物料上线过程中,打标签准确率低的技术问题。
本发明第一方面提供了一种物料上线方法,该方法包括:获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;若所述过滤结果为过滤失败,则将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;若所述过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。
可选的,在本发明第一方面的第一种实现方式中,所述通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息包括:通过预设的光学字符识别技术识别所述物料图片中的文字,得到所述物料图片对应的字符集;将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符;将所有字符对应的预测字符按顺序汇总得到所述物料图片的图片识别文本信息。
可选的,在本发明第一方面的第二种实现方式中,所述将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符包括:将每个所述字符转换成对应的字符向量,并所述字符向量输入至所述语义纠正模型中;通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该字符对应的查询字符向量、键字符向量和值字符向量;对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符。
可选的,在本发明第一方面的第三种实现方式中,所述使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词包括:调用预设的分词工具,通过所述分词工具的字典将所述图片识别文本信息和所述物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;获取所述分词工具划分后的参考分词,根据所述参考分词的所述字符长度查找对应的预设词典,并判断所述预设词典中是否存有所述参考分词;当所述预设词典中未存有所述参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到所述文本分词。
可选的,在本发明第一方面的第四种实现方式中,所述过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签包括:基于所述特征词和所述排除词遍历所述大数据标签库,匹配出所述文本分词对应的大数据标签;判断所述文本分词中是否包含所述大数据标签对应的排除词;若是,则确定所述文本分词没有对应的候选标签;若否,则将所述大数据标签作为所述文本分词的候选标签。
可选的,在本发明第一方面的第五种实现方式中,在所述获取用户终端上传至物料系统的物料信息之前,还包括:
获取历史审核文本,对所述历史审核文本进行分词处理,得到历史文本分词,将所述历史文本分词转换成对应的词向量;从所述词向量中随机选择N个历史文本分词作为初始聚类中心,其中,N为正整数;分别计算所有历史文本分词到每一个所述初始聚类中心的余弦距离;将与所述初始聚类中心的余弦距离在距离最近的历史文本分词划分为同一标签类别;计算所述标签类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;将所述聚类中心作为大数据标签,将对应标签类别中的历史文本分词作为大数据标签对应的特征词;根据所述大数据标签和所述特征词得到大数据标签库。
可选的,在本发明第一方面的第六种实现方式中,所述将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线包括:将所述标签添加到对应的物料信息中,并将添加标签的物料信息上传至所述物料系统;通过所述物料系统,将添加标签的物料信息提交至预设的办公自动化系统进行流程签报;当所述办公自动化系统对添加标签的物料信息签报完成时,将所述添加标签的物料信息发布上线。
本发明第二方面提供了一种物料上线装置,包括:获取模块,用于获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;识别模块,用于通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;分词模块,用于使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;过滤模块,用于根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;标记模块,用于当所述过滤结果为过滤失败时,将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;筛选模块,用于当所述过滤结果为过滤成功时,通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;统计模块,用于统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;计算模块,用于根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;打标模块,用于将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;上线模块,用于将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。
可选的,在本发明第二方面的第一种实现方式中,所述识别模块具体包括:字符集识别单元用于通过预设的光学字符识别技术识别所述物料图片中的文字,得到所述物料图片对应的字符集;字符纠正单元用于将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符;字符汇总单元用于将所有字符对应的预测字符按顺序汇总得到所述物料图片的图片识别文本信息。
可选的,在本发明第二方面的第二种实现方式中,所述字符纠正单元具体包括:将每个所述字符转换成对应的字符向量,并所述字符向量输入至所述语义纠正模型中;通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该字符对应的查询字符向量、键字符向量和值字符向量;对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符。
可选的,在本发明第二方面的第三种实现方式中,所述分词模块用于:调用预设的分词工具,通过所述分词工具的字典将所述图片识别文本信息和所述物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;获取所述分词工具划分后的参考分词,根据所述参考分词的所述字符长度查找对应的预设词典,并判断所述预设词典中是否存有所述参考分词;当所述预设词典中未存有所述参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到所述文本分词。
可选的,在本发明第二方面的第四种实现方式中,所述筛选模块具体用于:基于所述特征词和所述排除词遍历所述大数据标签库,匹配出所述文本分词对应的大数据标签;判断所述文本分词中是否包含所述大数据标签对应的排除词;若是,则确定所述文本分词没有对应的候选标签;若否,则将所述大数据标签作为所述文本分词的候选标签。
可选的,在本发明第二方面的第五种实现方式中,所述物料上线装置还包括标签聚类模块,所述标签聚类模块用于:获取历史审核文本,对所述历史审核文本进行分词处理,得到历史文本分词,将所述历史文本分词转换成对应的词向量;从所述词向量中随机选择N个历史文本分词作为初始聚类中心,其中,N为正整数;分别计算所有历史文本分词到每一个所述初始聚类中心的余弦距离;将与所述初始聚类中心的余弦距离在距离最近的历史文本分词划分为同一标签类别;计算所述标签类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;将所述聚类中心作为大数据标签,将对应标签类别中的历史文本分词作为大数据标签对应的特征词;根据所述大数据标签和所述特征词得到大数据标签库。
可选的,在本发明第二方面的第六种实现方式中,所述上线模块具体用于:将所述标签添加到对应的物料信息中,并将添加标签的物料信息上传至所述物料系统;通过所述物料系统,将添加标签的物料信息提交至预设的办公自动化系统进行流程签报;当所述办公自动化系统对添加标签的物料信息签报完成时,将所述添加标签的物料信息发布上线。
本发明第三方面提供了一种物料上线设备,包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;所述至少一个处理器调用所述存储器中的所述指令,以使得所述物料上线设备执行上述的物料上线方法的各个步骤。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的物料上线方法的各个步骤。
本发明的技术方案中,获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;若所述过滤结果为过滤失败,则将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;若所述过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。本方法采取光学字符识别技术,通过对上传的图片内容进行OCR文本识别,得出文本内容,再对文本内容通过标签库打标,敏感词过滤,可以快速实现图片,文本内容的打标,内容的合法正规性审核。减少运营操作流程,从而达到快速上线物料的目的。
附图说明
图1为本发明实施例中物料上线方法的第一个实施例示意图;
图2为本发明实施例中物料上线方法的第二个实施例示意图;
图3为本发明实施例中物料上线方法的第三个实施例示意图;
图4为本发明实施例中物料上线方法的第四个实施例示意图;
图5为本发明实施例中物料上线装置的一个实施例示意图;
图6为本发明实施例中物料上线装置的另一个实施例示意图;
图7为本发明实施例中物料上线设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种物料上线方法、装置、设备以及存储介质,该方法包括:获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;若所述过滤结果为过滤失败,则将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;若所述过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。本方法采取光学字符识别技术,通过对上传的图片内容进行OCR文本识别,得出文本内容,再对文本内容通过标签库打标,敏感词过滤,可以快速实现图片,文本内容的打标,内容的合法正规性审核。减少运营操作流程,从而达到快速上线物料的目的。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中物料上线方法的第一个实施例包括:
步骤101,获取用户终端上传至物料系统的物料信息,其中,物料信息至少包括物料图片和物料文本信息;
在本实施例中,物料为广告物料,基本的广告物料形式是文字、图片、Flash类型的物料数据,为了保证广告物料数据的内容合法,并且上线后可以正常被访问,需要对物料进行审核,当用户上传物料至审核页面时,用户可单独上传物料图片和物料文本信息;也可在系统后台接入办公套件接口,实现用户一次上传包括但不限于PPT、DOC格式的整体文档,系统在线解析处理得到整体文档中的物料图片和物料文本信息。
步骤102,通过预设的光学字符识别技术对物料图片进行文本识别,得到图片识别文本信息;
在本实施例中,对应物料图片中的文字信息,由于物料的图片大小样式不同,待物料图片的文字信息所在的区域也各不相同,需要通过图像检测算法确定物料图片中的文字区域,再通过光学字符识别技术识别文字区域中的字符。
在该步骤中,图像检测算法是指对给定的包含有不特定字体文字的图片中定位出不特定字体文字所在的区域,以得到不特定字体文字区域。可选地,该不特定字体文字区域为一矩形框。例如:一幅包含有不特定字体文字的原始图像,通过图像检测算法框选出包含有不特定字体文字的图片的不特定字体文字区域,包含有不特定字体文字的图片中非文字区域(如空白背景)不做考虑。其中,图像检测算法可以是dlib图像检测算法也可以是opencv库图像检测算法,还可以是基于深度学习的图像检测算法。
优选地,本实施例中采用基于深度学习的图像检测算法对原始图像集进行检测,分析出不特定字体文字的文字区域。通过获取不特定字体文字区域,以便后续更加高效地对不特定字体文字进行处理。
步骤103,使用分词工具对图片识别文本信息及物料文本信息进行分词操作,得到文本分词;
在本实施例中,系统采用jieba分词工具进行分词,分词工具通过对照词典生成句子的有向无环图,再根据选择的模式不同,根据词典寻找最短路径后对句子进行截取或直接对句子进行截取。
步骤104,根据预设的敏感词词库,对文本分词进行敏感词过滤,得到过滤结果,其中,过滤结果包括过滤成功或过滤失败;
在本实施例中,文本分词应与敏感词词库遍历比对,当对文本分词遍历结束后,若文本分词存在敏感词词库中的词汇时,则为过滤失败;若文本分词不存在敏感词词库中的词汇时,则为过滤成功。
步骤105,若过滤结果为过滤失败,则将图片识别文本信息和物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和物料文本信息返回至用户终端;
在该步骤中,需要对图片识别文本信息及物料文本信息的文本分词制作一个映射表,对识别出敏感词的文本分词同步记录其在用户上传物料中的位置信息,用于后续系统过滤失败时,实时反馈到用户提交的图片识别文本信息及物料文本信息中,便于用户定位修改。
在本实施例中,当系统检测到文本分词为敏感词时,通过映射表,找到并亮显文本分词在用户提交的物料文本信息或物料图片中的具体位置,用户可在线编辑修改物料文本信息或物料图片,当用户修改后系统能实时对修改内容进行二次的物料图片进行文本识别、对图片识别文本信息及物料文本信息进行分词、对更新的文本分词与敏感词词库遍历比对,二次过滤。
步骤106,若过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从大数据标签库中筛选大数据标签作为文本分词对应的候选标签;
在实际应用中,为了提高标签对物料的表征能力,方便使用者依据标签检索相关联的物料,系统在为文本分词的标签匹配过程中为每一次匹配附上了权重,对于匹配出的每一个标签,都会带上一个标签的权重值,用来代表标签与物料的匹配或相关程度。
在本实施例中,大数据标签库中每一个大数据标签,需要为其配置特征词和排除词。特征词指的是与该标签具有相同或相近的含义的一系列词,特征词可以是标签的别称、标签下的子类或者是其他跟标签相关的词等,通常标签本身也是其中一个特征词,比如“黄金”这个标签的特征词包括“黄金”、“金价”、“买金”、“购金”等等。
步骤107,统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;
在本实施例中,遍历全文建立一个映射集,该映射集中包含每一特征词及其对应排除词的位置信息和总的出现次数,通过建立该映射表,为下一步计算权重公式做好统计准备。
步骤108,根据预设的权重公式、位置和次数计算候选标签对应的权重分值;
在本实施例中,通过对历史物料和标签之间的分析,可预设多种不同计算方式,通过在不同位置的权重分配比计算得出的。例如,特征词在标题处每出现一次权重分值为A分,副标题处每出现一次权重分值为B分,首段处每出现一次权重分值为C分,末尾段处每出现一次权重分值为D分,其余处每出现一次权重分值为E分,特征词对应的排除词每出现一次对应减去的权重分值为F分,可以简单的列出其中一种可能的权重公式,即:特征词总分=A+B+C+D+E-F。通过调整不同的位置权重分值的大小,得出的总分值相应也会变动,同样的一份物料信息也有可能得出不同的标签。
在该步骤中,为了提高大数据标签对物料的表征能力和提供更灵活的标签服务,需对物料的标签附上了权重。也就是说对于系统给物料生成每一个大数据标签,都会带上一个大数据标签的权重值,用来代表大数据标签与物料的匹配或相关程度。具体实现方式是:因为特征词在物料中出现的位置是有重要性区分的,在标题出现的特征词最重要,依次是摘要、正文开头位置等。因此,可将标题权重设为3,摘要权重设为2,正文第一句权重设为1,第一句之后的每一句权重等差线性递减,最后一句的权重为0(因为通常资源的最后一句是引申扩展作用,与通篇主题可能相差甚远)。然后计算特征词在物料中出现的次数及根据出现位置和次数计算的权重和,然后用物料中出现的特征词权重和除以该标签特征词总数与物料权重和的乘积计算标签权重,即标签权重=命中特征词的权重和/(标签所有特征词个数*资源权重和)*100,最终得到的标签权重取值范围在0到100之间。标签权重越高,表示标签与物料的相关性越高。
步骤109,将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签;
在本实施例中,通过计算步骤108中每一特征词计算得出的总权重分值之后,确定其中权重分值最大的候选标签为该物料的标签。
步骤110,将标签添加到对应的物料信息中,并将添加标签的物料信息发送至物料系统进行物料上线。
在本实施例中,当标签添加至物料审核页面后,系统通过审核后,审核过滤步骤已经基本完成。后续仍需要按照公司组织架构,经流程所需领导审核签报确认,方能发布上线,目的为防止存在错别字或一些政策性风险。
本发明的技术方案中,通过获取用户终端上传至物料系统的物料信息,其中,物料信息至少包括物料图片和物料文本信息;通过预设的光学字符识别技术对物料图片进行文本识别,得到图片识别文本信息;使用分词工具对图片识别文本信息及物料文本信息进行分词操作,得到文本分词;根据预设的敏感词词库,对文本分词进行敏感词过滤,得到过滤结果,其中,过滤结果包括过滤成功或过滤失败;若过滤结果为过滤失败,则将图片识别文本信息和物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和物料文本信息返回至用户终端;若过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从大数据标签库中筛选大数据标签作为文本分词对应的候选标签;统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;根据预设的权重公式、位置和次数计算候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签;将标签添加到对应的物料信息中,并将添加标签的物料信息发送至物料系统进行物料上线。本方法采取光学字符识别技术,通过对上传的图片内容进行OCR文本识别,得出文本内容,再对文本内容通过标签库打标,敏感词过滤,可以快速实现图片,文本内容的打标,内容的合法正规性审核。减少运营操作流程,从而达到快速上线物料的目的。
请参阅图2,本发明实施例中物料上线方法的第二个实施例包括:
步骤201,获取用户终端上传至物料系统的物料信息,其中,物料信息至少包括物料图片和物料文本信息;
步骤202,通过预设的光学字符识别技术对物料图片进行文本识别,得到图片识别文本信息;
在本实施例中,该物料图片为需要进行文字识别的任一图片,且得到的图片识别文本信息可以为空,也可以包括从物料图片中识别出的至少一个字符,其中,当图片识别文本信息包括从物料图片中识别出的至少一个字符时,触发执行步骤203。且本发明实施例所描述的文字识别模型为基于连接时序分类CTC(Connectionist TemporalClassification)的文字识别模型,且基于连接时序分类CTC的文字识别模型主要由两部分组成:图片特征提取网络(如CNN、VGG、ResNet等)及文字分类网络(如RNN、LSTM等)。
步骤203,将每个所述字符转换成对应的字符向量,并所述字符向量输入至所述语义纠正模型中;
本发明实施例中,在识别出物料图片中的字符之后,文字识别装置可以通过字向量嵌入(word-embedding)技术将识别到的每个字符转化成对应的字符向量,且每个字符对应一个字符向量。例如,当识别到的字符集合为“平安”时,文字识别装置可以将“平安”转换成2*512的矩阵,也即每个字符由512维的字符向量代替。
步骤204,通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该字符对应的查询字符向量、键字符向量和值字符向量;
该步骤中,所述矩阵WQ为查询矩阵,字符向量与所述查询矩阵相乘,得到查询字符向量;所述矩阵WK为键矩阵,字符向量与所述键矩阵相乘,得到键字符向量;所述矩阵WV为值矩阵,字符向量与所述值矩阵相乘,得到值字符向量;通过三个预先确定出的矩阵WQ、矩阵WK及矩阵WV,将输入的字符向量分别相乘,可理解为得出三个对应的字符特征。
具体的,矩阵WQ、矩阵WK及矩阵WV在模型训练之初,其值为随机设定,通过大量的训练样本,对所述语义纠正模型进行训练,不断地调整,得出预先确定出的矩阵WQ、矩阵WK及矩阵WV。
步骤205,对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符;
该步骤中,通过对得出的查询字符向量、键字符向量及值字符向量执行编解码操作,可理解为初始字符通过三个矩阵提取出对应的特征,最终解码把三个向量上的特征值融合得到每个字符对应的预测字符。
在具体应用中,由于现今光学字符识别技术存在一定概率的识别误差,为降低误差发生的概率,需加入语义纠正模型,可根据语义纠正模型,联系需纠正的前后字符向量,对识别精度较低的识别字符向量进行纠正。语义纠正模块的训练过程需要通过人工标注结果与历史光学字符识别技术场景下的检测识别结果;例如,人工标注的结果是“2019年5月3日”,而通过深度学习文字检测和识别模型得到的结果是“2019午5月3日”。这两对就构成一组训练样本。让语义纠正模块学到根据类别信息指导解码的方式,最终得到规范的符合语义的文本信息。例如,当通过预先训练好的文字识别模型识别出的图片识别文本信息为“芨芨可危”时,文字识别装置将“芨芨可危”对应的向量输入至训练好的语义纠正模块进行语义的纠正,得到对“芨芨可危”语义纠正后的文字“岌岌可危”,进而将“岌岌可危”作为图像最终的文字识别结果。
步骤206,将所有字符对应的预测字符按顺序汇总得到物料图片的图片识别文本信息;
步骤207,使用分词工具对图片识别文本信息及物料文本信息进行分词操作,得到文本分词;
步骤208,根据预设的敏感词词库,对文本分词进行敏感词过滤,得到过滤结果,其中,过滤结果包括过滤成功或过滤失败;
步骤209,若过滤结果为过滤失败,则将图片识别文本信息和物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和物料文本信息返回至用户终端;
步骤210,若过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从大数据标签库中筛选大数据标签作为文本分词对应的候选标签;
步骤211,统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;
步骤212,根据预设的权重公式、位置和次数计算候选标签对应的权重分值;
步骤213,将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签;
步骤214,将标签添加到对应的物料信息中,并将添加标签的物料信息发送至物料系统进行物料上线。
本实施例在上一实施例的基础上,详细描述了通过预设的光学字符识别技术识别物料图片中的文字,得到物料图片对应的字符集;将字符集中的每个字符转换成对应的字符向量,并将字符向量输入光学字符识别技术的语义纠正模型,得到每个字符对应的预测字符;将所有字符对应的预测字符按顺序汇总得到物料图片的图片识别文本信息的过程。通过采用语义纠正模型,提高了识别字符的准确率,降低了错别字出现的概率。
请参阅图3,本发明实施例中物料上线方法的第三个实施例包括:
步骤301,获取用户终端上传至物料系统的物料信息,其中,物料信息至少包括物料图片和物料文本信息;
步骤302,通过预设的光学字符识别技术对物料图片进行文本识别,得到图片识别文本信息;
步骤303,调用预设的分词工具,通过分词工具的字典将图片识别文本信息和物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;
优选地,jieba分词基本的过程为:基于Trie树(字典树)结构实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)。根据字典文件生成trie树。字典在生成trie树的同时,也把每个词的出现次数转换为了频率;对待分词句子,根据字典文件生成的trie树,生成DAG,实际上通俗的说,就是对待分词句子,根据给定的词典进行查词典操作,生成几种可能的句子切分。jieba在DAG中记录的是句子中某个词的开始位置,从0到n-1(n为句子的长度),每个开始位置作为字典的键,value是个list,其中保存了可能的词语的结束位置(通过查字典得到词,开始位置+词语的长度得到结束位置)。采用了动态规划查找最大概率路径,找出基于词频的最大切分组合。查找待分词句子中已经切分好的词语,对该词语查找该词语出现的频率(次数/总数),如果没有该词,就把词典中出现频率最小的那个词语的频率作为该词的频率,也就是说P(某词语)=FREQ.get(‘某词语’,min_freq)。根据动态规划查找最大概率路径的方法,对句子从右往左反向计算最大概率,P(NodeN)=1.0,P(NodeN-1)=P(NodeN)*Max(P(倒数第一个词))…依次类推,最后得到最大概率路径,得到最大概率的切分组合。
步骤304,获取分词工具划分后的参考分词,根据参考分词的字符长度查找对应的预设词典,并判断预设词典中是否存有参考分词;
在本实施例中,通过获取图片识别文本信息和物料文本信息,调用分词工具,以使分词工具将图片识别文本信息和物料文本信息划分为多个预设长度的字符,根据预设长度的字符查找对应的预设词典,判断预设词典中是否存有字符,在预设词典中未存有字符时,说明字符存在识别异常的情况,在这种情况下,将未存有的字符通过模糊匹配算法筛选出目标字符,从而通过模糊匹配算法实现文字识别,提高文字识别效率。
步骤305,当预设词典中未存有参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到文本分词;
在实际应用中,模糊匹配算法是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,将操作次数作为编辑距离,在编辑距离越小的两个字符串越相似,当编辑距离为0时,两字符串相等,从而实现对字符的识别。
在具体实现中,通过BK-tree算法查找编辑距离不大于该词长度的词,例如不存在“中园”,则从过BK-tree查找编辑距离不大于该词长度的词可为“中国”,其中编辑距离为字符串A到B的编辑距离,通过使用插入、删除和替换三种操作,最少需要多少步可以把A变成B。例如,从FAME到GATE需要两步,两次替换,从GAME到ACM则需要三步,包括删除G和E再添加C,将筛选出的“中国”作为目标字符进行展示,从而通过模糊匹配算法实现文本的识别,提高文本识别的准确性。
步骤306,根据预设的敏感词词库,对文本分词进行敏感词过滤,得到过滤结果,其中,过滤结果包括过滤成功或过滤失败;
步骤307,若过滤结果为过滤失败,则将图片识别文本信息和物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和物料文本信息返回至用户终端;
步骤308,若过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从大数据标签库中筛选大数据标签作为文本分词对应的候选标签;
步骤309,统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;
步骤310,根据预设的权重公式、位置和次数计算候选标签对应的权重分值;
步骤311,将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签;
步骤312,将标签添加到对应的物料信息中,并将添加标签的物料信息发送至物料系统进行物料上线。
本发明实例在前面的发明实例的基础上,详细描述了调用预设的分词工具,通过分词工具的字典将图片识别文本信息和物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;获取分词工具划分后的参考分词,根据参考分词的字符长度查找对应的预设词典,并判断预设词典中是否存有参考分词;当预设词典中未存有参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到文本分词,并将文本分词进行展示的过程。通过采用预设的分词工具,快速地将识别出来的字符组成了带实际意义的文本分词,提高了文字识别效率。
请参阅图4,本发明实施例中物料上线方法的第四个实施例包括:
步骤401,获取用户终端上传至物料系统的物料信息,其中,物料信息至少包括物料图片和物料文本信息;
步骤402,通过预设的光学字符识别技术对物料图片进行文本识别,得到图片识别文本信息;
步骤403,使用分词工具对图片识别文本信息及物料文本信息进行分词操作,得到文本分词;
步骤404,根据预设的敏感词词库,对文本分词进行敏感词过滤,得到过滤结果,其中,过滤结果包括过滤成功或过滤失败;
步骤405,若过滤结果为过滤失败,则将图片识别文本信息和物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和物料文本信息返回至用户终端;
步骤406,基于特征词和排除词遍历大数据标签库,匹配出文本分词对应的大数据标签;
在本实施例中,由于语言的灵活性和词义的多样性,一个词的词义有时候会产生混淆,例如银行场景内的“黄金”标签指的是与黄金买卖相关的业务,而出现“黄金”这个词的资源不一定是与这些业务相关的,因此设置了排除词来进行约束,比如“黄金”的排除词有“黄金周”、“黄金假期”等等,当排除词“黄金周”出现在文本的分词中时,就知道特征词“黄金”不起作用了,从而避免生成错误的“黄金”标签。
在本实施例中,大数据标签库主要通过以下步骤得到:
获取历史审核文本,对历史审核文本进行分词处理,得到历史文本分词,将历史文本分词转换成对应的词向量,并设定聚类个数N个;随机选择N个历史文本分词作为初始聚类中心;分别计算所有历史文本分词到每一个初始聚类中心的余弦距离;将与初始聚类中心的余弦距离在预设的误差范围内的历史文本分词划分为同一标签类别;计算标签类别中词向量的均值向量,并就均值向量重新选择当前聚类中心,以及计算当前聚类中心与对应的初始聚类中心的余弦距离;若当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有历史文本分词对应的N个标签类别,以及标签类别对应的聚类中心;若当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有历史文本分词对应的N个标签类别,以及标签类别对应的聚类中心;将聚类中心作为大数据标签,将对应标签类别中的历史文本分词作为大数据标签对应的特征词;根据大数据标签和特征词得到大数据标签库。
在该步骤中,在计算余弦距离之前需要先将标注语段转换成词向量的形式,主要是将标注语段输入到word2vec模型中,通过word2vec模型输出标注语段对应的词向量。word2vec也叫word embeddings,中文名“词向量”,作用就是将自然语言中的字词转为计算机可以理解的稠密向量(Dense Vector)。word2vec主要分为CBOW(Continuous BagofWords)和Skip-Gram两种模式。CBOW是从原始语句推测目标字词;而Skip-Gram正好相反,是从目标字词推测出原始语句。CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。
在本实施例中,为了系统能够精准划分大数据标签中的特征词和排除词,提高大数据标签的准确率,采用历史物料对大数据标签库进行训练更新。通过聚类得到聚类中心后,可以以聚类中心作为对应大数据标签类别的标准,作为大数据标签,这是因为聚类是通过对给定的样本集,按照样本之间的距离大小,将样本集划分为多个簇,让簇内的点尽量紧密地连在一起,与簇中每个点中平均距离最近的即为聚类中心,所以聚类中心对应的特征词与相同指标类别中的其他特征词之间语义最为接近,可以作为该指标类别的标准,作为大数据标签,并建立特征词与大数据标签的映射关系。如维护一张数据库表,其中包含两列,keyword为所有待提取的文本分词,index_name为大数据标签,作为所有相同含义的大数据标签。
步骤407,判断文本分词中是否包含大数据标签对应的排除词;
在该步骤中,为防止识别出频率较高且无具体含义的助词、连词、副词等停用词,系统也设置了判断有无停用词的流程,有效提高了自动生成标签的准确率和关联性。
步骤408,若是,则确定文本分词没有对应的候选标签;
步骤409,若否,则将大数据标签作为文本分词的候选标签;
步骤410,统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;
步骤411,根据预设的权重公式、位置和次数计算候选标签对应的权重分值;
步骤412,将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签;
步骤413,将标签添加到对应的物料信息中,并将添加标签的物料信息上传至物料系统;
步骤414,通过物料系统,将添加标签的物料信息提交至预设的办公自动化系统进行流程签报;
步骤415,当办公自动化系统对添加标签的物料信息签报完成时,将添加标签的物料信息发布上线。
本发明实例在前面的发明实例的基础上,详细描述了标签的匹配过程,通过特征词和排除词,从大数据标签库中筛选大数据标签作为文本分词对应的候选标签;统计候选标签对应的特征词和排除词在图片识别文本信息和物料文本信息中出现的位置和次数;根据预设的权重公式、位置和次数计算候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为物料对应的标签。遍历大数据标签库中的特征词,将所有特征词与文本分词进行匹配,确定文本分词对应的大数据标签;判断文本分词中是否包含大数据标签对应的停用词;若是,则确定文本分词没有对应的候选标签;若否,则将大数据标签作为文本分词的候选标签;遍历全部文本分词执行上述步骤,得到所有文本分词对应的候选标签的过程。通过采取特征词和排除词的做法,给筛选出来的候选标签附加权重,能够更有效的得到相关性较高的标签,提高了自动化的效率和准确度。
上面对本发明实施例中物料上线方法进行了描述,下面对本发明实施例中物料上线装置进行描述,请参阅图5,本发明实施例中物料上线装置一个实施例包括:
获取模块501,用于获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;
识别模块502,用于通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;
分词模块503,用于使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;
过滤模块504,用于根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;
标记模块505,用于当所述过滤结果为过滤失败时,将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;
筛选模块506,用于当所述过滤结果为过滤成功时,通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;
统计模块507,用于统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;
计算模块508,用于根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;
打标模块509,用于将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;
上线模块510,用于将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。
本发明实施例中,所述物料上线装置运行上述物料上线方法,通过获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;若所述过滤结果为过滤失败,则将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;若所述过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。解决现有的物料上线过程中,打标签准确率低的技术问题。
请参阅图6,本发明实施例中物料上线装置的第二个实施例包括:
获取模块501,用于获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;
识别模块502,用于通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;
分词模块503,用于使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;
过滤模块504,用于根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;
标记模块505,用于当所述过滤结果为过滤失败时,将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;
筛选模块506,用于当所述过滤结果为过滤成功时,通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;
统计模块507,用于统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;
计算模块508,用于根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;
打标模块509,用于将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;
上线模块510,用于将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线。
在本实施例中,所述识别模块502包括:
字符集识别单元5021,用于通过预设的光学字符识别技术识别所述物料图片中的文字,得到所述物料图片对应的字符集;
字符纠正单元5022,用于将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符;
字符汇总单元5023,用于将所有字符对应的预测字符按顺序汇总得到所述物料图片的图片识别文本信息。
在本实施例中,所述字符纠正单元5022具体用于:将每个所述字符转换成对应的字符向量,并所述字符向量输入至所述语义纠正模型中;通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该字符对应的查询字符向量、键字符向量和值字符向量;对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符。
在本实施例中,所述分词模块503用于:调用预设的分词工具,通过所述分词工具的字典将所述图片识别文本信息和所述物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;获取所述分词工具划分后的参考分词,根据所述参考分词的所述字符长度查找对应的预设词典,并判断所述预设词典中是否存有所述参考分词;当所述预设词典中未存有所述参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到所述文本分词。
在本实施例中,所述筛选模块506具体用于:基于所述特征词和所述排除词遍历所述大数据标签库,匹配出所述文本分词对应的大数据标签;判断所述文本分词中是否包含所述大数据标签对应的排除词;
若是,则确定所述文本分词没有对应的候选标签;若否,则将所述大数据标签作为所述文本分词的候选标签。
在本实施例中,所述物料上线装置还包括标签聚类模块511,所述标签聚类模块511用于:获取历史审核文本,对所述历史审核文本进行分词处理,得到历史文本分词,将所述历史文本分词转换成对应的词向量;从所述词向量中随机选择N个历史文本分词作为初始聚类中心,其中,N为正整数;分别计算所有历史文本分词到每一个所述初始聚类中心的余弦距离;将与所述初始聚类中心的余弦距离在距离最近的历史文本分词划分为同一标签类别;计算所述标签类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;将所述聚类中心作为大数据标签,将对应标签类别中的历史文本分词作为大数据标签对应的特征词;根据所述大数据标签和所述特征词得到大数据标签库。
在本实施例中,所述上线模块510具体用于:将所述标签添加到对应的物料信息中,并将添加标签的物料信息上传至所述物料系统;通过所述物料系统,将添加标签的物料信息提交至预设的办公自动化系统进行流程签报;当所述办公自动化系统对添加标签的物料信息签报完成时,将所述添加标签的物料信息发布上线。
本实施例在上一实施例的基础上,详细描述了各个模块的具体功能以及部分模块的单元构成,通过新增的模块,采用历史物料对大数据标签库进行训练更新。通过聚类得到聚类中心后,可以以聚类中心作为对应大数据标签类别的标准,作为大数据标签,这是因为聚类是通过对给定的样本集,按照样本之间的距离大小,将样本集划分为多个簇,让簇内的点尽量紧密地连在一起,与簇中每个点中平均距离最近的即为聚类中心,所以聚类中心对应的特征词与相同指标类别中的其他特征词之间语义最为接近,可以作为该指标类别的标准,作为大数据标签,并建立特征词与大数据标签的映射关系。提高了标签和物料的相关性和准确度。
上面图5和图6从模块化功能实体的角度对本发明实施例中的中物料上线装置进行详细描述,下面从硬件处理的角度对本发明实施例中物料上线设备进行详细描述。
图7是本发明实施例提供的一种物料上线设备的结构示意图,该物料上线设备700可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)710(例如,一个或一个以上处理器)和存储器720,一个或一个以上存储应用程序733或数据732的存储介质730(例如一个或一个以上海量存储设备)。其中,存储器720和存储介质730可以是短暂存储或持久存储。存储在存储介质730的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对物料上线设备700中的一系列指令操作。更进一步地,处理器710可以设置为与存储介质730通信,在物料上线设备700上执行存储介质730中的一系列指令操作,以实现上述物料上线方法的各个步骤。
物料上线设备700还可以包括一个或一个以上电源740,一个或一个以上有线或无线网络接口750,一个或一个以上输入输出接口760,和/或,一个或一个以上操作系统731,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图7示出的物料上线设备结构并不构成对本申请提供的物料上线设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述物料上线方法的各个步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统或装置、单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种物料上线方法,其特征在于,所述物料上线方法包括:
获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;
通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;
使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;
根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;
若所述过滤结果为过滤失败,则将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;
若所述过滤结果为过滤成功,则通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;
统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;
根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;
将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;
将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线;
所述使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词包括:
调用预设的分词工具,通过所述分词工具的字典将所述图片识别文本信息和所述物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;
获取所述分词工具划分后的参考分词,根据所述参考分词的所述字符长度查找对应的预设词典,并判断所述预设词典中是否存有所述参考分词;
当所述预设词典中未存有所述参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到所述文本分词;
所述通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签包括:
基于所述特征词和所述排除词遍历所述大数据标签库,匹配出所述文本分词对应的大数据标签;
判断所述文本分词中是否包含所述大数据标签对应的排除词;
若是,则确定所述文本分词没有对应的候选标签;
若否,则将所述大数据标签作为所述文本分词的候选标签。
2.根据权利要求1所述的物料上线方法,其特征在于,所述通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息包括:
通过预设的光学字符识别技术识别所述物料图片中的文字,得到所述物料图片对应的字符集;
将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符;
将所有字符对应的预测字符按顺序汇总得到所述物料图片的图片识别文本信息。
3.根据权利要求2所述的物料上线方法,其特征在于,所述将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符包括:
将每个所述字符转换成对应的字符向量;
将所述字符向量输入至所述语义纠正模型中,通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到各字符对应的查询字符向量、键字符向量和值字符向量;
对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符。
4.根据权利要求1所述的物料上线方法,其特征在于,在所述获取用户终端上传至物料系统的物料信息之前,还包括:
获取历史审核文本,对所述历史审核文本进行分词处理,得到历史文本分词,将所述历史文本分词转换成对应的词向量;
从所述词向量中随机选择N个历史文本分词作为初始聚类中心,其中,N为正整数;
分别计算所有历史文本分词到每一个所述初始聚类中心的余弦距离;
将与所述初始聚类中心的余弦距离在距离最近的历史文本分词划分为同一标签类别;
计算所述标签类别中词向量的均值向量,并就所述均值向量重新选择当前聚类中心,以及计算所述当前聚类中心与对应的初始聚类中心的余弦距离;
若所述当前聚类中心与对应的初始聚类中心的余弦距离小于或等于预设阈值,则得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;
若所述当前聚类中心与对应的初始聚类中心的余弦距离大于预设阈值,则以当前聚类中心进行重新聚类,直到当前聚类中心与上一聚类中心的余弦距离小于或等于预设阈值,得到所有历史文本分词对应的N个标签类别,以及所述标签类别对应的聚类中心;
将所述聚类中心作为大数据标签,将对应标签类别中的历史文本分词作为大数据标签对应的特征词;
根据所述大数据标签和所述特征词得到大数据标签库。
5.根据权利要求1所述的物料上线方法,其特征在于,所述将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线包括:
将所述标签添加到对应的物料信息中,并将添加标签的物料信息上传至所述物料系统;
通过所述物料系统,将添加标签的物料信息提交至预设的办公自动化系统进行流程签报;
当所述办公自动化系统对添加标签的物料信息签报完成时,将所述添加标签的物料信息发布上线。
6.一种物料上线装置,其特征在于,所述物料上线装置包括:
获取模块,用于获取用户终端上传至物料系统的物料信息,其中,所述物料信息至少包括物料图片和物料文本信息;
识别模块,用于通过预设的光学字符识别技术对所述物料图片进行文本识别,得到图片识别文本信息;
分词模块,用于使用分词工具对所述图片识别文本信息及所述物料文本信息进行分词操作,得到文本分词;
过滤模块,用于根据预设的敏感词词库,对所述文本分词进行敏感词过滤,得到过滤结果,其中,所述过滤结果包括过滤成功或过滤失败;
标记模块,用于当所述过滤结果为过滤失败时,将所述图片识别文本信息和所述物料文本信息中识别为敏感词的文本分词进行标记,并将标记后的图片识别文本信息和所述物料文本信息返回至所述用户终端;
筛选模块,用于当所述过滤结果为过滤成功时,通过预设的大数据标签库中的特征词和排除词,从所述大数据标签库中筛选大数据标签作为所述文本分词对应的候选标签;
统计模块,用于统计所述候选标签对应的所述特征词和所述排除词在所述图片识别文本信息和所述物料文本信息中出现的位置和次数;
计算模块,用于根据预设的权重公式、所述位置和所述次数计算所述候选标签对应的权重分值;
打标模块,用于将所有权重分值中数值最大的权重分值对应的候选标签作为所述物料对应的标签;
上线模块,用于将所述标签添加到对应的物料信息中,并将添加标签的物料信息发送至所述物料系统进行物料上线;
所述分词模块用于:调用预设的分词工具,通过所述分词工具的字典将所述图片识别文本信息和所述物料文本信息划分为N个预设的字符长度的参考分词,其中N为不小于1的自然数;获取所述分词工具划分后的参考分词,根据所述参考分词的所述字符长度查找对应的预设词典,并判断所述预设词典中是否存有所述参考分词;当所述预设词典中未存有所述参考分词时,通过模糊匹配算法对未存有的参考分词进行筛选,得到所述文本分词;
所述筛选模块具体用于:基于所述特征词和所述排除词遍历所述大数据标签库,匹配出所述文本分词对应的大数据标签;判断所述文本分词中是否包含所述大数据标签对应的排除词;
若是,则确定所述文本分词没有对应的候选标签;若否,则将所述大数据标签作为所述文本分词的候选标签。
7.根据权利要求6所述的物料上线装置,其特征在于,所述识别模块具体包括:
字符集识别单元用于通过预设的光学字符识别技术识别所述物料图片中的文字,得到所述物料图片对应的字符集;
字符纠正单元用于将所述字符集中的每个字符转换成对应的字符向量,并将所述字符向量输入预设的语义纠正模型,得到每个字符对应的预测字符;
字符汇总单元用于将所有字符对应的预测字符按顺序汇总得到所述物料图片的图片识别文本信息。
8.根据权利要求7所述的物料上线装置,其特征在于,所述字符纠正单元具体包括:
将每个所述字符转换成对应的字符向量,并所述字符向量输入至所述语义纠正模型中;
通过所述语义纠正模型将每个所述字符对应的字符向量分别乘以预先确定出的矩阵WQ、矩阵WK及矩阵WV,得到该字符对应的查询字符向量、键字符向量和值字符向量;
对所述字符对应的查询字符向量、键字符向量及值字符向量执行编解码操作,得到每个字符对应的预测字符。
9.一种物料上线设备,其特征在于,所述物料上线设备包括:存储器和至少一个处理器,所述存储器中存储有指令,所述存储器和所述至少一个处理器通过线路互连;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述物料上线设备执行如权利要求1-5中任一项所述的物料上线方法的各个步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一项所述的物料上线方法的各个步骤。
CN202111273705.7A 2021-10-29 2021-10-29 物料上线方法、装置、设备及存储介质 Active CN114003750B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111273705.7A CN114003750B (zh) 2021-10-29 2021-10-29 物料上线方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111273705.7A CN114003750B (zh) 2021-10-29 2021-10-29 物料上线方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN114003750A CN114003750A (zh) 2022-02-01
CN114003750B true CN114003750B (zh) 2024-03-26

Family

ID=79925245

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111273705.7A Active CN114003750B (zh) 2021-10-29 2021-10-29 物料上线方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN114003750B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115994772B (zh) * 2023-02-22 2024-03-08 中信联合云科技有限责任公司 图书资料处理方法及系统、图书快速铺货方法、电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN112148852A (zh) * 2020-09-10 2020-12-29 深圳康佳电子科技有限公司 一种智能客服方法、装置、存储介质及计算机设备
CN113076748A (zh) * 2021-04-16 2021-07-06 平安国际智慧城市科技股份有限公司 弹幕敏感词的处理方法、装置、设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649818A (zh) * 2016-12-29 2017-05-10 北京奇虎科技有限公司 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106709040A (zh) * 2016-12-29 2017-05-24 北京奇虎科技有限公司 一种应用搜索方法和服务器
CN108334489A (zh) * 2017-01-19 2018-07-27 百度在线网络技术(北京)有限公司 文本核心词识别方法和装置
CN112148852A (zh) * 2020-09-10 2020-12-29 深圳康佳电子科技有限公司 一种智能客服方法、装置、存储介质及计算机设备
CN113076748A (zh) * 2021-04-16 2021-07-06 平安国际智慧城市科技股份有限公司 弹幕敏感词的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114003750A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
WO2023060795A1 (zh) 关键词自动提取方法、装置、设备及存储介质
US8478052B1 (en) Image classification
CN113011533A (zh) 文本分类方法、装置、计算机设备和存储介质
CN112632292A (zh) 业务关键词的提取方法、装置、设备及存储介质
CN109190092A (zh) 不同来源文件的一致性审核方法
US8510312B1 (en) Automatic metadata identification
CN111563384A (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN112818093A (zh) 基于语义匹配的证据文档检索方法、系统及存储介质
CN107526721B (zh) 一种对电商产品评论词汇的歧义消除方法及装置
CN111191429A (zh) 数据表格自动填充的系统和方法
CN112380848B (zh) 文本生成方法、装置、设备及存储介质
CN114003750B (zh) 物料上线方法、装置、设备及存储介质
CN110705285B (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
US11604923B2 (en) High volume message classification and distribution
CN114491034A (zh) 一种文本分类方法及智能设备
JP5206296B2 (ja) 類似文章抽出プログラム、方法、装置
CN118134422A (zh) 文件内容审核的方法、装置、设备、存储介质及产品
CN118093689A (zh) 基于rpa多模态文档解析与结构化处理系统
CN111339272A (zh) 代码缺陷报告检索方法及装置
US12050557B2 (en) Computerized systems and methods of data compression
CN116522872A (zh) 一种基于相似度计算的元数据字段中文名补全方法、存储介质及系统
CN111291208B (zh) 前端页面元素的命名方法、装置及电子设备
CN114239553A (zh) 基于人工智能的日志审核方法、装置、设备及介质
CN118170933B (zh) 一种面向科学领域多模态语料数据的构建方法和装置
CN118627470B (zh) 锂电池检测报告质检方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant