Nothing Special   »   [go: up one dir, main page]

CN111488931A - 文章质量评估方法、文章推荐方法及其对应的装置 - Google Patents

文章质量评估方法、文章推荐方法及其对应的装置 Download PDF

Info

Publication number
CN111488931A
CN111488931A CN202010279491.3A CN202010279491A CN111488931A CN 111488931 A CN111488931 A CN 111488931A CN 202010279491 A CN202010279491 A CN 202010279491A CN 111488931 A CN111488931 A CN 111488931A
Authority
CN
China
Prior art keywords
article
features
evaluated
quality
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010279491.3A
Other languages
English (en)
Other versions
CN111488931B (zh
Inventor
王艺如
黄申
黎功福
徐进
廖东亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010279491.3A priority Critical patent/CN111488931B/zh
Publication of CN111488931A publication Critical patent/CN111488931A/zh
Application granted granted Critical
Publication of CN111488931B publication Critical patent/CN111488931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种文章质量评估方法、文章推荐方法及其对应的装置,该方法包括:获取待评估文章;提取待评估文章的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;基于多模态特征确定待评估文章的文章质量。在该方案中,排版外观特征可从视觉上反映出文章的特征,写作风格特征可从文章内容上反映出文章的特征,文本语义特征可从文章语义和写作逻辑上反映出文本的体征,由此,基于上述多模态特征,可从至少两个维度来衡量待评估文章的质量,使得确定的文章质量考虑了多个维度因素对文章质量的影响,且基于多模态特征评估文章质量,能够使文章质量的评估很好的遵从人的阅读认知过程,使得确定的文章质量更准确。

Description

文章质量评估方法、文章推荐方法及其对应的装置
技术领域
本发明涉及多媒体数据处理技术领域,具体而言,本发明涉及一种文章质量评估方法、文章推荐方法及其对应的装置。
背景技术
自动评估在线文章的文章质量对文章推荐、广告类文章的费用分配等应用场景具有重要意义。不同于具有统一格式的文档,比如,学术论文、Wikipedia文档,目前在线文章中大多数文章都是由用户创建的,使得在线文章具有格式多样化,写作水平参差不齐,内容种类多样化,语义跨度大,配图和视频为多模态混合编辑的形式等特点,这为于目前多样化的在线文章的质量评估提出了更大的挑战。
现有技术中,对于文章质量的评估方法,通常是基于文章的文本内容进行质量评估,只考虑文本内容来确定文章质量,会使得评估得到的文章质量不够准确。
发明内容
本发明实施例的主要目的在于提供一种文章质量评估方法、文章推荐方法及其对应的装置,通过本发明实施例的方案,能够提高文章质量评估的准确性。
第一方面,本发明实施例提供了一种文章质量评估方法,该方法包括:
获取待评估文章;
提取待评估文章的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;
基于多模态特征确定待评估文章的文章质量。
第一方面的一种可选实施例中实施例中,多模态特征包括排版外观特征,提取待评估文章的多模态特征,包括:
获取待评估文章的页面截图;
基于页面截图,通过图片处理模型,提取待评估文章中的排版外观特征。
第一方面的一种可选实施例中实施例中,多模态特征包括写作风格特征,提取待评估文章的多模态特征,包括:
获取待评估文章中所包含内容的至少两种写作特征;
基于各写作特征进行融合,得到待评估文章的写作风格特征。
第一方面的一种可选实施例中实施例中,多模态特征包括文本语义特征,提取待评估文章的多模态特征,包括:
提取待评估文章中至少两种文本层级的语义特征;
基于至少两种文本层级的语义特征,得到待评估文章的文本语义特征。
第一方面的一种可选实施例中实施例中,写作特征为标题特征、正文特征、配图特征、插入视频特征或篇章结构特征中的至少一项。
第一方面的一种可选实施例中实施例中,基于各写作特征进行融合,得到待评估文章的写作风格特征,包括:
基于各写作特征,确定每个写作特征的权重;
基于各写作特征的权重,对各写作特征进行加权融合,得到写作风格特征。
第一方面的一种可选实施例中实施例中,基于各写作特征进行融合,得到待评估文章的写作风格特征,包括:
基于各写作特征,确定每个写作特征的关联特征;
基于各写作特征和各关联特征,得到待评估文章的写作风格特征。
第一方面的一种可选实施例中实施例中,至少两种文本层级的语义特征包括句子层级的语义特征和文档层级的语义特征;提取待评估文章中至少两种文本层级的语义特征,包括:
对待评估文章的文本内容进行分句处理,得到待评估文章所包含的各分句;
基于待评估文章中的每个分句所包括的各分词,提取得到每个分句的语义特征,句子层级的语义特征包括各分句的语义特征;
基于各分句的语义特征,提取得到文档层级的语义特征;
其中,待评估文章的文本语义特征为文档层级的语义特征。
第一方面的一种可选实施例中实施例中,提取待评估文章中至少两种文本层级的语义特征,包括:
确定待评估文章中各分词的语义特征;
基于各分词的语义特征,确定每个分词对应的关联特征;
基于各分词的语义特征和各分词对应的关联特征,确定待评估文章中各分句的语义特征;
基于各分句的语义特征,确定每个分句对应的关联特征;
基于各分句的语义特征和各分句对应的关联特征,确定待评估文章的文本语义特征。
第一方面的一种可选实施例中实施例中,基于多模态特征确定待评估文章的文章质量,包括:
确定多模态特征中各特征的权重;
基于各特征的权重对各特征进行加权;
基于加权后的特征,确定待评估文章的文章质量。
第一方面的一种可选实施例中实施例中,基于多模态特征确定待评估文章的文章质量是通过质量评估模型实现的,质量评估模型包括多模态特征提取网络和质量确定模块;
多模态特征提取网络用于提取待评估文章中的多模态特征;质量确定模块用于基于多模态特征确定待评估文章的文章质量。
第二方面,本发明提供了一种文章推荐方法,该方法包括:
获取各初始的待推荐文章;
确定各初始的待推荐文章的文章质量,其中,文章质量是通过上述第一方面任一实施例所提供的方法所确定的;
基于各初始的待推荐文章的文章质量,从各初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
第三方面,本发明提供了一种文章质量评估装置,该装置包括:
待评估文章获取模块,用于获取待评估文章;
特征提取模块,用于提取待评估文章的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;
质量评估模块,用于基于多模态特征确定待评估文章的文章质量。
第三方面的一种可选实施例中实施例中,多模态特征包括排版外观特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
获取待评估文章的页面截图;
基于页面截图,通过图片处理模型,提取待评估文章中的排版外观特征。
第三方面的一种可选实施例中实施例中,多模态特征包括写作风格特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
获取待评估文章中所包含内容的至少两种写作特征;
基于各写作特征进行融合,得到待评估文章的写作风格特征。
第三方面的一种可选实施例中实施例中,多模态特征包括文本语义特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
提取待评估文章中至少两种文本层级的语义特征;
基于至少两种文本层级的语义特征,得到待评估文章的文本语义特征。
第三方面的一种可选实施例中实施例中,写作特征为标题特征、正文特征、配图特征、插入视频特征或篇章结构特征中的至少一项。
第三方面的一种可选实施例中实施例中,特征提取模块在基于各写作特征进行融合,得到待评估文章的写作风格特征时,具体用于:
基于各写作特征,确定每个写作特征的权重;
基于各写作特征的权重,对各写作特征进行加权融合,得到写作风格特征。
第三方面的一种可选实施例中实施例中,特征提取模块在基于各写作特征进行融合,得到待评估文章的写作风格特征时,具体用于:
基于各写作特征,确定每个写作特征的关联特征;
基于各写作特征和各关联特征,得到待评估文章的写作风格特征。
第三方面的一种可选实施例中实施例中,至少两种文本层级的语义特征包括句子层级的语义特征和文档层级的语义特征;特征提取模块在提取待评估文章中至少两种文本层级的语义特征时,具体用于:
对待评估文章的文本内容进行分句处理,得到待评估文章所包含的各分句;
基于待评估文章中的每个分句所包括的各分词,提取得到每个分句的语义特征,句子层级的语义特征包括各分句的语义特征;
基于各分句的语义特征,提取得到文档层级的语义特征;
其中,待评估文章的文本语义特征为文档层级的语义特征。
第三方面的一种可选实施例中实施例中,特征提取模块在提取待评估文章中至少两种文本层级的语义特征时,具体用于:
确定待评估文章中各分词的语义特征;
基于各分词的语义特征,确定每个分词对应的关联特征;
基于各分词的语义特征和各分词对应的关联特征,确定待评估文章中各分句的语义特征;
基于各分句的语义特征,确定每个分句对应的关联特征;
基于各分句的语义特征和各分句对应的关联特征,确定待评估文章的文本语义特征。
第三方面的一种可选实施例中实施例中,质量评估模块基于多模态特征确定待评估文章的文章质量时,具体用于:
确定多模态特征中各特征的权重;
基于各特征的权重对各特征进行加权;
基于加权后的特征,确定待评估文章的文章质量。
第三方面的一种可选实施例中实施例中,基于多模态特征确定待评估文章的文章质量是通过质量评估模型实现的,质量评估模型包括多模态特征提取网络和质量确定模块;
多模态特征提取网络用于提取待评估文章中的多模态特征;质量确定模块用于基于多模态特征确定待评估文章的文章质量。
第四方面,本发明提供了一种文章推荐装置,该装置包括:
待推荐文章获取模块,用于获取各初始的待推荐文章;
文章质量确定模块,用于确定各初始的待推荐文章的文章质量,其中,文章质量是通过上述第一方面任一实施例所提供的方法所确定的;
文章推荐模块,用于基于各初始的待推荐文章的文章质量,从各初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
第五方面,本发明实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面或第二方面的任一可选实施例中所示的方法。
第六方面,本发明实施例提供了一种计算机可读存储介质,该存储介质中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面或第二方面的任一可选实施例中所示的方法。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例所提供的文章质量评估方法、文章推荐方法及其对应的装置,在需要确定待评估文章的文章质量时,是基于待评估文章的排版外观特征、写作风格特征或文本语义特征中的至少两项来进行文章质量评估的,而排版外观特征可以从视觉上反映出文章的特征,写作风格特征可以从文章内容上反映出文章的特征,文本语义特征可以从文章语义和写作逻辑上反映出文本的体征,因此,基于上述多模态特征,可以从至少两个维度来衡量待评估文章的质量,使得确定的文章质量考虑了多个维度因素对文章质量的影响,且基于多模态特征评估文章质量,能够使得文章质量的评估很好的遵从人的阅读认知过程,进而使得确定的文章质量更准确。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍。
图1示出了本发明实施例中提供的一种文章质量评估方法的流程示意图;
图2a-图2b示出了本发明实施例中提供的一示例中一种用户界面示意图;
图2c-图2d示出了本发明实施例中提供的一示例中文章的排版外观示意图;
图3示出了本发明实施例中提供的一示例中质量评估模型的结构示意图,以及通过质量评估模型确定文章质量的原理示意图;
图4示出了本发明实施例中提供的一示例中排版外观子网络的网络结构示意图;
图5示出了本发明实施例中提供的一示例中写作特征子网络的网络结构示意图;
图6示出了本发明实施例中提供的一示例中文本语义子网络的网络结构示意图;
图7示出了本发明实施例中提供的一示例中质量评估模型的训练流程示意图;
图8示出了本发明实施例中提供的一种文章推荐方法的流程示意图;
图9示出了本发明实施例中提供的一示例中一种文章推荐方法的流程示意图;
图10示出了本发明实施例中提供的一种文章质量评估装置的结构示意图;
图11示出了本发明实施例中提供的一种文章推荐装置的结构示意图;
图12示出了本发明实施例中提供的一种电子设备的结构示意图。
具体实施方式
为使得本发明的发明目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面详细描述本发明的实施例,该实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
为了更好的理解及说明本发明实施例的方案,下面对本发明实施例中所涉及到的一些技术用语进行简单说明。
MP文章:在公众号平台之中,用户所发表的文章。
自动评估在线文章的文章质量对文章推荐、广告类文章的费用分配等应用场景具有重要意义。不同于具有统一格式的文档,比如,学术论文、Wikipedia文档,目前在线文章中大多数文章都是由用户创建的,使得在线文章具有格式多样化,写作水平参差不齐,内容种类多样化,语义跨度大,配图和视频为多模态混合编辑的形式等特点,这为目前多样化的在线文章的质量评估提出了更大的挑战。
现有技术中,对于文章质量的评估方法,通常有以下几种方法:
第一种,基于手工特征的方法:基于人工的方式获取文章中的特征,基于该特征确定文章的质量,上述特征中除了传统的特征,例如,单词错误率和文章长度等外,还包括文章的词法,句法,句子结构特征,文本连贯性和句子的衔接性等特征,对于传统的具有统一格式的文档的文档质量评估,还可利用文章标题,图片数量,引用数量,编辑者的数量和权威度等特征来对文章质量进行评估。
第二种,基于深度学习的方法:使用循环神经网络(Recurrent Neural Network,RNN)和卷积神经网络(Convolutional Neural Networks,CNN)对输入文本进行建模,生成文本的表示向量,基于表示向量来评估文章质量。例如,通过两个CNN构建的分层CNN模型,在文章的句子级别使用一个CNN,获取句子级别的特征,在文档级别再使用一个CNN,获取文档级别的特征,然后基于这两个级别的特征确定文章质量。或者,在句子级别利用CNN获得句子的向量表示,在文档级别利用长短期记忆网络(Long Short-Term Memory,LSTM)获得文档的向量表示,并在句子级别和文档级别均应用注意力机制,基于句子级别和文档级别这两个级别的特征确定文章质量,或者,还可以利用模块化的分层CNN进行文章质量的评估。
本发明发明人经分析发现,上述方案至少存在以下问题:
(1)现有技术是基于文章的文本内容进行质量评估,在实际应用中,文章中除了文本内容外还存在图像等多种其他形式的特征,则基于现有技术中的文章质量评估方法,会使得评估的文章质量不够准确。
(2)现有技术基本都是针对纯文本文档或是格式统一的文档进行文章质量评估,例如Wikipedia文档和学术论文,缺乏对于格式风格多样且具有多模态元素的自媒体在线文章质量自动评估方法。
(3)现有技术方案主要利用文本特征来评估文章质量,但是,人们在阅读和评估在线文章质量时的认知过程不仅来自文本,还来自文章的其他方面。读者在阅读文章时,首先感受到的是文章的排版外观,这是读者的表层认知。精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣,并为读者带来更好的阅读体验。然后,读者通过浏览文章中的词汇,句法,文章组织和配图来获得文本内容的主要印象,这是读者的浅层认知。最后,读者需要对文章的文本语义和写作逻辑有深度的理解,才能领略到文章的意义和价值,这是读者的深层认知。所以,现有技术方案没有很好地遵从读者对文章质量评价的认知方式,使得确定的文章质量不够准确。
(4)现有技术方案没有充分利用文章深层的特征,比如,丰富的风格和语义信息,没有考虑词与词之间,句子与句子之间的依赖关系,以及多模态特征对文章质量的影响,使得确定的文章质量不够准确。
针对现有技术中存在的上述技术问题,本发明实施例提出了一种文章质量评估方法,该方法能够在需要确定待评估文章的文章质量时,是基于待评估文章的多模态特征确定该待评估文章的文章质量的,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项,其中,排版外观特征可以从视觉上反映出文章的特征,写作风格特征可以从文章内容上反映出文章的特征,文本语义特征可以从文章语义和写作逻辑上反映出文本的体征,由此,基于上述多模态特征,可以从至少两个维度来衡量待评估文章的质量,使得确定的文章质量考虑了多个维度因素对文章质量的影响,进而使得确定的文章质量更准确。
进一步的,对于一篇文章而言,基于人的阅读认知过程,读者首先直观感受到的是文章的排版外观,即排版外观特征可以体现出读者的表层认知,给读者带来初步的印象,精美的视觉布局和丰富的呈现形式可以使读者对文章产生兴趣,并为读者带来更好的阅读体验,然后,读者通过阅读文章中的词汇,句法,文章组织、配图等写作风格来获取对文章的主要印象,这是读者的浅层认知,最后,读者需要对文本语义和写作逻辑有深度的理解,领略文章的意义和价值,这是读者的深层认知。由此,在本发明的方案中,不仅考虑到多维度的多模态特征对文章质量的影响,还考虑到多模态特征在人的阅读认知过程的作用,从而使得文章质量的评估很好的遵从了人的阅读认知过程,使得最终得到的文章质量更加准确,更加符合人们的认知。
另外,通过本发明的方案,不仅对于排版风格统一的文章可以进行文章质量的评估,对于包含的内容形式多样的文章,比如,排版外观不同的文章,语义表达复杂的文章,通过本发明的方案都可以进行准确的质量评估。
下面以具体地实施例对本发明的技术方案以及本发明的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
本发明的执行主体可以是任意电子设备,可以是服务器,可以是用户终端等等,如对于可供读者进行文章阅读的平台(比如,门户网站,社交网络等),其服务器在将文章推荐给用户之前,可以基于本发明实施例所提供的方案,对各候选(即初始的)待推荐的文章进行文章质量评估,并基于评估得到各候选的待推荐文章的文章质量确定出最终要推荐给用户的文章,并通过平台的客户端展示给用户。当然,本发明实施例所提供的方案也可以离线实施,由任意电子设备执行该方案进行文章质量的评估。
图1示出了本发明实施例提供的一种文章质量评估方法的流程示意图,本发明下文的实施例描述中将以服务器为该方法的执行主体为例进行说明,如图中所示,该方法可以包括步骤S110至步骤S130,其中:
步骤S110:获取待评估文章。
其中,待评估文章可以是用户上传的文章,也可以是从指定数据库或其他服务器获取到的文章,本发明实施例中不限定待评估文章的具体来源。对于可供读者进行文章阅读的网络平台,比如,门户网站,社交网络,待评估文章为可以为门户网站上待推荐给用户的文章,比如,新闻等。
在本发明实施例的方案中,待评估文章可以是各种形式的文章,即待评估文章的格式、写作风格、排版外观等均不受限制。
步骤S120:提取待评估文章的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项。
其中,由前文的描述可知,不同的文章有不同的排版方式,丰富的排版呈现形式可以给读者不同的视觉体验,排版外观特征可以反映出文章在排版方式上的特点,因此,可通过排版外观特征反映文章在视觉布局对文章质量的影响,将排版外观特征作为待评估文章的多模态特征,成为确定文章质量的一个影响因素。
不同的文章有不同的写作风格,不同的写作风格给读者带来不同的阅读体验,写作风格特征主要从写作词汇、写作语法、文章组织、配图等方面体现文章的特征,因此,可通过写作风格特征反映文章在写作风格上对文章质量的影响,将写作风格特征作为待评估文章的多模态特征,成为确定文章质量的一个影响因素。
文本语义特征反映出了文章在写作逻辑和文本语义表达上的特点,基于文本语义和写作逻辑可以更深层次的理解文章,体现文章的文本水平。因此,可以通过文本语义特征反映文章在写作逻辑和文本语义上对文章质量的影响,将文本语义特征作为待评估文章的多模态特征,成为确定文章质量的一个影响因素。
其中,基于上述提取待评估文章的多模态特征的可选实现方式将在下文描述。
步骤S130:基于多模态特征确定待评估文章的文章质量。
其中,在确定了多模态特征之后,可以基于该多模态特征中的至少两项对待评估文章的文章质量进行评估,可以从至少两个维度体现出对待评估文章的文章质量的影响,从而使得确定的文章质量更加准确。
可以理解的是,在本发明的方案中,文章质量可以通过分类结果表示,比如,文章质量可分为高质量文章和低质量文章两个结果,文章质量还可以直接通过质量分数表示,本发明中并不限定文章质量的具体表现形式,均在本发明的保护范围内。
本发明实施例的方案中,在需要确定待评估文章的文章质量时,是基于待评估文章的排版外观特征、写作风格特征或文本语义特征中的至少两项来进行文章质量评估的,而排版外观特征可以从视觉上反映出文章的特征,写作风格特征可以从文章内容上反映出文章的特征,文本语义特征可以从文章语义和写作逻辑上反映出文本的特征,因此,基于上述多模态特征,可以从至少两个维度来衡量待评估文章的质量,使得确定的文章质量考虑了多个维度因素对文章质量的影响,且基于多模态特征评估文章质量,能够使得文章质量的评估很好的遵从人的阅读认知过程,进而使得确定的文章质量更准确。
作为一个示例,如图2a所示的某公众号的文章列表入口C,基于该入口,可以进入到图2b所显示的文章列表,在该文章列表中,文章可以以不同形式展示,比如,文章标题(形如图2b中的XXXXXXX)、视频、图片(比如,图2b中的图片1和图片2),用户可以基于该文章列表中所显示文章选择自己感兴趣的文章进行阅读。
在该示例中,选择了两篇相同主题的文章进行比较说明,图2c为高质量文章的示意图,由图2c可以看出,该文章的布局整齐美观,有清晰的版块和段落划分,图片和文字排列整齐,图中仅包括与文章主题相关的图片,不包括其他不相关的图片,文章内容中的文字字体风格统一(形如图2c中的XXXXXXX),字体风格统一可以包括,字体相同、文字字号相同、文字颜色相同、文字背景相同等,且该文章中文章内容的段落分明。而图2d为低质量文章的示意图,由图中可以看出,该文章的布局错落无序,看起来不够美观,文章中包括一些与文章主题不相关的内容(比如,图2d中所示的广告信息),文章中的字体风格不统一,包括不同颜色的文字,不同背景的文字。由此,通过将两篇文章进行比较可以看出,文章的排版外观可以直观的反应出文章的质量,基于文章的排版外观特征可以更加准确的确定出文章的质量。
本发明的可选方案中,多模态特征包括排版外观特征,提取待评估文章的多模态特征,可以包括:
获取待评估文章的页面截图;
基于页面截图,通过图片处理模型,提取待评估文章中的排版外观特征。
其中,页面截图可以是一张,也可以是多张,页面截图需要涵盖住待评估文章的完整内容。可以理解的是,页面截图的获取方式可以通过截图工具获取,也可以通过其他方式获取,本发明中不限定页面截图的获取方式,均在本发明的保护范围内。
在获取待评估文章对应的页面截图之后,可以通过图片处理模型来对页面截图中所包括的排版外观特征进行提取,图片处理模型可以是Inception V3模型(起点(Inception)模型第三版本(V3)),也可以是其他的图片处理器,例如,VGG(VisualGeometry Group Network,超分辨率测试序列))模型,ResNet(Residual Neural Network,残差网络),Xception模型。
在本发明的可选方案中,多模态特征包括排版外观特征,提取待评估文章的多模态特征,可以包括:
获取待评估文章的页面截图;
确定各页面界面中每两个页面截图之间的关联特征;
基于各页面截图和各关联特征,确定待评估文章中的排版外观特征。
其中,在确定文章的排版外观特征时,还可以考虑到两两页面截图之间的关系对于排版外观特征的影响,即在确定文章中的排版外观特征时,可以基于各页面截图各自对应的特征以及各页面界面中每两个页面截图之间的关联特征,确定待评估文章中的排版外观特征,该关联特征可以反应出各页面截图之间的时序特征,以使得确定的排版外观特征更加准确。
在本发明的可选方案中,如果考虑到各页面界面中每两个页面截图之间的关联特征,上述图片处理模型还可以是基于CNN网络训练得到的,即通过模型中的CNN网络可以提取到各页面界面中每两个页面截图之间的关联特征。
本发明的可选方案中,多模态特征可以包括写作风格特征,提取待评估文章的多模态特征,包括:
获取待评估文章中所包含内容的至少两种写作特征;
将各写作特征进行融合,得到待评估文章的写作风格特征。
其中,写作特征可以反映文章的写作风格,写作风格具体可以通过文章词汇、语法、配图等体现,由此,写作特征可以为从文章中抽取和/或统计得到的信息,比如,文本长度,配图数目等。在基于至少两种写作特征确定写作风格特征时,可将各写作特征进行融合以得到写作风格特征。
本发明的可选方案中,基于各所述写作特征,得到待评估文章的写作风格特征,可以包括:
基于各写作特征,确定每个写作特征的权重;
基于各写作特征的权重,对各写作特征进行加权融合,得到写作风格特征。
在实际应用中,各写作特征对于文章质量的重要程度一般是不同的,对于反映写作风格的贡献可能不同的,则可预先配置各写作特征的权重,然后基于各写作特征的权重,将各写作特征进行融合,得到待评估文章的写作风格特征。其中,权重越大,表示对文章质量的重要程度越大,可以理解的是,各写作特征的权重之和为1。
本发明的可选方案中,基于各写作特征,得到待评估文章的写作风格特征,可以包括:
基于各写作特征,确定每个写作特征对应的关联特征;
基于各写作特征和各写作特征对应的关联特征,得到待评估文章的写作风格特征。
其中,各写作特征可以单独影响文章的写作风格,各写作特征之间相互关系也可影响文章的写作风格,因此,在确定待评估文章的写作风格特征时,考虑到各写作特征之间的相互关系,更能体现出待评估文章的写作风格特点,使得确定的写作风格特征更加准确。
每个写作特征对应的关联特征可以反应出该写作特征与其他写作特征之间的关联关系,由于该写作特征与其他写作特征之间的关联关系可能不同,则对于一个写作特征的关联特征,在基于各写作特征,确定该写作特征对应的关联特征时,可以基于该写作特征与其他写作特征之间的关联关系,确定各写作特征对应的权重,基于各写作特征的权重,确定该写作特征对应的关联特征。
在本发明的一可选方案中,可以基于多头自注意力网络确定各写作特征对应的权重,即多头自注意力网络可以基于各写作特征学习到各写作特征之间的相互关系,为各写作特征确定对应的权重。
在实际应用中,可以采用至少一层的多头自注意力网络,层数越多,表示学习到各特征之间的关系越准确,以使得得到写作风格特征越能反映出待评估文章的特征。其中,可将基于多层的多头自注意力网络将各写作特征进行融合的过程视为非线性的高阶特征融合的过程,通过高阶特征可以更加详细的反映出各特征之间的关系,以使得确定出的写作风格特征更准确。
在本发明的一种可实现方案中,如果采用的是至少两层的多头自注意力网络,将各写作特征进行融合的过程中,具体可先将各写作特征输入至嵌入层,得到每个写作特征对应的嵌入向量,各嵌入向量输入第一层多头自注意力网络,会生成对应的权重矩阵,即每个写作特征都有对应的一行权重向量,各嵌入向量根据对应的权重进行加权后得到各个写作特征对应的新的注意力融合向量(关联特征),然后将各新的注意力融合向量输入至下一层的多头自注意力网络,按照同样的方式,通过该层多头自注意力网络确定各关联特征的权重,基于各关联特征和各关联特征的权重,再生成新的特征向量表示,随着多头自注意力网络层数的增加,会得到更复杂的特征空间,即各个写作特征之间会进行更深度充分的交互,因此可以很好的进行特征融合。最后将各个写作特征对应的向量级联起来得到待评估文章的写作风格特征。
在本发明的一可选方案中,写作特征为标题特征、正文特征、配图特征、插入视频特征或篇章结构特征中的至少一项。
其中,标题特征指的是文章中标题所对应的特征,可以包括但不限于标题长度,关键字数目等,正文特征指的是文章中正文所对应的特征,可以包括但不限于文章类别,文本长度,文章中各词性的词的数量,文章中各词性的词的数量占全文的比例,非重复词的数量,非重复词占全文的比例,非重复字的数量,非重复字占全文的比例等。其中,文章类型可以基于文章内容进行划分,比如,娱乐类、财经类,体育类,新闻类,科技类文章。非重复词的数量,非重复词占全文的比例,非重复字的数量,非重复字占全文的比例可以基于n-gram(汉语语言模型,也称N元模型)对待评估文章中的文章进行处理得到的。
配图特征指的是文章中配图对应的特征,可以包括但不限于配图的数量,配图中动图的数量,配图中所包含的文字的数量等,其中,配图中所包含的文字可通过文字识别方法获取,比如,OCR(Optical Character Recognition,光学字符识别)。插入视频特征指的是插入在文章中视频的特征,包括但不限于视频数目,视频中所包含的文字数量等。篇章结构特征指的是文章中段落结构所对应的特征,包括但不限于段落数量,文章中特定图片的数量,特定图片与段落数的比例等,其中,特定图片可以为修饰文本内容的图片,比如,花边图案等。
本发明的可选方案中,多模态特征包括文本语义特征,提取待评估文章的多模态特征,可以包括:
提取待评估文章中至少两种文本层级的语义特征;
基于至少两种文本层级的语义特征,得到待评估文章的文本语义特征。
其中,文本语义特征指的是文章写作逻辑,语义表现方面的特征,基于文本语义特征可以体现出文章的写作水平。文章的语义特征可以从不同文本层级体现,比如,字符层级、句子层级、篇章层级(也可称之为文档层级),如果是字符层级的语义特征,则可基于文章中的字对文章的语义进行分析,如果是句子层级的语义特征,则可基于文章中的词对文章的语义进行分析,如果是篇章层级的语义特征,则可基于文章中的句子对文章的语义进行分析。在本发明实施例的方案中,可以基于至少两种文本层级的语义特征来确定待评估文章的文本语义特征,以使得确定的文本语义特征更加准确的反映文章的真实语义。
在实际应用中,基于至少两种文本层级的语义特征,得到待评估文章的文本语义特征的一种可实现方案为:将各文本层级的语义特征进行融合,得到待评估文章的文本语义特征。
可以理解的是,不同层级的语义特征对文本语义特征的影响程度不同,比如,篇章级别的影响程度最大,则篇章级别的语义特征对应的权重最大。在本发明的方案中,可基于不同层级的语义特征所对应的权重,对各层级的语义特征进行加权融合,得到待评估文章的文本语义特征,其中,权重越大,表示对应层级的语义特征对文本语义特征的贡献越大。在实际应用中,将各文本层级的语义特征进行融合的融合方式不作限定,可以为前文所描述的加权融合,也可以是基于低层级的语义特征,提取高层级的语义特征,例如,可以基于句子层级的语义特征提取文档层级的语义特征,然后对高层级的语义特征进行加权融合,得到待评估文章的文本语义特征。
本发明的可选方案中,至少两种文本层级的语义特征包括句子层级的语义特征和文档层级的语义特征;提取待评估文章中至少两种文本层级的语义特征,可以包括:
对待评估文章的文本内容进行分句处理,得到待评估文章所包含的各分句;
基于待评估文章中的每个分句所包括的各分词,提取得到每个分句的语义特征,句子层级的语义特征包括各分句的语义特征;
基于各分句的语义特征,提取得到文档层级的语义特征;其中,待评估文章的文本语义特征为文档层级的语义特征。
在至少两种层级的语义特征包括句子层级的语义特征和文档层级的语义特征时,可以先从句子层面,确定待评估文章中句子层面的语义特征(分句的语义特征),然后再从文档层面,基于句子层面的语义特征,确定文档层级的语义特征,将文档层级的语义特征作为待评估文章的文本语义特征。在本发明的方案中,先从句子层面对文章的文本语义进行分析,再基于句子的文本语义分析出文章的文本语义特征,可以减少文本的数据处理量。
在本发明的一可选方案中,对文章进行分句处理可以按照文本中的标点符号进行划分,也可以基于其他分句方式进行划分,本发明中不限定实现文本分句的具体实现方式,均在本发明的保护范围内。可通过分词处理方式得到每句话中的分词,本发明中不限定分词处理的具体实现方式。
在本发明的一可选方案中,在对待评估文章的文本内容进行分句处理之前,可先对待评估文章进行预处理,预处理的目的是将待评估文章中除文本内容之外的内容去除,使待评估文章中的文本内容变为纯净的文本,以使得后续在进行分句处理时,减少数据处理量。
本发明的可选方案中,提取待评估文章中至少两种文本层级的语义特征,包括:
确定待评估文章中各分词的语义特征;
基于各分词的语义特征,确定每个分词对应的关联特征;
基于各分词的语义特征和各分词对应的关联特征,确定待评估文章中各分句的语义特征;
基于各分句的语义特征,确定每个分句对应的关联特征;
基于各分句的语义特征和各分句对应的关联特征,确定待评估文章的文本语义特征。
其中,各分词的语义特征和各分句的语义特征可以单独反应文章的文本语义,词与词之间,句子与句子之间的关联关系也可以体现出文本的语义,则在基于至少两种文本层级的语义特征确定文本语义特征时,考虑到各分词之间的关联关系,各分句之间的关联关系,可以进一步体现出待评估文章的文本语义特点,使得确定的文本语义特征更加准确。
每个分词对应的关联特征可以反应出该分词与其他分词之间的关联关系,由于该分词与其他分词之间的关联关系可能不同,则对于一个分词的关联特征,在基于各分词的语义特征,确定该分词对应的关联特征时,可以基于该分词与其他分词之间的关联关系,确定各分词对应的权重,基于各分词的权重,确定该分词对应的关联特征。
同理,每个分句对应的关联特征可以反应出该分句与其他分句之间的关联关系,由于该分句与其他分句之间的关联关系可能不同,则对于一个分句的关联特征,在基于各分句的语义特征,确定该分句对应的关联特征时,可以基于该分句与其他分句之间的关联关系,确定各分句对应的权重,基于各分句的权重,确定该分句对应的关联特征。
在本发明的一可选方案中,可以通过基于注意力机制的第一双向门控循环单元网络(Bi-GRU,Gated Recurrent Unit)学习词与词之间的关联关系,即确定每个分词对应的关联特征,通过词与词之间的关联关系更加准确的确定出句子层级的语义特征。然后基于各分句的语义特征,通过基于注意力机制的第二双向门控循环单元网络学习句子与句子之间的关联关系,即确定每个分句对应的关联特征,通过句子之间的关联关系可以更加准确的确定出文档层级的语义特征。
作为一个示例,基于注意力机制的第一双向门控循环单元网络可包括第一双向门控循环单元网络和第一注意力网络,对于待评估文章中的每一句话,第一双向门控循环单元网络用于提取该句话中各分词的分词特征,第一注意力网络用于基于各分词之间的关联关系,确定各分词对应的权重,基于各分词的分词特征和各分词对应的权重,确定出每个分词对应的关联特征,基于各分词的语义特征和各分词对应的关联特征,可以确定出该分句的语义特征。对于待评估文章中的每句话都可以通过同样的方式确定所包含的分词的语义特征,得到各分句的语义特征(句子层级的语义特征)。
基于注意力机制的第二双向门控循环单元网络包括第二双向门控循环单元网络和第二注意力网络,各分句的语义特征可通过编码向量表示,对于待评估文章中的各分句,将各分句对应的编码向量输入至第二双向门控循环单元网络,第二双向门控循环单元网络基于各分句的语义特征,学习各句子之间的关联关系,第二注意力网络用于基于句子与句子之间的关联关系,确定各分句对应的权重,基于各分句的语义特征和各分句对应的权重,确定出每个分句对应的关联特征,基于各分句的语义特征和各分句对应的关联特征,可以确定出待评估文章的语义特征(文档层级的语义特征)。
在实际应用中,基于注意力机制的第一双向门控循环单元网络和基于注意力机制的第二双向门控循环单元网络可以为同一网络,在确定出句子层级的语义特征之后,再一次通过该网络确定文档层级的语义特征。基于注意力机制的第一双向门控循环单元网络和基于注意力机制的第二双向门控循环单元网络也可以为不同的两个网络,网络的层数可以基于所需提取语义特征对应的文本层级的层数确定。
在本发明的一可选方案中,可以采用双向门控循环单元网络对句子层级和文档层级的文本依次进行编码,也可以使用其他编码器来替换,例如,单向或双向的RNN,单向或双向的LSTM,CNN或Transformer编码器中的任一种。
本发明的可选方案中,基于多模态特征确定待评估文章的文章质量,包括:
确定多模态特征中各特征的权重;
基于各特征的权重对各特征进行加权;
基于加权后的特征,确定待评估文章的文章质量。
其中,在得到待评估文章的多模态特征之后,由于不同的多模态特征对文章质量的影响程度不同,则在基于多模态特征确定待评估文章的文章质量时,可先确定多模态特征中各特征的权重,权重越大,表示对文章质量的影响越大,基于各述特征的权重对各特征加权,然后再基于加权后的各特征,确定待评估文章的文章质量,可使得确定得到的文章质量更加准确。
其中,多模态特征中各特征的权重可以是预先基于经验配置好的,考虑到对于不同文章,多模态特征中各特征对文章质量的影响程度可能有所变化,则还可以基于各特征实时确定各特征对应的权重,以使得确定的文章质量更加准确。
本发明的一可选方案中,基于多模态特征确定待评估文章的文章质量是通过质量评估模型实现的,质量评估模型是通过以下方式训练得到的:
获取样本文章,样本文章携带有质量标注结果,质量标注结果用于标识样本文章的文章质量;
基于样本文章,对初始网络模型进行训练,直至初始网络模型的损失函数收敛,将训练结束时的模型作为质量评估模型;
其中,损失函数的值表征了文章对应的质量预测结果和质量标注结果的差异程度。
质量评估模型是预先训练好的,该模型的输入为待评估文章,输出为待评估文章的文章质量,在训练过程中,初始神经网络模型的输入为样本文章,输出为样本文章的质量预测结果,损失函数的值表征了质量预测结果和质量标注结果的差异程度。
其中,样本文章包括具有各种排版外观、各种写作风格、各种文本语义的文章,样本文章可以不是统一风格的文章,样本文章的种类越多,样式越丰富,基于样本文章训练得到的质量评估模型可以更加准确地为各种文章进行质量评估。
在本发明的一可选方案中,质量评估模型包括多模态特征提取网络和质量确定模块;
其中,多模态特征提取网络用于提取待评估文章中的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;质量确定模块用于基于多模态特征确定待评估文章的文章质量。
在本发明的一可选方案中,质量评估模型可以包括多模态特征提取网络和质量确定模块,其中,由于多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项,多模态特征提取网络可以包括三个网络,分别为排版外观特征提取网络,写作风格特征提取网络和文本语义特征提取网络,排版外观特征提取网络用于提取文章中的排版外观特征,写作风格特征提取网络用于提取文章中的写作风格特征,文本语义特征提取网络用于提取文本语义特征。
为了更好的说明及理解本发明实施例所提供的文章质量评估方法,下面结合一个具体的示例,对本申请实施例中通过质量评估模型来确定文章质量的方案进行进一步说明。如图3中所示,该图中示出了本示例中的质量评估模型的结构示意图,以及通过质量评估模型确定文章质量的原理示意图。
如图3中所示,该质量评估模型的多模态特征提取网络包括排版外观特征提取网络(排版外观子网络),写作风格特征提取网络(写作特征子网络),文本语义特征提取网络(文本语义子网络),图4、图5和图6则分别示出了这三个子网络的具体结构示意图,质量确定模块为图3中除上述三个子网络之外的其他部分。下面结合图3至图6对通过该质量评估模型确定文章质量的过程进行展开描述。
·排版外观子网络
该子网络用于提取待评估文章的排版外观特征,由前文的描述可知,获取待评估文章的文章内容对应的页面截图(图4中所示的截图图片),将各页面界面依次通过该子网络能够提取得到读者对于文章的表层认知。
如图4中所示,基于该子网络提取待评估文章的排版外观特征的具体过程如下:
该子网络的输入为待评估质量的页面截图,该截图即为文章的文档可视化呈现,具体可以利用截图工具批量产生文章的页面截图,截图覆盖文章的全部篇幅,之后将该截图输出至该子网络(即图4中的输入截图图片)。该示例中的图片处理模型为图4中所示的起点(Inception)模型第三版本(V3),通过该Inception V3模型可以提取得到文章的视觉特征,然后对提取的特征进行平均池化(图4中所示的二维全局平均池化,Global AveragePooling2D),以保留完整的待评估文章的排版外观特征(图4中所示的六个实心黑点)。
·写作特征子网络
该子网络用于提取待评估文章的写作风格特征,由前文的描述可知,获取待评估文章的至少两种写作特征(图5中所示的特征值),将各写作特征通过该子网络能够提取得到读者对于文章的浅层认知。
如图5中所示,基于该子网络提取待评估文章的写作风格特征的具体过程如下:
该子网络的输入为待评估文章的写作特征,可选的,可以从待评估文章中抽取和计算得到写作特征,写作特征包括标题特征、正文特征、配图特征、插入视频特征或篇章结构特征(图5中所示的f1,f2,……,fn),在获取到标题特征、正文特征等各种写作特征后,将各写作特征输入至该子网络(即图5中所示的输入特征值)。先通过嵌入层得到上述至少两种写作特征中每个特征对应的嵌入向量(图5中所示的e1,e2,……,en),即将上述各特征值通过向量表示,各写作特征经过嵌入层后的嵌入向量是同一维度的向量,接着,基于各写作特征之间的相互关系,通过至少一层的多头自注意力层(N*Multi-head self-attentionlayer,其中,N表示多头自注意力层的层数)来确定各写作特征对应的权重,基于各写作特征对应的权重,对各写作特征进行融合,得到待评估文章的写作风格特征,最后输出的写作风格特征如图5中所示的六个实心黑点。
在该示例中,对于离散型的写作特征(比如,文章类型),可以通过向量表示(例如f1),在本发明的一可选方案中,可通过独热编码(one-hot)对离散型的特征进行表示。对于其他的特征(比如,文本长度,配图数量等特征),可以通过数值(比如图5中所示的f2和fn)的形式表示。
·文本语义子网络
该子网络用于提取待评估文章的文本语义特征,由前文的描述可知,先对待评估文章的文本内容进行分句处理,得到待评估文章所包含的各分句(如图6中所示的输入文本),将各分句通过该子网络能够提取得到读者对于文章的深层认知。
如图6中所示,基于该子网络提取待评估文章的文本语义特征的具体过程如下:
该子网络的输入为待评估文章所包含的各分句,对每句话进行分词处理,得到每句话所包含的各分词,每一句话中的每个词通过wij表示,ij表示第i句话中的第j个词,如图中所示的w12表示第一句中第二个分词,然后将各分词输入至嵌入层(图6中未示出),将每个分词转换为对应的词向量。比如,第一句话对应的词向量为x11x12……x1T,其中,x11表示第一句话中第一个分词对应的词向量,x1T表示第一句话中第N1个分词对应的词向量。
作为一个示例,如果第一句话中共有N1个词,则第一句话可以表示为:
Figure BDA0002446017820000191
如果第二句话中共有N2个词,则第二句话可以表示为:
Figure BDA0002446017820000192
如果第N句话中共有NN个词,则第N句话可以表示为:
Figure BDA0002446017820000193
其中,N≥i≥1,NN≥j≥1。
然后,在句子层级,将各分词对应的词向量输入至第一双向门控循环单元网络(图6中所示的双向门限循环单元Bi-GRU层),该网络包括前向层
Figure BDA0002446017820000194
以及反向层
Figure BDA0002446017820000195
对于一句话,通过第一双向门控循环单元网络和第一注意力网络(图6中所示的与第一双向门控循环单元网络连接的注意力层),基于该句话中的词序,学习该句话中词与词之间的关联关系,确定该句话的语义特征(句子层级的语义特征)。图6中所示的前向层和反向层是双向门控循环单元网络的原理示意图,第T句话中共包括NT个分词,
Figure BDA0002446017820000196
的输入是该句话中第一个分词对应的词向量x11,输出是该词向量对应的隐层输出,
Figure BDA0002446017820000197
的输入是该句话中第NT-1个分词对应的隐层输出和第NT个分词对应的词向量,输出为该第NT个分词的词向量对应的隐层输出,
Figure BDA0002446017820000198
的输入是该句话中第NT个分词对应的词向量,输出是该词向量对应的隐层输出,
Figure BDA0002446017820000199
的输入是该句话中第2个分词对应的隐层输出和第1个分词对应的词向量,输出是该第1个分词的词向量对应的隐层输出。在本发明的中不再详细展开描述。
在确定得到各分句的语义特征之后(图6中所示的句子编码向量),句子编码向量通过SN表示,S1表示第一句话对应的语义特征,S2表示第二句话对应的语义特征,SN表示第N句话对应的语义特征。将各分句的语义特征,输入至第二双向门控循环单元网络,该网络包括前向层
Figure BDA00024460178200001910
反向层
Figure BDA00024460178200001911
通过第二双向门控循环单元网络和第二注意力网络(图6中所示的与第二双向门控循环单元网络连接的注意力层),从句子与句子之间的关联关系学习到文章所表达的语义,基于第二双向门控循环单元网络的输出和第二注意力网络的输出得到待评估文章的文本语义特征(如图6中所示的六个实心黑点)。
本示例中,在每个子网络的输出之后还分别连接有一个全连接层(FC Layer),在得到上述三个子网络的输出向量(待评估文章的多模态特征)后,通过各自对应的全连接层调整每个子网络输出向量中各神经元的权重,再进行级联,基于图3中所示的最后一个全连接层进行进一步的特征处理(比如,加权处理),得到最终待评估文章的文章质量(预测结果)。
如图3所示,基于人的阅读认知过程,读者首先直观感受到的是文章的排版外观,即排版外观特征可以体现出读者的表层认知,给读者带来初步的印象,精美的视觉布局和丰富的呈现形式可以使读者对文章产生阅读兴趣,并为读者带来更好的阅读体验,然后,读者通过阅读文章中的词汇,句法,内容组织、配图等写作风格来获取对文章的整体内容印象,这是读者的浅层认知,最后,读者需要对文本语义和写作逻辑有深度的理解,领略文章的意义和价值,这是读者的深层认知。由此,在本发明的方案中,不仅考虑到多维度的多模态特征对文章质量的影响,还考虑到多模态特征在人的阅读认知过程的作用,从而使得文章质量的评估很好的遵从了人的阅读认知过程,使得最终得到的文章质量更加准确。
作为一个示例,如图7所示的质量评估模型的训练流程图,初始网络模型包括上述三个子网络和质量确定模块,质量评估模型具体可通过如下方式训练得到:
第1步:获取训练样本(样本文章),每个样本文章携带有质量标注结果,质量标注结果用于标识样本文章的文章质量。
第2步:截取训练样本的文本内容对应页面截图(图7中所示的截图图片),然后通过图片处理模型(图7中所示的Inception V3模型),捕捉页面截图中的视觉特征,得到多组特征图(图7中所示的多组feature map),将多组特征图进行全局平均池化,得到训练样本的排版外观特征(对应图7中所示的排版外观子网络输出向量)。
在本发明的可选方案中,可以对图片处理模型进行训练,以使得图片处理模型具有提取各种图片特征的能力,此处的图片特征指的是实际应用中常见的图片中的图片特征,具有普适性,基于对图片处理模型的预训练,可以提高模型的训练精度。
第3步:获取训练样本中写作特征(对应图7中所示的抽取和计算文章的写作特征),其中每个写作特征可通过一个特征值表示,将各特征值输入至嵌入层,嵌入层可以将各特征值通过向量进行表示(对应图7中所示的特征表示向量),每个写作特征对应的向量为同一维度,然后将每个写作特征对应的向量输入至多头自注意力网络,通过多头自注意力网络学习各特征之间的交互特征,基于各特征之间的相互关系,确定各个写作特征对应的权重,基于各个写作特征对应的权重,对各写作特征进行融合(对应图7中所示的多头自注意力网络进行特征交互融合),得到训练样本的写作风格特征(对应图7中所示的写作特征子网络输出向量)。
第4步:先对训练样本进行预处理,去除训练样本中处文本内容之外的内容(对应图7中所示的文章文本预处理),然后对预处理后的训练样本中的文本内容进行分句处理,得到训练样本所包含的各分句(对应图7中所示的分句后的文本),将各分句输入至第一双向门控循环单元网络(对应图7中所示的句子级别注意力bi-GRU网络),通过第一双向门控循环单元网络和第一注意力网络,可以从词序上学习到词与词之间的关联关系,进而可确定每句话所表达的语义,得到句子编码向量(句子层级的语义特征),然后将句子编码向量输入至第二双向门控循环单元网络(对应图7中所示的文档级别注意力bi-GRU网络),通过第二双向门控循环单元网络和第二注意力网络,可以从句子与句子间的关联关系(图7中所示的句间依赖交互关系)学习到句子间所表达的语义,得到训练样本的文本语义特征(对应图7中所示的文本语义子网络输出向量)。
需要说明的是,上述步骤2至步骤4并不限定上述一种处理顺序,各步骤可以并行,也可以采用其他顺序执行,可基于实际需求进行配置。
第5步:基于上述三个输出向量(多模态特征),通过子网络级联成联合网络调整每个子网络输出向量中各神经元的权重,接着对调整后的每个子网络的输出向量进行进一步的特征处理(比如,加权处理),得到训练样本的质量预测结果。
第6步:在初始网络模型的损失函数收敛时,结束对初始网络模型的训练,得到质量评估模型(对应图7中所示的整体网络联合训练)。其中,损失函数的值表征了文章对应的质量预测结果和质量标注结果的差异程度。
可以理解的是,在模型的实际训练过程中,获取训练样本中文本内容对应的页面截图,写作特征,分句均可以在模型之外实现,也可以在模型内实现,本发明中不作限定。
在本发明的方案中,可以采用有监督的学习方式,由人工对样本文章中文章的质量进行评估给出文章的文章质量。对于排版外观子网络,Inception V3模型可以基于ImageNet图像数据集中的数据进行训练得到,并可基于Inception V3模型得到的处理结果对模型中的参数进行调整,以提高Inception V3模型的精度。在训练质量评估模型的过程中,可将训练样本中最高质量得分作为预测结果,采用Adam优化算法以及交叉熵损失函数作为优化目标训练初始网络模型直至收敛。
本发明实施例还提供了一种文章推荐方法,如图7中所示,该方法的执行主体可以与图1中所示的方法的执行主体为同一个执行主体,也可以为不同的执行主体,如图8所示,该方法可以包括步骤S210至步骤S230,其中:
步骤S210:获取各初始的待推荐文章。
其中,初始的待推荐文章可以是用户上传的文章,也可以是从指定数据库或其他服务器获取到的文章,本发明实施例中不限定初始的待推荐文章的具体来源。初始的待推荐文章可以是具有不同格式的文章,比如,各初始的待推荐文章的排版外观可以不同,写作风格也可以不同。初始的待推荐文章可以作为推荐文章的候选文章。
步骤S220:确定各初始的待推荐文章的文章质量,其中,文章质量是通过前文中所描述的文章质量评估方法所确定的。
其中,确定各初始的待推荐文章的方法具体可参见前文中的描述,在此不再赘述。
步骤S230:基于各初始的待推荐文章的文章质量,从各初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
其中,文章质量可以通过分类结果表示,比如,文章质量可分为高质量文章和低质量文章两个结果,文章质量还可以直接通过质量分数表示,本发明中并不限定文章质量的具体表现形式,均在本发明的保护范围内。
基于各初始的待推荐文章的文章质量,以及预先配置的推荐策略,从各初始的待推荐文章中确定出最终的待推荐文章,推荐策略可以基于实际需求配置,比如,如果文章质量包括分为高质量文章和低质量文章两个结果,则可以将各初始的待推荐文章中的高质量文章作为待推荐文章。如果文章质量通过质量分数表示,则可将质量分数大于设定值的初始的待推荐文章作为待推荐文章。低质量文章和质量分数不大于设定值的初始的待推荐文章不能作为待推荐文章。
对于低质量文章和质量分数不大于设定值的初始的待推荐文章,可以基于预配置的处理策略进行处理,比如,将低质量文章和质量分数不大于设定值的初始的待推荐文章从初始的待推荐文章中删除,或者打上质量标签,通过质量标签标识文章的质量,以使得下次再基于初始的待推荐文章的文章质量确定待推荐文章时,减少数据处理量。
可以理解的是,如果该方法的执行主体与文章质量评估方法的执行主体不是一个执行主体,文章推荐方法的执行主体为服务器1,文章质量评估方法的执行主体为服务器2,则在获取各初始的待推荐文章后,服务器1将各初始的待推荐文章发送给服务器2,服务器2在确定各初始的待推荐文章的文章质量后,将各初始的待推荐文章的文章质量发送给服务器1,服务器1基于各初始的待推荐文章的文章质量,从各初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
本发明的方案中,可以基于文章的多模态特征准确确定出各初始的待推荐文章的文章质量,以使得在从初始的待推荐文章中确定待推荐文章时,可以准确的向用户推荐质量好的文章,提高用户的阅读体验,另外,在确定文章的文章质量时,考虑到了人阅读文章时的认知过程,使得确定出的待推荐文章更加符合用户的阅读习惯,进一步提高用户阅读体验。
为了更好的理解本发明实施例所提供的方法,下面结合图9,对本发明实施例的方案进行进一步详细说明。
对于一个可供读者进行文章阅读的平台,比如,某个公众号平台,其为用户提供了文章质量评估的功能,在向用户推荐文章之前,可基于服务器中本发明中的方案确定各初始的待推荐文章(下文可称之为待评估文章)的文章质量,再基于文章质量决定是否推荐给用户。下面基于以下示例,对本发明的方案进行具体说明:
步骤1:获取待评估文章。
步骤2:截取待评估文章的文本内容对应页面截图(图9中所示的截图图片)。
步骤3:抽取和计算文章(待评估文章)的写作特征,并确定出每个写作特征对应的特征值。
步骤4:提取待评估文章的标题和正文,对标题和正文进行文本预处理,以去除标题和文本中除文字之外的内容,使得预处理后的文章中的文本内容为纯净文本,然后对该纯文本进行分句处理,得到该文章中的各分句(对应图9中所示的处理好的分句文本)。
步骤5:将上述步骤2至步骤4中得到的截图图片、特征值和各分句输入至训练好的质量评估模型(对应图9中所示的训练好的文章质量评估联合网络),得到待评估文章的文章质量(对应图9中所示的输出文章质量的预测类别)。
其中,预测类别可以包括两种,分别为高质量文章(对应图9中所示的高质文章),和低质量文章,在待评估文章为高质量文章时,可将该待评估文章作为待推荐文章,依照推荐规则推荐给用户,如果该待评估文章为低质量文章,可不将该待评估文章作为待推荐文章,或者基于过滤规则将该待评估文章过滤掉。从而可以选择高质文章进行推荐,同时打压低质量文章。
如果待评估文章为广告中对应的文章,在在线广告中,评估广告对应的文章质量水平可以帮助在广告商和作者之间进行资金的分成结算,即基于文章的质量进行广告商和作者之间进行资金的分成。可以理解的是,基于文章的质量,还可以与文章的其他属性相结合服务于更多的业务场景。
通过本方案的方法,在需要确定待评估文章的文章质量时,是基于待评估文章的多模态特征确定该待评估文章的文章质量的,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项,其中,排版外观特征可以从视觉上反映出文章的特征,写作风格特征可以从文章内容上反映出文章的特征,文本语义特征可以从文章语义和写作逻辑上反映出文本的体征,由此,基于上述多模态特征,可以从至少两个维度来衡量待评估文章的质量,使得确定的文章质量考虑了多个维度因素对文章质量的影响,且基于多模态特征评估文章质量,能够使得文章质量的评估很好的遵从人的阅读认知过程,进而使得确定的文章质量更准确。
基于与图1中所示的方法相同的原理,本发明实施例还提供了一种文章质量评估装置30,如图10中所示,该文章质量评估装置30可以包括待评估文章获取模块310,特征提取模块320和质量评估模块330,其中:
待评估文章获取模块310,用于获取待评估文章。
特征提取模块320,用于提取待评估文章的多模态特征,多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项。
质量评估模块330,用于基于多模态特征确定待评估文章的文章质量。
可选的,多模态特征包括排版外观特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
获取待评估文章的页面截图;
基于页面截图,通过图片处理模型,提取待评估文章中的排版外观特征。
可选的,多模态特征包括写作风格特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
获取待评估文章中所包含内容的至少两种写作特征;
基于各写作特征进行融合,得到待评估文章的写作风格特征。
可选的,多模态特征包括文本语义特征,特征提取模块在提取待评估文章的多模态特征时,具体用于:
提取待评估文章中至少两种文本层级的语义特征;
基于至少两种文本层级的语义特征,得到待评估文章的文本语义特征。
可选的,写作特征为标题特征、正文特征、配图特征、插入视频特征或篇章结构特征中的至少一项。
可选的,特征提取模块在基于各写作特征进行融合,得到待评估文章的写作风格特征时,具体用于:
基于各写作特征,确定每个写作特征的权重;
基于各写作特征的权重,对各写作特征进行加权融合,得到写作风格特征。
可选的,特征提取模块在基于各写作特征进行融合,得到待评估文章的写作风格特征时,具体用于:
基于各写作特征,确定每个写作特征的关联特征;
基于各写作特征和各关联特征,得到待评估文章的写作风格特征。
可选的,至少两种文本层级的语义特征包括句子层级的语义特征和文档层级的语义特征;特征提取模块在提取待评估文章中至少两种文本层级的语义特征时,具体用于:
对待评估文章的文本内容进行分句处理,得到待评估文章所包含的各分句;
基于待评估文章中的每个分句所包括的各分词,提取得到每个分句的语义特征,句子层级的语义特征包括各分句的语义特征;
基于各分句的语义特征,提取得到文档层级的语义特征;
其中,待评估文章的文本语义特征为文档层级的语义特征。
可选的,特征提取模块在提取待评估文章中至少两种文本层级的语义特征时,具体用于:
确定待评估文章中各分词的语义特征;
基于各分词的语义特征,确定每个分词对应的关联特征;
基于各分词的语义特征和各分词对应的关联特征,确定待评估文章中各分句的语义特征;
基于各分句的语义特征,确定每个分句对应的关联特征;
基于各分句的语义特征和各分句对应的关联特征,确定待评估文章的文本语义特征。
可选的,质量评估模块基于多模态特征确定待评估文章的文章质量时,具体用于:
确定多模态特征中各特征的权重;
基于各特征的权重对各特征进行加权;
基于加权后的特征,确定待评估文章的文章质量。
可选的,基于多模态特征确定待评估文章的文章质量是通过质量评估模型实现的,质量评估模型包括多模态特征提取网络和质量确定模块;
多模态特征提取网络用于提取待评估文章中的多模态特征;质量确定模块用于基于多模态特征确定待评估文章的文章质量。
基于与图8中所示的方法相同的原理,本发明实施例还提供了一种文章推荐装置40,如图11中所示,该文章推荐装置40可以包括待推荐文章获取模块410,文章质量确定模块420和文章推荐模块430,其中:
待推荐文章获取模块410,用于获取各初始的待推荐文章;
文章质量确定模块420,用于确定各初始的待推荐文章的文章质量,其中,文章质量是通过前文所描述的文章质量评估方法所确定的;
文章推荐模块430,用于基于各初始的待推荐文章的文章质量,从各初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
由于本发明实施例所提供的文章质量评估装置为可以执行本发明实施例中的文章质量评估方法的装置,故而基于本发明实施例中所提供的文章质量评估方法,本领域所属技术人员能够了解本发明实施例的文章质量评估装置的具体实施方式以及其各种变化形式,所以在此对于该文章质量评估装置如何实现本发明实施例中的文章质量评估方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的文章质量评估方法所采用的文章质量评估装置,都属于本发明所欲保护的范围。
由于本发明实施例所提供的文章推荐装置为可以执行本发明实施例中的文章推荐方法的装置,故而基于本发明实施例中所提供的文章推荐方法,本领域所属技术人员能够了解本发明实施例的文章推荐装置的具体实施方式以及其各种变化形式,所以在此对于该文章推荐装置如何实现本发明实施例中的文章推荐方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中的文章推荐方法所采用的文章推荐装置,都属于本发明所欲保护的范围。
基于与本发明实施例所提供的文章质量评估方法、文章推荐方法、文章质量评估装置和文章推荐装置相同的原理,本发明实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器。其中,存储器中存储有可读指令,可读指令由处理器加载并执行时,可以实现本发明任一实施例中所示的方法。
作为一个示例,图12中示出了本发明实施例的方案所适用的一种电子设备4000的结构示意图,如图12中所示,该电子设备4000可以包括处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本发明实施例的限定。
处理器4001可以是CPU(Central Processing Unit,中央处理器),通用处理器,DSP(Digital Signal Processor,数据信号处理器),ASIC(Application SpecificIntegrated Circuit,专用集成电路),FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本发明公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图12中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是ROM(Read Only Memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,RAM(Random Access Memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory,电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本发明方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的方案。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (15)

1.一种文章质量评估方法,其特征在于,包括:
获取待评估文章;
提取所述待评估文章的多模态特征,所述多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;
基于所述多模态特征确定所述待评估文章的文章质量。
2.根据权利要求1所述的方法,其特征在于,所述多模态特征包括所述排版外观特征,所述提取所述待评估文章的多模态特征,包括:
获取所述待评估文章的页面截图;
基于所述页面截图,通过图片处理模型,提取所述待评估文章中的排版外观特征。
3.根据权利要求1所述的方法,其特征在于,所述多模态特征包括所述写作风格特征,所述提取所述待评估文章的多模态特征,包括:
获取所述待评估文章中所包含内容的至少两种写作特征;
基于各所述写作特征,得到所述待评估文章的写作风格特征。
4.根据权利要求1所述的方法,其特征在于,所述多模态特征包括所述文本语义特征,所述提取所述待评估文章的多模态特征,包括:
提取所述待评估文章中至少两种文本层级的语义特征;
基于所述至少两种文本层级的语义特征,得到所述待评估文章的文本语义特征。
5.根据权利要求3所述的方法,其特征在于,所述写作特征为标题特征、正文特征、配图特征、插入视频特征或篇章结构特征中的至少一项。
6.根据权利要求5所述的方法,其特征在于,所述基于各所述写作特征,得到所述待评估文章的写作风格特征,包括:
基于各所述写作特征,确定每个写作特征的权重;
基于各所述写作特征的权重,对各所述写作特征进行加权融合,得到所述写作风格特征。
7.根据权利要求5所述的方法,其特征在于,所述基于各所述写作特征进行融合,得到所述待评估文章的写作风格特征,包括:
基于各所述写作特征,确定每个所述写作特征的关联特征;
基于各所述写作特征和各所述关联特征,得到所述待评估文章的写作风格特征。
8.根据权利要求4所述的方法,其特征在于,所述至少两种文本层级的语义特征包括句子层级的语义特征和文档层级的语义特征;
所述提取所述待评估文章中至少两种文本层级的语义特征,包括:
对所述待评估文章的文本内容进行分句处理,得到所述待评估文章所包含的各分句;
基于所述待评估文章中的每个分句所包括的各分词,提取得到每个所述分句的语义特征,所述句子层级的语义特征包括各所述分句的语义特征;
基于各所述分句的语义特征,提取得到所述文档层级的语义特征;
其中,所述待评估文章的文本语义特征为所述文档层级的语义特征。
9.根据权利要求8所述的方法,其特征在于,所述提取所述待评估文章中至少两种文本层级的语义特征,包括:
确定所述待评估文章中各分词的语义特征;
基于各所述分词的语义特征,确定每个所述分词对应的关联特征;
基于各所述分词的语义特征和各所述分词对应的关联特征,确定所述待评估文章中各分句的语义特征;
基于各所述分句的语义特征,确定每个所述分句对应的关联特征;
基于各所述分句的语义特征和各所述分句对应的关联特征,确定所述待评估文章的文本语义特征。
10.根据权利要求1至9中任一项所述的方法,其特征在于,所述基于所述多模态特征确定所述待评估文章的文章质量是通过质量评估模型实现的,所述质量评估模型包括多模态特征提取网络和质量确定模块;
所述多模态特征提取网络用于提取所述待评估文章中的所述多模态特征;所述质量确定模块用于基于所述多模态特征确定所述待评估文章的文章质量。
11.一种文章推荐方法,其特征在于,包括:
获取各初始的待推荐文章;
确定各所述初始的待推荐文章的文章质量,其中,所述文章质量是通过权利要求1至权利要求10中任一项的方法所确定的;
基于各所述初始的待推荐文章的文章质量,从各所述初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
12.一种文章质量评估装置,其特征在于,包括:
待评估文章获取模块,用于获取待评估文章;
特征提取模块,用于提取所述待评估文章的多模态特征,所述多模态特征包括排版外观特征、写作风格特征或文本语义特征中的至少两项;
质量评估模块,用于基于所述多模态特征确定所述待评估文章的文章质量。
13.一种文章推荐装置,其特征在于,包括:
待推荐文章获取模块,用于获取各初始的待推荐文章;
文章质量确定模块,用于确定各所述初始的待推荐文章的文章质量,其中,所述文章质量是通过权利要求1至权利要求10中任一项的方法所确定的;
文章推荐模块,用于基于各所述初始的待推荐文章的文章质量,从各所述初始的待推荐文章中确定出最终的待推荐文章并提供给用户。
14.一种电子设备,其特征在于,包括存储器和处理器;
所述存储器中存储有计算机程序;
所述处理器,用于执行所述计算机程序以实现权利要求1至11中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法。
CN202010279491.3A 2020-04-10 2020-04-10 文章质量评估方法、文章推荐方法及其对应的装置 Active CN111488931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010279491.3A CN111488931B (zh) 2020-04-10 2020-04-10 文章质量评估方法、文章推荐方法及其对应的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010279491.3A CN111488931B (zh) 2020-04-10 2020-04-10 文章质量评估方法、文章推荐方法及其对应的装置

Publications (2)

Publication Number Publication Date
CN111488931A true CN111488931A (zh) 2020-08-04
CN111488931B CN111488931B (zh) 2023-04-07

Family

ID=71810984

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010279491.3A Active CN111488931B (zh) 2020-04-10 2020-04-10 文章质量评估方法、文章推荐方法及其对应的装置

Country Status (1)

Country Link
CN (1) CN111488931B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069802A (zh) * 2020-08-26 2020-12-11 北京小米松果电子有限公司 文章质量评分方法、文章质量评分装置及存储介质
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113191134A (zh) * 2021-05-31 2021-07-30 平安科技(深圳)有限公司 基于注意力机制的文档质量验证方法、装置、设备及介质
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备
CN114239600A (zh) * 2021-12-20 2022-03-25 山东浪潮科学研究院有限公司 一种生成一致性写作风格文档的方法、设备、存储介质
CN114254077A (zh) * 2021-12-21 2022-03-29 南京路特软件有限公司 一种基于自然语言对稿件完整性的评估方法
CN114385892A (zh) * 2020-10-22 2022-04-22 腾讯科技(深圳)有限公司 一种文章等级识别方法、装置、服务器及存储介质
CN114417001A (zh) * 2022-03-29 2022-04-29 山东大学 基于多模态模式的中文写作智能分析方法、系统及介质
CN114626356A (zh) * 2020-12-08 2022-06-14 腾讯科技(深圳)有限公司 文章特征生成方法、装置、设备和存储介质
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及系统
WO2023065618A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于多头自注意神经机制的多模态新闻推荐方法及装置
CN117592468A (zh) * 2024-01-19 2024-02-23 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置、设备及存储介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101777060A (zh) * 2009-12-23 2010-07-14 中国科学院自动化研究所 网页视觉质量的自动评价方法及其系统
US8949242B1 (en) * 2010-01-21 2015-02-03 Google Inc. Semantic document analysis
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN108345881A (zh) * 2018-02-01 2018-07-31 福州大学 一种基于计算机视觉的文档质量检测方法
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110334356A (zh) * 2019-07-15 2019-10-15 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN110807309A (zh) * 2018-08-01 2020-02-18 珠海金山办公软件有限公司 一种pdf文档的内容类型识别方法、装置及电子设备
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101344890A (zh) * 2008-08-22 2009-01-14 清华大学 一种基于观点检索的信息检索文档的评分方法
CN101777060A (zh) * 2009-12-23 2010-07-14 中国科学院自动化研究所 网页视觉质量的自动评价方法及其系统
US8949242B1 (en) * 2010-01-21 2015-02-03 Google Inc. Semantic document analysis
CN107193805A (zh) * 2017-06-06 2017-09-22 北京百度网讯科技有限公司 基于人工智能的文章价值评估方法、装置及存储介质
CN108345881A (zh) * 2018-02-01 2018-07-31 福州大学 一种基于计算机视觉的文档质量检测方法
CN110807309A (zh) * 2018-08-01 2020-02-18 珠海金山办公软件有限公司 一种pdf文档的内容类型识别方法、装置及电子设备
CN109543090A (zh) * 2018-08-07 2019-03-29 宜人恒业科技发展(北京)有限公司 一种评价网络文章的方法和装置
CN109145299A (zh) * 2018-08-16 2019-01-04 北京金山安全软件有限公司 一种文本相似度确定方法、装置、设备及存储介质
CN110188350A (zh) * 2019-05-22 2019-08-30 北京百度网讯科技有限公司 文本一致性计算方法及装置
CN110334356A (zh) * 2019-07-15 2019-10-15 腾讯科技(深圳)有限公司 文章质量的确定方法、文章筛选方法、以及相应的装置
CN110728144A (zh) * 2019-10-06 2020-01-24 湖北工业大学 一种基于上下文语义感知的抽取式文档自动摘要方法
CN110795538A (zh) * 2019-10-30 2020-02-14 腾讯科技(深圳)有限公司 一种基于人工智能的文本评分方法和相关设备
CN110866119A (zh) * 2019-11-14 2020-03-06 腾讯科技(深圳)有限公司 一种文章质量的确定方法、装置、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AILI SHEN 等: "A Joint Model for Multimodal Document Quality Assessment" *
DIMITRIOS ALIKANIOTIS 等: "Automatic Text Scoring Using Neural Networks" *
陈坤 等: "基于音频与歌词的音乐情感分类研究" *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112069802A (zh) * 2020-08-26 2020-12-11 北京小米松果电子有限公司 文章质量评分方法、文章质量评分装置及存储介质
CN114385892B (zh) * 2020-10-22 2024-04-16 腾讯科技(深圳)有限公司 一种文章等级识别方法、装置、服务器及存储介质
CN114385892A (zh) * 2020-10-22 2022-04-22 腾讯科技(深圳)有限公司 一种文章等级识别方法、装置、服务器及存储介质
CN113407663A (zh) * 2020-11-05 2021-09-17 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN113407663B (zh) * 2020-11-05 2024-03-15 腾讯科技(深圳)有限公司 基于人工智能的图文内容质量识别方法和装置
CN114626356A (zh) * 2020-12-08 2022-06-14 腾讯科技(深圳)有限公司 文章特征生成方法、装置、设备和存储介质
WO2022161470A1 (zh) * 2021-01-29 2022-08-04 腾讯科技(深圳)有限公司 内容的评价方法、装置、设备及介质
CN112966509A (zh) * 2021-04-16 2021-06-15 重庆度小满优扬科技有限公司 文本质量评估方法、装置、存储介质及计算机设备
CN113191134A (zh) * 2021-05-31 2021-07-30 平安科技(深圳)有限公司 基于注意力机制的文档质量验证方法、装置、设备及介质
CN113191134B (zh) * 2021-05-31 2023-02-03 平安科技(深圳)有限公司 基于注意力机制的文档质量验证方法、装置、设备及介质
CN113536769A (zh) * 2021-07-21 2021-10-22 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备
CN113536769B (zh) * 2021-07-21 2024-10-15 深圳证券信息有限公司 文本简洁明晰程度评价方法及相关设备
WO2023065618A1 (zh) * 2021-10-21 2023-04-27 北京邮电大学 基于多头自注意神经机制的多模态新闻推荐方法及装置
CN114239600B (zh) * 2021-12-20 2024-05-28 山东浪潮科学研究院有限公司 一种生成一致性写作风格文档的方法、设备、存储介质
CN114239600A (zh) * 2021-12-20 2022-03-25 山东浪潮科学研究院有限公司 一种生成一致性写作风格文档的方法、设备、存储介质
CN114254077A (zh) * 2021-12-21 2022-03-29 南京路特软件有限公司 一种基于自然语言对稿件完整性的评估方法
CN114417001B (zh) * 2022-03-29 2022-07-01 山东大学 基于多模态模式的中文写作智能分析方法、系统及介质
CN114417001A (zh) * 2022-03-29 2022-04-29 山东大学 基于多模态模式的中文写作智能分析方法、系统及介质
CN115886830A (zh) * 2022-12-09 2023-04-04 中科南京智能技术研究院 一种十二导联心电图的分类方法及系统
CN117592468A (zh) * 2024-01-19 2024-02-23 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置、设备及存储介质
CN117592468B (zh) * 2024-01-19 2024-05-03 腾讯科技(深圳)有限公司 基于人工智能的文本处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN111488931B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN111488931B (zh) 文章质量评估方法、文章推荐方法及其对应的装置
CN111191078B (zh) 基于视频信息处理模型的视频信息处理方法及装置
CN110717017B (zh) 一种处理语料的方法
CN113283551B (zh) 多模态预训练模型的训练方法、训练装置及电子设备
CN113011186B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111881262A (zh) 基于多通道神经网络的文本情感分析方法
CN113705313A (zh) 文本识别方法、装置、设备及介质
CN117033609B (zh) 文本视觉问答方法、装置、计算机设备和存储介质
CN112800184B (zh) 基于Target-Aspect-Opinion联合抽取的短文本评论情感分析方法
CN112633431A (zh) 一种基于crnn和ctc的藏汉双语场景文字识别方法
CN114282528A (zh) 一种关键词提取方法、装置、设备及存储介质
CN113204624A (zh) 一种多特征融合的文本情感分析模型及装置
Ouali et al. An augmented reality for an arabic text reading and visualization assistant for the visually impaired
CN116186312A (zh) 用于数据敏感信息发现模型的多模态数据增强方法
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
CN117892140B (zh) 视觉问答及其模型训练方法、装置、电子设备、存储介质
CN112132075B (zh) 图文内容处理方法及介质
CN117150436B (zh) 多模态自适应融合的主题识别方法及系统
CN114281934A (zh) 文本识别方法、装置、设备及存储介质
CN113704508A (zh) 多媒体信息识别方法、装置、电子设备及存储介质
CN117172253A (zh) 一种基于标签信息引导的社交媒体多模态命名实体识别方法
CN116311322A (zh) 一种文档版面要素检测方法、装置、存储介质及设备
CN114911940A (zh) 文本情感识别方法及装置、电子设备、存储介质
CN115359486A (zh) 一种文档图像中自定义信息的确定方法及系统
CN114547435A (zh) 内容质量的识别方法、装置、设备及可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40027462

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant