CN113254814A - 网络课程视频打标签方法、装置、电子设备及介质 - Google Patents
网络课程视频打标签方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN113254814A CN113254814A CN202110518016.1A CN202110518016A CN113254814A CN 113254814 A CN113254814 A CN 113254814A CN 202110518016 A CN202110518016 A CN 202110518016A CN 113254814 A CN113254814 A CN 113254814A
- Authority
- CN
- China
- Prior art keywords
- label
- video
- network
- network course
- course video
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000002372 labelling Methods 0.000 title claims abstract description 14
- 238000013145 classification model Methods 0.000 claims abstract description 46
- 238000001514 detection method Methods 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 abstract description 4
- 230000006870 function Effects 0.000 description 7
- 238000007726 management method Methods 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 235000012601 Euterpe oleracea Nutrition 0.000 description 2
- 244000207620 Euterpe oleracea Species 0.000 description 2
- 235000003650 acai Nutrition 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007670 refining Methods 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9562—Bookmark management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及图像分类技术,揭露一种网络课程视频打标签方法,包括:根据网络课程视频的标题得到一级内容标签;从所述网络课程视频中抽取人像视频帧集并进行人脸检测,获取人脸标签;提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;根据所述一级内容标签、人脸标签及二级内容标签构建所述网络课程视频的标签集。本发明还提出一种网络课程视频打标签装置、设备及存储介质。本发明还涉及区块链技术,所述网络课程视频可存储于区块链节点中。本发明可以提高网络课程视频的标签的准确性。
Description
技术领域
本发明涉及图像分类技术领域,尤其涉及一种网络课程视频打标签方法、装置、电子设备及计算机可读存储介质。
背景技术
在互联网越来越普及的年代,传统授课方式的局限性越来越明显,如落后地区往往得不到优秀的教师资源,传统的授课方式无法随学习者的兴趣、爱好进行改变等。
而通过网络传输的网络课程视频能够很好的解决这一问题,但由于网络上的网络课程视频过于丰富,如何对其进行统一的分类成为了一个亟须解决的问题,现有的网络课程视频的打标签方式往往都基于该网络课程视频的题目,标签分类不够详细。
发明内容
本发明提供一种网络课程视频打标签方法、装置、电子设备及计算机可读存储介质,其主要目的在于提高网络课程视频的标签的准确性。
为实现上述目的,本发明提供的一种网络课程视频打标签方法,包括:
获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签;
利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签;
提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;
基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;
根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
可选地,所述根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签,包括:
获取一级标签训练文本集,并利用所述一级标签训练文本集训练预设的文本分类模型,得到一级标签分类模型;
将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签。。
可选地,所述将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签,包括:
利用所述一级标签分类模型对所述网络课程视频的标题进行分词处理,得到标题分词文本;
将所述标题分词文本转换为特征向量;
利用余弦相似度算法计算所述特征向量与预设的一级标签库中各个标签的相似分数,将所述相似分数高于预设阈值的一级标签库中的标签作为所述网络课程视频的一级内容标签。
所述利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,包括:
获取所述网络课程视频的所有视频帧,构建视频帧集;
利用分层抽样法从所述视频帧集中获取预设数量的视频帧;
对所述预设数量的视频帧进行分块检测,保留包含人像视频帧,得到人像视频帧集。
可选地,所述基于所述人像视频帧集进行人脸检测,获取人脸标签,包括:
利用图像检测算法检测所述人像视频帧集中的每一帧视频帧,获取人像数据;
通过预设的人脸检测算法检测所述人像数据,获取所述网络课程视频的人脸标签。
可选地,所述利用预构建的语音识别工具将所述音频信息转化为文本信息,包括:
将所述音频信息解压,得到所述音频信息的波形文件;
将所述波形文件进行静音切除和分帧,得到波形帧构建的波形帧集;
获取所述波形帧集中波形帧的波形状态,构建语音音素集;
基于所述语音音素集中的语音音素构建单词,组合得到文本信息。
可选地,所述基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签,包括:
获取和所述一级内容标签对应的二级标签分类模型;
利用所述二级标签分类模型对所述文本信息进行分词处理,得到分词文本信息;
将所述分词文本信息转化为信息特征向量;
利用欧式距离公式计算所述信息特征向量与所述一级内容标签的相似分数,将相似分数高于中间值的特征向量转化为向量文本,得到二级标签。。
为了解决上述问题,本发明还提供一种一种网络课程视频打标签装置,所述装置包括:
一级标签构建模块,用于获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签;
人脸标签构建模块,用于利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签;
音频信息转化模块,用于提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;
二级标签构建模块,用于基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;
课程标签集获取模块,用于根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
存储器,存储至少一个计算机程序;及
处理器,执行所述存储器中存储的计算机程序以实现上述所述的网络课程视频打标签方法。
为了解决上述问题,本发明还提供一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如上所述的网络课程视频打标签方法。
本发明实施例中通过网络课程视频的标题得到一级内容标签,通过从所述网络课程视频中抽取视频帧集并进行人脸检测得到人脸标签,并通过将所述网络课程视频对应的文本信息得到所述一级内容标签下的二级内容标签,最后用所述一级内容标签、二级内容标签及人脸标签构建所述网络课程视频的课程标签集,从而提高了网络课程视频的标签的准确性。
附图说明
图1为本发明一实施例提供的一种网络课程视频打标签方法的流程示意图;
图2为本发明一实施例提供的一种网络课程视频打标签装置的模块示意图;
图3为本发明一实施例提供的实现网络课程视频打标签方法的电子设备的内部结构示意图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例提供一种网络课程视频打标签方法。所述网络课程视频打标签方法的执行主体包括但不限于服务端、终端等能够被配置为执行本申请实施例提供的该方法的电子设备中的至少一种。换言之,所述网络课程视频打标签方法可以由安装在终端设备或服务端设备的软件或硬件来执行,所述软件可以是区块链平台。所述服务端包括但不限于:单台服务器、服务器集群、云端服务器或云端服务器集群等。
参照图1所示,为本发明一实施例提供的一种网络课程视频打标签方法的流程示意图。在本实施例中,所述网络课程视频打标签方法包括:
S1、获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签。
本发明实施例中,所述网络课程视频可以是,例如,金融方面的视频课程,技术相关的视频课程等,例如,所述网络课程视频可以是一个关于股票方面的视频课程。本发明实施例获取所述所述网络课程视频的标题,根据所述标题得到所述网络课程视频的一级内容标签为“金融”。
详细地,所述根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签包括:
获取一级标签训练文本集,并利用所述一级标签训练文本集训练预设的文本分类模型,得到一级标签分类模型;
将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签。
本发明实施例中,所述一级标签训练文本集为基于现有网络课程视频的标签类别,利用爬虫从网络搜索中爬取的一级标签训练文本构成的集合,所述一级标签训练文本由标题文本及所述标题文本的一级内容标签构成,其中所述标题文本的一级内容标签可以为人工标注所述标题文本所得到。
详细地,所述将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签包括:
利用所述一级标签分类模型对所述网络课程视频的标题进行分词处理,得到标题分词文本;
将所述标题分词文本转换为特征向量;
利用余弦相似度算法计算所述特征向量与预设的一级标签库中各个标签的相似分数,将所述相似分数高于预设阈值的一级标签库中的标签作为所述网络课程视频的一级内容标签。
本发明实施例中,在对所述网络课程视频的标题进行分词处理之前,还可以包括去除所述网络课程视频的标题中文本停顿词和文本连接词。其中所述文本停顿词如“的”,所述文本连接词如“和”等。本发明实施例对所述网络课程视频的标题进行分词处理时,可以通过预设的分词字典对所述网络课程视频的标题进行字符串匹配,并利用隐马尔可夫模型识别所述分词字典中不存在的新词,完成对所述网络课程视频的标题的分词处理。
S2、利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签。
本发明实施例中,所述预设的视频帧提取法为分层抽样法。所述分层抽样法也可以称为类型抽样法,是一种从一个可以分成不同层的总体中,按照预设的比例从不同层中随机抽取样本的方法。本方案中,可以通过所述分层抽样法将所述网络课程视频按照时间进行分层,再从不同层中按照预设的比例收取视频帧。本发明实施例中利用所述分层抽样法可以减少抽样误差,取得具有代表性的视频帧。
详细地,所述利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集包括:
获取所述网络课程视频的所有视频帧,构建视频帧集;
利用分层抽样法从所述视频帧集中获取预设数量的视频帧;
对所述预设数量的视频帧进行分块检测,保留包含人像视频帧,得到人像视频帧集。
详细地,所述基于所述人像视频帧集进行人脸检测,获取人脸标签包括:
利用图像检测算法检测所述人像视频帧集中的每一帧视频帧,获取人像数据;
通过预设的人脸检测算法检测所述人像数据,获取所述网络课程视频的人脸标签。
本发明实施例中,所述图像检测算法可以采用多任务卷积神经网络(Multi-taskCascaded Convolutional Networks,MTCNN)算法,并在利用所述多任务卷积神经网络算法获取人像数据后,通过所述人脸检测算法检测所述人像数据,获取所述人像数据中的人像标签,其中所述人脸检测算法可以采用脸书(facebook)开发的deepface算法,所述deepface算法是一种基于检测点的人脸检测算法(fiducial point detecto)。本发明实施例中,所述人脸标签可以为所述网络课程视频的人物信息,如授课老师的姓名、年龄、性别等。
本发明实施例中,可以将所述人脸检测算法检测得到的人脸数据与预先存储的人物数据库中的人脸数据进行比较,将得到的所述网络课程视频中的授课老师的姓名等信息作为人脸标签。当所述人物数据库中不存在对应的人脸数据时,可以得到所述人脸标签为“佚名”。例如,通过对所述网络课程视频进行人脸检测,得到人脸标签为“XX老师”。
S3、提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息。
本发明实施例中,利用所述预构建的语音识别工具将所述音频信息转化为文本信息是通过从github开源平台中调取语音识别工具,并利用所述语音识别工具将所述音频信息进行转化实现的。
本发明实施例中,所述音频信息为所述网络课程视频所对应的音频。所述语音识别工具为基于python的autosub工具,可以为音频信息配设对应的文本信息。
详细地,所述利用预构建的语音识别工具将所述音频信息转化为文本信息包括:
将所述音频信息解压,得到所述音频信息的波形文件;
将所述波形文件进行静音切除和分帧,得到波形帧构建的波形帧集;
获取所述波形帧集中波形帧的波形状态,构建语音音素集;
基于所述语音音素集中的语音音素构建单词,组合得到文本信息。
本发明实施例中,所述文本信息为所述音频信息通过autosub工具进行文本转录得到,并不限定为一种语言,将根据所述音频信息的不同而不同,例如当所述音频信息为中文音频时,所述文本信息为中文文本,当所述音频信息为英文音频时,所述文本信息为英文文本。
本发明实施例中,所述获取所述波形帧集中波形帧的波形状态,构建语音音素集包括:
获取预构建的声学模型,利用所述声学模型计算所述波形帧集中各个波形帧的状态概率;
根据所述波形帧的状态概率确定所述波形帧集中各个波形帧的波形状态;
将预设数目的波形状态构建为一个音素,得到语音音素集。
本发明实施例中,所述预设数目为三,即将三个波形状态组成一个音素,所述音素为是根据语音的自然属性划分出来的最小语音单位,在本方案中将根据所述音频信息的语言类别进行确认,例如,当语言类别为英文时,可采用卡内基梅隆大学的一套由39个音素构成的音素集,当语言类别为中文时,可采用全部声母和韵母作为音素集构建语音音素集。
S4、基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签。
本发明实施例中,所述二级内容标签可以是所述一级内容标签的子类。
详细地,所述基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签包括:
获取和所述一级内容标签对应的二级标签分类模型;
利用所述二级标签分类模型对所述文本信息进行分词处理,得到分词文本信息;
将所述分词文本信息转化为信息特征向量;
利用欧式距离公式计算所述信息特征向量与所述一级内容标签的相似分数,将相似分数高于中间值的特征向量转化为向量文本,得到二级标签。
本发明实施例中,所述一级内容标签的数目包括但不限于一个,若所述一级内容标签的数目为多个,则分别用所述一级内容标签对应的二级标签分类模型对所述文本信息进行文本提取,得到所述一级内容标签下的二级内容标签,且所述二级内容标签也并不限定为一个。例如所述网络课程视频的一级内容标签为金融标签,所述二级内容标签为金融标签下的投资标签、股票标签等。
本发明实施例中,所述预设的二级标签分类模型为基于预设的文本分类模型,利用预设的二级标签训练文本集进行训练得到,所述二级内容标签为所述一级内容标签的进一步细化,用于帮助所述网络课程视频的使用者进行进一步细化和区分视频内容的标签。
S5、根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
本发明实施例中,所述课程标签集为所述一级内容标签、所述人脸标签、所述二级内容标签构建的标签集合。
例如所述一级内容标签为金融标签,所述二级内容标签为投资标签、股票标签,所述人脸标签为性别男、年龄中年,则所述课程标签集为一级内容标签:金融,二级内容标签:投资、股票,人像标签:XX老师。
本发明实施例中通过网络课程视频的标题得到一级内容标签,通过从所述网络课程视频中抽取视频帧集并进行人脸检测得到人脸标签,并通过将所述网络课程视频对应的文本信息得到所述一级内容标签下的二级内容标签,最后用所述一级内容标签、二级内容标签及人脸标签构建所述网络课程视频的课程标签集,从而提高了网络课程视频的标签的准确性。
如图2所示,是本发明一种网络课程视频打标签装置的模块示意图。
本发明所述一种网络课程视频打标签装置100可以安装于电子设备中。根据实现的功能,所述一种网络课程视频打标签装置可以包括一级标签构建模块101、人脸标签构建模块102、音频信息转化模块103、二级标签构建模块104和课程标签集获取模块105。本发明所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
在本实施例中,关于各模块/单元的功能如下:
所述一级标签构建模块101,用于获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签。
本发明实施例中,所述网络课程视频可以是,例如,金融方面的视频课程,技术相关的视频课程等,例如,所述网络课程视频可以是一个关于股票方面的视频课程。本发明实施例获取所述所述网络课程视频的标题,根据所述标题得到所述网络课程视频的一级内容标签为“金融”。
详细地,所述根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签包括:
获取一级标签训练文本集,并利用所述一级标签训练文本集训练预设的文本分类模型,得到一级标签分类模型;
将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签。
本发明实施例中,所述一级标签训练文本集为基于现有网络课程视频的标签类别,利用爬虫从网络搜索中爬取的一级标签训练文本构成的集合,所述一级标签训练文本由标题文本及所述标题文本的一级内容标签构成,其中所述标题文本的一级内容标签可以为人工标注所述标题文本所得到。
详细地,所述将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签包括:
利用所述一级标签分类模型对所述网络课程视频的标题进行分词处理,得到标题分词文本;
将所述标题分词文本转换为特征向量;
利用余弦相似度算法计算所述特征向量与预设的一级标签库中各个标签的相似分数,将所述相似分数高于预设阈值的一级标签库中的标签作为所述网络课程视频的一级内容标签。
本发明实施例中,在对所述网络课程视频的标题进行分词处理之前,还可以包括去除所述网络课程视频的标题中文本停顿词和文本连接词。其中所述文本停顿词如“的”,所述文本连接词如“和”等。本发明实施例对所述网络课程视频的标题进行分词处理时,可以通过预设的分词字典对所述网络课程视频的标题进行字符串匹配,并利用隐马尔可夫模型识别所述分词字典中不存在的新词,完成对所述网络课程视频的标题的分词处理。
所述人脸标签构建模块102,用于利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签。
本发明实施例中,所述预设的视频帧提取法为分层抽样法。所述分层抽样法也可以称为类型抽样法,是一种从一个可以分成不同层的总体中,按照预设的比例从不同层中随机抽取样本的方法。本方案中,可以通过所述分层抽样法将所述网络课程视频按照时间进行分层,再从不同层中按照预设的比例收取视频帧。本发明实施例中利用所述分层抽样法可以减少抽样误差,取得具有代表性的视频帧。
详细地,所述利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集包括:
获取所述网络课程视频的所有视频帧,构建视频帧集;
利用分层抽样法从所述视频帧集中获取预设数量的视频帧;
对所述预设数量的视频帧进行分块检测,保留包含人像视频帧,得到人像视频帧集。
详细地,所述基于所述人像视频帧集进行人脸检测,获取人脸标签包括:
利用图像检测算法检测所述人像视频帧集中的每一帧视频帧,获取人像数据;
通过预设的人脸检测算法检测所述人像数据,获取所述网络课程视频的人脸标签。
本发明实施例中,所述图像检测算法可以采用多任务卷积神经网络(Multi-taskCascaded Convolutional Networks,MTCNN)算法,并在利用所述多任务卷积神经网络算法获取人像数据后,通过所述人脸检测算法检测所述人像数据,获取所述人像数据中的人像标签,其中所述人脸检测算法可以采用脸书(facebook)开发的deepface算法,所述deepface算法是一种基于检测点的人脸检测算法(fiducial point detecto)。本发明实施例中,所述人脸标签可以为所述网络课程视频的人物信息,如授课老师的姓名、年龄、性别等。
本发明实施例中,可以将所述人脸检测算法检测得到的人脸数据与预先存储的人物数据库中的人脸数据进行比较,将得到的所述网络课程视频中的授课老师的姓名等信息作为人脸标签。当所述人物数据库中不存在对应的人脸数据时,可以得到所述人脸标签为“佚名”。例如,通过对所述网络课程视频进行人脸检测,得到人脸标签为“XX老师”。
所述音频信息转化模块103,用于提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息。
本发明实施例中,利用所述预构建的语音识别工具将所述音频信息转化为文本信息是通过从github开源平台中调取语音识别工具,并利用所述语音识别工具将所述音频信息进行转化实现的。
本发明实施例中,所述音频信息为所述网络课程视频所对应的音频。所述语音识别工具为基于python的autosub工具,可以为音频信息配设对应的文本信息。
详细地,所述利用预构建的语音识别工具将所述音频信息转化为文本信息包括:
将所述音频信息解压,得到所述音频信息的波形文件;
将所述波形文件进行静音切除和分帧,得到波形帧构建的波形帧集;
获取所述波形帧集中波形帧的波形状态,构建语音音素集;
基于所述语音音素集中的语音音素构建单词,组合得到文本信息。
本发明实施例中,所述文本信息为所述音频信息通过autosub工具进行文本转录得到,并不限定为一种语言,将根据所述音频信息的不同而不同,例如当所述音频信息为中文音频时,所述文本信息为中文文本,当所述音频信息为英文音频时,所述文本信息为英文文本。
本发明实施例中,所述获取所述波形帧集中波形帧的波形状态,构建语音音素集包括:
获取预构建的声学模型,利用所述声学模型计算所述波形帧集中各个波形帧的状态概率;
根据所述波形帧的状态概率确定所述波形帧集中各个波形帧的波形状态;
将预设数目的波形状态构建为一个音素,得到语音音素集。
本发明实施例中,所述预设数目为三,即将三个波形状态组成一个音素,所述音素为是根据语音的自然属性划分出来的最小语音单位,在本方案中将根据所述音频信息的语言类别进行确认,例如,当语言类别为英文时,可采用卡内基梅隆大学的一套由39个音素构成的音素集,当语言类别为中文时,可采用全部声母和韵母作为音素集构建语音音素集。
所述二级标签构建模块104,用于基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签。
本发明实施例中,所述二级内容标签可以是所述一级内容标签的子类。
详细地,所述基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签包括:
获取和所述一级内容标签对应的二级标签分类模型;
利用所述二级标签分类模型对所述文本信息进行分词处理,得到分词文本信息;
将所述分词文本信息转化为信息特征向量;
利用欧式距离公式计算所述信息特征向量与所述一级内容标签的相似分数,将相似分数高于中间值的特征向量转化为向量文本,得到二级标签。
本发明实施例中,所述一级内容标签的数目包括但不限于一个,若所述一级内容标签的数目为多个,则分别用所述一级内容标签对应的二级标签分类模型对所述文本信息进行文本提取,得到所述一级内容标签下的二级内容标签,且所述二级内容标签也并不限定为一个。例如所述网络课程视频的一级内容标签为金融标签,所述二级内容标签为金融标签下的投资标签、股票标签等。
本发明实施例中,所述预设的二级标签分类模型为基于预设的文本分类模型,利用预设的二级标签训练文本集进行训练得到,所述二级内容标签为所述一级内容标签的进一步细化,用于帮助所述网络课程视频的使用者进行进一步细化和区分视频内容的标签。
所述课程标签集获取模块105,用于根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
本发明实施例中,所述课程标签集为所述一级内容标签、所述人脸标签、所述二级内容标签构建的标签集合。
例如所述一级内容标签为金融标签,所述二级内容标签为投资标签、股票标签,所述人脸标签为性别男、年龄中年,则所述课程标签集为一级内容标签:金融,二级内容标签:投资、股票,人像标签:XX老师。
如图3所示,是本发明实现网络课程视频打标签方法的电子设备的结构示意图。
所述电子设备1可以包括处理器10、存储器11和总线,还可以包括存储在所述存储器11中并可在所述处理器10上运行的计算机程序,如一种网络课程视频打标签程序。
其中,所述存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是电子设备1的内部存储单元,例如该电子设备1的移动硬盘。所述存储器11在另一些实施例中也可以是电子设备1的外部存储设备,例如电子设备1上配备的插接式移动硬盘、智能存储卡(Smart Media Card,SMC)、安全数字(SecureDigital,SD)卡、闪存卡(Flash Card)等。进一步地,所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据,例如一种网络课程视频打标签程序的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
所述处理器10在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(Control Unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述存储器11内的程序或者模块(例如执行一种网络课程视频打标签程序等),以及调用存储在所述存储器11内的数据,以执行电子设备1的各种功能和处理数据。
所述总线可以是外设部件互连标准(peripheral component interconnect,简称PCI)总线或扩展工业标准结构(extended industry standard architecture,简称EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
图3仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图3示出的结构并不构成对所述电子设备1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
例如,尽管未示出,所述电子设备1还可以包括给各个部件供电的电源(比如电池),优选地,电源可以通过电源管理装置与所述至少一个处理器10逻辑相连,从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
进一步地,所述电子设备1还可以包括网络接口,可选地,所述网络接口可以包括有线接口和/或无线接口(如WI-FI接口、蓝牙接口等),通常用于在该电子设备1与其他电子设备之间建立通信连接。
可选地,该电子设备1还可以包括用户接口,用户接口可以是显示器(Display)、输入单元(比如键盘(Keyboard)),可选地,用户接口还可以是标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
所述电子设备1中的所述存储器11存储的一种网络课程视频打标签程序是多个计算机程序的组合,在所述处理器10中运行时,可以实现:
获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签;
利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签;
提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;
基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;
根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
进一步地,所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)。
进一步地,所述计算机可用存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。
因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图表记视为限制所涉及的权利要求。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (10)
1.一种网络课程视频打标签方法,其特征在于,所述方法包括:
获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签;
利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签;
提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;
基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;
根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
2.如权利要求1所述的网络课程视频打标签方法,其特征在于,所述根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签,包括:
获取一级标签训练文本集,并利用所述一级标签训练文本集训练预设的文本分类模型,得到一级标签分类模型;
将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签。
3.如权利要求2所述的网络课程视频打标签方法,其特征在于,所述将所述网络课程视频的标题输入所述一级标签分类模型,得到所述网络课程视频的一级内容标签,包括:
利用所述一级标签分类模型对所述网络课程视频的标题进行分词处理,得到标题分词文本;
将所述标题分词文本转换为特征向量;
利用余弦相似度算法计算所述特征向量与预设的一级标签库中各个标签的相似分数,将所述相似分数高于预设阈值的一级标签库中的标签作为所述网络课程视频的一级内容标签。
4.如权利要求1所述的网络课程视频打标签方法,其特征在于,所述利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,包括:
获取所述网络课程视频的所有视频帧,构建视频帧集;
利用分层抽样法从所述视频帧集中获取预设数量的视频帧;
对所述预设数量的视频帧进行分块检测,保留包含人像视频帧,得到人像视频帧集。
5.如权利要求4所述的网络课程视频打标签方法,其特征在于,所述基于所述人像视频帧集进行人脸检测,获取人脸标签,包括:
利用图像检测算法检测所述人像视频帧集中的每一帧视频帧,获取人像数据;
通过预设的人脸检测算法检测所述人像数据,获取所述网络课程视频的人脸标签。
6.如权利要求1至5中任一项所述的网络课程视频打标签方法,其特征在于,所述利用预构建的语音识别工具将所述音频信息转化为文本信息,包括:
将所述音频信息解压,得到所述音频信息的波形文件;
将所述波形文件进行静音切除和分帧,得到波形帧构建的波形帧集;
获取所述波形帧集中波形帧的波形状态,构建语音音素集;
基于所述语音音素集中的语音音素构建单词,组合得到文本信息。
7.如权利要1至5中任一项所述的网络课程视频打标签方法,其特征在于,所述基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签,包括:
获取和所述一级内容标签对应的二级标签分类模型;
利用所述二级标签分类模型对所述文本信息进行分词处理,得到分词文本信息;
将所述分词文本信息转化为信息特征向量;
利用欧式距离公式计算所述信息特征向量与所述一级内容标签的相似分数,将相似分数高于中间值的特征向量转化为向量文本,得到二级标签。
8.一种网络课程视频打标签装置,其特征在于,所述装置包括:
一级标签构建模块,用于获取网络课程视频和所述网络课程视频的标题,并根据所述网络课程视频的标题得到所述网络课程视频的一级内容标签;
人脸标签构建模块,用于利用预设的视频帧提取法从所述网络课程视频中抽取人像视频帧集,基于所述人像视频帧集进行人脸检测,获取人脸标签;
音频信息转化模块,用于提取所述网络课程视频的音频信息,并利用预构建的语音识别工具将所述音频信息转化为文本信息;
二级标签构建模块,用于基于所述文本信息和所述一级内容标签,通过预设的二级标签分类模型获取所述网络课程视频的二级内容标签;
课程标签集获取模块,用于根据所述一级内容标签、所述人脸标签、所述二级内容标签构建所述网络课程视频的课程标签集。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的网络课程视频打标签方法。
10.一种计算机可读存储介质,包括存储数据区和存储程序区,存储数据区存储创建的数据,存储程序区存储有计算机程序;其中,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的网络课程视频打标签方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518016.1A CN113254814A (zh) | 2021-05-12 | 2021-05-12 | 网络课程视频打标签方法、装置、电子设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110518016.1A CN113254814A (zh) | 2021-05-12 | 2021-05-12 | 网络课程视频打标签方法、装置、电子设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113254814A true CN113254814A (zh) | 2021-08-13 |
Family
ID=77223205
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110518016.1A Pending CN113254814A (zh) | 2021-05-12 | 2021-05-12 | 网络课程视频打标签方法、装置、电子设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254814A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114157882A (zh) * | 2021-12-27 | 2022-03-08 | 未来电视有限公司 | 视频编目方法、装置、电子设备及计算机可读存储介质 |
CN114491154A (zh) * | 2021-09-06 | 2022-05-13 | 特赞(上海)信息科技有限公司 | 基于标签的视频分析方法、装置、计算机设备和存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
-
2021
- 2021-05-12 CN CN202110518016.1A patent/CN113254814A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090955A (zh) * | 2014-07-07 | 2014-10-08 | 科大讯飞股份有限公司 | 一种音视频标签自动标注方法及系统 |
CN109325148A (zh) * | 2018-08-03 | 2019-02-12 | 百度在线网络技术(北京)有限公司 | 生成信息的方法和装置 |
CN110633365A (zh) * | 2019-07-25 | 2019-12-31 | 北京国信利斯特科技有限公司 | 一种基于词向量的层次多标签文本分类方法及系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114491154A (zh) * | 2021-09-06 | 2022-05-13 | 特赞(上海)信息科技有限公司 | 基于标签的视频分析方法、装置、计算机设备和存储介质 |
CN114157882A (zh) * | 2021-12-27 | 2022-03-08 | 未来电视有限公司 | 视频编目方法、装置、电子设备及计算机可读存储介质 |
CN114157882B (zh) * | 2021-12-27 | 2024-04-30 | 未来电视有限公司 | 视频编目方法、装置、电子设备及计算机可读存储介质 |
CN116978384A (zh) * | 2023-09-25 | 2023-10-31 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
CN116978384B (zh) * | 2023-09-25 | 2024-01-02 | 成都市青羊大数据有限责任公司 | 一种公安一体化大数据管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428488B (zh) | 简历数据信息解析及匹配方法、装置、电子设备及介质 | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
CN113312461A (zh) | 基于自然语言处理的智能问答方法、装置、设备及介质 | |
CN114387061A (zh) | 产品推送方法、装置、电子设备及可读存储介质 | |
CN113704429A (zh) | 基于半监督学习的意图识别方法、装置、设备及介质 | |
CN113254814A (zh) | 网络课程视频打标签方法、装置、电子设备及介质 | |
CN113722483A (zh) | 话题分类方法、装置、设备及存储介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
CN112287914A (zh) | Ppt视频段提取方法、装置、设备及介质 | |
CN113378970A (zh) | 语句相似性检测方法、装置、电子设备及存储介质 | |
CN113268615A (zh) | 资源标签生成方法、装置、电子设备及存储介质 | |
CN114021582B (zh) | 结合语音信息的口语理解方法、装置、设备及存储介质 | |
CN113205814A (zh) | 语音数据标注方法、装置、电子设备及存储介质 | |
CN112988963A (zh) | 基于多流程节点的用户意图预测方法、装置、设备及介质 | |
CN113821622A (zh) | 基于人工智能的答案检索方法、装置、电子设备及介质 | |
CN114461777A (zh) | 智能问答方法、装置、设备及存储介质 | |
CN113360654A (zh) | 文本分类方法、装置、电子设备及可读存储介质 | |
CN116450829A (zh) | 医疗文本分类方法、装置、设备及介质 | |
CN114662484A (zh) | 语义识别方法、装置、电子设备及可读存储介质 | |
CN113704410A (zh) | 情绪波动检测方法、装置、电子设备及存储介质 | |
CN107844531B (zh) | 答案输出方法、装置和计算机设备 | |
CN115510188A (zh) | 文本关键词关联方法、装置、设备及存储介质 | |
CN115525750A (zh) | 机器人话术检测可视化方法、装置、电子设备及存储介质 | |
CN114595321A (zh) | 问题标注方法、装置、电子设备及存储介质 | |
CN115114408A (zh) | 多模态情感分类方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210813 |
|
RJ01 | Rejection of invention patent application after publication |