CN109743624B - 视频切割方法、装置、计算机设备和存储介质 - Google Patents
视频切割方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN109743624B CN109743624B CN201811536818.XA CN201811536818A CN109743624B CN 109743624 B CN109743624 B CN 109743624B CN 201811536818 A CN201811536818 A CN 201811536818A CN 109743624 B CN109743624 B CN 109743624B
- Authority
- CN
- China
- Prior art keywords
- dotting
- data
- video
- behavior
- cutting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000006399 behavior Effects 0.000 claims description 193
- 238000012549 training Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 25
- 238000013519 translation Methods 0.000 claims description 20
- 238000013075 data extraction Methods 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000000605 extraction Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000000586 desensitisation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/233—Processing of audio elementary streams
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/02—Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
- G11B27/031—Electronic editing of digitised analogue information signals, e.g. audio or video signals
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/19—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
- G11B27/28—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/27—Server based end-user applications
- H04N21/274—Storing end-user multimedia data in response to end-user request, e.g. network recorder
- H04N21/2743—Video hosting of uploaded data from client
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/41—Structure of client; Structure of client peripherals
- H04N21/422—Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
- H04N21/4223—Cameras
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8455—Structuring of content, e.g. decomposing content into time segments involving pointers to the content, e.g. pointers to the I-frames of the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/845—Structuring of content, e.g. decomposing content into time segments
- H04N21/8456—Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8549—Creating video summaries, e.g. movie trailer
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Television Signal Processing For Recording (AREA)
Abstract
本申请涉及一种视频切割方法、装置、计算机设备和存储介质。所述方法涉及生物识别技术,包括:从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;按照切割点标识将视频流数据进行切割处理,得到视频段数据。采用本方法能够提高视频切割的处理效率。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种视频切割方法、装置、计算机设备和存储介质。
背景技术
随着多媒体技术的发展,以视频形式进行信息和资源传递的电影、电视、新闻、社交、教育和游戏等得到了广泛的应用,如视频聊天、视频会议、视频监控和影视剧等,视频已经成为人们工作、学习和生活中的重要部分。
在视频应用中,有需要对视频进行切割处理的场景,如电视新闻截取、录制视频中的脱敏处理等。目前对于视频的切割处理,需要人工进行手动打点标记,确定视频切割的时间轴位置,视频切割处理的效率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高视频切割处理效率的视频切割方法、装置、计算机设备和存储介质。
一种视频切割方法,所述方法包括:
从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在其中一个实施例中,其特征在于,从视频流数据中提取待识别视频数据包括:
获取视频流数据;
确定视频流识别长度;
按照视频流识别长度,从视频流数据中提取待识别视频数据。
在其中一个实施例中,将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果包括:
确定待识别视频数据对应所属业务人员的身份标识信息;
查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;
从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;
将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
在其中一个实施例中,在查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型之前,还包括:
从业务系统中获取历史行为影像数据和历史打点语音数据;
分别将历史行为影像数据和历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;
训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;
训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。
在其中一个实施例中,根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果包括:
查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;
将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;
将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;
根据行为触发结果和语音触发结果,得到打点识别结果。
在其中一个实施例中,还包括:
当接收到打点切割指令时,确定打点切割指令的切割时刻值;
确定切割时刻值在待识别视频数据中对应的切割视频帧;
为切割视频帧添加切割点标识;
返回按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在其中一个实施例中,在得到视频段数据之后,还包括:
从视频段数据中提取音频段数据;
查询预设的语音识别模型;
将音频段数据输入语音识别模型中,得到视频段数据的译文数据;
根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
一种视频切割装置,所述装置包括:
识别数据提取模块,用于从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
打点识别处理模块,用于将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
打点结果获取模块,用于根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
切割标识添加模块,用于当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
视频切割模块,用于按照切割点标识将视频流数据进行切割处理,得到视频段数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
按照切割点标识将视频流数据进行切割处理,得到视频段数据。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
按照切割点标识将视频流数据进行切割处理,得到视频段数据。
上述视频切割方法、装置、计算机设备和存储介质,从视频流数据中得到的待识别视频数据中提取影像数据和音频数据,并将影像数据和音频数据分别输入对应预设的打点行为识别模型和打点语音识别模型中,再根据得到的打点行为识别结果、打点语音识别结果和预设的打点触发规则获得打点识别结果,当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识,最后按照该切割点标识将视频流数据切割,得到视频段数据。在视频切割处理过程中,可以根据待识别视频数据中的影像数据和音频数据进行打点识别并添加切割点标识,不需要人工进行打点操作,提高了视频切割的处理效率。
附图说明
图1为一个实施例中视频切割方法的应用场景图;
图2为一个实施例中视频切割方法的流程示意图;
图3为一个实施例中响应打点切割指令的流程示意图;
图4为另一个实施例中视频切割方法的流程示意图;
图5为一个实施例中视频切割装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的视频切割方法,可以应用于如图1所示的应用环境中。其中,录制设备102通过网络与服务器104通过网络进行通信。录制设备102进行视频录制,并将录制的视频流数据发送至服务器104,服务器104从视频流数据中得到的待识别视频数据中提取影像数据和音频数据,并将影像数据和音频数据分别输入对应预设的打点行为识别模型和打点语音识别模型中,再根据得到的打点行为识别结果、打点语音识别结果和预设的打点触发规则获得打点识别结果,当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识,最后按照该切割点标识将视频流数据切割,得到视频段数据。
其中,录制设备102可以但不限于是各种视频录制摄像机,也可以为具有视频录制功能的终端,如个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种视频切割方法,以该方法应用于图1中的服务器104为例进行说明,包括以下步骤:
步骤S201:从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据。
本实施例中,从视频流数据中提取待识别视频数据。其中,视频流数据为需要进行切割处理的视频数据,可以由录制设备录制得到。例如,对于金融行业的面核过程,视频流数据可以为双录过程中摄像机实时拍摄的视频数据。待识别视频数据为预设识别长度的视频数据,该识别长度根据实际需求设定,可以通过对待识别视频数据进行打点识别,从而添加相应切割点标识。通过预设识别长度的待识别视频数据进行打点识别,可以实现对录制的视频数据进行实时切割,确保视频切割的时效性,提高视频切割效率。
一般地,视频数据由影像和音频两部分组成,而影像和音频两部分均可以进行打点识别。具体地,对待识别视频数据进行打点识别时,从待识别视频数据中提取影像数据和音频数据,以实现同时对待识别视频数据中的影像数据和音频数据分别进行识别处理,从而可以识别出视频影像中是否出现打点行为,或视频音频中是否出现打点语音,实现了影像行为和音频语音的打点识别,提高了打点识别的准确性。
步骤S203:将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果。
从待识别视频数据中提取得到影像数据和音频数据后,分别将影像数据和音频数据输入对应的打点行为识别模型和打点语音识别模型中进行打点识别。其中,打点行为识别模型可以为基于人工神经网络算法,通过训练业务系统的业务人员在对应业务场景下的历史打点行为数据得到,例如可以为鼓掌动作、举手动作、敲击动作等打点行为动作;打点语音识别模型则可以通过训练业务人员的历史打点语音数据得到,例如可以为关键词语音打点,如“第一、第二、第三”等关键词。
本实施例中,一方面将影像数据输入预设的打点行为识别模型中进行打点行为识别,得到打点行为识别结果;另一方面,将音频数据输入预设的打点语音识别模型中进行打点语音识别,得到打点语音识别结果。通过对影像数据和音频数据分别进行打点识别,可以扩展打点操作的多样性,避免业务流程的流畅性,同时确保对视频切割的准确性。
步骤S205:根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果。
得到打点行为识别结果和打点语音识别结果后,综合二者得到打点识别结果。具体地,查询预设的打点触发规则,该打点触发规则根据实际业务需求进行设定。如可以设为对打点行为识别结果和打点语音识别结果取或,即只要打点行为识别结果和打点语音识别结果中任意一个的类型为操作打点,即需要添加切割点标识时,则触发打点,得到的打点识别结果为操作打点;也可以为对打点行为识别结果和打点语音识别结果取并处理,即只有打点行为识别结果和打点语音识别结果的类型同时为操作打点时,触发打点,得到的打点识别结果的类型为操作打点。
步骤S207:当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识。
得到打点识别结果后,判断该打点识别结果的类型,当打点识别结果的类型为操作打点时,表明该待识别视频数据中的影像数据和/或音频数据已触发打点,该待识别视频数据为视频切割位置,对其进行打点处理,具体可以对该待识别视频数据添加切割点标识。其中,切割点标识用于标识视频切割的切割点,在对视频流数据进行切割时,可以直接查找该切割点标识进行切割处理。
在具体实现时,切割点标识可以为切割标签,在对待识别视频数据添加切割点标识时,按照预设的标签添加规则,从该待识别视频数据中确定关键帧,如将待识别视频数据中的第一帧作为关键帧,并为该关键帧添加切割标签,切割标签可以但不限于包括切割点序号、切割时间值等。
步骤S209:按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在对视频流数据进行切割处理时,查找视频流数据中的切割点标识,按照该切割点标识进行切割处理,从而将视频流数据拆分,得到各视频段数据。
上述视频切割方法中,从视频流数据中得到的待识别视频数据中提取影像数据和音频数据,并将影像数据和音频数据分别输入对应预设的打点行为识别模型和打点语音识别模型中,再根据得到的打点行为识别结果、打点语音识别结果和预设的打点触发规则获得打点识别结果,当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识,最后按照该切割点标识将视频流数据切割,得到视频段数据。在视频切割处理过程中,可以根据待识别视频数据中的影像数据和音频数据进行打点识别并添加切割点标识,不需要人工进行打点操作,提高了视频切割的处理效率。
在一个实施例中,从视频流数据中提取待识别视频数据包括:获取视频流数据;确定视频流识别长度;按照视频流识别长度,从视频流数据中提取待识别视频数据。
对于录制设备102直接录制的视频流数据,无法直接进行打点识别处理,需将其拆分成固定识别长度的待识别视频数据,并通过待识别视频数据进行打点识别。本实施例中,在从视频流数据中提取待识别视频数据时,一方面,先获取视频流数据,具体可以直接从录制设备102接收到实时录制的视频流数据,也可以从预设的存储器中读取已录制结束的视频流数据。另一方面,确定视频流识别长度,该视频流识别长度根据实际需求进行设定,例如可以根据打点行为识别模型和打点语音识别模型的输入需求进行设置,也可以根据服务器104的处理资源进行设定。确定视频流识别长度后,按照该视频流识别长度,从视频流数据中提取待识别视频数据。在具体应用时,可以从视频流数据中依次提取满足视频流识别长度的待识别视频数据,再将提取得到的待识别视频数据进行后续的打点识别处理。
在一个实施例中,将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果包括:确定待识别视频数据对应所属业务人员的身份标识信息;查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
本实施例中,打点行为识别模型和打点语音识别模型均基于业务系统中各业务人员的历史打点数据训练得到。一般地,在业务面核双录过程中,不同业务系统会有不同的打点操作要求,而不同的业务人员也会有不同的打点操作习惯。
具体地,在将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果时,先确定待识别视频数据对应所属业务人员的身份标识信息。在应用时,对于各业务服务窗口,均设置有录制设备102,可以通过待识别视频数据的来源,即根据录制设备102来确定对应所属业务人员,并进一步查询该业务人员对应的身份标识信息。身份标识信息可以但不限于为员工编号、员工姓名等可以唯一识别业务人员的身份信息。确定身份标识信息后,查询与该身份标识信息对应预设的打点行为识别模型和打点语音识别模型,打点行为识别模型和打点语音识别模型分别基于对应业务人员的历史打点行为数据和历史打点语音数据训练得到,打点识别的针对性强,识别准确度高。
得到打点行为识别模型和打点语音识别模型后,一方面,从影像数据中提取影像特征数据,将影像特征数据输入打点行为识别模型中,得到打点行为识别结果。另一方面,从音频数据中提取音频特征数据,并将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。在对影像数据和音频数据进行打点识别时,进行特征提取,过滤无用的冗余信息,得到影像特征数据和音频特征数据,并进行后续的打点识别处理,得到打点行为识别结果和打点语音识别结果。
在一个实施例中,在查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型之前,还包括:从业务系统中获取历史行为影像数据和历史打点语音数据;分别将历史行为影像数据和历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。
在训练打点行为识别模型和打点语音识别模型时,先从业务系统中获取历史行为影像数据和历史打点语音数据。其中,历史行为影像数据可以为业务系统中各业务人员在进行业务面核过程中双录拍摄到的打点影像数据,例如可以包括鼓掌、举手、双手交叉、点头等打点行为;历史打点语音数据与历史行为影像数据类似,如关键词语句,“第X个问题”、“好的,谢谢”等。在具体应用中,各业务人员会有不同的个人习惯,其对应的历史行为影像数据和历史打点语音数据中打点操作的表现也不相同,所以按照业务人员将历史行为影像数据和历史打点语音数据进行分类,为各业务人员构建对应的打点行为识别模型和打点语音识别模型。
具体地,训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。具体实现时,可以将历史行为影像数据划分为训练样本集和测试样本集,通过有监督学习方法训练该训练样本集,得到待测试打点行为模型,再通过测试样本集对待测试打点行为模型进行识别精度测试,在识别精度测试通过后,得到打点行为识别模型。打点语音识别模型的训练过程类同于打点行为识别模型。
在一个实施例中,根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果包括:查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;根据行为触发结果和语音触发结果,得到打点识别结果。
得到打点行为识别结果和打点语音识别结果后,结合实际业务需求的打点触发规则,得到打点识别结果。具体地,查询预设的打点触发规则,该打点触发规则根据实际业务需求进行设定,具体可以根据业务类型和业务人员的习惯进行设定,如设定为当影像数据中识别到业务人员的鼓掌行为时,或者当音频数据中识别到“第X个问题”的关键语句时,认为触发打点。打点触发规则包括行为触发规则和语音触发规则,分别对应于影像数据的打点识别和音频数据的打点识别。
一方面,将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;另一方面将打点语音识别结果与语音触发规则进行比较,得到语音触发结果。最后综合行为触发结果和语音触发结果得到打点识别结果,如可以对行为触发结果和语音触发结果取或运算,即当行为触发结果和语音触发结果中任一类型为操作打点时,即得到的打点识别结果的类型为操作打点,并对待识别视频数据进行切割点标识添加处理。
在一个实施例中,如图3所示,还包括响应打点切割指令的步骤,具体包括:
步骤S301:当接收到打点切割指令时,确定打点切割指令的切割时刻值。
本实施例中,除了对从视频流数据中提取待识别视频数据,对待识别视频数据进行打点识别外,还可以响应外部发送的打点切割指令,实现人工操作打点。具体地,在接收到打点切割指令时,确定该打点切割指令的切割时刻值。其中,打点切割指令可以由外部发送,如业务人员点击相关打点按钮;切割时刻值为打点切割指令的发送时间,反映视频流数据中需要进行打点操作的时间轴位置。
步骤S303:确定切割时刻值在待识别视频数据中对应的切割视频帧。
确定打点切割指令的切割时刻值后,从待识别视频数据中确定该切割时刻值对应的切割视频帧。一般地,外部发送打点切割指令时,表明待识别视频数据中该时刻对应的视频帧需要进行操作打点,根据该打点切割指令的切割时刻值可以从待识别视频数据的时间轴确定对应的切割视频帧。
步骤S305:为切割视频帧添加切割点标识。
确定切割视频帧后,为该切割视频帧添加切割点标识,切割点标识用于标识视频切割的切割点,在对视频流数据进行切割时,可以直接查找该切割点标识进行切割处理。
步骤S307:返回按照切割点标识将视频流数据进行切割处理,得到视频段数据。
添加切割点标识后,返回按照切割点标识将视频流数据进行切割处理的步骤,通过查找视频流数据中的切割点标识,再按照该切割点标识进行切割处理,从而将视频流数据拆分,得到各视频段数据。
本实施例中,在对待识别视频数据的影像数据和音频数据进行打点识别外,还实时接收外部发送的打点切割指令,并按照该打点切割指令进行视频切割处理,实现外部对视频切割的控制,能够有效扩展视频切割的操作多样性,提高视频切割处理的效率。
在一个实施例中,在得到视频段数据之后,还包括:从视频段数据中提取音频段数据;查询预设的语音识别模型;将音频段数据输入语音识别模型中,得到视频段数据的译文数据;根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
本实施例中,在得到视频流数据经过切割处理的视频段数据后,可以按照各视频段数据的业务类型将其存储至对应的存储位置中。具体地,从视频段数据中提取音频段数据,音频段数据包括视频段数据中的对话数据,根据该音频段数据可以确定该视频段数据对应的业务类型。查询预设的语音识别模型,语音识别模型可以将输入的语音数据进行语音识别,得到对应的译文数据。
本实施例中,将将音频段数据输入该语音识别模型中,得到视频段数据的译文数据,译文数据可以为文本形式的数据,根据该译文数据可以确定视频段数据对应的业务类型。在具体实现时,可以从译文数据中提取业务关键字,并根据得到的业务关键字匹配对应的业务类型。确定视频段数据对应的业务类型后,将该视频段数据存储至业务类型对应的存储位置中。如可以查询该业务类型对应预设的存储位置,并将视频段数据存储至该存储位置中,从而实现了对视频段数据的自动分类存储。
在一个实施例中,如图4所示,提供了一种视频切割方法,包括:
步骤S401:获取视频流数据;
步骤S402:确定视频流识别长度;
步骤S403:按照视频流识别长度,从视频流数据中提取待识别视频数据;
步骤S404:从待识别视频数据中提取影像数据和音频数据。
本实施例中,服务器104接收录制设备102发送的视频流数据,并确定根据实际需求进行设定的视频流识别长度,并按照该视频流识别长度,从视频流数据中依次提取满足视频流识别长度的待识别视频数据,再将提取得到的待识别视频数据进行后续的打点识别处理。
步骤S405:确定待识别视频数据对应所属业务人员的身份标识信息;
步骤S406:查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;
步骤S407:从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;
步骤S408:将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
得到影像数据和音频数据后,通过待识别视频数据的来源,即根据录制设备102来确定对应所属业务人员,并进一步查询该业务人员对应的身份标识信息,身份标识信息为员工编号和/或员工姓名。查询与该身份标识信息对应预设的打点行为识别模型和打点语音识别模型,打点行为识别模型和打点语音识别模型分别基于对应业务人员的历史打点行为数据和历史打点语音数据训练得到,打点识别的针对性强,识别准确度高。一方面,从影像数据中提取影像特征数据,将影像特征数据输入打点行为识别模型中,得到打点行为识别结果。另一方面,从音频数据中提取音频特征数据,并将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
步骤S409:根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果。
得到打点行为识别结果和打点语音识别结果后,结合实际业务需求的打点触发规则,得到打点识别结果。具体可以包括:查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;根据行为触发结果和语音触发结果,得到打点识别结果。
步骤S410:打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
步骤S411:按照切割点标识将视频流数据进行切割处理,得到视频段数据。
得到打点识别结果后,判断其类型,当打点识别结果的类型为操作打点时,表明该待识别视频数据为切割点,对其进行打点处理,具体可以对该待识别视频数据添加切割点标识。通过查找视频流数据中的切割点标识,按照该切割点标识进行切割处理,从而将视频流数据拆分,得到各视频段数据。
步骤S412:从视频段数据中提取音频段数据;
步骤S413:查询预设的语音识别模型;
步骤S414:将音频段数据输入语音识别模型中,得到视频段数据的译文数据;
步骤S415:根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
本实施例中,在得到视频流数据经过切割处理的视频段数据后,可以按照各视频段数据的业务类型将其存储至对应的存储位置中,从而实现了对视频段数据的自动分类存储。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种视频切割装置,包括:识别数据提取模块501、打点识别处理模块503、打点结果获取模块505、切割标识添加模块507和视频切割模块509,其中:
识别数据提取模块501,用于从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
打点识别处理模块503,用于将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
打点结果获取模块505,用于根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
切割标识添加模块507,用于当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
视频切割模块509,用于按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,识别数据提取模块501包括视频流获取单元、识别长度确定单元和识别数据提取单元,其中:视频流获取单元,用于获取视频流数据;识别长度确定单元,用于确定视频流识别长度;识别数据提取单元,用于按照视频流识别长度,从视频流数据中提取待识别视频数据。
在一个实施例中,打点识别处理模块503包括身份标识确定单元、识别模型查询单元、特征数据提取单元和打点识别单元,其中:身份标识确定单元,用于确定待识别视频数据对应所属业务人员的身份标识信息;识别模型查询单元,用于查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;特征数据提取单元,用于从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;打点识别单元,用于将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
在一个实施例中,还包括历史数据获取模块、历史数据分类模块、行为识别模型训练模块和语音识别模型训练模块,其中:历史数据获取模块,用于从业务系统中获取历史行为影像数据和历史打点语音数据;历史数据分类模块,用于分别将历史行为影像数据和历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;行为识别模型训练模块,用于训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;语音识别模型训练模块,用于训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。
在一个实施例中,打点结果获取模块505包括触发规则查询单元、行为比较单元、语音比较单元和打点结果获取单元,其中:触发规则查询单元,用于查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;行为比较单元,用于将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;语音比较单元,用于将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;打点结果获取单元,用于根据行为触发结果和语音触发结果,得到打点识别结果。
在一个实施例中,还包括切割指令接收模块、切割帧确定模块、标识添加模块和切割处理模块,其中:切割指令接收模块,用于当接收到打点切割指令时,确定打点切割指令的切割时刻值;切割帧确定模块,用于确定切割时刻值在待识别视频数据中对应的切割视频帧;标识添加模块,用于为切割视频帧添加切割点标识;切割处理模块,用于返回按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,还包括音频段提取模块、语音识别模型查询模块、译文数据获取模块和视频段存储模块,其中:音频段提取模块,用于从视频段数据中提取音频段数据;语音识别模型查询模块,用于查询预设的语音识别模型;译文数据获取模块,用于将音频段数据输入语音识别模型中,得到视频段数据的译文数据;视频段存储模块,用于根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
关于视频切割装置的具体限定可以参见上文中对于视频切割方法的限定,在此不再赘述。上述视频切割装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频切割方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取视频流数据;确定视频流识别长度;按照视频流识别长度,从视频流数据中提取待识别视频数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:确定待识别视频数据对应所属业务人员的身份标识信息;查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从业务系统中获取历史行为影像数据和历史打点语音数据;分别将历史行为影像数据和历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;根据行为触发结果和语音触发结果,得到打点识别结果。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:当接收到打点切割指令时,确定打点切割指令的切割时刻值;确定切割时刻值在待识别视频数据中对应的切割视频帧;为切割视频帧添加切割点标识;返回按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从视频段数据中提取音频段数据;查询预设的语音识别模型;将音频段数据输入语音识别模型中,得到视频段数据的译文数据;根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
从视频流数据中提取待识别视频数据,并从待识别视频数据中提取影像数据和音频数据;
将影像数据输入预设的打点行为识别模型中,得到打点行为识别结果,并将音频数据输入预设的打点语音识别模型中,得到打点语音识别结果;
根据打点行为识别结果、打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当打点识别结果的类型为操作打点时,对待识别视频数据添加切割点标识;
按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取视频流数据;确定视频流识别长度;按照视频流识别长度,从视频流数据中提取待识别视频数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:确定待识别视频数据对应所属业务人员的身份标识信息;查询身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;从影像数据中提取影像特征数据,从音频数据中提取音频特征数据;将影像特征数据输入打点行为识别模型中,得到打点行为识别结果,将音频特征数据输入打点语音识别模型中,得到打点语音识别结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从业务系统中获取历史行为影像数据和历史打点语音数据;分别将历史行为影像数据和历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;训练各业务人员对应的历史行为影像数据,得到打点行为识别模型;训练各业务人员对应的历史打点语音数据,得到打点语音识别模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:查询预设的打点触发规则,打点触发规则包括行为触发规则和语音触发规则;将打点行为识别结果与行为触发规则进行比较,得到行为触发结果;将打点语音识别结果与语音触发规则进行比较,得到语音触发结果;根据行为触发结果和语音触发结果,得到打点识别结果。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当接收到打点切割指令时,确定打点切割指令的切割时刻值;确定切割时刻值在待识别视频数据中对应的切割视频帧;为切割视频帧添加切割点标识;返回按照切割点标识将视频流数据进行切割处理,得到视频段数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从视频段数据中提取音频段数据;查询预设的语音识别模型;将音频段数据输入语音识别模型中,得到视频段数据的译文数据;根据译文数据确定视频段数据对应的业务类型,并将视频段数据存储至业务类型对应的存储位置中。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (10)
1.一种视频切割方法,所述方法包括:
从视频流数据中提取待识别视频数据,并从所述待识别视频数据中提取影像数据和音频数据;
确定所述待识别视频数据对应所属业务人员的身份标识信息;
查询所述身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;
从所述影像数据中提取影像特征数据,从所述音频数据中提取音频特征数据;
将所述影像特征数据输入所述打点行为识别模型中,得到打点行为识别结果,将所述音频特征数据输入所述打点语音识别模型中,得到打点语音识别结果;
根据所述打点行为识别结果、所述打点语音识别结果和预设的打点触发规则,得到打点识别结果;
当所述打点识别结果的类型为操作打点时,对所述待识别视频数据添加切割点标识;
按照所述切割点标识将所述视频流数据进行切割处理,得到视频段数据。
2.根据权利要求1所述的方法,其特征在于,所述从视频流数据中提取待识别视频数据包括:
获取视频流数据;
确定视频流识别长度;
按照所述视频流识别长度,从所述视频流数据中提取待识别视频数据。
3.根据权利要求1所述的方法,其特征在于,所述打点行为识别模型基于人工神经网络算法,通过训练业务系统的业务人员在对应业务场景下的历史打点行为数据得到;所述打点语音识别模型通过训练业务人员的历史打点语音数据得到。
4.根据权利要求3所述的方法,其特征在于,在所述查询所述身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型之前,还包括:
从业务系统中获取历史行为影像数据和历史打点语音数据;
分别将所述历史行为影像数据和所述历史打点语音数据按照业务人员进行分类,得到各业务人员对应的历史行为影像数据和各业务人员对应的历史打点语音数据;
训练所述各业务人员对应的历史行为影像数据,得到所述打点行为识别模型;
训练所述各业务人员对应的历史打点语音数据,得到所述打点语音识别模型。
5.根据权利要求1所述的方法,其特征在于,所述根据所述打点行为识别结果、所述打点语音识别结果和预设的打点触发规则,得到打点识别结果包括:
查询预设的打点触发规则,所述打点触发规则包括行为触发规则和语音触发规则;
将所述打点行为识别结果与所述行为触发规则进行比较,得到行为触发结果;
将所述打点语音识别结果与所述语音触发规则进行比较,得到语音触发结果;
根据所述行为触发结果和所述语音触发结果,得到打点识别结果。
6.根据权利要求1至5任意一项所述的方法,其特征在于,还包括:
当接收到打点切割指令时,确定所述打点切割指令的切割时刻值;
确定所述切割时刻值在所述待识别视频数据中对应的切割视频帧;
为所述切割视频帧添加切割点标识;
返回所述按照所述切割点标识将所述视频流数据进行切割处理,得到视频段数据。
7.根据权利要求6所述的方法,其特征在于,在所述得到视频段数据之后,还包括:
从所述视频段数据中提取音频段数据;
查询预设的语音识别模型;
将所述音频段数据输入所述语音识别模型中,得到所述视频段数据的译文数据;
根据所述译文数据确定所述视频段数据对应的业务类型,并将所述视频段数据存储至所述业务类型对应的存储位置中。
8.一种视频切割装置,其特征在于,所述装置包括:
识别数据提取模块,用于从视频流数据中提取待识别视频数据,并从所述待识别视频数据中提取影像数据和音频数据;
打点识别处理模块,用于确定所述待识别视频数据对应所属业务人员的身份标识信息;查询所述身份标识信息分别对应预设的打点行为识别模型和打点语音识别模型;从所述影像数据中提取影像特征数据,从所述音频数据中提取音频特征数据;将所述影像特征数据输入所述打点行为识别模型中,得到打点行为识别结果,将所述音频特征数据输入所述打点语音识别模型中,得到打点语音识别结果;
打点结果获取模块,用于根据所述打点行为识别结果、所述打点语音识别结果和预设的打点触发规则,得到打点识别结果;
切割标识添加模块,用于当所述打点识别结果的类型为操作打点时,对所述待识别视频数据添加切割点标识;
视频切割模块,用于按照所述切割点标识将所述视频流数据进行切割处理,得到视频段数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536818.XA CN109743624B (zh) | 2018-12-14 | 2018-12-14 | 视频切割方法、装置、计算机设备和存储介质 |
PCT/CN2019/122472 WO2020119508A1 (zh) | 2018-12-14 | 2019-12-02 | 视频切割方法、装置、计算机设备和存储介质 |
SG11202103326QA SG11202103326QA (en) | 2018-12-14 | 2019-12-02 | Video cutting method and apparatus, computer device and storage medium |
KR1020217017667A KR20210088680A (ko) | 2018-12-14 | 2019-12-02 | 비디오 커팅 방법, 장치, 컴퓨터 기기 및 저장매체 |
JP2021532494A JP2022510479A (ja) | 2018-12-14 | 2019-12-02 | ビデオカット方法、ビデオカット装置、コンピュータ機器及び記憶媒体 |
EP19896863.8A EP3890333A4 (en) | 2018-12-14 | 2019-12-02 | VIDEO CUTTING METHOD AND APPARATUS, COMPUTER DEVICE AND STORAGE MEDIA |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811536818.XA CN109743624B (zh) | 2018-12-14 | 2018-12-14 | 视频切割方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109743624A CN109743624A (zh) | 2019-05-10 |
CN109743624B true CN109743624B (zh) | 2021-08-17 |
Family
ID=66360325
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811536818.XA Active CN109743624B (zh) | 2018-12-14 | 2018-12-14 | 视频切割方法、装置、计算机设备和存储介质 |
Country Status (6)
Country | Link |
---|---|
EP (1) | EP3890333A4 (zh) |
JP (1) | JP2022510479A (zh) |
KR (1) | KR20210088680A (zh) |
CN (1) | CN109743624B (zh) |
SG (1) | SG11202103326QA (zh) |
WO (1) | WO2020119508A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109151615B (zh) * | 2018-11-02 | 2022-01-25 | 湖南双菱电子科技有限公司 | 视频处理方法、计算机设备和计算机存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
CN110446061B (zh) * | 2019-07-04 | 2023-04-07 | 深圳壹账通智能科技有限公司 | 视频数据获取方法、装置、计算机设备及存储介质 |
CN112380922B (zh) * | 2020-10-23 | 2024-03-22 | 岭东核电有限公司 | 复盘视频帧确定方法、装置、计算机设备和存储介质 |
CN112487238B (zh) * | 2020-10-27 | 2024-05-17 | 百果园技术(新加坡)有限公司 | 一种音频处理方法、装置、终端及介质 |
CN113096687B (zh) * | 2021-03-30 | 2024-04-26 | 中国建设银行股份有限公司 | 音视频处理方法、装置、计算机设备及存储介质 |
CN113207033B (zh) * | 2021-04-29 | 2022-09-20 | 读书郎教育科技有限公司 | 一种智慧课堂录制视频无效片段处理的系统及方法 |
CN113810766B (zh) * | 2021-11-17 | 2022-02-08 | 深圳市速点网络科技有限公司 | 一种视频剪辑组合处理方法及系统 |
CN114374885B (zh) * | 2021-12-31 | 2024-07-09 | 北京百度网讯科技有限公司 | 视频关键片段确定方法、装置、电子设备及可读存储介质 |
CN114022828A (zh) * | 2022-01-05 | 2022-02-08 | 北京金茂教育科技有限公司 | 视频流处理方法及装置 |
CN114465737B (zh) * | 2022-04-13 | 2022-06-24 | 腾讯科技(深圳)有限公司 | 一种数据处理方法、装置、计算机设备及存储介质 |
CN115866290B (zh) * | 2022-05-31 | 2024-10-25 | 北京中关村科金技术有限公司 | 视频打点方法、装置、设备及存储介质 |
CN118377812B (zh) * | 2024-06-25 | 2024-09-27 | 宁波菊风系统软件有限公司 | 一种双录音视频文件质检方法及计算机可读存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999620B1 (en) * | 2001-12-10 | 2006-02-14 | Hewlett-Packard Development Company, L.P. | Segmenting video input using high-level feedback |
CN104519401A (zh) * | 2013-09-30 | 2015-04-15 | 华为技术有限公司 | 视频分割点获得方法及设备 |
CN104780388A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据的切分方法和装置 |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
US9830516B1 (en) * | 2016-07-07 | 2017-11-28 | Videoken, Inc. | Joint temporal segmentation and classification of user activities in egocentric videos |
CN107623860A (zh) * | 2017-08-09 | 2018-01-23 | 北京奇艺世纪科技有限公司 | 多媒体数据分割方法和装置 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4228673B2 (ja) * | 2002-12-04 | 2009-02-25 | 富士ゼロックス株式会社 | 映像処理装置、映像処理方法及びプログラム |
US20060059120A1 (en) * | 2004-08-27 | 2006-03-16 | Ziyou Xiong | Identifying video highlights using audio-visual objects |
US20080066107A1 (en) * | 2006-09-12 | 2008-03-13 | Google Inc. | Using Viewing Signals in Targeted Video Advertising |
JP2009272816A (ja) * | 2008-05-02 | 2009-11-19 | Visionere Corp | サーバ、情報処理システム及び情報処理方法 |
CN101616264B (zh) * | 2008-06-27 | 2011-03-30 | 中国科学院自动化研究所 | 新闻视频编目方法及系统 |
JP5845801B2 (ja) * | 2011-10-18 | 2016-01-20 | ソニー株式会社 | 画像処理装置、画像処理方法、及び、プログラム |
US20140328570A1 (en) * | 2013-01-09 | 2014-11-06 | Sri International | Identifying, describing, and sharing salient events in images and videos |
US9888279B2 (en) * | 2013-09-13 | 2018-02-06 | Arris Enterprises Llc | Content based video content segmentation |
CN106658169B (zh) * | 2016-12-18 | 2019-06-07 | 北京工业大学 | 一种基于深度学习多层次分割新闻视频的通用方法 |
CN108235141B (zh) * | 2018-03-01 | 2020-11-20 | 北京网博视界科技股份有限公司 | 直播视频转碎片化点播的方法、装置、服务器和存储介质 |
CN109831677B (zh) * | 2018-12-14 | 2022-04-01 | 平安科技(深圳)有限公司 | 视频脱敏方法、装置、计算机设备和存储介质 |
CN109743624B (zh) * | 2018-12-14 | 2021-08-17 | 深圳壹账通智能科技有限公司 | 视频切割方法、装置、计算机设备和存储介质 |
-
2018
- 2018-12-14 CN CN201811536818.XA patent/CN109743624B/zh active Active
-
2019
- 2019-12-02 SG SG11202103326QA patent/SG11202103326QA/en unknown
- 2019-12-02 WO PCT/CN2019/122472 patent/WO2020119508A1/zh unknown
- 2019-12-02 EP EP19896863.8A patent/EP3890333A4/en not_active Withdrawn
- 2019-12-02 KR KR1020217017667A patent/KR20210088680A/ko not_active Application Discontinuation
- 2019-12-02 JP JP2021532494A patent/JP2022510479A/ja active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6999620B1 (en) * | 2001-12-10 | 2006-02-14 | Hewlett-Packard Development Company, L.P. | Segmenting video input using high-level feedback |
CN104519401A (zh) * | 2013-09-30 | 2015-04-15 | 华为技术有限公司 | 视频分割点获得方法及设备 |
CN104780388A (zh) * | 2015-03-31 | 2015-07-15 | 北京奇艺世纪科技有限公司 | 一种视频数据的切分方法和装置 |
CN105931635A (zh) * | 2016-03-31 | 2016-09-07 | 北京奇艺世纪科技有限公司 | 一种音频分割方法及装置 |
US9830516B1 (en) * | 2016-07-07 | 2017-11-28 | Videoken, Inc. | Joint temporal segmentation and classification of user activities in egocentric videos |
CN106782507A (zh) * | 2016-12-19 | 2017-05-31 | 平安科技(深圳)有限公司 | 语音分割的方法及装置 |
CN107358945A (zh) * | 2017-07-26 | 2017-11-17 | 谢兵 | 一种基于机器学习的多人对话音频识别方法及系统 |
CN107623860A (zh) * | 2017-08-09 | 2018-01-23 | 北京奇艺世纪科技有限公司 | 多媒体数据分割方法和装置 |
CN108132995A (zh) * | 2017-12-20 | 2018-06-08 | 北京百度网讯科技有限公司 | 用于处理音频信息的方法和装置 |
Non-Patent Citations (2)
Title |
---|
基于多级图像序列和卷积神经网络的人体行为识别;马淼;《吉林大学学报(工学版)》;20170731;第47卷(第4期);全文 * |
智能视频监控系统中若干关键技术研究;毕国玲;《中国博士学位论文全文数据库》;20151015;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN109743624A (zh) | 2019-05-10 |
SG11202103326QA (en) | 2021-05-28 |
WO2020119508A1 (zh) | 2020-06-18 |
EP3890333A1 (en) | 2021-10-06 |
KR20210088680A (ko) | 2021-07-14 |
EP3890333A4 (en) | 2022-05-25 |
JP2022510479A (ja) | 2022-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109743624B (zh) | 视频切割方法、装置、计算机设备和存储介质 | |
CN109729383B (zh) | 双录视频质量检测方法、装置、计算机设备和存储介质 | |
CN108595695B (zh) | 数据处理方法、装置、计算机设备和存储介质 | |
CN110444198B (zh) | 检索方法、装置、计算机设备和存储介质 | |
CN109831677B (zh) | 视频脱敏方法、装置、计算机设备和存储介质 | |
US11605229B2 (en) | Inmate tracking system in a controlled environment | |
CN108733819B (zh) | 一种人员档案建立方法和装置 | |
CN109272396B (zh) | 客户风险预警方法、装置、计算机设备和介质 | |
CN111325037B (zh) | 文本意图识别方法、装置、计算机设备和存储介质 | |
US11210504B2 (en) | Emotion detection enabled video redaction | |
CN106446816B (zh) | 人脸识别方法及装置 | |
WO2014036350A2 (en) | Facilitating photo sharing | |
CN112446218A (zh) | 长短句文本语义匹配方法、装置、计算机设备及存储介质 | |
CN111126233B (zh) | 基于距离值的通话通道构建方法、装置和计算机设备 | |
US20130322686A1 (en) | Profiling Activity Through Video Surveillance | |
CN110888896B (zh) | 数据搜寻方法及其数据搜寻系统 | |
CN111860313A (zh) | 基于人脸识别的信息查询方法、装置、计算机设备和介质 | |
CN117725182A (zh) | 基于大语言模型的数据检索方法、装置、设备和存储介质 | |
CN110110146A (zh) | 基于人工智能的视频短片搜索方法、装置、介质和设备 | |
CN111881740A (zh) | 人脸识别方法、装置、电子设备及介质 | |
US8918406B2 (en) | Intelligent analysis queue construction | |
CN114493902A (zh) | 多模态信息异常监控方法、装置、计算机设备及存储介质 | |
US12112383B2 (en) | Methods for determining image content when generating a property loss claim through predictive analytics | |
CN110163183B (zh) | 目标检测算法的评估方法、装置、计算机设备和存储介质 | |
CN111311455B (zh) | 考务信息匹配方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |