CN110909196A - 识别绘本阅读过程中内页封面切换的处理方法和装置 - Google Patents
识别绘本阅读过程中内页封面切换的处理方法和装置 Download PDFInfo
- Publication number
- CN110909196A CN110909196A CN201911031771.6A CN201911031771A CN110909196A CN 110909196 A CN110909196 A CN 110909196A CN 201911031771 A CN201911031771 A CN 201911031771A CN 110909196 A CN110909196 A CN 110909196A
- Authority
- CN
- China
- Prior art keywords
- page
- cover
- picture
- inner page
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种识别绘本阅读过程中内页封面切换的处理方法和装置,所述方法包括如下步骤:在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;从预先建立的内页库和封面库中分别检索出与第一图像特征相匹配的候选内页图片和候选封面图片;先将第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。本发明能够准确识别内页和封面的切换,及时获取相应的音频文件。
Description
技术领域
本发明涉及智能机器人领域,尤其涉及一种识别绘本阅读过程中内页封面切换的处理方法和装置。
背景技术
绘本,英文称Picture Book,指一类以绘画为主,并附有少量文字的书籍。绘本不仅可用于讲故事、学知识,而且可以全面帮助孩子建构精神,培养多元智能。
现有技术中的绘本阅读方法是通过摄像头采集绘本照片,识别绘本照片,得到与绘本照片对应的绘本ID并根据ID获取音频访问地址,然后播放相应的音频文件。这种绘本阅读方法只能识别翻页,而对于没有读完书就更换其他绘本的情况,是无法精准识别出来的。
参考文献:Scalabal Neighbour Component Analysis loss,由MS研发,发表在ECCV2018,为contrastive loss的替代方案。contrastive loss的结果依赖于hard samplemining,细节依赖于调参水平,为训练中的不可控因素。而SNCA操作简便,实验方便,结果稳定。
Wu,Zhirong,Alexei A.Efros,and Stella X.Yu."Improving generalizationvia scalable neighborhood component analysis."Proceedings of the EuropeanConference on Computer Vision(ECCV).2018。
发明内容
本发明所要解决的技术问题之一是需要提供一种能够识别绘本阅读过程中内页和封面切换的情况,准确确定当前所翻页面为封面还是内页。
为了解决上述技术问题,本申请的实施例首先提供了一种识别绘本阅读过程中内页封面切换的处理方法,所述方法包括如下步骤:步骤一,在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;步骤二,从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片;步骤三,先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。
根据本申请的一个实施例,在所述步骤一之前,还包括如下封面和内页联合训练步骤:预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近;对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型。
根据本申请的一个实施例,在所述步骤一中,基于卷积神经网络模型,利用卷积神经网络特征提取方法提取用户当前翻到的页面图片的CNN特征,作为第一图像特征;利用SIFT特征提取方法提取用户当前翻到的页面图片的SIFT特征,作为第二图像特征。
根据本申请的一个实施例,在所述步骤二中,还包括:按照匹配度执行候选内页图片的参考图像特征的排序和候选封面图片的参考图像特征的排序;进一步,在所述步骤三中,依据排序结果将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验。
根据本申请的一个实施例,在所述步骤二中,对检索出的候选内页图片的参考图像特征进行HMM滤波处理,得到最终的候选内页图片。
根据本申请的一个实施例,若封面校验和内页校验均失败,则执行所述封面和内页联合训练步骤,将该页面图片对应的绘本的内页和封面作为样本数据重新进行单个神经网络的训练,得到更新后的卷积神经网络模型。
根据本申请的另一方面,还提供了一种程序产品,其上存储有可执行如上所述的方法步骤的程序代码。
根据本申请的另一方面,还提供了一种识别绘本阅读过程中内页封面切换的处理装置,所述装置包括如下模块:特征提取模块,其配置为在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;图片检索模块,其配置为从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片;内页封面确定模块,其配置为先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。
根据本申请的一个实施例,还包括如下模块:封面和内页联合训练模块,其配置为预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近;对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型。
根据本申请的一个实施例,所述特征提取模块,其进一步配置为:基于卷积神经网络模型,利用卷积神经网络特征提取方法提取用户当前翻到的页面图片的CNN特征,作为第一图像特征;利用SIFT特征提取方法提取用户当前翻到的页面图片的SIFT特征,作为第二图像特征。
根据本申请的一个实施例,所述图片检索模块,其进一步配置为:按照匹配度执行候选内页图片的参考图像特征的排序和候选封面图片的参考图像特征的排序;进一步,所述内页封面确定模块,其配置为依据排序结果将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验。
根据本申请的一个实施例,所述图片检索模块,其进一步配置为:对检索出的候选内页图片的参考图像特征进行HMM滤波处理,得到最终的候选内页图片。
根据本申请的一个实施例,所述封面和内页联合训练模块,其在封面校验和内页校验均失败时,则启动操作,将该页面图片对应的绘本的内页和封面作为样本数据重新进行单个神经网络的训练,得到更新后的卷积神经网络模型。
与现有技术相比,上述方案中的一个或多个实施例可以具有如下优点或有益效果:
本发明提供的识别绘本阅读过程中内页封面切换的处理方法,通过在绘本阅读过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的多种类型的图像特征,利用提取到的多种类型的图像特征,筛选候选内页图片和封面图片,再通过先封面再内页的特征校验,能够准确地确定当前翻到的页面为当前阅读的绘本的内页、封面还是更换绘本后的其他绘本的封面。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明的技术方案而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构和/或流程来实现和获得。
附图说明
附图用来提供对本申请的技术方案或现有技术的进一步理解,并且构成说明书的一部分。其中,表达本申请实施例的附图与本申请的实施例一起用于解释本申请的技术方案,但并不构成对本申请技术方案的限制。
图1为本申请实施例的绘本阅读机器人的使用环境的系统架构示意图。
图2为本申请实施例的绘本阅读机器人的核心器件的主要组成结构示意图。
图3为本申请实施例的识别绘本阅读过程中内页封面切换方法的流程示意图。
图4为本申请实施例的识别绘本阅读过程中内页封面切换方法的具体流程示意图。
图5为本申请实施例的识别绘本阅读过程中内页封面切换装置的功能框图。
具体实施方式
以下将结合附图及实施例来详细说明本发明的实施方式,借此对本发明如何应用技术手段来解决技术问题,并达成相应技术效果的实现过程能充分理解并据以实施。本申请实施例以及实施例中的各个特征,在不相冲突前提下可以相互结合,所形成的技术方案均在本发明的保护范围之内。
另外,附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在现有技术中,机器人在进行绘本阅读时,需要先对所要阅读的绘本的封面进行识别,待了解到该绘本具体主题后,才能在后面阅读的过程中将每页读取到绘本的内容通过音频的方式讲给儿童用户听。但在阅读过程中,儿童用户很可能在没有听完整个故事的情况下,重新要求机器人进行阅读或者换一本新的绘本,现有技术只能识别翻页,也就是说能够较为准确地识别同一本绘本的内页,而对于没有阅读完绘本就换书的情况或者说重读的情况,其无法识别或者说识别的精准度很低。
为了解决上述问题,本申请实施例提出了一种识别绘本阅读过程中内页封面切换的处理方法,通过该方法提取页面的两种图像特征,然后分别利用这两种图像特征依次检索大范围的备选内页和封面,以及从该大范围的备选库中精确识别到具体内页/封面,这样能够提高识别精准度,有效提升儿童专用设备,例如绘本阅读机器人的性能,及时向用户输出当前切换后的绘本阅读声音,提高用户使用绘本阅读机器人的粘度。
由于本申请实施例采取对单个神经网络进行封面和内页联合训练的方式,使得得到的单个CNN卷积神经网络模型对封面和内页都有良好的区分效果。在后期进行内页封面切换识别时,根据输入的图像特征准确获取匹配度高的内页/封面的ID码,从而获取对应的音频文件。
另外,在获取到多个候选内页/封面图片的参考图像特征之后,通过这些特征与用户当前翻到的页面图片的第一图像特征的匹配度,来进行候选内页图片的参考图像特征的排序以及候选封面图片的参考图像特征的排序,这样有利于加快通过第二图像特征来识别具体哪个内页或哪个封面的速度,提高例如绘本阅读机器人的阅读反映速度和阅读速度,使用户无法明显感到阅读的断节情况。
而且,如果出现封面/内页识别失败的情况,除了告知用户该情况之外,还要在后台将当前阅读的绘本加入到样本数据中重新训练之前得到的单个神经网络,得到更新后的模型,这样,在之后用户要阅读该绘本时,儿童专用设备能够很好地进行反馈,提高用户体验度。
下面结合附图对本申请实施例进行详细说明。
图1为本申请实施例的绘本阅读机器人的使用环境的系统架构示意图。图1的使用环境下适用于任何场景,如图1所示,包括以下单元:家庭或儿童看护机构101,包括至少一名儿童103和绘本阅读机器人102,室内的至少一个无线接入网络104;室外无线接入网络105,其给家庭或儿童看护机构101提供远程的无限网络接入服务;向绘本阅读机器人102提供绘本阅读相关的音频信息和实现绘本阅读过程中内页封面切换识别的客户端服务器106,其包括识别绘本阅读过程中内页封面切换功能的服务器107和数据库108;用来辅助实现识别绘本阅读过程中内页封面切换的神经网络(NN)服务器112和检索服务器109,检索服务109其包括内页/封面库特征的数据库111和服务器110。
图2为本申请实施例的绘本阅读机器人的核心器件的主要组成结构示意图,本文中的“核心器件”主要具备处理及运算功能,该示意图仅是显示了一种可行的实施方式,并不限定本发明的保护范围。如图2所示,主要包括:主板202和其他周边的功能部件。摄像头201与主板202的I/O模块(未图示)连接,摄像头201主要在绘本阅读的过程中采集当前所翻的页面图像信息;绘本阅读的声音则由主板202的音频编解码模块输出经功率放大器203推动扬声器204得到。硬件系统还包括主板202上的处理器及存储器,存储器除了记录机器人的算法和执行程序及其配置文件外,也包括机器人执行绘本阅读工作时所采集到的页面图像信息以及所需的音频文件等,还包括程序运行时的一些临时文件。主板202的通信模块提供机器人与外部网络的通信功能,优选为Wifi模块。主板202的处理器是其中最为核心的器件,具有运算和处理能力,并且管理其他器件配合工作。另外,该智能机器人还可以包括声音采集电路,其可以与用户进行语音交互,该声音采集电路与主板的音频编解码模块连接。另外,还可以包括触摸显示控制器,也能进一步实现与用户的多模态交互,接收触摸显示屏的触控输入并提供显示驱动信号。还可以包括电机伺服控制器,该控制器可以根据程序指令驱动电机即编码器驱动履带/轮式移动机械装置和机械手臂形成机器人的移动和肢体语言。主板202还可以包括电源管理模块,通过连接的电源系统可以实现设备的电池充放电和节能管理。
机器人的摄像头201,在机器人进行绘本阅读的过程中,检测并采集目标对象——当前所翻看的绘本的页面图像信息。处理器此时作为一种识别绘本阅读过程中内页封面切换的处理装置500,具体如图5所示,可包括如下模块:特征提取模块501,其配置为在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;图片检索模块503,其配置为从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片;内页封面确定模块505,其配置为先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。在其他示例中,还可以包括封面和内页联合训练模块(未图示),其配置为预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近;对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型。
进一步,作为另一种实现方式,机器人的处理器只是具有简单处理功能,而识别绘本阅读过程中内页封面切换的处理由单个服务器独立完成或多个服务器合作完成,机器人通过通信模块和天线205与这些服务器进行通信。通信模块向各服务器发送绘本阅读过程中获取的当前所翻页面的图像信息,接收服务器发送的识别后的图片ID对应的音频文件,处理器再对音频文件进行解码处理,向用户完成当前页的绘本阅读。
图3为本申请实施例的识别绘本阅读过程中内页封面切换方法的流程示意图。下面参考图3说明该切换方法的各个步骤。
在步骤S310,在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征。
优选地,基于卷积神经网络模型,利用卷积神经网络特征提取方法提取用户当前翻到的页面图片的CNN特征,作为第一图像特征。利用除CNN特征提取方法以外的方法来提取用户当前翻到的页面图片的本地特征(local feature)。更优选地,可以采取SIFT特征提取方法提取用户当前翻到的页面图片的SIFT特征,作为第二图像特征。
之所以设置提取页面图片的两种特征主要是因为:利用前一个图像特征——CNN特征,能够从服务器端,例如检索服务器109的内页/封面库特征的数据库111中检索出CNN特征匹配度较高的一组备选图片群组,作为初步检索结果;而利用后一图像的本地特征与备选图片群组中各图片的参考本地特征(reference local feature)进行二次比对,能够确定匹配度最高的内页或封面的ID。例如,利用SIFT特征,能够与服务器端,即客户端服务器106的数据库108的备选图片的SIFT特征进行比对,从而筛选出最为匹配的图片,以获知当前阅读的页面为内页还是封面具体的图片ID。如此设置,经过两次筛选,能够在很大程度上提高内页/封面的识别的精准度。
需要说明的是,由于在本申请实施例中,预先将绘本的所有内页和封面图片进行录入、编号和利用CNN相关训练方法训练过,因此,在判断当前翻到的页面所对应的图片时,则也是需要采取之前训练得到的同一个CNN网络来提取该页面图片的CNN图像特征,以保证CNN图像特征提取方式的一致性。
另外,需要说明的是,在对所有的页面进行训练时,由于SNCA(ScalableNeighborhood Component Analysis)训练方法具有操作简便、实验方便以及结果稳定的优点,因此本例优选采取SNCA的方法,预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近,然后对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型(该步骤也称“封面和内页联合训练步骤”)。在进行联合训练时,对神经网络设置两个损失(loss)函数,分别为封面SNCA loss和内页SNCA loss,对单个神经网络进行联合训练,使单个网络对封面和内页都有良好的区分效果。有关SNCA算法可参考“Wu,Zhirong,Alexei A.Efros,and Stella X.Yu."Improvinggeneralization via scalable neighborhood component analysis."Proceedings ofthe European Conference on Computer Vision(ECCV).2018”这一文章的内容,该文章发表在ECCV2018上,为对比损失(contrastive loss)的损失函数的替代方案。contrastiveloss损失函数的结果依赖于困难样本挖掘(hard sample mining),细节依赖于调参水平,为训练中的不可控因素。本申请对此不做赘述。
当然除了上面优选的算法,还可以采用其他的监督的马氏度量学习算法,例如监督的局部度量学习算法中的NCA算法、LMNN(Large-Margin Nearest Neighbors)算法、RCA(Relevant Component Analysis)算法、Local LDA(Local Linear DiscriminativeAnalysis)算法等。
上述中提到的“异页之间特征远离,同页之间特征接近”是指样本之间的相近程度(距离或距离函数,例如两个样本之间的马氏距离),也可以称为“异页之间相似度小和同业之间相似度大”,目的是使同类样本之间的距离尽可能缩小,不同类样本之间的距离尽可能放大,通过这种设定来反映数据之间存在的一些重要关系,对于本申请的目的是为了更好地准确区分同一本书中处于同一展示页面的同页和处于不同展示页面的异页。
本例举出的第二图像特征——SIFT特征是基于物体上的一些局部外观的兴趣点而与影像的大小和旋转无关,SIFT特征提取算法的实质是在不同的尺度空间上查找关键点(特征点),并计算出关键点的方向。SIFT所查找到的关键点是一些十分突出,不会因光照,仿射变换和噪音等因素而变化的点,如角点、边缘点、暗区的亮点及亮区的暗点等,抗噪声能力强。在本步骤中,通过此方法提取当前翻到的页面图片的第二图像特征,并在后面进行SIFT特征校验,能够降低噪声,提高校验精度。
在步骤S320中,从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片。
具体地,从内页库和封面库所对应的内页/封面库特征的数据库111中,根据当前翻到的页面图片的第一图像特征,即CNN特征,筛选出与之匹配的候选内页图片的参考图像特征和候选封面图片的参考图像特征。在筛选的过程中是通过将当前翻到的页面图片的CNN特征与数据库111中的内页库特征和封面库特征进行比较,来确定达到预定匹配度的备选图片的参考图像特征。
需要说明的是,在数据库111中预先存储了大量内页/封面的CNN特征,这些CNN特征可以是在之前训练过程中对训练的样本进行提取获得的,也可以是不经过训练,针对每个页面图像使用CNN特征提取方法单独提取出的。通过比较CNN特征,初步检索出一定范围的备选图片,为后面二次筛选做好准备,尽可能保证识别精度。
在进行特征匹配时,也就是计算特征相似度,最简单直观的方法就是计算某一个特征点描述子与其他所有特征点描述子之间的距离,然后将得到的距离(例如Hamming距离)进行排序,取距离最近的一个作为匹配点。而匹配不同图片的CNN特征,则需要计算当前所翻页面的所有CNN特征与库中的所有内页/封面的所有CNN特征的距离,获得距离满足一定范围内的群体,然后按照匹配度执行候选内页图片的参考图像特征的排序和候选封面图片的参考图像特征的排序。例如,可将匹配度高的放在序列的前面,匹配度低的放在序列的后面,并对该排序信息进行存储。
而且,还要对从预先建立的数据库111中检索出的候选内页图片的参考图像特征进行HMM滤波处理,得到最终的候选内页图片(或对应的标识)。在本例中,通过一种基于隐马尔可夫模型(HMM)来确定候选内页图片ID的方法。基于观察(训练),HMM方法能够使用观察到的序列来计算最可能的内页图片。此外,在建模过程中,观察到的序列也用于HMM的训练。为了提高模型的预测性能,提出了一种滤波器将采集的信号量化为具有特定特征的观测序列。过滤器的最佳定义可以提高检测率和准确性,同时降低误报率。根据训练得到的内页HMM滤波器,能够对输入的内页CNN图像特征进行处理得到对应的候选内页图片的标识码进而可以得到候选内页图片。另外,可以直接根据检索出来的候选封面图片对应的参考图像特征来得到候选封面图片,当然也可以通过预先构建的封面HMM滤波器的方式来得到,方法与内页HMM滤波器类似,此处不再赘述。
通过该步骤,初步获取了一定范围内的备选内页图片和备选封面图片的群组,接下来要在这些群组中找到最为匹配的图片信息。
在步骤S330中,通过将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的内页、封面还是更换绘本后的其他绘本的封面。
该步骤的目的是搜索图片,即需要判断用户当前翻到的图片,究竟是当前书的内页翻页、当前书的封面还是其他书的封面。具体地,先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。
对于获取到的各候选封面图片/各候选内页图片,提取与当前翻到的页面的第二图像特征类型一致的图像特征,例如第二图像特征为SIFT图像特征,那么此处也要提取各候选封面图片/各候选内页图片的SIFT图像特征。然后先校验封面,在校验失败时,再校验内页,最终得到最为匹配的封面/内页图片,如此先后设置,是为了快速处理内页和封面切换这一情况,就快识别封面。
进一步,在该步骤中,依据排序结果将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验。具体地,将用户当前翻到的页面图片的第二图像特征先与排序靠前的候选封面图片对应的参考图像特征进行逐一比对,在确定为某一封面图片时,则结束;若校验失败,将用户当前翻到的页面图片的第二图像特征先与排序靠前的候选内页图片对应的参考图像特征进行逐一比对,在确定为某一内页图片时,则结束。在校验时,将匹配度高的图片先进行校验,这样设置的目的主要是为了加快校验的速度,减少识别时间。在比对时,由于图像特征为SIFT图像特征,那可以采用SIFT图像特征匹配方法来进行。
另外,在一个实施例中,还可以包括如下步骤:若封面校验和内页校验均失败,则执行所述封面和内页联合训练步骤,将该页面图片对应的绘本的内页和封面作为样本数据重新进行单个神经网络的训练,得到更新后的卷积神经网络模型。
图4为本申请实施例的识别绘本阅读过程中内页封面切换方法的具体流程示意图。下面参考图4来说明具体流程。
如图4所示,首先可以在客户端服务器106处,利用服务器107来对机器人采集到的图片进行图片矫正。这是因为,由于机器人拍摄角度、摄像头畸变或图片摆放位置的问题,使得拍摄图片与数据库中实际录入的标准图片不同,因此需要进行矫正。有关图片矫正方法可以参考现有技术,本申请不做说明。
在图片矫正后,NN服务器112对当前所翻页面图片的CNN特征进行提取。检索服务器109中的服务器110根据提取到的CNN特征从数据库111中检索出达到一定匹配度的内页CNN特征和封面CNN特征。客户端服务器106还对图片矫正后的图片进行SIFT特征的提取,并对检索得到的匹配的CNN内页特征进行内页HMM滤波处理得到候选内页图片的ID,在进行滤波处理的过程中考虑用户的状态和滤波器对象。客户端服务器106还根据检索得到的封面CNN特征得到候选的封面图片的ID,将当前所翻的页面图片的SIFT特征先与各候选封面图片的SIFT特征进行校验,判断是否为当前阅读绘本的封面还是其他绘本的封面,若校验成功,则确定封面图片的ID,并将对应的音频文件发送至机器人。若校验失败,则对内页进行识别,若识别成功,则确定内页图片的ID,并将对应的音频文件发送给机器人。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器ROM、随机存取存储器RAM、磁碟或光盘等各种可以存储程序代码的介质。
由于本发明的方法描述的是在计算机系统中实现的。该计算机系统例如可以设置在机器人的控制核心处理器中。例如,本文所述的方法可以实现为能以控制逻辑来执行的软件,其由机器人操作系统中的CPU来执行。本文所述的功能可以实现为存储在非暂时性有形计算机可读介质中的程序指令集合。当以这种方式实现时,该计算机程序包括一组指令,当该组指令由计算机运行时其促使计算机执行能实施上述功能的方法。可编程逻辑可以暂时或永久地安装在非暂时性有形计算机可读介质中,例如只读存储器芯片、计算机存储器、磁盘或其他存储介质。除了以软件来实现之外,本文所述的逻辑可利用分立部件、集成电路、与可编程逻辑设备(诸如,现场可编程门阵列(FPGA)或微处理器)结合使用的可编程逻辑,或者包括它们任意组合的任何其他设备来体现。所有此类实施例旨在落入本发明的范围之内。
应该理解的是,本发明所公开的实施例不限于这里所公开的特定结构、处理步骤或材料,而应当延伸到相关领域的普通技术人员所理解的这些特征的等同替代。还应当理解的是,在此使用的术语仅用于描述特定实施例的目的,而并不意味着限制。
说明书中提到的“一个实施例”或“实施例”意指结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,说明书通篇各个地方出现的短语“一个实施例”或“实施例”并不一定均指同一个实施例。
虽然本发明所公开的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所公开的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
Claims (13)
1.一种识别绘本阅读过程中内页封面切换的处理方法,其特征在于,所述方法包括如下步骤:
步骤一,在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;
步骤二,从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片;
步骤三,先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。
2.根据权利要求1所述的方法,其特征在于,在所述步骤一之前,还包括如下封面和内页联合训练步骤:
预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近;
对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型。
3.根据权利要求2所述的方法,其特征在于,在所述步骤一中,
基于卷积神经网络模型,利用卷积神经网络特征提取方法提取用户当前翻到的页面图片的CNN特征,作为第一图像特征;
利用SIFT特征提取方法提取用户当前翻到的页面图片的SIFT特征,作为第二图像特征。
4.根据权利要求1~3中任一项所述的方法,其特征在于,在所述步骤二中,还包括:
按照匹配度执行候选内页图片的参考图像特征的排序和候选封面图片的参考图像特征的排序;
进一步,在所述步骤三中,依据排序结果将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验。
5.根据权利要求4所述的方法,其特征在于,在所述步骤二中,
对检索出的候选内页图片的参考图像特征进行HMM滤波处理,得到最终的候选内页图片。
6.根据权利要求2所述的方法,其特征在于,
若封面校验和内页校验均失败,则执行所述封面和内页联合训练步骤,将该页面图片对应的绘本的内页和封面作为样本数据重新进行单个神经网络的训练,得到更新后的卷积神经网络模型。
7.一种程序产品,其上存储有可执行如权利要求1-6中任一项所述的方法步骤的程序代码。
8.一种识别绘本阅读过程中内页封面切换的处理装置,其特征在于,所述装置包括如下模块:
特征提取模块,其配置为在绘本阅读的过程中,利用不同的特征提取方法提取用户当前翻到的页面图片的第一图像特征和第二图像特征;
图片检索模块,其配置为从预先建立的内页库和封面库中分别检索出与当前翻到的页面图片的第一图像特征相匹配的候选内页图片和候选封面图片;
内页封面确定模块,其配置为先将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片对应的参考图像特征进行校验,确定当前翻到的页面为当前阅读的绘本的封面还是更换绘本后的其他绘本的封面,若校验失败,则将所述第二图像特征与各候选内页图片对应的参考图像特征进行校验,确定当前翻到的页面所对应的当前阅读的绘本的内页。
9.根据权利要求8所述的装置,其特征在于,还包括如下模块:
封面和内页联合训练模块,其配置为预先使用单个神经网络针对所有内页进行训练,使每本绘本的内页中异页之间的特征远离,同页之间的特征接近;对该单个神经网络进行封面和内页的联合训练,得到卷积神经网络模型。
10.根据权利要求9所述的装置,其特征在于,所述特征提取模块,其进一步配置为:
基于卷积神经网络模型,利用卷积神经网络特征提取方法提取用户当前翻到的页面图片的CNN特征,作为第一图像特征;
利用SIFT特征提取方法提取用户当前翻到的页面图片的SIFT特征,作为第二图像特征。
11.根据权利要求8~10中任一项所述的装置,其特征在于,所述图片检索模块,其进一步配置为:
按照匹配度执行候选内页图片的参考图像特征的排序和候选封面图片的参考图像特征的排序;
进一步,在所述内页封面确定模块,其配置为依据排序结果将用户当前翻到的页面图片的第二图像特征分别与各候选封面图片/各候选内页图片对应的参考图像特征进行校验。
12.根据权利要求11所述的装置,其特征在于,所述图片检索模块,其进一步配置为:对检索出的候选内页图片的参考图像特征进行HMM滤波处理,得到最终的候选内页图片。
13.根据权利要求9所述的装置,其特征在于,
所述封面和内页联合训练模块,其在封面校验和内页校验均失败时,则启动操作,将该页面图片对应的绘本的内页和封面作为样本数据重新进行单个神经网络的训练,得到更新后的卷积神经网络模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911031771.6A CN110909196B (zh) | 2019-10-28 | 2019-10-28 | 识别绘本阅读过程中内页封面切换的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911031771.6A CN110909196B (zh) | 2019-10-28 | 2019-10-28 | 识别绘本阅读过程中内页封面切换的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110909196A true CN110909196A (zh) | 2020-03-24 |
CN110909196B CN110909196B (zh) | 2022-07-01 |
Family
ID=69815892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911031771.6A Active CN110909196B (zh) | 2019-10-28 | 2019-10-28 | 识别绘本阅读过程中内页封面切换的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110909196B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111860122A (zh) * | 2020-06-04 | 2020-10-30 | 上海翎腾智能科技有限公司 | 一种现实场景下的阅读综合行为的识别方法及系统 |
CN112132127A (zh) * | 2020-08-10 | 2020-12-25 | 北京网梯科技发展有限公司 | 点读中实现图书自动切换的方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020115725A1 (en) * | 2000-11-01 | 2002-08-22 | Mel Epstein | Methods and compositions for regulating memory consolidation |
US7261612B1 (en) * | 1999-08-30 | 2007-08-28 | Digimarc Corporation | Methods and systems for read-aloud books |
WO2009073032A1 (en) * | 2007-12-06 | 2009-06-11 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
CN107977394A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN107977390A (zh) * | 2017-03-09 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法、装置、系统及电子设备 |
CN108460124A (zh) * | 2018-02-26 | 2018-08-28 | 北京物灵智能科技有限公司 | 基于图形识别的交互方法及电子设备 |
CN108960412A (zh) * | 2018-06-29 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN109241305A (zh) * | 2018-08-23 | 2019-01-18 | 深圳市深晓科技有限公司 | 一种基于图像识别的绘本阅读方法及装置 |
CN110119733A (zh) * | 2019-05-15 | 2019-08-13 | 广东小天才科技有限公司 | 书页识别方法及装置、终端设备、计算机可读存储介质 |
-
2019
- 2019-10-28 CN CN201911031771.6A patent/CN110909196B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7261612B1 (en) * | 1999-08-30 | 2007-08-28 | Digimarc Corporation | Methods and systems for read-aloud books |
US20020115725A1 (en) * | 2000-11-01 | 2002-08-22 | Mel Epstein | Methods and compositions for regulating memory consolidation |
WO2009073032A1 (en) * | 2007-12-06 | 2009-06-11 | Capsilon Corporation | Systems and methods for intelligent paperless document management |
CN107977390A (zh) * | 2017-03-09 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法、装置、系统及电子设备 |
CN107977394A (zh) * | 2017-07-03 | 2018-05-01 | 北京物灵智能科技有限公司 | 绘本识别方法及电子设备 |
CN108460124A (zh) * | 2018-02-26 | 2018-08-28 | 北京物灵智能科技有限公司 | 基于图形识别的交互方法及电子设备 |
CN108960412A (zh) * | 2018-06-29 | 2018-12-07 | 北京京东尚科信息技术有限公司 | 图像识别方法、装置及计算机可读存储介质 |
CN109241305A (zh) * | 2018-08-23 | 2019-01-18 | 深圳市深晓科技有限公司 | 一种基于图像识别的绘本阅读方法及装置 |
CN110119733A (zh) * | 2019-05-15 | 2019-08-13 | 广东小天才科技有限公司 | 书页识别方法及装置、终端设备、计算机可读存储介质 |
Non-Patent Citations (2)
Title |
---|
RICHARD ZURAWSKI等: "object detection and recognition in digital images:theory and practice", 《IEEE INDUSTRIAL ELECTRONICS MAGAZINE》 * |
刘庆升等: "基于特征提取的绘本阅读机器人设计方案", 《电子制作》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111695453A (zh) * | 2020-05-27 | 2020-09-22 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111695453B (zh) * | 2020-05-27 | 2024-02-09 | 深圳市优必选科技股份有限公司 | 绘本识别方法、装置及机器人 |
CN111860122A (zh) * | 2020-06-04 | 2020-10-30 | 上海翎腾智能科技有限公司 | 一种现实场景下的阅读综合行为的识别方法及系统 |
CN111860122B (zh) * | 2020-06-04 | 2023-10-13 | 上海翎腾智能科技有限公司 | 一种现实场景下的阅读综合行为的识别方法及系统 |
CN112132127A (zh) * | 2020-08-10 | 2020-12-25 | 北京网梯科技发展有限公司 | 点读中实现图书自动切换的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN110909196B (zh) | 2022-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3399460B1 (en) | Captioning a region of an image | |
CN110909196B (zh) | 识别绘本阅读过程中内页封面切换的处理方法和装置 | |
US10366275B2 (en) | Method and device for improving fingerprint template, and terminal device | |
CN111476709B (zh) | 人脸图像处理方法、装置及电子设备 | |
CN112016553B (zh) | 光学字符识别(ocr)系统、自动ocr更正系统、方法 | |
WO2021129105A1 (zh) | 一种基于mask rcnn网络模型的目标识别方法、装置 | |
WO2019184464A1 (zh) | 检测近似重复图像 | |
CN112329888A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN105426857A (zh) | 人脸识别模型训练方法和装置 | |
US20230068798A1 (en) | Active speaker detection using image data | |
CN112734803B (zh) | 基于文字描述的单目标跟踪方法、装置、设备及存储介质 | |
WO2023273628A1 (zh) | 一种视频循环识别方法、装置、计算机设备及存储介质 | |
CN102054165A (zh) | 图像处理装置及图像处理方法 | |
CN111327949A (zh) | 一种视频的时序动作检测方法、装置、设备及存储介质 | |
CN112417970A (zh) | 目标对象识别方法、装置和电子系统 | |
CN112149754B (zh) | 一种信息的分类方法、装置、设备及存储介质 | |
Ding et al. | Designs of human–robot interaction using depth sensor-based hand gesture communication for smart material-handling robot operations | |
CN111027400A (zh) | 一种活体检测方法及装置 | |
CN111414910A (zh) | 基于双重卷积神经网络的小目标增强检测方法和装置 | |
CN114782997A (zh) | 基于多损失注意力自适应网络的行人重识别方法及系统 | |
CN114937285B (zh) | 动态手势识别方法、装置、设备及存储介质 | |
CN110929555B (zh) | 脸部识别方法与使用此方法的电子装置 | |
CN111046203A (zh) | 图像检索方法、装置、存储介质及电子设备 | |
CN113837006A (zh) | 一种人脸识别方法、装置、存储介质及电子设备 | |
Ma et al. | Loop closure detection via locality preserving matching with global consensus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |