CN110598217A - 一种点读内容的识别方法、装置、家教机及存储介质 - Google Patents
一种点读内容的识别方法、装置、家教机及存储介质 Download PDFInfo
- Publication number
- CN110598217A CN110598217A CN201910887010.4A CN201910887010A CN110598217A CN 110598217 A CN110598217 A CN 110598217A CN 201910887010 A CN201910887010 A CN 201910887010A CN 110598217 A CN110598217 A CN 110598217A
- Authority
- CN
- China
- Prior art keywords
- page image
- read
- click
- content
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000002093 peripheral effect Effects 0.000 claims abstract description 36
- 238000003058 natural language processing Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 16
- 238000005516 engineering process Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 14
- 230000000903 blocking effect Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000003247 decreasing effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004888 barrier function Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000004438 eyesight Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/142—Image acquisition using hand-held instruments; Constructional details of the instruments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Character Input (AREA)
Abstract
本发明属于家教机领域,公开了一种点读内容的识别方法、装置、家教机及存储介质,其方法包括:获取点读页面图像;识别所述点读页面图像中的遮挡区域;当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;获取补全后的点读页面图像中的指示体指向的点读内容。本发明当点读页面图像中存在遮挡区域时,通过自然语言识别技术对遮挡区域进行补全,可提高点读内容识别的准确率,以解决现有技术中因遮挡导致识别准确率不高或无法识别的问题。
Description
技术领域
本发明属于家教机技术领域,特别涉及一种点读内容的识别方法、装置、家教机及存储介质。
背景技术
儿童在学习成长过程中需要阅读大量的书籍,为了保护儿童的视力,一般家长会让儿童阅读纸质书籍。儿童在阅读纸质书籍的过程中经常会遇到各种困难,如会遇到不认识的字、不理解的词等。儿童遇到问题时需要借助家长的帮助,但是家长工作比较忙,经常不能及时的帮助儿童解决问题,进而导致儿童的阅读兴趣下降,不利于儿童的学习。家教机的出现很好地解决了这一问题。
家教机配备有点读功能,在使用家教机的点读功能帮助儿童阅读书籍时,需要先获取用户点读的页面图像,然后识别该页面图像,最后在页面图像中识别出指示体所指向的内容。在实际使用过程中,会出现因用户手势不规范而导致手指遮挡住书本文字的情况,使得无法知道用户要指向的内容,导致识别准确率低。
发明内容
本发明的目的是提供一种点读内容的识别方法、装置、家教机及存储介质,解决因手指遮挡而导致点读识别准确率不高的问题。
本发明提供的技术方案如下:
一方面,提供一种点读内容的识别方法,包括:
获取点读页面图像;
识别所述点读页面图像中的遮挡区域;
当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
获取补全后的点读页面图像中的指示体指向的点读内容。
进一步优选地,所述识别所述点读页面图像中的遮挡区域具体包括:
根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域。
进一步优选地,所述当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容具体包括:
当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
获取包含所述预设字符的句子;
根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全具体包括:
通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全。
进一步优选地,所述获取补全后的点读页面图像中的指示体指向的点读内容具体包括:
在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
识别并定位所述点读页面图像中的指示体;
根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
另一方面,还提供一种点读内容的识别装置,包括:
图像获取模块,用于获取点读页面图像;
识别模块,用于识别所述点读页面图像中的遮挡区域;
内容获取模块,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
补全模块,用于根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
所述内容获取模块,还用于获取补全后的点读页面图像中的指示体指向的点读内容。
进一步优选地,所述识别模块包括:
图像处理单元,用于根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
识别单元,用于根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域。
进一步优选地,所述内容获取模块包括:
填补单元,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
句子获取单元,用于获取包含所述预设字符的句子;
所述补全模块包括:
语义解析单元,用于通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
补全单元,用于根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全。
进一步优选地,所述内容获取模块包括:
查找单元,用于在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
识别及定位单元,用于识别并定位所述点读页面图像中的指示体;
内容获取单元,用于根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
又一方面,还提供一种家教机,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器运行所述计算机程序时实现上述任一项所述的点读内容的识别方法的步骤。
再一方面,还一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的点读内容的识别方法的步骤。
与现有技术相比,本发明提供的一种点读内容的识别方法、装置、家教机及存储介质具有以下有益效果:
本发明当点读页面图像中存在遮挡区域时,通过自然语言识别技术对遮挡区域进行补全,可提高点读内容识别的准确率,以解决现有技术中因遮挡导致识别准确率不高或无法识别的问题。
附图说明
下面将以明确易懂的方式,结合附图说明优选实施方式,对一种点读内容的识别方法、装置、家教机及存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。
图1是本发明一种点读内容的识别方法的一个实施例的流程示意图;
图2是本发明一种点读内容的识别方法的另一个实施例的流程示意图;
图3是本发明一种点读内容的识别方法的又一个实施例的流程示意图;
图4是本发明一种点读内容的识别方法的再一个实施例的流程示意图;
图5是本发明一种点读内容的识别装置的一个实施例的结构示意框图;
图6是本发明一种家教机的一个实施例的结构示意框图。
附图标号说明
110、图像获取模块;120、识别模块;121、图像处理单元;122、识别单元;130、内容获取模块;131、填补单元;132、句子获取单元;133、查找单元;134、识别及定位单元;135、内容获取单元;140、补全模块;141、语义解析单元;142、补全单元;200、家教机;210、存储器;220、处理器。
具体实施方式
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
应当理解,当在本说明书中使用时,术语“包括”指示所述描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其他特征、整体、步骤、操作、元素、组件和/或集合的存在或添加。
为使图面简洁,各图中只示意性地表示出了与本发明相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。
本发明提供一种点读内容的识别方法的一个实施例,如图1所示,该点读内容的识别方法包括:
S100获取点读页面图像;
具体地,用户在学习时,可开启家教机的前置摄像头,并进入点读模式,当用户在书本上进行点读时,待用于点读的手指稳定后,可通过摄像头拍照获取手指在书本上指向的页面的图像,该页面的图像即为点读页面图像。
S200识别所述点读页面图像中的遮挡区域;
具体地,用户使用手指在书本上进行点读时,由于手指的存在,使得通过拍照获取的点读页面图像中存在遮挡区域,因此,需要先识别点读页面图像中的遮挡区域。
在点读页面图像中识别遮挡区域时,可使用训练好的图像识别模型进行识别,即先获取训练样本,然后采用训练样本对构建的图像识别模型进行训练,得到训练好的图像识别模型。训练样本中至少包括采用手指、笔等物品对页面进行遮挡的页面图像。
S300当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
具体地,在点读页面图像中识别出遮挡区域后,先计算遮挡区域与点读页面图像的比值,即计算遮挡区域在点读页面图像中所占的百分比,当比值小于预设比值时,说明遮挡区域仅仅是由点读手指等指示体造成的,遮挡区域很小,其并不会影响点读内容的识别,此时可直接根据点读页面图像在数据库中查找匹配的目标存储页面,以便知晓该点读页面图像对应哪一本书中的哪一页,然后识别点读页面图像中的指示体指向的点读区域所在位置,最后根据点读区域所在位置在目标存储页面中获取对应的点读内容,并对获取到的点读内容进行语音播放或展示。
在数据库中查找匹配的目标存储页面时,可根据点读页面图像中的文字来进行查找。例如,可直接在数据库中查找与点读页面图像中的文字重复率大于一预设阈值的存储页面即可。预设阈值可根据预设比值进行设置,当增大预设比值时,应当适当减小预设阈值,但是为了保证查找的准确率,预设阈值不能设置的过低。
若点读页面图像中的遮挡区域与点读页面图像的比值大于预设比值时,说明点读页面图像中除了用于点读的手指外,还存在其他遮挡物。例如用户在点读时,将多个手指或手握成的拳头都放置在页面上,使得拍照获取到的点读页面图像中存在较大面积的遮挡。当遮挡区域较大时,若直接根据该点读页面图像在数据库中进行匹配,会出现匹配到多个存储页面,使得匹配不准确,因此需要先对遮挡区域进行补全。对遮挡区域进行补全,需要先获取遮挡区域的周边区域的内容。需要指出的是,若遮挡区域非常大,则无法对遮挡区域进行补全,此种情况下需要提示用户并重新获取点读页面图像。
S400根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
具体地,获取到周边区域的内容后,根据周边区域的前后内容之间的关联性,通过自然语言处理模型对周边区域的内容进行处理,以对遮挡区域进行补全。
自然语言处理模型通过语料库中的语料样本训练得到。语料的获取方式有:将纸质的文本全部电子化作为语料;或通过爬虫去网上抓取数据。获取到语料后,先对语料进行预处理,例如对语料进行数据清洗、分词、词性标注、去特征词等。数据清洗是将不需要的噪音数据清洗删除,例如,对于爬取的网页内容,去除广告、标签、注释等。常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者采用正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批量处理等。
分词是将句子或段落分割为单独的词或词语。词性标注是给每个词或词语打词类标签,如形容词、动词、名词等。在预处理后的语料中标注遮挡词语形成训练样本,通过训练样本对自然语言处理模型进行训练,训练好的自然语言处理模型可用于根据周边区域的内容,对遮挡区域进行补全。
S500获取补全后的点读页面图像中的点读内容。
具体地,将点读页面图像中的遮挡区域补全后,即可根据补全后的点读页面图像准确获取用户点读的内容。
获取用户点读的内容后,根据该点读的内容并结合用户的语音信息,在数据库中获取对应的内容,并对该内容进行语音播放或展示。例如,用户点读的内容是一道题,语音信息为“怎么解”,结合点读的内容和语音信息,在数据库中获取该题的解答过程,并向用户进行展示。
本实施方式中,当点读页面图像中存在遮挡区域时,通过自然语言识别技术对遮挡区域进行补全,可提高点读内容识别的准确率,以解决现有技术中因遮挡导致识别准确率不高或无法识别的问题。
本发明提供一种点读内容的识别方法的另一个实施例,如图2所示,该点读内容的识别方法包括:
S100获取点读页面图像;
S210根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
具体地,在点读页面图像中识别遮挡区域时,还可根据遮挡物和点读页面的颜色差异来进行识别。在点读页面图像中,可将页面作为背景,将遮挡物作为目标,利用点读页面图像中目标与背景的差异,把点读页面图像分别设置为两个不同的级别,选取一个合适的阈值,以确定图像中某个像素是目标还是背景,进而对点读页面图像进行二值化处理得到二值化点读页面图像。
S220根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域;
具体地,在二值化图像中,整个图像呈现出明显的黑白效果,一般白色区域代表背景,黑色区域代表目标,根据明显的黑白效果可方便地区分背景和目标。因此,在得到二值化点读页面图像后,可在二值化点读页面图像中获取遮挡区域的轮廓信息,遮挡区域的轮廓形成的区域即为遮挡区域。
S300当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
具体地,在点读页面图像中识别出遮挡区域后,先计算遮挡区域与点读页面图像的比值,即计算遮挡区域在点读页面图像中所占的百分比,当比值小于预设比值时,说明遮挡区域仅仅是由点读手指等指示体造成的,遮挡区域很小,其并不会影响点读内容的识别,此时可直接根据点读页面图像识别用户点读的内容。
若点读页面图像中的遮挡区域与点读页面图像的比值大于预设比值时,说明点读页面图像中除了用于点读的手指外,还存在其他遮挡物。例如用户在点读时,将多个手指或手握成的拳头都放置在页面上,使得拍照获取到的点读页面图像中存在较大面积的遮挡。当遮挡区域较大时,若直接根据该点读页面图像在数据库中进行匹配,会出现匹配不准确的问题,因此需要先对遮挡区域进行补全。对遮挡区域进行补全,需要先获取遮挡区域的周边区域的内容。需要指出的是,若遮挡区域非常大,则无法对遮挡区域进行补全,此种情况下需要提示用户并重新获取点读页面图像。
S400根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
具体地,获取到周边区域的内容后,根据周边区域的前后内容之间的关联性,通过自然语言处理模型对周边区域的内容进行处理,以对遮挡区域进行补全。
S500获取补全后的点读页面图像中的指示体指向的点读内容。
本发明提供一种点读内容的识别方法的又一个实施例,如图3所示,该点读内容的识别方法包括:
S100获取点读页面图像;
S200识别所述点读页面图像中的遮挡区域;
S310当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
具体地,在点读页面图像中识别出遮挡区域后,当判断需要对遮挡区域进行补全时,先在点读页面图像中删除遮挡区域对应的所有像素点,然后采用预设字符填补遮挡区域内的每行文字的空白区域,文字行与行之间的空白区域则不需要填补,以方便区分每一行,并方便后续获取包含预设字符的句子。预设字符可以是下划线或波浪线或各种符号等。
例如,页面中包括15行文字,其中遮挡区域遮挡了第四行至第八行中的部分文字,在点读页面图像中将遮挡区域删除后,采用下划线填补第四行至第八行中被遮挡物遮挡的文字。
S320获取包含所述预设字符的句子;
具体地,在点读页面图像中采用预设字符填补每一行中遮挡区域对应的空白区域后,在点读页面图像中提取出包括预设字符的每个句子,句子可根据标点符号来进行分割,一般以上一个句号为起点,以相邻的下一个句号为终点,起点与终点之间的文字即为一个句子。根据填补的预设字符,在点读页面图像中提取出所有包括预设字符的单个句子。提取出的每个句子中至少包括一个预设字符。
S410通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
具体地,在点读页面图像中提取出包括预设字符的句子后,将每个句子分别输入训练好的自然语言处理模型中,自然语言处理模型对每个句子进行句法分析,对句子结构和句子中的短语进行分析,找出句子中的词、短语等的相互关系,以及词和短语在句子中的关系,进而推断出每个句子的语义。
S420根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全;
具体地,自然语言处理模型推断出每个句子的语义后,可根据句子的语义推断出遮挡区域的内容,进而对遮挡区域的内容进行补全。
S500获取补全后的点读页面图像中的指示体指向的点读内容。
本发明提供一种点读内容的识别方法的再一个实施例,如图4所示,该点读内容的识别方法包括:
S100获取点读页面图像;
S200识别所述点读页面图像中的遮挡区域;
S300当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
S400根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
S510在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
S520识别并定位所述点读页面图像中的指示体;
S530根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
具体地,将遮挡区域的内容补全后,根据补全后的点读页面图像在数据库中查找匹配的目标存储页面,匹配时,可根据补全后的点读页面图像中的文字来进行查找匹配。例如,可直接在数据库中查找与补全后的点读页面图像中的文字重复率大于一预设阈值的存储页面即可。
在点读页面图像中识别并定位指示体,指示体为用户用于点读的手指、笔等工具,根据指示体在点读页面图像中的位置,然后在目标存储页面中获取该指示体对应的点读内容。
获取用户点读的内容后,根据该点读的内容并结合用户的语音信息,在数据库中获取对应的内容,并对该内容进行语音播放或展示。例如,用户点读的内容是一道题,语音信息为“怎么解”,结合点读的内容和语音信息,在数据库中获取该题的解答过程,并向用户进行展示。
应理解,在上述各实施例中,各步骤序号的大小并不意味着执行顺序的先后,各步骤的执行顺序应以功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
本发明还提供一种点读内容的识别装置的一个实施例,如图5所示,该点读内容的识别装置包括:
图像获取模块110,用于获取点读页面图像;
具体地,用户在学习时,可开启家教机的前置摄像头,并进入点读模式,当用户在书本上进行点读时,待用于点读的手指稳定后,可通过摄像头拍照获取手指在书本上指向的页面的图像,该页面的图像即为点读页面图像。
识别模块120,用于识别所述点读页面图像中的遮挡区域;
具体地,用户使用手指在书本上进行点读时,由于手指的存在,使得通过拍照获取的点读页面图像中存在遮挡区域,因此,需要先识别点读页面图像中的遮挡区域。
在点读页面图像中识别遮挡区域时,可使用训练好的图像识别模型进行识别,即先获取训练样本,然后采用训练样本对构建的图像识别模型进行训练,得到训练好的图像识别模型。训练样本中至少包括采用手指、笔等物品对页面进行遮挡的页面图像。
内容获取模块130,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
具体地,在点读页面图像中识别出遮挡区域后,先计算遮挡区域与点读页面图像的比值,即计算遮挡区域在点读页面图像中所占的百分比,当比值小于预设比值时,说明遮挡区域仅仅是由点读手指等指示体造成的,遮挡区域很小,其并不会影响点读内容的识别,此时可直接根据点读页面图像在数据库中查找匹配的目标存储页面,以便知晓该点读页面图像对应哪一本书中的哪一页,然后识别点读页面图像中的指示体指向的点读区域所在位置,最后根据点读区域所在位置在目标存储页面中获取对应的点读内容,并对获取到的点读内容进行语音播放或展示。
在数据库中查找匹配的目标存储页面时,可根据点读页面图像中的文字来进行查找。例如,可直接在数据库中查找与点读页面图像中的文字重复率大于一预设阈值的存储页面即可。预设阈值可根据预设比值进行设置,当增大预设比值时,应当适当减小预设阈值,但是为了保证查找的准确率,预设阈值不能设置的过低。
若点读页面图像中的遮挡区域与点读页面图像的比值大于预设比值时,说明点读页面图像中除了用于点读的手指外,还存在其他遮挡物。例如用户在点读时,将多个手指或手握成的拳头都放置在页面上,使得拍照获取到的点读页面图像中存在较大面积的遮挡。当遮挡区域较大时,若直接根据该点读页面图像在数据库中进行匹配,会出现匹配到多个存储页面,使得匹配不准确,因此需要先对遮挡区域进行补全。对遮挡区域进行补全,需要先获取遮挡区域的周边区域的内容。需要指出的是,若遮挡区域非常大,则无法对遮挡区域进行补全,此种情况下需要提示用户并重新获取点读页面图像。
补全模块140,用于根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
具体地,获取到周边区域的内容后,根据周边区域的前后内容之间的关联性,通过自然语言处理模型对周边区域的内容进行处理,以对遮挡区域进行补全。
自然语言处理模型通过语料库中的语料样本训练得到。语料的获取方式有:将纸质的文本全部电子化作为语料;或通过爬虫去网上抓取数据。获取到语料后,先对语料进行预处理,例如对语料进行数据清洗、分词、词性标注、去特征词等。数据清洗是将不需要的噪音数据清洗删除,例如,对于爬取的网页内容,去除广告、标签、注释等。常见的数据清洗方式有:人工去重、对齐、删除和标注等,或者采用正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批量处理等。
分词是将句子或段落分割为单独的词或词语。词性标注是给每个词或词语打词类标签,如形容词、动词、名词等。在预处理后的语料中标注遮挡词语形成训练样本,通过训练样本对自然语言处理模型进行训练,训练好的自然语言处理模型可用于根据周边区域的内容,对遮挡区域进行补全。
内容获取模块130,还用于获取补全后的点读页面图像中的指示体指向的点读内容。
具体地,将点读页面图像中的遮挡区域补全后,即可根据补全后的点读页面图像准确获取用户点读的内容。
获取用户点读的内容后,根据该点读的内容并结合用户的语音信息,在数据库中获取对应的内容,并对该内容进行语音播放或展示。例如,用户点读的内容是一道题,语音信息为“怎么解”,结合点读的内容和语音信息,在数据库中获取该题的解答过程,并向用户进行展示。
本实施方式中,当点读页面图像中存在遮挡区域时,通过自然语言识别技术对遮挡区域进行补全,可提高点读内容识别的准确率,以解决现有技术中因遮挡导致识别准确率不高或无法识别的问题。
优选地,识别模块120包括:
图像处理单元121,用于根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
具体地,在点读页面图像中识别遮挡区域时,还可根据遮挡物和点读页面的颜色差异来进行识别。在点读页面图像中,可将页面作为背景,将遮挡物作为目标,利用点读页面图像中目标与背景的差异,把点读页面图像分别设置为两个不同的级别,选取一个合适的阈值,以确定图像中某个像素是目标还是背景,进而对点读页面图像进行二值化处理得到二值化点读页面图像。
识别单元122,用于根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域。
具体地,在二值化图像中,整个图像呈现出明显的黑白效果,一般白色区域代表背景,黑色区域代表目标,根据明显的黑白效果可方便地区分背景和目标。因此,在得到二值化点读页面图像后,可在二值化点读页面图像中获取遮挡区域的轮廓信息,遮挡区域的轮廓形成的区域即为遮挡区域。
优选地,内容获取模块130包括:
填补单元131,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
具体地,在点读页面图像中识别出遮挡区域后,当判断需要对遮挡区域进行补全时,先在点读页面图像中删除遮挡区域对应的所有像素点,然后采用预设字符填补遮挡区域内的每行文字的空白区域,文字行与行之间的空白区域则不需要填补,以方便区分每一行,并方便后续获取包含预设字符的句子。预设字符可以是下划线或波浪线或各种符号等。
例如,页面中包括15行文字,其中遮挡区域遮挡了第四行至第八行中的部分文字,在点读页面图像中将遮挡区域删除后,采用下划线填补第四行至第八行中被遮挡物遮挡的文字。
句子获取单元132,用于获取包含所述预设字符的句子;
具体地,在点读页面图像中采用预设字符填补每一行中遮挡区域对应的空白区域后,在点读页面图像中提取出包括预设字符的每个句子,句子可根据标点符号来进行分割,一般以上一个句号为起点,以相邻的下一个句号为终点,起点与终点之间的文字即为一个句子。根据填补的预设字符,在点读页面图像中提取出所有包括预设字符的单个句子。提取出的每个句子中至少包括一个预设字符。
补全模块140包括:
语义解析单元141,用于通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
具体地,在点读页面图像中提取出包括预设字符的句子后,将每个句子分别输入训练好的自然语言处理模型中,自然语言处理模型对每个句子进行句法分析,对句子结构和句子中的短语进行分析,找出句子中的词、短语等的相互关系,以及词和短语在句子中的关系,进而推断出每个句子的语义。
补全单元142,用于根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全。
具体地,自然语言处理模型推断出每个句子的语义后,可根据句子的语义推断出遮挡区域的内容,进而对遮挡区域的内容进行补全。
优选地,内容获取模块130还包括:
查找单元133,用于在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
识别及定位单元134,用于识别并定位所述点读页面图像中的指示体;
内容获取单元135,用于根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
具体地,将遮挡区域的内容补全后,根据补全后的点读页面图像在数据库中查找匹配的目标存储页面,匹配时,可根据补全后的点读页面图像中的文字来进行查找匹配。例如,可直接在数据库中查找与补全后的点读页面图像中的文字重复率大于一预设阈值的存储页面即可。
在点读页面图像中识别并定位指示体,指示体为用户用于点读的手指、笔等工具,根据指示体在点读页面图像中的位置,然后在目标存储页面中获取该指示体对应的点读内容。
获取用户点读的内容后,根据该点读的内容并结合用户的语音信息,在数据库中获取对应的内容,并对该内容进行语音播放或展示。例如,用户点读的内容是一道题,语音信息为“怎么解”,结合点读的内容和语音信息,在数据库中获取该题的解答过程,并向用户进行展示。
图6是本发明一个实施例中提供的家教机的结构示意图,如图6所示,该家教机200包括:存储器210、处理器220以及存储在存储器210中并可在处理器220上运行的计算机程序,例如:书本页码的识别程序。处理器220执行计算机程序时实现上述各个书本页码的识别方法实施例中的步骤,或者,处理器220执行计算机程序时实现上述各书本页码的识别装置实施例中各模块的功能。
家教机200包括但不仅限于处理器220、存储器210。本领域技术人员可以理解,图6仅仅是家教机200的示例,并不构成对家教机200的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如:家教机200还可以包括输入输出设备、显示设备、网络接入设备、总线等。
处理器220可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application SpecificIntegrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器220可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器210可以是家教机200的内部存储单元,例如:家教机200的硬盘或内存。存储器210也可以是家教机200的外部存储设备,例如:家教机200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器210还可以既包括家教机200的内部存储单元也包括外部存储设备。存储器210用于存储计算机程序以及家教机200所需要的其他程序和数据。存储器210还可以用于暂时地存储已经输出或者将要输出的数据。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详细描述或记载的部分,可以参见其他实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/家教机和方法,可以通过其他的方式实现。例如,以上所描述的装置/家教机实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性、机械或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可能集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例的书本页码的识别方法。
本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序发送指令给相关的硬件完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器220执行时,可实现上述各个方法实施例的步骤。其中,计算机程序包括:计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如:在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
应当说明的是,上述实施例均可根据需要自由组合。以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种点读内容的识别方法,其特征在于,包括:
获取点读页面图像;
识别所述点读页面图像中的遮挡区域;
当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
获取补全后的点读页面图像中的指示体指向的点读内容。
2.根据权利要求1所述的一种点读内容的识别方法,其特征在于,所述识别所述点读页面图像中的遮挡区域具体包括:
根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域。
3.根据权利要求1或2所述的一种点读内容的识别方法,其特征在于,所述当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容具体包括:
当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
获取包含所述预设字符的句子;
根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全具体包括:
通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全。
4.根据权利要求1或2所述的一种点读内容的识别方法,其特征在于,所述获取补全后的点读页面图像中的指示体指向的点读内容具体包括:
在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
识别并定位所述点读页面图像中的指示体;
根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
5.一种点读内容的识别装置,其特征在于,包括:
图像获取模块,用于获取点读页面图像;
识别模块,用于识别所述点读页面图像中的遮挡区域;
内容获取模块,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,获取所述遮挡区域的周边区域的内容;
补全模块,用于根据所述周边区域的内容,对所述点读页面图像中的遮挡区域进行补全;
所述内容获取模块,还用于获取补全后的点读页面图像中的指示体指向的点读内容。
6.根据权利要求5所述的一种点读内容的识别装置,其特征在于,所述识别模块包括:
图像处理单元,用于根据所述点读页面图像中的遮挡物与点读页面的颜色差异,对所述点读页面图像进行二值化处理得到二值化点读页面图像;
识别单元,用于根据所述二值化点读页面图像,在所述点读页面图像中识别出遮挡区域。
7.根据权利要求5或6所述的一种点读内容的识别装置,其特征在于,所述内容获取模块包括:
填补单元,用于当所述遮挡区域与点读页面图像的比值大于预设比值时,在所述点读页面图像中删除所述遮挡区域内的像素点,并采用预设字符填补所述遮挡区域内的每行文字内的空白区域;
句子获取单元,用于获取包含所述预设字符的句子;
所述补全模块包括:
语义解析单元,用于通过自然语言处理模型对所述句子进行语义解析,得到所述句子的语义解析结果;
补全单元,用于根据所述句子的语义解析结果,对所述点读页面图像中的遮挡区域进行补全。
8.根据权利要求5或6所述的一种点读内容的识别装置,其特征在于,所述内容获取模块还包括:
查找单元,用于在数据库中查找与补全后的点读页面图像匹配的目标存储页面;
识别及定位单元,用于识别并定位所述点读页面图像中的指示体;
内容获取单元,用于根据所述指示体,在所述目标存储页面中获取所述指示体对应的点读内容。
9.一种家教机,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时实现如权利要求1-4中任一项所述的点读内容的识别方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-4中任一项所述的点读内容的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887010.4A CN110598217B (zh) | 2019-09-19 | 2019-09-19 | 一种点读内容的识别方法、装置、家教机及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910887010.4A CN110598217B (zh) | 2019-09-19 | 2019-09-19 | 一种点读内容的识别方法、装置、家教机及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110598217A true CN110598217A (zh) | 2019-12-20 |
CN110598217B CN110598217B (zh) | 2023-10-20 |
Family
ID=68861103
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910887010.4A Active CN110598217B (zh) | 2019-09-19 | 2019-09-19 | 一种点读内容的识别方法、装置、家教机及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110598217B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708902A (zh) * | 2020-06-04 | 2020-09-25 | 南京晓庄学院 | 一种多媒体数据采集方法 |
CN112163513A (zh) * | 2020-09-26 | 2021-01-01 | 深圳市快易典教育科技有限公司 | 信息选取方法、系统、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108494996A (zh) * | 2018-05-14 | 2018-09-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN108551552A (zh) * | 2018-05-14 | 2018-09-18 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN109656465A (zh) * | 2019-02-26 | 2019-04-19 | 广东小天才科技有限公司 | 一种应用于家教设备的内容获取方法及家教设备 |
CN109766412A (zh) * | 2019-01-16 | 2019-05-17 | 广东小天才科技有限公司 | 一种基于图像识别的学习内容获取方法及电子设备 |
CN109947273A (zh) * | 2019-03-25 | 2019-06-28 | 广东小天才科技有限公司 | 一种点读定位方法及装置 |
-
2019
- 2019-09-19 CN CN201910887010.4A patent/CN110598217B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108494996A (zh) * | 2018-05-14 | 2018-09-04 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN108551552A (zh) * | 2018-05-14 | 2018-09-18 | Oppo广东移动通信有限公司 | 图像处理方法、装置、存储介质及移动终端 |
CN109766412A (zh) * | 2019-01-16 | 2019-05-17 | 广东小天才科技有限公司 | 一种基于图像识别的学习内容获取方法及电子设备 |
CN109656465A (zh) * | 2019-02-26 | 2019-04-19 | 广东小天才科技有限公司 | 一种应用于家教设备的内容获取方法及家教设备 |
CN109947273A (zh) * | 2019-03-25 | 2019-06-28 | 广东小天才科技有限公司 | 一种点读定位方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708902A (zh) * | 2020-06-04 | 2020-09-25 | 南京晓庄学院 | 一种多媒体数据采集方法 |
CN112163513A (zh) * | 2020-09-26 | 2021-01-01 | 深圳市快易典教育科技有限公司 | 信息选取方法、系统、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110598217B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263248B (zh) | 一种信息推送方法、装置、存储介质和服务器 | |
CN108108426B (zh) | 自然语言提问的理解方法、装置及电子设备 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
CN111753767A (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN110909122B (zh) | 一种信息处理方法及相关设备 | |
CN110609998A (zh) | 一种电子文档信息的数据提取方法、电子设备及存储介质 | |
CN110874534B (zh) | 数据处理方法和数据处理装置 | |
CN109033282B (zh) | 一种基于抽取模板的网页正文抽取方法及装置 | |
CN111144210A (zh) | 图像的结构化处理方法及装置、存储介质及电子设备 | |
CN110647648B (zh) | 纸质书本的页码识别方法、装置、家教机及存储介质 | |
CN109490843B (zh) | 一种归一化雷达屏幕监测方法及系统 | |
CN111274239A (zh) | 试卷结构化处理方法、装置和设备 | |
CN110741376A (zh) | 用于不同自然语言的自动文档分析 | |
CN112434520A (zh) | 命名实体识别方法、装置及可读存储介质 | |
CN110598217B (zh) | 一种点读内容的识别方法、装置、家教机及存储介质 | |
CN113128241A (zh) | 文本识别方法、装置及设备 | |
CN112257462A (zh) | 一种基于神经机器翻译技术的超文本标记语言翻译方法 | |
CN113326413A (zh) | 一种网页信息提取方法、系统、服务器及存储介质 | |
CA3140455A1 (en) | Information extraction method, apparatus, and system | |
CN114970514A (zh) | 基于人工智能的中文分词方法、装置、计算机设备及介质 | |
CN110413996B (zh) | 构造零指代消解语料的方法及装置 | |
CN111814481A (zh) | 购物意图识别方法、装置、终端设备及存储介质 | |
CN110852105A (zh) | 时间数据的归一化方法、装置、介质及电子设备 | |
CN111027533B (zh) | 一种点读坐标的变换方法、系统、终端设备及存储介质 | |
CN112818693A (zh) | 一种电子元器件型号词的自动提取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |