CN110222266A - 一种基于语音识别的房产专业语音搜索系统及方法 - Google Patents
一种基于语音识别的房产专业语音搜索系统及方法 Download PDFInfo
- Publication number
- CN110222266A CN110222266A CN201910472362.3A CN201910472362A CN110222266A CN 110222266 A CN110222266 A CN 110222266A CN 201910472362 A CN201910472362 A CN 201910472362A CN 110222266 A CN110222266 A CN 110222266A
- Authority
- CN
- China
- Prior art keywords
- speech recognition
- resolver
- vocabulary
- search
- dictionary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 9
- 206010028916 Neologism Diseases 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 5
- 230000006399 behavior Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 241001269238 Data Species 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于语音识别的房产专业语音搜索系统及方法,包括语音识别引擎、解析器与搜索引擎系统,其特征在于:解析器分别与语音识别引擎以及搜索引擎系统连接;语音识别引擎内设有语音识别技术,用于将用户在移动设备上输入的语音转换为文字,并将转换得到的文字输入解析器;解析器内设有词典,词典内设有若干字符串,解析器用于将从语音识别引擎获得的文字中与字符串匹配的词汇以及新词提取出来,并将提取的词汇按照分类构造出分类‑词汇的映射并将映射传递至搜索引擎系统;搜索引擎系统根据映射查询符合相应条件的房源数据并将其以图形化的方式展示数据至客户。
Description
技术领域
本发明应用于房产领域,具体涉及一种基于语音识别的房产专业语音搜索系统及方法。
背景技术
近年来,语音识别技术取得了长足的进步。语音识别技术已经能够较好地完成让计算机听懂人类语音,将语音中包含的文字信息提取出来的任务。在实现了语音转文字这第一个目标后,如何利用语音中包含的文字信息解决生产生活中的问题就成了下一个目标。目前,语音识别技术的应用在通用领域中使用得较多,如智能家居,智能手机,智能家电等。但在各个行业领域、专业领域中,语音识别技术使用得还不够广泛;
目前中文分词技术主要分三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法,其中基于理解的分词方法还处在试验阶段。基于字符串匹配的分词方法在初始化阶段需要准备一个词汇量充分大的词典;
基于倒排索引的搜索引擎技术已经较为成熟并且在互联网领域得到了广泛使用。用户在进行搜索行为时通常需要借助键盘鼠标或是移动设备的触摸屏输入关键词、点击选择筛选条件。这类输入行为在计算机上通常不会存在太大问题,但随着人们对移动设备的日益依赖,用户每天使用移动设备的时间行为正逐步超越传统计算机,在此背景下,传统的输入模式在移动设备上开始显示出弊端,例如在九宫格或是虚拟键盘上进行文字的输入,在有限大小的屏幕上进行点选筛选条件,存在较大的误操作概率,使用体验并不好。
发明内容
本发明的目的是提供一种基于语音识别的房产专业语音搜索系统及方法,借助语音识别技术和中文分词技术,扩展了搜索引擎的输入方式,在传统输入模式的基础上向用户额外提供语音输入模式,实现语音搜索功能。
本发明提供了如下的技术方案:
一种基于语音识别的房产专业语音搜索系统及方法,包括语音识别引擎、解析器与搜索引擎系统,其特征在于:
所述解析器分别与所述语音识别引擎以及所述搜索引擎系统连接;
所述语音识别引擎内设有语音识别技术,用于将用户在移动设备上输入的语音转换为文字,并将转换得到的文字输入所述解析器;
所述解析器内设有词典,所述词典内设有若干字符串,所述解析器用于将从所述语音识别引擎获得的所述文字中与所述字符串匹配的词汇以及新词提取出来,并将提取的所述词汇按照分类构造出分类-词汇的映射并将所述映射传递至搜索引擎系统;
所述搜索引擎系统根据所述映射查询符合相应条件的房源数据并将其以图形化的方式展示所述数据至客户。
优选的,一种基于语音识别的房产专业语音搜索系统及方法的搜索方法,包括以下步骤:
S1、启动搜索引擎与解析器并对所述解析器进行初始化,得到初始词典,设定新词学习规则;
S2、用户在移动设备上输入语音,语音识别引擎通过语音识别技术将所述语音转换为文字并将所述文字传递至所述解析器;
S3、所述解析器根据所述初始词典以及所述新词学习规则提取所述文字中的对应词汇,并根据分类构造出对应的分类-词汇的映射并将所述映射传递至搜索引擎系统;
S4、所述搜索引擎系统根据所述映射查询符合相应条件的房源数据并展现搜索结果。
优选的,所述解析器通过读取业务数据库,将行政区属、街道、地铁站、小区名、价格和户型在内的基础数据加载至所述初始词典内,并设置相对应的权重。
优选的,所述新词学习规则包括以下步骤:
A1、所述解析器对从所述语音识别引擎中提取的新词与所述初始词典中的词汇进行比较,通过计算所述新词与所述初始词典中的词汇之间的编辑距离;
A2、对所述编辑距离进行降序排列,得到与所述新词最接近的所述原始词典中的词汇,保存所述新词与所述词典词汇之间的映射关系,并将所述新词加载到所述原始词典中。
优选的,所述搜索引擎系统基于倒排索引技术。
优选的,所述搜索结果以图形化形式展现。
优选的,所述解析器采用中文分词技术。
本发明的有益效果是:将语音识别技术应用在房产这一专业领域,服务于房产相关的语音搜索;解析器在初始化时,从业务数据库中加载行政区划、街道、地铁站、小区名、价格、户型等基础数据并设置权重,同时解析器带有新词学习能力,可以根据用户输入的词汇匹配与其最接近的原始词典中的词汇,将其加载入词典中并建立分类-词汇映射,避免了初始词典中词汇量覆盖不全面的问题;借助语音识别技术和中文分词技术,扩展了搜索引擎的输入方式,在传统输入模式的基础上向用户额外提供语音输入模式,实现语音搜索功能。
具体实施方式
一种基于语音识别的房产专业语音搜索系统及方法,包括语音识别引擎、解析器与搜索引擎系统,解析器分别与语音识别引擎以及搜索引擎系统连接;
语音识别引擎内设有语音识别技术,用于将用户在移动设备上输入的语音转换为文字,并将转换得到的文字输入解析器,扩展了搜索引擎的输入方式,在传统输入模式的基础上向用户额外提供语音输入模式,实现语音搜索功能。
解析器内设有词典,词典内设有若干字符串,解析器用于将从语音识别引擎获得的文字中与字符串匹配的词汇以及新词提取出来,并将提取的词汇按照分类构造出分类-词汇的映射并将映射传递至搜索引擎系统;具体的,解析器在初始化时,从业务数据库中加载行政区划、街道、地铁站、小区名、价格、户型等基础数据并设置权重,同时解析器带有新词学习能力,可以根据用户输入的词汇匹配与其最接近的原始词典中的词汇,将其加载入词典中并建立分类-词汇映射,避免了初始词典中词汇量覆盖不全面的问题;
搜索引擎系统根据映射查询符合相应条件的房源数据并将其以图形化的方式展示数据至客户。
一种基于语音识别的房产专业语音搜索系统及方法的搜索方法如下:
首先,启动搜索引擎与解析器并对解析器进行初始化,得到初始词典,设定新词学习规则,具体的,解析器通过读取业务数据库,将行政区属、街道、地铁站、小区名、价格和户型在内的基础数据加载至初始词典内,并设置相对应的权重;新词学习规则如下:解析器对从语音识别引擎中提取的新词与初始词典中的词汇进行比较,通过计算新词与初始词典中的词汇之间的编辑距离,再对编辑距离进行降序排列,得到与新词最接近的原始词典中的词汇,保存新词与词典词汇之间的映射关系,并将新词加载到原始词典中;
搜索时,用户在移动设备上输入语音,语音识别引擎通过语音识别技术将语音转换为文字并将文字传递至解析器;解析器根据初始词典使用字符串(词汇)匹配的分词方法,将匹配的词汇提取出来,使用基于统计的分词方法将文字中的新词提取出来,并根据新词学习规则加载之原始词典中,并分类构造出对应的分类-词汇的映射并将映射传递至搜索引擎系统;
最后,基于倒排索引技术的搜索引擎系统根据映射拼接查询语句,查询符合相应条件的房源数据并以图形化的形式展现搜索结果。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于语音识别的房产专业语音搜索系统,包括语音识别引擎、解析器与搜索引擎系统,其特征在于:
所述解析器分别与所述语音识别引擎以及所述搜索引擎系统连接;
所述语音识别引擎内设有语音识别技术,用于将用户在移动设备上输入的语音转换为文字,并将转换得到的文字输入所述解析器;
所述解析器内设有词典,所述词典内设有若干字符串,所述解析器用于将从所述语音识别引擎获得的所述文字中与所述字符串匹配的词汇以及新词提取出来,并将提取的所述词汇按照分类构造出分类-词汇的映射并将所述映射传递至搜索引擎系统;
所述搜索引擎系统根据所述映射查询符合相应条件的房源数据并将其以图形化的方式展示所述数据至客户。
2.根据权利要求1所述的一种基于语音识别的房产专业语音搜索方法,其特征在于,包括以下步骤:
S1、启动搜索引擎与解析器并对所述解析器进行初始化,得到初始词典,设定新词学习规则;
S2、用户在移动设备上输入语音,语音识别引擎通过语音识别技术将所述语音转换为文字并将所述文字传递至所述解析器;
S3、所述解析器根据所述初始词典以及所述新词学习规则提取所述文字中的对应词汇,并根据分类构造出对应的分类-词汇的映射并将所述映射传递至搜索引擎系统;
S4、所述搜索引擎系统根据所述映射查询符合相应条件的房源数据并展现搜索结果。
3.根据权利要求2所述的一种基于语音识别的房产专业语音搜索系方法,其特征在于,所述解析器通过读取业务数据库,将行政区属、街道、地铁站、小区名、价格和户型在内的基础数据加载至所述初始词典内,并设置相对应的权重。
4.根据权利要求3所述的一种基于语音识别的房产专业语音搜索方法,其特征在于,所述新词学习规则包括以下步骤:
A1、所述解析器对从所述语音识别引擎中提取的新词与所述初始词典中的词汇进行比较,通过计算所述新词与所述初始词典中的词汇之间的编辑距离;
A2、对所述编辑距离进行降序排列,得到与所述新词最接近的所述原始词典中的词汇,保存所述新词与所述词典词汇之间的映射关系,并将所述新词加载到所述原始词典中。
5.根据权利要求2所述的一种基于语音识别的房产专业语音搜索方法,其特征在于,所述搜索引擎系统基于倒排索引技术。
6.根据权利要求2所述的一种基于语音识别的房产专业语音搜索方法,其特征在于,所述搜索结果以图形化形式展现。
7.根据权利要求2所述的一种基于语音识别的房产专业语音搜索方法,其特征在于,所述解析器基于中文分词技术。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910472362.3A CN110222266A (zh) | 2019-05-31 | 2019-05-31 | 一种基于语音识别的房产专业语音搜索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910472362.3A CN110222266A (zh) | 2019-05-31 | 2019-05-31 | 一种基于语音识别的房产专业语音搜索系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110222266A true CN110222266A (zh) | 2019-09-10 |
Family
ID=67819418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910472362.3A Pending CN110222266A (zh) | 2019-05-31 | 2019-05-31 | 一种基于语音识别的房产专业语音搜索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110222266A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101950309A (zh) * | 2010-10-08 | 2011-01-19 | 华中师范大学 | 一种面向学科领域的新专业词汇识别方法 |
CN102081602A (zh) * | 2009-11-30 | 2011-06-01 | 日电(中国)有限公司 | 确定未登录词的类别的方法和设备 |
CN103678684A (zh) * | 2013-12-25 | 2014-03-26 | 沈阳美行科技有限公司 | 一种基于导航信息检索的中文分词方法 |
CN104462186A (zh) * | 2014-10-17 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
CN104765858A (zh) * | 2015-04-21 | 2015-07-08 | 北京航天长峰科技工业集团有限公司上海分公司 | 公安用同义词库的构建方法及获得的公安用同义词库 |
CN106649250A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 一种情感新词的识别方法及装置 |
CN107451116A (zh) * | 2017-07-14 | 2017-12-08 | 中国地质大学(武汉) | 一种移动应用内生大数据统计分析方法 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
-
2019
- 2019-05-31 CN CN201910472362.3A patent/CN110222266A/zh active Pending
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102081602A (zh) * | 2009-11-30 | 2011-06-01 | 日电(中国)有限公司 | 确定未登录词的类别的方法和设备 |
CN101950309A (zh) * | 2010-10-08 | 2011-01-19 | 华中师范大学 | 一种面向学科领域的新专业词汇识别方法 |
CN103678684A (zh) * | 2013-12-25 | 2014-03-26 | 沈阳美行科技有限公司 | 一种基于导航信息检索的中文分词方法 |
CN104462186A (zh) * | 2014-10-17 | 2015-03-25 | 百度在线网络技术(北京)有限公司 | 一种语音搜索方法及装置 |
CN104765858A (zh) * | 2015-04-21 | 2015-07-08 | 北京航天长峰科技工业集团有限公司上海分公司 | 公安用同义词库的构建方法及获得的公安用同义词库 |
CN106649250A (zh) * | 2015-10-29 | 2017-05-10 | 北京国双科技有限公司 | 一种情感新词的识别方法及装置 |
CN107451116A (zh) * | 2017-07-14 | 2017-12-08 | 中国地质大学(武汉) | 一种移动应用内生大数据统计分析方法 |
CN108595696A (zh) * | 2018-05-09 | 2018-09-28 | 长沙学院 | 一种基于云平台的人机交互智能问答方法和系统 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781305A (zh) * | 2019-10-30 | 2020-02-11 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
CN110781305B (zh) * | 2019-10-30 | 2023-06-06 | 北京小米智能科技有限公司 | 基于分类模型的文本分类方法及装置,以及模型训练方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020232861A1 (zh) | 命名实体识别方法、电子装置及存储介质 | |
CN107291783B (zh) | 一种语义匹配方法及智能设备 | |
CN109271506A (zh) | 一种基于深度学习的电力通信领域知识图谱问答系统的构建方法 | |
CN110909548A (zh) | 中文命名实体识别方法、装置及计算机可读存储介质 | |
CN107818164A (zh) | 一种智能问答方法及其系统 | |
CN107918634A (zh) | 智能问答方法、装置及计算机可读存储介质 | |
CN109543034B (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
CN104809117B (zh) | 视频数据聚合处理方法、聚合系统及视频搜索平台 | |
KR20190077088A (ko) | 성문 구축 및 등록 방법 및 그 장치 | |
CN110413783B (zh) | 一种基于注意力机制的司法文本分类方法及系统 | |
CN110121705A (zh) | 将语用学原理应用于与可视分析交互的系统和方法 | |
CN107729468A (zh) | 基于深度学习的答案抽取方法及系统 | |
CN112382287B (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN106055675A (zh) | 一种基于卷积神经网络和距离监督的关系抽取方法 | |
CN109213856A (zh) | 一种语义识别方法及系统 | |
CN105930362A (zh) | 搜索目标识别方法、装置及终端 | |
CN109446328A (zh) | 一种文本识别方法、装置及其存储介质 | |
CN104142831B (zh) | 应用程序搜索方法及装置 | |
CN108170708B (zh) | 一种车辆实体识别方法、电子设备、存储介质、系统 | |
CN108304424A (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN206639220U (zh) | 一种便携式同传设备 | |
CN110276080A (zh) | 一种语义处理方法和系统 | |
WO2021042527A1 (zh) | 字符识别方法、装置及计算机可读存储介质 | |
CN101505328A (zh) | 应用语音识别的网络数据检索方法及其系统 | |
CN110223134A (zh) | 基于语音识别的产品推荐方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190910 |