CN102779149B - 信息处理装置,信息处理方法和信息处理系统 - Google Patents
信息处理装置,信息处理方法和信息处理系统 Download PDFInfo
- Publication number
- CN102779149B CN102779149B CN201210135871.5A CN201210135871A CN102779149B CN 102779149 B CN102779149 B CN 102779149B CN 201210135871 A CN201210135871 A CN 201210135871A CN 102779149 B CN102779149 B CN 102779149B
- Authority
- CN
- China
- Prior art keywords
- search
- text
- information
- statement
- search condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 230000010365 information processing Effects 0.000 title claims description 28
- 238000003672 processing method Methods 0.000 title claims description 18
- 238000004458 analytical method Methods 0.000 claims abstract description 143
- 238000000034 method Methods 0.000 claims abstract description 129
- 230000008569 process Effects 0.000 claims abstract description 114
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000000605 extraction Methods 0.000 claims abstract description 61
- 238000013508 migration Methods 0.000 claims description 16
- 230000005012 migration Effects 0.000 claims description 16
- 239000000284 extract Substances 0.000 claims description 11
- 238000012360 testing method Methods 0.000 claims description 9
- 230000015572 biosynthetic process Effects 0.000 claims description 7
- 238000001514 detection method Methods 0.000 claims description 4
- 239000000203 mixture Substances 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 4
- 230000006870 function Effects 0.000 description 33
- 238000004891 communication Methods 0.000 description 31
- 238000013519 translation Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 15
- 238000003860 storage Methods 0.000 description 14
- 238000012986 modification Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 4
- 210000005240 left ventricle Anatomy 0.000 description 4
- 208000010125 myocardial infarction Diseases 0.000 description 4
- 241001269238 Data Species 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 230000036651 mood Effects 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 238000002560 therapeutic procedure Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000009897 systematic effect Effects 0.000 description 2
- 101150012579 ADSL gene Proteins 0.000 description 1
- 102100020775 Adenylosuccinate lyase Human genes 0.000 description 1
- 108700040193 Adenylosuccinate lyases Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012913 prioritisation Methods 0.000 description 1
- 238000011112 process operation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
提供了一种信息处理装置,包括:用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化的搜索对象文本的搜索条件的文本信息;用于针对搜索条件信息执行语言分析处理的语言处理单元;用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;用于生成反映根据搜索条件信息的语句结构对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;以及用于利用生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与搜索条件相匹配的文本的搜索单元。
Description
背景技术
本公开涉及信息处理装置、信息处理方法、程序和信息处理系统。
随着信息处理技术的发展,可以处理大量的信息。因此,研究了用于管理大量信息和根据需要在所管理的信息之间搜索特定信息的技术。
例如,在各种网页搜索服务器中,实现了允许用户输入关键字并在所管理的信息中提供与上述关键字匹配的信息的服务,上述关键字与用户需要对其搜索信息的主题相关。然而,在该技术中,由于提取与输入的关键字匹配的所有信息,需要用户使用新的关键字来缩减提取的信息以获得需要的信息。
另外,研究了在逻辑表达的基础上输入多个关键字、搜索信息和缩减提取的信息的技术。然而,为了在搜索信息时产生搜索逻辑表达,用户必须理解逻辑表达。
为了解决以上问题,研究了接收自然句输入作为信息搜索询问以搜索信息、分析输入的自然句、以及从存储的文档文件中提取信息的技术(例如,参考日本专利公开第2010-79915号公报)。
发明内容
然而,在日本专利公开第2010-79915号公报公开的技术中,由于所有与输入的自然语句相似的语句均被提取,提取出的信息并未被充分缩减。由于此原因,需要一种在保持信息搜索的可操作性的同时对搜索到的信息进行缩减的技术。
根据本公开的一种实施例,提供了一种信息处理装置,包括用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;用于针对搜索条件信息执行语言分析处理的语言处理单元;用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;用于根据搜索条件信息的语句结构生成反映用于对搜索对象文本进行搜索的 搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;以及用于利用生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与搜索条件相匹配的文本的搜索单元。
根据本公开的另一实施例,提供了一种信息处理方法,该方法包括:获取搜索条件信息,搜索条件信息是指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;针对搜索条件信息执行语言分析处理;利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构;根据搜索条件信息的语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式;以及利用生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与搜索条件相匹配的文本。
根据本公开的另一实施例,提供了一种程序,使计算机实现:搜索条件信息获取功能,用于获取搜索条件信息,搜索条件信息是指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;针对搜索条件信息来执行语言分析处理的语言处理功能;利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取功能;根据搜索条件信息的语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成功能;以及利用生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与搜索条件相匹配的文本的搜索功能。
根据本公开的另一实施例,提供了一种信息处理系统,包括:信息搜索服务器,包括用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;用于针对搜索条件信息执行语言分析处理的语言处理单元;用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;用于根据搜索条件信息的语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;以及用于利用生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与搜索条件相匹配的文本的搜索单元;以及生成搜索条件信息并将生成的搜索条件信息输出到信息搜索服务器的用户操作终端。信息搜索服务器将关于从用户操作终端输出的搜索条件信息的搜索结果输出至用户操作终端。
根据以上描述的本公开的实施例,获取搜索条件信息,搜索条件信息 为指示搜索条件的文本信息,该搜索条件用于搜索根据格结构进行结构化后的搜索对象文本,关于获得的搜索条件信息执行语言分析处理,且利用搜索条件信息的语言分析结果提取搜索条件信息的语句结构。然后,生成反映搜索条件信息的语句结构的搜索表达式,搜索条件信息用于根据搜索条件信息的语句结构来对搜索对象文本进行搜索,并根据搜索条件信息的语句结构,利用生成的搜索表达式,从搜索对象文本中搜索与搜索条件相匹配的文本。
根据以上描述的本公开的实施例,搜索出的信息可被缩小范围,同时保证了信息搜索的可操作性。
附图说明
图1是示出根据本申请第一实施例的信息处理装置的配置的框图;
图2是示出根据第一实施例的语言处理单元的配置的例子的框图;
图3是示出根据第一实施例的搜索对象数据生成单元的配置的例子的框图;
图4是示出搜索对象文本的例子的图;
图5A是示出根据第一实施例的语言分析处理的例子的图;
图5B是示出根据第一实施例的语言分析处理的例子的图;
图5C是示出根据第一实施例的语言分析处理的例子的图;
图6是示出根据第一实施例的语句构建处理的图;
图7是示出根据第一实施例的语句构建处理的图;
图8是示出根据第一实施例的语句构建处理的图;
图9是示出根据第一实施例的时序事实数据的图;
图10是示出根据第一实施例中搜索索引的图;
图11是示出根据第一实施例的搜索逻辑表达生成处理的图;
图12是示出根据第一实施例的文本搜索处理的图;
图13是示出根据第一实施例的文本搜索处理的图;
图14是示出根据第一实施例的搜索结果的显示处理的图;
图15是示出根据第一实施例的文本搜索处理的图;
图16是示出根据第一实施例的文本搜索处理的图;
图17是示出根据第一实施例的搜索结果的显示处理的图;
图18是示出根据第一实施例的搜索结果的显示处理的图;
图19是示出根据第一实施例的搜索结果的显示处理的图;
图20是示出根据第一实施例的信息处理方法的流程例子的流程图;
图21是示出根据第一实施例的信息处理方法的流程例子的流程图;
图22是示出根据第一实施例的信息处理方法的流程例子的流程图;
图23是示出根据第一实施例的信息处理装置的第一改进的图;以及
图24是示出根据本公开实施例的信息处理装置的硬件配置的框图。
具体实施方式
下面参照附图来详细说明本发明的优选实施例。应当注意到,在本说明书和附图中,具有基本相同功能和配置的结构元件均用相同的附图标记来标示,并且省略了对这些结构元件的重复说明。
以下说明将按照如下顺序进行。
(1)第一实施例
(1-1)目的
(1-2)信息处理装置的配置
(1-3)信息搜索处理的具体例子
(1-4)信息处理方法的流程
(1-5)第一修改
(2)根据本公开实施例的信息处理装置的硬件配置
(3)结论
(第一实施例)
在以下实施例中,主要将搜索对象文本描述为有关医疗信息的各种文本数据。作为有关医疗信息的文本数据,已知的有计算机化的医疗保健信息以及各种计算机化的文本信息,其中计算机化的医疗保健信息例如是电 子病历、临床流程(clinical pass)、出院小结(出院摘要),各种计算机化的文本信息例如是来自网络如互联网上的协会的医疗报告。与一般文本例如小说不同,医疗信息文本包括形式是以时间顺序(时间序列)排列的事实的描述的语句。
然而,可被根据本公开实施例的信息处理装置和信息处理方法搜索的搜索对象文本不限于与医疗信息相关的各种文本数据,与各类主题相关的文本数据均可被搜索。
作为各类主题,已知家电相关主题、运动相关主题、观光相关主题以及烹饪相关主题。对于存在语言代码信息(例如,国际医疗代码)的主题,可恰当地检索文本数据,在语言代码信息中特定词或词组以及给予该词或词组的唯一识别信息相互关联,例如各类主题中的医疗信息、有关家电的信息或所谓的语言本体信息。
<目的>
以下在描述本发明第一实施例的信息处理装置和信息处理方法之前,首先简述本发明的该实施例的目的。
已提出多种搜索医疗信息文本的技术并投入实际使用。在一种已投入实际使用的医疗信息搜索系统中,使用关键字来进行搜索,且可搜索到如包括该关键字的病历的医疗信息。然而,尽管在关键字级别上执行搜索时可提取包括该关键字的医疗信息,即使搜索药物的名称,也需要用户从获得的搜索结果确定使用该药物的病例并缩减病例。
另外,可通过将多个关键字通过逻辑表达组合起来、生成搜索询问并在搜索时使用该搜索询问来搜索缩减了的信息。然而,在这种情况下,因为需要用户悉知逻辑表达以生成搜索询问,用户使用上述系统有难度。
日本专利公开第2010-79915号公报中披露了一种利用自然语句进行信息搜索的技术,该技术可应用于医疗信息文本的搜索。然而,在日本专利公开第2010-79915号公报披露的该技术没有考虑自然语句中的时间状态或者时间流。因此,不能确定药物治疗顺序,也不能确定病例是过去的病例还是未来的病例。因此,通过是否包括单词使用相似度来进行搜索。
因此,发明人认真地研究了在搜索如医疗信息文本等的文本数据时对用户维持操作便捷性的同时缩减信息的技术,以解决上述问题。
结果,发明人设计了一种通过考虑作为信息搜索询问输入的自然语句的时间状态或时间流,来在维持用户操作便捷性的情况下缩减信息的技 术,如以下所述。
根据本发明实施例,提供一种信息处理装置,包括:搜索条件信息获取单元,用于获取搜索条件信息,该搜索条件信息为指示用于搜索根据格结构被结构化的搜索对象文本的搜索条件的文本信息;语言处理单元,用于针对所述搜索条件信息执行语言分析处理;结构提取单元,用于使用所述搜索条件信息的语言分析结果来提取所述搜索条件信息的语句结构;搜索表达式生成单元,用于根据所述搜索条件信息的所述语句结构生成搜索表达式,所述搜索表达式反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构;以及搜索单元,用于利用生成的搜索表达式,根据所述搜索条件信息的语句结构来从所述搜索对象文本搜索与所述搜索条件相匹配的文本。
根据本发明另一实施例,提供一种信息处理系统,包括:信息搜索服务器,包括用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;用于针对搜索条件信息执行语言分析处理的语言处理单元;用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;用于根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;以及用于利用所述生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本的搜索单元;以及生成所述搜索条件信息并将生成的所述搜索条件信息输出到信息搜索服务器的用户操作终端,其中,所述信息搜索服务器将关于从用户操作终端输出的搜索条件信息的搜索结果输出至用户操作终端。
<信息处理装置的配置>
首先,参照附图1来对本发明第一实施例的信息处理装置的配置进行详细描述。图1为示出根据该实施例的信息处理装置10的配置的框图。
如图1所示,信息处理装置10主要包括总控制单元101、搜索对象文本获取单元103、语言处理单元105、文本结构提取单元107、搜索对象数据生成单元109、搜索条件信息获取单元111、搜索逻辑表达式生成单元113、数据搜索单元115、显示数据选择单元117、显示控制单元119以及存储单元121。
总控制单元101由中央处理单元(CPU)、只读存储器(ROM)、随 机存取存储器(RAM)以及通信设备实现。总控制单元101是本实施例中对由信息处理装置10执行的各种处理进行总的控制的处理单元。根据本实施例的信息处理装置10实现的各种功能通过在总控制单元101的控制下由图1中所示的各个处理单元执行处理来实现。总控制单元101可执行各种处理并实现信息处理装置10提供的各种功能。
搜索对象文本获取单元103由CPU,ROM,RAM以及通信设备实现。搜索对象文本获取单元103从信息处理装置10中包括的存储设备中的预设存储区域、可与信息处理装置10进行通信的装置或者如CD、DVD或蓝光盘的各种记录介质获取要搜索的文本数据(搜索对象文本)。在这种情况下,可与信息处理装置10进行通信的装置可以是连接到网络如因特网、局域网和家庭网络的各种装置,且可以通过各种线缆或无线通信与根据本实施例的信息处理装置10直接连接。
以下,将由搜索对象文本获取单元103获取的各种搜索对象文本描述为未根据格结构(case structure)进行结构化的文本(以下称为非结构化文本)。
如果搜索对象文本获取单元103从预设存储区域、各种装置或各种记录介质获取搜索文本,搜索对象文本获取单元103将获取到的数据输出至总控制单元101。总控制单元101将由搜索对象文本获取单元103输出的数据输出至下述语言处理单元105,并开始根据格结构将非结构化文本结构化的一系列处理。
语言处理单元105由CPU、ROM、RAM和通信设备实现。语言处理单元105关于由总控制单元101通知的未结构化文本或者由将在下文描述的搜索条件信息获取单元111获取的形成搜索条件信息的各语句使用各种分析方法执行语言分析处理。进而,根据本实施例的信息处理装置10可分析未结构化文本或包括在搜索条件信息中的各语句的格结构,并提取与未结构化文本或形成搜索条件信息的各语句有关的其他信息。
如图2所示,语言处理单元105进一步包括词素分析单元131,句法分析单元133,语义分析单元135,文本翻译单元137和词典文件存储单元139。
词素分析单元131由CPU、ROM、RAM以及通信设备实现。词素分析单元131是对由总控制单元101通知的各种文本(即非结构化文本以及由用户输入的关于搜索条件的搜索条件信息)进行词素分析的处理单 元。因此,由总控制单元101通知的各个文本被划分为多个词素。在这种情况下,词素是实际语句中表示的最小意义单位。通过将非结构化文本或者关于搜索条件的文本划分成词素单位,可指定语句中包括的单词的词类。
已提出用于执行词素分析的各种算法,且词素分析单元131可用任意算法来执行词素分析。
如果针对各文本的词素分析结束,词素分析单元131将关于获得的分析结果的信息(关于语句中包括的单词和单词的词类的信息)输出至总控制单元101和以下即将描述的句法分析单元133。词素分析单元131可将关于获得的分析结果的信息存储到存储单元121中。信息处理装置10中包括的各处理单元可适当地使用与词素分析单元131获得的分析结果有关的信息。
句法分析单元133由CPU、ROM、RAM以及通信设备实现。句法分析单元133是对由总控制单元101通知的有关各文本的数据执行句法分析(解析)的处理单元。句法分析单元133利用与由词素分析单元131的词素分析的分析结果有关的信息,对形成各文本的语句进行语法分析,并将语句划分成多个短语。因此,可指定各文本中包括的单词的语法功能,并且可确定单词和格之间的修饰关系。
已提出用于执行句法分析的各种算法,句法分析单元133可用任意算法来进行句法分析。
由句法分析单元确定的格的类型如下表1所示。表1所示的格为示范性的,可恰当地使用句法分析单元133采用的算法所输出的格。
[表1]
如果针对由总控制单元101通知的各文本中包括的语句的句法分析结束,句法分析单元133将关于获得的分析结果的信息(指示语句中的格和单词之间的对应关系的信息)输出至总控制单元101和下述语义分析单元135。句法分析单元133可将关于获得的分析结果的信息存储到存储单元121中。信息处理装置10中包括的各处理单元均可恰当使用有关句法分析单元133的句法分析的分析结果的信息。
语义分析单元135由CPU、ROM、RAM和通信设备实现。语义分析单元135是对与总控制单元101通知的各文本相关的数据执行语义分析的处理单元。语义分析单元135使用与词素分析单元131和句法分析单元133的分析结果相关的信息来分析总控制单元101通知的文本,并指定语句中包括的单词之间的语义关系。因此,语义分析单元135可理解由总控制单元101通知的各文本中包括的各语句的概念,并指定有关各语句的情态。
在这种情况下,情态示出了主语对语句指示的内容的决定或看法。情态的例子包括表示时态,表示逻辑(与,或,非),表示希望或命令,表示操作的持续、重复以及完成。
已提出用于执行语义分析的各种算法,且语义分析单元135可用任意算法来进行语义分析。
如果对各文本的语义分析结束,语义分析单元135将与获得的分析结果相关的信息输出至总控制单元101。语义分析单元135可将与获得的分析结果相关的信息存储到存储单元121中。
如果从词素分析单元131、句法分析单元133和语义分析单元135中的每个输出与分析结果相关的信息,总控制单元101收集与获得的分析结果相关的信息并将该信息输出至下述文本结构分析单元107。
在词素分析单元131、句法分析单元133和语义分析单元135对各文本数据进行分析时,词素分析单元131、句法分析单元133和语义分析单元135可使用存储在下述词典文件存储单元139中的各个词典文件,或者使用如因特网的网络中存在的各种词典文件。
文本翻译单元137由CPU、ROM、RAM和通信设备实现。文本翻译单元137是关于总控制单元101通知的各个文本的至少一部分、将用于文本标注的语言转换为另一种语言的处理单元。用于文本标注的语言的翻译后语言不受特别限制。但是,可通过将翻译后的语言设置为如英语的官方国际语言,从而实现全球文本搜索。
已提出用于执行文本翻译的各种算法,文本翻译单元137可用任意算法来进行翻译处理。
在文本翻译单元137对各个文本数据执行翻译处理时,文本翻译单元137可使用存储在下述词典文件存储单元139中的各个词典文件,或者使用如因特网的网络上的各种词典文件。
如果对文本的翻译处理结束,文本翻译单元137将有关获得的翻译结果的信息输出至总控制单元101中。文本翻译单元137可将有关获得的翻译结果的信息存储到存储单元121中。
语言处理单元105中的各处理单元在执行分析处理或翻译处理时使用的各个词典文件存储在词典文件存储单元139中。词典的例子可包括有关词素的数据库、单词词典、概念词典。词典可以由各处理单元共同使用或者可专用于各处理单元。词典可以是不考虑当前文本的类型而使用的多功能词典,或者也可以是为每个类型的文本准备且专用于每个类型的词典。
已经参照附图2详细描述了根据本实施例的信息处理装置10中包括的语言处理单元105的配置。
以下,回到图1,将描述根据本实施例的信息处理装置10的配置。
文本结构提取单元107由CPU、ROM、RAM和通信设备实现。文本结构提取单元107使用与总控制单元101通知的非结构化文本或搜索条件信息有关的语言分析结果提取非结构化文本或搜索条件信息的语句结构。另外,文本结构提取单元107采用从语言分析结果获得的格结构将非结构化文本或形成搜索条件信息的各语句进行结构化,并生成结构化数据。
具体而言,文本结构提取单元107将包括在非结构化文本或形成搜索条件信息的各语句的各个短语与表示各短语功能的信息(例如,表示各短语是名词短语,动词短语,谓语从句等的信息)以及表示与各短语相对应的格的信息关联起来,并在语言分析结果的基础上生成短语信息。另外, 文本结构提取单元107基于有关提取出的语句结构的知识对生成的短语信息进行关联。通过该处理,文本结构提取单元107指定非结构化文本或形成搜索条件信息的各语句的谓语结构,并对每个语句进行结构化。
如果存在与搜索对象文本的内容相匹配的语言代码信息,文本结构提取单元107在非结构化文本或搜索条件信息被结构化时使用语言代码信息来对文本进行结构化。
在这种情况下,语言代码信息是词或者词组和给予该词或词组的唯一识别信息(此处称为语言代码)互相关联的信息组。作为语言代码信息,与特定内容有关地构造的各种数据库或关于特定内容的各种本体可作为示例。
当搜索对象文本或者形成搜索条件信息的语句中的语言代码信息中包括词或词组时,文本结构提取单元107用语言代码来代替该词或词组及短语信息。因此,在语言代码是国际标准代码时,标注的摇摆可被吸收,且同样的事实可以以相同的结构表示而不依赖于语言。结果,可实现不依赖于语言的语义概念级别的格结构,进而对搜索对象文本的搜索准确性得以提高。
此处,在本实施例考虑的医疗相关主题中,以ICD-10或SNOMED表示的国际医疗代码可用作语言代码信息。
文本结构提取单元107可使用任意系统来表示搜索对象文本或者搜索条件信息的谓语结构,如以下将详细描述的逻辑表达式、特征结构系统和全球文件注释(GDA)系统。
当文本结构提取单元107对搜索对象文本或者搜索条件信息进行结构化时,文本结构提取单元107可能会忽略不包括语言代码的修饰树(树结构)。然而,当在高等级的修饰树中存在包括语言代码的修饰树时,仅修饰结构将作为结构化之后的数据被保留而单词信息可被忽略。因此,可实现专用于与语言代码信息对应的主题的结构化。
在这种情况下,不忽略修饰树结构是优选的,因为修饰树结构对有关时间格的搜索处理是有用的。然而,与其它的格信息类似,修饰树的结构可以被忽略。在比较搜索条件信息的结构化数据时,可以忽略或不忽略的格信息可成为比较对象,或从比较对象排除。
文本结构提取单元107可以与语言处理单元105协作地将与时间格相对应的符号翻译成例如英语的官方国际语言(国际标准语言),并保持该 标注以使得能够进行标注级别的比较。
如果文本结构提取单元107停止提取语句结构和对文本进行结构化,并生成其中谓语结构被表示的结构化数据,文本结构提取单元107将获得的结构化数据输出至总控制单元101。
搜索对象数据生成单元109由CPU、ROM、RAM和通信设备实现。搜索对象数据生成单元109利用经文本结构提取单元107根据格结构结构化后的文本(结构化文本)来生成文本搜索处理中使用的搜索对象数据。
如果总控制单元101将关于搜索对象文本的结构化文本通知至搜索对象数据生成单元109,首先,搜索对象数据生成单元109对搜索对象文本提供指定搜索对象文本的唯一的识别信息(以下称为文本识别信息)。另外,搜索对象数据生成单元109生成与通知的搜索对象文本有关的时序事实数据并生成用于搜索由根据本实施例的信息处理装置10管理的搜索对象文本的搜索索引。
如图3所示,搜索对象数据生成单元109还包括时序事实数据生成单元141和搜索索引生成单元143。
时序事实数据生成单元141由CPU、ROM、RAM和通信设备实现。时序事实数据生成单元141基于文本结构提取单元107的处理结果,从形成关注的搜索对象文本的语句中提取包括语言代码的语句,按照语句的出现顺序累积与所提取语句相对应的谓语结构,并生成时序事实数据。
时序事实数据生成单元141将唯一的识别信息(以下称为语句识别信息)提供给形成时序事实数据的每个谓语结构。因此,可使用文本识别信息和语句识别信息来唯一地指定包括在时序事实数据中的各语句。
在根据本实施例的信息处理装置10中,形成搜索对象文本的语句的时间序列中的谓语结构的迁移被确定为搜索对象文本的主题的迁移。当与时间格对应的短语包括在形成文本的语句中时,可考虑时间格的改变来确定主题的迁移。在根据本实施例的信息处理装置10中,可通过生成时序事实数据并在对文本的搜索处理中使用该时序事实数据来容易地搜索基于被指定为搜索条件的主题的迁移的文本。
搜索索引生成单元143由CPU、ROM、RAM和通信设备实现。搜索索引生成单元143基于文本结构提取单元107的处理结果和时序事实数据生成单元141的处理结果来生成文本搜索处理中使用的搜索索引。
根据结构化后的文本中的语言代码生成搜索索引,且指定包括某语言 代码的语句的特定信息与该某语言代码关联。此时,谓语的文本识别信息和语句识别信息用作指定语句的特定信息。也就是说,由搜索索引生成单元143生成的搜索索引用作与每个语言代码有关的内容信息,其示出各语言代码、各搜索对象文本和各语句之间的描述关系。
如果总控制单元101将新搜索对象文本的结构化数据通知至搜索索引生成单元143,搜索索引生成单元143将用于指定新通知的搜索对象文本中包括的语言代码或包括该语言代码的语句的特定信息添加到已有的搜索索引。执行上述处理,且生成根据本实施例的信息处理装置10管理的关于搜索对象文本的搜索索引。
包括时序事实数据以及如上所述生成的搜索索引的搜索对象数据存储在预定的存储区域例如存储单元121内。
已经参照图3详细描述了根据本实施例的信息处理装置10中包括的搜索对象数据生成单元109的配置。
以下,回到图1,将描述根据本实施例的信息处理装置10的配置。
搜索条件信息获取单元111由CPU,ROM,RAM,输入设备和通信设备实现。搜索条件信息获取单元111获取搜索条件信息,搜索条件信息是用户使用输入设备如键盘、鼠标和触摸笔输入的文本信息,且示出用于对搜索对象文本进行搜索的搜索条件。如果搜索条件信息获取单元111获取搜索条件信息,则搜索条件信息获取单元111将获取的搜索条件信息输出至总控制单元101。总控制单元101将搜索条件信息获取单元111输出的搜索条件信息输出到搜索逻辑表达式生成单元113。因而,开始了从搜索对象文本搜索与搜索条件匹配的文本的搜索处理。
作为搜索表达式生成单元的例子的搜索逻辑表达式生成单元113由CPU、ROM和RAM实现。如果总控制单元101将由搜索条件信息获取单元111获得的搜索条件信息通知至搜索逻辑表达式生成单元113,搜索逻辑表达式生成单元113通过总控制单元101请求语言处理单元105执行对通知的搜索条件信息的语言处理。如果语言处理单元105将搜索条件信息的语言分析结果通知至搜索逻辑表达式生成单元113,搜索逻辑表达式生成单元113通过总控制单元101请求文本结构提取单元107提取搜索条件信息的语句结构。如果文本结构提取单元107将语句结构的分析结果通知至搜索逻辑表达式生成单元113,搜索逻辑表达式生成单元113根据搜索条件信息的语言分析结果和搜索条件信息的语句结构生成对搜索对象 文本进行搜索的搜索逻辑表达式,搜索对象文本包括搜索条件信息中包括的文本的语句结构。
在这种情况下,从搜索条件信息的语言分析结果和搜索条件信息的语句结构生成搜索逻辑表达式的处理与通过文本结构提取单元107执行的非结构化文本的结构化处理相同。通过该处理,搜索逻辑表达式生成单元113将与搜索条件信息对应的文本进行结构化。
如果搜索逻辑表达式生成单元113生成与总控制单元101通知的搜索条件信息对应的搜索逻辑表达式,搜索逻辑表达式生成单元113将生成的搜索逻辑表达式输出至总控制单元101。总控制单元101将从搜索逻辑表达式生成单元113输出的搜索逻辑表达式输出至下述数据搜索单元115。
作为搜索单元的示例的数据搜索单元115由CPU、ROM和RAM实现。数据搜索单元115使用搜索逻辑表达式生成单元113生成的搜索逻辑表达式,并根据搜索条件信息的语句结构,在搜索对象文本中搜索与搜索条件匹配的文本。当搜索条件信息中包括多个语句时,数据搜索单元115将包括在搜索条件信息中的语句的谓语结构的迁移确定为搜索条件信息中主题的迁移,并基于主题的迁移对搜索对象文本中与搜索条件匹配的文本进行搜索。
数据搜索单元115可使用与搜索条件信息对应的文本的一部分在搜索对象文本的结构单元中执行搜索。
具体地,数据搜索单元115参考由搜索对象数据生成单元109生成的搜索索引,并确定搜索逻辑表达式中包括的语言代码是否在搜索索引中。当搜索逻辑表达式中包括的语言代码在搜索索引中时,数据搜索单元115参考与语言代码相关联的特定信息(文本识别信息和语句识别信息)来获得对应语句的结构化数据(其中谓语结构被表示的数据),并将结构化数据作为候选数据进行累积。
如果数据搜索单元115参考搜索索引,并提取关于搜索逻辑表达式中包括的语言代码的所有候选,数据搜索单元115将由搜索逻辑表达式表示的结构化数据和候选数据进行比较,并按照具有相似语句结构的数据的顺序计算成本(即添加加权信息)。
在这种情况下,全扫描算法,O(ND)算法和O(NP)算法作为比较数据搜索单元115使用的数据的算法而已知。然而,除了上述算法,还可以采用其他方法。
当数据搜索单元115比较数据时,数据搜索单元115将与谓语具有直接修饰关系的语句结构的水平定义为第一水平,将修饰第一水平的各元素的短语定义为第二水平,并将修饰第二水平的定义为第三水平。通过在之后以相同的方式顺序执行上述处理,数据搜索单元115将结构化数据分层为多个等级。然后,数据搜索单元115对每个等级(水平)的符合率设置阈值,并计算搜索逻辑表达式和候选数据的相似度。相似度表示候选数据的优先级。
由数据搜索单元115搜索的关于候选数据的信息通过总控制单元101被传送到显示数据选择单元117。
作为选择单元的例子的显示数据选择单元117由CPU、ROM和RAM实现。显示数据选择单元117从数据搜索单元115搜索出的文本中选择作为搜索结果输出的文本。
例如,显示数据选择单元117根据与包括在搜索条件信息中的文本相对应的搜索逻辑表达式的语句结构的相似度,以高相似度(或者低相似度)的顺序选择作为搜索结果输出的文本。也就是说,显示数据选择单元117利用候选数据中描述的文本识别信息和语句识别信息在由根据本实施例的信息处理装置10管理的搜索对象文本中搜索文本,并按高相似度(或者低相似度)的顺序选择作为搜索结果的文本。
如果显示数据选择单元117利用由数据搜索单元115检测的候选数据指定与搜索逻辑表达式相似的语句,显示数据选择单元117可将出现在与搜索逻辑表达式相似的语句之前的语句或者出现在该相似的语句之后的语句作为搜索结果输出。此时,显示数据选择单元117可显示所有语句或者仅显示对应语句的预定部分。
当关于作为搜索结果输出的文本存在用户指定的语句时,显示数据选择单元117可关于在被指定语句之前或之后出现的语句中包括的主题执行各种统计处理,并输出获得的统计处理结果。
具体地,当关于作为搜索结果输出的文本存在用户指定的语句时,显示数据选择单元117指明在被指定语句之前或之后出现的语句,并将指明的结果输出到总控制单元101。总控制单元101分别请求语言处理单元105和文本结构提取单元107关于显示数据选择单元117通知的语句执行语言分析处理和文本结构提取处理。因此,与上述情况类似,显示数据选择单元117通知的语句被结构化。
如果显示数据选择单元117获取关于出现在由用户指定的语句之前或之后的语句的结构化数据,显示数据选择单元117提取包括在结构化数据内的语言代码,并关于与语言代码相对应的主题执行各种统计处理。
此时,显示数据选择单元117可仅选择与参考的结构化数据中首次出现的语言代码对应的主题作为统计处理对象,或者选择与包括在参考的结构化数据中的多个语言代码对应的多个主题作为统计处理对象。
当显示数据选择单元117执行统计处理时,显示数据选择单元117优选地将与宾格和谓语中的至少一个相关联的语言代码作为统计处理对象的主题进行处理。显示数据选择单元117可选择与除谓语和宾格之外的其它格相关联的语言代码作为统计处理对象,或从统计处理对象排除该语言代码。
在以上描述中,显示数据选择单元117基于由用户指定的搜索结果的一部分执行统计处理。然而,显示数据选择单元117可通过显示控制单元119来显示搜索条件信息,从显示的搜索条件信息中指定用户考虑的部分,并将该部分选择为统计处理对象。显示数据选择单元117可对用户输入的作为搜索对象的整个搜索条件信息执行统计处理。显示数据选择单元117可使用上述方法之外的任何方法来指定统计处理对象。
另外,显示数据选择单元117可参考由信息处理装置10存储的各种数据,并显示与搜索结果对应的数据。因此,显示数据选择单元117可显示与搜索结果对应的图像数据或显示其他文本数据。
由显示数据选择单元117选择的数据或者由统计处理获取的数据被输出至总控制单元101,并在下述显示控制单元119的显示控制下显示在显示设备(图中未示出)上,显示设备如包括在信息处理装置10中的显示器或设置在可与信息处理装置10通信的装置中的显示设备(图中未示出)。
显示控制单元119由CPU、ROM、RAM、输出设备和通信设备实现。显示控制装置119对从搜索对象文本检测的检测结果(例如检测到的文本或者统计处理结果)进行显示控制。
显示控制单元119可对检测结果中具有与搜索条件信息相似结构的位置进行强调显示,或者对检测结果中具有与搜索条件信息相似结构的位置之前或之后的位置进行强调显示。
作为强调处理,对相对应位置进行反转和显示的处理或者对相对应位 置进行阴影化和显示的处理是示例。强调处理是示例性的,可采用其他已知的强调方法。
存储单元121是包括在根据本实施例的信息处理装置10中的存储设备的例子。由信息处理装置10保持的实体数据或者搜索对象数据的各种语言代码信息存储在存储单元121中。由语言处理单元105、文本结构提取单元107、搜索对象数据生成单元109和显示数据选择单元117的处理获取的各种信息存储在存储单元121中。
各种历史信息、如与搜索对象文本的搜索结果相关的历史信息可记录在存储单元121中。各种数据库和在根据本实施例的信息处理装置10执行任意处理或该处理的中间过程时必须存储的各种参数被适当地记录在存储单元121中。在存储单元121中,信息处理单元10的每个处理单元可自由地写入或读取数据。
已经描述了根据本实施例的信息处理装置10的功能的例子。可通过各种构件或电路配置结构组件,还可通过专用于结构元件的功能的硬件来配置结构组件。结构元件的所有功能都可由CPU执行。因此,可根据在执行本实施例时的技术水平来恰当地改变所使用的配置。
用来实现根据本实施例的具有上述配置的信息处理装置的功能的计算机程序可被研制并安装到个人计算机上。可提供装有该计算机程序的计算机可读记录介质。例如。记录介质可以是磁盘、光盘、磁光盘或闪存。该计算机程序可通过网络来发布,而不使用记录介质。
根据本发明实施例,提供一种一种信息处理方法,包括:获取搜索条件信息,所述搜索条件信息是指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;针对搜索条件信息执行语言分析处理;利用所述搜索条件信息的语言分析结果来提取所述搜索条件信息的语句结构;根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式;以及利用所述生成的搜索表达式,根据所述搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本。
<信息搜索处理的具体例子>
接下来,将参照图4-19来具体描述根据本实施例的信息处理装置10执行的信息搜索处理,作为上述信息处理方法的例子。
[搜索对象数据生成处理]
首先,将具体描述搜索对象数据生成处理。
在以下解释中,考虑电子病历、临床流程、出院小结表示的计算机化的医疗信息和各种计算机化的文本如来自网络上的协会的医疗报告。
如果信息处理装置10的搜索对象文本获取单元103获取与医疗信息对应的非结构化文本的数据,搜索对象文本获取单元103将获取到的数据输出到总控制单元101。总控制单元101将从搜索对象文本获取单元103输出的关于医疗信息的数据输出到语言处理单元105。语言处理单元105使用医疗信息执行词素、句法、语义分析,并生成各种分析结果。当信息处理装置10获取如图4所示的医疗信息时,信息处理装置10对形成如图4所示的医疗信息的各语句执行语言分析处理,并获取如图5A-5C所示的分析结果。
如果图4所示的非结构化文本由语言处理单元105的词素分析单元131进行分析,如图5A所示,每个语句被划分成词素并指明其词类。句法分析单元133可利用词素分析单元131的分析结果来获取与如图5B所示的句法分析结果(即,修饰树)相关的知识。语义分析单元135利用词素分析结果和句法分析结果进行语义分析,并产生如图5C所示的结果。
如果语言处理单元105生成如图5A到5C所示的分析结果,语言处理单元105将生成的分析结果输出到文本结构提取单元107。文本结构提取单元107基于分析结果对语句进行结构化。因此,语句被结构化,且生成作为与搜索匹配的逻辑表达式的逻辑表达式数据。
例如,在非结构化文本中存在图6的上部示出的语句“他在五年前患上了左心室前壁心肌梗塞,从而被收治住院”。该语句由语言处理单元105分析,且指明图6中部所示的修饰树和格结构。文本结构提取单元107利用知识生成如图6下部所示的逻辑表达式数据。在图6下部所示的逻辑表达式数据中,括号“{}”表示短语的修饰关系,圆括号“()”表示短语的信息。如图6所示,短语的信息包括短语的特定标注、有关短语的词类的信息的短语信息、表示该短语的格的格信息及其属性。
文本结构提取单元107使用在存储单元121中存储的作为语言代码信息的国际医疗代码吸收标注的摇摆。
如图7所示,文本结构提取单元107用“T32600”来代替短语“他的左心室前壁”,使用与短语“左心室”相关联的语言代码作为该短语的较高概念。因为示出短语“他的左心室前壁”是“名词短语”的信息可能 不能利用国际医疗代码来保存,与对应部分相对应的短语信息被转换为结构化数据“(T32600,形容名词)”。
同样地,文本结构提取单元107用标识号“[ICD-9=410,M54700]”代替短语“心肌梗塞”,用标识号“P0020”代替短语“被收治住院”。
这样,在根据本实施例的信息处理装置10中,符号的摇摆可使用作为语言代码信息的国际医疗代码被吸收,并且具有相同含义的标注如“入院”和“被收治住院”可用国际医疗代码“P0020”来表示。
文本结构提取单元107可在与语言处理单元105协作时使用与时间短语“五年前”相对应的日语短语。然而,文本结构提取单元107可用作为国际标准语言的英语的短语如“five years ago”来代替日语短语,并存储该英语短语。
这样,由于文本结构提取单元107基于非结构化文本生成的结构化数据表示不基于语言的语义概念水平的格结构,同样的事实可用相同的结构表示而不依赖于语言。图8示出了与图6和图7所示的日语有相同内容的英语的结构化示例。然而,与日语的情况相似,该内容可被结构化。
如图6和图7所示,当使用国际医疗代码执行结构化时,可忽略不包括国际医疗代码的修饰树。图7中的部分“(,原因格)”对应于相对应的部分,较高级的修饰结构与作为原因格的谓语相连接。
对每个语句执行结构化处理,并关于每个语句生成其中图7所示的谓语结构被表示的结构化数据。
接着,搜索对象数据生成单元109的时序事实数据生成单元141以语句的出现顺序排列并累积已生成的结构化数据中包括国际医疗代码的数据,并生成时序事实数据。例如,如图9的上部所示,当存在三个包括国际医疗代码的语句时,时序事实数据生成单元141按顺序累积其中与各语句对应的谓语结构被表示的结构化数据,并生成如图9的下部所示的时序事实数据。
搜索索引生成单元143参考由文本结构提取单元107生成的结构化数据,并提取包括国际医疗代码的结构化数据。然后,搜索索引生成单元143将指明包括国际医疗代码的结构化数据的特定信息添加到与包括在搜索索引中提取的结构化数据中的国际医疗数据相对应的栏。例如,当国际医疗代码“T32600”包括在与“Text_ID=17,Sentence_ID=4”对应的结构化数据中时,搜索索引生成单元143重新将“Text_ID=17, Sentence_ID=4”作为特定信息与搜索索引的国际医疗代码“T32600”相关联。对全部搜索对象文本执行相同的处理,并生成如图10所示的、由信息处理装置10管理的关于搜索对象文本的搜索索引。
通过上述处理,完成了对搜索对象文本进行搜索时使用的数据的准备。
上述处理可以在线执行或者离线执行。可以通过从现有电子病历系统或者网站上的数据进行克隆来累积用作搜索对象文本的数据。
[自然语句输入的搜索处理]
接下来,将详细描述上述处理生成的搜索对象数据的利用。
首先,详细描述作为第一利用方法的自然语句输入的搜索处理。
如果信息处理装置10的用户使用如键盘、鼠标或触摸板的输入设备输入搜索条件信息,搜索条件信息获取单元111获取该输入的搜索条件信息,并将该搜索条件信息输出至总控制单元101。搜索条件信息可以是一般关键字,或者是一个以上的自然语句。
如果搜索条件信息获取单元111将搜索条件信息通知至总控制单元101,总控制单元101将搜索条件信息输出至搜索逻辑表达式生成单元113。搜索逻辑表达式生成单元113请求语言处理单元105和文本结构提取单元107针对总控制单元101通知的搜索条件信息分别执行语言处理和结构提取处理。然后,搜索逻辑表达式生成单元113基于语言处理单元105和文本结构提取单元107的处理结果生成搜索逻辑表达式,该搜索逻辑表达式为搜索处理中使用的结构化搜索条件语句。
例如,当图11所示的文本“因心肌梗塞而住院”作为搜索条件信息被输入时,搜索逻辑表达式生成单元113利用语言处理单元105和文本结构提取单元107的处理结果来生成如图11下部所示的搜索逻辑表达式。
如果搜索逻辑表达式生成单元113生成搜索逻辑表达式,搜索逻辑表达式生成单元113将生成的搜索逻辑表达式输出至总控制单元。总控制单元101将获得的搜索逻辑表达式输出到数据搜索单元115并请求数据搜索单元115启动数据搜索处理。
数据搜索单元115基于包括在图11中的搜索逻辑表达式中的国际医疗代码来搜索存储在存储单元121中的搜索索引,获取目标语句的结构化数据,并将结构化数据作为如图12所示的候选数据来累积。如果数据搜 索单元115参考存储在存储单元121中的搜索索引并提取所有候选,数据搜索单元115比较搜索逻辑表达式与作为候选数据存储的结构化数据,并按照具有相似语句结构的数据的顺序进行加权。
图13示出了用O(ND)算法来比较搜索逻辑表达式和候选数据的例子。在图13所示的例子中,可以看出国际医疗代码“[ICD-9=410,M54700]”,短语信息“(,原因格)”和国际医疗代码“P0020”相互匹配。数据搜索单元115执行分层来将与谓语(即,短语信息“(P0020,过去时)”)具有直接修饰关系的水平定义为第一水平,将修饰第一水平中每个元素的短语定义为第二水平,并将修饰第二水平的定义为第三水平。此外,对每个水平处的符合率设定阈值,验证相似度并将该相似度用作加权分数。
数据搜索单元115将如上所述执行了加权(或者说,优先级化)后的候选数据通过总控制单元101输出至显示数据选择单元117。
显示数据选择单元117基于文本的标识和语句的标识,从医疗信息文本中以候选数据中具有高优先级的候选数据的顺序搜索文本,并将该文本输出至显示控制单元119。当显示控制单元119显示由显示数据选择单元117选择的文本时,如图14所示,显示控制单元119针对与用户输入的搜索条件信息相对应的位置执行强调处理如阴影化、颜色改变和加粗,并显示搜索结果以清晰化匹配的部分。
通过按照以上流程执行处理,可实现自然语句输入进行的文本信息搜索。在以上例子中,按照具有高优先级的数据的顺序显示数据。然而,也可以按照具有低优先级的数据的顺序显示数据。
在根据本实施例的信息搜索方法中,形成搜索对象文本的语句的谓语结构的迁移被认为是主题的迁移,且考虑主题的迁移执行搜索处理。为此,在根据本实施例的信息搜索方法中,包括具有配置“语句A→语句B→语句C→语句D→语句E”的五个语句的搜索对象文本与包括具有配置“语句A→语句B→语句D→语句C→语句E”的五个语句的搜索对象文本被识别为不同的搜索对象文本。同样地,在根据本实施例的信息搜索方法中,包括具有配置“语句A→语句B→语句C→语句D→语句E”的五个语句的搜索对象文本与包括具有配置“语句A→语句B→语句B’→语句C→语句C’→语句D—>语句E”的七个语句的搜索对象文本被识别为不同的搜索对象文本。为此,在根据本实施例的信息搜索方法中,可实现信息的缩减,而不考虑是否使能了自然语句进行的信息搜索。
[相似病例的搜索处理]
根据本实施例的信息搜索方法可实现自然语句进行的文本搜索,其中可如上所述通过利用自然语句的搜索来缩减信息。在根据本实施例的信息处理装置中,可将多个语句设置为搜索条件信息。
因此,作为搜索条件信息输入示出被关注病例的经过的多个语句。在根据本实施例的信息搜索方法中,由于如上所述执行考虑了语句的谓语结构的迁移的信息搜索,可以实现对其中发现有与搜索条件信息相同经过的病例的搜索(即相似病例的搜索)。
在这种情况下,以与“通过自然语句进行的搜索处理”相同的方式,根据本实施例的信息处理装置10针对包括在搜索条件信息中的多个语句中的每个来生成搜索逻辑表达式,并生成候选数据。然后,以与“通过自然语句进行的搜索处理”相同的方式,执行优先级化,且按具有高优先级的数据的顺序显示数据。
可对显示在信息处理装置10的显示屏上的文本(例如,网站上的文本)执行相似病例的搜索处理,且如图15所示,可对存储在信息处理装置10或网络上的各种装置的存储设备中的数据执行相似病例的搜索处理。在这种情况下,如图15所示,搜索对象文本可通过指定目录或文件来被指定。
[经过预测处理]
对病例的经过预测或对医疗方法的搜索可使用根据本实施例的信息搜索方法来执行。
如上所述,对相似病例的搜索可使用根据本实施例的信息搜索方法来实现。在这种情况下,信息处理装置10的用户可指定显示在显示屏上的任意医疗信息文本信息的一部分,关于与之前病例相似的病例搜索指定点之后的其他相似病例的医疗方法,且可提供医疗方法。
例如,如果用户通过如鼠标的输入设备指定了如图16所示显示的文本的一部分,搜索条件信息获取单元111部分地选择用户指定的区域中包括的语句,并使用该部分作为搜索条件信息。此时,搜索条件信息获取单元111可仅选择指定语句(点)或选择位于该指定语句之前或之后的语句。选择出的语句以与上述例子相同的方式被分析,并被转换成结构化数据(即搜索逻辑表达式)。在图16所示的例子中,文段“他因心肌梗塞被收治住院”被选择并用作搜索条件信息。
然后,与上述例子相同的方式,基于搜索条件信息生成搜索逻辑表达式,利用生成的搜索逻辑表达式生成候选数据,且显示搜索结果。在该应用例子的情况下,与搜索条件信息相似的点被显示为搜索结果,且显示该相似病例之后出现的语句。因此,可将“在搜索到的医疗信息文本中描述的以下医疗处理”这一内容提供给用户。
例如,如图17所示,当出现在图16中指定的语句之前的语句相似时,从出现在指定语句之后的医疗处理起始的语句被显示为搜索结果。此时,使用与上述方法相同的评价方法对所有显示的文本进行加权并提供给用户。
在图17所示的例子中,当出现在指定语句之前的语句的病例相似时,提供与出现在指定语句之后的医疗处理相关的文本。然而,对在指定语句后出现的语句的病例的相似度已被验证、且搜索出现在指定语句之前的记录的情况,可执行相同的处理。
在图17所示的例子中,显示搜索的医疗信息文本的语句。然而,如图18所示,不显示语句,仅收集和显示医疗主题(即,执行的医疗处理)。另外,可通过组合医疗主题和语句来提供医疗主题和源文本二者。
[搜索结果的预测分析]
接着,将描述作为根据本实施例的信息搜索方法的另一种应用方法的预测分析。已描述了作为根据本实施例的信息搜索方法的利用方法的预测显示。然而,对其它类似病例,显示相似病例中的以下医疗处理并提供随后的医疗处理的统计信息。
即,当总控制单元101请求显示数据选择单元117基于用户输入执行预测分析时,显示数据选择单元117指定由经过(passage)的预测处理功能指定的医疗文本中的、出现在用户指定的语句之前的语句,并将该指定的结果输出至总控制单元101。以与上述情况相同的方式将指定的语句转换为结构化数据,并将该结构化数据传送至显示数据选择单元117。显示数据选择单元117从传送的结构化数据中提取第一出现的医疗主题,获取统计信息,并对各种随后的医疗处理进行分类。图19示出了如上所述被分类的医疗主题的例子。
在图19所示的例子中,对在用户指定语句之后的语句中首次出现的一个医疗主题进行统计处理。然而,可以对多个医疗主题进行统计处理。
可考虑或忽略在作为医疗主题的谓语中包括宾格之外的格的事物。然 而,在宾格和谓语中的至少一个中包括医疗信息的事物优选地作为医疗主题来处理。
实现了预测处理,且请求相似病例中在其他病例中支持的医疗处理的分布,并在学习医疗护理的学生寻找随后的医疗处理的可能性时作为有用信息提供。
已参照图4-19描述了由根据本实施例的信息处理装置10执行的信息搜索方法的具体例子。
<信息处理方法的流程>
下面,将参照图20至22简单描述由根据本实施例的信息处理装置10执行的信息处理方法的流程。
[搜索对象数据生成处理]
首先将参照图20简单描述搜索对象数据生成处理的流程的例子。
首先,信息处理装置10的搜索对象文本获取单元103基于搜索对象文本,从存在相对应数据的位置获取非结构化文本的数据(步骤S101),并将该数据输出至总控制单元101。
接着,总控制单元101将获得的非结构化文本的数据输出至语言处理单元105,语言处理单元105对形成总控制单元101通知的非结构化文本的语句中的每个进行分析(步骤S103)。
如果对非结构化文本的语言分析处理结束,语言处理单元105将获得的处理结果经总控制单元101输出至文本结构提取单元107。文本结构提取单元107利用语言处理单元105的分析结果,对形成非结构化文本的各语句进行结构化(步骤S105),并获得结构化数据。
接下来,搜索对象数据生成单元109中的时序事实数据生成单元141利用文本结构提取单元107生成的结构化数据生成时序事实数据(步骤S107)。当生成时序事实数据时,搜索对象数据生成单元109中的搜索索引生成单元143生成搜索索引(步骤S109)。通过根据上述流程执行处理,可基于非结构化文本生成搜索对象数据。
[文本搜索处理的流程]
接下来,将参照图21简单描述搜索对象文本的搜索处理的流程的例子。
首先,信息处理装置10的搜索条件信息获取单元111获取用户使用各种输入设备输入的搜索条件信息(步骤S121),并将获取的搜索条件信息输出到总控制单元101。
接着,总控制单元101将由搜索条件信息获取单元111输出的搜索条件信息输出至搜索逻辑表达式生成单元113。搜索逻辑表达式生成单元113请求语言处理单元105和文本结构提取单元107分别执行对搜索条件信息的语言分析处理和对语句结构的提取处理。进而,可对搜索条件信息进行分析(步骤S123)。
如果语言处理单元105和文本结构提取单元107的每个都将分析结果通知至搜索逻辑表达式生成单元113,搜索逻辑表达式生成单元113利用获得的分析结果生成搜索逻辑表达式(步骤S125)。然后,搜索逻辑表达式生成单元113将生成的搜索逻辑表达式经总控制单元101输出至数据搜索单元115。
接着,数据搜索单元115利用搜索逻辑表达式生成单元113生成的搜索逻辑表达式,对搜索索引进行搜索(步骤S127),并生成候选数据。然后,数据搜索单元115将生成的候选数据经总控制单元101输出至显示数据选择单元117。
接着,显示数据选择单元117使用从数据搜索单元115输出的候选数据来选择被显示的搜索结果,并根据用户操作或者初始设置项来选择搜索结果的显示格式(步骤S129)。然后,显示数据选择单元117请求显示控制单元119显示搜索结果。显示控制单元119根据来自显示数据选择单元117的请求进行显示控制且搜索结果被显示给用户(步骤S131)。
[主题的统计处理的流程]
接着,将参照图22简单描述对包括在搜索对象文本的搜索结果中的主题进行的统计处理的流程的例子。
首先,信息处理装置10的搜索条件信息获取单元111获取由用户使用各种输入设备输入的搜索条件信息(步骤S141),并将获取的搜索条件信息输出到总控制单元101。
接着,总控制单元101将从搜索条件信息获取单元111输出的搜索条件信息输出至搜索逻辑表达式生成单元113。搜索逻辑表达式生成单元113请求语言处理单元105和文本结构提取单元107分别执行对搜索条件信息的语言分析处理和对语句结构的提取处理。从而搜索条件信息被分析 (步骤S143)。
如果语言处理单元105和文本结构提取单元107中的每个都将分析结果通知至搜索逻辑表达式生成单元113,搜索逻辑表达式生成单元113利用获取的分析结果来生成搜索逻辑表达式(步骤S145)。然后,搜索逻辑表达式生成单元113将生成的搜索逻辑表达式经总控制单元101输出至数据搜索单元115。
接着,数据搜索单元115利用由搜索逻辑表达式生成单元113生成的搜索逻辑表达式对搜索索引进行搜索(步骤S147),并生成候选数据。然后,数据搜索单元115将生成的候选数据经总控制单元101输出至显示数据选择单元117。
接着,显示数据选择单元117利用从数据搜索单元115输出的候选数据选择显示的搜索结果,并根据用户操作或初始设置项来选择搜索结果的显示格式(步骤S149)。然后,显示数据选择单元117请求显示控制单元119显示搜索结果。显示控制单元119根据显示数据选择单元117的请求执行显示控制,且针对用户显示搜索结果(步骤S151)。
然后,如果搜索结果的一部分被用户指定,并且请求统计处理的执行,显示数据选择单元117利用以上描述的方法指明用户指定位置之前(或之后)的主题,并执行各种统计处理(步骤S153)。然后,显示数据选择单元117将获得的统计处理结果输出至显示控制单元119,并请求显示控制单元119显示统计处理结果。显示控制单元119根据显示数据选择单元117的请求执行显示控制,且统计处理结果被显示给用户(步骤S155)。
在以上描述中,显示数据选择单元117基于用户指定的搜索结果的一部分执行统计处理。然而,如上所述,显示数据选择单元117可对整个搜索条件信息或者搜索条件信息中用户指定的部分执行统计处理。
以上参照图20至22简单描述了根据本实施例的信息处理方法的流程的例子。
<第一改进>
如上所述,根据本实施例的信息处理装置10主要具有三种语言处理功能:例如词素分析、句法分析和语义分析的各种分析功能和翻译功能,生成使用搜索对象文本搜索信息时使用的搜索对象数据的搜索对象数据生成功能,以及基于搜索条件信息对搜索对象文本进行搜索的信息搜索功能。
该三个主要功能可以如上所述包括在一个装置中,或分布和包括在网络上的多个装置(例如各种服务器)中。可恰当地设置分布到多个装置的处理单元的组合。
例如,如图23所示,由根据本实施例的信息处理装置10所实现的功能可被分布到如因特网的网络上的三种服务器,且可实现文本搜索服务。也就是说,信息处理装置10中的搜索对象数据生成功能和信息搜索功能可包括在网络上的信息搜索服务器20中,且上述信息搜索处理可使用文本管理服务器30管理的结构化文本、与包括在语言处理服务器40中的语言处理功能协作地实现。
在这种情况下,如个人电脑、移动电话、智能电话或便携式游戏机的用户操作终端50可至少具有利用各种输入设备获取搜索条件信息,将搜索条件信息通知至信息搜索服务器20的功能,以及显示从信息搜索服务器20输出的搜索结果的显示控制功能。
(硬件配置)
接着,将参考图24详细说明根据本公开的实施例的信息处理装置10的硬件配置。图24为示出根据本公开的实施例的信息处理装置10的硬件配置的框图。
信息处理装置10主要包括CPU 901,ROM 903和RAM 905。信息处理装置10还包括主机总线907、桥909、外部总线911、接口913、输入设备915、输出设备917、存储设备919、驱动器921、连接端口923和通信设备925。
CPU 901用作算术处理设备和控制设备,并根据记录在ROM 903,RAM 905,存储设备919和可移除记录介质927中的各种程序控制信息处理装置10整个或部分的操作。ROM 903存储CPU 901使用的程序或者算术参数。RAM 905主要存储CPU 901使用的程序和在程序执行过程中适当变化的参数。这些结构元件通过使用如CPU总线的内部总线配置的主机总线907互相连接。
主机总线907通过桥909连接到如外设结构元件互联/接口(PCI)的外部总线911。
输入设备915是由用户操作的操作单元,如鼠标、键盘、触摸板、按钮、开关或控制杆。输入设备915可以是采用红外线或者其它电波的远程控制器单元(所谓的远程控制器),或者是与信息处理装置10的操作相对 应的外部连接装置929,如移动电话或PDA。输入设备915使用如下输入控制电路来配置,该输入控制电路基于用户使用操作单元输入的信息生成输入信号并将该输入信号输出到CPU 901。信息处理装置10的用户操作输入设备915且可将各种数据输入到信息处理装置10或指示信息处理装置10执行处理操作。
输出设备917使用可在视觉上或听觉上通知用户获取的信息的设备来配置。作为该设备,如CRT显示设备、液晶显示设备、等离子体显示设备、EL显示设备或灯的显示设备,如扬声器或头戴耳机、打印机设备、移动电话和传真机的声音输出设备是示例。输出设备917输出由信息处理装置10执行的各种处理获得的结果。具体地,显示设备以文本或图像的形式显示由信息处理设备10执行的各种处理获得的结果。声音输出设备将包括再现的声音数据或声学数据的音频信号转换为模拟信号并输出该模拟信号。
存储设备919是作为信息处理装置10的存储单元的例子而配置的数据存储设备。使用如硬盘驱动器(HDD)、半导体存储设备、光学存储设备或者磁光存储设备的磁存储设备来配置存储设备919。存储设备919存储由CPU 901执行的程序或各种数据和从外部获得的各种数据。
驱动器921是用于记录介质的读/写器,且嵌入在信息处理装置10中或从外部附着。驱动器921读取记录在已安装的可拆卸记录介质927中的信息,并将该信息输出到RAM 905,该已安装的可拆卸记录介质例如是磁盘、光盘、磁光盘或者半导体存储器。驱动器921可将信息写入到已安装的可拆卸记录介质927,如磁盘、光盘、磁光盘或者半导体存储器中。可拆卸记录介质为DVD介质,HD-DVD介质或者蓝光介质。可拆卸记录介质927还可以是紧凑型闪存(CF)(注册商标),快闪存储器,或者安全数字(SD)存储卡。可拆卸记录介质927可以是以非接触型IC芯片安装的集成电路卡(IC卡)或者电子装置。
连接端口923为用于将装置直接连接到信息处理装置10的端口。通用串行总线(USB)端口,IEEE1394端口和小型计算机系统接口(SCSI)端口是连接端口923的例子。另外,RS-232C端口、光学音频终端或高清晰多媒体接口(HDMI)端口可作为连接端口923的其他例子。通过将外部连接装置929连接到连接端口923,信息处理装置10直接从外部连接装置929获取各种数据,或者将各种数据提供至外部连接装置929。
通信设备925是使用用于与通信网络931连接的通信设备配置的通信 接口。通信设备925是用于有线或无线局域网(LAN),蓝牙(注册商标)或者无线USB(WUSB)的通信卡。通信设备925可以是光通信的路由器,异步数字用户专线(ADSL)的路由器,或者各种通信的调制解调器。通信设备925可通过因特网,基于如TCP/IP的预定协议来与其它通信设备交换信号。连接到通信设备925的通信网络931使用有线或无线连接的网络配置,且可以是例如因特网,家庭LAN,红外通信,无线电波通信或卫星通信。
已对可实现本公开的实施例的信息处理装置10功能的硬件配置的例子进行了描述。可利用各种构件或专用于结构元件的功能的硬件来配置结构元件。因此,可根据实施该实施例时的技术水平适当地改变使用的硬件配置。
(结论)
如上所述,根据本公开的实施例的信息处理装置和信息处理方法,通过输入自然语句,可通过自然接口实现高准确度的文本数据搜索,并从自然语句中自动提取搜索逻辑表达式。当搜索与病历相似的数据或者医疗处理数据时,实施考虑时序的搜索,且作为可靠数据可搜索上下文相似的数据。
可使用上述技术确定时序,从而关于时序流程从大量相似数据执行统计处理。此外,通过检测事件的迁移的转折点,可执行通过统计信息进行的未来预测展示。
已参考附图对本公开的优选实施例进行了详细描述。然而,本公开不限于以上例子。对于本领域技术人员而言,显然在不脱离权利要求所限定的本公开的范围和精神的情况下可对其作出各种修改和改变。因此,可以理解,各种修改和改变均包括在本公开的技术范围之内。
本公开可采取如下配置:
(1)一种信息处理装置,包括:
搜索条件信息获取单元,用于获取搜索条件信息,该搜索条件信息为指示用于搜索根据格结构被结构化的搜索对象文本的搜索条件的文本信息;
语言处理单元,用于针对所述搜索条件信息执行语言分析处理;
结构提取单元,用于使用所述搜索条件信息的语言分析结果来提取所 述搜索条件信息的语句结构;
搜索表达式生成单元,用于根据所述搜索条件信息的所述语句结构生成搜索表达式,所述搜索表达式反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构;以及
搜索单元,用于利用生成的搜索表达式,根据所述搜索条件信息的语句结构来从所述搜索对象文本搜索与所述搜索条件相匹配的文本。
(2)根据(1)所述的信息处理装置,其中,当所述搜索条件信息中包括多个语句时,所述搜索单元基于所述搜索条件信息中包括的语句的谓语结构的迁移,来从所述搜索对象文本搜索与谓语结构的迁移匹配的文本。
(3)根据(1)或(2)所述的信息处理装置,其中,基于其中词或词组与作为赋予所述词或词组的唯一标识信息的语言代码相关联的语言代码信息,包括在所述搜索对象文本中的语言代码信息中的词或词组由对应的语言代码来代替,所述搜索对象文本中由所述语言代码代替的词或词组的格与所述语言代码相关联,且所述搜索对象文本的谓语结构被标记出来,
所述信息处理装置进一步包括搜索对象数据生成单元,搜索对象数据生成单元利用所述语言代码信息生成用于所述搜索对象文本的搜索处理的搜索对象数据,以及
所述搜索对象数据生成单元生成时序事实数据,并利用作为赋予所述搜索对象文本的唯一识别信息的文本识别信息和作为赋予形成搜索对象文本的语句的唯一识别信息的语句识别信息来生成搜索索引,在所述时序事实数据中,按照形成搜索对象文本的语句中包括有语言代码的语句的出现顺序来累积与所述语句相对应的谓语结构,在所述搜索索引中,用于指定包括所述语言代码的语句的语句识别信息和文本识别信息与所述语言代码相关联。
(4)根据(3)所述的信息处理装置,其中所述搜索表达式生成单元利用所述语言代码信息,以所述语言代码代替所述搜索条件信息中包括的文本中、包括在语言代码信息中的词或词组,并生成所述搜索表达式,以及
所述搜索单元利用所述搜索表达式中包括的所述语言代码搜索所述搜索索引,并提取包括有所述搜索表达式中所包括的所述语言代码的语句作为候选数据。
(5)根据(1)-(4)中的任一项所述的信息处理装置,进一步包括:
选择单元,用于从所述搜索单元提取的所述候选数据中选择作为搜索结果输出的文本,
其中,所述选择单元根据包括在所述搜索条件信息中的文本的语句结构与所述候选数据的语句结构的相似度来选择作为搜索结果输出的文本。
(6)根据(5)所述的信息处理装置,其中,所述选择单元作为搜索结果输出作为检测结果选择的文本中出现在与所述搜索表达式相似的语句之前或之后的语句。
(7)根据(5)所述的信息处理装置,其中所述选择单元针对作为搜索结果输出的文本或搜索条件信息中、出现在由用户指定的语句之前或之后的语句,或者与形成所述搜索条件信息的每个语句中的语言代码相对应的主题,来执行统计分析,并输出获得的统计分析结果。
(8)根据(7)所述的信息处理装置,其中,所述选择单元对出现在用户指定的语句之前或之后的语句或者形成搜索条件信息的语句中、其中语言代码被包括在宾格或谓语中的语句执行统计分析。
(9)根据(3)所述的信息处理装置,其中,当所述信息处理装置获取未根据格结构进行结构化的非结构化文本时,所述信息处理装置基于语言处理单元的语言处理结果和结构提取单元提取的语句结构,来对非结构化文本进行结构化,并生成搜索对象文本。
(10)根据(1)-(9)中的任一项所述的信息处理装置,进一步包括:
显示控制单元,用于对从搜索对象文本检测的检测结果进行显示控制,
其中,所述显示控制单元对检测结果中具有与搜索条件信息的语句结构类似的语句结构的位置进行强调显示。
(11)一种信息处理方法,包括:
获取搜索条件信息,所述搜索条件信息是指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;
针对搜索条件信息执行语言分析处理;
利用所述搜索条件信息的语言分析结果来提取所述搜索条件信息的语句结构;
根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文 本进行搜索的搜索条件信息的语句结构的搜索表达式;以及
利用所述生成的搜索表达式,根据所述搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本。
(12)一种程序,使计算机实现:
搜索条件信息获取功能,用于获取搜索条件信息,所述搜索条件信息是指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;
语言处理功能,用于针对所述搜索条件信息执行语言分析处理;
结构提取功能,用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构;
搜索表达式生成功能,用于根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式;以及
搜索功能,用于利用所述生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本。
(13)一种信息处理系统,包括:
信息搜索服务器,包括用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;用于针对搜索条件信息执行语言分析处理的语言处理单元;用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;用于根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;以及用于利用所述生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本的搜索单元;以及
生成所述搜索条件信息并将生成的所述搜索条件信息输出到信息搜索服务器的用户操作终端,
其中,所述信息搜索服务器将关于从用户操作终端输出的搜索条件信息的搜索结果输出至用户操作终端。
本公开包括与公开在2011年5月10日提交至日本专利局的日本优先权专利申请JP2011-105034中的内容相关的主题,该专利申请的全部内容通过引用结合于此。
Claims (11)
1.一种信息处理装置,包括:
搜索条件信息获取单元,用于获取搜索条件信息,该搜索条件信息为指示用于搜索根据格结构被结构化的搜索对象文本的搜索条件的文本信息;
语言处理单元,用于针对所述搜索条件信息执行语言分析处理;
结构提取单元,用于使用所述搜索条件信息的语言分析结果来提取所述搜索条件信息的语句结构;
搜索表达式生成单元,用于根据所述搜索条件信息的所述语句结构生成搜索表达式,所述搜索表达式反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构;以及
搜索单元,用于利用生成的搜索表达式,根据所述搜索条件信息的语句结构来从所述搜索对象文本搜索与所述搜索条件相匹配的文本,
所述信息处理装置进一步包括搜索对象数据生成单元,搜索对象数据生成单元利用其中词或词组与作为赋予所述词或词组的唯一标识信息的语言代码相关联的语言代码信息,生成用于所述搜索对象文本的搜索处理的搜索对象数据,以及
其中,基于所述语言代码信息,包括在所述搜索对象文本中的语言代码信息中的词或词组由对应的语言代码来代替,所述搜索对象文本中由所述语言代码代替的词或词组的格与所述语言代码相关联,且所述搜索对象文本的谓语结构被标记出来,
所述搜索对象数据生成单元生成在其中按照形成搜索对象文本的语句中包括有语言代码的语句的出现顺序来累积与所述语句相对应的谓语结构时序事实数据,并利用作为赋予所述搜索对象文本的唯一识别信息的文本识别信息和作为赋予形成搜索对象文本的语句的唯一识别信息的语句识别信息来生成在其中用于指定包括所述语言代码的语句的语句识别信息和文本识别信息与所述语言代码相关联的搜索索引。
2.根据权利要求1所述的信息处理装置,其中,当所述搜索条件信息中包括多个语句时,所述搜索单元基于所述搜索条件信息中包括的语句的谓语结构的迁移,来从所述搜索对象文本搜索与谓语结构的迁移匹配的文本。
3.根据权利要求1所述的信息处理装置,
其中所述搜索表达式生成单元利用所述语言代码信息,以所述语言代码代替所述搜索条件信息中包括的文本中、包括在语言代码信息中的词或词组,并生成所述搜索表达式,以及
所述搜索单元利用所述搜索表达式中包括的所述语言代码搜索所述搜索索引,并提取包括有所述搜索表达式中所包括的所述语言代码的语句作为候选数据。
4.根据权利要求3所述的信息处理装置,进一步包括:
选择单元,用于从所述搜索单元提取的所述候选数据中选择作为搜索结果输出的文本,
其中,所述选择单元根据包括在所述搜索条件信息中的文本的语句结构与所述候选数据的语句结构的相似度来选择作为搜索结果输出的文本。
5.根据权利要求4所述的信息处理装置,其中,所述选择单元作为搜索结果输出作为检测结果选择的文本中出现在与所述搜索表达式相似的语句之前或之后的语句。
6.根据权利要求4所述的信息处理装置,其中所述选择单元针对作为搜索结果输出的文本或搜索条件信息中、出现在由用户指定的语句之前或之后的语句,或者与形成所述搜索条件信息的每个语句中的语言代码相对应的主题,来执行统计分析,并输出获得的统计分析结果。
7.根据权利要求6所述的信息处理装置,其中,所述选择单元对出现在用户指定的语句之前或之后的语句或者形成搜索条件信息的语句中、其中语言代码被包括在宾格或谓语中的语句执行统计分析。
8.根据权利要求1所述的信息处理装置,其中,当所述信息处理装置获取未根据格结构进行结构化的非结构化文本时,所述信息处理装置基于语言处理单元的语言处理结果和结构提取单元提取的语句结构,来对非结构化文本进行结构化,并生成搜索对象文本。
9.根据权利要求1所述的信息处理装置,进一步包括:
显示控制单元,用于对从搜索对象文本检测的检测结果进行显示控制,
其中,所述显示控制单元对检测结果中具有与搜索条件信息的语句结构类似的语句结构的位置进行强调显示。
10.一种信息处理方法,包括:
利用其中词或词组与作为赋予所述词或词组的唯一标识信息的语言代码相关联的语言代码信息,生成用于根据格结构进行结构化后的搜索对象文本的搜索处理的搜索对象数据;
获取搜索条件信息,所述搜索条件信息是指示用于搜索所述搜索对象文本的搜索条件的文本信息;
针对搜索条件信息执行语言分析处理;
利用所述搜索条件信息的语言分析结果来提取所述搜索条件信息的语句结构;
根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式;以及
利用所述生成的搜索表达式,根据所述搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本;
其中,基于所述语言代码信息,包括在所述搜索对象文本中的语言代码信息中的词或词组由对应的语言代码来代替,所述搜索对象文本中由所述语言代码代替的词或词组的格与所述语言代码相关联,且所述搜索对象文本的谓语结构被标记出来,
上述的生成搜索对象数据包括:生成时序事实数据,并利用作为赋予所述搜索对象文本的唯一识别信息的文本识别信息和作为赋予形成搜索对象文本的语句的唯一识别信息的语句识别信息来生成搜索索引,在所述时序事实数据中,按照形成搜索对象文本的语句中包括有语言代码的语句的出现顺序来累积与所述语句相对应的谓语结构,在所述搜索索引中,用于指定包括所述语言代码的语句的语句识别信息和文本识别信息与所述语言代码相关联。
11.一种信息处理系统,包括:
信息搜索服务器,包括:
用于获取搜索条件信息的搜索条件信息获取单元,该搜索条件信息为指示用于搜索根据格结构进行结构化后的搜索对象文本的搜索条件的文本信息;
用于针对搜索条件信息执行语言分析处理的语言处理单元;
用于利用搜索条件信息的语言分析结果来提取搜索条件信息的语句结构的结构提取单元;
用于根据所述搜索条件信息的所述语句结构生成反映用于对搜索对象文本进行搜索的搜索条件信息的语句结构的搜索表达式的搜索表达式生成单元;
以及用于利用所述生成的搜索表达式,根据搜索条件信息的语句结构来从搜索对象文本搜索与所述搜索条件相匹配的文本的搜索单元;以及
搜索对象数据生成单元,所述搜索对象数据生成单元利用其中词或词组与作为赋予所述词或词组的唯一标识信息的语言代码相关联的语言代码信息生成用于所述搜索对象文本的搜索处理的搜索对象数据,
其中,基于所述语言代码信息,包括在所述搜索对象文本中的语言代码信息中的词或词组由对应的语言代码来代替,所述搜索对象文本中由所述语言代码代替的词或词组的格与所述语言代码相关联,且所述搜索对象文本的谓语结构被标记出来,
所述搜索对象数据生成单元生成在其中按照形成搜索对象文本的语句中包括有语言代码的语句的出现顺序来累积与所述语句相对应的谓语结构的时序事实数据,并利用作为赋予所述搜索对象文本的唯一识别信息的文本识别信息和作为赋予形成搜索对象文本的语句的唯一识别信息的语句识别信息,来生成在其中用于指定包括所述语言代码的语句的语句识别信息和文本识别信息与所述语言代码相关联的搜索索引;
生成所述搜索条件信息并将生成的所述搜索条件信息输出到信息搜索服务器的用户操作终端,
其中,所述信息搜索服务器将关于从用户操作终端输出的搜索条件信息的搜索结果输出至用户操作终端。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011-105034 | 2011-05-10 | ||
JP2011105034A JP5699789B2 (ja) | 2011-05-10 | 2011-05-10 | 情報処理装置、情報処理方法、プログラム及び情報処理システム |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102779149A CN102779149A (zh) | 2012-11-14 |
CN102779149B true CN102779149B (zh) | 2016-12-14 |
Family
ID=46456302
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210135871.5A Expired - Fee Related CN102779149B (zh) | 2011-05-10 | 2012-05-03 | 信息处理装置,信息处理方法和信息处理系统 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20120290561A1 (zh) |
EP (1) | EP2523126A3 (zh) |
JP (1) | JP5699789B2 (zh) |
CN (1) | CN102779149B (zh) |
Families Citing this family (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101361190B1 (ko) | 2007-01-22 | 2014-02-21 | 삼성전자주식회사 | 무선 메쉬 네트워크에서 채널을 할당하기 위한 방법 및이를 이용한 통신 디바이스 |
US10157175B2 (en) | 2013-03-15 | 2018-12-18 | International Business Machines Corporation | Business intelligence data models with concept identification using language-specific clues |
US20150309965A1 (en) * | 2014-04-28 | 2015-10-29 | Elwha Llc | Methods, systems, and devices for outcome prediction of text submission to network based on corpora analysis |
US10698924B2 (en) | 2014-05-22 | 2020-06-30 | International Business Machines Corporation | Generating partitioned hierarchical groups based on data sets for business intelligence data models |
CN104050295B (zh) * | 2014-07-01 | 2018-01-02 | 彩带网络科技(北京)有限公司 | 一种交互方法及系统 |
CN104199803B (zh) * | 2014-07-21 | 2017-10-13 | 安徽华贞信息科技有限公司 | 一种基于组合理论的文本信息处理系统及方法 |
CN104166682B (zh) * | 2014-07-21 | 2018-05-01 | 安徽华贞信息科技有限公司 | 一种基于组合理论的类自然语言的语义信息抽取方法及系统 |
JP6642429B2 (ja) * | 2014-07-23 | 2020-02-05 | 日本電気株式会社 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
US9760353B2 (en) * | 2014-12-19 | 2017-09-12 | Signalfx, Inc. | Dynamically changing input data streams processed by data stream language programs |
US10394692B2 (en) | 2015-01-29 | 2019-08-27 | Signalfx, Inc. | Real-time processing of data streams received from instrumented software |
US10002179B2 (en) | 2015-01-30 | 2018-06-19 | International Business Machines Corporation | Detection and creation of appropriate row concept during automated model generation |
US9984116B2 (en) | 2015-08-28 | 2018-05-29 | International Business Machines Corporation | Automated management of natural language queries in enterprise business intelligence analytics |
CN105550261A (zh) * | 2015-12-09 | 2016-05-04 | 国云科技股份有限公司 | 一种基于ibatis的快速检索方法 |
CN107515851B (zh) * | 2016-06-16 | 2021-09-10 | 佳能株式会社 | 用于共指消解、信息提取以及相似文档检索的装置和方法 |
CN108320788A (zh) * | 2017-01-16 | 2018-07-24 | 医渡云(北京)技术有限公司 | 医院业务分析方法及装置 |
CN107341264B (zh) * | 2017-07-19 | 2020-09-25 | 东北大学 | 一种支持自定义实体的电子病历检索系统及方法 |
CN110020006B (zh) * | 2017-07-27 | 2021-04-27 | 北京国双科技有限公司 | 查询语句的生成方法及相关设备 |
CN107562732B (zh) * | 2017-10-26 | 2022-06-14 | 北京康夫子健康技术有限公司 | 电子病历的处理方法及系统 |
JP7101946B2 (ja) * | 2018-07-10 | 2022-07-19 | 株式会社医用工学研究所 | 検索システム |
TWI702537B (zh) * | 2018-09-28 | 2020-08-21 | 智齡科技股份有限公司 | 基於語彙分析之智慧護理文本生成系統以及使用其之智慧護理資訊平台 |
US11210346B2 (en) * | 2019-04-04 | 2021-12-28 | Iqvia Inc. | Predictive system for generating clinical queries |
CN110347785A (zh) * | 2019-05-30 | 2019-10-18 | 平安科技(深圳)有限公司 | 非结构化文书搜索方法、装置、计算机设备和存储介质 |
CN112270167B (zh) * | 2020-10-14 | 2022-02-08 | 北京百度网讯科技有限公司 | 角色标注方法、装置、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263329B1 (en) * | 1997-07-25 | 2001-07-17 | Claritech | Method and apparatus for cross-linguistic database retrieval |
JP2008140204A (ja) * | 2006-12-04 | 2008-06-19 | Toshiba Corp | データ検索システム及びプログラム |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
CN102012900A (zh) * | 2009-09-04 | 2011-04-13 | 阿里巴巴集团控股有限公司 | 信息检索方法和系统 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5933822A (en) | 1997-07-22 | 1999-08-03 | Microsoft Corporation | Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision |
US6678677B2 (en) * | 2000-12-19 | 2004-01-13 | Xerox Corporation | Apparatus and method for information retrieval using self-appending semantic lattice |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US7398201B2 (en) * | 2001-08-14 | 2008-07-08 | Evri Inc. | Method and system for enhanced data searching |
US20040167800A1 (en) * | 2003-02-26 | 2004-08-26 | Duke University | Methods and systems for searching, displaying, and managing medical teaching cases in a medical teaching case database |
US7890493B2 (en) * | 2007-07-20 | 2011-02-15 | Google Inc. | Translating a search query into multiple languages |
MX2010002349A (es) * | 2007-08-31 | 2010-07-30 | Microsoft Corp | Resolucion de correferencia en un sistema de procesamiento de lenguaje natural sensible a la ambiguedad. |
US8639708B2 (en) * | 2007-08-31 | 2014-01-28 | Microsoft Corporation | Fact-based indexing for natural language search |
JP5439028B2 (ja) * | 2009-05-12 | 2014-03-12 | 株式会社エヌ・ティ・ティ・データ | 情報検索装置、情報検索方法、およびプログラム |
JP5391887B2 (ja) * | 2009-07-13 | 2014-01-15 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2011105034A (ja) | 2009-11-12 | 2011-06-02 | Etsuaki Matsui | 薄型画像表示モニタ車載用支持装置 |
US8375021B2 (en) * | 2010-04-26 | 2013-02-12 | Microsoft Corporation | Search engine data structure |
-
2011
- 2011-05-10 JP JP2011105034A patent/JP5699789B2/ja not_active Expired - Fee Related
-
2012
- 2012-04-16 EP EP12164283A patent/EP2523126A3/en not_active Ceased
- 2012-04-24 US US13/454,791 patent/US20120290561A1/en not_active Abandoned
- 2012-05-03 CN CN201210135871.5A patent/CN102779149B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6263329B1 (en) * | 1997-07-25 | 2001-07-17 | Claritech | Method and apparatus for cross-linguistic database retrieval |
JP2008140204A (ja) * | 2006-12-04 | 2008-06-19 | Toshiba Corp | データ検索システム及びプログラム |
JP2009075747A (ja) * | 2007-09-19 | 2009-04-09 | Toshiba Corp | 類似文検索システム及びプログラム |
CN101446944A (zh) * | 2008-12-10 | 2009-06-03 | 苏州大学 | 一种自然语言句子的语义关系树的构造和比较方法 |
CN102012900A (zh) * | 2009-09-04 | 2011-04-13 | 阿里巴巴集团控股有限公司 | 信息检索方法和系统 |
Non-Patent Citations (1)
Title |
---|
基于词联接的语义分析原理及其算法;李良炎等;《重庆大学学报》;20040831;第69-74页 * |
Also Published As
Publication number | Publication date |
---|---|
JP5699789B2 (ja) | 2015-04-15 |
JP2012238062A (ja) | 2012-12-06 |
EP2523126A2 (en) | 2012-11-14 |
CN102779149A (zh) | 2012-11-14 |
EP2523126A3 (en) | 2012-12-12 |
US20120290561A1 (en) | 2012-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102779149B (zh) | 信息处理装置,信息处理方法和信息处理系统 | |
Doing-Harris et al. | Computer-assisted update of a consumer health vocabulary through mining of social network data | |
US10565313B2 (en) | Automatic semantic rating and abstraction of literature | |
Laureate et al. | A systematic review of the use of topic models for short text social media analysis | |
Ball et al. | TextHunter–a user friendly tool for extracting generic concepts from free text in clinical research | |
US20140181128A1 (en) | Systems and Methods for Processing Patient Data History | |
US8024175B2 (en) | Computer program, apparatus, and method for searching translation memory and displaying search result | |
CN102193903A (zh) | 信息处理装置、信息处理方法以及程序 | |
CN102576355A (zh) | 知识发现的方法和系统 | |
JP2020135891A (ja) | 検索提案を提供する方法、装置、機器及び媒体 | |
Venturi et al. | NLP–based readability assessment of health–related texts: a case study on Italian informed consent forms | |
US20230359932A1 (en) | Classification process systems and methods | |
KR102465622B1 (ko) | 인공지능 및 자연어 처리 기반의 의료 콘텐츠 저작 및 관리 시스템 | |
WO2021136009A1 (zh) | 搜索信息的处理方法、装置及电子设备 | |
US20240126981A1 (en) | Systems and methods for machine-learning-based presentation generation and interpretable organization of presentation library | |
JP5438603B2 (ja) | 感性辞書編集支援システム及びプログラム | |
Weng et al. | MIECF: Multi-faceted Information Extraction and Cross-mixture Fusion for Multimodal Aspect-based Sentiment Analysis | |
Ho et al. | Explainability of methods for critical information extraction from clinical documents: A survey of representative works | |
KR102642358B1 (ko) | 텍스트 감정분석 기반의 음악 추천 장치 및 방법 | |
Wu et al. | Developing EMR-based algorithms to Identify hospital adverse events for health system performance evaluation and improvement: Study protocol | |
Diomaiuta et al. | A novel system for the automatic extraction of a patient problem summary | |
Gao et al. | Impact of Human-AI Interaction on User Trust and Reliance in AI-Assisted Qualitative Coding | |
JP7180622B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
Khan et al. | BERT-Driven Automation in Electronic Health Record Management System | |
JP2010191851A (ja) | 記事特徴語抽出装置、記事特徴語抽出方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161214 |
|
CF01 | Termination of patent right due to non-payment of annual fee |