CN109298796B - 一种词联想方法及装置 - Google Patents
一种词联想方法及装置 Download PDFInfo
- Publication number
- CN109298796B CN109298796B CN201810820915.5A CN201810820915A CN109298796B CN 109298796 B CN109298796 B CN 109298796B CN 201810820915 A CN201810820915 A CN 201810820915A CN 109298796 B CN109298796 B CN 109298796B
- Authority
- CN
- China
- Prior art keywords
- word
- text data
- words
- analyzed
- association
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000004458 analytical method Methods 0.000 claims abstract description 33
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000005065 mining Methods 0.000 description 6
- 238000013519 translation Methods 0.000 description 6
- 238000003058 natural language processing Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001149 cognitive effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 230000009849 deactivation Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000003696 structure analysis method Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本发明实施例提供了一种词联想方法及装置,涉及计算机技术领域,以解决现有的词联想方法无法满足用户的个性化需求的问题。其中,所述词联想方法,包括:按照预设规则依次读入历史文本数据,将历史文本数据划分为若干个子文本数据;分别对每个子文本数据进行句法结构分析;读取给定的待分析词;在若干个子文本数据中,识别待分析词所属的至少一个目标子文本数据;从目标子文本数据中,提取至少一个待分析词的邻近词;根据目标子文本数据的句法结构分析结论,得到对应的邻近词与待分析词的语义相关强度和共现紧密度;根据语义相关强度和共现紧密度,显示联想结果。本发明实施例所提供的词联想方法用于计算机。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种词联想方法及装置。
背景技术
目前,词联想技术应用于互联网,如在输入法中,当用户输入给定词后,可联想并显示出多个推荐词,提升用户的使用体验;又如在翻译或者语音识别中,对于同一词语可联想出多种结果,以为用户提供较为流畅的翻译文本或者识别文本,提升用户的阅读性。
词联想通常采用的方法有:一、利用人工经验进行总结,建立一些常见的联想词串数据集。二、从一些已知的文本中采集一些词串的统计信息,按照频率排序进行推荐返回。
以上两种方法的中心思路都是基于给定词推荐给用户出现频率较高的词语,因此,对于同一给定词,联想结果是一样的。而对于不同的用户,使用习惯、认知范围、应用语境等各不相同,从而无法满足用户的个性化需求,影响使用体验。
发明内容
本发明的实施例提供一种词联想方法,以解决现有的词联想方法无法满足用户的个性化需求的问题。
一方面,本发明公开了一种词联想方法,包括:按照预设规则依次读入历史文本数据,将所述历史文本数据划分为若干个子文本数据;分别对每个所述子文本数据进行句法结构分析;读取给定的待分析词;在所述若干个子文本数据中,识别所述待分析词所属的至少一个目标子文本数据;从所述目标子文本数据中,提取至少一个所述待分析词的邻近词;根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的语义相关强度和共现紧密度;根据所述语义相关强度和所述共现紧密度,显示联想结果。
另一方面,本发明公开了一种词联想装置,包括读入模块,用于按照预设规则依次读入历史文本数据,将所述历史文本数据划分为若干个子文本数据;分析模块,用于分别对每个所述子文本数据进行句法结构分析;读取模块,用于读取给定的待分析词;识别模块,用于在所述若干个子文本数据中,识别所述待分析词所属的至少一个目标子文本数据;提取模块,用于从所述目标子文本数据中,提取至少一个所述待分析词的邻近词;联想模块,用于根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的语义相关强度和共现紧密度;显示模块,用于根据所述语义相关强度和所述共现紧密度,显示联想结果。
与现有技术相比,本发明实施例包括以下优点:
将历史文本数据划分为若干个子文本数据,并分别对每个子文本数据进行句法结构分析,从而得到每个子文本数据的句法结构分析结论。当读取到给定的待分析词后,首先在所有的子文本数据中,识别给定的待分析词,并将待分析词所属的子文本数据作为目标子文本数据,从目标子文本数据中提取待分析词所属上下文的邻近词。无论是多个目标子文本数据或者一个目标子文本数据,其包括的邻近词的数量都可以是多个,从而分别对每个邻近词进行分析,根据其所在子文本数据的句法结构分析结论,计算邻近词与待分析词的语义相关强度和共现紧密度,再将二者综合考虑后,得到各邻近词与待分析词的不同相关程度,并依据相关程度显示各邻近词作为联想结果。可见,在本实施例中,在词联想的过程中,结合句法结构分析结论,综合考虑了语义相关强度和共现紧密度,联想的结果不仅基于高频率,还考虑到语义的影响,联想结果更能满足用户需求。特别是历史文本数据包括用户的大量使用记录时,经上述词联想方法推荐的联想词是结合了用户常用语境的,从而与用户使用的匹配度更高,满足用户的个性化需求,提高用户使用体验。
附图说明
图1是本发明实施例的词联想方法的第一流程图;
图2是本发明实施例的词联想方法的第二流程图;
图3是本发明实施例的词联想方法的第三流程图;
图4是本发明实施例的词联想方法的第四流程图;
图5是本发明实施例的词联想装置的第一结构框图;
图6是本发明实施例的词联想装置的第二结构框图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
参见图1,本实施例提供了一种词联想方法,包括:
步骤S1:按照预设规则依次读入历史文本数据,将历史文本数据划分为若干个子文本数据。
历史文本数据可为大量的已知文本。如,对于初次使用,历史文本数据可为大量的公共文本;历史文本数据还可为自动存储的某一用户大量的历史文本。
预设规则可为按照某一预设单位长度依次读入历史文本数据,以将历史文本数据划分为多个子文本数据,便于进行分析处理。其中,预设单位长度可以是以句为单位,可根据识别到的断句的标点符号,如:句号、问号等,对历史文本数据进行划分。
步骤S2:分别对每个子文本数据进行句法结构分析。
句法分析是自然语言处理中的关键技术之一,包括依存句法分析和句法结构分析。其中,依存句法分析是针对词与词之间的依存关系,将整句以动词为核心词,主要分析句子的“主谓宾”、“定状补”句法结构。句法结构分析的主要实现的是:对输入的单词序列判断其构成是否合乎给定的语法,并分析出合乎语法的句子的句法结构;若有两个或两个以上的词按一定的语法规则构成句法结构单位,则发现短语内和短语间的“名词短语、动词短语”等。
在该步骤中,采用句法结构分析技术,对每个子文本数据进行处理,句法结构分析结论可用于词联想过程中。
步骤S3:读取给定的待分析词。
读取任一给定的待分析词。如在输入法软件中,待分析词可为当前输入的字符;如在识别软件中,待分析词可为当前的翻译或者识别的字符。
步骤S4:在若干个子文本数据中,识别待分析词所属的至少一个目标子文本数据。
在历史文本数据中,检索出包含该待分析词的子文本数据,如含该待分析词的句子,将包含该待分析词的子文本数据作为目标子文本数据。其中,目标子文本数据的数量不限于一个。
步骤S5:从目标子文本数据中,提取至少一个待分析词的邻近词。
分别从每个目标子文本数据中,提取待分析词前后的邻近词,每个目标子文本数据中的邻近词的数量不限于一个。因此,到该步骤为止,提取的邻近词的数量可以为多个。
步骤S6:根据目标子文本数据的句法结构分析结论,得到对应的邻近词与待分析词的语义相关强度和共现紧密度。
步骤S7:根据语义相关强度和共现紧密度,显示联想结果。
可将一个邻近词的语义相关强度和共现紧密度作为一组参考数据,从而各邻近词均对应有一组参考数据,综合比较多组参考数据,并根据比较结果显示各邻近词,作为待分析词的联想结果。
在本实施例中,将大量的历史文本数据作为词联想的数据库,从而在数据库中识别待分析词,同时提取与待分析词相近的若干个邻近词,进一步综合考虑每个邻近词与待分析词的语义相关强度和共现紧密度,根据各邻近词与待分析词的语义相关强度和共现紧密度,显示各邻近词作为联想结果。可见,本实施例中的词联想方法在显示联想结果时,不仅考虑到邻近词与待分析词的共现紧密度,即与待分析词结合使用的频率,还考虑到邻近词与待分析词的语义相关强度,联想结果结合语义后,可精准把握语义信息,使语句更加通顺。特别是当历史文本数据包含大量的用户使用数据,联想结果更加倾向用户希望表达的语义,与用户的输入习惯接近,满足不同用户的个性化需求,提高用户使用体验。
参见图2,进一步地,步骤S6包括:
步骤S61:根据目标子文本数据的句法结构分析结论,得到对应的邻近词与待分析词的句法树关系。
句法分析是自然语言处理领域极为重要的语义挖掘技术手段,其中的句法结构分析能利用句子的语法结构,通过树状结构,发现句子内词间的语法上下文关系,语法信息体现了语言的词汇组构方式,是语言的词汇逻辑结构。且经过历史数据的积累和算法的更新迭代,目前已经有很多成熟的句法结构分析方法,有助于挖掘和利用句子中词间的语义信息。
基于句法结构分析的技术手段,在句法结构分析结论中,得到对应的邻近词与待分析词的句法树关系。优选地,还可在提取邻近词的同时,提取邻近词与待分析词的句法树关系。
步骤S62:根据句法树关系,得到邻近词与待分析词的关系距离li。其中,关系距离li用于体现语义相关强度。
本实施例突破了现有技术中的词间共现频率为主的词联想方法,利用句法分析发掘句子中词间强语义联系,利用句法树距离来衡量词与周围词间的语义关联强度。因此,本实施例中的语义相关强度可通过邻近词与待分析词的关系距离li来体现。
步骤S63:基于历史文本数据,得到邻近词与待分析词的变形tfidf值Ti。其中,变形tfidf值Ti用于体现共现紧密度。
在该步骤中,在考虑词与词间的共现信息中,不仅考虑待分析词的词频信息,还考虑了周围词,即邻近词在大语料中的分布信息,再利用变形的tfidf来衡量词间的共现强度。这里的大语料即为前述读入的历史文本数据。
对应地,步骤S7包括:
步骤S71:根据关系距离li和变形tfidf值Ti,得到邻近词与待分析词的联想系数Ai。
结合考虑邻近词与待分析词的语义相关强度和共现紧密度,并根据语义相关强度和共现紧密度,生成联想系数Ai,邻近词与待分析词的语义相关强度和共现紧密度越高,联想系数Ai越大,联想强度越高。
步骤S72:对得到的联想系数Ai进行从大到小的排序。
根据各邻近词的联想系数Ai,按照从大到小进行排序,从而得到各邻近词按照联想强度从高到低的排序。
步骤S73:按照排序结果,显示联想系数Ai对应的邻近词。
显示的联想结果中包含联想系数Ai的排序,更加便于用户选择语义最为接近的联想词。
上述实施例更加适用于输入法显示推荐词,利用用户已输入的词信息,即待分析词,综合推断当前可能的联想词,这样就能利用语义信息,更加精准地为用户推荐联想词。
本实施例将词联想问题,转化为从大语料中挖掘语义强相关词关联任务。充分利用了词与词间的句法结构信息,根据词间的句法树距离,得到关键分析词周围词的语义相关强度,利用其tfidf信息可以进一步挖掘词间的共现紧密度,结合两个信息,得到词间的联想系数,通过排序得到待分析词与其在大语料中的联想词分布情况。
可见,本实施例一方面实现了对待分析词的上下关联词的分布信息提取;另一方面利用利用词间语义信息,综合考虑到不同的词组组合,其语义关联强度是不一样的。从而使得最终的联想结果,可精准把握词语义信息,在输入法词推荐时,充分利用用户已输入内容的语义信息进行联想词推荐,满足用户的需求。
优选地,步骤S63的实现方式为:
其中,nwi为邻近词在历史文本数据中出现的次数,nw0为待分析词在历史文本数据出现的次数,ni为邻近词与待分析词在历史文本数据的上下文共现次数。
步骤S71的实现方式为:
对于某一个邻近词来说,可能出现在多个目标子文本数据中,在其中一个目标子文本数据中,根据该目标子文本数据句法树关系,得到邻近词与待分析词的关系距离li,取其倒数,得到邻近词与待分析词的句法距离系数Li。其中,句法距离系数Li的取值范围在0到1之间。从而根据该邻近词出现的多个目标子文本数据,可得到该邻近词与待分析词的多个句法距离系数Li,结合该邻近词出现的次数,得到该邻近词与待分析词的平均句法距离系数L。其中,即
因此,在该步骤中,联想系数Ai可由邻近词与待分析词的平均句法距离系数L,与邻近词与待分析词的变形tfidf值Ti的乘积而来,即Ai=L×Ti。
参见图3,步骤S73包括:
步骤S731:按照排序结果,对联想系数Ai对应的邻近词进行排序。
步骤S732:对邻近词进行词联想,并生成邻近词的联想词列表。
步骤S733:组合并显示邻近词与对应的联想词列表。
在本实施例中,获取待分析词的多个邻近词的排序后,完成一级词联想过程。进一步地,还可采用同样的词联想方法分别对这些邻近词进行词联想,从而完成二级词联想过程。
在二级词联想过程中,对于某一个邻近词来说,可获取该邻近词的若干个联想词,这些联想词按照联想系数进行排序,并与邻近词组成新的组合,新的组合可作为本实施例中显示的最终联想结果。
例如,待分析词为“W0”,在一级词联想中,确定“X1、X2、X3”为一级联想结果,其中,“X1、X2、X3”为“W0”的若干个邻近词,其按照联想系数完成排序。在二级词联想中,“X1”的联想结果为:“X11、X12、X13”,“X2”的联想结果为:“X21、X22、X23”,“X3”的联想结果为:“X31、X32、X33”,与一级联想结果结合,形成最终联想结果:“X1X11、X1X12、X1X13、X2X21、X2X22、X2X23、X3X31、X3X32、X3X33”。
可以看出,基于两级词联想的方法,可得到更多的联想词,以供用户选择,而且,两级词联想均采用本实施例中的结合语义和共现频率的手段,进一步满足用户的使用环境,提高用户体验。
优选地,在显示最终联想结果之前,可进行的词联想级数不作限制,为了提高更多、更精确的联想词,词联想级数可以是两级,或者更多的级数。
综上所述,本发明实施例重点对大量语料的词联想算法进行了拓新,利用了待分析词及上下文的邻近词在句子中的句法结构关系,并且结合其统计信息tfidf值,计算它们的联想系数,从而得到待分析词在大语料中的联想词,以及关键联想词的上下文联想词。
参见图4,在步骤S1之前,还包括:
步骤S8:对历史文本数据进行预处理。
示例性地,步骤S8包括:
对历史文本数据采用统一格式进行编码。
统一编码格式为UTF-8无BOM。通过统一的编码格式,实现对历史文本数据同一存储、读入等。
对历史文本数据的无意义内容进行过滤。
无意义内容包括火星文、无意义字符、特殊字符等,其中,表情符可转化为对应含义的代表词语。
对历史文本数据进行分行处理。
对历史文本数据进行分词和去停用词处理。
对分行后的文本进行分词,将其中的标点去除,根据停用词表去除文本中的停用词。
其中,中文分词是指将一个汉字序列切分成一个一个单独的词,即将字序列按照一定的规范重新组合成词序列的过程。是汉语文本挖掘的基础,对于输入的汉语文本进行分词,可以达到让计算机识别句子含义的效果,属于自然语言处理的范畴。
可参考地,历史文本数据为10M大小。
本发明实施例可以用于计算机对大量未知内容文本语料进行分析,自动提取出给定词的联想词,此处联想词指给定词周围的强语义关联词。具体可应用于输入法的自动补充短语或词组,亦可用于为用户快速检索关注词周围的信息,挖掘语料关键词的行文脉络。在一定程度上满足商业人员进行商业输入法升级、信息挖掘等方面的需求,同时在一定程度上可以满足用户对特定文本(如机器翻译文本、语音识别文本)进行文本顺滑的需求。
在输入法、翻译、语音识别等自然语言处理领域,经常需要对特定词语接下来的内容进行确定,从而本实施例中的词联想方法可起到了重要的作用。
例如在输入法中,当用户输入一个词时,输入法会在“输入确认栏”中给出一些新的词语,方便用户选用。基于不同用户的聊天方式、认知范围都不相同,本实施例适应用户的用语习惯,精准把握语义信息,在相同给定词后面输入不一样的内容,为用户提供语义相关的推荐词,提升用户体验,从而提高用户对输入法的忠实度,避免因推荐词较差而导致用户流失的现象。
又如在机器翻译和语音识别中,围绕给定词进行挖掘周围强语义关联词提供较流畅的翻译文本和识别文本,提升人类阅读性。
另外,本实施例中的词联想方法还有助于人们更好的把握文本的关键讨论点的脉络。
可见,本实施例利用大量的已知文本(如用户累积的历史输入内容),通过新的词联想算法,实现词联想功能,发掘任意给定词的联想词列表。相比于传统词联想利用人工经验进行总结,建立一些常见的联想词串数据集而言,本实施例减少人工工作量,同时不受限于人工的认知范围和接触内容;而相比于传统词联想从一些已知的文本中采集一些词串的统计信息,进行频率排序进行推荐返回而言,避免了切断词与词间的语义相关性的现象。
实施例二
参见图5,本实施例提供了一种词联想装置,包括:
读入模块10,用于按照预设规则依次读入历史文本数据,将历史文本数据划分为若干个子文本数据;
分析模块20,用于分别对每个子文本数据进行句法结构分析;
读取模块30,用于读取给定的待分析词;
识别模块40,用于在若干个子文本数据中,识别待分析词所属的至少一个目标子文本数据;
提取模块50,用于从目标子文本数据中,提取至少一个待分析词的邻近词;
联想模块60,用于根据目标子文本数据的句法结构分析结论,得到对应的邻近词与待分析词的语义相关强度和共现紧密度;
显示模块70,用于根据语义相关强度和共现紧密度,显示联想结果。
在本实施例中,将大量的历史文本数据作为词联想的数据库,从而在数据库中识别待分析词,同时提取与待分析词相近的若干个邻近词,进一步综合考虑每个邻近词与待分析词的语义相关强度和共现紧密度,根据各邻近词与待分析词的语义相关强度和共现紧密度,显示各邻近词作为联想结果。可见,本实施例中的词联想方法在显示联想结果时,不仅考虑到邻近词与待分析词的共现紧密度,即与待分析词结合使用的频率,还考虑到邻近词与待分析词的语义相关强度,联想结果结合语义后,可精准把握语义信息,使语句更加通顺。特别是当历史文本数据包含大量的用户使用数据,联想结果更加倾向用户希望表达的语义,与用户的输入习惯接近,满足不同用户的个性化需求,提高用户使用体验。
参见图6,联想模块60包括:
句法树关系确定单元61,用于根据目标子文本数据的句法结构分析结论,得到对应的邻近词与待分析词的句法树关系;
语义相关强度判别单元62,用于根据句法树关系,得到邻近词与待分析词的关系距离li;其中,关系距离li用于体现语义相关强度;
共现紧密度判别单元63,用于基于历史文本数据,得到邻近词与待分析词的变形tfidf值Ti;其中,变形tfidf值Ti用于体现共现紧密度;
显示模块70包括:
联想系数确定单元71,用于根据关系距离li和变形tfidf值Ti,得到邻近词与待分析词的联想系数Ai;
联想系数排序单元72,用于对得到的联想系数Ai进行从大到小的排序;
联想词显示单元73,用于按照排序结果,显示联想系数Ai对应的邻近词。
进一步地,共现紧密度判别单元63包括:
其中,nwi为邻近词在历史文本数据中出现的次数,nw0为待分析词在历史文本数据出现的次数,ni为邻近词与待分析词在历史文本数据的上下文共现次数;
联想系数确定单元71包括:
进一步地,联想词显示单元73包括:
一级联想词获取子单元731,用于按照排序结果,对联想系数Ai对应的邻近词进行排序;
二级联想词获取子单元732,用于对邻近词进行词联想,并生成邻近词的联想词列表;
组合联想词显示子单元733,用于组合并显示邻近词与对应的联想词列表。
优选地,词联想装置还包括:
预处理模块80,用于对历史文本数据进行预处理。
本发明实施例提供的词联想装置能够实现图1至图4的方法实施例中词联想装置实现的各个过程,为避免重复,这里不再赘述。
优选地,实施例一中的词联想方法可应用于计算机服务器,实施例二中的词联想装置可为计算机服务器中的部分装置。
说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种词联想方法和一种词联想装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种词联想方法,其特征在于,包括:
按照预设规则依次读入历史文本数据,将所述历史文本数据划分为若干个子文本数据;
分别对每个所述子文本数据进行句法结构分析;
读取给定的待分析词;
在所述若干个子文本数据中,识别所述待分析词所属的至少一个目标子文本数据;
从所述目标子文本数据中,提取至少一个所述待分析词的邻近词;
根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的语义相关强度和共现紧密度;
根据所述语义相关强度和所述共现紧密度,显示联想结果;
所述根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的语义相关强度和共现紧密度的步骤,包括:
根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的句法树关系;
根据所述句法树关系,得到所述邻近词与所述待分析词的关系距离li;其中,所述关系距离li用于体现所述语义相关强度;
基于所述历史文本数据,得到所述邻近词与所述待分析词的变形tfidf值Ti;其中,所述变形tfidf值Ti用于体现所述共现紧密度;
所述根据所述语义相关强度和所述共现紧密度,显示联想结果的步骤,包括:
根据所述关系距离li和所述变形tfidf值Ti,得到所述邻近词与所述待分析词的联想系数Ai;
对得到的所述联想系数Ai进行从大到小的排序;
按照排序结果,显示所述联想系数Ai对应的所述邻近词;
所述基于所述历史文本数据,得到所述邻近词与所述待分析词的变形tfidf值Ti的步骤,包括:
其中,nwi为所述邻近词在所述历史文本数据中出现的次数,nw0为所述待分析词在所述历史文本数据出现的次数,ni为所述邻近词与所述待分析词在所述历史文本数据的上下文共现次数;
所述根据所述关系距离li和所述变形tfidf值Ti,得到所述邻近词与所述待分析词的联想系数Ai的步骤,包括:
2.根据权利要求1所述的词联想方法,其特征在于,所述按照排序结果,显示所述联想系数Ai对应的所述邻近词的步骤,包括:
按照排序结果,对所述联想系数Ai对应的所述邻近词进行排序;
对所述邻近词进行词联想,并生成所述邻近词的联想词列表;
组合并显示所述邻近词与对应的所述联想词列表。
3.根据权利要求1~2任一项所述的词联想方法,其特征在于,所述按照预设规则依次读入历史文本数据,将所述历史文本数据划分为若干个子文本数据的步骤之前,还包括:
对所述历史文本数据进行预处理。
4.一种词联想装置,其特征在于,包括:
读入模块,用于按照预设规则依次读入历史文本数据,将所述历史文本数据划分为若干个子文本数据;
分析模块,用于分别对每个所述子文本数据进行句法结构分析;
读取模块,用于读取给定的待分析词;
识别模块,用于在所述若干个子文本数据中,识别所述待分析词所属的至少一个目标子文本数据;
提取模块,用于从所述目标子文本数据中,提取至少一个所述待分析词的邻近词;
联想模块,用于根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的语义相关强度和共现紧密度;
显示模块,用于根据所述语义相关强度和所述共现紧密度,显示联想结果;
所述联想模块包括:
句法树关系确定单元,用于根据所述目标子文本数据的句法结构分析结论,得到对应的所述邻近词与所述待分析词的句法树关系;
语义相关强度判别单元,用于根据所述句法树关系,得到所述邻近词与所述待分析词的关系距离li;其中,所述关系距离li用于体现所述语义相关强度;
共现紧密度判别单元,用于基于所述历史文本数据,得到所述邻近词与所述待分析词的变形tfidf值Ti;其中,所述变形tfidf值Ti用于体现所述共现紧密度;
所述显示模块包括:
联想系数确定单元,用于根据所述关系距离li和所述变形tfidf值Ti,得到所述邻近词与所述待分析词的联想系数Ai;
联想系数排序单元,用于对得到的所述联想系数Ai进行从大到小的排序;
联想词显示单元,用于按照排序结果,显示所述联想系数Ai对应的所述邻近词;
所述共现紧密度判别单元包括:
其中,nwi为所述邻近词在所述历史文本数据中出现的次数,nw0为所述待分析词在所述历史文本数据出现的次数,ni为所述邻近词与所述待分析词在所述历史文本数据的上下文共现次数;
所述联想系数确定单元包括:
5.根据权利要求4所述的词联想装置,其特征在于,所述联想词显示单元包括:
一级联想词获取子单元,用于按照排序结果,对所述联想系数Ai对应的所述邻近词进行排序;
二级联想词获取子单元,用于对所述邻近词进行词联想,并生成所述邻近词的联想词列表;
组合联想词显示子单元,用于组合并显示所述邻近词与对应的所述联想词列表。
6.根据权利要求4 ~5 任一项所述的词联想装置,其特征在于,还包括:
预处理模块,用于对所述历史文本数据进行预处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810820915.5A CN109298796B (zh) | 2018-07-24 | 2018-07-24 | 一种词联想方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810820915.5A CN109298796B (zh) | 2018-07-24 | 2018-07-24 | 一种词联想方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109298796A CN109298796A (zh) | 2019-02-01 |
CN109298796B true CN109298796B (zh) | 2022-05-24 |
Family
ID=65168002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810820915.5A Active CN109298796B (zh) | 2018-07-24 | 2018-07-24 | 一种词联想方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109298796B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110083837B (zh) * | 2019-04-26 | 2023-11-24 | 科大讯飞股份有限公司 | 一种关键词生成方法及装置 |
CN113760951B (zh) * | 2021-08-06 | 2024-10-01 | 梁晓伟 | 一种配网关键词自动联想方法 |
CN114036907B (zh) * | 2021-11-18 | 2024-06-25 | 国网江苏省电力有限公司电力科学研究院 | 一种基于领域特征的文本数据扩增方法 |
CN114637411B (zh) * | 2022-04-07 | 2025-01-03 | 科大讯飞股份有限公司 | 一种整句联想方法、装置、设备及存储介质 |
CN115113740A (zh) * | 2022-07-04 | 2022-09-27 | 腾讯科技(上海)有限公司 | 一种信息输入方法、装置、设备、存储介质及程序产品 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06195371A (ja) * | 1992-09-25 | 1994-07-15 | Nec Corp | 未登録語獲得方式 |
JP2008123111A (ja) * | 2006-11-09 | 2008-05-29 | Kyushu Institute Of Technology | 文書類似性導出装置及びそれを用いた回答支援システム |
CN101520775A (zh) * | 2009-02-17 | 2009-09-02 | 北京大学 | 一种融入语义信息的中文句法分析方法 |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN104462052A (zh) * | 2013-09-22 | 2015-03-25 | 上海博科资讯股份有限公司 | 一种实现智能联想的行业词语关联度分词方法 |
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN106844331A (zh) * | 2016-12-13 | 2017-06-13 | 苏州大学 | 一种句子相似度计算方法和系统 |
CN106897309A (zh) * | 2015-12-18 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种相似词的聚合方法和装置 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
-
2018
- 2018-07-24 CN CN201810820915.5A patent/CN109298796B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06195371A (ja) * | 1992-09-25 | 1994-07-15 | Nec Corp | 未登録語獲得方式 |
JP2008123111A (ja) * | 2006-11-09 | 2008-05-29 | Kyushu Institute Of Technology | 文書類似性導出装置及びそれを用いた回答支援システム |
CN101520775A (zh) * | 2009-02-17 | 2009-09-02 | 北京大学 | 一种融入语义信息的中文句法分析方法 |
CN101840397A (zh) * | 2009-03-20 | 2010-09-22 | 日电(中国)有限公司 | 词义消歧方法和系统 |
CN104462052A (zh) * | 2013-09-22 | 2015-03-25 | 上海博科资讯股份有限公司 | 一种实现智能联想的行业词语关联度分词方法 |
CN103500160A (zh) * | 2013-10-18 | 2014-01-08 | 大连理工大学 | 一种基于滑动语义串匹配的句法分析方法 |
CN103853824A (zh) * | 2014-03-03 | 2014-06-11 | 沈之锐 | 一种基于深度语义挖掘的内文广告发布方法与系统 |
CN105279252A (zh) * | 2015-10-12 | 2016-01-27 | 广州神马移动信息科技有限公司 | 挖掘相关词的方法、搜索方法、搜索系统 |
CN106897309A (zh) * | 2015-12-18 | 2017-06-27 | 阿里巴巴集团控股有限公司 | 一种相似词的聚合方法和装置 |
CN106844331A (zh) * | 2016-12-13 | 2017-06-13 | 苏州大学 | 一种句子相似度计算方法和系统 |
CN107329949A (zh) * | 2017-05-24 | 2017-11-07 | 北京捷通华声科技股份有限公司 | 一种语义匹配方法和系统 |
Non-Patent Citations (5)
Title |
---|
BNS feature scaling: an improved representation over tf-idf for svm text classification;Forman George;《Proceedings of the 17th ACM conference on Information and knowledge management》;20081031;263-270 * |
Keyword extraction from a single document using word co-occurrence statistical information;Matsuo Yutaka 等;《International Journal on Artificial Intelligence Tools》;20041231;第13卷(第1期);157-169 * |
基于树库的汉语依存句法分析;刘海涛 等;《模式识别与人工智能》;20090215;第22卷(第1期);17-21 * |
汉语依存句法分析方法的研究与实现;姚文琳;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20110615(第06期);I138-49 * |
英文篇章结构分析关键问题研究;徐凡;《中国优秀博硕士学位论文全文数据库(博士)信息科技辑》;20141115(第11期);I138-48 * |
Also Published As
Publication number | Publication date |
---|---|
CN109298796A (zh) | 2019-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112069298B (zh) | 基于语义网和意图识别的人机交互方法、设备及介质 | |
CN108304375B (zh) | 一种信息识别方法及其设备、存储介质、终端 | |
CN108363790B (zh) | 用于对评论进行评估的方法、装置、设备和存储介质 | |
US10997370B2 (en) | Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time | |
CN109298796B (zh) | 一种词联想方法及装置 | |
CN108647205B (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN111221962B (zh) | 一种基于新词扩展与复杂句式扩展的文本情感分析方法 | |
CN106156204B (zh) | 文本标签的提取方法和装置 | |
CN104008091B (zh) | 一种基于情感值的网络文本情感分析方法 | |
US20100205198A1 (en) | Search query disambiguation | |
CN111125349A (zh) | 基于词频和语义的图模型文本摘要生成方法 | |
CN107180025B (zh) | 一种新词的识别方法及装置 | |
CN110134792B (zh) | 文本识别方法、装置、电子设备以及存储介质 | |
CN102495892A (zh) | 一种网页信息抽取方法 | |
CN112182145B (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN108073571B (zh) | 一种多语言文本质量评估方法及系统、智能文本处理系统 | |
CN111260437A (zh) | 一种基于商品方面级情感挖掘和模糊决策的产品推荐方法 | |
CN109508441B (zh) | 通过自然语言实现数据统计分析的方法、装置及电子设备 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
JP4534666B2 (ja) | テキスト文検索装置及びテキスト文検索プログラム | |
CN117474703B (zh) | 基于社交网络的话题智能推荐方法 | |
CN114255096A (zh) | 数据需求匹配方法和装置、电子设备、存储介质 | |
CN114722836B (zh) | 摘要生成方法、装置、设备及介质 | |
CN103020311B (zh) | 一种用户检索词的处理方法及系统 | |
Yatim et al. | A corpus-based lexicon building in Indonesian political context through Indonesian online news media |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |