CN118093834B - 一种基于aigc大模型的语言处理问答系统及方法 - Google Patents
一种基于aigc大模型的语言处理问答系统及方法 Download PDFInfo
- Publication number
- CN118093834B CN118093834B CN202410479542.5A CN202410479542A CN118093834B CN 118093834 B CN118093834 B CN 118093834B CN 202410479542 A CN202410479542 A CN 202410479542A CN 118093834 B CN118093834 B CN 118093834B
- Authority
- CN
- China
- Prior art keywords
- domain
- aigc
- answer
- question
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 17
- 238000005516 engineering process Methods 0.000 claims abstract description 16
- 239000013598 vector Substances 0.000 claims description 29
- 230000006870 function Effects 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 11
- 238000003058 natural language processing Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 11
- 238000013507 mapping Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 230000010354 integration Effects 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 230000004913 activation Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005259 measurement Methods 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 6
- 238000009966 trimming Methods 0.000 claims description 6
- 238000010845 search algorithm Methods 0.000 claims description 5
- 230000009471 action Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 239000000470 constituent Substances 0.000 claims description 3
- 238000000354 decomposition reaction Methods 0.000 claims description 3
- 238000013136 deep learning model Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000012804 iterative process Methods 0.000 claims description 3
- 230000008520 organization Effects 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 2
- 239000003550 marker Substances 0.000 claims 1
- 230000002787 reinforcement Effects 0.000 abstract description 2
- 230000003993 interaction Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及语言处理技术领域,具体涉及一种基于AIGC大模型的语言处理问答系统及方法,包括以下步骤:接收用户输入的自然语言问题,并通过语法分析和语义理解技术提取关键信息;将提取的关键信息输入到基于AIGC的语言模型中,经过领域适应性增强处理,AIGC大模型根据输入信息和增强的领域知识生成系列答案候选;评估答案候选,以选取最优答案;将最优答案以自然语言的形式输出给用户。本发明,显著增强了AIGC大模型对特定领域问题的适应性和处理能力。这种适应性强化不仅提升了问答系统在各个专业领域内的应用范围,还增强了其在面对新领域或冷门问题时的灵活性和准确性。
Description
技术领域
本发明涉及语言处理技术领域,尤其涉及一种基于AIGC大模型的语言处理问答系统及方法。
背景技术
在当前的技术背景下,人工智能和自然语言处理(NLP)领域已经取得了显著的进展,尤其是在语言理解和生成方面。AIGC(人工智能生成内容)技术,特别是大型预训练语言模型,已经在多种语言处理任务中展现出了强大的能力,这些模型能够理解复杂的语言结构、上下文含义以及执行多种基于语言的任务,如文本分类、情感分析、文本摘要和问答等。
尽管如此,现有的语言处理问答系统仍面临着一些关键挑战。其中之一是如何有效地理解和回答那些涉及特定领域(如医疗、法律或科技等)的冷门问题,这些问题通常包含专业术语和复杂概念,需要系统具备深入的领域知识和理解能力。此外,现有技术在生成的答案多样性、自然性和用户交互方面也存在局限性。
此外,尽管大模型具有广泛的知识覆盖范围,但它们在特定领域的适应性和灵活性方面仍然有限。例如,一个经过广泛数据训练的通用语言模型可能难以准确处理那些仅在特定专业领域中才会出现的冷门术语和问题。因此,提高模型在特定领域内的性能,以及提升答案的准确性、相关性和自然性,成为了研究和发展的重点。
综上所述,虽然现有的AIGC技术和语言模型在处理广泛的语言任务方面取得了显著成就,但在特定领域问答、答案质量优化以及用户交互体验方面仍有待改进。因此,开发一种能够有效整合领域知识、提高答案生成质量,并优化用户交互的语言处理问答方法,对于推动语言处理技术的进一步发展具有重要意义。
发明内容
基于上述目的,本发明提供了一种基于AIGC大模型的语言处理问答系统及方法。
一种基于AIGC大模型的语言处理问答方法,包括以下步骤:
S1:接收用户输入的自然语言问题,并通过语法分析和语义理解技术提取关键信息;
S2:将提取的关键信息输入到基于AIGC的语言模型中,经过领域适应性增强处理,AIGC大模型根据输入信息和增强的领域知识生成系列答案候选;
S3:评估答案候选,以选取最优答案;
S4:将最优答案以自然语言的形式输出给用户。
进一步的,所述S1具体包括:
S11,接收:通过用户界面接收用户输入的自然语言问题,该用户界面支持文本输入和语音输入两种模式;
S12,预处理:对用户输入的问题进行预处理,包括去除无关字符、纠正拼写错误、转换语音输入为文本(若初次是语音输入);
S13,语法分析:利用自然语言处理技术对问题进行语法分析,识别句子结构,包括主语、谓语、宾语的句子成分;
S14,语义理解:通过深度学习模型和自然语言理解算法对问题进行语义分析,理解问题的意图和上下文含义;
S15,关键信息提取:基于语法分析和语义理解的结果,提取问题中的关键信息,关键信息包括:
关键词汇:问题中的主要名词、动词和形容词以及指代特定概念、对象或动作的词汇;
实体识别:问题中提及的具体实体,包括人名、地点、组织、日期;
关系和属性:问题中暗示的实体之间的关系以及相关的属性和特征;
问题类型:基于问题的结构和用词判断问题的类型,包括事实查询、解释请求还是操作指南。
进一步的,所述S2中的领域适应性增强处理具体包括:
S21:利用领域识别算法确定问题所属的具体领域,并提取与该具体领域相关的问题和术语库;
S22:通过与具体领域专家合作构建的领域特定知识图谱,将问题中的冷门术语和概念与图谱中的节点相匹配,以理解其深层含义和上下文关系;
S23:结合问题的上下文和领域知识图谱,对AIGC大模型进行实时调整,以增强模型对冷门问题和专业术语的处理能力;
S24:将调整后的问题表示和领域知识作为增强信息输入到基于AIGC的语言模型中,为生成更准确和专业的答案做准备。
进一步的,所述S21具体包括:
特征提取:从用户问题中提取语言特征,包括词频、词性标注、语义角色标注和上下文嵌入向量,这些特征能够综合反映问题的语言特性和深层语义;
领域特征向量化:将提取的特征转化为领域特征向量,其中每个维度代表与领域相关的语言特征的数值表达;
领域相似度计算:利用领域识别算法计算问题特征向量与预定义领域向量集(每个领域向量代表一个特定领域的特征向量)之间的相似度,相似度计算:;
其中,代表向量的点积,和分别是向量和的欧几里得范数;
领域确定:选择相似度最高的领域向量对应的领域作为问题所属的具体领域;
术语库提取:根据确定的领域,从数据库中提取与该领域相关的专业问题和术语库,包括领域内的关键术语、定义、常见问题及其解答信息。
进一步的,所述S22具体包括:
构建知识图谱:与领域专家合作,构建包含领域内重要概念、术语、实体及其相互关系的知识图谱,每个节点代表一个领域内的概念或实体,节点之间的边表示概念或实体之间的关系;
冷门术语识别:通过自然语言处理技术分析用户问题,识别出问题中的冷门术语和概念,冷门术语指在语料库中出现频率低,但在具体领域内具有具体意义的词汇;
术语图谱映射:将识别出的冷门术语和概念与知识图谱中的节点进行映射,映射过程采用基于语义相似度的匹配算法,考虑术语的语义特征和图谱节点的属性,以确定最佳匹配节点;
上下文关系解析:利用知识图谱中的边来解析问题中冷门术语和概念的上下文关系,通过分析与匹配节点相连的其他节点及其关系类型,揭示冷门术语在具体问题中的作用和意义;
深层含义理解:综合使用图谱的结构信息和术语的上下文关系,解析冷门术语和概念的深层含义。
进一步的,所述S23具体包括:
S231,上下文和领域知识整合:将问题的上下文信息和通过领域知识图谱获得的关于冷门术语及其相关概念的深层含义和关系整合成一个增强特征表示,增强特征表示包括问题的原始语义信息、具体领域深层知识;
S232,特征转换:使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式,编码器表示为:,其中,是输入特征,是编码器权重,是偏置项,是激活函数,是生成的隐藏层表示(即编码);解码器表示为:,其中,是解码器权重,是偏置项,是激活函数,是重构的输入,自编码器的目标是最小化输入和重构输入之间的差异,使用损失函数:,训练自编码器最小化损失函数,学习到输入数据的压缩表示,压缩表示用于特征转换;
S233,模型调整:基于转换后的特征表示,对AIGC大模型的参数进行实时调整,调整过程采用迁移学习,让AIGC大模型适应当前问题的具体领域背景和语义要求,迁移学习过程为:
在源任务上预训练模型,学习源域数据的表示;
将预训练模型的一部分(如特征提取层)迁移到目标任务上;
在目标域数据上微调迁移的模型部分,同时保持或微调其他部分;
S234,增强的处理能力验证:通过预设的验证机制检验模型调整后对冷门问题和专业术语的处理能力是否得到明显增强,确保调整效果符合预期。
进一步的,所述S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括:
增强信息整合:将用户问题的调整后表示和领域知识整合为一个增强信息集,增强信息集包括调整后的问题特征、领域特定术语、概念及其相互关系;
上下文感知编码:利用编码器处理增强信息集,以捕捉问题的深层语义特征和领域知识之间的复杂关系,编码器输出一个综合问题上下文和领域知识的高维特征表示;
答案生成:将编码后的高维特征表示输入到AIGC大模型的解码器中,解码器利用高维特征表示,在考虑问题上下文和领域知识的基础上,通过序列生成机制生成系列答案候选。
进一步的,所述S3中,采用束搜索(Beam Search)评估答案候选,并且使生成的答案既多样化又高度相关,所述束搜索具体包括:
初始化:设定束宽,在解码开始时,初始化一个大小为的候选束(集合),每个候选项包含仅有起始标记(如〈start>)的部分解序列;
迭代扩展:在每一步迭代中,对于束中的每个部分解序列,预测下一个词汇(或标记)及其概率,对于每个部分解,选择概率最高的个词汇,与该部分解结合,形成新的部分解序列;
计算分数:每个新生成的部分解序列的分数通过累加其构成词汇的对数概率来计算,公式如下:
,其中,是部分解序列,是序列中的第个词汇,是给定上文和上下文(即问题表示和领域知识)时,词汇的条件概率,是序列中词汇的数量;
选择保留:在每一步迭代后,从所有新生成的部分解序列中选择分数最高的个部分解,加入到束中,以供下一轮迭代扩展使用;
终止条件:迭代过程持续进行,直到达到预定义的最大长度,或者束中的部分解序列以结束标记(如〈end>)结尾;
从最终的束中选择分数最高的序列作为答案候选,在需要多个答案候选的情况下,选择排序靠前的序列。
进一步的,所述S4还包括根据答案的内容和类型,选择格式化方式、为答案添加上下文信息,在答案中高亮或强调关键信息,包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。
一种基于AIGC大模型的语言处理问答系统,用于实现上述的一种基于AIGC大模型的语言处理问答方法,包括以下模块:
用户接口模块:负责接收用户输入的自然语言问题,并支持问题的文本和语音形式输入,该模块还负责将最终的答案以自然、用户友好的方式呈现给用户;
问题理解模块:使用自然语言处理技术对用户输入的问题进行语法分析和语义理解,提取问题的关键信息,包括关键词汇、实体、关系和问题类型;
领域适应性增强处理模块:包含领域识别子模块、领域知识图谱匹配子模块和领域适应性算法子模块,用于确定问题所属的具体领域,匹配领域知识图谱中的相关概念,并实时调整AIGC大模型;
答案生成模块:利用经过领域适应性增强处理后的AIGC大模型,根据问题的上下文和领域知识,生成系列答案候选,采用束搜索算法来优化答案生成过程;
答案评估和选择模块:通过综合评价答案候选,包括内容重叠度量、语义相似度度量、语言流畅度检查和语法正确性验证,以选取最优答案。
本发明的有益效果:
本发明,通过结合领域适应性增强处理和领域知识图谱,本方法能够精准地理解并回答涉及特定领域冷门问题和专业术语的查询,这一过程不仅增强了模型对问题深层含义的理解,还确保了答案的准确性和高度相关性,从而满足专业领域用户的需求。
本发明,通过领域适应性增强处理,能够深入理解特定领域的冷门术语和复杂概念,确保了答案的专业性和准确性,这种深度理解使得系统能够处理和回答那些传统语言模型难以准确捕捉的专业领域问题,利用领域知识图谱和实时调整机制,本方法显著增强了AIGC大模型对特定领域问题的适应性和处理能力。这种适应性强化不仅提升了问答系统在各个专业领域内的应用范围,还增强了其在面对新领域或冷门问题时的灵活性和准确性。
本发明,通过束搜索算法,本方法能够在广泛的候选答案中精选出最优质的答案。这种选择机制基于答案的相关性和自然性进行综合评分,确保了最终呈现给用户的答案不仅与问题高度相关,而且语言表达流畅自然,束搜索算法通过在每一步中保留多个最优候选解,确保了答案的多样性。这种多样性对于处理具有多种可能答案的开放式问题尤为重要,能够提供更全面的信息,满足不同用户的需求。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程示意图;
图2为本发明实施例的系统模块示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本发明进一步详细说明。
需要说明的是,除非另外定义,本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如图1所示,一种基于AIGC大模型的语言处理问答方法,包括以下步骤:
S1:接收用户输入的自然语言问题,并通过语法分析和语义理解技术提取关键信息;
S2:将提取的关键信息输入到基于AIGC的语言模型中,经过领域适应性增强处理,AIGC大模型根据输入信息和增强的领域知识生成系列答案候选;
S3:评估答案候选,以选取最优答案;
S4:将最优答案以自然语言的形式输出给用户。
S1具体包括:
S11,接收:通过用户界面接收用户输入的自然语言问题,该用户界面支持文本输入和语音输入两种模式;
S12,预处理:对用户输入的问题进行预处理,包括去除无关字符、纠正拼写错误、转换语音输入为文本(若初次是语音输入);
S13,语法分析:利用自然语言处理技术对问题进行语法分析,识别句子结构,包括主语、谓语、宾语的句子成分;
S14,语义理解:通过深度学习模型和自然语言理解算法对问题进行语义分析,理解问题的意图和上下文含义;
S15,关键信息提取:基于语法分析和语义理解的结果,提取问题中的关键信息,关键信息包括:
关键词汇:问题中的主要名词、动词和形容词以及指代特定概念、对象或动作的词汇;
实体识别:问题中提及的具体实体,包括人名、地点、组织、日期;
关系和属性:问题中暗示的实体之间的关系以及相关的属性和特征;
问题类型:基于问题的结构和用词判断问题的类型,包括事实查询、解释请求还是操作指南。
S2中的领域适应性增强处理具体包括:
S21:利用领域识别算法确定问题所属的具体领域,并提取与该具体领域相关的问题和术语库;
S22:通过与具体领域专家合作构建的领域特定知识图谱,将问题中的冷门术语和概念与图谱中的节点相匹配,以理解其深层含义和上下文关系;
S23:结合问题的上下文和领域知识图谱,对AIGC大模型进行实时调整,以增强模型对冷门问题和专业术语的处理能力;
S24:将调整后的问题表示和领域知识作为增强信息输入到基于AIGC的语言模型中,为生成更准确和专业的答案做准备。
将增强信息输入到基于AIGC的语言模型。
模型输入调整:根据AIGC语言模型的输入要求,将增强信息编码表示整合到模型的输入中,需要调整模型的输入层,以接受新的增强信息向量作为额外的输入。
上下文信息整合:在模型的解码阶段,使用增强信息作为额外的上下文信息来指导答案的生成,通过修改模型的注意力机制来实现,使模型在生成答案时考虑到增强信息提供的上下文和领域知识。
训练与微调:最后,需要在包含增强信息的数据集上对AIGC模型进行训练或微调,以适应新的输入格式和信息,确保模型能够有效地利用增强信息来生成更准确和相关的答案。
S21具体包括:
特征提取:从用户问题中提取语言特征,包括词频、词性标注、语义角色标注和上下文嵌入向量,这些特征能够综合反映问题的语言特性和深层语义;
领域特征向量化:将提取的特征转化为领域特征向量,其中每个维度代表与领域相关的语言特征的数值表达;
领域相似度计算:利用领域识别算法计算问题特征向量与预定义领域向量集(每个领域向量代表一个特定领域的特征向量)之间的相似度,相似度计算:;
其中,代表向量的点积,和分别是向量和的欧几里得范数,该公式衡量了问题特征向量和各领域向量在向量空间中的夹角,夹角越小,相似度越高;
领域确定:选择相似度最高的领域向量对应的领域作为问题所属的具体领域;
术语库提取:根据确定的领域,从数据库中提取与该领域相关的专业问题和术语库,包括领域内的关键术语、定义、常见问题及其解答信息。
S22具体包括:
构建知识图谱:与领域专家合作,构建包含领域内重要概念、术语、实体及其相互关系的知识图谱,每个节点代表一个领域内的概念或实体,节点之间的边表示概念或实体之间的关系,如“是一种”、“属于”、“相关于”;
冷门术语识别:通过自然语言处理技术分析用户问题,识别出问题中的冷门术语和概念,冷门术语指在语料库中出现频率低,但在具体领域内具有具体意义的词汇;
术语图谱映射:将识别出的冷门术语和概念与知识图谱中的节点进行映射,映射过程采用基于语义相似度的匹配算法,考虑术语的语义特征和图谱节点的属性,以确定最佳匹配节点;
上下文关系解析:利用知识图谱中的边来解析问题中冷门术语和概念的上下文关系,通过分析与匹配节点相连的其他节点及其关系类型,揭示冷门术语在具体问题中的作用和意义;
深层含义理解:综合使用图谱的结构信息和术语的上下文关系,解析冷门术语和概念的深层含义,帮助全面地理解问题,为生成准确和相关的答案提供支持。
S23具体包括:
S231,上下文和领域知识整合:将问题的上下文信息和通过领域知识图谱获得的关于冷门术语及其相关概念的深层含义和关系整合成一个增强特征表示,增强特征表示包括问题的原始语义信息、具体领域深层知识;
S232,特征转换:使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式,自编码器是一种无监督的神经网络,用于学习数据的有效编码。其基本结构包括一个编码器和一个解码器,编码器将输入数据转换成一个较低维度的编码,而解码器则试图从这个编码重构输入数据,编码器表示为:,其中,是输入特征,是编码器权重,是偏置项,是激活函数,是生成的隐藏层表示(即编码);解码器表示为:,其中,是解码器权重,是偏置项,是激活函数,是重构的输入,自编码器的目标是最小化输入和重构输入之间的差异,使用损失函数:,训练自编码器最小化损失函数,学习到输入数据的压缩表示,压缩表示用于特征转换;
S233,模型调整:基于转换后的特征表示,对AIGC大模型的参数进行实时调整,调整过程采用迁移学习,让AIGC大模型适应当前问题的具体领域背景和语义要求,迁移学习是一种利用在一个任务上学到的知识来提高在另一个相关任务上的学习效果的技术。在迁移学习中,通常有一个源任务和一个目标任务,以及相应的源域数据集和目标域数据集,迁移学习过程为:
在源任务上预训练模型,学习源域数据的表示;
将预训练模型的一部分(如特征提取层)迁移到目标任务上;
在目标域数据上微调迁移的模型部分,同时保持或微调其他部分;
S234,增强的处理能力验证:通过预设的验证机制检验模型调整后对冷门问题和专业术语的处理能力是否得到明显增强,确保调整效果符合预期。
验证机制采用交叉验证或模拟问题测试。
S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括:
增强信息整合:将用户问题的调整后表示和领域知识整合为一个增强信息集,增强信息集包括调整后的问题特征、领域特定术语、概念及其相互关系;
上下文感知编码:利用编码器处理增强信息集,以捕捉问题的深层语义特征和领域知识之间的复杂关系,编码器输出一个综合问题上下文和领域知识的高维特征表示;
答案生成:将编码后的高维特征表示输入到AIGC大模型的解码器中,解码器利用高维特征表示,在考虑问题上下文和领域知识的基础上,通过序列生成机制生成系列答案候选,解码器可以基于Transformer的结构,利用自注意力和交叉注意力机制来生成答案序列。
S3中,采用束搜索(Beam Search)评估答案候选,并且使生成的答案既多样化又高度相关,帮助避免生成高度重复的答案,同时确保答案的质量和相关性,对生成的答案候选进行后处理和优化,包括语法校正、语义一致性检查和领域知识验证,以提升答案的准确性和专业性,束搜索具体包括:
初始化:设定束宽,在解码开始时,初始化一个大小为的候选束(集合),每个候选项包含仅有起始标记(如〈start>)的部分解序列;
迭代扩展:在每一步迭代中,对于束中的每个部分解序列,预测下一个词汇(或标记)及其概率,对于每个部分解,选择概率最高的个词汇,与该部分解结合,形成新的部分解序列;
计算分数:每个新生成的部分解序列的分数通过累加其构成词汇的对数概率来计算,公式如下:
,其中,是部分解序列,是序列中的第个词汇,是给定上文和上下文(即问题表示和领域知识)时,词汇的条件概率,是序列中词汇的数量;
选择保留:在每一步迭代后,从所有新生成的部分解序列中选择分数最高的个部分解,加入到束中,以供下一轮迭代扩展使用;
终止条件:迭代过程持续进行,直到达到预定义的最大长度,或者束中的部分解序列以结束标记(如〈end>)结尾;
从最终的束中选择分数最高的序列作为答案候选,在需要多个答案候选的情况下,选择排序靠前的序列。
S4还包括根据答案的内容和类型,选择格式化方式,例如,如果答案是一个列表(如步骤、选项等),则以列表形式呈现;如果答案包含日期、数字或特定数据,则确保这些信息的格式标准化且易于阅读;
为答案添加上下文信息,使用户即使没有看到完整的问答历史也能理解答案,这可能包括简短的问题复述、引入答案的背景信息或解释特定术语;
在答案中高亮或强调关键信息,包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。
如图2所示,一种基于AIGC大模型的语言处理问答系统,用于实现上述的一种基于AIGC大模型的语言处理问答方法,包括以下模块:
用户接口模块:负责接收用户输入的自然语言问题,并支持问题的文本和语音形式输入,该模块还负责将最终的答案以自然、用户友好的方式呈现给用户;
问题理解模块:使用自然语言处理技术对用户输入的问题进行语法分析和语义理解,提取问题的关键信息,包括关键词汇、实体、关系和问题类型;
领域适应性增强处理模块:包含领域识别子模块、领域知识图谱匹配子模块和领域适应性算法子模块,用于确定问题所属的具体领域,匹配领域知识图谱中的相关概念,并实时调整AIGC大模型;
答案生成模块:利用经过领域适应性增强处理后的AIGC大模型,根据问题的上下文和领域知识,生成系列答案候选,采用束搜索算法来优化答案生成过程;
答案评估和选择模块:通过综合评价答案候选,包括内容重叠度量、语义相似度度量、语言流畅度检查和语法正确性验证,以选取最优答案。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明的不同方面的许多其它变化,为了简明它们没有在细节中提供。
本发明旨在涵盖落入权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本发明的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (4)
1.一种基于AIGC大模型的语言处理问答方法,其特征在于,包括以下步骤:
S1:接收用户输入的自然语言问题,并通过语法分析和语义理解技术提取关键信息;
S2:将提取的关键信息输入到基于AIGC的语言模型中,经过领域适应性增强处理,AIGC大模型根据输入信息和增强的领域知识生成系列答案候选,所述领域适应性增强处理具体包括:
S21:利用领域识别算法确定问题所属的具体领域,并提取与该具体领域相关的问题和术语库;
S22:通过与具体领域专家合作构建的领域特定知识图谱,将问题中的冷门术语和概念与图谱中的节点相匹配,以理解其深层含义和上下文关系;
S23:结合问题的上下文和领域知识图谱,对AIGC大模型进行实时调整,以增强模型对冷门问题和专业术语的处理能力;
S24:将调整后的问题表示和领域知识作为增强信息输入到基于AIGC的语言模型中,为生成更准确和专业的答案做准备;
所述S21具体包括:
特征提取:从用户问题中提取语言特征,包括词频、词性标注、语义角色标注和上下文嵌入向量;
领域特征向量化:将提取的特征转化为领域特征向量,其中每个维度代表与领域相关的语言特征的数值表达;
领域相似度计算:利用领域识别算法计算问题特征向量与预定义领域向量集之间的相似度,相似度计算:;
其中,代表向量的点积,和分别是向量和的欧几里得范数;
领域确定:选择相似度最高的领域向量对应的领域作为问题所属的具体领域;
术语库提取:根据确定的领域,从数据库中提取与该领域相关的专业问题和术语库,包括领域内的关键术语、定义、常见问题及其解答信息;
所述S22具体包括:
构建知识图谱:与领域专家合作,构建包含领域内重要概念、术语、实体及其相互关系的知识图谱,每个节点代表一个领域内的概念或实体,节点之间的边表示概念或实体之间的关系;
冷门术语识别:通过自然语言处理技术分析用户问题,识别出问题中的冷门术语和概念,冷门术语指在语料库中出现频率低,但在具体领域内具有具体意义的词汇;
术语图谱映射:将识别出的冷门术语和概念与知识图谱中的节点进行映射,映射过程采用基于语义相似度的匹配算法,考虑术语的语义特征和图谱节点的属性,以确定最佳匹配节点;
上下文关系解析:利用知识图谱中的边来解析问题中冷门术语和概念的上下文关系,通过分析与匹配节点相连的其他节点及其关系类型,揭示冷门术语在具体问题中的作用和意义;
深层含义理解:综合使用图谱的结构信息和术语的上下文关系,解析冷门术语和概念的深层含义;
所述S23具体包括:
S231,上下文和领域知识整合:将问题的上下文信息和通过领域知识图谱获得的关于冷门术语及其相关概念的深层含义和关系整合成一个增强特征表示,增强特征表示包括问题的原始语义信息、具体领域深层知识;
S232,特征转换:使用自编码器算法将整合后的特征表示转换为适用于AIGC大模型的形式,编码器表示为:,其中,是输入特征,是编码器权重,是偏置项,是激活函数,是生成的隐藏层表示;解码器表示为:,其中,是解码器权重,是偏置项,是激活函数,是重构的输入,自编码器的目标是最小化输入和重构输入之间的差异,使用损失函数:,训练自编码器最小化损失函数,学习到输入数据的压缩表示,压缩表示用于特征转换;
S233,模型调整:基于转换后的特征表示,对AIGC大模型的参数进行实时调整,调整过程采用迁移学习,让AIGC大模型适应当前问题的具体领域背景和语义要求,迁移学习过程为:
在源任务上预训练模型,学习源域数据的表示;
将预训练模型的一部分迁移到目标任务上;
在目标域数据上微调迁移的模型部分,同时保持或微调其他部分;
S234,增强的处理能力验证:通过预设的验证机制检验模型调整后对冷门问题和专业术语的处理能力是否得到明显增强,确保调整效果符合预期;
所述S2中的AIGC大模型根据输入信息和增强的领域知识生成系列答案候选具体包括:
增强信息整合:将用户问题的调整后表示和领域知识整合为一个增强信息集,增强信息集包括调整后的问题特征、领域特定术语、概念及其相互关系;
上下文感知编码:利用编码器处理增强信息集,以捕捉问题的深层语义特征和领域知识之间的复杂关系,编码器输出一个综合问题上下文和领域知识的高维特征表示;
答案生成:将编码后的高维特征表示输入到AIGC大模型的解码器中,解码器利用高维特征表示,在考虑问题上下文和领域知识的基础上,通过序列生成机制生成系列答案候选;
S3:评估答案候选,以选取最优答案,采用束搜索评估答案候选,并且使生成的答案既多样化又高度相关,所述束搜索具体包括:
初始化:设定束宽,在解码开始时,初始化一个大小为的候选束,每个候选项包含仅有起始标记的部分解序列;
迭代扩展:在每一步迭代中,对于束中的每个部分解序列,预测下一个词汇及其概率,对于每个部分解,选择概率最高的个词汇,与该部分解结合,形成新的部分解序列;
计算分数:每个新生成的部分解序列的分数通过累加其构成词汇的对数概率来计算,公式如下:
,其中,是部分解序列,是序列中的第个词汇,是给定上文和上下文时,词汇的条件概率,是序列中词汇的数量;
选择保留:在每一步迭代后,从所有新生成的部分解序列中选择分数最高的个部分解,加入到束中,以供下一轮迭代扩展使用;
终止条件:迭代过程持续进行,直到达到预定义的最大长度,或者束中的部分解序列以结束标记结尾;
从最终的束中选择分数最高的序列作为答案候选,在需要多个答案候选的情况下,选择排序靠前的序列;
S4:将最优答案以自然语言的形式输出给用户。
2.根据权利要求1所述的一种基于AIGC大模型的语言处理问答方法,其特征在于,所述S1具体包括:
S11,接收:通过用户界面接收用户输入的自然语言问题,该用户界面支持文本输入和语音输入两种模式;
S12,预处理:对用户输入的问题进行预处理,包括去除无关字符、纠正拼写错误、转换语音输入为文本;
S13,语法分析:利用自然语言处理技术对问题进行语法分析,识别句子结构,包括主语、谓语、宾语的句子成分;
S14,语义理解:通过深度学习模型和自然语言理解算法对问题进行语义分析,理解问题的意图和上下文含义;
S15,关键信息提取:基于语法分析和语义理解的结果,提取问题中的关键信息,关键信息包括:
关键词汇:问题中的主要名词、动词和形容词以及指代特定概念、对象或动作的词汇;
实体识别:问题中提及的具体实体,包括人名、地点、组织、日期;
关系和属性:问题中暗示的实体之间的关系以及相关的属性和特征;
问题类型:基于问题的结构和用词判断问题的类型,包括事实查询、解释请求还是操作指南。
3.根据权利要求1所述的一种基于AIGC大模型的语言处理问答方法,其特征在于,所述S4还包括根据答案的内容和类型,选择格式化方式、为答案添加上下文信息以及在答案中高亮或强调关键信息,包括使用加粗、斜体或颜色变化来吸引用户注意到重要部分。
4.一种基于AIGC大模型的语言处理问答系统,用于实现如权利要求1-3任一项所述的一种基于AIGC大模型的语言处理问答方法,其特征在于,包括以下模块:
用户接口模块:负责接收用户输入的自然语言问题,并支持问题的文本和语音形式输入;
问题理解模块:使用自然语言处理技术对用户输入的问题进行语法分析和语义理解,提取问题的关键信息,包括关键词汇、实体、关系和问题类型;
领域适应性增强处理模块:包含领域识别子模块、领域知识图谱匹配子模块和领域适应性算法子模块,用于确定问题所属的具体领域,匹配领域知识图谱中的相关概念,并实时调整AIGC大模型;
答案生成模块:利用经过领域适应性增强处理后的AIGC大模型,根据问题的上下文和领域知识,生成系列答案候选,采用束搜索算法来优化答案生成过程;
答案评估和选择模块:通过综合评价答案候选,包括内容重叠度量、语义相似度度量、语言流畅度检查和语法正确性验证,以选取最优答案。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410479542.5A CN118093834B (zh) | 2024-04-22 | 2024-04-22 | 一种基于aigc大模型的语言处理问答系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410479542.5A CN118093834B (zh) | 2024-04-22 | 2024-04-22 | 一种基于aigc大模型的语言处理问答系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN118093834A CN118093834A (zh) | 2024-05-28 |
CN118093834B true CN118093834B (zh) | 2024-08-02 |
Family
ID=91155253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410479542.5A Active CN118093834B (zh) | 2024-04-22 | 2024-04-22 | 一种基于aigc大模型的语言处理问答系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118093834B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118503394B (zh) * | 2024-07-17 | 2024-10-01 | 山东浪潮科学研究院有限公司 | 一种基于大语言模型的自适应决策方法、系统及存储介质 |
CN118626634B (zh) * | 2024-08-12 | 2024-10-29 | 浙江大学 | 图书快速查找方法及平台 |
CN118643802B (zh) * | 2024-08-13 | 2024-10-11 | 北京中数睿智科技有限公司 | 基于通信系统大模型的ai客服合成信息可靠性评测方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
CN117556002A (zh) * | 2023-11-03 | 2024-02-13 | 山东浪潮科学研究院有限公司 | 一种用于对话大模型的多轮对话训练方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110516229B (zh) * | 2019-07-10 | 2020-05-05 | 杭州电子科技大学 | 一种基于深度学习的领域自适应中文分词方法 |
CN117055724B (zh) * | 2023-05-08 | 2024-05-28 | 华中师范大学 | 虚拟教学场景中生成式教学资源系统的工作方法 |
CN116822625A (zh) * | 2023-05-17 | 2023-09-29 | 广西卓洁电力工程检修有限公司 | 一种发散式关联的风机设备运检知识图谱构建及检索方法 |
CN117235216A (zh) * | 2023-08-30 | 2023-12-15 | 电子科技大学 | 一种基于异构知识融合的知识推理方法 |
CN116881426B (zh) * | 2023-08-30 | 2023-11-10 | 环球数科集团有限公司 | 一种基于aigc的自解释问答系统 |
CN117171333B (zh) * | 2023-11-03 | 2024-08-02 | 国网浙江省电力有限公司营销服务中心 | 一种电力文件问答式智能检索方法及系统 |
CN117521675A (zh) * | 2023-11-06 | 2024-02-06 | 腾讯科技(深圳)有限公司 | 基于大语言模型的信息处理方法、装置、设备及存储介质 |
CN117708277B (zh) * | 2023-11-10 | 2024-10-01 | 广州宝露软件开发有限公司 | 一种基于aigc的问答系统及应用方法 |
-
2024
- 2024-04-22 CN CN202410479542.5A patent/CN118093834B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932723A (zh) * | 2023-07-28 | 2023-10-24 | 世优(北京)科技有限公司 | 基于自然语言处理的人机交互系统及其方法 |
CN117556002A (zh) * | 2023-11-03 | 2024-02-13 | 山东浪潮科学研究院有限公司 | 一种用于对话大模型的多轮对话训练方法 |
Also Published As
Publication number | Publication date |
---|---|
CN118093834A (zh) | 2024-05-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN118093834B (zh) | 一种基于aigc大模型的语言处理问答系统及方法 | |
CN113239700A (zh) | 改进bert的文本语义匹配设备、系统、方法及存储介质 | |
CN111831789B (zh) | 一种基于多层语义特征提取结构的问答文本匹配方法 | |
CN108932342A (zh) | 一种语义匹配的方法、模型的学习方法及服务器 | |
CN113239169B (zh) | 基于人工智能的回答生成方法、装置、设备及存储介质 | |
CN110096567A (zh) | 基于qa知识库推理的多轮对话回复选择方法、系统 | |
CN116127095A (zh) | 一种序列模型与知识图谱结合的问答方法 | |
CN117648429B (zh) | 基于多模态自适应检索式增强大模型的问答方法及系统 | |
CN111666376B (zh) | 一种基于段落边界扫描预测与词移距离聚类匹配的答案生成方法及装置 | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN111125333A (zh) | 一种基于表示学习与多层覆盖机制的生成式知识问答方法 | |
CN117609421A (zh) | 基于大语言模型的电力专业知识智能问答系统构建方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115759254A (zh) | 基于知识增强生成式语言模型的问答方法、系统及介质 | |
CN112307179A (zh) | 文本匹配方法、装置、设备及存储介质 | |
CN112349294A (zh) | 语音处理方法及装置、计算机可读介质、电子设备 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN118228694A (zh) | 基于人工智能实现工业行业数智化的方法和系统 | |
CN112989803B (zh) | 一种基于主题向量学习的实体链接预测方法 | |
CN117932066A (zh) | 一种基于预训练的“提取-生成”式答案生成模型及方法 | |
CN111581365B (zh) | 一种谓词抽取方法 | |
CN113705207A (zh) | 语法错误识别方法及装置 | |
Alwaneen et al. | Stacked dynamic memory-coattention network for answering why-questions in Arabic | |
CN114417880B (zh) | 一种基于电网实训问答知识库的交互式智能问答方法 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |