CN117422075A - 一种基于单词删除的同声传译方法及系统 - Google Patents
一种基于单词删除的同声传译方法及系统 Download PDFInfo
- Publication number
- CN117422075A CN117422075A CN202311448715.9A CN202311448715A CN117422075A CN 117422075 A CN117422075 A CN 117422075A CN 202311448715 A CN202311448715 A CN 202311448715A CN 117422075 A CN117422075 A CN 117422075A
- Authority
- CN
- China
- Prior art keywords
- sequence
- word
- target language
- translation
- translation model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012217 deletion Methods 0.000 title claims abstract description 48
- 230000037430 deletion Effects 0.000 title claims abstract description 48
- 238000013519 translation Methods 0.000 claims abstract description 169
- 238000012549 training Methods 0.000 claims abstract description 52
- 238000007781 pre-processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 25
- 238000007476 Maximum Likelihood Methods 0.000 claims description 15
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 8
- 230000005540 biological transmission Effects 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 230000014616 translation Effects 0.000 description 130
- 230000008569 process Effects 0.000 description 15
- 230000015654 memory Effects 0.000 description 8
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 239000012634 fragment Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3343—Query execution using phonetics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Machine Translation (AREA)
Abstract
本发明提供一种基于单词删除的同声传译方法及系统,涉及自然语言处理技术领域,包括:获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;构建翻译模型,对翻译模型进行初始化;基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;将源语言文字序列输入至训练好的翻译模型,输出翻译结果。本发明通过采用随机删除目标语言单词的技术手段,强迫模型减少对完整目标语言的依赖,迫使其关注源语言端的信息,增强模型对不完整源语言序列的建模能力。通过针对性的单词随机删除技术方案,可以有效解决文本同传中产生的翻译幻觉问题。
Description
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种基于单词删除的同声传译方法及系统。
背景技术
机器翻译技术经历了规则机器翻译、统计机器翻译、神经网络机器翻译等发展阶段。典型的机器翻译方案有:
(1)基于词典和规则的机器翻译,依靠人工制定的词汇对应规则进行翻译,翻译质量低。
(2)统计机器翻译,使用大规模平行语料训练机器翻译模型,典型方法有词对齐模型、短语基础模型等。统计机器翻译提高了翻译质量,但仍存在词序错误、意译错误等问题。
(3)神经网络机器翻译,典型方法是编码器-解码器(Seq2Seq)框架,使用LSTM等循环神经网络对源语言进行编码,再解码生成目标语言。提高了翻译流畅性,但仍存在无法处理长句子的问题。
(4)注意力机制机器翻译,在Seq2Seq框架中加入注意力模块,可以建模源语言和目标语言词之间的相关性,显著提升了翻译质量。
文本同声传译根据时延策略也可以分为固定读写策略和动态读写策略。
固定读写策略将输入文本划分固定大小片段后进行翻译,时延一致但容易产生语序错误。动态读写策略根据整句语义进行翻译,时延不稳定但语序正确。
典型的文本同传系统也采用流行的机器翻译模型,以seq2seq等模型为主,配合触发词预测、缓存机制等技术进行翻译。文本同传翻译存在翻译错误堆叠、意译偏差等问题。
3.3机器翻译中的单词删除技术
为增强机器翻译的鲁棒性,提出使用单词删除技术。主要包括:
(1)训练过程中对源语言句子进行单词删除,增强模型对不完整输入的鲁棒性。
(2)推理过程中对解码器输出进行单词删除。
(3)基于单词重要性对低重要性单词进行删除。
当前文本同声传译系统中,固定读写策略较为常用,其典型模型是Wait-k模型。
Wait-k模型的训练过程:
1)构建编码器-解码器(Seq2Seq)模型结构,编码器和解码器均采用Transformer结构。
2)使用带有固定延迟k的平行语料进行训练,即源语言序列右移k个单词后与目标语言序列构成训练样本。
3)通过最大化目标语言序列的似然估计,训练模型参数。
Wait-k模型的推理过程:1)待翻译的源语言输入到编码器产生语义向量表示。2)解码器根据当前语义向量和前k个词的记录,预测下一个词。3)输出的词汇再输入解码器作为新信息,预测下个词汇。4)重复上述过程直到翻译完成。
但是Wait-k模型存在以下问题:1)训练数据的源语言缺失,导致解码过度依赖目标端,产生翻译偏差,2)不存在对翻译幻觉问题的针对性处理。
综上所述,现有Wait-k等文本同传模型尚无法有效解决翻译偏差、翻译幻觉等问题,因此有进一步改进的必要。
发明内容
本发明提供了一种基于单词删除的同声传译方法及系统,解决现有技术中Wait-k等文本同传模型尚无法有效解决翻译偏差、翻译幻觉的问题。
为解决上述发明目的,本发明提供的技术方案如下:一种基于单词删除的同声传译方法,步骤包括:
S1:获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;
S2:构建翻译模型,对翻译模型进行初始化;
S3:基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;
S4:将源语言文字序列输入至训练好的翻译模型,输出翻译结果。
优选地,步骤S1中,对源语言文字序列和目标语言文字序列进行数据预处理,包括:
S11:对源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
S12:基于分词后的源语言文字序列构建源语言词汇表;基于分词后的目标语言文字序列构建目标语言词汇表;
S13:使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
优选地,步骤S2中,构建翻译模型,对翻译模型进行初始化,包括:
S21:构建翻译模型,翻译模型包括编码器和解码器;
S22:初始化编码器和解码器参数,其中,编码器和解码器均采用Transformer神经网络结构。
优选地,步骤S3中,基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型,包括:
S31:基于预处理后的数据对翻译模型进行迭代训练;每次迭代时,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记;
S32:通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型。
优选地,步骤S31中,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记,包括:
获取分词后的目标语言序列;
以概率p随机生成一个掩码矩阵,通过掩码矩阵对分词后的目标语言序列中的每个分词进行<unk>替换。
优选地,步骤S32中,通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型,包括:
基于单词随机替换后的目标语言序列,通过最大化目标语言序列的最大似然估计条件,获得目标语言索引,根据目标语言词汇表获得目标语言词汇;
更新翻译模型参数,获得训练好的翻译模型。
优选地,步骤S4中,将待翻译数据输入至训练好的翻译模型,输出翻译结果,包括:
S41:输入源语言序列至编码器,输出源语言句子的源语言向量;
S42:通过解码器根据源语言向量和目标语言词汇,预测下一次需要翻译的目标语言词汇;
S43:重复执行所述步骤S41-S42,直至翻译完成,输出翻译结果。
一种基于单词删除的同声传译系统,系统用于上述的基于单词删除的同声传译方法,系统包括:
数据预处理模块,用于获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;
模型初始化模块,用于构建翻译模型,对翻译模型进行初始化;
模型训练模块,用于基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;
翻译模块,用于将源语言文字序列输入至训练好的翻译模型,输出翻译结果。
优选地,数据预处理模块,用于对源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
基于分词后的源语言文字序列构建源语言词汇表;基于分词后的目标语言文字序列构建目标语言词汇表;
使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
优选地,模型初始化模块,用于构建翻译模型,翻译模型包括编码器和解码器;初始化编码器和解码器模型参数,其中,编码器和解码器均采用Transformer神经网络结构。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于单词删除的同声传译方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于单词删除的同声传译方法。
上述技术方案,与现有技术相比至少具有如下有益效果:
上述方案,通过对模型目标端单词随机删除,这样可以使得同声传译模型在训练的时候不会过多依赖目标端的假输入。随机删除目标语言单词的技术手段,强迫模型减少对完整目标语言的依赖,迫使其关注源语言端的信息,增强模型对不完整源语言序列的建模能力。通过针对性的单词随机删除技术方案,可以有效解决文本同传中产生的翻译幻觉问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于单词删除的同声传译方法流程示意图;
图2是本发明实施例提供的基于单词删除的同声传译方法详细流程图;
图3是本发明实施例提供的基于单词删除的同声传译系统框图;
图4是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明针对现有技术中Wait-k等文本同传模型尚无法有效解决翻译偏差、翻译幻觉的问题,提供了一种基于单词删除的同声传译方法和系统。
如图1所示,本发明实施例提供了一种基于单词删除的同声传译方法,该方法可以由电子设备实现。如图1所示的基于单词删除的同声传译方法流程图,该方法的处理流程可以包括如下的步骤:
S101、获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;
一种可行的实施方式中,步骤S101中,对源语言文字序列和目标语言文字序列进行数据预处理,包括:
S111:对源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
S112:基于分词后的源语言文字序列构建源语言词汇表;基于分词后的目标语言文字序列构建目标语言词汇表;
S113:使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
一种可行的实施方式中,源语言词汇表和目标语言词汇表包含所有训练语料的词汇项。
一种可行的实施方式中,因为计算机在处理文本数据时占用内存大,而处理数字化编码时占用内存下,所以将文字表示转换为序号表示,可以加速模型训练。
S102:构建翻译模型,对翻译模型进行初始化;
一种可行的实施方式中,步骤S102中,构建翻译模型,对翻译模型进行初始化,包括:
S121:构建翻译模型,翻译模型包括编码器和解码器;
S122:初始化编码器和解码器模型参数,其中,编码器和解码器均采用Transformer神经网络结构。
S103:基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;
一种可行的实施方式中,步骤S103中,基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型,包括:
S131:基于预处理后的数据对翻译模型进行迭代训练;每次迭代时,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记;
S132:通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型。
一种可行的实施方式中,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记,包括:
获取分词后的目标语言序列;
以概率p随机生成一个掩码矩阵,通过所述掩码矩阵对分词后的目标语言序列中的每个分词进行随机替换,替换为<unk>标记。
一种可行的实施方式中,对目标语言序列以概率p随机替换为<unk>标记,能够弱化模型对完整目标语言序列的依赖。
一种可行的实施方式中,在文本同声传译任务中,由于当前固定读写策略下的Wait-k等模型存在源语言序列缺失的问题,导致模型训练过于依赖目标语言端,缺乏源语言端的约束。这使得模型生成的翻译容易受目标语言影响,产生与源语言无关的“翻译幻觉”。
相比机器翻译任务,同声传译任务中的翻译幻觉问题更为严重。主要是由于同传训练过程中,模型看不到完整的源语言句子,解码过程中只能依赖有限的前k个词的信息,因而产生了过度依赖目标语言的现象,导致了翻译结果与源语言无关的严重翻译幻觉问题。
为了解决这个问题,本发明提出一种新的训练策略,通过在目标语言端加入随机单词删除的技术方案,减少模型对完整目标语言序列的依赖,迫使模型学习依赖不完整的源语言端,增强模型的健壮性,有效缓解同传训练过程中产生的翻译幻觉问题。
一种可行的实施方式中,步骤S103中,通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型,包括:
基于单词随机替换后的目标语言序列,通过最大化目标语言序列的最大似然估计条件,获得目标语言索引,基于所述目标语言索引,根据目标语言词汇表获得目标语言词汇;
更新翻译模型参数,获得训练好的翻译模型。
一种可行的实施方式中,通过最大化目标语言序列的最大似然估计条件来更新模型参数,完成模型训练。具体而言,在神经机器翻译中,最大似然估计条件被应用于最大化在给定源语言句子的情况下,生成正确目标语言句子的概率。训练数据集通常包括了源语言文本和相应的目标语言翻译对。模型的目标是寻找一组参数,以使模型在训练数据集中的每个源语言句子上生成正确目标语言句子的概率最大化。
S104:将源语言文字序列输入至训练好的翻译模型,输出翻译结果。
一种可行的实施方式中,步骤S104中,将待翻译数据输入至训练好的翻译模型,输出翻译结果,包括:
S141:输入源语言序列至编码器,输出源语言句子的源语言向量;
S142:通过解码器根据源语言向量和目标语言词汇,预测下一次需要翻译的目标语言词汇;
循环上述过程,直至翻译完成,输出翻译结果。
一种可行的实施方式中,如图2所示,将详细说明如何使用单词随机删除训练策略以及其在中文到英文翻译中的作用。
单词随机删除训练策略:
单词随机删除训练策略是指在模型训练过程中,以概率p(0<p<1)随机将目标语言序列(英文)中的某些词汇替换为特殊标记<unk>。这一策略的主要目的是增强模型对源语言(中文)的依赖,减少模型对目标语言序列的过度依赖,从而解决中文到英文翻译中存在的翻译幻觉问题。
实施步骤:
a)训练数据准备:首先,我们需要准备包含中文源语言文本和对应的英文目标语言翻译的训练数据集。这些数据将用于训练神经机器翻译模型。
b)模型初始化:我们初始化编码器和解码器模型参数,这些模型均采用Transformer神经网络结构。
c)单词随机删除训练策略的应用:在每次训练迭代中,我们执行以下步骤:
-对于英文目标语言序列中的每个词汇,以概率p随机生成一个0到1之间的数值。
-如果生成的随机数小于p,那么将该词汇替换为特殊标记<unk>。否则,保持词汇不变。
-这一过程是随机的,因此在不同的训练迭代中,相同的中文句子可能会有不同的部分被替换为<unk>。
d)模型训练:我们通过最大化目标语言序列的最大似然估计条件来更新模型参数。具体而言,我们使用包含了单词随机删除训练策略的训练数据集,以确保模型在每个中文源语言句子上生成正确的英文目标语言句子的概率最大化。
e)重复训练迭代:上述步骤在多个训练迭代中重复执行,以不断优化模型参数,提高中文到英文翻译的质量。
本发明实施例中,通过弱化模型对完整目标语言的依赖,迫使模型增强对源语言的建模能力,减少翻译对目标语言的过度依赖,有效缓解训练过程中产生的翻译幻觉问题;
随机删除目标语言词汇增加了翻译难度,迫使模型关注源语言端信息,增强模型的健壮性,提高翻译质量;
适度引入单词删除的噪声,更接近真实场景中不完整的语音输入,增强模型的泛化能力;
相比简单的数据增广方法,该策略通过改变训练目标强迫模型学习源语言建模,更加有针对性;
该训练策略无需改变网络结构,简单易行,可以广泛应用于各种文本同传模型中。综上所述,本发明的单词随机删除训练策略可以有效解决文本同传过程中的翻译偏差问题,改善翻译质量,具有显著的有益效果。
图3是本发明的一种基于单词删除的同声传译系统示意图,所述系统200用于上述的基于单词删除的同声传译方法,所述系统200包括:
数据预处理模块210,用于获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;
模型初始化模块220,用于构建翻译模型,对翻译模型进行初始化;
模型训练模块230,用于基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;
翻译模块240,用于将源语言文字序列输入至训练好的翻译模型,输出翻译结果。
优选地,数据预处理模块210,用于对源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
基于分词后的源语言文字序列构建源语言词汇表;基于分词后的目标语言文字序列构建目标语言词汇表;
使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
优选地,模型初始化模块220,用于初始化编码器和解码器模型参数,其中,编码器和解码器均采用Transformer神经网络结构。
优选地,模型训练模块230,用于基于预处理后的数据对翻译模型进行迭代训练;每次迭代时,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记;
通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型。
优选地,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记,包括:
获取分词后的目标语言序列;
以概率p随机生成一个掩码矩阵,通过所述掩码矩阵对分词后的目标语言序列中的每个分词进行随机替换,替换为<unk>标记。
优选地,通过最大化目标语言序列的最大似然估计条件,更新翻译模型参数,获得训练好的翻译模型,包括:
基于单词随机替换后的目标语言序列,通过最大化目标语言序列的最大似然估计条件,获得目标语言索引,根据目标语言词汇表获得目标语言词汇;
更新翻译模型参数,获得训练好的翻译模型。
优选地,翻译模块240,用于输入源语言序列至编码器,输出源语言句子的源语言向量;
通过解码器根据源语言向量和目标语言词汇,预测下一次需要翻译的目标语言词汇;
循环上述过程,直至翻译完成,输出翻译结果。
本发明实施例中,通过对多个传感器获得的多模态数据进行多模态信息融合,能够充分利用不同传感器获得的多源数据中的共性特征,具有诊断准确性高、鲁棒性强的优点,从而可以加速航空发动机叶片故障诊断模型的实际应用。
图4是本发明实施例提供的一种电子设备300的结构示意图,该电子设备300可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)301和一个或一个以上的存储器302,其中,所述存储器302中存储有至少一条指令,所述至少一条指令由所述处理器301加载并执行以实现下述基于单词删除的同声传译方法的步骤:
S1:获取源语言文字序列和目标语言文字序列;对源语言文字序列和目标语言文字序列进行数据预处理;
S2:构建翻译模型,对翻译模型进行初始化;
S3:基于预处理后的数据对翻译模型进行单词随机删除训练,获得训练好的翻译模型;
S4:将源语言文字序列输入至训练好的翻译模型,输出翻译结果。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于单词删除的同声传译方法。例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
Claims (10)
1.一种基于单词删除的同声传译方法,其特征在于,方法步骤包括:
S1:获取源语言文字序列和目标语言文字序列;对所述源语言文字序列和目标语言文字序列进行数据预处理;
S2:构建翻译模型,对所述翻译模型进行初始化;
S3:基于预处理后的数据对所述翻译模型进行单词随机删除训练,获得训练好的翻译模型;
S4:将源语言文字序列输入至所述训练好的翻译模型,输出翻译结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,对所述源语言文字序列和目标语言文字序列进行数据预处理,包括:
S11:对所述源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
S12:基于分词后的源语言文字序列构建源语言词汇表;基于分词后的目标语言文字序列构建目标语言词汇表;
S13:使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
3.根据权利要求2所述的方法,其特征在于,所述步骤S2中,构建翻译模型,对所述翻译模型进行初始化,包括:
S21:构建翻译模型,所述翻译模型包括编码器和解码器;
S22:初始化编码器和解码器参数,其中,编码器和解码器均采用Transformer神经网络结构。
4.根据权利要求3所述的方法,其特征在于,所述步骤S3中,基于预处理后的数据对所述翻译模型进行单词随机删除训练,获得训练好的翻译模型,包括:
S31:基于预处理后的数据对所述翻译模型进行迭代训练;每次迭代时,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记;
S32:通过最大化目标语言序列的最大似然估计条件,更新所述翻译模型参数,获得训练好的翻译模型。
5.根据权利要求4所述的方法,其特征在于,所述步骤S31中,对目标语言序列中的每个分词分别以P概率进行随机替换,替换为<unk>标记,包括:
获取分词后的目标语言序列;
以概率p随机生成一个掩码矩阵,通过所述掩码矩阵对分词后的目标语言序列中的每个分词进行随机替换,替换为<unk>标记。
6.根据权利要求5所述的方法,其特征在于,所述步骤S32中,通过最大化目标语言序列的最大似然估计条件,更新所述翻译模型参数,获得训练好的翻译模型,包括:
基于单词随机替换后的所述目标语言序列,通过最大化目标语言序列的最大似然估计条件,获得目标语言索引;基于所述目标语言索引,根据目标语言词汇表获得目标语言词汇;
更新所述翻译模型参数,获得训练好的翻译模型。
7.根据权利要求6所述的方法,其特征在于,所述步骤S4中,将待翻译数据输入至所述训练好的翻译模型,输出翻译结果,包括:
S41:输入源语言序列至所述编码器,输出源语言句子的源语言向量;
S42:通过解码器根据所述源语言向量和所述目标语言词汇,预测下一次需要翻译的目标语言词汇;
S43:重复执行所述步骤S41-S42,直至翻译完成,输出翻译结果。
8.一种基于单词删除的同声传译系统,其特征在于,所述系统用于如权利要求1~7任意一项所述的基于单词删除的同声传译方法,所述系统包括:
数据预处理模块,用于获取源语言文字序列和目标语言文字序列;对所述源语言文字序列和目标语言文字序列进行数据预处理;
模型初始化模块,用于构建翻译模型,对所述翻译模型进行初始化;
模型训练模块,用于基于预处理后的数据对所述翻译模型进行单词随机删除训练,获得训练好的翻译模型;
翻译模块,用于将源语言文字序列输入至所述训练好的翻译模型,输出翻译结果。
9.根据权利要求8所述的系统,其特征在于,所述数据预处理模块,用于对所述源语言文字序列和目标语言文字序列进行分词处理,获得分词后的源语言文字序列和目标语言文字序列;
基于所述分词后的源语言文字序列构建源语言词汇表;基于所述分词后的目标语言文字序列构建目标语言词汇表;
使用开源工具Fairseq对分词后的平行语料进行数字化编码,将文字表示转换为序号表示。
10.根据权利要求8所述的系统,其特征在于,所述模型初始化模块,用于构建翻译模型,所述翻译模型包括编码器和解码器;初始化编码器和解码器模型参数,其中,编码器和解码器均采用Transformer神经网络结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311448715.9A CN117422075A (zh) | 2023-11-01 | 2023-11-01 | 一种基于单词删除的同声传译方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311448715.9A CN117422075A (zh) | 2023-11-01 | 2023-11-01 | 一种基于单词删除的同声传译方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117422075A true CN117422075A (zh) | 2024-01-19 |
Family
ID=89526208
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311448715.9A Pending CN117422075A (zh) | 2023-11-01 | 2023-11-01 | 一种基于单词删除的同声传译方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117422075A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN114611532A (zh) * | 2022-05-06 | 2022-06-10 | 北京百度网讯科技有限公司 | 语言模型训练方法及装置、目标翻译错误检测方法及装置 |
CN115719072A (zh) * | 2022-10-28 | 2023-02-28 | 北京理工大学 | 一种基于掩码机制的篇章级神经机器翻译方法及系统 |
-
2023
- 2023-11-01 CN CN202311448715.9A patent/CN117422075A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109299273A (zh) * | 2018-11-02 | 2019-02-01 | 广州语义科技有限公司 | 基于改进seq2seq模型的多源多标签文本分类方法及其系统 |
CN114611532A (zh) * | 2022-05-06 | 2022-06-10 | 北京百度网讯科技有限公司 | 语言模型训练方法及装置、目标翻译错误检测方法及装置 |
CN115719072A (zh) * | 2022-10-28 | 2023-02-28 | 北京理工大学 | 一种基于掩码机制的篇章级神经机器翻译方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102382499B1 (ko) | 번역 방법, 타깃 정보 결정 방법, 관련 장치 및 저장 매체 | |
US11972365B2 (en) | Question responding apparatus, question responding method and program | |
CN112464676B (zh) | 机器翻译结果打分方法和装置 | |
Chitnis et al. | Variable-length word encodings for neural translation models | |
CN111191468B (zh) | 术语替换方法及装置 | |
US11423237B2 (en) | Sequence transduction neural networks | |
CN113822054A (zh) | 基于数据增强的中文语法纠错方法及装置 | |
CN115293138B (zh) | 一种文本纠错方法及计算机设备 | |
CN111814493B (zh) | 机器翻译方法、装置、电子设备和存储介质 | |
CN112507337A (zh) | 基于语义分析的恶意JavaScript代码检测模型的实现方法 | |
US20220383159A1 (en) | Systems and methods for open domain multi-hop question answering | |
CN110807335A (zh) | 基于机器学习的翻译方法、装置、设备及存储介质 | |
CN113705196A (zh) | 基于图神经网络的中文开放信息抽取方法和装置 | |
CN110688450A (zh) | 一种基于蒙特卡洛树搜索的关键词生成方法、基于强化学习的关键词生成模型及电子设备 | |
CN111814479B (zh) | 一种企业简称生成及其模型的训练方法及装置 | |
WO2021239631A1 (en) | Neural machine translation method, neural machine translation system, learning method, learning system, and programm | |
CN116861929A (zh) | 基于深度学习的机器翻译系统 | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN111428518B (zh) | 一种低频词翻译方法及装置 | |
CN113673259B (zh) | 基于数据增强的低资源神经机器翻译方法及系统 | |
CN112380882B (zh) | 一种具有误差修正功能的蒙汉神经机器翻译方法 | |
CN114861637A (zh) | 拼写纠错模型生成方法和装置、拼写纠错方法和装置 | |
CN114239589A (zh) | 语义理解模型的鲁棒性评估方法、装置及计算机设备 | |
CN112766002A (zh) | 基于动态规划的文本对齐方法及系统 | |
CN113011149B (zh) | 一种文本纠错方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |