CN107392311B - 序列切分的方法和装置 - Google Patents
序列切分的方法和装置 Download PDFInfo
- Publication number
- CN107392311B CN107392311B CN201610326460.2A CN201610326460A CN107392311B CN 107392311 B CN107392311 B CN 107392311B CN 201610326460 A CN201610326460 A CN 201610326460A CN 107392311 B CN107392311 B CN 107392311B
- Authority
- CN
- China
- Prior art keywords
- symbol
- probability distribution
- sequence
- label set
- neural network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种序列切分的方法,用于将待切分序列划分为包括一个到多个符号的子序列,所述方法包括:利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。通过本申请的技术方案,节省了大量的人力工作,提高了模型训练的效率,而且适用于各种应用场景。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种序列切分的方法和装置。
背景技术
在数字信息化时代,随着人们越来越多的利用网络完成各种生活和工作是想,互联网上沉积的数据越来越多。数据分析的价值也日益凸显,例如,通过分析用户使用某个软件产品的行为数据,可以有效的完善该软件产品的设计;通过分析用户的消费数据,可以增加广告投放的精准度、发现市场的未来发展方向等等。
在互联网数据分析中,对数据序列的切分是必不可少的一个环节。例如,用户在访问网站时,其访问行为通常在与网站建立的会话(Session)中进行,会话由一系列的事件(Event)组成。网站的访问日志中记录的是用户访问该网站时的一系列事件,属于一个用户的事件构成一个访问行为序列;而在分析用户的访问行为时通常针对会话来进行,这样就需要将访问行为序列切分为若干个会话。再如,对互联网的中文内容进行分析时,在绝大多数场景下(如命名实体识别、句法分析、语义分析、搜索引擎、推荐系统等)需要进行分词,也就是说,需要将由单字组成的文本序列切分为若干个词。
现有技术中,序列切分的一种实现是采用监督学习的方式,由人工对一定量的样本序列进行切分并标注出切分所得的子序列,用于序列切分的模型采用这样的训练材料进行监督学习,最后将监督学习完成后的该模型作用于待切分序列,得到切分后的子序列。这种实现以大量的人工标注为基础,不仅需要大量的人力劳动,而且对于很多应用场景和很多类型的序列来说人工标注难以获得;此外,当应用场景中序列的数据规律发生变化时,需要重新或补充进行人工标注,进一步限制了这种方式的适用情形。
发明内容
有鉴于此,本申请提供一种序列切分的方法,用于将待切分序列划分为包括一个到多个符号的子序列,所述方法包括:
利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;
根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;
当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。
本申请还提供了一种序列切分的装置,用于将待切分序列划分为包括一个到多个符号的子序列,所述装置包括:
概率分布获取单元,用于利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;
边界指标单元,用于根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;
子序列切分单元,用于当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。
由以上技术方案可见,本申请的实施例中,顺序以样本序列的每个符号作为输入,以输入符号的相邻符号作为目标类别标记来训练神经网络,利用所训练的神经网络得到待切分序列中相邻两个符号中至少一个符号的类别标记集合概率分布,根据概率分布的分散程度和另一个符号在该概率分布中的概率值来判断这两个相邻符号是否属于不同的子序列,从而能够在无需人工标注训练材料的条件下,利用神经网络实现准确的序列切分,不仅节省了大量的人力工作,提高了模型训练的效率,而且适用于各种应用场景。
附图说明
图1是本申请实施例中一种序列切分的方法的流程图;
图2是运行本申请实施例的设备的一种硬件结构图;
图3是本申请实施例中一种序列切分的装置的逻辑结构图。
具体实施方式
本申请的实施例中,符号是组成序列的基本单位,对所在应用场景来说,可以无疑义的从序列中提取出每个符号,同时就所在应用场景中切分序列的目的而言,符号无需再进行拆分。序列切分是将待切分序列划分为若干个子序列,每个子序列包括一个到多个符号。切分后形成的所有子序列顺序相接,构成待切分序列。例如,对用户访问行为序列,其子序列为会话,其符号为事件;对中文文本序列,其子序列为词,其符号为单字。属于同一个子序列的两个及以上的符号有某种关联关系,具体的关联关系因所在应用场景的不同而不同。
神经网络模型可以用来对出现在序列中的符号进行预测,根据序列中的部分符号,得到出现在某个已知符号的相邻位置的所有可能符号的概率分布。由于目标类别标记本身就是样本序列中的一个符号,训练这样的神经网络模型只需一定量的样本序列即可,而无需对样本序列做人工标注。
换个角度看,可以认为序列切分的过程就是确定组成序列的每两个相邻符号是否属于同一个子序列的过程,或者说是确定每两个相邻符号之间是否存在子序列边界的过程。如果两个相邻符号属于同一个子序列,在神经网络模型所得的概率分布中被预测的符号的概率值往往会高于两个相邻符号不属于同一个子序列的情形;此外,对既定序列中一个既定的符号而言,能够在其相邻位置并且与其属于同一个子序列的符号数量有限,也就是说,如果所得的概率分布集中在数量有限的一些符号上,则这两个相邻符号间更可能不是子序列的边界;如果所得的概率分布分散于数量较多的符号上,则这两个相邻符号间更可能是子序列的边界。
因此,本申请的实施例提出一种新的序列切分方法,通过上述神经网络,得到待切分序列中每两个相邻符号中至少一个符号的类别标记集合概率分布,再基于概率分布的分散程度和相邻符号中另一个符号在该概率分布中的概率值来判定相邻符号之间是否是子序列的边界,从而避免了对样本序列的人工子序列划分和标注工作,以解决现有技术中存在的问题。
本申请的实施例可以应用在任何具有计算和存储能力的设备上,例如可以是手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本、服务器、虚拟机等物理设备或逻辑设备;也可以由两个或两个以上分担不同职责的物理或逻辑设备、相互协同来实现本申请实施例中的各项功能。
本申请实施例中的神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练。神经网络可以是前向神经网络,可以是后向神经网络,也可以是双向神经网络。以下分别进行说明。假设一个样本序列由M(M为自然数)个符号组成,待切分序列由N(N为自然数)个符号组成。
在训练前向神经网络时,将样本序列中第k个符号作为时刻k的输入向量,将样本序列中第(k+1)个符号作为时刻k的目标类别标记,k的取值依次为1、2,直到M完成该样本序列的学习,时刻M的目标类别标记为预定空值(如0向量)。经过训练后,在时刻t将待切分序列中第t个符号输入前向神经网络,则可以得到第t个符号的类别标记集合概率分布,即待切分序列中第(t+1)个符号是所在应用场景中所有可能符号(即类别标记集合)中的任何一个符号时的概率值,t的取值依次为1、2、直到N完成对待切分序列的处理。
在训练后向神经网络时,将样本序列中第k个符号作为时刻k的输入向量,将样本序列中第(k-1)个符号作为时刻k的目标类别标记,时刻1的目标类别标记为预定空值,k的取值依次为1、2、直到M完成该样本序列的学习。经过训练后,在时刻t将待切分序列中第t个符号输入前向神经网络,则可以得到第t个符号的类别标记集合概率分布,即待切分序列中第(t-1)个符号是所在应用场景中所有可能符号中的任何一个符号时的概率值,t的取值依次为1、2、直到N完成对待切分序列的处理。
在训练双向神经网络时,将样本序列中第k个符号作为时刻k的输入向量,将样本序列中第(k+1)个符号作为前向网络在时刻k的目标类别标记,将样本序列中第(k-1)个符号作为后向网络在时刻k的目标类别标记,k的取值依次为1、2,直到M完成该样本序列的学习,其中后向网络在时刻1的目标类别标记、前向网络在时刻M的目标类别标记为预定空值。经过训练后,在时刻t将待切分序列中第t个符号输入双向神经网络,则可以得到第t个符号的前向类别标记集合概率分布和后向类别标记集合概率分布,t的取值依次为1、2、直到N完成对待切分序列的处理。其中,前向类别标记集合概率分布为待切分序列中第(t+1)个符号是所在应用场景中所有可能符号中的任何一个符号时的概率值,后向类别标记集合概率分布为待切分序列中第(t-1)个符号是所在应用场景中所有可能符号中的任何一个符号时的概率值。
需要说明的是,本申请实施例中对神经网络的类型和训练神经网络时采用的学习算法均没有限制。例如,用非监督学习方法训练的递归神经网络(RNN,Recurrent NeuralNetwork)、用深度学习方法训练的非递归神经网络、用监督学习方法训练的神经网络、LSTM(Long short-term memory,长的短时记忆)神经网络等。
本申请的实施例中,序列切分的方法的流程如图1所示。
步骤110,利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布。
将待切分序列的字符按照顺序依次作为神经网络各个时刻的输入向量,可以得到各个符号的类别标记集合概率分布。为了判断相邻两个符号之间是否为子序列的边界,要获取的类别标记集合概率分布是当相邻符号中的一个为神经网络的输入向量、对另一个符号所在位置进行预测时所得的概率分布。
具体而言,假设相邻符号为待切分序列中的第t个符号和第(t+1)个符号,t的取值范围是大于0小于N的整数,N是待切分序列的符号总数。为了判断第t个符号和第(t+1)个符号之间是否存在子序列边界,根据神经网络的不同,获取的类别标记集合概率分布的时刻有所不同:
对前向神经网络,获取t时刻神经网络输出的第t个符号的类别标记集合概率分布pF(ot),也就是第t个符号为输入、对第(t+1)个符号所在位置进行预测时的概率分布;
对后向神经网络,获取(t+1)时刻神经网络输出的第(t+1)个符号的类别标记集合概率分布pB(ot+1),也就是第(t+1)个符号为输入、对第t个符号所在位置进行预测时的概率分布;
对双向神经网络,获取t时刻前向网络输出的第t个符号的前向类别标记集合概率分布pF(ot),以及(t+1)时刻后向网络输出的第(t+1)个符号的后向类别标记集合概率分布pB(ot+1);双向神经网络中,相邻两个符号的类别标记集合概率分布都可以用来作为判断子序列边界的基础。
步骤120,根据至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在该类别标记集合概率分布中的概率值,确定相邻符号的边界指标。
具体而言,假设相邻符号为待切分序列中的第t个符号和第(t+1)个符号:
对前向神经网络,根据第t个符号的类别标记集合概率分布的分散度特征值和第(t+1)个符号在第t个符号的类别标记集合概率分布中的概率值pF(ot=lt+1),确定相邻符号的边界指标bt,t+1;其中,lt为待切分序列中的第t个符号;
对双向神经网络,根据第t个符号的前向类别标记集合概率分布的分散度特征值第(t+1)个符号在第t个符号的前向类别标记集合概率分布中的概率值pF(ot=lt+1)、第(t+1)个符号的后向类别标记集合概率分布的分散度特征值和第t个符号在第(t+1)个符号的后向类别标记集合概率分布中的概率值pB(ot+1=lt),确定相邻符号的边界指标bt,t+1。
如前所述,类别标记集合概率分布是假设待切分序列中相邻符号中的一个符号未知时,可能出现在该未知符号位置上的每个符号的概率。可能出现的符号全集通常是所在应用场景中使用的全部符号(即类别标记集合)。分散度特征值用来衡量类别标记集合概率分布中各个符号概率值的离散程度,换言之是少部分符号的概率值明显高于其他符号的概率值,还是各个符号的概率值差异较小。可以根据应用场景的需要、待切分序列的特征,来选择作为分散度特征值的参数,本申请的实施例不做限定。例如,类别标记集合概率分布的熵、各个符号概率值的标准差等参数都可以作为分散度特征值。
可以根据实际场景的特点、具体的分散度特征值选择确定边界指标的具体方式,例如,对前向神经网络,可以将pF(ot=lt+1)的加权和、乘积或比值、以及将这两个参数应用于其他算法后的结果作为边界指标;对双向神经网络,可以将pF(ot=lt+1)、pB(ot+1=lt)的加权和、乘积或比值等作为边界指标,可以将与的乘积、pF(ot=lt+1)与pB(ot+1=lt)的乘积的加权和作为边界指标,还可以将这四个参数应用于其他算法后的结果作为边界指标。
步骤130,当边界指标满足预定边界条件时,在相邻符号之间进行子序列切分。
预定边界条件可以是设定第一阈值,当两个相邻符号的边界指标超过第一阈值时,这两个符号分别属于不同的子序列,在这两个符号之间进行子序列切分。设gf为第一阈值,当bt,t+1>gf时,在第t个符号和第(t+1)个符号之间进行子序列切分。
对与训练神经网络时采用的样本序列有一定差距的待切分序列(例如在中文分词的应用场景中待切分序列比较生僻),整个待切分序列中各个相邻符号的边界指标有可能整体的偏低或偏高,采用边界指标超过第一阈值作为预定边界条件有时会导致较低的切分准确度。这种情况下可以将包括该相邻符号的H(H大于2且不超过待切分序列符号总数)个连续符号作为该相邻符号的窗口,H个连续符号可以形成(H-1)个相邻符号,将(H-1)个相邻符号的边界指标的平均值作为边界指标的窗口均值,以该相邻符号的边界指标与边界指标的窗口均值之差超过第二阈值作为预定边界条件。例如,设ga为第二阈值,当时,在第t个符号和第(t+1)个符号之间进行子序列切分,其中,
可见,本申请的实施例中,顺序以样本序列的每个符号作为输入,以输入符号的相邻符号作为目标类别标记来训练神经网络,通过该神经网络得到待切分序列中每两个相邻符号中至少一个符号的类别标记集合概率分布,并根据该概率分布的分散程度和相邻符号中另一个符号在该概率分布中的概率值来决定是否在该相邻符号间进行子序列划分,避免了对样本序列的人工子序列划分和标注工作,节省了大量的人力工作,提高了模型训练的效率,能够适用于各种应用场景。
在本申请的一个应用示例中,采用双向LSTM递归神经网络来进行中文分词。采用中文句子作为样本序列来训练双向LSTM递归神经网络,将样本句子中的第k个字在时刻k输入双向LSTM递归神经网络,并且以第(k+1)个字为前向网络在时刻k的目标类别标记,以第(k-1)个字作为后向网络在时刻k的目标类别标记。对由M个字组成的样本句子,前向网络在时刻M的目标类别标记、后向网络在时刻1的目标类别标记为0向量。以样本句子为“中国人的传统节日”为例,在时刻1到时刻8,双向LSTM递归神经网络的输入分别为:“中”、“国”、“人”、“的”、“传”、“统”、“节”、“日”,前向网络的目标类别标记分别为:“国”、“人”、“的”、“传”、“统”、“节”、“日”、0向量,后向网络的目标类别标记分别为:0向量、“中”、“国”、“人”、“的”、“传”、“统”、“节”。
在双向LSTM递归神经网络经过训练后,将待分词句子中的字按照顺序在连续的时刻输入双向LSTM递归神经网络。在时刻t,双向LSTM递归神经网络的输入为待分词句子中的第t个字;前向网络的输出为对第(t+1)个字的预测,即汉字集中每个字是第(t+1)个字的概率值(即前向类别标记集合概率分布)pF(ot),所有字的概率值之和为1;后向网络的输出为对第(t-1)个字的预测,即汉字集中每个字是第(t-1)个字的概率值(即后向类别标记集合概率分布)pB(ot),所有字的概率值之和为1。在将待分词句子的最后一个字(假设为第N个字)输入双向LSTM递归神经网络后,可以得到第一个字到第N个字的前向类别标记集合概率分布(前向网络在时刻0到时刻N的输出)和后向类别标记集合概率分布(后向网络在时刻0到时刻N的输出)。
式1中,ei为前向类别标记集合的第i个字,Total为前向类别标记集合的总字数。
式2中,ei为后向类别标记集合的第i个字,Total为后向类别标记集合的总字数(与前向类别标记集合的总字数相同)。
根据式3计算第t个字符和第(t+1)个字符的边界指标bt,t+1:
式3中,lt为待分词句子中的第t个字;和为预定的权值,由于pF(ot=lt+1)与pB(ot+1=lt)越小意味着第t个字和第(t+1)个字之间更可能是词的边界,而与越大意味着第t个字和第(t+1)个字之间更可能是词的边界,因此和为负数,与为正数。
计算t取值为1、2直到(N-1)时的bt,t+1,如果bt,t+1大于第一阈值gf,则在第t个字和第(t+1)个字之间分词,从而将整个待分词句子划分为若干个词。
与上述流程实现对应,本申请的实施例还提供了一种序列切分的装置,该装置可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为逻辑意义上的装置,是通过所在设备的CPU(Central Process Unit,中央处理器)将对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,除了图2所示的CPU、内存以及非易失性存储器之外,序列切分的装置所在的设备通常还包括用于进行无线信号收发的芯片等其他硬件,和/或用于实现网络通信功能的板卡等其他硬件。
图3所示为本申请实施例提供的一种序列切分的装置,用于将待切分序列划分为包括一个到多个符号的子序列,所述装置包括概率分布获取单元、边界指标单元和子序列切分单元,其中:
概率分布获取单元用于利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;
边界指标单元用于根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;
子序列切分单元用于当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。
第一个例子中,所述神经网络为前向神经网络;所述前向神经网络以当前时刻输入向量的下一个符号作为目标类别标记进行训练;所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述前向神经网络各个时刻的输入向量,获取所述前向神经网络t时刻输出的第t个符号的类别标记集合概率分布;所述边界指标单元具体用于:根据第t个符号的类别标记集合概率分布的分散度特征值、和第(t+1)个符号在第t个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
第二个例子中,所述神经网络为后前向神经网络;所述后向神经网络以当前时刻输入向量的上一个符号作为目标类别标记进行训练;所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述后向神经网络各个时刻的输入向量,获取所述后向神经网络(t+1)时刻输出的第(t+1)个符号的类别标记集合概率分布;所述边界指标单元具体用于:根据第(t+1)个符号的类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
第三个例子中,所述神经网络为双向神经网络;所述双向神经网络以当前时刻输入向量的下一个符号为前向网络的目标类别标记、以当前时刻输入向量的上一个符号作为后向网络的目标类别标记进行训练;所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述双向神经网络各个时刻的输入向量,获取t时刻前向网络输出的第t个符号的前向类别标记集合概率分布,获取(t+1)时刻后向网络输出的第(t+1)个符号的后向类别标记集合概率分布;所述边界指标单元具体用于:根据第t个符号的前向类别标记集合概率分布的分散度特征值、第(t+1)个符号在第t个符号的前向类别标记集合概率分布中的概率值、第(t+1)个符号的后向类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的后向类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
上述三个例子中,所述边界指标单元可以具体用于:将至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值的加权和作为所述相邻符号的边界指标。
上述三个例子中,所述类别标记集合概率分布的分散度特征值可以是:类别标记集合概率分布的熵。
可选的,所述预定边界条件包括:所述边界指标超过第一阈值;或,所述边界指标与边界指标的窗口均值之差超过第二阈值,所述边界指标的窗口均值为包括所述相邻符号的H个连续符号中,(H-1)个相邻符号的边界指标的平均值;H为大于2且不超过待切分序列符号总数的自然数。
可选的,所述神经网络包括:长的短时记忆LSTM神经网络。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (16)
1.一种序列切分的方法,用于将待切分序列划分为包括一个到多个符号的子序列,其特征在于,所述方法包括:
利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;
根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;
当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。
2.根据权利要求1所述的方法,其特征在于,所述神经网络为:前向神经网络;所述前向神经网络以当前时刻输入向量的下一个符号作为目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布,包括:将待切分序列中的每个符号依序作为所述前向神经网络各个时刻的输入向量,获取所述前向神经网络t时刻输出的第t个符号的类别标记集合概率分布;
所述根据至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标,包括:根据第t个符号的类别标记集合概率分布的分散度特征值、和第(t+1)个符号在第t个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
3.根据权利要求1所述的方法,其特征在于,所述神经网络为:后向神经网络;所述后向神经网络以当前时刻输入向量的上一个符号作为目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布,包括:将待切分序列中的每个符号依序作为所述后向神经网络各个时刻的输入向量,获取所述后向神经网络(t+1)时刻输出的第(t+1)个符号的类别标记集合概率分布;
所述根据至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标,包括:根据第(t+1)个符号的类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
4.根据权利要求1所述的方法,其特征在于,所述神经网络为:双向神经网络;所述双向神经网络以当前时刻输入向量的下一个符号为前向网络的目标类别标记、以当前时刻输入向量的上一个符号作为后向网络的目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布,包括:将待切分序列中的每个符号依序作为所述双向神经网络各个时刻的输入向量,获取t时刻前向网络输出的第t个符号的前向类别标记集合概率分布,获取(t+1)时刻后向网络输出的第(t+1)个符号的后向类别标记集合概率分布;
所述根据至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标,包括:根据第t个符号的前向类别标记集合概率分布的分散度特征值、第(t+1)个符号在第t个符号的前向类别标记集合概率分布中的概率值、第(t+1)个符号的后向类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的后向类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
5.根据权利要求1至4任意一项所述的方法,其特征在于,所述根据至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标,包括:将至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值的加权和作为所述相邻符号的边界指标。
6.根据权利要求1至4任意一项所述的方法,其特征在于,所述类别标记集合概率分布的分散度特征值包括:类别标记集合概率分布的熵。
7.根据权利要求1所述的方法,其特征在于,所述预定边界条件包括:所述边界指标超过第一阈值;或
所述边界指标与边界指标的窗口均值之差超过第二阈值,所述边界指标的窗口均值为包括所述相邻符号的H个连续符号中,(H-1)个相邻符号的边界指标的平均值;H为大于2且不超过待切分序列符号总数的自然数。
8.根据权利要求1所述的方法,其特征在于,所述神经网络包括:长的短时记忆LSTM神经网络。
9.一种序列切分的装置,用于将待切分序列划分为包括一个到多个符号的子序列,其特征在于,所述装置包括:
概率分布获取单元,用于利用神经网络获取待切分序列的相邻符号中至少一个符号的类别标记集合概率分布;所述神经网络以样本序列中每个符号依序作为各个时刻的输入向量,以当前时刻输入向量的相邻符号作为目标类别标记进行训练;
边界指标单元,用于根据所述至少一个符号的类别标记集合概率分布的分散度特征值和另一个符号在所述类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标;
子序列切分单元,用于当所述边界指标满足预定边界条件时,在所述相邻符号之间进行子序列切分。
10.根据权利要求9所述的装置,其特征在于,所述神经网络为:前向神经网络;所述前向神经网络以当前时刻输入向量的下一个符号作为目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述前向神经网络各个时刻的输入向量,获取所述前向神经网络t时刻输出的第t个符号的类别标记集合概率分布;
所述边界指标单元具体用于:根据第t个符号的类别标记集合概率分布的分散度特征值、和第(t+1)个符号在第t个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
11.根据权利要求9所述的装置,其特征在于,所述神经网络为:后向神经网络;所述后向神经网络以当前时刻输入向量的上一个符号作为目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述后向神经网络各个时刻的输入向量,获取所述后向神经网络(t+1)时刻输出的第(t+1)个符号的类别标记集合概率分布;
所述边界指标单元具体用于:根据第(t+1)个符号的类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
12.根据权利要求9所述的装置,其特征在于,所述神经网络为:双向神经网络;所述双向神经网络以当前时刻输入向量的下一个符号为前向网络的目标类别标记、以当前时刻输入向量的上一个符号作为后向网络的目标类别标记进行训练;
所述待切分序列的相邻符号为:待切分序列中的第t个符号和第(t+1)个符号;t为大于0小于N的整数,N为待切分序列的符号总数;
所述概率分布获取单元具体用于:将待切分序列中的每个符号依序作为所述双向神经网络各个时刻的输入向量,获取t时刻前向网络输出的第t个符号的前向类别标记集合概率分布,获取(t+1)时刻后向网络输出的第(t+1)个符号的后向类别标记集合概率分布;
所述边界指标单元具体用于:根据第t个符号的前向类别标记集合概率分布的分散度特征值、第(t+1)个符号在第t个符号的前向类别标记集合概率分布中的概率值、第(t+1)个符号的后向类别标记集合概率分布的分散度特征值、和第t个符号在第(t+1)个符号的后向类别标记集合概率分布中的概率值,确定所述相邻符号的边界指标。
13.根据权利要求9至12任意一项所述的装置,其特征在于,所述边界指标单元具体用于:将至少一个符号的类别标记集合概率分布的分散度特征值、和另一个符号在所述类别标记集合概率分布中的概率值的加权和作为所述相邻符号的边界指标。
14.根据权利要求9至12任意一项所述的装置,其特征在于,所述类别标记集合概率分布的分散度特征值包括:类别标记集合概率分布的熵。
15.根据权利要求9所述的装置,其特征在于,所述预定边界条件包括:所述边界指标超过第一阈值;或
所述边界指标与边界指标的窗口均值之差超过第二阈值,所述边界指标的窗口均值为包括所述相邻符号的H个连续符号中,(H-1)个相邻符号的边界指标的平均值;H为大于2且不超过待切分序列符号总数的自然数。
16.根据权利要求9所述的装置,其特征在于,所述神经网络包括:长的短时记忆LSTM神经网络。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610326460.2A CN107392311B (zh) | 2016-05-17 | 2016-05-17 | 序列切分的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610326460.2A CN107392311B (zh) | 2016-05-17 | 2016-05-17 | 序列切分的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107392311A CN107392311A (zh) | 2017-11-24 |
CN107392311B true CN107392311B (zh) | 2020-06-30 |
Family
ID=60338581
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610326460.2A Active CN107392311B (zh) | 2016-05-17 | 2016-05-17 | 序列切分的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107392311B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109002434A (zh) * | 2018-05-31 | 2018-12-14 | 青岛理工大学 | 客服问答匹配方法、服务器及存储介质 |
CN111105028B (zh) * | 2018-10-26 | 2023-10-24 | 杭州海康威视数字技术股份有限公司 | 一种神经网络的训练方法、装置及序列预测方法 |
CN109615013B (zh) * | 2018-12-14 | 2022-09-27 | 大连海事大学 | 基于行为特征概率分布约束的传感器事件流分割方法 |
CN109948149B (zh) * | 2019-02-28 | 2020-09-11 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
CN111104418B (zh) * | 2019-12-23 | 2023-08-29 | 北京百度网讯科技有限公司 | 文本描述的处理方法、装置和电子设备 |
CN114417817B (zh) * | 2021-12-30 | 2023-05-16 | 中国电信股份有限公司 | 一种会话信息切割方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN105185374A (zh) * | 2015-09-11 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
-
2016
- 2016-05-17 CN CN201610326460.2A patent/CN107392311B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101122909A (zh) * | 2006-08-10 | 2008-02-13 | 株式会社日立制作所 | 文本信息检索装置以及文本信息检索方法 |
CN101414300A (zh) * | 2008-11-28 | 2009-04-22 | 电子科技大学 | 一种互联网舆情信息的分类处理方法 |
CN102184262A (zh) * | 2011-06-15 | 2011-09-14 | 悠易互通(北京)广告有限公司 | 基于web的文本分类挖掘系统及方法 |
CN105185374A (zh) * | 2015-09-11 | 2015-12-23 | 百度在线网络技术(北京)有限公司 | 韵律层级标注方法和装置 |
Non-Patent Citations (5)
Title |
---|
Bi-directional LSTM Recurrent Neural Network for ChineseWord Segmentation;Yushi Yao等;《eprint arXiv:1602.04874》;20160216;摘要,第3章节 * |
Speech recognition with deep recurrent neural networks;Alex Graves等;《2013 IEEE International Conference on Acoustics, Speech and Signal Processing》;20131021;第6645-6649页 * |
基于二元背景模型的新词发现;吴悦 等;《清华大学学报(自然科学版)》;20110930;第51卷(第9期);第1317-1320页 * |
李鑫鑫.自然语言处理中序列标定问题的联合学习方法研究.《中国博士学位论文全文数据库》.2014,(第12期), * |
自然语言处理中序列标定问题的联合学习方法研究;李鑫鑫;《中国博士学位论文全文数据库》;20141215(第12期);论文第5章节,第76-93页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107392311A (zh) | 2017-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107392311B (zh) | 序列切分的方法和装置 | |
CN110598206B (zh) | 文本语义识别方法、装置、计算机设备和存储介质 | |
US11631029B2 (en) | Generating combined feature embedding for minority class upsampling in training machine learning models with imbalanced samples | |
CN110276066B (zh) | 实体关联关系的分析方法及相关装置 | |
US20190108242A1 (en) | Search method and processing device | |
Doquire et al. | Mutual information-based feature selection for multilabel classification | |
CN110009430B (zh) | 作弊用户检测方法、电子设备及计算机可读存储介质 | |
CN105975459B (zh) | 一种词项的权重标注方法和装置 | |
US20190171724A1 (en) | Method and apparatus for determining hot event | |
CN105354307A (zh) | 一种图像内容识别方法及装置 | |
KR101561464B1 (ko) | 수집 데이터 감성분석 방법 및 장치 | |
CN113032525A (zh) | 虚假新闻检测方法、装置、电子设备以及存储介质 | |
CN112528010B (zh) | 知识推荐方法、装置、计算机设备及可读存储介质 | |
CN110968689A (zh) | 罪名及法条预测模型的训练方法以及罪名及法条预测方法 | |
CN112667782A (zh) | 一种文本分类方法、装置、设备及存储介质 | |
CN112395412B (zh) | 文本分类的方法、装置以及计算机可读介质 | |
CN106878242B (zh) | 一种确定用户身份类别的方法及装置 | |
CN112801425B (zh) | 信息点击率的确定方法、装置、计算机设备和存储介质 | |
CN112667803A (zh) | 一种文本情感分类方法及装置 | |
CN114240672A (zh) | 绿色资产的占比的识别方法及相关产品 | |
CN110020638B (zh) | 人脸表情识别方法、装置、设备和介质 | |
CN115952800A (zh) | 命名实体识别方法、装置、计算机设备及可读存储介质 | |
CN114266252A (zh) | 命名实体识别方法、装置、设备及存储介质 | |
CN107315807B (zh) | 人才推荐方法和装置 | |
CN112434126A (zh) | 一种信息处理方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20191212 Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands Applicant after: Innovative advanced technology Co., Ltd Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands Applicant before: Alibaba Group Holding Co., Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |