CN109384833B

CN109384833B - 特异性识别甲基化修饰dna碱基的tale rvd及其应用

Info

Publication number: CN109384833B
Application number: CN201710660240.8A
Authority: CN
Inventors: 魏文胜; 伊成器; 张媛; 郭生杰; 朱晨旭; 刘璐璐
Original assignee: Edigene Beijing Biotechnology Co ltd; Peking University
Current assignee: Edigene Beijing Biotechnology Co ltd; Peking University
Priority date: 2017-08-04
Filing date: 2017-08-04
Publication date: 2021-04-27
Anticipated expiration: 2037-08-04
Also published as: CN109384833A

Abstract

本发明鉴定了对于5mC、5hmC和6mA具有识别偏好、对于这些表观修饰具有不同结合特性的RVD。使用这些RVD可以实现甲基化依赖的基因激活、高效基因组编辑以及对5hmC的靶向检测等应用。因此本发明提供包含TALE的分离的DNA结合多肽、融合蛋白、多核苷酸、包含多核苷酸的载体以及宿主细胞，及其包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基的试剂中的应用，本发明同时还提供靶向结合细胞中目标基因的靶序列的方法。

Description

特异性识别甲基化修饰DNA碱基的TALE RVD及其应用

发明领域

本发明涉及使用DNA结合蛋白对基因进行调节、编辑和检测的技术。

背景技术

转录激活样效应因子(transcription activator-like effector,TALE)是来自植物致病菌黄单胞菌属(Xanthomonas)的毒力因子，能够对真核基因组进行再编程(reprogram)(1,2)。TALE含有DNA结合域，该DNA结合域由可变数量的串联重复单元组成(3)。每个重复包含33-35个氨基酸残基的共有序列(consensus sequence)，除了在第12位和第13位具有两个高度可变的氨基酸 (重复可变的双残基，repeat-variable diresidues或RVD)(4,5)。TALE蛋白对DNA的识别由串联重复单元介导，串联重复单元通过其RVD靶向核苷酸，以序列特异性的方式结合DNA，RVD 决定了核苷酸特异性(4,6)。RVDs与DNA碱基形成直接的、序列特异性的接触通过模块化的 DNA识别特性，TALE可以与功能域，如转录激活因子(7,8)、转录抑制因子(9,10)或核酸内切酶(11,12)等融合，称为可编程的基因编辑工具。已有的研究中使用实验方法和计算方法对 RVD-DNA识别密码进行了部分解码(4,6)；发现最常用的四个RVD(NI、NG、HD和NN)分别优先结合A、T、C和G/A(4,6)。

除了四种常规脱氧核糖核苷酸之外，哺乳动物基因组还含有修饰的DNA碱基。例如，5- 甲基胞嘧啶(5mC)，它被称为是第五种DNA碱基，是一种重要的表观标志物，调节基因表达(图1a)(15,16)。5mC可以相继被10-11易位酶(TET)家族蛋白氧化，产生5-羟甲基胞嘧啶(5hmC)、 5-甲酰胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)，后二者是胸腺嘧啶DNA糖基化酶的底物，并最终恢复为未修饰的胞嘧啶(17,22)。5hmC组成～1％-10％的修饰的胞嘧啶，并被认为是一种稳定的表观标记；在癌症中经常观察到5hmC的调节异常。

除了胞嘧啶上的甲基化修饰以外，另一种常见的DNA甲基化修饰N6-甲基腺嘌呤(N⁶-methyladenine,6mA)作为DNA的腺嘌呤上的一种共价修饰在原核细胞中发挥重要作用，参与调节多种生物途径，包括作为限制修饰系统(restriction–modification,RM)的一部分抵御外源 DNA入侵，在DNA复制、错配修复、基因转录和转座等过程中起调控作用等(41,47)。而6mA 在真核生物中的相关研究比较少，同时对6mA在表观遗传中的作用也不十分清楚(46)。

2015年在Cell杂志上的三篇文章报道了在衣藻、线虫和果蝇等真核生物的基因组中的 6mA(42,43,48)。对于衣藻(Chlamydomonas reinhardtii)中6-甲基胞嘧啶位置的测定，发现衣藻的大部分基因中都有6mA分布，并且多数是以ApT双碱基模式出现；同时6mA在转录起始位点富集，与基因活跃表达相关(42)。而在果蝇(Drosophila melanogaster)和线虫(Caenorhabditis elegans)的研究中则发现6mA很可能在分化和发育过程中起到重要的调控作用(48)。人们发现 6mA甲基化和去甲基化相关的酶在进化中是保守的，所以6mA很可能在其他真核生物中也有分布(43)。直至2016年，Koziol等人证实了6mA在脊椎动物基因组中的存在，其中包括了非洲爪蟾(Xenopus laevis)的不同组织以及小鼠与人的组织或细胞系。6mA修饰在脊椎动物中丰度很低，研究发现与衣藻和果蝇不同，爪蟾与小鼠基因组中的6mA广泛分布于除外显子以外的区域，同时也表现出一定的序列基序规律，说明6mA修饰在不同真核生物中可能有不同的功能(44)。6mA这种表观遗传修饰在高等生物中的分布及其在细胞与个体发育等过程中的作用和机制还有待深入研究。

TALE蛋白已被报道能够识别修饰的DNA碱基(24-26)。例如，已报道NG或N*(星号代表第13位氨基酸的缺失)能够识别同源DNA中的5mC(25,27-31)；NG/N*和HD的组合被用于在体外检测中将5mC/5hmC和C区分开(32)。最近的研究还报道了具有截短的重复环(G*、S*和T*) 的TALE蛋白可以以相似的亲和性结合C、5mC、5hmC、5fC和5caC(33,34)。在TALE-DNA复合物的晶体结构中，RVD环与DNA双链大沟(duplex major groove)接触，其中第一个残基使合适的环构型保持稳定，第二个残基进行直接的碱基特异性接触(35,36)。目前，对于RVD识别 5mC、5hmC和6mA的潜能尚待进一步研究。

发明内容

本发明鉴定了对于5mC、5hmC和6mA具有识别偏好、对于这些表观修饰具有不同结合特性的RVD。使用这些RVD可以实现甲基化依赖的基因激活、高效基因组编辑以及对5hmC的靶向检测等应用。

根据本发明的一个方面，提供分离的DNA结合多肽，其包含TALE，所述TALE包含选自以下的一种或更多种RVD：

HA或NA，其可以特异性识别5mC；

FS，其可以特异性识别5hmC；

N*、NG或KP，其可以识别C和5mC二者；

HV或KV，其可以识别C和5hmC二者；

K*或RG，其可以识别5mC和5hmC二者；

G*、H*、R*或Y*，其可以识别C、5mC和5hmC三者；

NP、FT、CV或CP，其可以特异性识别6mA；或

RI、NI、KI或HI，其可以识别A和6mA二者；

其中*表示该位置上的氨基酸缺失。

根据本发明的另一个方面，提供融合蛋白，包含功能结构域和TALE，所述TALE包含选自以下的一种或多种RVD：

HA或NA，其可以特异性识别5mC；

FS，其可以特异性识别5hmC；

N*、NG或KP，其可以识别C和5mC二者；

HV或KV，其可以识别C和5hmC二者；

K*或RG，其可以识别5mC和5hmC二者；

G*、H*、R*或Y*，其可以识别C、5mC和5hmC三者；

NP、FT、CV或CP，其可以特异性识别6mA；或

RI、NI、KI或HI，其可以识别A和6mA二者；

其中*表示该位置上的氨基酸缺失。

在一些实施方案中，所述功能结构域是调节基因表达的功能结构域、表观遗传修饰功能结构域，基因编辑功能结构域，或者荧光蛋白。

在一些实施方案中，所述调节基因表达的功能结构域是转录激活因子、转录抑制因子或其功能性片段，所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段，所述基因编辑功能结构域是核酸酶或其功能性片段。

在一些实施方案中，所述基因编辑功能结构域是核酸内切酶，优选是FokI核酸内切酶，更优选是FokI核酸内切酶的DNA切割域。

根据本发明的另一个方面，提供编码上述DNA结合多肽或上述任一种的融合蛋白的多核苷酸。

根据本发明的另一个方面，提供包含上述多核苷酸的载体。

根据本发明的另一个方面，提供宿主细胞，其包含上述多核苷酸或上述载体。

根据本发明的另一个方面，包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基的试剂中的应用，包括：

(1)包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基5mC的试剂中的应用，所述TALE重复结构域的一个或更多个RVD是HA或NA；

(2)包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基5hmC的试剂中的应用，所述TALE重复结构域的一个或更多个RVD是FS；或

(3)包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基6mA的试剂中的应用，所述TALE的重复结构域的一个或更多个RVD是NP、FT、CV或CP。

根据本发明的另一方面，提供上述DNA结合多肽、上述任一种融合蛋白、上述多核苷酸、上述载体或上述宿主细胞在制备靶向结合细胞中目标基因的靶序列的试剂中的应用。

根据本发明的另一方面，提供上述任一种融合蛋白或编码该融合蛋白的多核苷酸在制备调节细胞中目标基因表达的试剂中的应用，其中所述融合蛋白中包含的功能结构域是调节基因表达的功能结构域。

在一些实施方案中，所述调节基因表达的功能结构域是转录激活因子或其功能性片段，或者转录抑制因子或其功能性片段。

根据本发明的另一方面，提供上述任一种融合蛋白或编码该融合蛋白的多核苷酸在制备对细胞中目标基因进行基因编辑的试剂中的应用，其中所述融合蛋白中包含的功能结构域是基因编辑功能结构域。

在一些实施方案中，所述基因编辑是核酸切割，所述基因编辑功能结构域是核酸酶或其功能性片段，优选是核酸内切酶或其功能性片段，更优选是FokI核酸内切酶或其DNA切割域。

根据本发明的另一方面，提供上述任一种融合蛋白或编码该融合蛋白的多核苷酸在制备对细胞中目标基因进行表观遗传修饰的试剂中的应用，其中所述融合蛋白中包含的功能结构域是表观遗传修饰功能结构域。

在一些实施方案中，所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段。

根据本发明的另一方面，提供靶向结合细胞中目标基因的靶序列的方法，包括：将上述 DNA结合多肽、上述任一种融合蛋白、或者上述多核苷酸引入细胞，使所述DNA结合多肽或融合蛋白中的TALE与目标基因的靶序列结合。

在一些实施方案中，在上述方法中：

所述DNA结合多肽或融合蛋白中的TALE包含选自HA或NA的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是5mC时，所述DNA结合多肽或融合蛋白中的TALE 才与目标基因的靶序列结合；

所述DNA结合多肽或融合蛋白中的TALE包含选自FS的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是5hmC时，所述DNA结合多肽或融合蛋白中的TALE才与目标基因的靶序列结合；

所述DNA结合多肽或融合蛋白中的TALE包含选自NP、FT、CV或CP的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是6mA时，所述DNA结合多肽或融合蛋白中的TALE才与目标基因的靶序列结合；

所述DNA结合多肽或融合蛋白中的TALE包含选自N*、NG或KP的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C或5mC；

所述DNA结合多肽或融合蛋白中的TALE包含选自HV或KV的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C或5hmC；

所述DNA结合多肽或融合蛋白中的TALE包含选自K*或RG的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是5mC或5hmC；

所述DNA结合多肽或融合蛋白中的TALE包含选自G*、H*、R*或Y*的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C、5mC 或5hmC；或者

所述DNA结合多肽或融合蛋白中的TALE包含选自RI、NI、KI或HI的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是A或6mA；

其中*表示该位置上的氨基酸缺失。

根据本发明的另一个方面，提供调节细胞中目标基因表达的方法，包括：将上述任一种融合蛋白、或者编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，由此使得目标基因的表达被融合蛋白中的功能结构域调节，其中所述功能结构域是调节基因表达的功能结构域。

在一些实施方案中，在上述方法中：

所述融合蛋白中的TALE包含选自HA或NA的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是5mC时，所述融合蛋白中的TALE才与目标基因的靶序列结合，；

所述融合蛋白中的TALE包含选自FS的RVD，只有当所述目标基因的靶序列中在所述 RVD的识别位点上是5hmC时，所述融合蛋白中的TALE才与目标基因的靶序列结合；

所述融合蛋白中的TALE包含选自NP、FT、CV或CP的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是6mA时，所述融合蛋白中的TALE才与目标基因的靶序列结合；

所述融合蛋白中的TALE包含选自N*、NG或KP的RVD，所述目标基因的靶序列中在所述 RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C或5mC；

所述融合蛋白中的TALE包含选自HV或KV的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C或5hmC；

所述融合蛋白中的TALE包含选自K*或RG的RVD，所述目标基因的靶序列中在所述RVD 的识别位点上的特定碱基的甲基化状态不确定，可能是5mC或5hmC；

所述融合蛋白中的TALE包含选自G*、H*、R*或Y*的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是C、5mC或5hmC；或者

所述融合蛋白中的TALE包含选自RI、NI、KI或HI的RVD，所述目标基因的靶序列中在所述RVD的识别位点上的特定碱基的甲基化状态不确定，可能是A或6mA；

其中*表示该位置上的氨基酸缺失。

在一些实施方案中，在上述方法中，所述调节基因表达的功能结构域是转录激活因子或其功能性片段，或者转录抑制因子或其功能性片段。

根据本发明的另一个方面，提供对细胞中的目标基因进行基因编辑的方法，包括：将上述任一种融合蛋白、或者编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE 与目标基因的靶序列结合，由此使得目标基因被融合蛋白中的功能结构域进行编辑，其中所述功能结构域是基因编辑功能结构域。

在一些实施方案中，在上述方法中：

所述融合蛋白中的TALE包含选自HA或NA的RVD，只有当所述目标基因的靶序列中在所述RVD的识别位点上是5mC时，所述融合蛋白中的TALE才与目标基因的靶序列结合；

其中*表示该位置上的氨基酸缺失。

在一些实施方案中，在上述方法中，所述基因编辑是核酸切割，所述基因编辑功能结构域是核酸酶或其功能性片段，优选是核酸内切酶或其功能性片段，更优选是FokI核酸内切酶或其DNA切割域。

根据本发明的另一个方面，提供对细胞中的目标基因进行表观遗传修饰的方法，包括：将权利要求2-5任一项的融合蛋白、或者编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，由此使得目标基因被融合蛋白中的功能结构域进行表观遗传修饰，其中所述功能结构域是表观遗传修饰功能结构域。

在一些实施方案中，在上述方法中：

其中*表示该位置上的氨基酸缺失。

在一些实施方案中，在上述方法中，所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段。

根据本发明的另一个方面，提供活细胞染色体标记方法，包括：将上述任一种融合蛋白、或者编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，其中所述功能结构域是荧光蛋白，通过所述融合蛋白中的TALE与目标基因的靶序列结合实现对靶序列的荧光标记。

在一些实施方案中，在上述方法中：

其中*表示该位置上的氨基酸缺失。

根据本发明的另一个方面，提供检测细胞基因组中目标序列的特定位点上是否存在5mC 的方法，包括：

(1)将包含TALE的蛋白引入细胞，所述TALE靶向目标序列，所述TALE中识别所述特定位点的RVD是HA或NA；

(2)然后将核酸酶引入细胞，所述核酸酶的靶向切割位点位于TALE靶序列中；

(3)检测目标序列是否被切割，由此判断目标序列的特定位点上是否存在5mC；如果目标序列未被切割，则所述TALE结合所述目标序列，使得所述核酸酶无法结合该目标序列并切割，所述特定位点上存在5mC；如果目标序列被切割，则所述TALE未结合所述目标序列，所述核酸酶结合该目标序列并切割，所述特定位点上不存在5mC。

根据本发明的另一个方面，提供检测细胞基因组中目标序列的特定位点上是否存在5hmC 的方法，包括以下步骤：

(1)将包含TALE的蛋白引入细胞，所述TALE靶向目标序列，所述TALE中识别所述特定位点的RVD是FS；

(3)检测目标序列是否被切割，由此判断目标序列的特定位点上是否存在5hmC；如果目标序列未被切割，则所述TALE结合所述目标序列，使得所述核酸酶无法结合该目标序列并切割，所述特定位点上存在5hmC；如果目标序列被切割，则所述TALE未结合所述目标序列，所述核酸酶结合该目标序列并切割，所述特定位点上不存在5hmC。

根据本发明的另一个方面，提供检测细胞基因组中目标序列的特定位点上是否存在6mA 的方法，包括：

(1)将包含TALE的蛋白引入细胞，所述TALE靶向目标序列，所述TALE中识别所述特定位点的RVD是NP、FT、CV或CP；

(3)检测目标序列是否被切割，由此判断目标序列的特定位点上是否存在6mA；如果目标序列未被切割，则所述TALE结合所述目标序列，使得所述核酸酶无法结合该目标序列并切割，所述特定位点上存在6mA；如果目标序列被切割，则所述TALE未结合所述目标序列，所述核酸酶结合该目标序列并切割，所述特定位点上不存在6mA。

在一些实施方案中，所述核酸酶是核酸内切酶。

在一些实施方案中，所述核酸酶是Cas9核酸酶，且在步骤(1)中将所述Cas9核酸酶和 sgRNA共同引入细胞。

附图说明

图1是用于评估所有潜在的TALE RVDs识别修饰的胞嘧啶的筛选示意图。(a)C、5mC和 5hmC的化学结构。(b)针对修饰的胞嘧啶筛选新RVD的系统示意图，其由TALE激活物和GFP 表达报告DNA片段组成。(c)当定制的TALE不结合报告DNA片段时(左图)，例如TALE-(E*)₃对5mC报告DNA片段，GFP表达处于基线水平(右图)；相反，当TALE与报告DNA片段紧密结合时(左图)，如TALE-(G*)₃对5mC报告DNA片段，GFP表达上调(右图)。mCherry强度指示TALE-(XX')₃质粒的转染效率。

图2显示了含有5mC和5hmC的报告DNA片段的制备。5mC和5hmC被掺入到用于产生含5mC和5hmC的报告DNA片段的引物中。HPLC色谱显示(a)5mC和(b)5hmC的掺入；从放大图中可以清楚地观察到5hmC的峰。(c)含5mC和5hmC的报告DNA片段的PCR扩增的示意图。

图3显示了对TALE RVD对于5mC和5hmC的效率和特异性的完全评估。

(a)用热图汇总了5mC和5hmC的筛选数据。其中为了便于比较，还显示了常规C和T报告 DNA片段的结果。使用不同颜色表示报告DNA片段的身份，对不同报告DNA片段的EGFP活性进行编码，颜色的亮度表示TALE构建体对报告DNA片段的诱导倍数，相对于基线水平标准化。其中使用氨基酸的单字母缩写。

(b)从a图的初步筛选结果中，挑选了一些对5mC和5hmC有识别能力的RVD进行实验的结果，具体来说就是选择了对于5mC和5hmC报告系统EGFP激活倍数较大的一些RVD做3次重复的确认实验，该图显示了RVD对修饰的胞嘧啶的偏好。根据碱基偏好将RVD分群，并在每个群中根据第13位的碱基分组。数据显示为平均值±SD，n＝3；*P<0.05，**P<0.005。

图4显示了420个TALE RVD对修饰的胞嘧啶的结合偏好性。该数据对应于热图(图3a)。Y 轴是EGFP报道子的诱导倍数，X轴是RVD。根据RVD的第一个残基对柱图分类，根据第二个残基的字母顺序列出数据。

图5显示了通过体外保护测定对TALE RVDs的DNA识别进行的定量测量。

(a)体外保护测定的原理。简单来说，TALE蛋白(即图中的TAL效应蛋白)与特定序列的 DNA片段结合会使MspI限制性内切酶位点被封闭住，从而抑制核酸内切酶的切割，并导致在变性PAGE分析中产生被保护的全长条带和切割的DNA条带。对于DNA的保护效率反映了 TALE蛋白与DNA的结合效率。

(b)通过测定未切割的或保护的DNA的片段获得标准化的保护效率，将其拟合为不同 TALE RVD的保护曲线。使用Hill slope(GraphPad)将该曲线拟合为特异性结合曲线。所有实验都重复三次。

(c)由(b)计算的抑制常数，每一个常数相对于同一个RVD的最低抑制常数的比值显示在括号中。RVD的抑制常数是通过包含不同RVD的TALE蛋白对于C、5mC和5hmC的切割保护试验获得保护效率，并使用GraphPad Prism 6软件对保护效率曲线进行拟合并计算抑制常数获得的，该抑制常数表征不同RVD对C、5mC和5hmC的的结合效率，抑制常数的数值越小说明该 RVD的保护效率越强，与对应的DNA片段的结合越强。这里所说的同一个RVD的最低抑制常数是指该RVD与C、5mC和5hmC结合效率最高的一组的抑制常数值。

图6显示了在体外保护测定中，不同TALE RVD对表观胞嘧啶的特异性结合。

(a)纯化的TALE蛋白质的代表性尺寸排阻层析。

(b)SDS-PAGE分析显示纯化的TALE蛋白的分子量很好地与计算的分子量相关。

(c)体外保护测定的代表性凝胶图像。从图6中可以看出，MAPK6-HD可以以最高效率保护C，而HA以相对于未修饰的C而言较高的效率保护5mC和5hmC，FS以最高的效率保护5hmC。

图7显示了甲基化依赖性的基因表达活化和基因编辑。

(a)TALE_TET1靶向TET1基因的转录起始位点(TSS)的上游约80bp处的16bpDNA序列。该区域中的所有三个CpG(其中的C用黑色表示)在HeLa细胞中是高度甲基化的，但在HEK293T细胞中是未甲基化的。

(b)用含有不同RVD的TALE_TET1转染的HeLa和HEK293T细胞中的TET1的相对mRNA水平。

(c)TALE_LRP2靶向LRP2基因的TSS上游100bp处的16bp序列。这两个区域中的两个CpG在 HeLa细胞中都含有中等水平的甲基化，而在HEK293T细胞中是未甲基化的。

(d)用含有不同RVD的TALE_LRP2转染的HeLa和HEK293T细胞中的LRP2的相对mRNA水平。

(e)TALEN(Transcription activator-like effector nuclease，即融合了FokI核酸内切酶的TALE 效应因子)靶向序列的位置。甲基化的CpG用红色表示。

(f)使用不同RVD的TALEN的基因编辑效率。数据是平均值±SD，n＝3；*P<0.05， **P<0.005。

图8显示了甲基化依赖的基因表达活化和基因组编辑。

(A)用具有RVD NA、G*和Y*的TALE_TET1转染的HeLa和HEK293T细胞中TET1的相对mRNA水平。

(B)用具有RVD NA、G*和Y*的TALE_LRP2转染的HeLa和HEK293T细胞中LRP2的相对mRNA水平。

(C)具有RVD NA、G*和Y*的TALEN的基因组编辑效率。数据是平均值±SD，n＝3； *P<0.05，**P<0.005。

图9显示了在基因组DNA中以单碱基分辨率检测5hmC。

(a)新鉴别的RVD以碱基级分辨率检测5hmC的工作流程。简单来说，靶基因组区域受到 TALE保护，免于Cas9-介导的DNA切割。

(b)靶向mESC基因组中的单个5hmC位点的TALE-FS(黑色)和TALE-HD(灰色)的保护效率。

(c)TALE-FS对于mESC、RAW264.7、L-M(TK-)和L929细胞的基因组DNA中的单个5hmC位点的保护效率。在该给定位点上，在所有细胞系中，mESC基因组含有最高的5hmC修饰水平。

图10显示了TALE-FS对含有5hmC的DNA的选择性保护。含有5mC、5hmC和未修饰的C的DNA(与MAPK6基因具有相同序列)以不同的比例成对混合。当5mC(灰色圆圈)的级分增加时，保护效率仅有轻微提高。当5hmC的级分增加时(与C和5mC混合，黑色圆圈和黑色三角)，保护效率极大地提高，这表示RVD FS对5hmC的选择性保护。

图11显示了TALE-(XX’)₃对于6mA与A的结合特性。

图12显示了部分TALE-(XX’)₃对于6mA与A的结合特性。依据RVD的第二位氨基酸分组，每组RVD按对6mA报告系统激活效率从低到高进行排序；纵轴为对报告系统EGFP的激活倍数，灰色对应A报告系统，黑色对应6mA报告系统，横轴为RVD；仅显示重复后6mA平均值大于5的数据组。数据为means±s.d.,n＝3。

图13显示不同RVD对于A、T、C和G报告系统的识别效率。

具体实施方式

本发明显示TALE蛋白与DNA的结合受DNA碱基修饰的影响。本发明通过对420个RVD的研究，鉴别了对5mC、5hmC和/或6mA具有独特的特异性的RVD。5mC、5hmC和6mA是高等真核生物中的重要表观标志物。甲基化和羟甲基化组不干扰碱基配对；但它们存在于DNA双链的大沟中，这会影响它们与TALE蛋白的相互作用。

TALE-DNA复合物的结构显示第13位的氨基酸是直接与正义链的DNA碱基相互作用的唯一残基，而第12位的残基的作用是在碱基对识别过程中使恰当的环构象保持稳定(35,36)。本发明证明，在第13位上为小的氨基酸(Gly和Ala)或者缺失，能够增加对5mC的亲和性。这个观察结果与之前的发现，即N*和NG(天然识别T)能够与5mC结合相一致。有可能第13位上的大的侧链的缺少可以产生足够的空间容纳5mC的甲基基团。但是，这种一般趋势存在例外。例如，本发明中还观察到HG对5mC的亲和性非常弱，HG与HD相比在第13位含有较小的残基，HD是C的天然结合物。有趣的是，当第12位的His被Arg替换时(由此变成RG)，观察到与5mC 的强结合。事实上，RG也识别5hmC。这些观察结果表明双残基对修饰的识别可能存在更为复杂的模式。

本发明证明了TALE-介导的对几个高度甲基化的基因组区域的甲基化依赖的基因激活和基因组编辑。作为重要的对照，当相同的区域缺乏胞嘧啶甲基化时(在不同的细胞中)，几乎观察不到基因活化。因此，本发明发现的RVD可以提供这样的可能性：根据靶基因在体内的修饰状态来操纵靶基因。已知存在许多差异甲基化区域(DMR)，它们涉及许多重要的生物学事件，包括基因印记和疾病。因此，TALE蛋白读出表观标志物的独特能力使得未来TALE在体内的表观基因组依赖性的应用成为可能。

本文所使用的术语“多核苷酸”指呈线性或环状构象和单链或双链形式的脱氧核糖核苷酸或核糖核苷酸聚合物。

本发明中，术语“多肽”、“肽”和“蛋白”可以互换使用，表示氨基酸的聚合物，其中一种或多种氨基酸可以是天然存在的氨基酸，或者其化学类似物或修饰衍生物。

本文所述的“结合”指大分子之间(例如，蛋白质和核酸之间)的序列特异性的、非共价的相互作用。本文所使用的术语“结合多肽”是能够非共价结合另一分子的多肽或蛋白。所述另一分子可以是DNA分子、RNA分子和/或蛋白分子。

本发明所使用的术语“TALE”是指转录激活因子样效应子(TranscriptionActivator-like Effectors)，它包含DNA结合域(也可称为TALE重复结构域或TALE重复单元)和其两侧的N-末端和C-末端非重复序列，可以特异性识别DNA序列。所述DNA结合域由串联“重复单元”组成。每个“重复单元”包含33-35个氨基酸，其中第12和13位残基是靶向识别的关键位点，被称作重复可变的双残基(repeat-variable diresidues或RVD)，每个RVD仅能识别一个碱基。TALE 或其DNA结合域通过RVD识别与所述RVD按顺序对应的DNA靶序列。

天然存在的TALE通常包含1.5～33.5个重复单元，但已有研究表明对于DNA的有效识别和结合通常需要至少6.5个重复单元，而10.5或者更多的重复单元能表现出更强的活性(Boch, Jens,and Ulla Bonas."Xanthomonas AvrBs3family-type III effectors:discovery and function."Annual review of phytopathology 48(2010):419-436.；Boch,Jens,et al."Breaking the code of DNA binding specificity of TAL-type IIIeffectors."Science 326.5959(2009):1509-1512.)

TALE重复单元可以是截短的重复单元，也可以称为半重复单元，即其为完整重复单元的 N-端的一部分，该截短的重复单元包含RVD。通常，天然TALE重复结构域羧基端的最后重复单元为截短的重复单元。半重复单元的通常包含17-20个氨基酸。

本发明中，在一些实施方案中，TALE的重复单元可以是6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、 34或35个。TALE的重复单元可以包含6、7、8、9、10、11、12、13、14、15、16、17、18、 19、20、21、22、23、24、25、26、27、28、29、30、31、32、33或34个完整重复单元和一个半重复单元。

在优选的实施方案中，TALE包含14个完整重复单元和1个半重复单元，其中半重复单元位于整个TALE重复单元的羧基端。

在优选的实施方案中，TALE中的单一“重复单元”可以是 LTPEQVVAIASXX’GGKQALETVQRLLPVLCQAHG。在一些实施方案中，TALE中的半重复单元序列为LTPEQVVAIASXX’GGKQ。其中XX’是RVD。

本发明的实施例中使用TALE重复单元序列为Xanthomonas(黄单胞菌属)中的一种AvrBs3 蛋白氨基酸序列。除该序列外，本发明的RVD同样可适用于含有其他重复单元序列的TALE 中。AvrBs3在不同的黄单胞菌属的亚种中有不同的同源物，其具体序列可参见文章“Boch, Jens,and Ulla Bonas."Xanthomonas AvrBs3family-type III effectors:discovery and function."Annual review of phytopathology 48(2010):419-436.”。

本发明中，多肽序列中的氨基酸以单字母缩写显示，本发明中涉及的氨基酸及其单字母缩写如下所示：

甘氨酸 Glycine Gly G

丙氨酸 Alanine Ala A

缬氨酸 Valine Val V

亮氨酸 Leucine Leu L

异亮氨酸 Isoleucine Ile I

腫氨酸 Proline Pro P

苯丙氛酸 Phenylalanine Phe F

酪氨酸 Tyrosine Tyr Y

色氨酸 Tryptophan Trp W

丝氨酸 Serine Ser S

苏氨酸 Threonine Thr T

半胱氨酸 Cystine Cys C

蛋氨酸 Methionine Met M

天冬酰胺 Asparagine Asn N

谷氨酰胺 Glutamine Gln Q

天冬氨酸 Asparticacid Asp D

谷氨酸 Glutamicacid Glu E

赖氨酸 Lysine Lys K

精氨酸 Arginine Arg R

组氨酸 Histidine His H

本发明中，当描述RVD时，*表示在该位置上的氨基酸缺失。

本发明中，“碱基”和“核苷酸”可互换使用，指一类由嘌呤碱或嘧啶碱、核糖或脱氧核糖以及磷酸三种物质组成的化合物，是DNA序列和RNA序列的主要组成成分。常见的脱氧核苷酸包括胞嘧啶(C)、胸腺嘧啶(T)、腺嘌呤(A)和鸟嘌呤(G)。

除了上述四种常规脱氧核糖核苷酸之外，哺乳动物基因组还含有修饰的DNA碱基。例如， 5-甲基胞嘧啶(5mC)，它被称为是第五种DNA碱基，是一种重要的表观标志物，调节基因表达。 5mC可以相继被10-11易位酶(TET)家族蛋白氧化，产生5-羟甲基胞嘧啶(5hmC)、5-甲酰胞嘧啶 (5fC)和5-羧基胞嘧啶(5caC)。除了胞嘧啶上的甲基化修饰以外，另一种常见的DNA甲基化修饰N6-甲基腺嘌呤(N⁶-methyladenine,6mA)作为DNA的腺嘌呤上的一种共价修饰在原核细胞中发挥重要作用。

本发明中所述的“甲基化修饰碱基”是指具有甲基化修饰的碱基，包括5-甲基化胞嘧啶 (5mC)、5-羟甲基化胞嘧啶(5hmC)以及6-甲基化腺嘌呤(6mA)。

本发明发现了对5mC、5hmC、6mA具有特异性识别作用的RVD，以及可识别这些甲基化修饰碱基和相应的无修饰碱基的简并RVD，具体参见下表：

识别碱基	RVD
		5mC	HA,NA
5hmC	FS
		C,5mC	N*,NG,KP
C,5hmC	HV,KV
		5mC,5hmC	K*,RG
C,5mC,5hmC	G,H,R,Y
		6mA	NP,FT,CV,CP
6mA,A	RI,NI,KI,HI

根据上表，RVD HA或NA可以特异性识别5mC，即可以将5mC与5hmC和C区分开；RVDFS可以特异性识别5hmC，即可以将5hmC与5mC和C区分开；RVD NP,FT,CV或CP可以特异性识别6mA，即可以将6mA与A区分开；简并RVD N*,NG或KP可以识别C和5mC；简并。

本发明中，如上下文无特别说明，在描述RVD识别的碱基时，当提及“C”时，是指无甲基化修饰的胞嘧啶；当提及“A”时，是指无甲基化修饰的腺嘌呤；当提及“5mC”时，是指5-甲基化胞嘧啶；当提及“5hmC”时，是指5-羟甲基化胞嘧啶；当提及“6mA”时，是指6-甲基化腺嘌呤。

根据本发明，“特异性识别”某个特定的甲基化修饰碱基是指RVD对该特定的甲基化修饰碱基的结合亲和力明显大于具有其它形式修饰的相同碱基，或者大于无修饰的相同碱基，或者大于其它不同碱基。

结合亲和力可以通过本领域技术人员熟知的各种方法测定，例如可以通过如下述参考文献所述构建TALE-VP64-mCherry构建体，并构建包含不同修饰碱基和荧光蛋白基因的报告 DNA片段，利用TALE-VP64-mCherry构建体在细胞中表达的TALE-VP64蛋白结合并激活报告 DNA片段导致的荧光蛋白信号升高倍数确定TALE中所含RVD和报告DNA片段中所含不同修饰碱基的结合亲和力。当RVD针对某种特定修饰碱基的EGFP激活倍数明显高于其他形式碱基的EGFP激活倍数时，可以认为RVD可以特异性识别该特定修饰碱基。结合亲和力还可以通过如本发明实施例4所述的体外保护测定来确定。

根据上表，本发明发现RVD HA或NA可以特异性识别5mC。RVD HA或NA与5mC的结合亲和力明显高于5hmC和C，利用该RVD可以将5mC与5hmC和C区分开，实现TALE与5mC的特异性结合，并实现依赖于5mC的各种具体应用。

依赖于5mC的各种具体应用包括但不限于对基因中5mC的检测，依赖于5mC的基因表达调控、基因编辑、表观遗传修饰等(即仅在靶序列中存在5mC的情况下不进行基因表达调控、基因编辑或表观遗传修饰，在相应位置上是C或5hmC的情况下进行基因表达调控、基因编辑或表观遗传修饰)，依赖于5mC的活细胞染色体标记(即仅标记染色体中在相应位置具有5mC 的基因，如果相应位置是C或5hmC，则不标记，由此可以观察活细胞中基因的胞嘧啶甲基化情况)、制备可以特异性结合含有5mC的序列的蛋白。

本发明还发现RVD FS可以特异性识别5hmC。RVD FS与5hmC的结合亲和力明显高于5mC和C，利用该RVD可以将5hmC与5mC和C区分开，实现TALE与5hmC的特异性结合，并实现依赖于5hmC的各种具体应用。

依赖于5hmC的各种具体应用包括但不限于对基因中5hmC的检测，依赖于5hmC的基因表达调控、基因编辑、表观遗传修饰等(即仅在靶序列中存在5hmC的情况下不进行基因表达调控、基因编辑或表观遗传修饰，在相应位置上是C或5mC的情况下进行基因表达调控、基因编辑或表观遗传修饰)，依赖于5hmC的活细胞染色体标记(即仅标记染色体中在相应位置具有 5hmC的基因，如果相应位置是C或5mC，则不标记，由此可以观察活细胞中基因的胞嘧啶甲基化情况)、制备可以特异性结合含有5hmC的序列的蛋白。

本发明还发现RVD NP,FT,CV或CP可以特异性识别6mA。这些RVD与6mA的结合亲和力明显高于A，利用这些RVD可以将6mA与A区分开，实现TALE与6mA的特异性结合，并实现依赖于6mA的各种具体应用。

依赖于6mA的各种具体应用包括但不限于对基因中6mA的检测，依赖于6mA的基因表达调控、基因编辑、表观遗传修饰等(即仅在靶序列中存在6mA的情况下不进行基因表达调控、基因编辑或表观遗传修饰，在相应位置上是A的情况下进行基因表达调控、基因编辑或表观遗传修饰)，依赖于6mA的活细胞染色体标记(即仅标记染色体中在相应位置具有6mA的基因，如果相应位置是A，则不标记，由此可以观察活细胞中基因的胞嘧啶甲基化情况)、制备可以特异性结合含有6mA的序列的蛋白。

本发明还发现简并RVD N*,NG或KP可以识别C和5mC。这些简并RVD以类似的结合亲和力结合C和5mC，并且这些简并RVD对C和5mC的结合亲和力明显高于5hmC。

本发明还发现简并RVD HV或KV可以识别C和5hmC。这些简并RVD以类似的结合亲和力结合C和5hmC，并且这些简并RVD对C和5hmC的结合亲和力明显高于5mC。

本发明还发现简并RVD K*或RG可以识别5mC和5hmC。这些简并RVD以类似的结合亲和力结合5mC和5hmC，并且这些简并RVD对5mC和5hmC的结合亲和力明显高于5mC。

本发明还发现简并RVD G*、H*、R*或Y*可以识别C、5mC和5hmC。这些简并RVD以类似的结合亲和力结合C、5mC和5hmC。

本发明还发现简并RVD RI、NI、KI或HI可以识别6mA和A。这些简并RVD以类似的结合亲和力结合A和6mA。

这些简并RVD可以同时识别两种或三种不同甲基化修饰或无甲基化修饰的碱基，它们可以在不知晓碱基甲基化修饰情况的条件下使用，提高TALE的靶向结合效率，减少甲基化修饰对TALE与靶序列结合的影响。例如细胞基因组中的5mC能够在TET家族蛋白的催化下氧化成为5hmC，使用能够同时识别5mC和5hmC的简并RVD能够避免胞嘧啶甲基化类型的不同而造成的结合效率降低等问题。因此，在具体实验中可根据不同的实验目的，可对特异性识别某一种甲基化修饰碱基的RVD、识别其中两种甲基化形式碱基的简并RVD和识别三种甲基化形式碱基的简并RVD进行组合使用，从而满足具体实验需求。

本发明的RVD可用于任何需要与特定甲基化形式的碱基相结合应用中，这些应用可以是在体外进行或在体内进行的，这些应用可以是非治疗性的。

含有本发明的RVD的TALE可以被表达为DNA结合多肽，用以结合具有特定甲基化形式的碱基。在一些情况下，这种DNA结合多肽可以起到“抗体”的作用，用以结合其“抗原”(即含有特定甲基化形式的碱基的靶序列)。在一些情况下，这种DNA结合多肽可以与含有特定甲基化形式的碱基的靶序列相结合，保护其不受核酸酶的切割或者不与其它DNA结合多肽 (例如转录调节因子等)发生相互作用。

含有本发明的RVD的TALE还可以与荧光蛋白偶联形成融合蛋白，利用该融合蛋白可以对活细胞中染色体上含有特定甲基化形式的碱基的靶序列相结合，从而可以在活细胞中观察染色体的动态变化。

荧光蛋白是本领域技术人员熟知的，包括但不限于绿色荧光蛋白(GFP)、增强绿色荧光蛋白(EGFP)、红色荧光蛋白(RFP)或蓝色荧光蛋白(BFP)等。

含有本发明的RVD的TALE还可以与功能结构域偶联形成融合蛋白，利用该融合蛋白可以实现对含有特定甲基化形式的碱基的靶基因的操作。所述操作可以是基因编辑、调节基因表达、或表观遗传修饰等，所述功能结构域可以是基因编辑功能结构域、调节基因表达的结构域或表观遗传修饰结构域。

术语“基因编辑”是指改变靶位点上的基因序列，包括基因的插入、删除或替换。例如，所述基因编辑可以是利用核酸酶对靶位点进行DNA双链切割、形成DNA单链缺口等，随后在 DNA序列的非同源末端连接(NHEJ)修复的过程中会产生DNA的插入或删除(insertionand deletion,indel)，造成移码突变，从而达到基因敲除的目的。基因编辑功能结构域是指能够实现基因编辑功能的氨基酸序列。

利用含有本发明的RVD的TALE和基因编辑功能结构域的融合蛋白进行基因编辑时，所述基因编辑功能结构域可以是核酸酶。核酸酶包括但不限于核酸内切酶、锌指核酸酶(ZFN)、 Cas9核酸酶。Cas9核酸酶的应用是本领域众所周知的，其使用通常是将Cas9核酸酶和sgRNA 共同引入细胞，以实现对靶序列的切割。

本发明中，当进行基因编辑时，优选所述融合蛋白可以以TALEN的形式提供，此时基因编辑功能结构域是FokI核酸内切酶的DNA切割域。

术语“调节基因表达”是指改变基因的表达或RNA分子的水平，包括非编码RNA和编码一个或多个蛋白质或蛋白质亚基的RNA。“调节基因表达”还包括改变一个或多个基因产物、蛋白质或蛋白质亚基的活性。调节基因表达的功能结构域是指能够调节靶基因表达的氨基酸序列。

所述调节基因表达的功能结构域可以是转录激活因子或其功能性片段，或者转录抑制因子或其功能性片段。

术语“表观遗传修饰”是指在不改变靶基因的DNA序列的情况下，对于DNA的修饰，包括DNA甲基化修饰、DNA去甲基化等。表观遗传修饰功能结构域是指能够对靶基因进行表观遗传修饰的氨基酸序列。

所述表观遗传修饰功能结构域可以是甲基化转移酶、去甲基化酶。

术语“功能性片段”是其序列是全长蛋白质或多肽的一部分，然而与全长蛋白质或多肽具有相同功能的蛋白质或多肽，例如可以是能够在特定实验条件下发挥相应功能的蛋白结构域，如核酸切割酶的切割功能域。

本文所述的细胞可以是任何细胞或细胞系，可以是植物、动物(例如，哺乳动物例如小鼠、大鼠、灵长类动物、家畜、兔等)、鱼等细胞，还可以是真核(例如，酵母、植物、真菌、鱼和诸如猫、犬、鼠、牛、羊和猪的哺乳动物细胞)细胞。

本文所述的细胞可以是卵母细胞、K562细胞、CHO(中国仓鼠卵巢)细胞、HEP-G2细胞、 BaF-3细胞、Schneider细胞、COS细胞(表达SV40T-抗原的猴肾细胞)、CV-1细胞、HuTu80细胞、NTERA2细胞、NB4细胞、HL-60细胞以及HeLa细胞、HEK293T细胞等。

本发明任一项技术方案的方法可以在体外或体内进行。

本发明任一项技术方案的方法可以是非治疗性的。

实施例1材料与方法

1、DNA合成和纯化

Oligo DNA引物在Expedite 8909 DNA/RNA合成仪上合成，使用包含5mC和5hmC亚磷酰胺的标准试剂(Glen Research)。通过Glen Research Corp.推荐的标准方法对OligoDNA去保护，并使用Glen-Pak DNA纯化盒(purification cartridge)进行纯化。

合成的DNA通过高效液相色谱(HPLC)验证，简单地说：用核酶P1(Sigma,N8630)和碱性磷酸酶(Sigma,P4252)将DNA消化成核苷。在SB-Aq C18柱(Agilent)上用5％-50％乙腈在30分钟内分离核苷。

2、细胞培养，转染和流式细胞分析

HEK293T细胞(来自斯坦福大学的Stanley Cohen实验室)、HeLa细胞(本实验室保存)在 DMEM中培养，加入10％FBS和1％青霉素-链霉素，在37℃和5％CO₂条件下培养。在转染之前 24小时将细胞接种在24孔板中，接种密度为每孔7x 10⁴个细胞。每孔中的细胞用0.15μg TALE-(XX')₃质粒和0.15μg报道子DNA通过聚乙烯亚胺(PEI)共转染。转染后48h，收集细胞并在BD LSR Fortessa流式细胞仪(BD Biosciences)上进行分析。分别用波长为488nm和561nm的激光对EGFP和mCherry蛋白表达进行定量。从每个样品收集至少10000个事件，得到足够的数据用于分析。mCherry荧光密度为5x 10³-5x 10⁴的细胞被用于分析。

3、TALEN的构建

TALEN质粒的骨架含有CMV启动子、核定位信号、TALE氨基端和羧基端非重复序列、以及核酸内切酶FokI单体，其具体序列参见下文参考文献37。

使用时，在TALEN骨架载体中插入含有不同RVD的TALE重复单元，以验证不同RVD的效果，其构建方法参见Yang,Junjiao,et al."Assembly of Customized TAL EffectorsThrough Advanced ULtiMATE System."TALENs:Methods and Protocols(2016):49-60.

4、TALE蛋白的表达和纯化

表达和纯化的TALE蛋白用于进行体外保护测定。

使用ULtiMATE系统构建具有规范RVD(即NI、NG、HD和NN)的TALE重复单元，如前所述(37)。对于使用新RVD的TALE重复单元，含有新的RVD的TALE重复单元单体被单独合成。使用同样ULtiMATE方案进行这些TALE构建体的最终组装，如前所述(37)。

TALE表达质粒的构建是将TALE重复单元构建到TALEN骨架中。从相应的TALEN质粒中扩增出含有TALE的N-和C-末端序列并具有中间重复单元的片段，并克隆到pET-28a(+)的NheI和HindIII位点中。

具有不同RVD的TALE的序列(包含用于纯化的His标签，TALE的N-和C-末端序列和能够特异性识别DNA的TALE重复单元)被克隆到pET28a载体(Novagen)中。当细胞密度达到OD600 为8.0时，在大肠杆菌BL21(DE3)中用1.0mM异丙基β-D-硫代半乳糖苷(IPTG)诱导TALE蛋白的过表达。在20℃生长16小时后，收获细胞，并重悬于含有25mM Tris-HCl pH 8.0和150mM NaCl的缓冲液中，通过超声使细胞破碎。通过Ni²⁺-次氮基三乙酸酯亲和树脂(Ni-NTA,GE healthcare)(Buffer A:10mM Tris-HCl pH 8.0,300mM NaCl，Buffer B:10mMTris-HCl pH 8.0, 300mM NaCl和500mM咪唑)和HiLoad superdax PG200(GE Healthcare)(Buffer GF:10mM Tris-HCl,pH 8.0,100mM NaCl)顺序纯化重组蛋白。

5、TALE重复单元

下述实施例中所使用的TALE重复单元包含连续的14个重复单元和一个半重复单元，每个单一重复单元包含34个氨基酸残基，其序列为： LTPEQVVAIASXX’GGKQALETVQRLLPVLCQAHG，半重复单元包含单一重复单元的前17 个氨基酸残基，其序列为：LTPEQVVAIASXX’GGKQ。其中XX’为RVD。

本实施例中所述的材料和方法被用于下述实施例2-7。

实施例2人工筛选系统的构建

人工筛选系统由报告DNA元件和TALE-VP64表达文库组成。

TALE-VP64表达文库包括400个TALE-VP64-mCherry构建体，每个TALE-VP64-mCherry 构建体为环形质粒，当其被转入细胞后表达TALE-VP64融合蛋白(具体构建方法参见下文参考文献37)。如图1b所示，每个构建体包含人工TALE阵列，该人工TALE阵列含有与VP64融合的14.5个重复，对于第1-6、10-14个重复以及最后半个重复(图1b中显示为第14.5个重复)来说，不同构建体之间是相同的，但第7-9个重复在不同构建体之间是不同的。对于每一个构建体来说，位于人工TALE阵列的第7个至第9个重复的三个连续单体的RVD由相同的6个随机合成的核苷酸编码，即第7到第9个重复单元串联表达三个相同的RVD，这些人工TALE阵列被称为 TALE-(XX’)₃，由此形成具有不同测试RVD XX'的400个TALE，以检测不同的RVD对5mC和 5hmC的识别。其中X和X'分别代表重复中的第12个和第13个残基(即RVD)。此外，由于之前已发现N*能够识别5mC，另外组装了20个TALE-(X*)₃，其中第13位残基缺失。下文中，将上述的TALE-(XX’)₃和TALE-(X*)₃统称为TALE-(XX’)₃，据此，所使用的TALE-VP64表达文库共包括分别包含420种不同TALE-(XX')₃的420种TALE-VP64-mCherry构建体，下文中统称TALE 构建体，也可称为TALE-(XX’)₃质粒或TALE-(XX')₃表达质粒。

产生TALE-VP64表达文库。具体而言，420种TALE-(XX’)₃分为两类，其中400种TALE-(XX’)₃质粒的第7到第9重复单元的RVD的第12和13位氨基酸残基为20种天然氨基酸残基的组合，这类TALE-(XX’)₃质粒的构建方法如下文参考文献13所述。

另外20种TALE-(XX')₃的第7到第9重复单元所表达的RVD为13位氨基酸残基缺失的 RVD，即A*、C*、D*、E*、F*、G*、H*、I*、K*、L*、M*、N*、P*、Q*、R*、S*、T*、 V*、W*、Y*。这20种TALE-(XX')₃表达质粒的构建采用下文参考文献13所述中所报道的 TALE-(XX’)₃的分别构建法。即使用一条编码特定RVD的正向引物 5’-tCGTCTCaGAACAGGTTGTAGCCATAGCTTCTNNNNNNGGAGGTAAGCAGGCACTGG AA-3’(NNNNNN代表编码特定RVD的碱基序列)和一条相同的反向引物 5’-aaCGTCTCaGTTCGGGGGTCAACCCATGAGCCTGACACAGTACTGGGAGCAGGCGCTGCACGGTTTCCAGTGCCTGCTT-3’，通过退火和PCR延伸的方式产生一段长102bp且两端含有BsmBI限制性内切酶位点的TALE单体片段。之后，通过6个Golden-Gate酶切连接循环将该TALE单体片段连接在一起，并用引物G-lib-F和G-lib-R将TALE多聚体扩增出来。最后通过胶回收的方式选择性回收只含有三个TALE单体的片段回收，连接到预先构建好的文库表达载体上，并转化到Trans1-T1感受态细胞中。通过Sanger测序获得正确的表达对应RVD的TALE-(XX')₃质粒。其中：

G-lib-F:5’-TAGCTATACGTCTCATTGACCCCCGAACAGGTTGTAGCC-3’

G-lib-R:5’-TAGCTATACGTCTCACCCATGAGCCTGACACAGTACTGGGAGCA-3’。

报告DNA元件为一段包含TALE-(XX’)₃识别序列、miniCMV启动子、EGFP蛋白编码序列和polyA信号的线性DNA片段(图1b)。报告DNA元件中的TALE-(XX’)₃识别序列长度为15个碱基，其中第1-6、10-15个碱基，分别可被文库TALE构建体的第1-6、10-14.5个重复中所包含的 RVD识别。报告DNA元件中的TALE-(XX’)₃识别序列的第7-9个碱基可以是连续的三个5mC、 5hmC或6mA，用于检测不同RVD对相应甲基化修饰碱基的结合能力，分别被称为5mC报告 DNA元件、5hmC报告DNA元件或6mA报告DNA元件。根据需要筛选的甲基化修饰碱基确定使用一种或更多种报告DNA元件。报告DNA元件使用化学合成的一条含有特定甲基化修饰碱基的正向引物Report-F和一条相同的反向引物Report-R通过PCR扩增方式得到，其大小约为1450bp。

引物序列如下：

Report-F：

5’-G*C*C*AGATATACGCGTTACTGGAGCCATCTGGCCNNNTACGTAGGCGTGTAC- 3’，其中N代表5mC、5hmC或6mA；

Report-R：5’-A*G*C*GTCTCCCGTAAAGCACTAAATCGGAACCCTAAAGGGAGC-3’

(*表示硫代修饰的碱基，主要起到保护报告DNA元件在细胞内不被核酸酶降解的作用，下划线表示TALE-(XX’)₃识别序列，即TALE结合序列)

报告DNA元件的构建过程为：首先从大肠杆菌中扩增报道质粒pcDNA6_3A(图2c)，该报道质粒中包含TALE-(XX')₃的结合位点的模板序列CTGGCCAAATACGTA。然后，化学合成上述的含有5mC、5hmC或6mA的引物，通过PCR生成在TALE结合序列中含有5mC、5hmC或 6mA的线性报告DNA元件(图2c)，正向引物含有TALE-(XX')₃结合序列 CTGGCCNNNTACGTA，其中N表示5mC、5hmC或6mA，其紧邻位于最小CMV启动子 (pminiCMV)和它下游的EGFP基因的上游。其中TALE结合序列中相应于第7-9个重复的碱基为 3连的5mC、5hmC或6mA。

此外，在人工筛选系统中还可以包含针对C和T的报告DNA元件，它们是环形DNA，按照下述参考文献13的方法构建。其中所包含的TALE-(XX’)₃识别序列与上述的相同，除了其中的NNN为CCC或TTT。

使用上述的人工筛选系统，通过对EGFP荧光水平的测定来检测TALE-(XX')₃与报告DNA 元件中的TALE结合序列结合的特异性。由此构建获得用于系统性评估TALE RVD识别筛选平台。

实施例3筛选识别修饰的胞嘧啶的TALE RVD

为了测量420个RVD与5mC和5hmC的结合亲和性，将420个TALE构建体的每一个与三种 EGFP报告DNA元件(分别含有三连的C、5mC或5hmC)中的一个一起引入HEK293T细胞。使用FACS分析测量EGFP和mCherry荧光水平(图1c)。通过比较每一个RVD的EGFP表达相对于相应碱基的基线水平的倍数变化，确定TALE构建体中的420个RVD分别对C、5mC和5hmC的结合特异性。将针对C、5mC和5hmC的1260个数据点，以及之前工作(参见下述参考文献13)中的针对T的420个数据点汇总在热图(heat map)中(图3a和图4)。

从图3a的初步筛选结果中，挑选一些对5mC和5hmC结合力较高的RVD做3次重复的确认实验，其中对于5mC、5hmC报告DNA片段的EGFP激活倍数大于等于4的RVD认为是分别对于这两种核苷酸结合力较高的RVD，结果显示于图3b。

从结果可以看出，筛选获得了有效识别5mC和5hmC的特异性和简并RVD。鉴别了多个与 5mC具有高结合性的结合剂，并根据第13位的氨基酸残基将它们分为三类：含有Gly的RVDs(NG、KG和RG)，含有Ala的RVDs(HA和NA)和含有缺失的RVDs(N*、K*、H*、R*、 Y*和G*)。在含有Gly和含有缺失的RVDs中，都有通用RVDs(识别5mC、5hmC和常规C)和简并RVDs(识别5mC和5hmC)；有趣的是，两个含有Ala的RVDs(HA和NA)对于5mC具有选择性。之前的研究使用NG(T的天然结合剂)和N*识别5mC；而我们在筛选过程中也鉴别了这两个 RVDs，本研究中报道的许多新的RVDs对于5mC的结合亲和性都超过它们。例如，HA、NA 和X*(X指K、H、Y和G)都证明对于5mC具有更高的结合亲和性。我们未发现这三类RVDs也结合常规的T；这并不令人惊讶，它们或者是具有带有小侧链的氨基酸残基，或者是在第13 位有该残基的缺失。

之前没有报道过选择性结合5hmC的RVD。正如上面所说，我们鉴别了与5hmC结合得很好的简并RVDs和通用RVDs。在它们之中，对于这些5hmC结合剂观察到了～15倍的诱导，这证明它们对5hmC具有强的亲和性。此外，我们还观察到一组新的5hmC-结合RVDs，它们在第13位残基上具有丝氨酸(FS、YS和WS)。虽然它们对5hmC的亲和性比通用结合剂低，但相对于5mC来说，它们优先结合5hmC，这为正向的和选择性的5hmC识别提供了可能性。综合来说，我们发现5mC和5hmC的通用结合剂和简并结合剂倾向于在第13位含有甘氨酸或缺失，而5mC和5hmC的特异性结合剂分别在它们的第13位具有丙氨酸或丝氨酸。

实施例4RVD对5mC、5hmC和常规C的结合亲和性和特异性的定量测量

通过体外保护测定对实施例3中获得的新RVD对DNA的识别进行验证(反应原理见图5a)。在这个实验中，通过化学合成的方式合成了一段MAPK6基因上的基因序列， 5’-TTCAGCTGGAT[CCCGGAGGA]GCGGATATAACCAGG-3’。根据该序列设计的TALE识别序列为方括号中所示序列，该序列中包含有一个MspI限制性内切酶识别位点(下划线所示)。化学合成时，在给定位置(MspI识别位点的第二个C)含有C、5mC或5hmC的DNA寡核苷酸；在存在变化浓度的TALE蛋白的条件下，将核酸内切酶MspI加入到DNA探针中。TALE蛋白与其识别的胞嘧啶碱基的结合会抑制核酸内切酶对DNA的切割，由此导致在变性PAGE分析中出现被保护的全长条带和切割的DNA条带。然后对每一个RVD计算保护效率，以抑制常数(Ki，它是结合亲和性的倒数测定)的形式给出。RVD的抑制常数是通过包含不同RVD的TALE蛋白对于C、5mC和5hmC的切割保护试验获得保护效率，并使用GraphPad Prism 6软件对保护效率曲线进行拟合并计算抑制常数获得的，该抑制常数表征不同RVD对C、5mC和5hmC的的结合效率，抑制常数的数值越小说明该RVD的保护效率越强，与对应的DNA片段的结合越强。

使用核酸内切酶MspI进行体外保护测定(其原理见图5a)。每10μl反应体系中含有1nM标记的DNA、1μl 10X CutSmart Buffer(NEB)和100nM NaCl。加入TALE蛋白，终浓度在10nM和8 μM之间。结合系统在25℃温育30分钟。然后加入0.4U MspI，继续温育15分钟。加入10μl甲酰胺使反应淬灭，然后在95℃加热5分钟。用Urea-PAGE分离保护的和切割的DNA，并用 Chemiluminescent Nucleic Acid Detection Module Kit(Thermo)成像。

首先用RVD HD对检测进行优化，HD是对常规胞嘧啶具有高亲和性的天然结合剂。HD 对于C观察到低Ki，而对于5mC和5hmC的Ki则至少是30倍高(图5b和c，图6c)，这证明保护检测在对结合亲和性的定量评估中的能力。在该体外检测中，表明NG和N*仅结合5mC，而不结合5hmC(图5b和c)。从筛选结果(图3b)中选择代表性RVD进行进一步评估。5mC特异性RVDHA 显示对5mC具有最低的Ki，在该体外检测中，它对5mC的选择性是对C和5hmC的～5-7倍。5hmC 特异性RVD FS显示出它对5hmC的选择性是对C和5mC的～5-6倍，虽然它对5hmC的结合亲和性看起来不如HA对5mC的亲和性强。此外，简并RVD RG对5mC和5hmC显示出相当的保护，而与C、5mC和5hmC结合的通用RVD R*，对所有三种都具有相似的亲和性。(参见图5b和5c)。

实施例5新RVD以甲基化依赖的方式激活基因表达

为了研究新鉴别的RVD在体内识别胞嘧啶甲基化的潜能，对它们在人细胞中在靶基因活化方面的表现进行研究。使用之前开发的TALE-VP64设计构建TALE-activator实现特定基因的活化(37)。TALE-activator质粒的骨架含有CMV启动子、核定位信号、TALE氨基端和羧基端非重复序列、以及激活因子VP64，其具体序列参见下文参考文献37。

使用时，在TALE-activator骨架中插入含有不同RVD的TALE重复单元，以验证不同RVD 的效果，其构建方法参见Yang,Junjiao,et al."Assembly of Customized TALEffectors Through Advanced ULtiMATE System."TALENs:Methods and Protocols(2016):49-60.

首先，使用现有的来自USCS数据库的甲基化数据，选择TET1基因，它的启动子在HeLa 细胞中具有高甲基化水平，但在HEK293T细胞中是去甲基化的(图7a)。构建含有靶向TET1基因的TALE重复单元的TALE-activator。在HeLa细胞中，5mC特异性的HA，简并的RG和通用的R*都显著激活TET1的表达(显著激活的标准是与对照组相比能提高TET1的表达量，且表达量与对照组相比有显著性提高，*,P<0.05；**,P<0.005)，其中RG达到了大约10倍的活化(图7b)，所鉴别的所有三种新RVD(HA、RG、R*)被证明与NG和N*相比具有更好的表现；此外， HD不显著上调TET1的表达。而在HEK293T细胞中，HD与去甲基化的TET1启动子很好地结合，并进一步增强其表达(尽管它已经具有高表达水平)，HA和RG不影响基因表达，而通用R*对常规C的亲和性低于HD，轻微上调基因表达；由于NG和N*很难区分未修饰的C，它们也轻微地激活TET1基因表达。

然后，构建含有靶向LRP2基因的TALE重复单元的TALE-activator，它们靶向LRP2基因的启动子区域，该启动子区域在HeLa细胞中是中等甲基化的，而在HEK293T细胞中是去甲基化的(图7c)。此外，这一区域仅含有两个CpG，因此对于RVD介导的区分来说更具有挑战性。

将HEK293T和HeLa细胞接种在6孔板上，并生长至60％密度。对于每一个孔，2μgTALE- 激活物质粒用

2000(Invitrogen)转染。在通过流式细胞分选mCherry阳性细胞之前将转染的细胞培养3天。从mCherry阳性细胞中分离总RNA并进行逆转录，在ViiATM7 Real-Time PCR System(Applied Biosystems)上使用SYBR Green 2X premix II(Takara)在标准反应条件下进行实时PCR分析。

观察到结合5mC的RVD(HA、RG)在HeLa细胞中显著地激活基因。在HEK293T细胞中，只有HD和通用RVD R*激活LRP2基因的表达，结合5mC的RVD不激活LRP2基因的表达(图7d)。因此，所鉴别的新的RVD(HA、RG)能够在体内将中等甲基化的位点与未甲基化位点区分开。

实施例6使用新RVD进行甲基化依赖性的基因组编辑

为了检查甲基化依赖性的基因组编辑的可能性，使用含有不同RVD的TALEN构建体(在 TALEN表达载体中插入TALE重复单元获得，TALEN表达载体(即TALEN质粒骨架)含有CMV启动子、核定位信号、TALE氨基和羧基端非重复序列、核酸内切酶FokI单体，其具体序列参见下述参考文献37，其构建方法参见Yang,Junjiao,et al."Assembly of Customized TALEffectors Through Advanced ULtiMATE System."TALENs:Methods and Protocols(2016): 49-60.)靶向人PLXNB2基因进行DNA切割(图7e)。选择PLXNB2的第二个外显子，它在HeLa 细胞中是高度甲基化的(数据来自UCSC)，并使用indel比率(即插入缺失比率)评价TALEN-介导的DNA切割。

将HeLa细胞接种在6孔板上并生长至60％密度。对于每一个孔，一对TALEN质粒和pmaxGFP(LonZa Group Ltd.)以9:9:2的比例(0.9μg:0.9μg:0.2μg)使用Xtreme Gene HP(Roche)共转染。在通过流式细胞分选GFP阳性细胞之前将转染的细胞培养3天。TALEN-靶区域是从分离的GFP阳性细胞的基因组DNA PCR扩增的。如前所述，用错配灵敏的T7核酸内切酶(T7E1； New England Biolabs)分析TALEN介导的indels(41)。

结果表明，TALEN-HD显示出可忽略不计的编辑效率(图7f)，这表明在该区域内存在三个 5mC修饰，有效地阻止了它的结合。当三个含有HD的RVD被替换为结合5mC的RVD(检测了 HA、R*、NG和N*)时，观察到高的indel比率(图7f和图8C)。这些结果表明这些RVD可以实现在人细胞中进行甲基化依赖性的基因组编辑。

实施例7RVD-介导的以单碱基分辨率对哺乳动物基因组中5hmC的检测

胞嘧啶的甲基化比率可以通过重亚硫酸盐测序来确定；但是，传统的重亚硫酸盐测序不能区分5hmC和5mC(38)。使用结合C和5mC的TALE蛋白进行间接5hmC的检测先前已有报道 (32)。为了研究使用含有5hmC-识别RVD的TALE蛋白进行直接5hmC检测的可能性，首先合成了在特定位点掺入5hmC、5mC和C的模式DNA序列，并检测了RVD FS对5hmC检测的选择性。在体外保护检测中，随着5hmC比例的增加，保护的全长DNA成线性增加(图10)，相反，当5mC 和C的比率变化时，保护率显示出微弱的变化。该实验用分别包含C、5mC和5hmC，且序列相同的DNA片段以图中所示比例进行混合。黑色圆圈表示5hmC在5mC和5hmC混合物中的比例由0％增加到100％时保护程度的变化情况。黑色三角表示5hmC在C和5hmC混合物中的比例由0％增加到100％时保护程度的变化情况。灰色圆圈表示5mC在C和5mC混合物中的比例由0％增加到100％时保护程度的变化情况。从图10中可以看出，随着5mC在C和5mC混合物中的比例增加，TALE-FS对于DNA的保护程度只略微有所增加。相较于此，随着5hmC在C和5hmC 混合物以及在5mC和5hmC混合物中的比例增加，TALE-FS对于DNA的保护程度也极大的增加，说明TALE-FS对于含有5hmC的DNA片段有选择性保护作用。这些观察结果表明5hmC特异性的RVD FS可用于在基因组DNA样品中，在复杂修饰情况(对于感兴趣的核苷酸，同时存在至少C、5mC和5hmC的修饰)下检测5hmC修饰。

然后使用含有FS的TALE蛋白(即图9a中的TAL效应蛋白)在基因组DNA中进行位点特异性5hmC检测。考虑到基因组DNA的复杂性，使用CRISPR/Cas9系统代替限制性酶，在该保护检测中产生DNA切割(图9a)。选择小鼠slc9a9基因的内含子中的10bp的序列，据报道其中第一个胞嘧啶在mES细胞中是高度羟甲基化的(39)。

反应条件为：每10μl反应体系含有50ng基因组DNA、1μl 10X Cas9核酸酶反应缓冲液 (NEB)和1nM DTT。加入TALE蛋白，终浓度在20nM和500nM之间。结合反应在25℃温育30分钟。加入5μl预温育Cas9和sgRNA，在37℃继续温育1小时。在95℃加热5分钟使反应淬灭。用Ampure Beads纯化DNA，并用SYBR Green 2X premix II(Takara)on

96(Roche) 分析qPCR。

结果表明，TALE-FS的保护效率远远高于TALE-HD(图9b)，这表明TALE-FS能够检测基因组DNA的复杂环境中的一个单个5hmC位点。为了进一步研究该方法在5hmC检测中的能力，将该方法应用于其他在相同位点上的羟甲基化水平未知的细胞系的基因组DNA。与mESC样品比较，当存在相对低浓度的TALE蛋白(RAW264.7、L-M(TK-)和L929细胞)时，对这些细胞的基因组DNA的保护小得多(图9c)，这表明在这些细胞中的该特定位点上5hmC的水平较低。上述结果表明含有新鉴别的RVD的TALE蛋白可用于以碱基程度的分辨率检测基因组DNA中的羟甲基状态。

实施例8鉴别识别6mA的TALE蛋白RVD

使用与实施例2中所述相同的筛选系统，即TALE-(XX’)₃独立RVD文库和含有6mA修饰的线性DNA报告系统，将它们分别共转HEK293T细胞后，通过流式细胞分析检测TALE-(XX’)₃对6mA报告系统的EGFP表达激活倍数。图11为420种RVD对6mA筛选结果的热图。

从对6mA筛选结果热图中可以看出，对6mA报告系统有激活效率的TALE-(XX’)₃比较多，其第一位氨基酸主要为His(H)、Lys(K)、Asn(N)和Arg(R)；而这些高效RVD的第二位氨基酸多数为Ile(I)、Pro(P)、Ser(S)、Thr(T)或Val(V)。从叠加的热图(图11)中可以看出，上述对6mA 有较高识别能力的RVD里，许多对无修饰的腺嘌呤也有较好的识别能力，例如XI、XS、XT、 XV等系列RVD；也有一些是对6mA特异性比较好的，例如XP系列RVD。图12为从初步筛选结果中，挑选了一些对6mA有识别能力的RVD进行实验的结果，具体来说就是选择了对于6mA 报告系统EGFP激活倍数大于5的一些RVD做3次重复的确认实验。

对6mA的识别能力与偏好性整体上看依然与RVD第二位氨基酸密切相关，本研究发现XP 系列RVD和NA、CV、FT等RVD表现出比较明显的对6mA的偏好性；而XI、XC与部分XT系列对无修饰腺嘌呤和N6-甲基腺嘌呤的识别没有明显偏好性。其中Ile(I)与A碱基的接触是其侧链与腺嘌呤C8和N7之间形成的范德华相互作用(45)，所以可能不受6位氨基上增加甲基的影响。在对6mA特异性高(6mA/A>5)的RVD中，FT、CV、CP和NP对其他无甲基化修饰的碱基识别的背景值比较低(图13)，其中NP对6mA识别能力最高，FT次之，CV和CP更低一些，这些可认为是对6mA偏好性最好的RVD选择。

综上，本研究发现，通常来说，在第13位上为小的氨基酸(Gly和Ala)或者缺失，能够增加对5mC的亲和性。这个观察结果与之前的发现，即N*和NG(天然识别T)能够与5mC结合一致。有可能第13位上的大的侧链的缺少可以产生足够的空间容纳5mC的甲基基团。但是，这种一般趋势存在例外。例如，观察到HG对5mC的亲和性非常弱，HG与HD相比在第13位含有较小的残基，HD是C的天然结合物。有趣的是，当第12位的His被Arg替换时(由此变成RG)，我们观察到与5mC的强结合。事实上，RG也识别5hmC。这些观察结果表明双残基对修饰的识别可能存在更为复杂的模式。为了充分了解TALEs对修饰的识别机制，需要有这些新RVDs在与修饰的胞嘧啶形成的复合物中的晶体结构。

本文还证明TALE-介导的对几个高度甲基化的基因组区域的甲基化依赖的基因激活和基因组编辑。作为重要的对照，当相同的区域缺乏胞嘧啶甲基化时(在不同的细胞中)，几乎观察不到基因活化。因此，本研究中报道的新RVD可以提供这样的可能性：根据靶基因在体内的修饰状态来操纵靶基因。已知存在许多差异甲基化区域(DMR)，它们涉及许多重要的生物学事件，包括基因印记和疾病。因此，TALE蛋白读出表观标志物的独特能力使得未来TALE 在体内的表观基因组依赖性的应用成为可能。

此外，本研究通过高通量筛选的方法寻找到了对于N6-甲基腺嘌呤偏好性较好的RVD，如CV、FT、NP等。这些RVD可以用来构建序列特异的N6-甲基腺嘌呤结合TALE蛋白，发挥类似抗体的作用，还可以与只识别无修饰A碱基的RVD结合使用，达到定量或定性检测6mA的目的。对6mA与A碱基无偏好性的RVD，例如NI，可以用来无偏差的靶向含有潜在腺嘌呤甲基化修饰的序列，从而克服甲基化修饰导致基因编辑低效性的问题。

参考文献

1.Kay S&Bonas U(2009)How Xanthomonas type III effectors manipulatethe host plant. CurrOpin Microbiol 12(1):37-43.

2.Kay S,Hahn S,Marois E,Hause G,&Bonas U(2007)A bacterial effectoracts as a planttranscription factor and induces a cell size regulator.Science318(5850):648-651.

3.Boch J&Bonas U(2010)Xanthomonas AvrBs3family-type III effectors:discovery andfunction.Annu Rev Phytopathol 48:419-436.

4.Boch J,et al.(2009)Breaking the code of DNA binding specificity ofTAL-type III effectors.Science 326(5959):1509-1512.

5.Gurlebeck D,Thieme F,&Bonas U(2006)Type III effector proteins fromthe plant pathogenXanthomonas and their role in the interaction with the hostplant.J Plant Physiol 163(3):233-255.

6.Moscou MJ&Bogdanove AJ(2009)A simple cipher governs DNA recognitionby TALeffectors. Science 326(5959):1501.

7.Bogdanove AJ&Voytas DF(2011)TAL effectors:customizable proteins forDNA targeting.Science 333(6051):1843-1846.

8.Morbitzer R,Romer P,Boch J,&Lahaye T(2010)Regulation of selectedgenome loci usingde novo-engineered transcription activator-like effector(TALE)-type transcription factors.Proc Natl Acad Sci U S A 107(50):21617-21622.

9.Cong L,Zhou R,Kuo YC,Cunniff M,&Zhang F(2012)Comprehensiveinterrogation ofnatural TALE DNA-binding modules and transcriptionalrepressor domains.Nat Commun3:968.

10.Garg A,Lohmueller JJ,Silver PA,&Armel TZ(2012)Engineeringsynthetic TAL effectorswith orthogonal target sites.Nucleic Acids Res 40(15):7584-7595.

11.Christian M,et al.(2010)Targeting DNA double-strand breaks withTAL effector nucleases.Genetics 186(2):757-761.

12.Miller JC,et al.(2011)A TALE nuclease architecture for efficientgenome editing. NatBiotechnol 29(2):143-148.

13.Yang J,et al.(2014)Complete decoding of TAL effectors for DNArecognition.Cell research24(5):628-631.

14.Miller JC,et al.(2015)Improved specificity of TALE-based genomeediting using anexpanded RVD repertoire.Nat Methods 12(5):465-471.

15.Kohli RM&Zhang Y(2013)TET enzymes,TDG and the dynamics of DNAdemethylation.Nature 502(7472):472-479.

16.Pastor WA,Aravind L,&Rao A(2013)TETonic shift:biological roles ofTET proteins inDNA demethylation and transcription.Nat Rev Mol Cell Biol 14(6):341-356.

17.Kriaucionis S&Heintz N(2009)The nuclear DNA base 5-hydroxymethylcytosine is presentin Purkinje neurons and the brain.Science 324(5929):929-930.

18.Tahiliani M,et al.(2009)Conversion of 5-methylcytosine to 5-hydroxymethylcytosine inmammalian DNA by MLL partner TET1.Science 324(5929):930-935.

19.Ito S,et al.(2010)Role of Tet proteins in 5mC to 5hmC conversion,ES-cell self-renewal andinner cell mass specification.Nature 466(7310):1129-1133.

20.He YF,et al.(2011)Tet-mediated formation of 5-carboxylcytosine andits excision by TDG inmammalian DNA.Science 333(6047):1303-1307.

21.Maiti A&Drohat AC(2011)Thymine DNA glycosylase can rapidly excise5-formylcytosineand 5-carboxylcytosine:potential implications for activedemethylation of CpG sites.J BiolChem 286(41):35334-35338.

22.Pfaffeneder T,et al.(2011)The discovery of 5-formylcytosine inembryonic stem cell DNA.Angew Chem Int Ed Engl 50(31):7008-7012.

23.Huang Y&Rao A(2014)Connections between TET proteins and aberrantDNA modificationin cancer.Trends Genet 30(10):464-474.

24.Bultmann S,et al.(2012)Targeted transcriptional activation ofsilent oct4 pluripotency geneby combining designer TALEs and inhibition ofepigenetic modifiers.Nucleic Acids Res40(12):5368-5377.

25.Valton J,et al.(2012)Overcoming transcription activator-likeeffector(TALE)DNA bindingdomain sensitivity to cytosine methylation.J BiolChem 287(46):38427-38432.

26.Kim Y,et al.(2013)A library of TAL effector nucleases spanning thehuman genome. NatBiotechnol 31(3):251-258.

27.Deng D,et al.(2012)Recognition of methylated DNA by TALeffectors.Cell research22(10):1502-1504.

28.Dupuy A,et al.(2013)Targeted gene therapy of xeroderma pigmentosumcells usingmeganuclease and TALEN.PLoS One 8(11):e78678.

29.Hu J,et al.(2014)Direct activation of human and mouse Oct4 genesusing engineered TALEand Cas9 transcription factors.Nucleic Acids Res 42(7):4375-4390.

30.Kubik G,Schmidt MJ,Penner JE,&Summerer D(2014)Programmable andhighly resolvedin vitro detection of 5-methylcytosine by TALEs.Angew Chem IntEd Engl 53(23):6002-6006.

31.Kubik G&Summerer D(2015)Achieving single-nucleotide resolution of5-methylcytosinedetection with TALEs.Chembiochem 16(2):228-231.

32.Kubik G,Batke S,&Summerer D(2015)Programmable sensors of 5-hydroxymethylcytosine.J Am Chem Soc 137(1):2-5.

33.Maurer S,Giess M,Koch O,&Summerer D(2016)Interrogating KeyPositions of Size-Reduced TALE Repeats Reveals a Programmable Sensor of 5-Carboxylcytosine.ACS ChemBiol 11(12):3294-3299.

34.Rathi P,Maurer S,Kubik G,&Summerer D(2016)Isolation of HumanGenomic DNASequences with Expanded Nucleobase Selectivity.J Am Chem Soc 138(31):9910-9918.

35.Deng D,et al.(2012)Structural basis for sequence-specificrecognition of DNA by TALeffectors.Science 335(6069):720-723.

36.Mak AN,Bradley P,Cernadas RA,Bogdanove AJ,&Stoddard BL(2012)Thecrystalstructure of TAL effector PthXo1 bound to its DNA target.Science 335(6069):716-719.

37.Yang J,et al.(2013)ULtiMATE system for rapid assembly ofcustomized TAL effectors.PLoS One 8(9):e75649.

38.Wu H&Zhang Y(2015)Charting oxidized methylcytosines at baseresolution.Nat StructMol Biol 22(9):656-661.

39.Yu M,et al.(2012)Base-resolution analysis of 5-hydroxymethylcytosine in the mammaliangenome.Cell 149(6):1368-1380.

40.Hsu PD,Lander ES,&Zhang F(2014)Development and applications ofCRISPR-Cas9 forgenome engineering.Cell 157(6):1262-1278.

41.Mussolino C,et al.(2011)A novel TALE nuclease scaffold enableshigh genome editingactivity in combination with low toxicity.Nucleic AcidsRes 39(21):9283-9293.

42.Fang,G.,Munera,D.,Friedman,D.I.,Mandlik,A.,Chao,M.C.,Banerjee,O.,Feng,Z.,Losic, B.,Mahajan,M.C.,Jabado,O.J.,et al.(2012).Genome-wide mappingof methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing.Nature biotechnology 30,1232-1239.

43.Fu,Y.,Luo,G.Z.,Chen,K.,Deng,X.,Yu,M.,Han,D.,Hao,Z.,Liu,J.,Lu,X.,Dore,L.C.,et al.(2015).N6-methyldeoxyadenosine marks active transcriptionstart sites in Chlamydomonas.Cell 161,879-892.

44.Greer,E.L.,Blanco,M.A.,Gu,L.,Sendinc,E.,Liu,J.,Aristizabal-Corrales,D.,Hsu,C.H., Aravind,L.,He,C.,and Shi,Y.(2015).DNA Methylation onN6-Adenine in C.elegans.Cell 161, 868-878.

45.Koziol,M.J.,Bradshaw,C.R.,Allen,G.E.,Costa,A.S.,Frezza,C.,andGurdon,J.B.(2016). Identification of methylated deoxyadenosines invertebrates reveals diversity in DNA modifications.Nature structural&molecular biology 23,24-30.

46.Mak,A.N.,Bradley,P.,Cernadas,R.A.,Bogdanove,A.J.,and Stoddard,B.L.(2012).The crystal structure of TAL effector PthXo1 bound to its DNAtarget.Science 335,716-719.

Ratel,D.,Ravanat,J.L.,Berger,F.,and Wion,D.(2006).N6-methyladenine:the other methylated base of DNA.BioEssays:news and reviews in molecular,cellular and developmental biology 28, 309-315.

47.Wion,D.,and Casadesus,J.(2006).N6-methyl-adenine:an epigeneticsignal for DNA-protein interactions.Nature reviews Microbiology 4,183-192.

48.Zhang,G.,Huang,H.,Liu,D.,Cheng,Y.,Liu,X.,Zhang,W.,Yin,R.,Zhang,D.,Zhang,P., Liu,J.,et al.(2015).N6-methyladenine DNA modification inDrosophila.Cell 161,893-906.

Claims

1.包含TALE重复结构域的蛋白在制备检测目标基因靶序列中的甲基化碱基5hmC的试剂中的应用，所述TALE重复结构域的一个或更多个RVD是FS。

2.检测细胞基因组中目标序列的特定位点上是否存在5hmC的方法，包括：

3.权利要求2的方法，其中所述核酸酶是核酸内切酶。

4.权利要求2的方法，其中所述核酸酶是Cas9核酸酶，且在步骤(1)中将所述Cas9核酸酶和sgRNA共同引入细胞。

5.包含TALE的分离的DNA结合多肽、包含功能结构域和TALE的融合蛋白、编码所述DNA结合多肽或所述融合蛋白的多核苷酸、包含所述多核苷酸的载体、或包含所述多核苷酸或所述载体的宿主细胞在制备靶向结合细胞中目标基因的靶序列的试剂中的应用，所述TALE包含的一种或更多种RVD是FS，目标基因的靶序列中在所述RVD的识别位点上是5hmC。

6.权利要求5的应用，其中所述功能结构域是调节基因表达的功能结构域、表观遗传修饰功能结构域，基因编辑功能结构域，或者荧光蛋白。

7.权利要求6的应用，其中所述调节基因表达的功能结构域是转录激活因子、转录抑制因子或其功能性片段，所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段，所述基因编辑功能结构域是核酸酶或其功能性片段。

8.权利要求7的应用，其中所述基因编辑功能结构域是核酸内切酶。

9.权利要求8的应用，其中所述核酸内切酶是FokI核酸内切酶或FokI核酸内切酶的DNA切割域。

10.包含功能结构域和TALE的融合蛋白或编码该融合蛋白的多核苷酸在制备调节细胞中目标基因表达的试剂中的应用，其中所述融合蛋白中包含的功能结构域是调节基因表达的功能结构域；

其中所述TALE包含的一种或更多种RVD是FS，目标基因的靶序列中在所述RVD的识别位点上是5hmC。

11.权利要求10的应用，其中所述调节基因表达的功能结构域是转录激活因子或其功能性片段，或者转录抑制因子或其功能性片段。

12.包含功能结构域和TALE的融合蛋白或编码该融合蛋白的多核苷酸在制备对细胞中目标基因进行基因编辑的试剂中的应用，其中所述融合蛋白中包含的功能结构域是基因编辑功能结构域；

13.权利要求12的应用，其中所述基因编辑是核酸切割，所述基因编辑功能结构域是核酸酶或其功能性片段。

14.权利要求13的应用，其中所述基因编辑功能结构域是核酸内切酶或其功能性片段。

15.权利要求13的应用，其中所述基因编辑功能结构域是FokI核酸内切酶或其DNA切割域。

16.包含功能结构域和TALE的融合蛋白或编码该融合蛋白的多核苷酸在制备对细胞中目标基因进行表观遗传修饰的试剂中的应用，其中所述融合蛋白中包含的功能结构域是表观遗传修饰功能结构域；

17.权利要求16的应用，其中所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段。

18.靶向结合细胞中目标基因的靶序列的方法，包括：将包含TALE的分离的DNA结合多肽、包含功能结构域和TALE的融合蛋白、或编码所述DNA结合多肽或所述融合蛋白的多核苷酸引入细胞，使所述DNA结合多肽或融合蛋白中的TALE与目标基因的靶序列结合；

19.调节细胞中目标基因表达的方法，包括：将包含功能结构域和TALE的融合蛋白、或编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，由此使得目标基因的表达被融合蛋白中的功能结构域调节，其中所述功能结构域是调节基因表达的功能结构域；

20.权利要求19的方法，其中所述调节基因表达的功能结构域是转录激活因子或其功能性片段，或者转录抑制因子或其功能性片段。

21.对细胞中的目标基因进行基因编辑的方法，包括：将包含功能结构域和TALE的融合蛋白、或编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，由此使得目标基因被融合蛋白中的功能结构域进行编辑，其中所述功能结构域是基因编辑功能结构域；

22.权利要求21的方法，其中所述基因编辑是核酸切割，所述基因编辑功能结构域是核酸酶或其功能性片段。

23.权利要求21的方法，其中所述基因编辑功能结构域是核酸内切酶或其功能性片段。

24.权利要求21的方法，其中所述基因编辑功能结构域是FokI核酸内切酶或其DNA切割域。

25.对细胞中的目标基因进行表观遗传修饰的方法，包括：将包含功能结构域和TALE的融合蛋白、或编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，由此使得目标基因被融合蛋白中的功能结构域进行表观遗传修饰，其中所述功能结构域是表观遗传修饰功能结构域；

26.权利要求25的方法，其中所述表观遗传修饰功能结构域是甲基化转移酶、去甲基化酶或其功能性片段。

27.活细胞染色体标记方法，包括：将包含功能结构域和TALE的融合蛋白、或编码所述融合蛋白的多核苷酸引入细胞，使所述融合蛋白中的TALE与目标基因的靶序列结合，其中所述功能结构域是荧光蛋白，通过所述融合蛋白中的TALE与目标基因的靶序列结合实现对靶序列的荧光标记；