CN113373130A

CN113373130A - Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

Info

Publication number: CN113373130A
Application number: CN202110606220.9A
Authority: CN
Inventors: 王永明; 王帅; 高思琪; 王瑶
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-05-31
Filing date: 2021-05-31
Publication date: 2021-09-10
Anticipated expiration: 2041-05-31
Also published as: WO2022253185A1; CN113373130B

Abstract

本发明属于基因编辑技术领域，具体涉及一种CRISPR/Cas12基因编辑系统以及其应用。本发明基因编辑系统为特定Cas12蛋白与sgRNA形成的复合体，能精确定位靶向DNA序列并产生切割，使所述靶序列发生双链断裂损伤；所述基因编辑为在细胞中或体外进行基因编辑。所述特定Cas12J‑8蛋白具有数量相对少的氨基酸，并且所述特定Cas12J‑8蛋白、Cas12a蛋白和Cas12b蛋白均具有高的编辑效率，且三类蛋白识别的PAM序列均非常简单。本发明在基因编辑领域中具有广泛的应用前景。

Description

Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用

技术领域

本申请属于基因编辑技术领域，具体涉及Cas12蛋白、含有该Cas12蛋白的基因编辑系统及其相关应用。

背景技术

CRISPR/Cas系统是细菌和古细菌为抵御外源病毒或质粒入侵而进化的一种获得性免疫系统。在CRISPR/Cas12a和CRISPR/Cas12j系统中，crRNA(CRISPR-derived RNA)和Cas12蛋白形成复合体后，识别靶位点的PAM(Protospacer Adjacent Motif)序列。在识别后，crRNA会与靶向DNA序列形成互补结构，Cas蛋白行使切割DNA的功能，使DNA发生断裂损伤。CRISPR/Cas12b系统还含有tracrRNA(trans-activating RNA)，它和crRNA以及Cas12b共同形成复合物发挥功能。tracrRNA和crRNA通过连接序列可以融合成为单链单链向导RNA(single guide RNA，sgRNA)。当DNA发生断裂损伤后，细胞内的两种主要DNA损伤修复机制负责修复：非同源末端连接(Non-homologous end-joining，NHEJ)和同源重组(homologousrecombination，HR)。NHEJ修复的结果会引起碱基的缺失或插入，可以进行基因敲除；在提供同源模板的情况下，利用HR修复可以进行基因的定点插入和碱基的精确替换。

除了基础科研外，CRISPR/Cas12基因编辑系统还具有广泛的临床应用前景。利用CRISPR/Cas12基因编辑系统做基因治疗时，需要把Cas和单链向导RNA导入到体内。目前做基因治疗最有效的表达载体是腺相关病毒(AAV)。但是AAV病毒包装的DNA一般不超过4.5kb。SpCas9因为PAM序列简单(识别NGG)和活性高而得到广泛应用。但是SpCas9蛋白有1368个氨基酸，加上sgRNA和启动子，无法有效地包装到AAV病毒中，限制了其在临床中的应用。为了克服这个问题，几个分子量小的Cas9被发明出来，包括SaCas9(PAM序列为NNGRRT)；StlCas9(PAM序列为NNAGAW)；NmCas9(PAM序列为NNNNGATT)；Nme2Cas9(PAM序列为NNNNCC)；CjCas9(PAM序列为NNNNRYAC)。但是这些Cas9或者容易脱靶(即非靶向位点切割)，或者PAM序列复杂，或者编辑活性低，难以广泛应用。

因此，寻找编辑活性高、特异性高、PAM序列简单的小型CRISPR/Cas系统是解决上述问题的希望所在。

发明内容

针对上述问题，本发明人进行了反复研究，发现一系列Cas12蛋白以及与之相对应的单链向导RNA，两者能构成有效地进行基因编辑的CRISPA/Cas12基因编辑系统，由此完成了本发明。

因此，在第一方面，本发明提供了一种缀合物，所述缀合物包含：

a)Cas12蛋白，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQ ID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；以及

b)修饰部分。

在第二方面，本发明提供了一种融合蛋白，所述融合蛋白包含：

a)Cas12蛋白，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQ ID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

b)另外的蛋白或多肽；以及

c)任选的用于连接所述Cas12蛋白或其同源物与所述另外的蛋白或多肽的接头。

在第三方面，本发明提供了一种单链向导RNA，所述单链向导RNA包含CRISPR重复序列，所述CRISPR重复序列具有SEQ ID NO：15至SEQ ID NO：18中任一个所示的核酸序列，或者具有与SEQ ID NO：15至SEQ ID NO：18中任一项所示的核酸序列至少90％序列同一性且保留其生物学活性的核酸序列，或者具有基于SEQ ID NO：15至SEQ ID NO：18中任一项所述的核酸序列改造得到的保留其生物学活性的核酸序列。

在第四方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子包含编码以下的核酸序列：

b)本发明第一方面的缀合物；或者

c)本发明第三方面的融合蛋白。

在第五方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子包含编码本发明第三方面的单链向导RNA的核酸序列。

在第六方面，本发明提供了一种载体，所述载体包含编码以下的核酸序列：

a)Cas12蛋白，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

b)本发明第一方面的缀合物；或者

本发明第二方面的融合蛋白。

在第七方面，本发明提供了一种载体，所述载体包含编码本发明第三方面的单链向导RNA的核酸序列。

在第八方面，本发明提供了一种CRISPR/Cas12基因编辑系统，其包含：

a)蛋白组分，其包含：

1)Cas12蛋白，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQ ID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

2)本发明第一方面的缀合物；或者

3)本发明第二方面的融合蛋白；

b)核酸组分，其包含：

本发明第三方面的单链向导RNA。

在第九方面，本发明提供了一种细胞，所述细胞包含：本发明第六方面的分离的核酸分子、或者本发明第七方面的载体。

在第十方面，本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使Cas12蛋白、本发明第一方面的缀合物或本发明第二方面的融合蛋白与本发明第三方面的单链向导RNA、使本发明第六方面和第七方面的载体、或使本发明第八方面的CRISPR/Cas12基因编辑系统与细胞内或体外环境中的靶序列相接触，其中，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQ ID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列，所述靶序列位于原间隔邻近序列(PAM)的5’端，并且，对于所述Cas12J-8蛋白、所述Mb4Cas12a蛋白、所述MlCas12a蛋白、所述MoCas12a蛋白、所述BgCas12a蛋白、和所述ChCas12b蛋白、或者它们的同源物、缀合物或融合蛋白，所述PAM分别具有序列5’-TTN、5’-YYN、5’-YYN、5’-YYN、5’-YYN和5’-TTN。

在第十一方面，本发明提供了一种试剂盒，所述试剂盒包括：Cas12蛋白、本发明第一方面的缀合物或本发明第二方面的融合蛋白与本发明第三方面的单链向导RNA，本发明第四方面和第五方面的分离的核酸分子，本发明第六方面和第七方面的载体，或者本发明第八方面的CRISPR/Cas12基因编辑系统；以及如何对细胞内或体外环境中的靶序列进行基因编辑的说明书；其中，所述Cas12蛋白为分别具有SEQ ID NO：1至SEQ ID NO：6所示氨基酸序列的Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白或ChCas12b蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列。

本课题组开发了可在真核细胞环境高效进行基因编辑的Cas12j-8编辑工具。该Cas12j-8蛋白具有较少数量的氨基酸，特别是具有目前可用于真核基因编辑器中最少数量的氨基酸，因此可有效地包装到表达载体例如腺相关病毒载体中。并且，该蛋白具有特异性高、PAM简单的特性，而且蛋白分子量小可轻易被腺相关病毒等载体工具包装，非常适合后期作为基因治疗工具的开发。

此外，Cas12j-8蛋白的PAM为TTN，PAM简单，编辑范围广泛。而且，经过我们的实验证明，Cas12j-8蛋白在随机位点的编辑效率较FnCas12a蛋白具有显著性优势，在真核环境下的基因编辑能力强。相较于同系列的Cas12j-2蛋白，Cas12j-8具有极为显著的编辑优势，随机位点上的编辑能力显著高于Cas12j-2，更适合进行基因编辑的开发和应用研究。

本发明的Cas12a蛋白及Cas12b蛋白现有的其他Cas12a蛋白及Cas12b蛋白具有较高的编辑活性，特异性较高，且具有较为简单的PAM序列，同时本发明的Cas12a蛋白及Cas12b蛋白的PAM为YYN，拓展了Cas12a蛋白及Cas12b蛋白的领域，及增加了Cas12a蛋白和Cas12b蛋白的应用范围。

附图说明

图1示出CRISPR/Cas12J-8基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图2示出CRISPR/ChCas12b基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图3示出CRISPR/Mb4Cas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图4示出CRISPR/MoCas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图5示出CRISPR/BgCas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图6示出CRISPR/MICas12a基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图7和图8示出CRISPR/Cas12J-8基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图9示出CRISPR/ChCas12b基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图10示出CRISPR/Mb4Cas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图11示出CRISPR/MoCas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图12示出CRISPR/BgCas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图13示出CRISPR/MICas12a基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图14示出Cas12J-8ABE碱基编辑器对各内源位点靶位点进行编辑的结果图。

图15示出利用GFP报告细胞系文库检测CRISPR/Cas系统对靶基因进行编辑的示意图。

图16示出使用几个CRISPR/Cas12J基因编辑系统对GFP报告细胞系进行处理后的细胞照片，其中上图为荧光图像，下图为普通显微图像。

具体实施方式

下面将进一步对本发明进行详细的描述。应理解，上文的发明内容部分以及下文的详细描述仅为具体阐释本发明之目的，无意于以任何方式对本发明进行限制。本发明的保护范围由随附的权利要求书确定。在不背离本发明的精神和主旨的情况下，本领域技术人与可以对各具体实施方式进行更改。

定义

除非另有说明，否则本申请中使用的科学和技术名词具有本领域技术人员所通常理解的含义。为了更好地理解本发明，下面提供相关术语的定义和解释。

本文中使用的术语“Cas12蛋白”、“Cas12”和“Cas”在本申请中可互换使用，指包括Cas12蛋白或其功能活性片段在内的RNA指导的核酸酶。Cas12蛋白是CRISPR/Cas12基因组编辑系统的蛋白组分，能在单链向导RNA(gRNA)的指导下靶向并切割DNA靶序列，形成DNA双链断裂(DSB)。DNA双链断裂能够激活细胞内固有的修复机制非同源末端连接(non-homologousendjoining，NHEJ)和同源重组(homologous recombination，HR)，由此对细胞中的DNA损伤进行修复。在修复过程中，对该特定的DNA序列进行定点编辑。

本文中使用的术语“单链向导RNA”、“sgRNA(single guided RNA)”在本申请中可互换使用并且具有本领域技术人员通常理解的含义。一般而言，单链向导RNA或者sgRNA可以包含CRISPR重复序列(repeat sequence)和向导序列(guide sequence)，向导序列在本文中也称为向导RNA(guide RNA或gRNA)。在内源性CRISPR系统背景下，向导序列也称为间隔序列(spacer)。在某些情况下，向导序列是与靶序列具有足够相似性从而与所述靶序列杂交并引导CRISPR/Cas12复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中，当最佳比对时，向导序列与其相应靶序列之间的互补程度为至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。确定最佳比对在本领域的普通技术人员的能力范围内。例如，存在公开和可商购的比对算法和程序，诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。

本文中所使用的术语“CRISPR/Cas12复合物”是指单链向导RNA(single guideRNA)或成熟crRNA与Cas12蛋白结合所形成的复合体，其包含与靶序列杂交并由此使Cas12蛋白与所述靶序列结合的向导序列。该复合体能够识别并切割能与该单链向导RNA或成熟crRNA杂交的多核苷酸。

因此，在形成CRISPR/Cas12复合物的情况下，“靶序列”是指被设计为具有靶向性的向导序列所靶向的多核苷酸，例如与该向导序列具有互补性的序列，其中靶序列与向导序列之间的杂交将促进Cas12发挥其活性，例如切割靶序列的活性。完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进Cas12发挥其活性即可。靶序列可以包括任何多核苷酸，如DNA或RNA。在某些情况下，所述靶序列位于细胞的细胞核或细胞质中。在某些情况下，该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。

在本文中使用的术语“靶序列”或“靶多核苷酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如，蛋白质)的序列或一个非编码序列(例如，调节多核苷酸或无用DNA)。在某些情况下，该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求根据使用的Cas蛋白而不同，但是PAM典型地是临近原间隔序列(靶序列)的2-5个碱基序列。本领域技术人员能够鉴定与给定的Cas蛋白一起使用的PAM序列。

本文中使用的术语“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

本文中使用的术语“多肽”、“肽”、和“蛋白(质)”在本申请中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，并且适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

本文中使用的术语序列“同一性”或者“同源性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列同一性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列同一性。(参见，例如ComputationalMolecular Biology，Lesk，A.M.，ed.，Oxford University Press，New York，1988；Biocomputing：Informatics and Genome Projects，Smith，D.W.，ed.，Academic Press，New York，1993；Computer Analysis of Sequence Data，Part I，Griffin，A.M.，andGriffin，H.G.，eds.，Humana Press，New Jersey，1994；Sequence Analysis in MolecularBiology，von Heinje，G，Academic Press，1987；and Sequence Analysis Primer，Gribskov，M.and Devereux，J.，eds.，M Stockton Press，New York，1991)。虽然存在许多测量两个多核苷酸或多肽之间的同一性的方法，但是术语“同一性”是技术人员公知的在肽或蛋白中适合于保守型氨基酸置换的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸置换基本上不改变生物活性(参见例如Watson et al.，Molecular Biology of the Gene，4th Edition，1987，TheBenjamin/Cummings Pub.co.，p.224)。

本文中所使用的术语“载体”是指可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时，或者当载体能使得插入的多核苷酸发生转录(例如转录生成mRNA或功能RNA)时，载体称为表达载体。载体可以通过转化、转导或者转染而被导入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的，包括但不限于：质粒载体、病毒载体等。载体还可以含有多种调控表达的调控序列。“调控序列”和“调控元件”在本文中可互换使用，指位于编码序列的上游(5′非编码序列)、中间或下游(3′非编码序列)、并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可以包括但不限于启动子序列、转录起始序列、增强子序列、选择元件及报告基因等。所述调控序列可以是不同来源的，也可以是相同来源但以不同于通常天然存在的方式排列的。另外，载体还可含有复制起始位点。

本文中使用的术语“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

本文中使用的术语“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。

本文中使用的术语“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。

本文中使用的术语“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

本文中使用的术语“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个之中有5、6、7、8、9、10个互补，则互补百分比为50％、60％、70％、80％、90％和100％)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补程度，或者是指在严格条件下杂交的两个核酸。

本文中使用的与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的，并且取决于许多因素。一般而言，该序列越长，则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques in Biochemistryand Molecular Biology-Hybridization With Nucleic Acid Probes)，第1部分，第二章，“杂交原理概述和核酸探针分析策略”(“Overview of principles of hybridizationandthe strategy of nucleic acid probe assay”)，爱思唯尔(Elsevier)，纽约。

本文中使用的术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应，该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。

衍生化蛋白

可以对Cas12蛋白进行衍生化，例如将其连接至另外的分子(例如另外的蛋白或多肽)。通常，蛋白的衍生化(例如标记)不会不利影响该蛋白的期望活性(例如，起与单链向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)。因此，在本发明中，可以将Cas12蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子部分，例如另外的蛋白或多肽、可检测标记、药用试剂等。

特别地，可以将Cas12蛋白连接其他功能性单元。例如，可以将其与核定位信号(NLS)序列连接，以提高本发明的蛋白进入细胞核的能力。例如，可以将其与靶向部分连接，以使得Cas12蛋白具有靶向性。例如，可以将其与可检测标记连接，以便于对Cas12蛋白进行检测。例如，可以将其与表位标签连接，以便于对Cas12蛋白的表达、检测、示踪和/或纯化。

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

2)具有SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)修饰部分；以及

c)任选的用于连接所述Cas12蛋白与所述修饰部分的接头。

在本发明中，所谓Cas12蛋白的“生物学活性”是指该蛋白与单链向导RNA结合的活性、核酸内切酶活性(包括单链切割活性和双链切割活性)、和/或在向导RNA(gRNA)引导下与靶序列特定位点结合并切割的活性，但不限于此。

可以理解，除了Cas12蛋白自身外，还可以使Cas12蛋白与其他物质例如其他蛋白或者可标记标签等结合从而赋予其他的功能性。

因此，在一个实施方案中，所述修饰部分可以为另外的蛋白或多肽、可检测标记或其组合。

在一个进一步的实施方案中，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

可检测标记是本领域技术人员熟知的，其实例包括荧光染料，例如异硫氰酸荧光素(FITC)或DAPI。

本发明的Cas12蛋白可以通过接头与所述修饰部分偶联、缀合或融合，也可以不通过接头而直接地与所述修饰部分连接。接头是本领域熟知的，其实例可以包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)另外的蛋白或多肽、以及

c)任选的用于连接所述Cas12蛋白与所述另外的蛋白或多肽的接头。

同本发明第一方面一样，所述另外的蛋白或多肽可以选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

本发明的Cas12蛋白可以通过接头与所述另外的蛋白或多肽偶联、缀合或融合，也可以不通过接头而直接地与所述另外的蛋白或多肽连接。接头是本领域熟知的，其实例包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

在一个优选的实施方案中，所述融合蛋白包含：具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、腺嘌呤脱氨酶(ABE)、以及任选的连接所述Cas12J-8蛋白和所述腺嘌呤脱氨酶(ABE)的接头。

在一个优选的实施方案中，所述融合蛋白从其N端到C端依次为所述腺嘌呤脱氨酶(ABE)、所述接头、以及所述Cas12J-8蛋白。

在一个更优选的实施方案中，所述融合蛋白的氨基酸序列为SEQ ID NO：7所示。

此外，Cas12j-8蛋白的PAM为TTN，PAM简单，编辑范围广泛。而且，经过我们的实验证明，Cas12j-8蛋白在随机位点的编辑效率较FnCas12a蛋白具有显著性优势，在真核环境下的基因编辑能力强。相较于同系列的Cas12j-2蛋白，Cas12j-8蛋白具有极为显著的编辑优势，随机位点上的编辑能力显著高于Cas12j-2蛋白，更适合进行基因编辑的开发和应用研究。

本发明的Cas12a蛋白及Cas12b蛋白相较于现有的其他Cas12a蛋白及Cas12b蛋白具有较高的编辑活性，特异性较高，且具有较为简单的PAM序列，同时Cas12a蛋白及Cas12b蛋白的PAM为YYN，拓展了Cas12a蛋白及Cas12b蛋白的领域，及增加了Cas12a蛋白和Cas12b蛋白的应用范围。

单链向导RNA

在第三方面，本发明提供了一种单链向导RNA，所述单链向导RNA包括CRISPR重复序列，所述CRISPR重复序列具有：

a)针对Cas12J-8蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO：15所示的核酸序列，

针对Mb4Cas12a蛋白、M1Cas12a蛋白和MoCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO：16所示的核酸序列，

针对BgCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO：17所示的核酸序列，或

针对ChCas12b蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO：18所示的核酸序列；

或者

b)与SEQ ID NO：15至SEQ ID NO：18中任一个所示的核酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％或者至少100％的序列同一性且保留其生物学活性的核酸序列；或者

c)基于SEQ ID NO：15至SEQ ID NO：18中任一个所述的核酸序列改造得到的且保留其生物学活性的核酸序列。

在一个实施方案中，所述改造可以为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种。

在一个进一步的实施方案中，所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。

在又一个实施方案中，所述单链向导RNA可以在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列，所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选24个核苷酸)且能够与靶序列互补配对的序列。

在一个优选的实施方案中，所述CRISPR间隔序列为长度为24个核苷酸且能够与靶序列互补配对的序列。

在一个进一步的实施方案中，所述单链向导RNA在所述间隔序列的3’端进一步包括终止子。作为示例，所述终止子可以为多个如至少六个(例如七个或者八个)U构成的终止子。

所述单链向导RNA能够与上述的Cas12蛋白、缀合物或者融合蛋白结合而形成复合物，该复合物可以识别相应的PAM并由此与靶序列结合，进而实现对靶序列的剪切或者说基因编辑。

编码核酸以及载体

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

b)本发明第一方面的缀合物；或者

c)本发明第二方面的融合蛋白。

在一个实施方案中，所述分离的核酸分子包含SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13中任一个所示的核酸序列或其简并序列。

在一个实施方案中，所述分离的核酸分子包含编码SEQ ID NO：7所示融合蛋白的核酸序列。

在一个优选的实施方案中，所述分离的核酸分子包含SEQ ID NO：14所示的核酸序列或其简并序列。

在一个进一步的实施方案中，所述分离的核酸分子还编码本发明第三方面的与所述Cas12蛋白对应的单链向导RNA。

作为一个示例，所述分离的核酸分子包含编码具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO：7所示的融合蛋白)的核酸序列，例如SEQ ID NO：8、或SEQ ID NO：14所示的核酸序列，并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：15所示CRISPR重复序列、包含与SEQID NO：15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ IDNO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ IDNO：19所示的核酸序列。

作为一个示例，所述分离的核酸分子包含编码具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：9、SEQ ID NO：10或SEQ ID NO：11所示的核酸序列，并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：20所示的核酸序列。

作为一个示例，所述分离的核酸分子包含编码具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：12所示的核酸序列，并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：17所示CRISPR重复序列、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：21所示的核酸序列。

作为一个示例，所述分离的核酸分子包含编码具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：13所示的核酸序列，并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：18所示CRISPR重复序列、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：22所示的核酸序列。

在第五方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子编码本发明第三方面的单链向导RNA。

在一个实施方案中，所述分离的核酸分子包含SEQ ID NO：19、SEQ ID NO：20、SEQID NO：21、和SEQ ID NO：22中任一个所示的核酸序列或其简并序列。

在一个优选的实施方案中，所述分离的核酸分子还包含编码CRISPR间隔序列的核酸序列。

在利用本领域已知的某些工具例如表达载体将本发明的分离的核酸分子转染到相应的细胞中后，本发明的分离的核酸分子可以表达出本发明上文所述的Cas12蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能，例如进行基因编辑。

另外，本发明的分离的核酸分子可以单独地/分别地表达Cas12蛋白、其缀合物或融合蛋白、以及单链向导RNA，也可以一体地表达所述的表达产物，选择何种表达方式根据具体情况而定。

再者，所述表达产物具有上文记载的相应作用和/或功能，为简洁起见在此不再赘述。

在第六方面，本发明提供了一种载体，其包含编码以下的核酸序列：

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

b)本发明第一方面的缀合物；或者

c)本发明第二方面的融合蛋白。

在一个实施方案中，所述载体包含SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQID NO：11、SEQ ID NO：12、SEQ ID NO：13中任一个所示的核酸序列或其简并序列。

在一个实施方案中，所述载体包含编码SEQ ID NO：7所示融合蛋白的核酸序列。

在一个优选的实施方案中，所述载体包含SEQ ID NO：14所示的核酸序列或其简并序列。

所述载体可以为表达载体，例如质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

在又一个实施方案中，所述载体进一步包含编码本发明第三方面的与所述Cas12蛋白对应的单链向导RNA的核酸序列。

作为一个示例，所述载体包含编码具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO：7所示的融合蛋白)的核酸序列，例如SEQ ID NO：8或SEQ ID NO：14所示的核酸序列，并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：15所示CRISPR重复序列、包含与SEQ ID NO：15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ TD NO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：19所示的核酸序列。

作为一个示例，所述载体包含编码具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：9、SEQ ID NO：10或SEQ ID NO：11所示的核酸序列，并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：20所示的核酸序列。

作为一个示例，所述载体包含编码具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：12所示的核酸序列，并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：17所示CRISPR重复序列、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：21所示的核酸序列。

作为一个示例，所述载体包含编码具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO：13所示的核酸序列，并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：18所示CRISPR重复序列、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO：22所示的核酸序列。

在第七方面，本发明提供了一种载体，所述载体包含编码本发明第三方面的单链向导RNA的核酸分子。

在一个实施方案中，所述载体包含SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21和SEQ ID NO：22中任一个所示的核酸序列或其简并序列。

在一个优选的实施方案中，所述载体还包含编码CRISPR间隔序列的核酸序列。

根据上文的记载可知，在将本发明的载体转染到细胞中后，在载体中克隆的核酸序列可以被表达为Cas12蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能，例如进行基因编辑。

另外，可以将多种载体例如两种载体转染到细胞中，其中一种载体表达所述Cas12蛋白、其缀合物或融合蛋白，而另一种载体表达单链向导RNA。随后，表达出来的Cas12蛋白、其缀合物或融合蛋白与表达出来的单链向导RNA复合形成复合物，并在此行使相应的功能，例如进行基因编辑。

当然，也可以将编码所述Cas12蛋白、其缀合物或融合蛋白的核酸序列以及编码所述单链向导RNA的核酸序列克隆到一个载体中，使得该载体转染到细胞内后表达所述Cas12蛋白、其缀合物或融合蛋白以及所述单链向导RNA两者，并在此行使相应的功能，例如进行基因编辑。

CRISPR/Cas12基因编辑系统

a)蛋白组分，其包含：

1)Cas12蛋白，所述Cas12蛋白为：

1.1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

1.2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ TD NO：4、SEQ TD NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)本发明第一方面的缀合物；或者

3)本发明第二方面的融合蛋白；以及

b)核酸组分，其包含：本发明第三方面的与a)中的蛋白组分对应的单链向导RNA；

并且，所述蛋白组分和所述核酸组分相互结合形成复合物。

作为一个示例，所述蛋白组分包含具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ ID NO：15所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：15具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA。

作为一个示例，所述蛋白组分包含具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ ID NO：16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA。

作为一个示例，所述蛋白组分包含具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ ID NO：17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA。

作为一个示例，所述蛋白组分包含具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ ID NO：18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA。

上文中，针对单链向导RNA提及的表述“至少90％序列同一性”可以为例如至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％或者至少100％的序列同一性。

本发明的CRISPR/Cas12基因编辑系统可以由本文所述的Cas12蛋白、其同源物、或者它们的缀合物或融合蛋白与本文所述的单链向导RNA直接地构成，也可以本文所述的载体表达得到的表达产物构成。

本发明的CRISPR/Cas12基因编辑系统通过其中包含的Cas12蛋白和单链向导RNA共同作用而实现对靶序列的识别、定位、切割和基因编辑。

本发明CRISPR/Cas12基因编辑系统能够精确定位靶序列。所谓“精确定位”有两层含义：第一层含义是指本发明的CRISPR/Cas12基因编辑系统自身能够识别并结合靶序列，第二层含义是指本发明的CRISPR/Cas12基因编辑系统能够将与所述Cas12蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至靶序列的位置。

本发明的CRISPR/Cas12基因编辑系统对非靶序列具有低容忍度。在本文中，所谓“具有低容忍度”是指本发明的CRISPR/Cas12基因编辑系统基本上不能或者完全不能识别并结合非靶序列，或基本上不能或者完全不能将与所述Cas12蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至非靶序列的位置。

本发明的CRISPR/Cas12因编辑系统，由于其中含有的Cas12蛋白所识别的靶序列上的PAM序列更简单，由此可以靶向基因组中更多的DNA序列。

细胞

在第九方面，本发明提供了一种细胞，所述细胞包含：本发明第四发明和第五方面的分离的核酸分子、或者本发明第六方面和第七方面的载体。

作为一个示例，所述细胞可以为原核细胞或者真核细胞。对于所述真核细胞，作为示例，其可以为植物细胞或者动物细胞。对于所述动物细胞，作为示例，其可以为哺乳动物细胞例如人类细胞。

方法

在第十方面，本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触：

(1)Cas12蛋白、本发明第一方面的缀合物或者本发明第二方面的融合蛋白，和本发明第三方面的与所述Cas12蛋白对应的单链向导RNA，

其中，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

(2)本发明第六方面和第七方面的载体；

(3)本发明第六方面的载体；以及

(4)本发明第八方面的CRISPR/Cas12基因编辑系统；

其中，在与靶序列接触后，所述Cas12蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM)，所述PAM位于靶序列的5’端，并且，对于所述Cas12J-8蛋白、所述Mb4Cas12a蛋白、所述MlCas12a蛋白、所述MoCas12a蛋白、所述BgCas12a蛋白、和所述ChCas12b蛋白、或它们各自的同源物、缀合物或融合蛋白，所述PAM分别为5’-TTN、5’-YYN、5’-YYN、5’-YYN、5’-YYN和5’-TTN。

对于上文所述的第(1)项：

作为一个示例，具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO：15所示CRISPR重复序列、包含与SEQ ID NO：15具有至少90％序列同一性的同源序列、或包含基于SEQ ID NO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、它们的缀合物或融合蛋白的核酸序列，以及包含SEQ ID NO：17所示CRISPR重复序列、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQID NO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO：18所示CRISPR重复序列、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA。

对于上文中的第(2)项：

作为一个示例，包含编码具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO：7所示的融合蛋白)的核酸序列(例如SEQ ID NO：8或SEQ ID NO：14所示的核酸序列)的载体，以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：15所示CRISPR重复序列、包含与SEQ ID NO：15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：19所示的核酸序列)的载体；

作为一个示例，包含编码具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：9、SEQ IDNO：10或SEQ ID NO：11所示的核酸序列)的载体，以及包含编码针对该Mb4Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：20所示的核酸序列)的载体；

作为一个示例，包含编码具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：12所示的核酸序列)的载体，以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：17所示CRISPR重复序列、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：21所示的核酸序列)的载体；

作为一个示例，包含编码具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：13所示的核酸序列)的载体，以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：18所示CRISPR重复序列、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：22所示的核酸序列)的载体。

在一个实施方案中，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

在一个实施方案中，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种。

进一步地，在一个实施方案中，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

在一个实施方案中，在所述方法中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对的结构。

在本文中，所述不完全碱基互补配对结构是指其中包括一部分碱基互补配对和一部分非碱基互补配对的结构，所述非碱基互补配对包括例如碱基错配(mismatch)和/或碱基凸出(bulge)等。

在一个实施方案中，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配。

由此，本发明的Cas12蛋白可以对所述靶序列上的靶位点进行切割，并且在Cas12蛋白的切割作用下，靶序列发生双链断裂。进一步地，当所述方法在细胞内进行时，切割后的靶序列可以通过细胞内的非同源末端连接修复或同源重组修复途径进行修复，从而实现对靶序列的基因编辑。

本发明的CRISPR/Cas12基因编辑系统以及采用该基因编辑系统的基因编辑方法，经实验发现其具有40％-70％(对于Cas12J-8蛋白)、12％-56％(对于ChCas12b蛋白)以及10％-20％(对于其他各Cas12a蛋白)的编辑效率。另外，对于CRISPR/Cas12J-8基因编辑系统，前14bp的向导RNA的mismatch具有接近0％的容错率。因此，该基因编辑系统可以高特异性地编辑靶基因，具有编辑效率高、脱靶率低的特点，可广泛应用于细胞中或者体外环境中的基因编辑。

试剂盒

在第十一方面，本发明提供了一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下1)至6)中的任一项：

1)Cas12蛋白或其同源物、本发明第一方面的缀合物、或者本发明第二方面的融合蛋白，和本发明第三方面的与所述Cas12蛋白对应的单链向导RNA，

其中，所述Cas12蛋白为：

1.1)具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO：2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO：3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO：4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白，

或者为

1.2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5和SEQ ID NO：6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)本发明第四和第五方面的分离的核酸分子；

3)本发明第五方面的分离的核酸分子；

4)本发明第六和第七方面的载体；

5)本发明第六方面的载体；或者

6)本发明第八方面的CRISPR/Cas12基因编辑系统；

以及

b)如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。

对于上文中的第1)项：

作为一个示例，具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO：15所示CRISPR重复序列的单链向导RNA、包含与SEQID NO：15具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其具有与SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ ID NO：16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其具有与SEQID NO：5具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ ID NO：17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA；

作为一个示例，具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其具有与SEQID NO：6具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ ID NO：18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ IDNO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA。

对于上文中的第2)项：

作为一个示例，包含编码具有SEQ ID NO：1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO：7所示的融合蛋白)核酸序列(例如SEQ ID NO：8或SEQ ID NO：14所示的核酸序列)的分离的核酸分子，以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：15所示CRISPR重复序列、包含与SEQ IDNO：15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ IDNO：19所示的核酸序列)的分离的核酸分子；

作为一个示例，包含编码具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(SEQ ID NO：9、SEQ ID NO：10或SEQ ID NO：11所示的核酸序列)的分离的核酸分子，以及包含包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ IDNO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ IDNO：20所示的核酸序列)的分离的核酸分子；

作为一个示例，包含编码具有SEQ ID NO：5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：12所示的核酸序列)的分离的核酸分子，以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：17所示CRISPR重复序列、包含与SEQ ID NO：17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：21所示的核酸序列)的分离的核酸分子；

作为一个示例，包含编码具有SEQ ID NO：6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：13所示的核酸序列)的分离的核酸分子，以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：18所示CRISPR重复序列、包含与SEQ ID NO：18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：22所示的核酸序列)的分离的核酸分子。

对于上文中的第4)项：

作为一个示例，包含编码具有SEQ ID NO：2、SEQ ID NO：3或SEQ ID NO：4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO：9、SEQ IDNO：10或SEQ ID NO：11所示的核酸序列)的载体，以及包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO：16所示CRISPR重复序列、包含与SEQ ID NO：16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO：16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO：20所示的核酸序列)的载体；

当然，本领域技术人员可以理解，本发明试剂盒中还可以包含其他有助于进行基因编辑的试剂。

对本发明涉及序列的简单描述

SEQ ID NO：1：Cas12J-8蛋白序列

SEQ ID NO：2：Mb4Cas12a蛋白序列

SEQ ID NO：3：MlCas12a蛋白序列

SEQ ID NO：4：MoCas12a蛋白序列

SEQ ID NO：5：BgCas12a蛋白序列

SEQ ID NO：6：ChCas12b蛋白序列

SEQ ID NO：7：包含Cas12J-8蛋白的融合蛋白

SEQ ID NO：8：Cas12J-8蛋白的编码序列

SEQ ID NO：9：Mb4Cas12a蛋白的编码序列

SEQ ID NO：10：MlCas12a蛋白的编码序列

SEQ ID NO：11：MoCas12a蛋白的编码序列

SEQ ID NO：12：BgCas12a蛋白的编码序列

SEQ ID NO：13：ChCas12b蛋白的编码序列

SEQ ID NO：14：包含Cas12J-8蛋白的融合蛋白编码序列

SEQ ID NO：15：与Cas12J-8蛋白联用的CRISPR重复序列

SEQ ID NO：16：与Mb4Cas12a、MlCas12a和MoCas12a蛋白联用的CRISPR重复序列

SEQ ID NO：17：与BgCas12a蛋白联用的CRISPR重复序列

SEQ ID NO：18：与ChCas12b蛋白联用的CRISPR重复序列

SEQ ID NO：19：与Cas12J-8蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列

SEQ ID NO：20：与Mb4Cas12a、MlCas12a、和MoCas12a蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列

SEQ ID NO：21：与BgCas12a蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列

SEQ ID NO：22：与ChCas12b蛋白相关的单链向导RNA的CRISPR重复序列的DNA序列

SEQ ID NO：23：Cas12J-4蛋白序列

SEQ ID NO：24：Cas12J-5蛋白序列

SEQ ID NO：25：Cas12J-7蛋白序列

SEQ ID NO：26：Cas12J-9蛋白序列

SEQ ID NO：27：Cas12J-4蛋白的编码序列

SEQ ID NO：28：Cas12J-5蛋白的编码序列

SEQ ID NO：29：Cas12J-7蛋白的编码序列

SEQ ID NO：30：Cas12J-9蛋白的编码序列

SEQ ID NO：31：与Cas12J-4蛋白联用的CRISPR重复序列的DNA序列

SEQ ID NO：32：与Cas12J-5蛋白联用的CRISPR重复序列的DNA序列

SEQ ID NO：33：与Cas12J-7蛋白联用的CRISPR重复序列的DNA序列

SEQ ID NO：34：与Cas12J-9蛋白联用的CRISPR重复序列的DNA序列实施例

现参照下列意在举例说明而非限定本发明的实施例来描述本发明。本领域技术人员知晓，在此提供实施例仅出于详细描述本发明之目的，无意于限制本发明所要求保护的范围。

除非特别指明，否则基本按照本领域内熟知的以及在各参考文献中描述的常规方法进行实施例中描述的实验和方法。另外，对于实施例中未注明具体条件者，均按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

(1)构建质粒pAAV2_Cas12_ITR

根据表1中列出的各Cas12蛋白的基因检索号，下载其氨基酸序列，其中Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的氨基酸序列分别如SEQ ID NO：1至SEQ ID NO：6所示。

表1.Cas12蛋白及其NCBI蛋白搜索ID和序列编号

Cas12蛋白名称	NCBI蛋白搜索ID	氨基酸序列
			Cas12J-8	无	SEQ ID NO：1
Mb4Cas12a	WP_078273923.1	SEQ ID NO：2
			MlCas12a	WP_065256572.1	SEQ ID NO：3
MoCas12a	WP_112744621.1	SEQ ID NO：4
			BgCas12a	OLA11341.1	SEQ ID NO：5
ChCas12b	OQB30769	SEQ ID NO：6

将上述各Cas12蛋白的编码核酸序列进行密码子优化，获得所述Cas12蛋白在人细胞中高表达的基因序列。Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的经优化基因序列分别如SEQ ID NO：8至SEQ ID NO：13所示。

将上述获得的SEQ ID NO：8至SEQ ID NO：13所示的各Cas12蛋白高表达的基因序列进行基因合成，并构建至slugCas9骨架质粒(Addgene平台，catalog#163793)上，得到质粒pAAV2_Cas12_ITR。

(2-1)构建质粒Cas12J-8-PSK-u6-crRNA

用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒(Addgene平台，可以商购，catalog为#74707)进行酶切反应，酶切体系为：1μg质粒psk-BbsI-Sasg、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应1小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下3296bp DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。

根据Cas12j-8蛋白基因组上的repeat序列(其DNA序列为SEQ ID NO：19)，将该repeat序列进行基因合成，并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上，得到质粒Cas12J-8-PSK-u6-crRNA。

(2-2)构建质粒psk-BbsI-Cas12a-crRNA1

用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒进行酶切反应，酶切体系为：1μg质粒psk-BbsI-Sasg、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应1小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

根据Cas12a蛋白基因组上的repeat，将截断后的repeat序列(其DNA序列分别为SEQ ID NO：20和SEQ ID NO：21)进行基因合成，并构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上，得到质粒psk-BbsI-Cas12a-crRNA1。

(2-3)构建质粒hU6-OQB30769_tracr-Bsa1

用BsaI和NotI限制性内切酶将pX330_sgACTA2质粒(Addgene平台，catalog为#63712)进行酶切反应，酶切体系为：1μg质粒hU6-sa-tracr-BsaI、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BsaI和1μL NotI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应3小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下2998bp DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。

根据ChCas12b的基因组找出基因组上的repeat及tracr，根据二级结构推断出其RNA Scaffold序列(其DNA序列为SEQ ID NO：22)，将该序列进行基因合成，并构建于线性化的hU6-sa-tracr-BsaI骨架上，得到质粒hU6-OQB30769_tracr-Bsal。

(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建

利用PCR方法线性化(1)中表达Cas12蛋白的pAAV2_Cas12_ITR质粒和(2)中表达各蛋白对应sgRNA的Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒。

对于pAAV2_Cas12_ITR质粒，引物序列为：

ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC；和

CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC；

对于Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1质粒，引物序列为：

GAGGGCCTATTTCCCATGAT；和

GTACCGGGCCCCCCCTCG。

反应体系如下：

PCR运行程序如下：

PCR产物在1％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到目的DNA片段，用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

将线性化pAAV2_Cas12_ITR片段与线性化Cas12J-8-PSK-u6-crRNA、psk-BbsI-Cas12a-crRNA1和hU6-OQB30769_tracr-Bsa1片段对应按照说明书要求比例进行同源重组，所使用的同源重组酶为

高保真DNA组装预混液(NEB)，反应体系如下：

反应条件如下：

将连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中，冰上孵育30min，42℃热激1min，冰上孵育2min，加入900μL LB培养基，于37℃培养1小时，以进行大肠杆菌DH5α感受态细胞的活化复苏。

将复苏后的大肠杆菌DH5α感受态细胞涂布在含有氨苄青霉素抗性的LB固体平板在37℃培养箱倒置培养，得到的大肠杆菌DH5α单克隆进行Sanger测序验证。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到质粒pAAV2_Cas12-hU6-sgRNA_ITR，备用。

(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备

用BbsI限制性内切酶将(3)中制备的各质粒pAAV2_Cas12-hU6-sgRNA_ITR进行酶切反应，酶切体系为：1μg质粒pAAV2_Cas12-hU6-sgRNA_ITR、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应1小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas12蛋白的编码基因的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR，其大小分别为7135bp(Cas12J-8蛋白)、7866bp(Mb4Cas12a蛋白)、7875bp(MlCas12a蛋白)、7998bp(MoCas12a蛋白)、7875bp(BgCas12a)和8606bp(ChCas12b)。

将回收的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

(5)质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备

设计各gRNA，其序列示于如表2。在设计的各gRNA序列对用的正义链和反义链上分别加上线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR两侧对应的粘性末端序列，并合成两条寡核苷酸单链DNA，这两条寡核苷酸单链DNA的具体序列也示于下表。

将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为：1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序，退火程序为：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。退火后，将所得的产物通过DNA连接酶(购于NEB公司)连接至步骤(2)所得的线性化pAAV2_Cas12-hU6-sgRNA_ITR质粒。

取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中，冰上孵育30min，42℃热激1min，冰上孵育2min，加入900μL LB培养基，于37℃培养1小时，以进行大肠杆菌DH5α感受态细胞的活化复苏。

将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养，得到的大肠杆菌DH5α单克隆进行Sanger测序验证。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到含有表达目标sgRNA序列的质粒pAAV2_Cas12-hU6-sgRNA_ITR，备用。

(6)表达Cas蛋白和sgRNA的质粒pAAV2_Cas12-hU6-sgRNA_ITR对HEK293T细胞系的转染

在第0天，根据转染所需，将含有靶序列的HEK293T细胞在6孔板进行铺板，细胞密度约30％左右。

第1天，进行转染，转染过程如下：

取2μg待转染质粒pAAV2_Cas12-hU6-sgRNA_ITR加入至100μLOpti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将转染试剂脂质体

2000(购于Invitrogen公司)或聚乙烯亚胺(以下简称PEI)(购于polysciences公司)轻弹混匀，吸取5μL

2000或PEI加入至100μL Opti-MEM培养基(购于Gibco公司)中，轻轻混匀，室温静置5min。

将稀释的转染试剂和稀释的质粒进行混合，轻轻吹打混匀，室温静置20min，然后加入到包含待转染细胞HEK293T细胞的培养基中，然后将细胞置于37℃、5％CO₂培养箱中继续培养3天。

(7)二代测序文库的制备

收集编辑三天后的HEK293T细胞，用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

进行PCR建库第一轮PCR，用2×Q5 Mastermix进行PCR反应，PCR引物如下所示：

表3.二代测序一轮PCR引物列表

反应体系如下：

PCR运行程序如下：

进行测序建库第二轮PCR，用2xQ5 Mastermix进行PCR反应，PCR引物如下所示：

F2引物：

AATGATACGGCGACCACCGAGATCTACACNNNNNNNNACACTCTTTCCCTACACGAC；

R2引物：

CAAGCAGAAGACGGCATACGAGATNNNNNNNNGTGACTGGAGTTCAGACGTGTG。

反应体系如下：

PCR运行程序如下：

将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化330bp、327bp、279bp、239bp、311bp和298bp的DNA片段，其中，330bp、327bp分别是A1和A7的大小，279bp和239bp分别是E2和E3位点的大小，311bp和298bp分别是A3和A4位点的大小。由此，二代测序文库制备完毕。

(8)二代测序结果的分析

将制备好的二代测序文库在高通量测序仪HiseqXTen(illumina)上进行双端测序。

二代测序计算得到对各自的两个靶位点的编辑效率如图1至图6所示，其中X轴表示靶位点，Y轴表示编辑效率(Indels％)。从图中可以看出，含有Cas12J-8、Mb4Cas12a、MoCas12a、BgCas12a、MlCas12a及ChCas12b蛋白的基因编辑系统均可以用于细胞基因编辑，且含有Cas12J-8蛋白的基因编辑系统的编辑活性相较于现有的Cas12J-2蛋白的基因编辑系统更高。

实施例2

(1)构建质粒pAAV2_Cas12_ITR

根据上文表1中列出的各Cas12蛋白的基因检索号，下载其氨基酸序列信息，其中Cas12J-8蛋白、Mb4Cas12a蛋白、M1Cas12a蛋白、MoCas12a蛋白、BgCas12a蛋白和ChCas12b蛋白的氨基酸序列分别如SEQ ID NO：1至SEQ ID NO：6所示。

将上述所得的Cas12蛋白的编码核酸序列进行密码子优化，获得所述Cas蛋白在人细胞中高表达的基因序列。Cas12J-8蛋白、Mb4Cas12a蛋白、MlCas12a蛋白、MoCas12a蛋白、BgCas12a蛋白蛋白和ChCas12b的基因序列分别如SEQ ID NO：8至SEQ ID NO：13所示。

将上述获得的SEQ ID NO：8至SEQ ID NO：13所示的各Cas蛋白高表达的基因序列进行基因合成，并构建至slugCas9骨架质粒(Addgene平台，catalog#163793)上，得到质粒pAAV2_Cas12_ITR。

(2-1)构建质粒Cas12J-8-PSK-u6-crRNA

用BbsI和XhoI限制性内切酶将pBluescriptSKII+U6-sgRNA(F+E)empty质粒(Addgene平台，可以商购，catalog为#74707)进行酶切反应，酶切体系为：1μg质粒psk-BbsI-Sasg、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BbsI和1μL XhoI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应1小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

(2-2)构建质粒psk-BbsI-Cas12a-crRNA1

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

(2-3)构建质粒hU6-OQB30769_tracr-Bsa1

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

根据ChCas12b的基因组找出基因组上的repeat及tracr，根据二级结构推断出其RNA Scaffold序列(其DNA序列为SEQ ID NO：22)，将该序列进行基因合成，并构建于线性化的hU6-sa-tracr-BsaI骨架上，得到质粒hU6-OQB30769_tracr-Bsa1。

(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建

对于pAAV2_Cas12_ITR质粒，引物序列为：

ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC；和

CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC；

GAGGGCCTATTTCCCATGAT；和

GTACCGGGCCCCCCCTCG。

反应体系如下：

PCR运行程序如下：

高保真DNA组装预混液(NEB)，反应体系如下：

反应条件如下：

(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备

用BbsI限制性内切酶将(3)中制备的各质粒pAAV2_Cas12-hU6-sgRNA_ITR进行酶切线性化反应，酶切体系为：1μg质粒pAAV2_Cas12-hU6-sgRNA_ITR、5μL 10xCutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应1小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)并依据该厂家提供的说明进行回收，最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas蛋白的编码基因的线性化质粒pAAV2_Cas12_ITR，其大小分别为7135bp(Cas12J-8蛋白)、7866bp(Mb4Cas12a蛋白)、7875bp(MlCas12a蛋白)、7998bp(MoCas12a蛋白)、7875bp(BgCas12a)和8606bp(ChCas12b)。

将回收的线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR用NanoDrop^TM Lite分光光度计NanoDrop(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

(5)质粒pAAV2_Cas12-U6-on target sgRNA或pAAV2_Cas12-U6-mismatch sgRNA的制备

设计各on target gRNA和mismatch gRNA的序列，并且其对应的寡核苷酸单链DNA如下表4所示，其中mismatch碱基在序列表中显示为带下划线的粗体碱基。

将所得的on target gRNA对应的寡核苷酸单链DNA和不同mismatch gRNA对应的寡核苷酸单链DNA分别退火。退火反应体系为：1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序；退火程序如下：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。退火后，将所得的产物分别通过DNA连接酶(购于NEB公司)连接至所得的线性化pAAV2_Cas12-hU6-sgRNA_ITR质粒。

取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中，冰上孵育30min，42℃热激1min，冰上孵育2min，加入900μL LB培养基，37℃培养1h进行大肠杆菌DH5α感受态细胞的活化复苏。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即分别得到表达上述on target gRNA序列的质粒pAAV2_Cas12-hU6-on target gRNA和表达上述不同mismatchgRNA序列的质粒pAAV2_Cas12-hU6-mismatch gRNA，备用。

(7)将所得的表达on target gRNA序列的质粒pAAV2_Cas12-hU6-on target gRNA和表达mismatch gRNA序列的质粒pAAV2_Cas12-U6-mismatch gRNA采用脂质体方式分别转染至含有靶序列(GGATATGTTGAAGAACACCATGAC)的GFP报告系统HEK293T细胞系。

所述含有靶序列的GFP报告系统HEK293T细胞系是通过下述方式获得的：在起始密码子ATG和GFP编码序列之间插入PAM序列和特定的靶序列，造成GFP移码突变，然后通过慢病毒感染整合到HEK293T细胞中，得到含有靶序列的GFP报告系统HEK293T细胞系。当基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光，通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。

上述转染过程包括如下步骤：

第0天，根据转染所需，将含有靶序列的GFP报告系统HEK293T细胞系在6孔板进行铺板，细胞密度控制在30％。

该含有靶序列的GFP报告系统HEK293T细胞系中包含CMV-ATG-PAM-target site-GFP的核苷酸序列，其中，其中PAM序列参见图7至图13，靶位点(target site)的序列为GGATATGTTGAAGAACACCATGAC。

第1天，进行转染，转染过程如下：

分别取2μg待转染质粒pAAV2_Cas12-U6-on target gRNA或2μg待转染质粒pAAV2_Cas12-U6-mismatch gRNA加入至100μL Opti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将

2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀，吸取5μL

2000或PEI加入至100μL Opti-MEM培养基中，轻轻混匀，室温静置5min。

将经稀释的质粒和经稀释的转染试剂进行混合，轻轻吹打混匀，得到的混合液室温静置20min，然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养。

流式细胞分析技术分析本发明的CRISPR基因编辑系统对靶序列的编辑效率及脱靶率。

具体地，收集在CO₂培养箱中培养3天后的HEK293T细胞系，采用流式细胞仪(BDBiosciences FACSCalibur)对其特异性进行检测，并用FlowJo分析软件分析GFP阳性比率并作图。

本发明的CRISPR/Cas12基因编辑系统在含有靶序列的GFP报告系统HEK293T细胞系中的特异性检测结果示于图7至图13，其中上方横条显示GFP报告系统示意图，在起始密码子ATG和GFP编码序列之间插入有特定的PAM序列及靶序列，造成GFP移码突变。因此当基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光。图7至图13中下方的柱状图中的Y轴代表GFP阳性细胞百比率(％)，X轴代表On-target gRNA和mismatch gRNA对应的寡核苷酸单链DNA序列。从图7至图13中可以看出，本发明的CRISPR基因编辑系统在GFP报告系统HEK293T细胞系中的靶位点均发生了编辑，且由mismatch gRNA介导的基因编辑比例显著性低于on-target gRNA介导的基因编辑比例，由此表明本发明的CRISPR基因编辑系统的编辑活性高，脱靶率低，特异性高。且在对于CRISPR/Cas12J-8基因编辑系统的研究结果中，在前14bp的单碱基mismatch中并未发现明显错配现象，说明CRISPR/Cas12J-8基因编辑系统对gRNA与靶序列间的完全配对要求极高，具有较低的容错率和实际应用的较高安全性。

实施例3

(1)线性化质粒SlugABEmax的制备

以SlugABEmax质粒(Addgene平台，catalog#163798)为模板进行PCR反应，引物序列为：

引物1：TCTGGTGGTTCTCCCAAGAAGA

引物2：TGACCCCCCGCTGCTGCCCC

反应体系如下：

PCR运行程序如下：

PCR产物在1％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到4152bp的DNA片段，用NanoDrop^TM Lite分光光度计(ThermoScientific)测定DNA浓度，备用或置于-20℃进行长期保存。

(2)质粒pAAV2_envTadA-Cas12J-8ITR的制备

将线性化SlugABEmax骨架片段与和公司合成的人源化Cas12J-8片段(SEQ ID NO：8)按说明书要求比例进行同源重组，所使用的同源重组酶为

高保真DNA组装预混液(NEB)，反应体系如下：

反应条件如下：

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到质粒pAAV2_envTadA-Cas12J-8_ITR，备用。

(3)质粒pAAV2_envTadA-dCas12J-8_ITR的制备

以pAAV2_envTadA-Cas12J-8_ITR为模板进行环形PCR反应，引物序列为：

引物3：CAACCTGGTGAAAAAGAACAACTTC

引物4：GCGATGCCGATCACATCGCACA

反应体系如下：

PCR运行程序如下：

PCR产物在1％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到6305bp的DNA片段，用NanoDrop^TM Lite分光光度计(ThermoScientific)测定DNA浓度，并分别进行T4 PNK处理和T4 DNA连接酶处理，反应体系如下：

反应条件如下：

在反应体系中加入T4 DNA连接酶(NEB)1μL，震荡混匀后室温孵育2h。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到质粒pAAV2_envTadA-dCas12J-8ITR，备用。

(5)pAAV2_envTadA-dCas12J-8_ITR的线性化制备

利用Kpn1和Not1限制性内切酶(NEB)对pAAV2_envTadA-dCas12J-8_ITR质粒进行酶切反应，反应体系为：2μg质粒pAAV2_envTadA-dCas12J-8_ITR、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL Kpn1限制性内切酶(购于NEB公司)，1μL Not1限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应2小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。

将回收的线性化片段pAAV2_envTadA-dCas12J-8_ITR用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

(6)pAAV2_envTadA-dCas12J-8-crRNA_ITR质粒的制备

以Cas12J-8-PSK-u6-crRNA为模板进行PCR反应，引物序列为：

引物5：GGAGGTACCGATCCGACGCGCCATCTCTAG

引物6：CCTGCGGCCGCGGGCCCCCCCTCGAAAAAAAAAC

反应体系如下：

PCR运行程序如下：

PCR产物在1.5％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到394bp的Cas12J-8crRNA DNA片段，用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

将线性化pAAV2_envTadA-dCas12J-8_ITR片段与Cas12J-8crRNA片段按说明书要求比例进行同源重组，所使用的同源重组酶为

高保真DNA组装预混液(NEB)，反应体系如下：

反应条件如下：

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR，备用。

(7)质粒pAAV2_envTadA-dCas12J-8-sgRNA_ITR的制备

用BbsI限制性内切酶对pAAV2_envTadA-dCas12J-8-crRNA_ITR质粒进行酶切反应，酶切体系为：2μg质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BbsI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃反应2小时。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

将回收的线性化质粒pAAV2_envTadA-dCas12J-8-crRNA_ITR用NanoDrop^TM Lite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

在人类基因组中随机选择满足Cas12J-8蛋白PAM需求的内源位点靶序列，其对应的寡核苷酸单链DNA如下表所示。

将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为：1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序，退火程序为：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。退火后，将所得的产物通过DNA连接酶(购于NEB公司)连接至线性化pAAV2_envTadA-dCas12J-8-crRNA_ITR载体。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到含有表达目标sgRNA序列的质粒pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR，备用。

(8)pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR质粒对野生型HEK293T细胞系的转染

将所得的pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR质粒采用脂质体方式分别转染至野生型HEK293T细胞系。

上述转染过程包括如下步骤：

第0天，根据转染所需，将HEK293T细胞系在6孔板进行铺板，细胞密度控制在30％。

第1天，进行转染，转染过程如下：

取2μg待转染质粒pAAV2_envTadA-dCas12J-8-crRNA-gRNA_ITR加入至100μLOpti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将

将经稀释的质粒和经稀释的转染试剂进行混合，轻轻吹打混匀，得到的混合液室温静置20min，然后加入到备转HEK293T细胞的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养7天。

(9)二代测序文库的制备

收集编辑七天后的HEK293T细胞，用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

进行PCR建库第一轮PCR，用2×Q5 Mastermix进行PCR反应，PCR引物如下表所示：

表6：针对各内源位点的PCR引物列表

反应体系如下：

PCR运行程序如下：

进行PCR建库第二轮PCR，用2×Q5 Mastermix进行PCR反应，PCR引物同上文实施例1中给出的F2引物和R2引物。

反应体系如下：

PCR运行程序如下：

将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化DNA片段，由此二代测序文库制备完毕。

(10)二代测序结果的分析

二代测序结果经运算后获得各内源位点靶位点中符合编辑要求的腺嘌呤A的编辑比例，结果示于图14。从该图中可以看出，Cas12J-8ABE碱基编辑器成功地对这几个内源性位点靶位点进行了细胞单碱基基因编辑，且含有Cas12J-8ABE碱基编辑器蛋白只有938个氨基酸，可以轻易被AAV病毒包装，由此使CRISPR单碱基编辑器系统在生物体基因治疗上的应用成为了可能。

实施例4

(1)构建质粒pAAV2_Cas12_ITR

文末序列表中示出了Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白的氨基酸序列(分别如SEQ ID NO：23-25、1和26所示)。

将各Cas12蛋白的编码核酸序列进行密码子优化，获得所述Cas12蛋白在人细胞中高表达的基因序列。Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白的基因序列分别由SEQ ID NO：27-29、8和30所示。

将上述获得的SEQ ID NO：27-29、8和30所示的各Cas12蛋白高表达的基因序列进行基因合成，并分别构建至slugCas9骨架质粒(Addgene平台，catalog#163793)上，得到各质粒pAAV2_Cas12_ITR。

(2)构建质粒Cas12J-PSK-u6-crRNA

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

根据Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8和Cas12J-9蛋白基因组上的repeat序列(其DNA序列分别由SEQ ID NO：31至33、19和34所示)，将该repeat序列进行基因合成，并分别构建于线性化的pBluescriptSKII+U6-sgRNA(F+E)empty骨架上，得到各质粒Cas12J-PSK-u6-crRNA。

(3)质粒pAAV2_Cas12-hU6-sgRNA_ITR载体的构建

利用PCR方法线性化(1)中表达Cas12蛋白的pAAV2_Cas12_ITR质粒和(2)中表达各蛋白对应sgRNA的Cas12J-PSK-u6-crRNA质粒。

对于pAAV2_Cas12_ITR质粒，引物序列为：

ATCATGGGAAATAGGCCCTCAGGTACCTCCCCAGCATGC；和

CGAGGGGGGGCCCGGTACATCATGGGAAATAGGCCCTC；

对于Cas12J-PSK-u6-crRNA质粒，引物序列为：

GAGGGCCTATTTCCCATGAT；和

GTACCGGGCCCCCCCTCG。

反应体系如下：

PCR运行程序如下：

PCR产物在1％琼脂糖凝胶上以120V电压电泳30min，用胶回收试剂盒依据厂家提供的步骤，纯化得到目的DNA片段，用NanoDrop^TMLite分光光度计(Thermo Scientific)测定DNA浓度，备用或置于-20℃进行长期保存。

将线性化pAAV2_Cas12_ITR片段与线性化Cas12J-PSK-u6-crRNA片段对应按照说明书要求比例进行同源重组，所使用的同源重组酶为

高保真DNA组装预混液(NEB)，反应体系如下：

反应条件如下：

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到各质粒pAAV2_Cas12-hU6-sgRNA_ITR，备用。

(4)线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)并依据该厂家提供的说明进行回收，最终用超纯水进行洗脱。所述DNA片段即为包含以上各Cas蛋白的编码基因的线性化质粒pAAV2_Cas12_ITR。

(5)质粒pAAV2_Cas12-hU6-sgRNA_ITR的制备

设计gRNA(GGAUAUGUUGAAGAACACCAUGAC)，并在设计的gRNA序列用的正义链和反义链上分别加上线性化质粒pAAV2_Cas12-hU6-sgRNA_ITR两侧对应的粘性末端序列，并合成两条寡核苷酸单链DNA，这两条寡核苷酸单链DNA的具体序列如下：

Oligo-F：GGATATGTTGAAGAACACCATGAC

Oligo-R：GTCATGGTGTTCTTCAACATATCC

其中，针对Cas12J-4、Cas12J-5、Cas12J-7、Cas12J-8、和Cas12J-9的Oligo-F的粘性末端分别为CGAC、GGAC、AGAC、AGAC和AGAC，针对所有Cas12蛋白的Oligo-R的粘性末端均为AAAA。

(7)将所得的表达gRNA序列的质粒pAAV2_Cas12-hU6-sgRNA_ITR采用脂质体方式分别转染至含有靶序列(GGATATGTTGAAGAACACCATGAC)的GFP报告系统HEK293T细胞系文库中。

所述含有靶序列的GFP报告系统HEK293T细胞系文库是通过下述方式获得的：在起始密码子ATG和GFP编码序列之间插入5bp随机序列(作为PAM序列)和24bp的protospacer(作为靶序列)，造成GFP移码突变而不表达。用CMV启动子启动这个含有插入片段的GFP基因，并构建在慢病毒表达载体上。这段序列由慢病毒介导随机插入到HEK293T细胞的基因组中，使之成为稳定的GFP报告细胞系文库。当使用基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光，通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。

上述转染过程包括如下步骤：

第0天，根据转染所需，将含有靶序列的GFP报告系统HEK293T细胞系文库在6孔板进行铺板，细胞密度控制在30％。

该含有靶序列的GFP报告系统HEK293T细胞系文库中包含CMV-ATG-PAM-targetsite-GFP的核苷酸序列，其中，其中PAM序列为5bp随机序列，靶位点(target site)的序列为GGATATGTTGAAGAACACCATGAC(图15)。

第1天，进行转染，转染过程如下：

分别取2μg待转染质粒pAAV2_Cas12-hU6-sgRNA_ITR加入至100μL Opti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将

将经稀释的质粒和经稀释的转染试剂进行混合，轻轻吹打混匀，得到的混合液室温静置20min，然后加入到含有靶序列的GFP报告系统HEK293T细胞系文库的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养。

然后，在荧光显微镜下观察各CRISPR/Cas12系统对HEK293T细胞系文库中的靶基因进行编辑的情况，结果示于图16。从该图中可以看出，只有CRISPR/Cas12J-8系统组别文库细胞出绿色荧光，这表明该系统成功地对细胞中的靶基因进行了编辑。但是，其他的任何CRISPR/Cas12J基因编辑系统组别文库细胞均没有发出任何荧光，表明这些系统不能够对靶基因进行有效编辑。

Claims

1.一种缀合物，所述缀合物包含：

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白，

或者为

2)具有SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ IDNO:6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)修饰部分；

例如，所述修饰部分选自另外的蛋白或多肽、可检测标记或其组合；

例如，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种；

以及

c)任选的用于连接所述Cas12蛋白与所述修饰部分的接头。

2.一种融合蛋白，所述融合蛋白包含：

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQID NO:6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)另外的蛋白或多肽；

以及

c)任选的用于连接所述Cas12蛋白与所述另外的蛋白或多肽的接头；

例如，所述接头为长度为1-50个氨基酸的接头；

优选地，所述融合蛋白包含：具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、腺嘌呤脱氨酶(ABE)、以及任选的连接所述Cas12J-8蛋白和所述腺嘌呤脱氨酶(ABE)的接头；

优选地，所述融合蛋白从其N端到C端依次为所述腺嘌呤脱氨酶(ABE)、所述接头、以及所述Cas12J-8蛋白；

更优选地，所述融合蛋白的氨基酸序列为SEQ ID NO:7所示。

3.一种单链向导RNA，其包含CRISPR重复序列，所述CRISPR重复序列具有：

a)针对Cas12J-8蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:15所示的核酸序列，

针对Mb4Cas12a蛋白、MlCas12a蛋白和MoCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:16所示的核酸序列，

针对BgCas12a蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:17所示的核酸序列，或

针对ChCas12b蛋白、其同源物、缀合物或融合蛋白的SEQ ID NO:18所示的核酸序列；

或者

b)与SEQ ID NO:15至SEQ ID NO:18中任一个所示的核酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％或者至少100％的序列同一性且保留其生物学活性的核酸序列；或者

c)基于SEQ ID NO:15至SEQ ID NO:18中任一个所述的核酸序列改造得到的且保留其生物学活性的核酸序列，

例如，所述改造为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种，

例如，所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。

4.根据权利要求3所述的单链向导RNA，其中，所述单链向导RNA在所述CRISPR重复序列的3’端进一步包括CRISPR间隔序列，所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选24个核苷酸)且能够与靶序列互补配对的序列。

5.一种分离的核酸分子，所述分离的核酸分子包含编码以下的核酸序列：

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

b)权利要求1所述的缀合物；或者

c)权利要求2所述的融合蛋白；

例如，所述分离的核酸分子包含SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ IDNO:11、SEQ ID NO:12、SEQ ID NO:13中任一个所示的核酸序列或其简并序列；

例如，所述分离的核酸分子包含编码SEQ ID NO:7所示融合蛋白的核酸序列；

优选地，所述分离的核酸分子包含SEQ ID NO:14所示的核酸序列或其简并序列。

6.根据权利要求5所述的分离的核酸分子，其中所述分离的核酸分子还包含编码权利要求3至4中任一项所述的与所述Cas12蛋白对应的单链向导RNA的核酸序列；

例如，所述分离的核酸分子包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列，例如SEQID NO:8、或SEQ ID NO:14所示的核酸序列，并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:19所示的核酸序列；

例如，所述分离的核酸分子包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列，并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:20所示的核酸序列；

例如，所述分离的核酸分子包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:12所示的核酸序列，并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:21所示的核酸序列；

例如，所述分离的核酸分子包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:13所示的核酸序列，并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:22所示的核酸序列。

7.一种分离的核酸分子，所述分离的核酸分子包含编码权利要求3至4中任一项所述的单链向导RNA的核酸序列；

例如，所述分离的核酸分子包含SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、和SEQID NO:22中任一个所示的核酸序列或其简并序列，并且优选地还包含编码CRISPR间隔序列的核酸序列。

8.一种载体，所述载体包含编码以下的核酸序列：

a)Cas12蛋白，所述Cas12蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

b)权利要求1所述的缀合物；或者

c)权利要求2所述的融合蛋白；

例如，所述载体包含SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13中任一个所示的核酸序列或其简并序列；

例如，所述载体包含编码SEQ ID NO:7所示融合蛋白的核酸序列；

优选地，所述载体包含SEQ ID NO:14所示的核酸序列或其简并序列；

例如，所述载体为质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

9.根据权利要求8所述的载体，其中，所述载体进一步包含编码权利要求3至4中任一项所述的与所述Cas12蛋白对应的单链向导RNA的核酸序列；

例如，所述载体包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列，例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列，并且包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:19所示的核酸序列；

例如，所述载体包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列，并且包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:20所示的核酸序列；

例如，所述载体包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:12所示的核酸序列，并且包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:21所示的核酸序列；

例如，所述载体包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列，例如SEQ ID NO:13所示的核酸序列，并且包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列，例如SEQ ID NO:22所示的核酸序列。

10.一种载体，所述载体包含编码权利要求3至4中任一项所述的单链向导RNA的核酸序列；

例如，所述载体包含SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21和SEQ ID NO:22中任一个所示的核酸序列或其简并序列，并且优选地还包含编码CRISPR间隔序列的核酸序列。

11.一种CRISPR/Cas12基因编辑系统，其包含：

a)蛋白组分，其包含：

1)Cas12蛋白，所述Cas12蛋白为：

1.1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQ ID NO:6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)权利要求1所述的缀合物，或者

3)权利要求2所述的融合蛋白；以及

b)核酸组分，其包含：权利要求3至4中任一项所述的与a)中的蛋白组分对应的单链向导RNA；

并且，所述蛋白组分和所述核酸组分相互结合形成复合物；

例如，所述蛋白组分包含具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ IDNO:15所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，所述蛋白组分包含具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ ID NO:16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，所述蛋白组分包含具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ IDNO:17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，所述蛋白组分包含具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白，所述核酸组分包含单链向导RNA，所述单链向导RNA为包含SEQ IDNO:18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA。

12.一种细胞，所述细胞包含：权利要求5至7中任一项所述的分离的核酸分子、或者权利要求8至10中任一项所述的载体；

例如，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

13.一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触：

(1)Cas12蛋白、根据权利要求1所述的缀合物或者根据权利要求2所述的融合蛋白，和根据权利要求3至4中任一项所述的与所述Cas12蛋白对应的单链向导RNA，

其中，所述Cas12蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

例如，具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90％序列同一性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ IDNO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、它们的缀合物或融合蛋白的核酸序列，以及包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA；

(2)根据权利要求8所述的载体和根据权利要求10所述的载体；

例如，包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)的核酸序列(例如SEQ ID NO:8或SEQ IDNO:14所示的核酸序列)的载体，以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:19所示的核酸序列)的载体；

例如，包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列)的载体，以及包含编码针对该Mb4Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:20所示的核酸序列)的载体；

例如，包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:12所示的核酸序列)的载体，以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:21所示的核酸序列)的载体；

例如，包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:13所示的核酸序列)的载体，以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:22所示的核酸序列)的载体；

(3)根据权利要求9所述的载体；以及

(4)根据权利要求11所述的CRISPR/Cas12基因编辑系统；

其中，在与靶序列接触后，所述Cas12蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM)，所述PAM位于靶序列的5’端，并且，对于所述Cas12J-8蛋白、所述Mb4Cas12a蛋白、所述MlCas12a蛋白、所述MoCas12a蛋白、所述BgCas12a蛋白、和所述ChCas12b蛋白、或它们各自的同源物、缀合物或融合蛋白，所述PAM分别为5’-TTN、5’-YYN、5’-YYN、5’-YYN、5’-YYN和5’-TTN；

例如，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞；

例如，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种，例如，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

14.根据权利要求13所述的方法，其中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对的结构；

例如，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配的结构。

15.一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下1)至6)中的任一项：

1)Cas12蛋白、根据权利要求1所述的缀合物、或者根据权利要求2所述的融合蛋白，和根据权利要求3至4中任一项所述的与所述Cas12蛋白对应的单链向导RNA，

其中，所述Cas12蛋白为：

a)具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白，

具有SEQ ID NO:2所示氨基酸序列的Mb4Cas12a蛋白，

具有SEQ ID NO:3所示氨基酸序列的MlCas12a蛋白，

具有SEQ ID NO:4所示氨基酸序列的MoCas12a蛋白，

具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白，

或

具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白,

或者为

b)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5和SEQID NO:6中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

例如，具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白，以及包含SEQ ID NO:15所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其具有与SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ ID NO:16所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其具有与SEQ ID NO:5具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ IDNO:17所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA；

例如，具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其具有与SEQ ID NO:6具有至少80％序列同一性的氨基酸序列的同源物、它们的缀合物或融合蛋白，以及包含SEQ IDNO:18所示CRISPR重复序列的单链向导RNA、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列的单链向导RNA、或者包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA；

2)根据权利要求5所述的分离的核酸分子和根据权利要求7所述的分离的核酸分子；

例如，包含编码具有SEQ ID NO:1所示氨基酸序列的Cas12J-8蛋白、其同源物、缀合物或融合蛋白(例如SEQ ID NO:7所示的融合蛋白)核酸序列(例如SEQ ID NO:8或SEQ ID NO:14所示的核酸序列)的分离的核酸分子，以及包含编码针对该Cas12J-8蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:15所示CRISPR重复序列、包含与SEQ ID NO:15具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:15改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:19所示的核酸序列)的分离的核酸分子；

例如，包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(SEQ ID NO:9、SEQ ID NO:10或SEQID NO:11所示的核酸序列)的分离的核酸分子，以及包含包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:20所示的核酸序列)的分离的核酸分子；

例如，包含编码具有SEQ ID NO:5所示氨基酸序列的BgCas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:12所示的核酸序列)的分离的核酸分子，以及包含编码针对该BgCas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:17所示CRISPR重复序列、包含与SEQ ID NO:17具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:17改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:21所示的核酸序列)的分离的核酸分子；

例如，包含编码具有SEQ ID NO:6所示氨基酸序列的ChCas12b蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:13所示的核酸序列)的分离的核酸分子，以及包含编码针对该ChCas12b蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:18所示CRISPR重复序列、包含与SEQ ID NO:18具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:18改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:22所示的核酸序列)的分离的核酸分子；

3)根据权利要求6所述的分离的核酸分子；

4)根据权利要求8所述的载体和根据权利要求10所述的载体；

例如，包含编码具有SEQ ID NO:2、SEQ ID NO:3或SEQ ID NO:4所示氨基酸序列的Cas12a蛋白、其同源物、缀合物或融合蛋白的核酸序列(例如SEQ ID NO:9、SEQ ID NO:10或SEQ ID NO:11所示的核酸序列)的载体，以及包含编码针对该Cas12a蛋白、其同源物、缀合物或融合蛋白的包含SEQ ID NO:16所示CRISPR重复序列、包含与SEQ ID NO:16具有至少90％序列同一性且保留其生物学活性的同源序列、或包含基于SEQ ID NO:16改造得到的且保留其生物学活性的改造序列的单链向导RNA的核酸序列(例如SEQ ID NO:20所示的核酸序列)的载体；

5)根据权利要求9所述的载体；或者

6)根据权利要求11所述的CRISPR/Cas12基因编辑系统；

以及

a.如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。