CN113583999A

CN113583999A - Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用

Info

Publication number: CN113583999A
Application number: CN202110765655.8A
Authority: CN
Inventors: 王永明; 王帅; 高思琪; 王瑶
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2021-07-06
Filing date: 2021-07-06
Publication date: 2021-11-02
Anticipated expiration: 2041-07-06
Also published as: CN118652869A; CN118325867A; CN113583999B

Abstract

本发明属于基因编辑技术领域，具体涉及一种CRISPR/Cas9基因编辑系统以及其应用。本发明基因编辑系统为特定Cas9蛋白与sgRNA形成的复合体，能精确定位靶向DNA序列并产生切割，使所述靶序列发生双链断裂损伤；所述基因编辑为在细胞中或体外进行基因编辑。所述各Cas9蛋白均具有数量相对少的氨基酸，可与相同的sgRNA形成复合体进行基因编辑。进一步地，所述Sa‑SchCas9蛋白和SchCas9蛋白识别的PAM序列非常简单，所述Sha2Cas9‑HF1蛋白、Sha2Cas9‑HF2蛋白、SpeCas9‑HF1蛋白、SpeCas9‑HF2蛋白和SpeCas9‑HF3蛋白特异性非常高且编辑效率很高。本发明在基因编辑领域中具有广泛的应用前景。

Description

Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用

技术领域

本申请属于基因编辑技术领域，具体涉及Cas9蛋白、含有该Cas9蛋白的基因编辑系统及其相关应用。

背景技术

CRISPR/Cas9系统是细菌和古细菌为抵御外源病毒或质粒入侵而进化的一种获得性免疫系统。CRISPR/Cas9系统含有tracrRNA(trans-activating RNA)和crRNA(CRISPR-derived RNA)，它们和Cas9共同形成复合物发挥功能。tracrRNA和crRNA通过连接序列可以融合成为单链单链向导RNA(single guide RNA，sgRNA)。当DNA发生断裂损伤后，细胞内的两种主要DNA损伤修复机制负责修复：非同源末端连接(Non-homologous end-joining，NHEJ)和同源重组(homologous recombination，HR)。NHEJ修复的结果会引起碱基的缺失或插入，可以进行基因敲除；在提供同源模板的情况下，利用HR修复可以进行基因的定点插入和碱基的精确替换。

除了基础科研外，CRISPR/Cas9基因编辑系统还具有广泛的临床应用前景。利用CRISPR/Cas9基因编辑系统做基因治疗时，需要把Cas和单链向导RNA导入到体内。目前做基因治疗最有效的表达载体是腺相关病毒(AAV)。但是AAV病毒包装的DNA一般不超过4.5kb。SpCas9因为PAM序列简单(识别NGG)和活性高而得到广泛应用。但是SpCas9蛋白有1368个氨基酸，加上sgRNA和启动子，无法有效地包装到AAV病毒中，限制了其在临床中的应用。为了克服这个问题，几个分子量小的Cas9被发明出来，包括SaCas9(PAM序列为NNGRRT)；StlCas9(PAM序列为NNAGAW)；NmCas9(PAM序列为NNNNGATT)；Nme2Cas9(PAM序列为NNNNCC)；CjCas9(PAM序列为NNNNRYAC)。但是这些Cas9或者容易脱靶(即非靶向位点切割)，或者PAM序列复杂，或者编辑活性低，难以广泛应用。

因此，寻找编辑活性高、特异性高、PAM序列简单的小型CRISPR/Cas系统是解决上述问题的希望所在。

发明内容

针对上述问题，本发明人进行了反复研究，发现一系列的同源Cas9蛋白，它们都能与同一单链向导RNA构成有效地进行基因编辑的CRISPR/Cas9基因编辑系统，由此完成了本发明。

因此，在第一方面，本发明提供了一种Cas9蛋白，所述Cas蛋白为具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白、或者分别具有SEQ ID NO：7至SEQ ID NO：12所示氨基酸序列的Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白，或者具有与SEQ ID NO：1、以及SEQ ID NO：7至SEQ IDNO：12中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列。

在第二方面，本发明提供了一种缀合物，所述缀合物包含：

a)Cas9蛋白，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；以及

b)修饰部分。

在第三方面，本发明提供了一种融合蛋白，所述融合蛋白包含：

a)Cas9蛋白，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HFl蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

b)另外的蛋白或多肽；以及

c)任选的用于连接所述Cas9蛋白或其同源物与所述另外的蛋白或多肽的接头。

在第四方面，本发明提供了一种单链向导RNA，所述单链向导RNA包含支架序列，所述支架序列具有SEQ ID NO：47所示的核酸序列，或者具有与SEQ ID NO：47所示的核酸序列至少90％序列同一性且保留其生物学活性的核酸序列，或者具有基于SEQ ID NO：47中任一项所述的核酸序列改造得到的保留其生物学活性的核酸序列。

在第五方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子包含编码以下的核酸序列：

a)Cas9蛋白，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

b)本发明第二方面的缀合物；或者

c)本发明第三方面的融合蛋白。

在第六方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子包含编码本发明第四方面的单链向导RNA的核酸序列。

在第七方面，本发明提供了一种载体，所述载体包含编码以下的核酸序列：

a)Cas9蛋白，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列：

b)本发明第二方面的缀合物；或者

c)本发明第二方面的融合蛋白。

在第八方面，本发明提供了一种载体，所述载体包含编码本发明第四方面的单链向导RNA的核酸序列。

在第九方面，本发明提供了一种CRISPR/Cas9基因编辑系统，其包含：

a)蛋白组分，其包含：

1)Cas9蛋白，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列；

2)本发明第二方面的缀合物；或者

3)本发明第三方面的融合蛋白；

b)核酸组分，其包含：

本发明第四方面的单链向导RNA。

在第十方面，本发明提供了一种细胞，所述细胞包含：本发明第五方面的分离的核酸分子、或者本发明第七方面的载体。

在第十一方面，本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使Cas9蛋白、本发明第二方面的缀合物或本发明第三方面的融合蛋白与本发明第四方面的单链向导RNA、使本发明第七方面和第八方面的载体、或使本发明第九方面的CRISPR/Cas9基因编辑系统与细胞内或体外环境中的靶序列相接触，其中，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQ IDNO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQ IDNO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列，所述靶序列位于原间隔邻近序列(PAM)的5’端，并且，对于所述Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白、或Swa2Cas9蛋白、或者它们各自的同源物、缀合物或融合蛋白，所述PAM分别具有序列5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG。

在第十二方面，本发明提供了一种试剂盒，所述试剂盒包括：Cas9蛋白、本发明第二方面的缀合物或本发明第三方面的融合蛋白与本发明第四方面的单链向导RNA，本发明第五方面和第六方面的分离的核酸分子，本发明第七方面和第八方面的载体，或者本发明第九方面的CRISPR/Cas9基因编辑系统；以及如何对细胞内或体外环境中的靶序列进行基因编辑的说明书；其中，所述Cas9蛋白为分别具有SEQ ID NO：1至SEQ ID NO：23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白，或者为具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ IDNO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ IDNO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ IDNO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％序列同一性并且保留其生物学活性的氨基酸序列。

本课题组开发了可在真核细胞环境进行基因编辑的各Cas9蛋白，这些蛋白均具有数量相对少的氨基酸，可与相同的sgRNA形成复合体进行基因编辑。

进一步地，Sa-SchCas9、SsiCas9、SroCas9、MflCas9和SchCas9基因编辑工具识别非常简单的NNGR PAM，且Sa-SchCas9和SchCas9具有较高的编辑效率和特异性，而且蛋白分子量小，因而可轻易被腺相关病毒等载体工具包装，非常适合后期作为基因治疗工具的开发。

此外，Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、Sha2Cas9-R247A蛋白、SmiCas9蛋白、Sha2Cas9蛋白和SpeCas9蛋白识别较为简单的NNGG PAM，具有较高的编辑效率，且Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白特异性非常高。

Sha3Cas9蛋白、Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRCPAM，且Sha3Cas9具有较高的编辑效率；Swa2Cas9蛋白和SwaCas9蛋白识别NNGG PAM；Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM；SdeCas9蛋白、MscCas9蛋白、SlcCas9蛋白和Slc2Cas9蛋白分别识别NNGRRT、NNGRR、NNGRRR和NNGA PAM。

本发明拓展了基因编辑范围，在基因编辑领域中具有广泛的应用前景。

附图说明

图1示出CRISPR/Sa-SchCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图2示出CRISPR/SchCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图3示出CRISPR/Sha3Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图4示出CRISPR/SmiCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图5示出CRISPR/Sha2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图6示出CRISPR/SpeCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图7示出CRISPR/Sha2Cas9-HF1基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图8示出CRISPR/Sha2Cas9-HF2基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图9示出CRISPR/Sha2Cas9-R247A基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图10示出CRISPR/SpeCas9-HF1基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图11示出CRISPR/SpeCas9-HF2基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图12示出CRISPR/SpeCas9-HF3基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图13示出SdeCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图14示出SwaCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图15示出MscCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图16示出SsiCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图17示出Slc2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图18示出Slc3Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图19示出Sch2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图20示出SroCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图21示出MflCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图22示出Swa2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图；

图23示出CRISPR/Sa-SchCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图24示出CRISPR/SchCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图25示出CRISPR/Sha3Cas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图26示出CRISPR/SmiCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图27示出CRISPR/Sha2Cas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图28示出CRISPR/SpeCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图29示出CRISPR/Sha2Cas9-HF1基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图30示出CRISPR/Sha2Cas9-HF2基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图31示出CRISPR/Sha2Cas9-R247A基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图32示出CRISPR/SpeCas9-HF1基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图33示出CRISPR/SpeCas9-HF2基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图；

图34示出CRISPR/SpeCas9-HF3基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图。

具体实施方式

下面将进一步对本发明进行详细的描述。应理解，上文的发明内容部分以及下文的详细描述仅为具体阐释本发明之目的，无意于以任何方式对本发明进行限制。本发明的保护范围由随附的权利要求书确定。在不背离本发明的精神和主旨的情况下，本领域技术人与可以对各具体实施方式进行更改。

定义

除非另有说明，否则本申请中使用的科学和技术名词具有本领域技术人员所通常理解的含义。为了更好地理解本发明，下面提供相关术语的定义和解释。

本文中使用的术语“Cas9蛋白”、“Cas9”和“Cas”在本申请中可互换使用，指包括Cas9蛋白或其功能活性片段在内的RNA指导的核酸酶。Cas9蛋白是CRISPR/Cas9基因组编辑系统的蛋白组分，能在单链向导RNA(gRNA)的指导下靶向并切割DNA靶序列，形成DNA双链断裂(DSB)。DNA双链断裂能够激活细胞内固有的修复机制非同源末端连接(non-homologousendjoining，NHEJ)和同源重组(homologous recombination，HR)，由此对细胞中的DNA损伤进行修复。在修复过程中，对该特定的DNA序列进行定点编辑。

本文中使用的术语“单链向导RNA(guide RNA)”、“gRNA”、“sgRNA(single guidedRNA)”或“成熟crRNA”在本申请中可互换使用并且具有本领域技术人员通常理解的含义。一般而言，单链向导RNA可以包含支架序列(scaffold sequence)和向导序列(guidesequence)，向导序列在本文中也称为向导RNA(guide RNA或gRNA)。在内源性CRISPR系统背景下，向导序列也称为间隔序列(spacer)。在某些情况下，向导序列是与靶序列具有足够相似性从而与所述靶序列杂交并引导CRISPR/Cas9复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中，当最佳比对时，向导序列与其相应靶序列之间的互补程度为至少50％、至少60％、至少70％、至少80％、至少90％、至少95％、或至少99％。确定最佳比对在本领域的普通技术人员的能力范围内。例如，存在公开和可商购的比对算法和程序，诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。本文中所使用的术语“CRISPR/Cas9复合物”是指单链向导RNA(single guide RNA)或成熟crRNA与Cas9蛋白结合所形成的复合体，其包含与靶序列杂交并由此使Cas9蛋白与所述靶序列结合的向导序列。该复合体能够识别并切割能与该单链向导RNA或成熟crRNA杂交的多核苷酸。

因此，在形成CRISPR/Cas9复合物的情况下，“靶序列”是指被设计为具有靶向性的向导序列所靶向的多核苷酸，例如与该向导序列具有互补性的序列，其中靶序列与向导序列之间的杂交将促进CRISPR/Cas9复合物的形成。完全互补性不是必需的，只要存在足够互补性以引起杂交并且促进CRISPR/Cas复合物的形成即可。靶序列可以包括任何多核苷酸，如DNA或RNA。在某些情况下，所述靶序列位于细胞的细胞核或细胞质中。在某些情况下，该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。

在本文中使用的术语“靶序列”或“靶多核苷酸”可以是对细胞(例如，真核细胞)而言任何内源或外源的多核苷酸。例如，该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如，蛋白质)的序列或一个非编码序列(例如，调节多核苷酸或无用DNA)。在某些情况下，该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求根据使用的Cas蛋白而不同，但是PAM典型地是临近原间隔序列(靶序列)的2-5个碱基序列。本领域技术人员能够鉴定与给定的Cas蛋白一起使用的PAM序列。

本文中使用的术语“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“I”表示肌苷，并且“N”表示任何核苷酸。

本文中使用的术语“多肽”、“肽”、和“蛋白(质)”在本申请中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，并且适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

本文中使用的术语序列“同一性”或者“同源性”具有本领域公认的含义，并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列同一性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列同一性。(参见，例如ComputationalMolecular Biology，Lesk，A.M.，ed.，Oxford University Press，New York，1988；Biocomputing：Informatics and Genome Projects，Smith，D.W.，ed.，Academic Press，New York，1993；Computer Analysis of Sequence Data，Part I，Griffin，A.M.，andGriffin，H.G.，eds.，Humana Press，New Jersey，1994；Sequence Analysis in MolecularBiology，von Heinje，G.，Academic Press，1987；and Sequence Analysis Primer，Gribskov，M.and Devereux，J.，eds.，M Stockton Press，New York，1991)。虽然存在许多测量两个多核苷酸或多肽之间的同一性的方法，但是术语“同一性”是技术人员公知的在肽或蛋白中适合于保守型氨基酸置换的，并且一般可以进行而不改变所得分子的生物活性。通常，本领域技术人员认识到多肽的非必需区中的单个氨基酸置换基本上不改变生物活性(参见例如Watson et al.，Molecular Biology of the Gene，4th Edition，1987，TheBenjamin/Cummings Pub.co.，p.224)。

本文中所使用的术语“载体”是指可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时，或者当载体能使得插入的多核苷酸发生转录(例如转录生成mRNA或功能RNA)时，载体称为表达载体。载体可以通过转化、转导或者转染而被导入宿主细胞，使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的，包括但不限于：质粒载体、病毒载体等。载体还可以含有多种调控表达的调控序列。“调控序列”和“调控元件”在本文中可互换使用，指位于编码序列的上游(5′非编码序列)、中间或下游(3′非编码序列)、并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可以包括但不限于启动子序列、转录起始序列、增强子序列、选择元件及报告基因等。所述调控序列可以是不同来源的，也可以是相同来源但以不同于通常天然存在的方式排列的。另外，载体还可含有复制起始位点。

本文中使用的术语“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

本文中使用的术语“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用，并且指主要但非必须专一地在一种组织或器官中表达，而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。

本文中使用的术语“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。

本文中使用的术语“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

本文中使用的术语“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如，沃森-克里克碱基配对)的残基的百分比(例如，10个之中有5、6、7、8、9、10个互补，则互补百分比为50％、60％、70％、80％、90％和100％)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％的互补程度，或者是指在严格条件下杂交的两个核酸。

本文中使用的与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的，并且取决于许多因素。一般而言，该序列越长，则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques in Biochemistryand Molecular Biology-Hybridization With Nucleic Acid Probes)，第I部分，第二章，“杂交原理概述和核酸探针分析策略”(“Overview of principles of hybridizationandthe strategy of nucleic acid probe assay”)，爱思唯尔(Elsevier)，纽约。

本文中使用的术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应，该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。

Cas9蛋白

因此，在第一方面，本发明提供了一种Cas9蛋白，所述Cas9蛋白为：

a)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，或

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

或者为

b)具有与SEQ ID NO：1、以及SEQ ID NO：7至SEQ ID NO：12中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。

在本发明中，所谓Cas9蛋白的“生物学活性”是指该蛋白与单链向导RNA结合的活性、核酸内切酶活性(包括单链切割活性和双链切割活性)、和/或在向导RNA(gRNA)引导下与靶序列特定位点结合并切割的活性，但不限于此。

衍生化蛋白

可以对Cas9蛋白进行衍生化，例如将其连接至另外的分子(例如另外的蛋白或多肽)。通常，蛋白的衍生化(例如标记)不会不利影响该蛋白的期望活性(例如，起与单链向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)。因此，本发明的Cas9蛋白还意欲包括此类衍生化的形式。例如，可以将本发明的Cas9蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子部分，例如另外的蛋白或多肽、可检测标记、药用试剂等。

特别地，可以将Cas9蛋白连接其他功能性单元。例如，可以将其与核定位信号(NLS)序列连接，以提高本发明的蛋白进入细胞核的能力。例如，可以将其与靶向部分连接，以使得本发明的Cas9蛋白具有靶向性。例如，可以将其与可检测标记连接，以便于对本发明的Cas9蛋白进行检测。例如，可以将其与表位标签连接，以便于对本发明的Cas9蛋白的表达、检测、示踪和/或纯化。

因此，在第二方面，本发明提供了一种缀合物，所述缀合物包含：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。

b)修饰部分；以及

c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头。

可以理解，除了Cas9蛋白自身外，还可以使Cas9蛋白与其他物质例如其他蛋白或者可标记标签等结合从而赋予其他的功能性。

因此，在一个实施方案中，所述修饰部分可以为另外的蛋白或多肽、可检测标记或其组合。

在一个进一步的实施方案中，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。

报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

可检测标记是本领域技术人员熟知的，其实例包括荧光染料，例如异硫氰酸荧光素(FITC)或DAPI。

本发明的Cas9蛋白可以通过接头与所述修饰部分偶联、缀合或融合，也可以不通过接头而直接地与所述修饰部分连接。接头是本领域熟知的，其实例可以包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

a)另外的蛋白或多肽、以及

b)任选的用于连接所述Cas9蛋白与所述另外的蛋白或多肽的接头。

同本发明第二方面一样，所述另外的蛋白或多肽可以选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。

表位标签是本领域技术人员熟知的，其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等，并且本领域技术人员已知如何根据期望目的(例如，纯化、检测或示踪)选择合适的表位标签。报告蛋白是本领域技术人员熟知的，其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。

本发明的Cas9蛋白可以通过接头与所述另外的蛋白或多肽偶联、缀合或融合，也可以不通过接头而直接地与所述另外的蛋白或多肽连接。接头是本领域熟知的，其实例包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。

进一步地，Sa-SchCas9、SsiCas9、SroCas9、MflCas9和SchCas9基因编辑工具识别非常简单的NNGR PAM，且Sa-SchCas9和SchCas9具有较高的编辑效率和特异性，而且蛋白分子量小可轻易被腺相关病毒等载体工具包装，非常适合后期作为基因治疗工具的开发。

Sha3Cas9蛋白、Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM，且Sha3Cas9具有较高的编辑效率；Swa2Cas9蛋白和SwaCas9蛋白识别NNGG PAM；Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM；SdeCas9蛋白、MscCas9蛋白、SlcCas9蛋白和Slc2Cas9蛋白分别识别NNGRRT、NNGRR、NNGRRR和NNGA PAM。

单链向导RNA

在第四方面，本发明提供了一种单链向导RNA，所述单链向导RNA包括支架序列，所述支架序列具有：

a)SEQ ID NO：47所示的核酸序列；

或者

b)与SEQ ID NO：47中所示的核酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％或者至少100％的序列同一性且保留其生物学活性的核酸序列；或者

c)基于SEQ ID NO：47中所述的核酸序列改造得到的且保留其生物学活性的核酸序列。

在一个实施方案中，所述改造可以为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种。

在一个进一步的实施方案中，所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。

在又一个实施方案中，所述单链向导RNA可以在所述支架序列的5’端进一步包括CRISPR间隔序列，所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。

在一个优选的实施方案中，所述CRISPR间隔序列为长度为21个核苷酸且能够与靶序列互补配对的序列。

在一个进一步的实施方案中，所述单链向导RNA在所述间隔序列的3’端进一步包括终止子。作为示例，所述终止子可以为多个如至少六个(例如七个或者八个)U构成的终止子。

所述单链向导RNA能够与上述的Cas9蛋白、缀合物或者融合蛋白结合而形成复合物，该复合物可以识别相应的PAM并由此与靶序列结合，进而实现对靶序列的剪切或者说基因编辑。

编码核酸以及载体

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22和SEQ ID NO：23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)本发明第二方面的缀合物；或者

c)本发明第三方面的融合蛋白。

在一个进一步的实施方案中，所述分离的核酸分子还编码本发明第四方面的与所述Cas9蛋白对应的单链向导RNA。

在第六方面，本发明提供了一种分离的核酸分子，所述分离的核酸分子编码本发明第四方面的单链向导RNA。

在一个实施方案中，所述分离的核酸分子包含SEQ ID NO：48所示的核酸序列或其简并序列。

在一个优选的实施方案中，所述分离的核酸分子还包含编码CRISPR间隔序列的核酸序列。

在利用本领域已知的某些工具例如表达载体将本发明的分离的核酸分子转染到相应的细胞中后，本发明的分离的核酸分子可以表达出本发明上文所述的Cas9蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能，例如进行基因编辑。

另外，本发明的分离的核酸分子可以单独地/分别地表达Cas9蛋白、其缀合物或融合蛋白、以及单链向导RNA，也可以一体地表达所述的表达产物，选择何种表达方式根据具体情况而定。

再者，所述表达产物具有上文记载的相应作用和/或功能，为简洁起见在此不再赘述。

在第七方面，本发明提供了一种载体，其包含编码以下的核酸序列：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22、SEQ ID NO：23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)本发明第二方面的缀合物；或者

c)本发明第三方面的融合蛋白。

在一个实施方案中，所述载体包含SEQ ID NO：24、SEQ ID NO：25、SEQ ID NO：26、SEQ ID NO：27、SEQ ID NO：28、SEQ ID NO：29、SEQ ID NO：30、SEQ ID NO：31、SEQ ID NO：32、SEQ ID NO：33、SEQ ID NO：34、SEQ ID NO：35、SEQ ID NO：36、SEQ ID NO：37、SEQ IDNO：38、SEQ ID NO：39、SEQ ID NO：40、SEQ ID NO：41、SEQ ID NO：42、SEQ ID NO：43、SEQ IDNO：44、SEQ ID NO：45和SEQ ID NO：46中任一个所示的核酸序列或其简并序列。

所述载体可以为表达载体，例如质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

在又一个实施方案中，所述载体进一步包含编码本发明第四方面的与所述Cas9蛋白对应的单链向导RNA的核酸序列。

在第八方面，本发明提供了一种载体，所述载体包含编码本发明第四方面的单链向导RNA的核酸分子。

在一个实施方案中，所述载体包含SEQ ID NO：48所示的核酸序列或其简并序列。

在一个优选的实施方案中，所述载体还包含编码CRISPR间隔序列的核酸序列。

根据上文的记载可知，在将本发明的载体转染到细胞中后，在载体中克隆的编码序列可以被表达为Cas9蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA，并在此行使相应的功能。例如进行基因编辑。

另外，可以将多种载体例如两种载体转染到细胞中，其中一种载体表达所述Cas9蛋白、其缀合物或融合蛋白，而另一种载体表达单链向导RNA。随后，表达出来的Cas9蛋白、其缀合物或融合蛋白与表达出来的单链向导RNA复合形成复合物，并在此行使相应的功能，例如进行基因编辑。

当然，也可以将编码所述Cas9蛋白、其缀合物或融合蛋白的核酸序列以及编码所述单链向导RNA的核酸序列克隆到一个载体中，使得该载体转染到细胞内后表达所述Cas9蛋白、其缀合物或融合蛋白以及所述单链向导RNA两者，并在此行使相应的功能，例如进行基因编辑。

CRISPR/Cas9基因编辑系统

a)蛋白组分，其包含：

1)Cas9蛋白，所述Cas9蛋白为：

1.1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

1.2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22和SEQ IDNO：23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)本发明第二方面的缀合物；或者

3)本发明第三方面的融合蛋白；以及

b)核酸组分，其包含：本发明第四方面的与a)中的蛋白组分对应的单链向导RNA；

并且，所述蛋白组分和所述核酸组分相互结合形成复合物。

本发明的CRISPR/Cas9基因编辑系统可以由本文所述的Cas9蛋白、其同源物、或者它们的缀合物或融合蛋白与本文所述的单链向导RNA直接地构成，也可以本文所述的载体表达得到的表达产物构成。

本发明的CRISPR/Cas9基因编辑系统通过其中包含的Cas9蛋白和单链向导RNA共同作用而实现对靶序列的识别、定位、切割和基因编辑。

本发明CRISPR/Cas9基因编辑系统能够精确定位靶序列。所谓“精确定位”有两层含义：第一层含义是指本发明的CRISPR/Cas9基因编辑系统自身能够识别并结合靶序列，第二层含义是指本发明的CRISPR/Cas9基因编辑系统能够将与所述Cas9蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至靶序列的位置。

本发明的CRISPR/Cas9基因编辑系统对非靶序列具有低容忍度。在本文中，所谓“具有低容忍度”是指本发明的CRISPR/Cas9基因编辑系统基本上不能或者完全不能识别并结合非靶序列，或基本上不能或者完全不能将与所述Cas9蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至非靶序列的位置。

本发明的CRISPR/Cas9基因编辑系统，由于其中含有的Cas9蛋白所识别的靶序列上的PAM序列更简单，由此可以靶向基因组中更多的DNA序列。

细胞

在第十方面，本发明提供了一种细胞，所述细胞包含：本发明第五发明和第六方面的分离的核酸分子、或者本发明第七方面和第八方面的载体。

作为一个示例，所述细胞可以为原核细胞或者真核细胞。对于所述真核细胞，作为示例，其可以为植物细胞或者动物细胞。对于所述动物细胞，作为示例，其可以为哺乳动物细胞例如人类细胞。

方法

在第十一方面，本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触：

(1)Cas9蛋白、本发明第二方面的缀合物或者本发明第三方面的融合蛋白，和本发明第四方面的与所述Cas12蛋白对应的单链向导RNA，

其中，所述Cas12蛋白为：

1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF 1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

(2)本发明第七方面和第八方面的载体；

(3)本发明第七方面的载体；以及

(4)本发明第九方面的CRISPR/Cas9基因编辑系统；

其中，在与靶序列接触后，所述Cas9蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM)，所述PAM位于靶序列的5’端，并且，对于所述Sa-SchCas9蛋白、所述SchCas9蛋白、所述Sha3Cas9蛋白、所述SmiCas9蛋白、所述Sha2Cas9蛋白、所述SpeCas9蛋白、所述Sha2Cas9-HF1蛋白、所述Sha2Cas9-HF2蛋白、所述Sha2Cas9-R247A蛋白、所述SpeCas9-HF1蛋白、所述SpeCas9-HF2蛋白、所述SpeCas9-HF3蛋白、所述SdeCas9蛋白、所述SwaCas9蛋白、所述MscCas9蛋白、所述SsiCas9蛋白、所述SlcCas9蛋白、所述Slc2Cas9蛋白、所述Slc3Cas9蛋白、所述Sch2Cas9蛋白、所述SroCas9蛋白、所述MflCas9蛋白、和所述Swa2Cas9蛋白、以及它们各自的同源物、缀合物或融合蛋白，所述PAM分别为5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG。

在一个实施方案中，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

在一个实施方案中，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种。

进一步地，在一个实施方案中，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

在一个实施方案中，在所述方法中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对的结构。

在本文中，所述不完全碱基互补配对结构是指其中包括一部分碱基互补配对和一部分非碱基互补配对的结构，所述非碱基互补配对包括例如碱基错配(mismatch)和/或碱基凸出(bulge)等。

在一个实施方案中，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配。

由此，本发明的Cas9蛋白可以对所述靶序列上的靶位点进行切割，并且在Cas9蛋白的切割作用下，靶序列发生双链断裂。进一步地，当所述方法在细胞内进行时，切割后的靶序列可以通过细胞内的非同源末端连接修复或同源重组修复途径进行修复，从而实现对靶序列的基因编辑。

本发明的CRISPR/Cas9基因编辑系统以及采用该基因编辑系统的基因编辑方法，经实验发现其能与相同的sgRNA形成复合体进行基因编辑，Sa-SchCas9、SchCas9、Sha3Cas9、SmiCas9、Sha2Cas9、SpeCas9、Sha2Cas9-HF1、Sha2Cas9-HF2、Sha2Cas9-R247A、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、SwaCas9、SsiCas9、Slc3Cas9和MflCas9具有12％-48％的编辑效率，SdeCas9、MscCas9、Slc2Cas9、Sch2Cas9、Swa2Cas9、SroCas9具有1％-10％的编辑效率。另外，对于Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统，其含mismatch向导RNA具有接近0％的容错率。因此，这些基因编辑系统可以高特异性地编辑靶基因，具有编辑效率高、脱靶率低的特点，可广泛应用于细胞中或者体外环境中的基因编辑。

试剂盒

在第十二方面，本发明提供了一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下1)至6)中的任一项：

1)Cas9蛋白或其同源物、本发明第二方面的缀合物、或者本发明第三方面的融合蛋白，和本发明第四方面的与所述Cas9蛋白对应的单链向导RNA；

其中，所述的Casl2蛋白为：

1.1)具有SEQ ID NO：1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO：2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO：3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO：4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO：5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO：6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO：7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO：8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO：9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO：10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO：11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO：12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO：13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO：14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO：15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO：16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO：17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO：18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO：19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO：20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO：21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO：22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO：23所示氨基酸序列的Swa2Cas9蛋白；

或者为

1.2)具有与SEQ ID NO：1、SEQ ID NO：2、SEQ ID NO：3、SEQ ID NO：4、SEQ ID NO：5、SEQ ID NO：6、SEQ ID NO：7、SEQ ID NO：8、SEQ ID NO：9、SEQ ID NO：10、SEQ ID NO：11、SEQ ID NO：12、SEQ ID NO：13、SEQ ID NO：14、SEQ ID NO：15、SEQ ID NO：16、SEQ ID NO：17、SEQ ID NO：18、SEQ ID NO：19、SEQ ID NO：20、SEQ ID NO：21、SEQ ID NO：22、SEQ IDNO：23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)本发明第五和第六方面的分离的核酸分子；

3)本发明第六方面的分离的核酸分子；

4)本发明第七和第八方面的载体；

5)本发明第七方面的载体；或者

6)本发明第九方面的CRISPR/Cas9基因编辑系统；

以及

b)如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。

当然，本领域技术人员可以理解，本发明试剂盒中还可以包含其他有助于进行基因编辑的试剂。

对本发明涉及序列的简单描述

SEQ ID NO：1：Sa-SchCas9蛋白序列

SEQ ID NO：2：SchCas9蛋白序列

SEQ ID NO：3：Sha3Cas9蛋白序列

SEQ ID NO：4：SmiCas9蛋白序列

SEQ ID NO：5：Sha2Cas9蛋白序列

SEQ ID NO：6：SpeCas9蛋白序列

SEQ ID NO：7：Sha2Cas9-HF1蛋白序列

SEQ ID NO：8：Sha2Cas9-HF2蛋白序列

SEQ ID NO：9：Sha2Cas9-R247A蛋白序列

SEQ ID NO：10：SpeCas9-HF1蛋白序列

SEQ ID NO：11：SpeCas9-HF2蛋白序列

SEQ ID NO：12：SpeCas9-HF3蛋白序列

SEQ ID NO：13：SdeCas9蛋白序列

SEQ ID NO：14：SwaCas9蛋白序列

SEQ ID NO：15：MscCas9蛋白序列

SEQ ID NO：16：SsiCas9蛋白序列

SEQ ID NO：17：SlcCas9蛋白序列

SEQ ID NO：18：Slc2Cas9蛋白序列

SEQ ID NO：19：Slc3Cas9蛋白序列

SEQ ID NO：20：Sch2Cas9蛋白序列

SEQ ID NO：21：SroCas9蛋白序列

SEQ ID NO：22：MflCas9蛋白序列

SEQ ID NO：23：Swa2Cas9蛋白序列

SEQ ID NO：24：Sa-SchCas9蛋白的编码序列

SEQ ID NO：25：SchCas9蛋白的编码序列

SEQ ID NO：26：Sha3Cas9蛋白的编码序列

SEQ ID NO：27：SmiCas9蛋白的编码序列

SEQ ID NO：28：Sha2Cas9蛋白的编码序列

SEQ ID NO：29：SpeCas9蛋白的编码序列

SEQ ID NO：30：Sha2Cas9-HF1蛋白的编码序列

SEQ ID NO：31：Sha2Cas9-HF2蛋白的编码序列

SEQ ID NO：32：Sha2Cas9-R247A蛋白的编码序列

SEQ ID NO：33：SpeCas9-HF1蛋白的编码序列

SEQ ID NO：34：SpeCas9-HF2蛋白的编码序列

SEQ ID NO：35：SpeCas9-HF3蛋白的编码序列

SEQ ID NO：36：SdeCas9蛋白的编码序列

SEQ ID NO：37：SwaCas9蛋白的编码序列

SEQ ID NO：38：MscCas9蛋白的编码序列

SEQ ID NO：39：SsiCas9蛋白的编码序列

SEQ ID NO：40：SlcCas9蛋白的编码序列

SEQ ID NO：41：Slc2Cas9蛋白的编码序列

SEQ ID NO：42：Slc3Cas9蛋白的编码序列

SEQ ID NO：43：Sch2Cas9蛋白的编码序列

SEQ ID NO：44：SroCas9蛋白的编码序列

SEQ ID NO：45：MflCas9蛋白的编码序列

SEQ ID NO：46：Swa2Cas9蛋白的编码序列

SEQ ID NO：47：与Cas9蛋白连用的支架序列

SEQ ID NO：48：与Cas9蛋白相关的单链向导RNA的支架序列的DNA序列

实施例

现参照下列意在举例说明而非限定本发明的实施例来描述本发明。本领域技术人员知晓，在此提供实施例仅出于详细描述本发明之目的，无意于限制本发明所要求保护的范围。

除非特别指明，否则基本按照本领域内熟知的以及在各参考文献中描述的常规方法进行实施例中描述的实验和方法。另外，对于实施例中未注明具体条件者，均按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者，均为可以通过市购获得的常规产品。

实施例1

(1)构建质粒pAAV2_Cas9_ITR

根据表1中列出的各Cas9蛋白的基因检索号，下载其氨基酸序列，其中Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的氨基酸序列分别如SEQ ID NO：1至SEQ ID NO：23所示。

表1.Cas9蛋白及其NCBI蛋白搜索ID和序列编号

将上述各Cas9蛋白的氨基酸序列进行密码子优化，获得所述Cas9蛋白在人细胞中高表达的基因序列。Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的经优化基因序列分别如SEQ ID NO：24至SEQID NO：46所示。

将上述获得的SEQ ID NO：24至SEQ ID NO：46所示的各Cas9蛋白高表达的基因序列进行基因合成，并构建至slugCas9骨架质粒(Addgene平台，catalog#163793)上，得到质粒pAAV2_Cas9_ITR。

(2)线性化质粒hU6-Sa_tracr的制备

用BsaI限制性内切酶将质粒hU6-Sa_tracr(Addgene平台，catalog#135973)进行酶切反应，该质粒中的支架序列为SEQ ID NO：48所示序列。酶切体系为：1μg质粒hU6-Sa_tracr、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BsaI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃过夜。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。所述DNA片段即为包含SaCas9RNA Scaffold线性化质粒hU6-Sa_tracr，其大小为3088bp。

将回收的线性化质粒hU6-Sa_tracr用NanoDrop^TM Lite分光光度计(ThermoScientific)测定DNA浓度，备用或置于-20℃进行长期保存。

(3)质粒hU6-Sa_sgRNA的制备

设计各gRNA，其序列示于如表2。在设计的各gRNA序列对用的正义链和反义链上分别加上线性化质粒hU6-Sa_tracr两侧对应的粘性末端序列，并合成两条寡核苷酸单链DNA，这两条寡核苷酸单链DNA的具体序列也示于下表。

将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为：1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序，退火程序为：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。退火后，将所得的产物通过DNA连接酶(购于NEB公司)连接至步骤(2)所得的线性化hU6-Sa_tracr质粒。

取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中，冰上孵育30min，42℃热激1min，冰上孵育2min，加入900μL LB培养基，于37℃培养1小时，以进行大肠杆菌DH5α感受态细胞的活化复苏。

将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养，得到的大肠杆菌DH5α单克隆进行Sanger测序验证。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即得到含有表达目标sgRNA序列的质粒hU6-Sa_sgRNA，备用。

(4)表达Cas蛋白的质粒pAAV2_Cas9_ITR和表达sgRNA的质粒hU6-Sa_sgRNA对HEK293T细胞系的转染

在第0天，根据转染所需，将含有靶序列的HEK293T细胞在24孔板进行铺板，细胞密度约30％左右。

第1天，进行转染，转染过程如下：

取500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_sgRNA混合加入至25μLOpti-MEM培养基(购于Gibco公司)中，轻轻吹打混匀。

将转染试剂脂质体

2000(购于Invitrogen公司)或聚乙烯亚胺(以下简称PEI，100μM)(购于polysciences公司)轻弹混匀，吸取1.6μL

2000或0.8μLPEI加入至25μLOpti-MEM培养基(购于Gibco公司)中，轻轻混匀，室温静置5min。

将稀释的转染试剂和稀释的质粒进行混合，轻轻吹打混匀，室温静置20min，然后加入到包含待转染细胞HEK293T细胞的培养基中，然后将细胞置于37℃、5％CO₂培养箱中继续培养3天。

(5)二代测序文库的制备

收集编辑三天后的HEK293T细胞，用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

进行PCR建库第一轮PCR，用2×Q5 Mastermix(购于NEB公司)进行PCR反应，PCR引物如下所示：

反应体系如下：

PCR运行程序如下：

进行测序建库第二轮PCR，用2xQ5 Master mix进行PCR反应，PCR引物如下所示：

F2引物：

R2引物：

反应体系如下：

PCR运行程序如下：

将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化356bp、385bp、336bp、344bp、406bp、406bp、325bp、282bp、381bp、414bp、381bp、388bp和416bp的DNA片段，它们分别是G10、D1、H2、CL9、G7、G8、G23、E8、G22、G4、E5、R13和M5位点的大小。由此，二代测序文库制备完毕。

(6)二代测序结果的分析

将制备好的二代测序文库在高通量测序仪HiseqXTen(Illumina)上进行双端测序。

二代测序计算得到对各自的靶位点的编辑效率如图1-12所示，其中X轴表示靶位点，Y轴表示编辑效率(Indels％)。从图1-12中可以看出，含有Sa-SchCas9、SchCas9、Sha3Cas9、SmiCas9、Sha2Cas9、SpeCas9、Sha2Cas9-HF1、Sha2Cas9-HF2、Sha2Cas9-R247A、SpeCas9-HF1、SpeCas9-HF2和SpeCas9-HF3蛋白的基因编辑系统均可以用于细胞基因编辑。

(7)T7E1酶切PCR产物的制备

收集上文(4)中的编辑三天后的HEK293T细胞，用DNA试剂盒(天根生化科技(北京)有限公司，DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。

进行PCR扩增靶位点，用2×Q5 Master mix进行PCR反应，PCR引物如下所示：

表4.T7E1酶切PCR引物列表

位点	F3引物	R3引物
			G7、G8	ATGGCTACCTGGACCACTCA	TAGTCCTCAGCACAAACCCTC
S17	TCCACTCTCTGGACATGCT	AGArGAGATCTGCGAGTGC
			H2	AAACCAGTGTCAGGGAGCTG	CTGGTGGTACTTGAATCAAGCACA
G25	ATGAGACCGACCCAAAGAGC	CAGCACCTTTCCCTCACTTTC
			CO5	AGGGTGGAAATGAGGGTTCA	TGTTTTGCAGGCATGTTGCTT
E14	TCCCCACGGATTCCATCATTC	CTCTGCTCCGGCCAGTTTTT
			E1	CTTCGTGAGTGGCTTCCCTG	CTTTCCTGGGAGGGAGACCT
E0	ACGCAGTGGGTCATAGGCTC	GGACTCAGGCCCTTCCTCCT
			G10	ACTTCACTCACTGCCTGTCA	GCACAAAGTGAGTGTGTGGG
G19	GGGGCTTTGAGAGTGTTCCC	AAGTCACTGCCCACCTACCT

反应体系如下：

PCR运行程序如下：

将PCR产物用胶回收试剂盒依据厂家提供的步骤，纯化779bp、779bp、455bp、491bp、677bp、482bp、639bp、440bp、509bp、701bp和628bp的DNA片段，它们分别是G7、G8、S17、H2、G25、CO5、E14、E1、E0、G10和G19位点的大小。由此，PCR产物制备完毕。

(8)T7EI酶切实验

取250ng PCR产物、2μL NEBuffer2(购于NEB公司)，补水至19.5μL，将该体系震荡混匀后，放置于PCR仪中运行退火程序；退火程序如下：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。向退火体系中添加0.5μL T7 Endonuclease I(购于NEB公司)，置于PCR仪中，37℃孵育30min。然后，将孵育产物在2％琼脂糖凝胶上以130V电压电泳30min。用凝胶成像仪(上海天能公司，1600)拍照，保存。

T7E I酶切得到对靶位点的编辑效率如图13-22所示，其中较大条带代表未编辑情况，箭头指示的小条带指示T7E I酶切消化产生的条带。从图13-22中可以看出，含有SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白、和Swa2Cas9蛋白的基因编辑系统均可以用于细胞基因编辑。

实施例2

(1)构建质粒pAAV2_Cas9_ITR

根据上文表1中列出的各Cas9蛋白的基因检索号，下载其氨基酸序列，其中Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的氨基酸序列分别如SEQ ID NO：1至SEQ ID NO：23所示。

将上述所得的Cas9蛋白的氨基酸序列进行密码子优化，获得所述Cas蛋白在人细胞中高表达的基因序列。Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的基因序列分别如SEQ ID NO：24至SEQ ID NO：46所示。

(3)线性化质粒hU6-Sa_tracr的制备

用BsaI限制性内切酶将质粒hU6-Sa_tracr进行酶切反应，酶切体系为：1μg质粒hU6-Sa_tracr、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BsaI限制性内切酶(购于NEB公司)，水补足至50μL。使该酶切体系在37℃过夜。

然后，将酶切产物在1％琼脂糖凝胶上以120V电压电泳30min。

从琼脂糖凝胶上切下DNA片段，用胶回收试剂盒(天根生化科技(北京)有限公司，DP209)依据厂家提供的说明进行回收，最终用超纯水进行洗脱。所述DNA片段即为包含SaCas9 RNA Scaffold线性化质粒hU6-Sa_tracr，其大小为3088bp。

将回收的线性化质粒hU6-Sa_tracr用NanoDrop^TM Lite分光光度计测定DNA浓度，备用或置于-20℃进行长期保存。

(4)质粒hU6-Sa-on target sgRNA或hU6-Sa-mismatch sgRNA的制备

设计on target gRNA和mismatch gRNA的序列，并且其对应的寡核苷酸单链DNA如下表5所示，其中mismatch碱基在序列表中显示为带下划线的粗体碱基。

将所得的on target gRNA对应的寡核苷酸单链DNA和不同mismatch gRNA对应的寡核苷酸单链DNA分别退火。退火反应体系为：1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后，放置于PCR仪中运行退火程序；退火程序如下：95℃_5min，85℃_1min，75℃_1min，65℃_1min，55℃_1min，45℃_1min，35℃_1min，25℃_1min，4℃保存，降温速率0.3℃/s。退火后，将所得的产物分别通过DNA连接酶(购于NEB公司)连接至所得的线性化hU6-Sa_tracr质粒。

将测序验证连接正确的大肠杆菌DH5α克隆摇菌，提取质粒，即分别得到表达上述On target gRNA序列的质粒hU6-Sa-on target sgRNA和表达上述不同mismatch gRNA序列的质粒hU6-Sa-mismatch sgRNA，备用。

(5)将所得的表达on target gRNA序列的质粒hU6-Sa-on target sgRNA和表达上述不同mismatch gRNA序列的质粒hU6-Sa-mismatch sgRNA与pAAV2_Cas9_ITR采用脂质体方式分别转染至含有靶序列(GGCTCGGAGATCATCATTGCG)的GFP报告系统HEK293T细胞系。

所述含有靶序列的GFP报告系统HEK293T细胞系是通过下述方式获得的：在起始密码子ATG和GFP编码序列之间插入PAM序列和特定的靶序列，造成GFP移码突变，然后通过慢病毒感染整合到HEK293T细胞中，得到含有靶序列的GFP报告系统HEK293T细胞系。当基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光，通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。

上述转染过程包括如下步骤：

第0天，根据转染所需，将含有靶序列的GFP报告系统HEK293T细胞系在24孔板进行铺板，细胞密度控制在30％。

该含有靶序列的GFP报告系统HEK293T细胞系中包含CMV-ATG-PAM-target site-GFP的核苷酸序列，其中，其中PAM序列参见图2，靶位点(target site)的序列为GGCTCGGAGATCATCATTGCG。

第1天，进行转染，转染过程如下：

分别取(1)500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_on target gRNA、或(2)500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_mismatch gRNA混合加入至25μL Opti-MEM培养基中，轻轻吹打混匀。

将

2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀，吸取1.6μL

2000或0.8μLPEI加入至25μL Opti-MEM培养基中，轻轻混匀，室温静置5min。

将经稀释的质粒和经稀释的转染试剂进行混合，轻轻吹打混匀，得到的混合液室温静置20min，然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中，并将其置于37℃、5％CO₂培养箱中继续培养。

流式细胞分析技术分析本发明的CRISPR基因编辑系统对靶序列的编辑效率及脱靶率。

具体地，收集在CO₂培养箱中培养5天后的HEK293T细胞系，采用流式细胞仪(BDBiosciences FACSCalibur)对其特异性进行检测，并用FlowJo分析软件分析GFP阳性比率并作图。

本发明的CRISPR/Cas9基因编辑系统在含有靶序列的GFP报告系统HEK293T细胞系中的特异性检测结果示于图23-34，其中上方横条显示GFP报告系统示意图，在起始密码子ATG和GFP编码序列之间插入有特定的PAM序列及靶序列，造成GFP移码突变。因此当基因编辑系统对靶序列进行切割后，细胞通过自身修复系统会使部分细胞恢复GFP阅读框，产生绿色荧光。图2中下方的柱状图中的Y轴代表GFP阳性细胞百比率(％)，X轴代表on-targetgRNA和mismatch gRNA对应的寡核苷酸单链DNA序列。从图23-34中可以看出，本发明的CRISPR基因编辑系统在GFP报告系统HEK293T细胞系中的靶位点均发生了编辑，且由mismatch gRNA介导的基因编辑比例显著性低于on-target gRNA介导的基因编辑比例，且在对于Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统的研究结果中，在所有单碱基mismatch中都未发现明显错配现象，说明Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统对gRNA与靶序列间的完全配对要求极高，具有较低的容错率和实际应用的较高安全性。

序列表

SEQ ID NO：1(Sa-SchCas9蛋白序列)

SEQ ID NO：2(SchCas9蛋白序列(产色葡萄球菌(Staphylococcuschromogenes)))

SEQ ID NO：3(Sha3Cas9蛋白序列(溶血葡萄球菌(Staphylococcushaemolyticus)))

SEQ ID NO：4(SmiCas9蛋白序列(葡萄球菌(Staphylococcus microti)))

SEQ ID NO：5(Sha2Cas9蛋白序列(溶血葡萄球菌(Staphylococcushaemolyticus)))

SEQ ID NO：6(SpeCas9蛋白序列(岩葡萄球菌(Staphylococcus petrasii)))

SEQ ID NO：7(Sha2Cas9-HF1蛋白序列)

SEQ ID NO：8(Sha2Cas9-HF2蛋白序列)

SEQ ID NO：9(Sha2Cas9-R247A蛋白序列)

SEQ ID NO：10(SpeCas9-HF1蛋白序列)

SEQ ID NO：11(SpeCas9-HF2蛋白序列)

SEQ ID NO：12(SpeCas9-HF3蛋白序列)

SEQ ID NO：13(SdeCas9蛋白序列(德氏葡萄球菌(Staphylococcus devriesei)))

SEQ ID NO：14(SwaCas9蛋白序列(华氏葡萄球菌(Staphylococcus warneri)))

SEQ ID NO：15(MscCas9蛋白序列(哺乳动物乳球菌(Mammaliicoccus sciuri)))

SEQ ID NO：16(SsiCas9蛋白序列(葡萄球菌(Staphylococcus simulans)))

SEQ ID NO：17(SlcCas9蛋白序列(未分类的葡萄球菌(unclassifiedStaphylococcus)))

SEQ ID NO：18(Slc2Cas9蛋白序列(施氏葡萄球菌(Staphylococcusschleiferi)))

SEQ ID NO：19(Slc3Cas9蛋白序列(葡萄球菌属HMSC34C02(Staphylococcussp.HMSC34C02)))

SEQ ID NO：20(Sch2Cas9蛋白序列(产色葡萄球菌(Staphylococcuschromogenes)))

SEQ ID NO：21(SroCas9蛋白序列(葡萄球菌(Staphylococcus rostri)))

SEQ ID NO：22(MflCas9蛋白序列(哺乳动物乳球菌(Mammaliicoccusfleurettii)))

SEQ ID NO：23(swa2Cas9蛋白序列(华氏葡萄球菌(Staphylococcus warneri))

SEQ ID NO：24(Sa-SchCas9蛋白的编码序列)

SEQ ID NO：25(SchCas9蛋白的编码序列)

SEQ ID NO：26(Sha3Cas9蛋白的编码序列)

SEQ ID NO：27(SmiCas9蛋白的编码序列)

SEQ ID NO：28(Sha2Cas9蛋白的编码序列)

SEQ ID NO：29(SpeCas9蛋白的编码序列)

SEQ ID NO：30(Sha2Cas9-HF1蛋白的编码序列)

SEQ ID NO：31(Sha2Cas9-HF2蛋白的编码序列)

SEQ ID NO：32(Sha2Cas9-R247A蛋白的编码序列)

SEQ ID NO：33(SpeCas9-HF1蛋白的编码序列)

SEQ ID NO：34(SpeCas9-HF2蛋白的编码序列)

SEQ ID NO：35(SpeCas9-HF3蛋白的编码序列)

SEQ ID NO：36(SdeCas9蛋白的编码序列)

SEQ ID NO：37(SwaCas9蛋白的编码序列)

sEQ ID NO：38(MscCas9蛋白的编码序列)

SEQ ID NO：39(SsiCas9蛋白的编码序列)

SEQ ID NO：40(Slccas9蛋白的编码序列)

SEQ ID NO：41(Slc2Cas9蛋白的编码序列)

SEQ ID NO：42(Slc3Cas9蛋白的编码序列)

SEQ ID NO：43(sch2Cas9蛋白的编码序列)

SEQ ID NO：44(SroCas9蛋白的编码序列)

SEQ ID NO：45(MflCas9蛋白的编码序列)

SEQ ID NO：46(Swa2Cas9蛋白的编码序列)

SEQ ID NO：47(与Cas9蛋白连用的支架序列)

SEQ ID NO：48(与Cas9蛋白相关的单链向导RNA的支架序列的DNA编码序列)

Claims

1.一种Cas9蛋白，所述Cas9蛋白为：

a)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，或

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

或者为

具有与SEQ ID NO:1、以及SEQ ID NO:7至SEQ ID NO:12中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。

2.一种缀合物，所述缀合物包含：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；或者为2)具有SEQ ID NO:1、SEQID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ IDNO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ IDNO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)修饰部分；

例如，所述修饰部分选自另外的蛋白或多肽、可检测标记或其组合；

例如，所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种；

以及

c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头。

3.一种融合蛋白，所述融合蛋白包含：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，

或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

b)另外的蛋白和多肽；

以及

c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头；

例如，所述接头为长度为1-50个氨基酸的接头。

4.一种单链向导RNA，其包括支架序列，所述支架序列具有：

a)SEQ ID NO:47所示的核酸序列；

或者

b)与SEQ ID NO:47所示的核酸序列至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.9％或者至少100％的序列同一性且保留其生物学活性的核酸序列；或者

c)基于SEQ ID NO:47所述的核酸序列改造得到的且保留其生物学活性的核酸序列，

例如，所述改造为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种，

例如，所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。

5.根据权利要求4所述的单链向导RNA，其中，所述单链向导RNA在所述支架序列的5’端进一步包括CRISPR间隔序列，所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。

6.一种分离的核酸分子，所述分离的核酸分子包含编码以下的核酸序列：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

b)权利要求2所述的缀合物；或者

c)权利要求3所述的融合蛋白。

7.根据权利要求6所述的分离的核酸分子，其中所述分离的核酸分子还包含编码权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA的核酸序列。

8.一种分离的核酸分子，所述分离的核酸分子包含编码权利要求4至5中任一项所述的单链向导RNA的核酸序列；

例如，所述分离的核酸分子包含SEQ ID NO:48所示的核酸序列或其简并序列，并且优选地还包含编码CRISPR间隔序列的核酸序列。

9.一种载体，所述载体包含编码以下的核酸序列：

a)Cas9蛋白，所述Cas9蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

b)权利要求2所述的缀合物；或者

c)权利要求3所述的融合蛋白；

例如，所述载体包含SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45和SEQ ID NO:46中任一个所述的核酸序列或其简并序列；

例如，所述载体为质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。

10.根据权利要求9所述的载体，其中，所述载体进一步包含编码权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA的核酸序列。

11.一种载体，所述载体包含编码权利要求4至5中任一项所述的单链向导RNA的核酸序列；

例如，所述载体包含SEQ ID NO:48所示的核酸序列或其简并序列，并且优选地还包含编码CRISPR间隔序列的核酸序列。

12.一种CRISPR/Cas9基因编辑系统，其包含：

a)蛋白组分，其包含：

1)Cas9蛋白，所述Cas9蛋白为：

1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，

或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80％、至少81％、至少82％、至少83％、至少84％、至少85％、至少86％、至少87％、至少88％、至少89％、至少90％、至少91％、至少92％、至少93％、至少94％、至少95％、至少96％、至少97％、至少98％、至少99％、至少99.1％、至少99.2％、至少99.3％、至少99.4％、至少99.5％、至少99.6％、至少99.7％、至少99.8％、至少99.9％、至少99.95％、至少99.99％、至少99.999％、至少100％、或者80％-100％中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物；

2)权利要求2所述的缀合物，或者

3)权利要求3所述的融合蛋白；以及

b)核酸组分，其包含：权利要求4至5中任一项所述的与a)中的蛋白组分对应的单链向导RNA；

并且，所述蛋白组分和所述核酸组分相互结合形成复合物。

13.一种细胞，所述细胞包含：权利要求6至8中任一项所述的分离的核酸分子、或者权利要求9至11中任一项所述的载体；

例如，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞。

14.一种对细胞内或体外环境中的靶序列进行基因编辑的方法，所述方法包括：使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触：

(1)Cas9蛋白、根据权利要求2所述的缀合物或者根据权利要求3所述的融合蛋白，和根据权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA，

其中，所述Cas9蛋白为：

1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，

或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

(2)根据权利要求9所述的载体和根据权利要求11所述的载体；

(3)根据权利要求10所述的载体；以及

(4)根据权利要求12所述的CRISPR/Cas9基因编辑系统；

其中，在与靶序列接触后，所述Cas9蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM)，所述PAM位于靶序列的5’端，并且，对于所述Sa-SchCas9蛋白、所述SchCas9蛋白、所述Sha3Cas9蛋白、所述SmiCas9蛋白、所述Sha2Cas9蛋白、所述SpeCas9蛋白、所述Sha2Cas9-HF1蛋白、所述Sha2Cas9-HF2蛋白、所述Sha2Cas9-R247A蛋白、所述SpeCas9-HF1蛋白、所述SpeCas9-HF2蛋白、所述SpeCas9-HF3蛋白、所述SdeCas9蛋白、所述SwaCas9蛋白、所述MscCas9蛋白、所述SsiCas9蛋白、所述SlcCas9蛋白、所述Slc2Cas9蛋白、所述Slc3Cas9蛋白、所述Sch2Cas9蛋白、所述SroCas9蛋白、所述MflCas9蛋白、或所述Swa2Cas9蛋白、或者它们各自的同源物、缀合物或融合蛋白，所述PAM分别具有序列5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG；

例如，所述细胞为原核细胞或者真核细胞，所述真核细胞为例如植物细胞或动物细胞，所述动物细胞为例如哺乳动物细胞如人类细胞；

例如，所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种，例如，所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。

15.根据权利要求14所述的方法，其中，所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构，而与非靶序列形成不完全碱基互补配对的结构；

例如，所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配的结构。

16.一种试剂盒，所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑，包括：

a)选自以下1)至6)中的任一项：

1)Cas9蛋白、根据权利要求2所述的缀合物、或者根据权利要求3所述的融合蛋白，和根据权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA；

其中，所述Cas9蛋白为：

1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白，

具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白，

具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白，

具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白，

具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白，

具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白，

具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白，

具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白，

具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白，

具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白，

具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白，

具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白，

具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白，

具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白，

具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白，

具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白，

具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白，

具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白，

具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白

具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白，

具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白，

具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白，或

具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白；

或者为

2)根据权利要求6所述的分离的核酸分子和根据权利要求8所述的分离的核酸分子；

3)根据权利要求7所述的分离的核酸分子；

4)根据权利要求9所述的载体和根据权利要求11所述的载体；

5)根据权利要求10所述的载体；或者

6)根据权利要求12所述的CRISPR/Cas9基因编辑系统；以及

如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。