CN113583999A - Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 - Google Patents
Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 Download PDFInfo
- Publication number
- CN113583999A CN113583999A CN202110765655.8A CN202110765655A CN113583999A CN 113583999 A CN113583999 A CN 113583999A CN 202110765655 A CN202110765655 A CN 202110765655A CN 113583999 A CN113583999 A CN 113583999A
- Authority
- CN
- China
- Prior art keywords
- seq
- protein
- acid sequence
- amino acid
- sequence shown
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108091033409 CRISPR Proteins 0.000 title claims abstract description 219
- 238000010362 genome editing Methods 0.000 title claims abstract description 140
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 895
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 879
- 238000010354 CRISPR gene editing Methods 0.000 claims abstract description 70
- 108091028043 Nucleic acid sequence Proteins 0.000 claims abstract description 44
- 238000000338 in vitro Methods 0.000 claims abstract description 13
- 150000001413 amino acids Chemical class 0.000 claims abstract description 11
- 235000018102 proteins Nutrition 0.000 claims description 871
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 337
- 108020005004 Guide RNA Proteins 0.000 claims description 83
- 150000007523 nucleic acids Chemical group 0.000 claims description 82
- 210000004027 cell Anatomy 0.000 claims description 74
- 239000013598 vector Substances 0.000 claims description 60
- 108020001507 fusion proteins Proteins 0.000 claims description 42
- 102000037865 fusion proteins Human genes 0.000 claims description 42
- 102000039446 nucleic acids Human genes 0.000 claims description 41
- 108020004707 nucleic acids Proteins 0.000 claims description 41
- 108090000765 processed proteins & peptides Proteins 0.000 claims description 33
- 230000004071 biological effect Effects 0.000 claims description 32
- 108020004414 DNA Proteins 0.000 claims description 31
- 229920001184 polypeptide Polymers 0.000 claims description 30
- 102000004196 processed proteins & peptides Human genes 0.000 claims description 30
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 claims description 24
- 238000000034 method Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 15
- 125000003729 nucleotide group Chemical group 0.000 claims description 15
- 125000006850 spacer group Chemical group 0.000 claims description 15
- 239000002773 nucleotide Substances 0.000 claims description 14
- 230000000295 complement effect Effects 0.000 claims description 12
- 229940104302 cytosine Drugs 0.000 claims description 12
- 230000004048 modification Effects 0.000 claims description 12
- 238000012986 modification Methods 0.000 claims description 12
- 108010077850 Nuclear Localization Signals Proteins 0.000 claims description 10
- 210000003527 eukaryotic cell Anatomy 0.000 claims description 10
- 230000003834 intracellular effect Effects 0.000 claims description 10
- 235000004252 protein component Nutrition 0.000 claims description 8
- 238000013518 transcription Methods 0.000 claims description 7
- 230000035897 transcription Effects 0.000 claims description 7
- 108010042407 Endonucleases Proteins 0.000 claims description 6
- 210000005260 human cell Anatomy 0.000 claims description 6
- 210000004102 animal cell Anatomy 0.000 claims description 5
- 238000003780 insertion Methods 0.000 claims description 5
- 230000037431 insertion Effects 0.000 claims description 5
- 108010052875 Adenine deaminase Proteins 0.000 claims description 4
- 108010080611 Cytosine Deaminase Proteins 0.000 claims description 4
- 102000000311 Cytosine Deaminase Human genes 0.000 claims description 4
- 102100024812 DNA (cytosine-5)-methyltransferase 3A Human genes 0.000 claims description 4
- 108010024491 DNA Methyltransferase 3A Proteins 0.000 claims description 4
- 102000003964 Histone deacetylase Human genes 0.000 claims description 4
- 108090000353 Histone deacetylase Proteins 0.000 claims description 4
- 101001050886 Homo sapiens Lysine-specific histone demethylase 1A Proteins 0.000 claims description 4
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 claims description 4
- 102100024985 Lysine-specific histone demethylase 1A Human genes 0.000 claims description 4
- 102100025169 Max-binding protein MNT Human genes 0.000 claims description 4
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 claims description 4
- 101710195626 Transcriptional activator protein Proteins 0.000 claims description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 claims description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 claims description 4
- 210000004962 mammalian cell Anatomy 0.000 claims description 4
- 108010006198 p300-CBP-associated factor Proteins 0.000 claims description 4
- 210000001236 prokaryotic cell Anatomy 0.000 claims description 4
- 230000026447 protein localization Effects 0.000 claims description 4
- 238000004904 shortening Methods 0.000 claims description 4
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 claims description 4
- 108091006107 transcriptional repressors Proteins 0.000 claims description 4
- 230000004075 alteration Effects 0.000 claims description 3
- 230000033228 biological regulation Effects 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 230000004927 fusion Effects 0.000 claims description 3
- 238000003209 gene knockout Methods 0.000 claims description 3
- 230000033444 hydroxylation Effects 0.000 claims description 3
- 238000005805 hydroxylation reaction Methods 0.000 claims description 3
- 239000013600 plasmid vector Substances 0.000 claims description 3
- 239000013603 viral vector Substances 0.000 claims description 3
- 229930024421 Adenine Natural products 0.000 claims description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 claims description 2
- 108010077544 Chromatin Proteins 0.000 claims description 2
- 230000021736 acetylation Effects 0.000 claims description 2
- 238000006640 acetylation reaction Methods 0.000 claims description 2
- 238000007792 addition Methods 0.000 claims description 2
- 229960000643 adenine Drugs 0.000 claims description 2
- 210000003483 chromatin Anatomy 0.000 claims description 2
- 230000006195 histone acetylation Effects 0.000 claims description 2
- 238000003384 imaging method Methods 0.000 claims description 2
- 230000011987 methylation Effects 0.000 claims description 2
- 238000007069 methylation reaction Methods 0.000 claims description 2
- 230000026731 phosphorylation Effects 0.000 claims description 2
- 238000006366 phosphorylation reaction Methods 0.000 claims description 2
- 230000001177 retroviral effect Effects 0.000 claims description 2
- 238000005987 sulfurization reaction Methods 0.000 claims description 2
- 229940113082 thymine Drugs 0.000 claims description 2
- 229940035893 uracil Drugs 0.000 claims description 2
- 102100031780 Endonuclease Human genes 0.000 claims 2
- 230000025449 regulation of DNA methylation Effects 0.000 claims 1
- 108091027544 Subgenomic mRNA Proteins 0.000 abstract description 22
- 230000005782 double-strand break Effects 0.000 abstract description 4
- 238000005520 cutting process Methods 0.000 abstract description 3
- 230000006378 damage Effects 0.000 abstract description 2
- 102100035102 E3 ubiquitin-protein ligase MYCBP2 Human genes 0.000 abstract 1
- 108091026890 Coding region Proteins 0.000 description 55
- 239000013612 plasmid Substances 0.000 description 40
- 238000010586 diagram Methods 0.000 description 27
- 108091033319 polynucleotide Proteins 0.000 description 18
- 102000040430 polynucleotide Human genes 0.000 description 18
- 239000002157 polynucleotide Substances 0.000 description 18
- 230000000694 effects Effects 0.000 description 14
- 238000011895 specific detection Methods 0.000 description 13
- 238000000137 annealing Methods 0.000 description 12
- 238000003776 cleavage reaction Methods 0.000 description 12
- 230000007017 scission Effects 0.000 description 12
- 235000001014 amino acid Nutrition 0.000 description 11
- 239000012634 fragment Substances 0.000 description 10
- 238000001890 transfection Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000009396 hybridization Methods 0.000 description 9
- 238000012163 sequencing technique Methods 0.000 description 8
- 230000001105 regulatory effect Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 241000620209 Escherichia coli DH5[alpha] Species 0.000 description 6
- 108091034117 Oligonucleotide Proteins 0.000 description 6
- 239000000499 gel Substances 0.000 description 6
- 238000002156 mixing Methods 0.000 description 6
- 230000006780 non-homologous end joining Effects 0.000 description 6
- 238000002360 preparation method Methods 0.000 description 6
- 102000053602 DNA Human genes 0.000 description 5
- 241000191967 Staphylococcus aureus Species 0.000 description 5
- 239000011543 agarose gel Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006801 homologous recombination Effects 0.000 description 5
- 238000002744 homologous recombination Methods 0.000 description 5
- 229910052739 hydrogen Inorganic materials 0.000 description 5
- 239000001257 hydrogen Substances 0.000 description 5
- 239000002609 medium Substances 0.000 description 5
- 238000011084 recovery Methods 0.000 description 5
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 5
- 102000004533 Endonucleases Human genes 0.000 description 4
- 241000191940 Staphylococcus Species 0.000 description 4
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 4
- 230000027455 binding Effects 0.000 description 4
- 239000003153 chemical reaction reagent Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 239000013604 expression vector Substances 0.000 description 4
- MHMNJMPURVTYEJ-UHFFFAOYSA-N fluorescein-5-isothiocyanate Chemical compound O1C(=O)C2=CC(N=C=S)=CC=C2C21C1=CC=C(O)C=C1OC1=CC(O)=CC=C21 MHMNJMPURVTYEJ-UHFFFAOYSA-N 0.000 description 4
- 238000001415 gene therapy Methods 0.000 description 4
- 239000000203 mixture Substances 0.000 description 4
- 229920000642 polymer Polymers 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- 108091008146 restriction endonucleases Proteins 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 101000935845 Aliivibrio fischeri Blue fluorescence protein Proteins 0.000 description 3
- 241000894006 Bacteria Species 0.000 description 3
- 238000010453 CRISPR/Cas method Methods 0.000 description 3
- 241000702421 Dependoparvovirus Species 0.000 description 3
- 101000935842 Escherichia coli O127:H6 (strain E2348/69 / EPEC) Major structural subunit of bundle-forming pilus Proteins 0.000 description 3
- 101001023784 Heteractis crispa GFP-like non-fluorescent chromoprotein Proteins 0.000 description 3
- 101000741544 Homo sapiens Properdin Proteins 0.000 description 3
- 101001079872 Homo sapiens RING finger protein 112 Proteins 0.000 description 3
- 229920002873 Polyethylenimine Polymers 0.000 description 3
- 108020004682 Single-Stranded DNA Proteins 0.000 description 3
- 101150063416 add gene Proteins 0.000 description 3
- 230000001413 cellular effect Effects 0.000 description 3
- 238000001816 cooling Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 108010021843 fluorescent protein 583 Proteins 0.000 description 3
- 239000001963 growth medium Substances 0.000 description 3
- 239000002853 nucleic acid probe Substances 0.000 description 3
- 210000004940 nucleus Anatomy 0.000 description 3
- 238000000746 purification Methods 0.000 description 3
- 238000003860 storage Methods 0.000 description 3
- 239000000126 substance Substances 0.000 description 3
- 210000001519 tissue Anatomy 0.000 description 3
- 239000012096 transfection reagent Substances 0.000 description 3
- 230000001052 transient effect Effects 0.000 description 3
- 108091005957 yellow fluorescent proteins Proteins 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- FWBHETKCLVMNFS-UHFFFAOYSA-N 4',6-Diamino-2-phenylindol Chemical compound C1=CC(C(=N)N)=CC=C1C1=CC2=CC=C(C(N)=N)C=C2N1 FWBHETKCLVMNFS-UHFFFAOYSA-N 0.000 description 2
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 2
- SLXKOJJOQWFEFD-UHFFFAOYSA-N 6-aminohexanoic acid Chemical compound NCCCCCC(O)=O SLXKOJJOQWFEFD-UHFFFAOYSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 108020004705 Codon Proteins 0.000 description 2
- QNAYBMKLOCPYGJ-UHFFFAOYSA-N D-alpha-Ala Natural products CC([NH3+])C([O-])=O QNAYBMKLOCPYGJ-UHFFFAOYSA-N 0.000 description 2
- 102000012410 DNA Ligases Human genes 0.000 description 2
- 108010061982 DNA Ligases Proteins 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 2
- 108090000790 Enzymes Proteins 0.000 description 2
- 241000588724 Escherichia coli Species 0.000 description 2
- WHUUTDBJXJRKMK-UHFFFAOYSA-N Glutamic acid Natural products OC(=O)C(N)CCC(O)=O WHUUTDBJXJRKMK-UHFFFAOYSA-N 0.000 description 2
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 2
- 241000194036 Lactococcus Species 0.000 description 2
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 2
- 108091005461 Nucleic proteins Proteins 0.000 description 2
- 239000012124 Opti-MEM Substances 0.000 description 2
- 238000012300 Sequence Analysis Methods 0.000 description 2
- 241000201854 Staphylococcus chromogenes Species 0.000 description 2
- 241000191984 Staphylococcus haemolyticus Species 0.000 description 2
- 108091081024 Start codon Proteins 0.000 description 2
- 101000910035 Streptococcus pyogenes serotype M1 CRISPR-associated endonuclease Cas9/Csn1 Proteins 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- 108091028113 Trans-activating crRNA Proteins 0.000 description 2
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- 241000700605 Viruses Species 0.000 description 2
- 150000003862 amino acid derivatives Chemical class 0.000 description 2
- 125000000539 amino acid group Chemical group 0.000 description 2
- UCMIRNVEIXFBKS-UHFFFAOYSA-N beta-alanine Chemical compound NCCC(O)=O UCMIRNVEIXFBKS-UHFFFAOYSA-N 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000007664 blowing Methods 0.000 description 2
- 239000011248 coating agent Substances 0.000 description 2
- 238000000576 coating method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000001276 controlling effect Effects 0.000 description 2
- 239000007850 fluorescent dye Substances 0.000 description 2
- 231100000221 frame shift mutation induction Toxicity 0.000 description 2
- 230000037433 frameshift Effects 0.000 description 2
- 229960003692 gamma aminobutyric acid Drugs 0.000 description 2
- BTCSSZJGUNDROE-UHFFFAOYSA-N gamma-aminobutyric acid Chemical compound NCCCC(O)=O BTCSSZJGUNDROE-UHFFFAOYSA-N 0.000 description 2
- 230000001939 inductive effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 238000011005 laboratory method Methods 0.000 description 2
- 239000002502 liposome Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 239000007758 minimum essential medium Substances 0.000 description 2
- 239000011259 mixed solution Substances 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000007480 sanger sequencing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 229940037649 staphylococcus haemolyticus Drugs 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 229910021642 ultra pure water Inorganic materials 0.000 description 2
- 239000012498 ultrapure water Substances 0.000 description 2
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 1
- UHDGCWIWMRVCDJ-UHFFFAOYSA-N 1-beta-D-Xylofuranosyl-NH-Cytosine Natural products O=C1N=C(N)C=CN1C1C(O)C(O)C(CO)O1 UHDGCWIWMRVCDJ-UHFFFAOYSA-N 0.000 description 1
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- CKTSBUTUHBMZGZ-ULQXZJNLSA-N 4-amino-1-[(2r,4s,5r)-4-hydroxy-5-(hydroxymethyl)oxolan-2-yl]-5-tritiopyrimidin-2-one Chemical compound O=C1N=C(N)C([3H])=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 CKTSBUTUHBMZGZ-ULQXZJNLSA-N 0.000 description 1
- 101150106774 9 gene Proteins 0.000 description 1
- 230000005730 ADP ribosylation Effects 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 101710172824 CRISPR-associated endonuclease Cas9 Proteins 0.000 description 1
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 1
- UHDGCWIWMRVCDJ-PSQAKQOGSA-N Cytidine Natural products O=C1N=C(N)C=CN1[C@@H]1[C@@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-PSQAKQOGSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 230000005778 DNA damage Effects 0.000 description 1
- 231100000277 DNA damage Toxicity 0.000 description 1
- 230000005971 DNA damage repair Effects 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 1
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 1
- 108700028146 Genetic Enhancer Elements Proteins 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 1
- 101710163270 Nuclease Proteins 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- CZPWVGJYEJSRLH-UHFFFAOYSA-N Pyrimidine Chemical compound C1=CN=CN=C1 CZPWVGJYEJSRLH-UHFFFAOYSA-N 0.000 description 1
- 108700008625 Reporter Genes Proteins 0.000 description 1
- 241000295644 Staphylococcaceae Species 0.000 description 1
- 241000192099 Staphylococcus schleiferi Species 0.000 description 1
- 241000191978 Staphylococcus simulans Species 0.000 description 1
- 241001484560 Staphylococcus sp. HMSC34C02 Species 0.000 description 1
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000000692 anti-sense effect Effects 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000037429 base substitution Effects 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 238000012412 chemical coupling Methods 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 230000009918 complex formation Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- UHDGCWIWMRVCDJ-ZAKLUEHWSA-N cytidine Chemical compound O=C1N=C(N)C=CN1[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O1 UHDGCWIWMRVCDJ-ZAKLUEHWSA-N 0.000 description 1
- 210000000805 cytoplasm Anatomy 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001212 derivatisation Methods 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000001976 enzyme digestion Methods 0.000 description 1
- 238000005206 flow analysis Methods 0.000 description 1
- 238000000684 flow cytometry Methods 0.000 description 1
- 230000006251 gamma-carboxylation Effects 0.000 description 1
- 125000000291 glutamic acid group Chemical group N[C@@H](CCC(O)=O)C(=O)* 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 230000003054 hormonal effect Effects 0.000 description 1
- 210000000987 immune system Anatomy 0.000 description 1
- 238000011534 incubation Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 108020004999 messenger RNA Proteins 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000009870 specific binding Effects 0.000 description 1
- 229940037648 staphylococcus simulans Drugs 0.000 description 1
- 230000019635 sulfation Effects 0.000 description 1
- 238000005670 sulfation reaction Methods 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000026683 transduction Effects 0.000 description 1
- 238000010361 transduction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
- 239000003981 vehicle Substances 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/85—Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
- C12N15/86—Viral vectors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N5/00—Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
- C12N5/06—Animal cells or tissues; Human cells or tissues
- C12N5/0602—Vertebrate cells
- C12N5/0684—Cells of the urinary tract or kidneys
- C12N5/0686—Kidney cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2510/00—Genetically modified cells
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2750/00—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
- C12N2750/00011—Details
- C12N2750/14011—Parvoviridae
- C12N2750/14111—Dependovirus, e.g. adenoassociated viruses
- C12N2750/14141—Use of virus, viral particle or viral elements as a vector
- C12N2750/14143—Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/10—Plasmid DNA
- C12N2800/106—Plasmid DNA for vertebrates
- C12N2800/107—Plasmid DNA for vertebrates for mammalian
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Organic Chemistry (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- General Health & Medical Sciences (AREA)
- Plant Pathology (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Urology & Nephrology (AREA)
- Virology (AREA)
- Cell Biology (AREA)
- Medicinal Chemistry (AREA)
- Peptides Or Proteins (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
本发明属于基因编辑技术领域,具体涉及一种CRISPR/Cas9基因编辑系统以及其应用。本发明基因编辑系统为特定Cas9蛋白与sgRNA形成的复合体,能精确定位靶向DNA序列并产生切割,使所述靶序列发生双链断裂损伤;所述基因编辑为在细胞中或体外进行基因编辑。所述各Cas9蛋白均具有数量相对少的氨基酸,可与相同的sgRNA形成复合体进行基因编辑。进一步地,所述Sa‑SchCas9蛋白和SchCas9蛋白识别的PAM序列非常简单,所述Sha2Cas9‑HF1蛋白、Sha2Cas9‑HF2蛋白、SpeCas9‑HF1蛋白、SpeCas9‑HF2蛋白和SpeCas9‑HF3蛋白特异性非常高且编辑效率很高。本发明在基因编辑领域中具有广泛的应用前景。
Description
技术领域
本申请属于基因编辑技术领域,具体涉及Cas9蛋白、含有该Cas9蛋白的基因编辑系统及其相关应用。
背景技术
CRISPR/Cas9系统是细菌和古细菌为抵御外源病毒或质粒入侵而进化的一种获得性免疫系统。CRISPR/Cas9系统含有tracrRNA(trans-activating RNA)和crRNA(CRISPR-derived RNA),它们和Cas9共同形成复合物发挥功能。tracrRNA和crRNA通过连接序列可以融合成为单链单链向导RNA(single guide RNA,sgRNA)。当DNA发生断裂损伤后,细胞内的两种主要DNA损伤修复机制负责修复:非同源末端连接(Non-homologous end-joining,NHEJ)和同源重组(homologous recombination,HR)。NHEJ修复的结果会引起碱基的缺失或插入,可以进行基因敲除;在提供同源模板的情况下,利用HR修复可以进行基因的定点插入和碱基的精确替换。
除了基础科研外,CRISPR/Cas9基因编辑系统还具有广泛的临床应用前景。利用CRISPR/Cas9基因编辑系统做基因治疗时,需要把Cas和单链向导RNA导入到体内。目前做基因治疗最有效的表达载体是腺相关病毒(AAV)。但是AAV病毒包装的DNA一般不超过4.5kb。SpCas9因为PAM序列简单(识别NGG)和活性高而得到广泛应用。但是SpCas9蛋白有1368个氨基酸,加上sgRNA和启动子,无法有效地包装到AAV病毒中,限制了其在临床中的应用。为了克服这个问题,几个分子量小的Cas9被发明出来,包括SaCas9(PAM序列为NNGRRT);StlCas9(PAM序列为NNAGAW);NmCas9(PAM序列为NNNNGATT);Nme2Cas9(PAM序列为NNNNCC);CjCas9(PAM序列为NNNNRYAC)。但是这些Cas9或者容易脱靶(即非靶向位点切割),或者PAM序列复杂,或者编辑活性低,难以广泛应用。
因此,寻找编辑活性高、特异性高、PAM序列简单的小型CRISPR/Cas系统是解决上述问题的希望所在。
发明内容
针对上述问题,本发明人进行了反复研究,发现一系列的同源Cas9蛋白,它们都能与同一单链向导RNA构成有效地进行基因编辑的CRISPR/Cas9基因编辑系统,由此完成了本发明。
因此,在第一方面,本发明提供了一种Cas9蛋白,所述Cas蛋白为具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白、或者分别具有SEQ ID NO:7至SEQ ID NO:12所示氨基酸序列的Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白,或者具有与SEQ ID NO:1、以及SEQ ID NO:7至SEQ IDNO:12中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列。
在第二方面,本发明提供了一种缀合物,所述缀合物包含:
a)Cas9蛋白,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;以及
b)修饰部分。
在第三方面,本发明提供了一种融合蛋白,所述融合蛋白包含:
a)Cas9蛋白,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HFl蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
b)另外的蛋白或多肽;以及
c)任选的用于连接所述Cas9蛋白或其同源物与所述另外的蛋白或多肽的接头。
在第四方面,本发明提供了一种单链向导RNA,所述单链向导RNA包含支架序列,所述支架序列具有SEQ ID NO:47所示的核酸序列,或者具有与SEQ ID NO:47所示的核酸序列至少90%序列同一性且保留其生物学活性的核酸序列,或者具有基于SEQ ID NO:47中任一项所述的核酸序列改造得到的保留其生物学活性的核酸序列。
在第五方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
b)本发明第二方面的缀合物;或者
c)本发明第三方面的融合蛋白。
在第六方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码本发明第四方面的单链向导RNA的核酸序列。
在第七方面,本发明提供了一种载体,所述载体包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列:
b)本发明第二方面的缀合物;或者
c)本发明第二方面的融合蛋白。
在第八方面,本发明提供了一种载体,所述载体包含编码本发明第四方面的单链向导RNA的核酸序列。
在第九方面,本发明提供了一种CRISPR/Cas9基因编辑系统,其包含:
a)蛋白组分,其包含:
1)Cas9蛋白,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列;
2)本发明第二方面的缀合物;或者
3)本发明第三方面的融合蛋白;
b)核酸组分,其包含:
本发明第四方面的单链向导RNA。
在第十方面,本发明提供了一种细胞,所述细胞包含:本发明第五方面的分离的核酸分子、或者本发明第七方面的载体。
在第十一方面,本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法,所述方法包括:使Cas9蛋白、本发明第二方面的缀合物或本发明第三方面的融合蛋白与本发明第四方面的单链向导RNA、使本发明第七方面和第八方面的载体、或使本发明第九方面的CRISPR/Cas9基因编辑系统与细胞内或体外环境中的靶序列相接触,其中,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列,所述靶序列位于原间隔邻近序列(PAM)的5’端,并且,对于所述Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白、或Swa2Cas9蛋白、或者它们各自的同源物、缀合物或融合蛋白,所述PAM分别具有序列5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG。
在第十二方面,本发明提供了一种试剂盒,所述试剂盒包括:Cas9蛋白、本发明第二方面的缀合物或本发明第三方面的融合蛋白与本发明第四方面的单链向导RNA,本发明第五方面和第六方面的分离的核酸分子,本发明第七方面和第八方面的载体,或者本发明第九方面的CRISPR/Cas9基因编辑系统;以及如何对细胞内或体外环境中的靶序列进行基因编辑的说明书;其中,所述Cas9蛋白为分别具有SEQ ID NO:1至SEQ ID NO:23所示氨基酸序列的Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白或Swa2Cas9蛋白,或者为具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ IDNO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ IDNO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ IDNO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%序列同一性并且保留其生物学活性的氨基酸序列。
本课题组开发了可在真核细胞环境进行基因编辑的各Cas9蛋白,这些蛋白均具有数量相对少的氨基酸,可与相同的sgRNA形成复合体进行基因编辑。
进一步地,Sa-SchCas9、SsiCas9、SroCas9、MflCas9和SchCas9基因编辑工具识别非常简单的NNGR PAM,且Sa-SchCas9和SchCas9具有较高的编辑效率和特异性,而且蛋白分子量小,因而可轻易被腺相关病毒等载体工具包装,非常适合后期作为基因治疗工具的开发。
此外,Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、Sha2Cas9-R247A蛋白、SmiCas9蛋白、Sha2Cas9蛋白和SpeCas9蛋白识别较为简单的NNGG PAM,具有较高的编辑效率,且Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白特异性非常高。
Sha3Cas9蛋白、Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRCPAM,且Sha3Cas9具有较高的编辑效率;Swa2Cas9蛋白和SwaCas9蛋白识别NNGG PAM;Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM;SdeCas9蛋白、MscCas9蛋白、SlcCas9蛋白和Slc2Cas9蛋白分别识别NNGRRT、NNGRR、NNGRRR和NNGA PAM。
本发明拓展了基因编辑范围,在基因编辑领域中具有广泛的应用前景。
附图说明
图1示出CRISPR/Sa-SchCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图2示出CRISPR/SchCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图3示出CRISPR/Sha3Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图4示出CRISPR/SmiCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图5示出CRISPR/Sha2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图6示出CRISPR/SpeCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图7示出CRISPR/Sha2Cas9-HF1基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图8示出CRISPR/Sha2Cas9-HF2基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图9示出CRISPR/Sha2Cas9-R247A基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图10示出CRISPR/SpeCas9-HF1基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图11示出CRISPR/SpeCas9-HF2基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图12示出CRISPR/SpeCas9-HF3基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图13示出SdeCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图14示出SwaCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图15示出MscCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图16示出SsiCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图17示出Slc2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图18示出Slc3Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图19示出Sch2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图20示出SroCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图21示出MflCas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图22示出Swa2Cas9基因编辑系统对两个靶位点进行基因编辑后的编辑效率结果的示意图;
图23示出CRISPR/Sa-SchCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图24示出CRISPR/SchCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图25示出CRISPR/Sha3Cas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图26示出CRISPR/SmiCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图27示出CRISPR/Sha2Cas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图28示出CRISPR/SpeCas9基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图29示出CRISPR/Sha2Cas9-HF1基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图30示出CRISPR/Sha2Cas9-HF2基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图31示出CRISPR/Sha2Cas9-R247A基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图32示出CRISPR/SpeCas9-HF1基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图33示出CRISPR/SpeCas9-HF2基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图;
图34示出CRISPR/SpeCas9-HF3基因编辑系统在GFP报告系统HEK293T细胞系中的特异性检测结果的示意图。
具体实施方式
下面将进一步对本发明进行详细的描述。应理解,上文的发明内容部分以及下文的详细描述仅为具体阐释本发明之目的,无意于以任何方式对本发明进行限制。本发明的保护范围由随附的权利要求书确定。在不背离本发明的精神和主旨的情况下,本领域技术人与可以对各具体实施方式进行更改。
定义
除非另有说明,否则本申请中使用的科学和技术名词具有本领域技术人员所通常理解的含义。为了更好地理解本发明,下面提供相关术语的定义和解释。
本文中使用的术语“Cas9蛋白”、“Cas9”和“Cas”在本申请中可互换使用,指包括Cas9蛋白或其功能活性片段在内的RNA指导的核酸酶。Cas9蛋白是CRISPR/Cas9基因组编辑系统的蛋白组分,能在单链向导RNA(gRNA)的指导下靶向并切割DNA靶序列,形成DNA双链断裂(DSB)。DNA双链断裂能够激活细胞内固有的修复机制非同源末端连接(non-homologousendjoining,NHEJ)和同源重组(homologous recombination,HR),由此对细胞中的DNA损伤进行修复。在修复过程中,对该特定的DNA序列进行定点编辑。
本文中使用的术语“单链向导RNA(guide RNA)”、“gRNA”、“sgRNA(single guidedRNA)”或“成熟crRNA”在本申请中可互换使用并且具有本领域技术人员通常理解的含义。一般而言,单链向导RNA可以包含支架序列(scaffold sequence)和向导序列(guidesequence),向导序列在本文中也称为向导RNA(guide RNA或gRNA)。在内源性CRISPR系统背景下,向导序列也称为间隔序列(spacer)。在某些情况下,向导序列是与靶序列具有足够相似性从而与所述靶序列杂交并引导CRISPR/Cas9复合物与所述靶序列的特异性结合的任何多核苷酸序列。在某些实施方案中,当最佳比对时,向导序列与其相应靶序列之间的互补程度为至少50%、至少60%、至少70%、至少80%、至少90%、至少95%、或至少99%。确定最佳比对在本领域的普通技术人员的能力范围内。例如,存在公开和可商购的比对算法和程序,诸如但不限于ClustalW、matlab中的史密斯-沃特曼算法(Smith-Waterman)、Bowtie、Geneious、Biopython以及SeqMan。本文中所使用的术语“CRISPR/Cas9复合物”是指单链向导RNA(single guide RNA)或成熟crRNA与Cas9蛋白结合所形成的复合体,其包含与靶序列杂交并由此使Cas9蛋白与所述靶序列结合的向导序列。该复合体能够识别并切割能与该单链向导RNA或成熟crRNA杂交的多核苷酸。
因此,在形成CRISPR/Cas9复合物的情况下,“靶序列”是指被设计为具有靶向性的向导序列所靶向的多核苷酸,例如与该向导序列具有互补性的序列,其中靶序列与向导序列之间的杂交将促进CRISPR/Cas9复合物的形成。完全互补性不是必需的,只要存在足够互补性以引起杂交并且促进CRISPR/Cas复合物的形成即可。靶序列可以包括任何多核苷酸,如DNA或RNA。在某些情况下,所述靶序列位于细胞的细胞核或细胞质中。在某些情况下,该靶序列可位于真核细胞的一个细胞器例如线粒体或叶绿体内。
在本文中使用的术语“靶序列”或“靶多核苷酸”可以是对细胞(例如,真核细胞)而言任何内源或外源的多核苷酸。例如,该靶多核苷酸可以是一种存在于真核细胞的细胞核中的多核苷酸。该靶多核苷酸可以是一个编码基因产物(例如,蛋白质)的序列或一个非编码序列(例如,调节多核苷酸或无用DNA)。在某些情况下,该靶序列应该与原间隔序列临近基序(PAM)相关。对PAM的精确序列和长度要求根据使用的Cas蛋白而不同,但是PAM典型地是临近原间隔序列(靶序列)的2-5个碱基序列。本领域技术人员能够鉴定与给定的Cas蛋白一起使用的PAM序列。
本文中使用的术语“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物,任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代:“A”为腺苷或脱氧腺苷(分别对应RNA或DNA),“C”表示胞苷或脱氧胞苷,“G”表示鸟苷或脱氧鸟苷,“U”表示尿苷,“T”表示脱氧胸苷,“R”表示嘌呤(A或G),“Y”表示嘧啶(C或T),“K”表示G或T,“H”表示A或C或T,“I”表示肌苷,并且“N”表示任何核苷酸。
本文中使用的术语“多肽”、“肽”、和“蛋白(质)”在本申请中可互换使用,指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物,并且适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白质”还可包括修饰形式,包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。
本文中使用的术语序列“同一性”或者“同源性”具有本领域公认的含义,并且可以利用公开的技术计算两个核酸或多肽分子或区域之间序列同一性的百分比。可以沿着多核苷酸或多肽的全长或者沿着该分子的区域测量序列同一性。(参见,例如ComputationalMolecular Biology,Lesk,A.M.,ed.,Oxford University Press,New York,1988;Biocomputing:Informatics and Genome Projects,Smith,D.W.,ed.,Academic Press,New York,1993;Computer Analysis of Sequence Data,Part I,Griffin,A.M.,andGriffin,H.G.,eds.,Humana Press,New Jersey,1994;Sequence Analysis in MolecularBiology,von Heinje,G.,Academic Press,1987;and Sequence Analysis Primer,Gribskov,M.and Devereux,J.,eds.,M Stockton Press,New York,1991)。虽然存在许多测量两个多核苷酸或多肽之间的同一性的方法,但是术语“同一性”是技术人员公知的在肽或蛋白中适合于保守型氨基酸置换的,并且一般可以进行而不改变所得分子的生物活性。通常,本领域技术人员认识到多肽的非必需区中的单个氨基酸置换基本上不改变生物活性(参见例如Watson et al.,Molecular Biology of the Gene,4th Edition,1987,TheBenjamin/Cummings Pub.co.,p.224)。
本文中所使用的术语“载体”是指可将多聚核苷酸插入其中的一种核酸运载工具。当载体能使插入的多核苷酸编码的蛋白获得表达时,或者当载体能使得插入的多核苷酸发生转录(例如转录生成mRNA或功能RNA)时,载体称为表达载体。载体可以通过转化、转导或者转染而被导入宿主细胞,使其携带的遗传物质元件在宿主细胞中获得表达。载体是本领域技术人员公知的,包括但不限于:质粒载体、病毒载体等。载体还可以含有多种调控表达的调控序列。“调控序列”和“调控元件”在本文中可互换使用,指位于编码序列的上游(5′非编码序列)、中间或下游(3′非编码序列)、并且影响相关编码序列的转录、RNA加工或稳定性或者翻译的核苷酸序列。调控序列可以包括但不限于启动子序列、转录起始序列、增强子序列、选择元件及报告基因等。所述调控序列可以是不同来源的,也可以是相同来源但以不同于通常天然存在的方式排列的。另外,载体还可含有复制起始位点。
本文中使用的术语“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方案中,启动子是能够控制细胞中基因转录的启动子,无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。
本文中使用的术语“组成型启动子”指一般将引起基因在多数细胞类型中在多数情况下表达的启动子。“组织特异性启动子”和“组织优选启动子”可互换使用,并且指主要但非必须专一地在一种组织或器官中表达,而且也可在一种特定细胞或细胞型中表达的启动子。“发育调控启动子”指其活性由发育事件决定的启动子。“诱导型启动子”响应内源性或外源性刺激(环境、激素、化学信号等)而选择性表达可操纵连接的DNA序列。
将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞,使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。
本文中使用的术语“稳定转化”指将外源核苷酸序列导入基因组中,导致外源基因稳定遗传。一旦稳定转化,外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。
本文中使用的术语“瞬时转化”指将核酸分子或蛋白质导入细胞中,执行功能而没有外源基因稳定遗传。瞬时转化中,外源核酸序列不整合进基因组中。
本文中使用的术语“互补性”是指一个核酸序列与另一个核酸序列借助于传统的沃森-克里克或其他非传统类型形成一个或多个氢键的能力。互补百分比表示一个核酸分子中可与另一个核酸序列形成氢键(例如,沃森-克里克碱基配对)的残基的百分比(例如,10个之中有5、6、7、8、9、10个互补,则互补百分比为50%、60%、70%、80%、90%和100%)。“完全互补”表示一个核酸序列的所有连续残基与另一个核酸序列中的相同数目的连续残基均形成氢键。如本文使用的“基本上互补”是指在一个具有8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸的区域上至少为60%、65%、70%、75%、80%、85%、90%、95%、97%、98%、99%或100%的互补程度,或者是指在严格条件下杂交的两个核酸。
本文中使用的与杂交相关的术语“严格条件”是指与靶序列具有互补性的一个核酸主要地与该靶序列杂交并且基本上不杂交到非靶序列上的条件。严格条件通常是序列依赖性的,并且取决于许多因素。一般而言,该序列越长,则该序列特异性地杂交到其靶序列上的温度就越高。严格条件的非限制性实例描述于蒂森(Tijssen)(1993)的《生物化学和分子生物学中的实验室技术-核酸探针杂交》(Laboratory Techniques in Biochemistryand Molecular Biology-Hybridization With Nucleic Acid Probes),第I部分,第二章,“杂交原理概述和核酸探针分析策略”(“Overview of principles of hybridizationandthe strategy of nucleic acid probe assay”),爱思唯尔(Elsevier),纽约。
本文中使用的术语“杂交”是指其中一个或多个多核苷酸反应形成一种复合物的反应,该复合物经由这些核苷酸残基之间的碱基的氢键键合而稳定化。氢键键合可以借助于沃森-克里克碱基配对、Hoogstein结合或以任何其他序列特异性方式而发生。该复合物可包含形成一个双链体的两条链、形成多链复合物的三条或多条链、单个自我杂交链、或这些的任何组合。杂交反应可以构成一个更广泛的过程(如PCR的开始、或经由一种酶的多核苷酸的切割)中的一个步骤。能够与一个给定序列杂交的序列被称为该给定序列的“互补物”。
Cas9蛋白
因此,在第一方面,本发明提供了一种Cas9蛋白,所述Cas9蛋白为:
a)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,或
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
或者为
b)具有与SEQ ID NO:1、以及SEQ ID NO:7至SEQ ID NO:12中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。
在本发明中,所谓Cas9蛋白的“生物学活性”是指该蛋白与单链向导RNA结合的活性、核酸内切酶活性(包括单链切割活性和双链切割活性)、和/或在向导RNA(gRNA)引导下与靶序列特定位点结合并切割的活性,但不限于此。
衍生化蛋白
可以对Cas9蛋白进行衍生化,例如将其连接至另外的分子(例如另外的蛋白或多肽)。通常,蛋白的衍生化(例如标记)不会不利影响该蛋白的期望活性(例如,起与单链向导RNA结合的活性、核酸内切酶活性、在向导RNA引导下与靶序列特定位点结合并切割的活性)。因此,本发明的Cas9蛋白还意欲包括此类衍生化的形式。例如,可以将本发明的Cas9蛋白功能性连接(通过化学偶合、基因融合、非共价连接或其它方式)于一个或多个其它分子部分,例如另外的蛋白或多肽、可检测标记、药用试剂等。
特别地,可以将Cas9蛋白连接其他功能性单元。例如,可以将其与核定位信号(NLS)序列连接,以提高本发明的蛋白进入细胞核的能力。例如,可以将其与靶向部分连接,以使得本发明的Cas9蛋白具有靶向性。例如,可以将其与可检测标记连接,以便于对本发明的Cas9蛋白进行检测。例如,可以将其与表位标签连接,以便于对本发明的Cas9蛋白的表达、检测、示踪和/或纯化。
因此,在第二方面,本发明提供了一种缀合物,所述缀合物包含:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。
b)修饰部分;以及
c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头。
可以理解,除了Cas9蛋白自身外,还可以使Cas9蛋白与其他物质例如其他蛋白或者可标记标签等结合从而赋予其他的功能性。
因此,在一个实施方案中,所述修饰部分可以为另外的蛋白或多肽、可检测标记或其组合。
在一个进一步的实施方案中,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
表位标签是本领域技术人员熟知的,其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。
报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
可检测标记是本领域技术人员熟知的,其实例包括荧光染料,例如异硫氰酸荧光素(FITC)或DAPI。
本发明的Cas9蛋白可以通过接头与所述修饰部分偶联、缀合或融合,也可以不通过接头而直接地与所述修饰部分连接。接头是本领域熟知的,其实例可以包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。
在第三方面,本发明提供了一种融合蛋白,所述融合蛋白包含:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。
a)另外的蛋白或多肽、以及
b)任选的用于连接所述Cas9蛋白与所述另外的蛋白或多肽的接头。
同本发明第二方面一样,所述另外的蛋白或多肽可以选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种。
表位标签是本领域技术人员熟知的,其实例包括但不限于His、V5、FLAG、HA、Myc、VSV-G、Trx等,并且本领域技术人员已知如何根据期望目的(例如,纯化、检测或示踪)选择合适的表位标签。报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
报告蛋白是本领域技术人员熟知的,其实例包括但不限于GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP等。
可检测标记是本领域技术人员熟知的,其实例包括荧光染料,例如异硫氰酸荧光素(FITC)或DAPI。
本发明的Cas9蛋白可以通过接头与所述另外的蛋白或多肽偶联、缀合或融合,也可以不通过接头而直接地与所述另外的蛋白或多肽连接。接头是本领域熟知的,其实例包括但不限于包含1-50个氨基酸(如Glu或Ser)或氨基酸衍生物(如Ahx、β-Ala、GABA或Ava)的接头、或PEG等。
本课题组开发了可在真核细胞环境进行基因编辑的各Cas9蛋白,这些蛋白均具有数量相对少的氨基酸,可与相同的sgRNA形成复合体进行基因编辑。
进一步地,Sa-SchCas9、SsiCas9、SroCas9、MflCas9和SchCas9基因编辑工具识别非常简单的NNGR PAM,且Sa-SchCas9和SchCas9具有较高的编辑效率和特异性,而且蛋白分子量小可轻易被腺相关病毒等载体工具包装,非常适合后期作为基因治疗工具的开发。
此外,Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、Sha2Cas9-R247A蛋白、SmiCas9蛋白、Sha2Cas9蛋白和SpeCas9蛋白识别较为简单的NNGG PAM,具有较高的编辑效率,且Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白特异性非常高。
Sha3Cas9蛋白、Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM,且Sha3Cas9具有较高的编辑效率;Swa2Cas9蛋白和SwaCas9蛋白识别NNGG PAM;Slc3Cas9蛋白和Sch2Cas9蛋白识别NNGRC PAM;SdeCas9蛋白、MscCas9蛋白、SlcCas9蛋白和Slc2Cas9蛋白分别识别NNGRRT、NNGRR、NNGRRR和NNGA PAM。
本发明拓展了基因编辑范围,在基因编辑领域中具有广泛的应用前景。
单链向导RNA
在第四方面,本发明提供了一种单链向导RNA,所述单链向导RNA包括支架序列,所述支架序列具有:
a)SEQ ID NO:47所示的核酸序列;
或者
b)与SEQ ID NO:47中所示的核酸序列至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.9%或者至少100%的序列同一性且保留其生物学活性的核酸序列;或者
c)基于SEQ ID NO:47中所述的核酸序列改造得到的且保留其生物学活性的核酸序列。
在一个实施方案中,所述改造可以为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种。
在一个进一步的实施方案中,所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。
在又一个实施方案中,所述单链向导RNA可以在所述支架序列的5’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。
在一个优选的实施方案中,所述CRISPR间隔序列为长度为21个核苷酸且能够与靶序列互补配对的序列。
在一个进一步的实施方案中,所述单链向导RNA在所述间隔序列的3’端进一步包括终止子。作为示例,所述终止子可以为多个如至少六个(例如七个或者八个)U构成的终止子。
所述单链向导RNA能够与上述的Cas9蛋白、缀合物或者融合蛋白结合而形成复合物,该复合物可以识别相应的PAM并由此与靶序列结合,进而实现对靶序列的剪切或者说基因编辑。
编码核酸以及载体
在第五方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)本发明第二方面的缀合物;或者
c)本发明第三方面的融合蛋白。
在一个进一步的实施方案中,所述分离的核酸分子还编码本发明第四方面的与所述Cas9蛋白对应的单链向导RNA。
在第六方面,本发明提供了一种分离的核酸分子,所述分离的核酸分子编码本发明第四方面的单链向导RNA。
在一个实施方案中,所述分离的核酸分子包含SEQ ID NO:48所示的核酸序列或其简并序列。
在一个优选的实施方案中,所述分离的核酸分子还包含编码CRISPR间隔序列的核酸序列。
在利用本领域已知的某些工具例如表达载体将本发明的分离的核酸分子转染到相应的细胞中后,本发明的分离的核酸分子可以表达出本发明上文所述的Cas9蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA,并在此行使相应的功能,例如进行基因编辑。
另外,本发明的分离的核酸分子可以单独地/分别地表达Cas9蛋白、其缀合物或融合蛋白、以及单链向导RNA,也可以一体地表达所述的表达产物,选择何种表达方式根据具体情况而定。
再者,所述表达产物具有上文记载的相应作用和/或功能,为简洁起见在此不再赘述。
在第七方面,本发明提供了一种载体,其包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)本发明第二方面的缀合物;或者
c)本发明第三方面的融合蛋白。
在一个实施方案中,所述载体包含SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQ ID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQ ID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ IDNO:38、SEQ ID NO:39、SEQ ID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ IDNO:44、SEQ ID NO:45和SEQ ID NO:46中任一个所示的核酸序列或其简并序列。
所述载体可以为表达载体,例如质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。
在又一个实施方案中,所述载体进一步包含编码本发明第四方面的与所述Cas9蛋白对应的单链向导RNA的核酸序列。
在第八方面,本发明提供了一种载体,所述载体包含编码本发明第四方面的单链向导RNA的核酸分子。
在一个实施方案中,所述载体包含SEQ ID NO:48所示的核酸序列或其简并序列。
在一个优选的实施方案中,所述载体还包含编码CRISPR间隔序列的核酸序列。
根据上文的记载可知,在将本发明的载体转染到细胞中后,在载体中克隆的编码序列可以被表达为Cas9蛋白、其缀合物或融合蛋白、和/或上文所述的单链向导RNA,并在此行使相应的功能。例如进行基因编辑。
另外,可以将多种载体例如两种载体转染到细胞中,其中一种载体表达所述Cas9蛋白、其缀合物或融合蛋白,而另一种载体表达单链向导RNA。随后,表达出来的Cas9蛋白、其缀合物或融合蛋白与表达出来的单链向导RNA复合形成复合物,并在此行使相应的功能,例如进行基因编辑。
当然,也可以将编码所述Cas9蛋白、其缀合物或融合蛋白的核酸序列以及编码所述单链向导RNA的核酸序列克隆到一个载体中,使得该载体转染到细胞内后表达所述Cas9蛋白、其缀合物或融合蛋白以及所述单链向导RNA两者,并在此行使相应的功能,例如进行基因编辑。
CRISPR/Cas9基因编辑系统
在第九方面,本发明提供了一种CRISPR/Cas9基因编辑系统,其包含:
a)蛋白组分,其包含:
1)Cas9蛋白,所述Cas9蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ IDNO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)本发明第二方面的缀合物;或者
3)本发明第三方面的融合蛋白;以及
b)核酸组分,其包含:本发明第四方面的与a)中的蛋白组分对应的单链向导RNA;
并且,所述蛋白组分和所述核酸组分相互结合形成复合物。
本发明的CRISPR/Cas9基因编辑系统可以由本文所述的Cas9蛋白、其同源物、或者它们的缀合物或融合蛋白与本文所述的单链向导RNA直接地构成,也可以本文所述的载体表达得到的表达产物构成。
本发明的CRISPR/Cas9基因编辑系统通过其中包含的Cas9蛋白和单链向导RNA共同作用而实现对靶序列的识别、定位、切割和基因编辑。
本发明CRISPR/Cas9基因编辑系统能够精确定位靶序列。所谓“精确定位”有两层含义:第一层含义是指本发明的CRISPR/Cas9基因编辑系统自身能够识别并结合靶序列,第二层含义是指本发明的CRISPR/Cas9基因编辑系统能够将与所述Cas9蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至靶序列的位置。
本发明的CRISPR/Cas9基因编辑系统对非靶序列具有低容忍度。在本文中,所谓“具有低容忍度”是指本发明的CRISPR/Cas9基因编辑系统基本上不能或者完全不能识别并结合非靶序列,或基本上不能或者完全不能将与所述Cas9蛋白融合的其他蛋白或特异性识别所述sgRNA的蛋白带至非靶序列的位置。
本发明的CRISPR/Cas9基因编辑系统,由于其中含有的Cas9蛋白所识别的靶序列上的PAM序列更简单,由此可以靶向基因组中更多的DNA序列。
细胞
在第十方面,本发明提供了一种细胞,所述细胞包含:本发明第五发明和第六方面的分离的核酸分子、或者本发明第七方面和第八方面的载体。
作为一个示例,所述细胞可以为原核细胞或者真核细胞。对于所述真核细胞,作为示例,其可以为植物细胞或者动物细胞。对于所述动物细胞,作为示例,其可以为哺乳动物细胞例如人类细胞。
方法
在第十一方面,本发明提供了一种对细胞内或体外环境中的靶序列进行基因编辑的方法,所述方法包括使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触:
(1)Cas9蛋白、本发明第二方面的缀合物或者本发明第三方面的融合蛋白,和本发明第四方面的与所述Cas12蛋白对应的单链向导RNA,
其中,所述Cas12蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF 1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
(2)本发明第七方面和第八方面的载体;
(3)本发明第七方面的载体;以及
(4)本发明第九方面的CRISPR/Cas9基因编辑系统;
其中,在与靶序列接触后,所述Cas9蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM),所述PAM位于靶序列的5’端,并且,对于所述Sa-SchCas9蛋白、所述SchCas9蛋白、所述Sha3Cas9蛋白、所述SmiCas9蛋白、所述Sha2Cas9蛋白、所述SpeCas9蛋白、所述Sha2Cas9-HF1蛋白、所述Sha2Cas9-HF2蛋白、所述Sha2Cas9-R247A蛋白、所述SpeCas9-HF1蛋白、所述SpeCas9-HF2蛋白、所述SpeCas9-HF3蛋白、所述SdeCas9蛋白、所述SwaCas9蛋白、所述MscCas9蛋白、所述SsiCas9蛋白、所述SlcCas9蛋白、所述Slc2Cas9蛋白、所述Slc3Cas9蛋白、所述Sch2Cas9蛋白、所述SroCas9蛋白、所述MflCas9蛋白、和所述Swa2Cas9蛋白、以及它们各自的同源物、缀合物或融合蛋白,所述PAM分别为5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG。
在一个实施方案中,所述细胞为原核细胞或者真核细胞,所述真核细胞为例如植物细胞或动物细胞,所述动物细胞为例如哺乳动物细胞如人类细胞。
在一个实施方案中,所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种。
进一步地,在一个实施方案中,所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。
在一个实施方案中,在所述方法中,所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构,而与非靶序列形成不完全碱基互补配对的结构。
在本文中,所述不完全碱基互补配对结构是指其中包括一部分碱基互补配对和一部分非碱基互补配对的结构,所述非碱基互补配对包括例如碱基错配(mismatch)和/或碱基凸出(bulge)等。
在一个实施方案中,所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配。
由此,本发明的Cas9蛋白可以对所述靶序列上的靶位点进行切割,并且在Cas9蛋白的切割作用下,靶序列发生双链断裂。进一步地,当所述方法在细胞内进行时,切割后的靶序列可以通过细胞内的非同源末端连接修复或同源重组修复途径进行修复,从而实现对靶序列的基因编辑。
本发明的CRISPR/Cas9基因编辑系统以及采用该基因编辑系统的基因编辑方法,经实验发现其能与相同的sgRNA形成复合体进行基因编辑,Sa-SchCas9、SchCas9、Sha3Cas9、SmiCas9、Sha2Cas9、SpeCas9、Sha2Cas9-HF1、Sha2Cas9-HF2、Sha2Cas9-R247A、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、SwaCas9、SsiCas9、Slc3Cas9和MflCas9具有12%-48%的编辑效率,SdeCas9、MscCas9、Slc2Cas9、Sch2Cas9、Swa2Cas9、SroCas9具有1%-10%的编辑效率。另外,对于Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统,其含mismatch向导RNA具有接近0%的容错率。因此,这些基因编辑系统可以高特异性地编辑靶基因,具有编辑效率高、脱靶率低的特点,可广泛应用于细胞中或者体外环境中的基因编辑。
试剂盒
在第十二方面,本发明提供了一种试剂盒,所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑,包括:
a)选自以下1)至6)中的任一项:
1)Cas9蛋白或其同源物、本发明第二方面的缀合物、或者本发明第三方面的融合蛋白,和本发明第四方面的与所述Cas9蛋白对应的单链向导RNA;
其中,所述的Casl2蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22、SEQ IDNO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)本发明第五和第六方面的分离的核酸分子;
3)本发明第六方面的分离的核酸分子;
4)本发明第七和第八方面的载体;
5)本发明第七方面的载体;或者
6)本发明第九方面的CRISPR/Cas9基因编辑系统;
以及
b)如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。
当然,本领域技术人员可以理解,本发明试剂盒中还可以包含其他有助于进行基因编辑的试剂。
对本发明涉及序列的简单描述
SEQ ID NO:1:Sa-SchCas9蛋白序列
SEQ ID NO:2:SchCas9蛋白序列
SEQ ID NO:3:Sha3Cas9蛋白序列
SEQ ID NO:4:SmiCas9蛋白序列
SEQ ID NO:5:Sha2Cas9蛋白序列
SEQ ID NO:6:SpeCas9蛋白序列
SEQ ID NO:7:Sha2Cas9-HF1蛋白序列
SEQ ID NO:8:Sha2Cas9-HF2蛋白序列
SEQ ID NO:9:Sha2Cas9-R247A蛋白序列
SEQ ID NO:10:SpeCas9-HF1蛋白序列
SEQ ID NO:11:SpeCas9-HF2蛋白序列
SEQ ID NO:12:SpeCas9-HF3蛋白序列
SEQ ID NO:13:SdeCas9蛋白序列
SEQ ID NO:14:SwaCas9蛋白序列
SEQ ID NO:15:MscCas9蛋白序列
SEQ ID NO:16:SsiCas9蛋白序列
SEQ ID NO:17:SlcCas9蛋白序列
SEQ ID NO:18:Slc2Cas9蛋白序列
SEQ ID NO:19:Slc3Cas9蛋白序列
SEQ ID NO:20:Sch2Cas9蛋白序列
SEQ ID NO:21:SroCas9蛋白序列
SEQ ID NO:22:MflCas9蛋白序列
SEQ ID NO:23:Swa2Cas9蛋白序列
SEQ ID NO:24:Sa-SchCas9蛋白的编码序列
SEQ ID NO:25:SchCas9蛋白的编码序列
SEQ ID NO:26:Sha3Cas9蛋白的编码序列
SEQ ID NO:27:SmiCas9蛋白的编码序列
SEQ ID NO:28:Sha2Cas9蛋白的编码序列
SEQ ID NO:29:SpeCas9蛋白的编码序列
SEQ ID NO:30:Sha2Cas9-HF1蛋白的编码序列
SEQ ID NO:31:Sha2Cas9-HF2蛋白的编码序列
SEQ ID NO:32:Sha2Cas9-R247A蛋白的编码序列
SEQ ID NO:33:SpeCas9-HF1蛋白的编码序列
SEQ ID NO:34:SpeCas9-HF2蛋白的编码序列
SEQ ID NO:35:SpeCas9-HF3蛋白的编码序列
SEQ ID NO:36:SdeCas9蛋白的编码序列
SEQ ID NO:37:SwaCas9蛋白的编码序列
SEQ ID NO:38:MscCas9蛋白的编码序列
SEQ ID NO:39:SsiCas9蛋白的编码序列
SEQ ID NO:40:SlcCas9蛋白的编码序列
SEQ ID NO:41:Slc2Cas9蛋白的编码序列
SEQ ID NO:42:Slc3Cas9蛋白的编码序列
SEQ ID NO:43:Sch2Cas9蛋白的编码序列
SEQ ID NO:44:SroCas9蛋白的编码序列
SEQ ID NO:45:MflCas9蛋白的编码序列
SEQ ID NO:46:Swa2Cas9蛋白的编码序列
SEQ ID NO:47:与Cas9蛋白连用的支架序列
SEQ ID NO:48:与Cas9蛋白相关的单链向导RNA的支架序列的DNA序列
实施例
现参照下列意在举例说明而非限定本发明的实施例来描述本发明。本领域技术人员知晓,在此提供实施例仅出于详细描述本发明之目的,无意于限制本发明所要求保护的范围。
除非特别指明,否则基本按照本领域内熟知的以及在各参考文献中描述的常规方法进行实施例中描述的实验和方法。另外,对于实施例中未注明具体条件者,均按照常规条件或制造商建议的条件进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
(1)构建质粒pAAV2_Cas9_ITR
根据表1中列出的各Cas9蛋白的基因检索号,下载其氨基酸序列,其中Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的氨基酸序列分别如SEQ ID NO:1至SEQ ID NO:23所示。
表1.Cas9蛋白及其NCBI蛋白搜索ID和序列编号
将上述各Cas9蛋白的氨基酸序列进行密码子优化,获得所述Cas9蛋白在人细胞中高表达的基因序列。Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的经优化基因序列分别如SEQ ID NO:24至SEQID NO:46所示。
将上述获得的SEQ ID NO:24至SEQ ID NO:46所示的各Cas9蛋白高表达的基因序列进行基因合成,并构建至slugCas9骨架质粒(Addgene平台,catalog#163793)上,得到质粒pAAV2_Cas9_ITR。
(2)线性化质粒hU6-Sa_tracr的制备
用BsaI限制性内切酶将质粒hU6-Sa_tracr(Addgene平台,catalog#135973)进行酶切反应,该质粒中的支架序列为SEQ ID NO:48所示序列。酶切体系为:1μg质粒hU6-Sa_tracr、5μL10×CutSmart缓冲液(购于NEB公司)、1μL BsaI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃过夜。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。所述DNA片段即为包含SaCas9RNA Scaffold线性化质粒hU6-Sa_tracr,其大小为3088bp。
将回收的线性化质粒hU6-Sa_tracr用NanoDropTM Lite分光光度计(ThermoScientific)测定DNA浓度,备用或置于-20℃进行长期保存。
(3)质粒hU6-Sa_sgRNA的制备
设计各gRNA,其序列示于如表2。在设计的各gRNA序列对用的正义链和反义链上分别加上线性化质粒hU6-Sa_tracr两侧对应的粘性末端序列,并合成两条寡核苷酸单链DNA,这两条寡核苷酸单链DNA的具体序列也示于下表。
将寡核苷酸单链DNA进行退火得到双链DNA。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序,退火程序为:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物通过DNA连接酶(购于NEB公司)连接至步骤(2)所得的线性化hU6-Sa_tracr质粒。
取1μL所得连接产物加到大肠杆菌DH5α感受态细胞(购于上海唯地生物技术有限公司)中,冰上孵育30min,42℃热激1min,冰上孵育2min,加入900μL LB培养基,于37℃培养1小时,以进行大肠杆菌DH5α感受态细胞的活化复苏。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即得到含有表达目标sgRNA序列的质粒hU6-Sa_sgRNA,备用。
(4)表达Cas蛋白的质粒pAAV2_Cas9_ITR和表达sgRNA的质粒hU6-Sa_sgRNA对HEK293T细胞系的转染
在第0天,根据转染所需,将含有靶序列的HEK293T细胞在24孔板进行铺板,细胞密度约30%左右。
第1天,进行转染,转染过程如下:
取500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_sgRNA混合加入至25μLOpti-MEM培养基(购于Gibco公司)中,轻轻吹打混匀。
将转染试剂脂质体2000(购于Invitrogen公司)或聚乙烯亚胺(以下简称PEI,100μM)(购于polysciences公司)轻弹混匀,吸取1.6μL2000或0.8μLPEI加入至25μLOpti-MEM培养基(购于Gibco公司)中,轻轻混匀,室温静置5min。
将稀释的转染试剂和稀释的质粒进行混合,轻轻吹打混匀,室温静置20min,然后加入到包含待转染细胞HEK293T细胞的培养基中,然后将细胞置于37℃、5%CO2培养箱中继续培养3天。
(5)二代测序文库的制备
收集编辑三天后的HEK293T细胞,用DNA试剂盒(天根生化科技(北京)有限公司,DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。
进行PCR建库第一轮PCR,用2×Q5 Mastermix(购于NEB公司)进行PCR反应,PCR引物如下所示:
反应体系如下:
PCR运行程序如下:
进行测序建库第二轮PCR,用2xQ5 Master mix进行PCR反应,PCR引物如下所示:
F2引物:
R2引物:
反应体系如下:
PCR运行程序如下:
将第二轮的PCR产物用胶回收试剂盒依据厂家提供的步骤,纯化356bp、385bp、336bp、344bp、406bp、406bp、325bp、282bp、381bp、414bp、381bp、388bp和416bp的DNA片段,它们分别是G10、D1、H2、CL9、G7、G8、G23、E8、G22、G4、E5、R13和M5位点的大小。由此,二代测序文库制备完毕。
(6)二代测序结果的分析
将制备好的二代测序文库在高通量测序仪HiseqXTen(Illumina)上进行双端测序。
二代测序计算得到对各自的靶位点的编辑效率如图1-12所示,其中X轴表示靶位点,Y轴表示编辑效率(Indels%)。从图1-12中可以看出,含有Sa-SchCas9、SchCas9、Sha3Cas9、SmiCas9、Sha2Cas9、SpeCas9、Sha2Cas9-HF1、Sha2Cas9-HF2、Sha2Cas9-R247A、SpeCas9-HF1、SpeCas9-HF2和SpeCas9-HF3蛋白的基因编辑系统均可以用于细胞基因编辑。
(7)T7E1酶切PCR产物的制备
收集上文(4)中的编辑三天后的HEK293T细胞,用DNA试剂盒(天根生化科技(北京)有限公司,DP304)并依据该DNA试剂盒提供的说明书提取基因组DNA。
进行PCR扩增靶位点,用2×Q5 Master mix进行PCR反应,PCR引物如下所示:
表4.T7E1酶切PCR引物列表
位点 | F3引物 | R3引物 |
G7、G8 | ATGGCTACCTGGACCACTCA | TAGTCCTCAGCACAAACCCTC |
S17 | TCCACTCTCTGGACATGCT | AGArGAGATCTGCGAGTGC |
H2 | AAACCAGTGTCAGGGAGCTG | CTGGTGGTACTTGAATCAAGCACA |
G25 | ATGAGACCGACCCAAAGAGC | CAGCACCTTTCCCTCACTTTC |
CO5 | AGGGTGGAAATGAGGGTTCA | TGTTTTGCAGGCATGTTGCTT |
E14 | TCCCCACGGATTCCATCATTC | CTCTGCTCCGGCCAGTTTTT |
E1 | CTTCGTGAGTGGCTTCCCTG | CTTTCCTGGGAGGGAGACCT |
E0 | ACGCAGTGGGTCATAGGCTC | GGACTCAGGCCCTTCCTCCT |
G10 | ACTTCACTCACTGCCTGTCA | GCACAAAGTGAGTGTGTGGG |
G19 | GGGGCTTTGAGAGTGTTCCC | AAGTCACTGCCCACCTACCT |
反应体系如下:
PCR运行程序如下:
将PCR产物用胶回收试剂盒依据厂家提供的步骤,纯化779bp、779bp、455bp、491bp、677bp、482bp、639bp、440bp、509bp、701bp和628bp的DNA片段,它们分别是G7、G8、S17、H2、G25、CO5、E14、E1、E0、G10和G19位点的大小。由此,PCR产物制备完毕。
(8)T7EI酶切实验
取250ng PCR产物、2μL NEBuffer2(购于NEB公司),补水至19.5μL,将该体系震荡混匀后,放置于PCR仪中运行退火程序;退火程序如下:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。向退火体系中添加0.5μL T7 Endonuclease I(购于NEB公司),置于PCR仪中,37℃孵育30min。然后,将孵育产物在2%琼脂糖凝胶上以130V电压电泳30min。用凝胶成像仪(上海天能公司,1600)拍照,保存。
T7E I酶切得到对靶位点的编辑效率如图13-22所示,其中较大条带代表未编辑情况,箭头指示的小条带指示T7E I酶切消化产生的条带。从图13-22中可以看出,含有SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白、和Swa2Cas9蛋白的基因编辑系统均可以用于细胞基因编辑。
实施例2
(1)构建质粒pAAV2_Cas9_ITR
根据上文表1中列出的各Cas9蛋白的基因检索号,下载其氨基酸序列,其中Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的氨基酸序列分别如SEQ ID NO:1至SEQ ID NO:23所示。
将上述所得的Cas9蛋白的氨基酸序列进行密码子优化,获得所述Cas蛋白在人细胞中高表达的基因序列。Sa-SchCas9蛋白、SchCas9蛋白、Sha3Cas9蛋白、SmiCas9蛋白、Sha2Cas9蛋白、SpeCas9蛋白、Sha2Cas9-HF1蛋白、Sha2Cas9-HF2蛋白、Sha2Cas9-R247A蛋白、SpeCas9-HF1蛋白、SpeCas9-HF2蛋白、SpeCas9-HF3蛋白、SdeCas9蛋白、SwaCas9蛋白、MscCas9蛋白、SsiCas9蛋白、SlcCas9蛋白、Slc2Cas9蛋白、Slc3Cas9蛋白、Sch2Cas9蛋白、SroCas9蛋白、MflCas9蛋白和Swa2Cas9蛋白的基因序列分别如SEQ ID NO:24至SEQ ID NO:46所示。
将上述获得的SEQ ID NO:24至SEQ ID NO:46所示的各Cas9蛋白高表达的基因序列进行基因合成,并构建至slugCas9骨架质粒(Addgene平台,catalog#163793)上,得到质粒pAAV2_Cas9_ITR。
(3)线性化质粒hU6-Sa_tracr的制备
用BsaI限制性内切酶将质粒hU6-Sa_tracr进行酶切反应,酶切体系为:1μg质粒hU6-Sa_tracr、5μL 10×CutSmart缓冲液(购于NEB公司)、1μL BsaI限制性内切酶(购于NEB公司),水补足至50μL。使该酶切体系在37℃过夜。
然后,将酶切产物在1%琼脂糖凝胶上以120V电压电泳30min。
从琼脂糖凝胶上切下DNA片段,用胶回收试剂盒(天根生化科技(北京)有限公司,DP209)依据厂家提供的说明进行回收,最终用超纯水进行洗脱。所述DNA片段即为包含SaCas9 RNA Scaffold线性化质粒hU6-Sa_tracr,其大小为3088bp。
将回收的线性化质粒hU6-Sa_tracr用NanoDropTM Lite分光光度计测定DNA浓度,备用或置于-20℃进行长期保存。
(4)质粒hU6-Sa-on target sgRNA或hU6-Sa-mismatch sgRNA的制备
设计on target gRNA和mismatch gRNA的序列,并且其对应的寡核苷酸单链DNA如下表5所示,其中mismatch碱基在序列表中显示为带下划线的粗体碱基。
将所得的on target gRNA对应的寡核苷酸单链DNA和不同mismatch gRNA对应的寡核苷酸单链DNA分别退火。退火反应体系为:1μL 100μM oligo-F、1μL 100μM oligo-R、28μL水。将该退火体系震荡混匀后,放置于PCR仪中运行退火程序;退火程序如下:95℃_5min,85℃_1min,75℃_1min,65℃_1min,55℃_1min,45℃_1min,35℃_1min,25℃_1min,4℃保存,降温速率0.3℃/s。退火后,将所得的产物分别通过DNA连接酶(购于NEB公司)连接至所得的线性化hU6-Sa_tracr质粒。
将复苏后的大肠杆菌DH5α感受态细胞涂布在含有对应抗性的LB固体平板在37℃培养箱倒置培养,得到的大肠杆菌DH5α单克隆进行Sanger测序验证。
将测序验证连接正确的大肠杆菌DH5α克隆摇菌,提取质粒,即分别得到表达上述On target gRNA序列的质粒hU6-Sa-on target sgRNA和表达上述不同mismatch gRNA序列的质粒hU6-Sa-mismatch sgRNA,备用。
(5)将所得的表达on target gRNA序列的质粒hU6-Sa-on target sgRNA和表达上述不同mismatch gRNA序列的质粒hU6-Sa-mismatch sgRNA与pAAV2_Cas9_ITR采用脂质体方式分别转染至含有靶序列(GGCTCGGAGATCATCATTGCG)的GFP报告系统HEK293T细胞系。
所述含有靶序列的GFP报告系统HEK293T细胞系是通过下述方式获得的:在起始密码子ATG和GFP编码序列之间插入PAM序列和特定的靶序列,造成GFP移码突变,然后通过慢病毒感染整合到HEK293T细胞中,得到含有靶序列的GFP报告系统HEK293T细胞系。当基因编辑系统对靶序列进行切割后,细胞通过自身修复系统会使部分细胞恢复GFP阅读框,产生绿色荧光,通过流式分析统计GFP阳性细胞比率可以评估基因编辑系统的编辑能力及特异性。
上述转染过程包括如下步骤:
第0天,根据转染所需,将含有靶序列的GFP报告系统HEK293T细胞系在24孔板进行铺板,细胞密度控制在30%。
该含有靶序列的GFP报告系统HEK293T细胞系中包含CMV-ATG-PAM-target site-GFP的核苷酸序列,其中,其中PAM序列参见图2,靶位点(target site)的序列为GGCTCGGAGATCATCATTGCG。
第1天,进行转染,转染过程如下:
分别取(1)500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_on target gRNA、或(2)500ng质粒pAAV2_Cas9_ITR和300ng质粒hU6-Sa_mismatch gRNA混合加入至25μL Opti-MEM培养基中,轻轻吹打混匀。
将2000(购于Invitrogen公司)或PEI(购于polysciences公司)轻弹混匀,吸取1.6μL2000或0.8μLPEI加入至25μL Opti-MEM培养基中,轻轻混匀,室温静置5min。
将经稀释的质粒和经稀释的转染试剂进行混合,轻轻吹打混匀,得到的混合液室温静置20min,然后加入到含有靶序列的GFP报告系统HEK293T细胞系的培养基中,并将其置于37℃、5%CO2培养箱中继续培养。
流式细胞分析技术分析本发明的CRISPR基因编辑系统对靶序列的编辑效率及脱靶率。
具体地,收集在CO2培养箱中培养5天后的HEK293T细胞系,采用流式细胞仪(BDBiosciences FACSCalibur)对其特异性进行检测,并用FlowJo分析软件分析GFP阳性比率并作图。
本发明的CRISPR/Cas9基因编辑系统在含有靶序列的GFP报告系统HEK293T细胞系中的特异性检测结果示于图23-34,其中上方横条显示GFP报告系统示意图,在起始密码子ATG和GFP编码序列之间插入有特定的PAM序列及靶序列,造成GFP移码突变。因此当基因编辑系统对靶序列进行切割后,细胞通过自身修复系统会使部分细胞恢复GFP阅读框,产生绿色荧光。图2中下方的柱状图中的Y轴代表GFP阳性细胞百比率(%),X轴代表on-targetgRNA和mismatch gRNA对应的寡核苷酸单链DNA序列。从图23-34中可以看出,本发明的CRISPR基因编辑系统在GFP报告系统HEK293T细胞系中的靶位点均发生了编辑,且由mismatch gRNA介导的基因编辑比例显著性低于on-target gRNA介导的基因编辑比例,且在对于Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统的研究结果中,在所有单碱基mismatch中都未发现明显错配现象,说明Sa-SchCas9、SmiCas9、SpeCas9-HF1、SpeCas9-HF2、SpeCas9-HF3、Sha2Cas9-HF1和Sha2Cas9-HF2基因编辑系统对gRNA与靶序列间的完全配对要求极高,具有较低的容错率和实际应用的较高安全性。
序列表
SEQ ID NO:1(Sa-SchCas9蛋白序列)
SEQ ID NO:2(SchCas9蛋白序列(产色葡萄球菌(Staphylococcuschromogenes)))
SEQ ID NO:3(Sha3Cas9蛋白序列(溶血葡萄球菌(Staphylococcushaemolyticus)))
SEQ ID NO:4(SmiCas9蛋白序列(葡萄球菌(Staphylococcus microti)))
SEQ ID NO:5(Sha2Cas9蛋白序列(溶血葡萄球菌(Staphylococcushaemolyticus)))
SEQ ID NO:6(SpeCas9蛋白序列(岩葡萄球菌(Staphylococcus petrasii)))
SEQ ID NO:7(Sha2Cas9-HF1蛋白序列)
SEQ ID NO:8(Sha2Cas9-HF2蛋白序列)
SEQ ID NO:9(Sha2Cas9-R247A蛋白序列)
SEQ ID NO:10(SpeCas9-HF1蛋白序列)
SEQ ID NO:11(SpeCas9-HF2蛋白序列)
SEQ ID NO:12(SpeCas9-HF3蛋白序列)
SEQ ID NO:13(SdeCas9蛋白序列(德氏葡萄球菌(Staphylococcus devriesei)))
SEQ ID NO:14(SwaCas9蛋白序列(华氏葡萄球菌(Staphylococcus warneri)))
SEQ ID NO:15(MscCas9蛋白序列(哺乳动物乳球菌(Mammaliicoccus sciuri)))
SEQ ID NO:16(SsiCas9蛋白序列(葡萄球菌(Staphylococcus simulans)))
SEQ ID NO:17(SlcCas9蛋白序列(未分类的葡萄球菌(unclassifiedStaphylococcus)))
SEQ ID NO:18(Slc2Cas9蛋白序列(施氏葡萄球菌(Staphylococcusschleiferi)))
SEQ ID NO:19(Slc3Cas9蛋白序列(葡萄球菌属HMSC34C02(Staphylococcussp.HMSC34C02)))
SEQ ID NO:20(Sch2Cas9蛋白序列(产色葡萄球菌(Staphylococcuschromogenes)))
SEQ ID NO:21(SroCas9蛋白序列(葡萄球菌(Staphylococcus rostri)))
SEQ ID NO:22(MflCas9蛋白序列(哺乳动物乳球菌(Mammaliicoccusfleurettii)))
SEQ ID NO:23(swa2Cas9蛋白序列(华氏葡萄球菌(Staphylococcus warneri))
SEQ ID NO:24(Sa-SchCas9蛋白的编码序列)
SEQ ID NO:25(SchCas9蛋白的编码序列)
SEQ ID NO:26(Sha3Cas9蛋白的编码序列)
SEQ ID NO:27(SmiCas9蛋白的编码序列)
SEQ ID NO:28(Sha2Cas9蛋白的编码序列)
SEQ ID NO:29(SpeCas9蛋白的编码序列)
SEQ ID NO:30(Sha2Cas9-HF1蛋白的编码序列)
SEQ ID NO:31(Sha2Cas9-HF2蛋白的编码序列)
SEQ ID NO:32(Sha2Cas9-R247A蛋白的编码序列)
SEQ ID NO:33(SpeCas9-HF1蛋白的编码序列)
SEQ ID NO:34(SpeCas9-HF2蛋白的编码序列)
SEQ ID NO:35(SpeCas9-HF3蛋白的编码序列)
SEQ ID NO:36(SdeCas9蛋白的编码序列)
SEQ ID NO:37(SwaCas9蛋白的编码序列)
sEQ ID NO:38(MscCas9蛋白的编码序列)
SEQ ID NO:39(SsiCas9蛋白的编码序列)
SEQ ID NO:40(Slccas9蛋白的编码序列)
SEQ ID NO:41(Slc2Cas9蛋白的编码序列)
SEQ ID NO:42(Slc3Cas9蛋白的编码序列)
SEQ ID NO:43(sch2Cas9蛋白的编码序列)
SEQ ID NO:44(SroCas9蛋白的编码序列)
SEQ ID NO:45(MflCas9蛋白的编码序列)
SEQ ID NO:46(Swa2Cas9蛋白的编码序列)
SEQ ID NO:47(与Cas9蛋白连用的支架序列)
SEQ ID NO:48(与Cas9蛋白相关的单链向导RNA的支架序列的DNA编码序列)
Claims (16)
1.一种Cas9蛋白,所述Cas9蛋白为:
a)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,或
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
或者为
具有与SEQ ID NO:1、以及SEQ ID NO:7至SEQ ID NO:12中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物。
2.一种缀合物,所述缀合物包含:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;或者为2)具有SEQ ID NO:1、SEQID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQ ID NO:6、SEQ ID NO:7、SEQ IDNO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ ID NO:12、SEQ ID NO:13、SEQ IDNO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ ID NO:18、SEQ ID NO:19、SEQ IDNO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)修饰部分;
例如,所述修饰部分选自另外的蛋白或多肽、可检测标记或其组合;
例如,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种;
以及
c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头。
3.一种融合蛋白,所述融合蛋白包含:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,
或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)另外的蛋白和多肽;
例如,所述另外的蛋白或多肽选自表位标签、报告蛋白或核定位信号(NLS)序列、胞嘧啶脱氨酶(CBE)、腺嘌呤脱氨酶(ABE)、胞嘧啶甲基化酶DNMT3A和MQ1、胞嘧啶去甲基化酶Tet1、转录激活蛋白VP64、p65和RTA、转录抑制蛋白KRAB、组蛋白乙酰化酶p300、组蛋白去乙酰化酶LSD1、和内切酶FokI中的一种或者多种;
以及
c)任选的用于连接所述Cas9蛋白与所述修饰部分的接头;
例如,所述接头为长度为1-50个氨基酸的接头。
4.一种单链向导RNA,其包括支架序列,所述支架序列具有:
a)SEQ ID NO:47所示的核酸序列;
或者
b)与SEQ ID NO:47所示的核酸序列至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.9%或者至少100%的序列同一性且保留其生物学活性的核酸序列;或者
c)基于SEQ ID NO:47所述的核酸序列改造得到的且保留其生物学活性的核酸序列,
例如,所述改造为碱基磷酸化、碱基硫化、碱基甲基化、碱基羟基化、序列的缩短和序列的加长中的一种或者多种,
例如,所述序列的缩短和所述序列加长包括相对于基础序列存在一个、两个、三个、四个、五个、六个、七个、八个、九个或者十个碱基的缺失或者添加。
5.根据权利要求4所述的单链向导RNA,其中,所述单链向导RNA在所述支架序列的5’端进一步包括CRISPR间隔序列,所述CRISPR间隔序列为长度为20、21、22、23、24、25、26、27、28、29、30个核苷酸(优选21个核苷酸)且能够与靶序列互补配对的序列。
6.一种分离的核酸分子,所述分离的核酸分子包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)权利要求2所述的缀合物;或者
c)权利要求3所述的融合蛋白。
7.根据权利要求6所述的分离的核酸分子,其中所述分离的核酸分子还包含编码权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA的核酸序列。
8.一种分离的核酸分子,所述分离的核酸分子包含编码权利要求4至5中任一项所述的单链向导RNA的核酸序列;
例如,所述分离的核酸分子包含SEQ ID NO:48所示的核酸序列或其简并序列,并且优选地还包含编码CRISPR间隔序列的核酸序列。
9.一种载体,所述载体包含编码以下的核酸序列:
a)Cas9蛋白,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
b)权利要求2所述的缀合物;或者
c)权利要求3所述的融合蛋白;
例如,所述载体包含SEQ ID NO:24、SEQ ID NO:25、SEQ ID NO:26、SEQ ID NO:27、SEQID NO:28、SEQ ID NO:29、SEQ ID NO:30、SEQ ID NO:31、SEQ ID NO:32、SEQ ID NO:33、SEQID NO:34、SEQ ID NO:35、SEQ ID NO:36、SEQ ID NO:37、SEQ ID NO:38、SEQ ID NO:39、SEQID NO:40、SEQ ID NO:41、SEQ ID NO:42、SEQ ID NO:43、SEQ ID NO:44、SEQ ID NO:45和SEQ ID NO:46中任一个所述的核酸序列或其简并序列;
例如,所述载体为质粒载体例如pUC19载体、附着体载体、pAAV2_ITR载体、逆转录病毒载体、慢病毒载体、腺病毒载体或腺相关病毒载体。
10.根据权利要求9所述的载体,其中,所述载体进一步包含编码权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA的核酸序列。
11.一种载体,所述载体包含编码权利要求4至5中任一项所述的单链向导RNA的核酸序列;
例如,所述载体包含SEQ ID NO:48所示的核酸序列或其简并序列,并且优选地还包含编码CRISPR间隔序列的核酸序列。
12.一种CRISPR/Cas9基因编辑系统,其包含:
a)蛋白组分,其包含:
1)Cas9蛋白,所述Cas9蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,
或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)权利要求2所述的缀合物,或者
3)权利要求3所述的融合蛋白;以及
b)核酸组分,其包含:权利要求4至5中任一项所述的与a)中的蛋白组分对应的单链向导RNA;
并且,所述蛋白组分和所述核酸组分相互结合形成复合物。
13.一种细胞,所述细胞包含:权利要求6至8中任一项所述的分离的核酸分子、或者权利要求9至11中任一项所述的载体;
例如,所述细胞为原核细胞或者真核细胞,所述真核细胞为例如植物细胞或动物细胞,所述动物细胞为例如哺乳动物细胞如人类细胞。
14.一种对细胞内或体外环境中的靶序列进行基因编辑的方法,所述方法包括:使以下(1)至(4)中任一项与细胞内或体外环境中的靶序列相接触:
(1)Cas9蛋白、根据权利要求2所述的缀合物或者根据权利要求3所述的融合蛋白,和根据权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA,
其中,所述Cas9蛋白为:
1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,
或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
(2)根据权利要求9所述的载体和根据权利要求11所述的载体;
(3)根据权利要求10所述的载体;以及
(4)根据权利要求12所述的CRISPR/Cas9基因编辑系统;
其中,在与靶序列接触后,所述Cas9蛋白、其同源物、缀合物或融合蛋白识别各自的原间隔邻近序列(PAM),所述PAM位于靶序列的5’端,并且,对于所述Sa-SchCas9蛋白、所述SchCas9蛋白、所述Sha3Cas9蛋白、所述SmiCas9蛋白、所述Sha2Cas9蛋白、所述SpeCas9蛋白、所述Sha2Cas9-HF1蛋白、所述Sha2Cas9-HF2蛋白、所述Sha2Cas9-R247A蛋白、所述SpeCas9-HF1蛋白、所述SpeCas9-HF2蛋白、所述SpeCas9-HF3蛋白、所述SdeCas9蛋白、所述SwaCas9蛋白、所述MscCas9蛋白、所述SsiCas9蛋白、所述SlcCas9蛋白、所述Slc2Cas9蛋白、所述Slc3Cas9蛋白、所述Sch2Cas9蛋白、所述SroCas9蛋白、所述MflCas9蛋白、或所述Swa2Cas9蛋白、或者它们各自的同源物、缀合物或融合蛋白,所述PAM分别具有序列5’-NNGR、5’-NNGR、5’-NNGRC、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGG、5’-NNGRRT、5’-NNGG、5’-NNGRR、5’-NNGR、5’-NNGRRR、5’-NNGA、5’-NNGRC、5’-NNGRC、5’-NNGR、5’-NNGR和5’-NNGG;
例如,所述细胞为原核细胞或者真核细胞,所述真核细胞为例如植物细胞或动物细胞,所述动物细胞为例如哺乳动物细胞如人类细胞;
例如,所述基因编辑包括对靶序列的基因敲除、定点碱基的改变、定点插入、基因转录水平的调控、DNA甲基化调控、DNA乙酰化修饰、组蛋白乙酰化修饰、单碱基转换以及染色质成像追踪中的一种或者多种,例如,所述单碱基转换包括碱基腺嘌呤到鸟嘌呤的转换、胞嘧啶到胸腺嘧啶的转换或胞嘧啶到尿嘧啶的转换。
15.根据权利要求14所述的方法,其中,所述单链向导RNA的CRISPR间隔序列与所述靶序列形成完全碱基互补配对结构,而与非靶序列形成不完全碱基互补配对的结构;
例如,所述不完全碱基互补配对结构包括一个或者多个例如两个或者更多个碱基错配的结构。
16.一种试剂盒,所述试剂盒用于对细胞内或者体外环境中的靶序列进行基因编辑,包括:
a)选自以下1)至6)中的任一项:
1)Cas9蛋白、根据权利要求2所述的缀合物、或者根据权利要求3所述的融合蛋白,和根据权利要求4至5中任一项所述的与所述Cas9蛋白对应的单链向导RNA;
其中,所述Cas9蛋白为:
1.1)具有SEQ ID NO:1所示氨基酸序列的Sa-SchCas9蛋白,
具有SEQ ID NO:2所示氨基酸序列的SchCas9蛋白,
具有SEQ ID NO:3所示氨基酸序列的Sha3Cas9蛋白,
具有SEQ ID NO:4所示氨基酸序列的SmiCas9蛋白,
具有SEQ ID NO:5所示氨基酸序列的Sha2Cas9蛋白,
具有SEQ ID NO:6所示氨基酸序列的SpeCas9蛋白,
具有SEQ ID NO:7所示氨基酸序列的Sha2Cas9-HF1蛋白,
具有SEQ ID NO:8所示氨基酸序列的Sha2Cas9-HF2蛋白,
具有SEQ ID NO:9所示氨基酸序列的Sha2Cas9-R247A蛋白,
具有SEQ ID NO:10所示氨基酸序列的SpeCas9-HF1蛋白,
具有SEQ ID NO:11所示氨基酸序列的SpeCas9-HF2蛋白,
具有SEQ ID NO:12所示氨基酸序列的SpeCas9-HF3蛋白,
具有SEQ ID NO:13所示氨基酸序列的SdeCas9蛋白,
具有SEQ ID NO:14所示氨基酸序列的SwaCas9蛋白,
具有SEQ ID NO:15所示氨基酸序列的MscCas9蛋白,
具有SEQ ID NO:16所示氨基酸序列的SsiCas9蛋白,
具有SEQ ID NO:17所示氨基酸序列的SlcCas9蛋白,
具有SEQ ID NO:18所示氨基酸序列的Slc2Cas9蛋白,
具有SEQ ID NO:19所示氨基酸序列的Slc3Cas9蛋白
具有SEQ ID NO:20所示氨基酸序列的Sch2Cas9蛋白,
具有SEQ ID NO:21所示氨基酸序列的SroCas9蛋白,
具有SEQ ID NO:22所示氨基酸序列的MflCas9蛋白,或
具有SEQ ID NO:23所示氨基酸序列的Swa2Cas9蛋白;
或者为
1.2)具有与SEQ ID NO:1、SEQ ID NO:2、SEQ ID NO:3、SEQ ID NO:4、SEQ ID NO:5、SEQID NO:6、SEQ ID NO:7、SEQ ID NO:8、SEQ ID NO:9、SEQ ID NO:10、SEQ ID NO:11、SEQ IDNO:12、SEQ ID NO:13、SEQ ID NO:14、SEQ ID NO:15、SEQ ID NO:16、SEQ ID NO:17、SEQ IDNO:18、SEQ ID NO:19、SEQ ID NO:20、SEQ ID NO:21、SEQ ID NO:22和SEQ ID NO:23中任一个所示的氨基酸序列至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、至少99.9%、至少99.95%、至少99.99%、至少99.999%、至少100%、或者80%-100%中任一百分比的序列同一性并且保留其生物学活性的氨基酸序列的同源物;
2)根据权利要求6所述的分离的核酸分子和根据权利要求8所述的分离的核酸分子;
3)根据权利要求7所述的分离的核酸分子;
4)根据权利要求9所述的载体和根据权利要求11所述的载体;
5)根据权利要求10所述的载体;或者
6)根据权利要求12所述的CRISPR/Cas9基因编辑系统;以及
如何对细胞内或体外环境中的靶序列进行基因编辑的说明书。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410453635.0A CN118325867A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202410363619.2A CN118652869A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202110765655.8A CN113583999B (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110765655.8A CN113583999B (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Related Child Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410453635.0A Division CN118325867A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202410363619.2A Division CN118652869A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113583999A true CN113583999A (zh) | 2021-11-02 |
CN113583999B CN113583999B (zh) | 2024-07-12 |
Family
ID=78246021
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110765655.8A Active CN113583999B (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202410453635.0A Pending CN118325867A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202410363619.2A Pending CN118652869A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Family Applications After (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410453635.0A Pending CN118325867A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
CN202410363619.2A Pending CN118652869A (zh) | 2021-07-06 | 2021-07-06 | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Country Status (1)
Country | Link |
---|---|
CN (3) | CN113583999B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116286742A (zh) * | 2022-09-29 | 2023-06-23 | 隆平生物技术(海南)有限公司 | CasD蛋白、CRISPR/CasD基因编辑系统及其在植物基因编辑中的应用 |
CN116478961A (zh) * | 2023-04-27 | 2023-07-25 | 北京因诺惟康医药科技有限公司 | CRISPR/SprCas9基因编辑系统的开发及应用 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110551761A (zh) * | 2019-08-08 | 2019-12-10 | 复旦大学 | CRISPR/Sa-SepCas9基因编辑系统及其应用 |
CN112662674A (zh) * | 2021-01-12 | 2021-04-16 | 广州瑞风生物科技有限公司 | 靶向编辑VEGFA基因外显子区域的gRNA及其应用 |
-
2021
- 2021-07-06 CN CN202110765655.8A patent/CN113583999B/zh active Active
- 2021-07-06 CN CN202410453635.0A patent/CN118325867A/zh active Pending
- 2021-07-06 CN CN202410363619.2A patent/CN118652869A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110551761A (zh) * | 2019-08-08 | 2019-12-10 | 复旦大学 | CRISPR/Sa-SepCas9基因编辑系统及其应用 |
CN112662674A (zh) * | 2021-01-12 | 2021-04-16 | 广州瑞风生物科技有限公司 | 靶向编辑VEGFA基因外显子区域的gRNA及其应用 |
Non-Patent Citations (1)
Title |
---|
HAFT, D. H. ET AL.: "type II CRISPR RNA-guided endonuclease Cas9 [Staphylococcus chromogenes],WP_107389582", GENBANK DATABASE * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116286742A (zh) * | 2022-09-29 | 2023-06-23 | 隆平生物技术(海南)有限公司 | CasD蛋白、CRISPR/CasD基因编辑系统及其在植物基因编辑中的应用 |
CN116286742B (zh) * | 2022-09-29 | 2023-11-17 | 隆平生物技术(海南)有限公司 | CasD蛋白、CRISPR/CasD基因编辑系统及其在植物基因编辑中的应用 |
CN116478961A (zh) * | 2023-04-27 | 2023-07-25 | 北京因诺惟康医药科技有限公司 | CRISPR/SprCas9基因编辑系统的开发及应用 |
CN116478961B (zh) * | 2023-04-27 | 2023-09-15 | 北京因诺惟康医药科技有限公司 | CRISPR/SprCas9基因编辑系统的开发及应用 |
Also Published As
Publication number | Publication date |
---|---|
CN118652869A (zh) | 2024-09-17 |
CN118325867A (zh) | 2024-07-12 |
CN113583999B (zh) | 2024-07-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113373130A (zh) | Cas12蛋白、含有Cas12蛋白的基因编辑系统及应用 | |
KR102084186B1 (ko) | Dna 단일가닥 절단에 의한 염기 교정 비표적 위치 확인 방법 | |
US20230272380A1 (en) | Engineered Guide RNA Sequences for In Situ Detection and Sequencing | |
US20200354729A1 (en) | Fusion proteins for improved precision in base editing | |
CN114672473B (zh) | 一种优化的Cas蛋白及其应用 | |
CN113015798B (zh) | CRISPR-Cas12a酶和系统 | |
CN114438055B (zh) | 新型的crispr酶和系统以及应用 | |
CN102558309A (zh) | 一对转录激活子样效应因子核酸酶及其编码基因与应用 | |
CN114410609B (zh) | 一种活性提高的Cas蛋白以及应用 | |
EP3940078A1 (en) | Off-target single nucleotide variants caused by single-base editing and high-specificity off-target-free single-base gene editing tool | |
CN113583999A (zh) | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 | |
WO2020087631A1 (zh) | 基于C2c1核酸酶的基因组编辑系统和方法 | |
CN116179512B (zh) | 靶标识别范围广的核酸内切酶及其应用 | |
CN116601310A (zh) | 连锁读段测序文库的制备 | |
CN116751762A (zh) | Cas12b蛋白、单链向导RNA、包含它们的基因编辑系统及相关应用 | |
CN117025570A (zh) | Cas12a突变体蛋白、含有Cas12a突变体蛋白的基因编辑系统及应用 | |
CN110551762B (zh) | CRISPR/ShaCas9基因编辑系统及其应用 | |
CN110499334A (zh) | CRISPR/SlugCas9基因编辑系统及其应用 | |
CN113652411A (zh) | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 | |
CN110551763B (zh) | CRISPR/SlutCas9基因编辑系统及其应用 | |
CN114990093A (zh) | 氨基酸序列小的蛋白序列mini rfx-cas13d | |
CN118165956A (zh) | 基于Tsp2Cas9蛋白的CRISPR/Cas9基因编辑系统及其相关应用 | |
JP2024501892A (ja) | 新規の核酸誘導型ヌクレアーゼ | |
CN117083380A (zh) | Crispr相关转座子系统及其使用方法 | |
CN116144629A (zh) | Cas9蛋白、含有Cas9蛋白的基因编辑系统及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |