Nothing Special   »   [go: up one dir, main page]

ES2894725T3 - Proteína asociada a CRISPR (CAS) - Google Patents

Proteína asociada a CRISPR (CAS) Download PDF

Info

Publication number
ES2894725T3
ES2894725T3 ES18720431T ES18720431T ES2894725T3 ES 2894725 T3 ES2894725 T3 ES 2894725T3 ES 18720431 T ES18720431 T ES 18720431T ES 18720431 T ES18720431 T ES 18720431T ES 2894725 T3 ES2894725 T3 ES 2894725T3
Authority
ES
Spain
Prior art keywords
casm
sequence
protein
polynucleotide
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18720431T
Other languages
English (en)
Inventor
Matthew Merrill Carter
Paul Daniel Donohoue
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Locanabio Inc
Original Assignee
Locanabio Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Locanabio Inc filed Critical Locanabio Inc
Application granted granted Critical
Publication of ES2894725T3 publication Critical patent/ES2894725T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • C12N15/1136Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing against growth factors, growth regulators, cytokines, lymphokines or hormones
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/22Vectors comprising a coding region that has been codon optimised for expression in a respective host
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A40/00Adaptation technologies in agriculture, forestry, livestock or agroalimentary production
    • Y02A40/10Adaptation technologies in agriculture, forestry, livestock or agroalimentary production in agriculture
    • Y02A40/146Genetically Modified [GMO] plants, e.g. transgenic plants

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Medicinal Chemistry (AREA)
  • Endocrinology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

Un vector recombinante, que comprende: un polinucleótido que comprende una secuencia codificante para una proteína (CasM) asociada a repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR) que comprende una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37 a 44 y 45, o una secuencia de aminoácidos que tiene 90% o más de identidad de secuencia con una secuencia de aminoácidos seleccionada del grupo que consiste en las secuencias de aminoácidos de SEQ ID NOS: 37 a 44 y 45; y al menos un elemento de control enlazado operativamente al polinucleótido, por lo que la secuencia codificante de CasM en el polinucleótido puede transcribirse y traducirse en una célula hospedante.

Description

DESCRIPCIÓN
Proteína asociada a CRISPR (CAS)
CAMPO TÉCNICO
La presente invención se refiere a sistemas de repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR). En particular, la invención se refiere a una nueva proteína asociada a CRISPR (Cas), denominada “CasM”, y a los usos de CasM para la manipulación de ácidos nucleicos de sitios específicos.
ANTECEDENTES DE LA INVENCIÓN
Las proteínas de repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR) y proteínas asociadas a CRISPR (Cas) se encuentran en los sistemas inmunitarios procariotas. Estos sistemas proporcionan resistencia contra elementos genéticos exógenos, tales como virus y plásmidos, seleccionando como dianas sus ácidos nucleicos para su degradación, de una manera específica de la secuencia.
Hay varios sistemas CRISPR-Cas diferentes, y la nomenclatura y clasificación de éstos han cambiado a medida que se han caracterizado los sistemas. En particular, los sistemas CRISPR-Cas ahora se han reclasificado en dos clases, que contienen varios tipos y subtipos (Makarova et al., Nature Reviews Microbiology (2015) 13:1-15; Shmakov et al., Nature Reviews Microbiology (2017) 15:169-182). Esta clasificación se basa en identificar de todos genes cas en un locus CRISPR-Cas y determinar después los genes distintivos en cada locus CRISPR-Cas, determinando así si los sistemas CRISPR-Cas deben colocarse en Clase 1 o Clase 2 en función de los genes que codifican el módulo efector, es decir, las proteínas implicadas en la etapa de interferencia.
Sigue existiendo la necesidad de descubrir y caracterizar nuevas proteínas asociadas a CRISPR (Cas), y su uso potencial para la manipulación de ácidos nucleicos de sitios específicos.
SUMARIO
La presente invención se basa en el descubrimiento de una nueva proteína Cas, denominada aquí “CasM”. Esta proteína no comparte homología con ninguna proteína Cas conocida ni con ninguna familia de proteínas conocida.
La invención está definida por las reivindicaciones adjuntas.
Se describe una proteína CasM aislada capaz de producir una rotura de una sola hebra en un sitio diana del ARN cuando se guía hacia el sitio diana del ARN mediante una guía de ácido nucleico afín. La guía de ácido nucleico afín puede comprender ARN, tal como ARNcr. La proteína CasM puede comprender una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45; un ortólogo de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, es decir, una secuencia de CasM de una especie distinta de la especie que produce la secuencia de referencia; y una variante de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, por ejemplo un homólogo activo de la secuencia de aminoácidos de referencia.
Se describe además un complejo que comprende una proteína CasM, y una guía de ácido nucleico afín. La guía de ácido nucleico afín en el complejo puede comprender una secuencia repetida y una secuencia espaciadora, en la que la secuencia repetida y la secuencia espaciadora no aparecen juntas de forma natural. La guía de ácido nucleico afín puede comprender un análogo de base modificado.
La guía de ácido nucleico afín puede comprender ARN, tal como, pero sin limitarse a, ARNcr. La guía de ácido nucleico afín, tal como ARNcr, puede comprender una secuencia espaciadora que es complementaria a una secuencia diana de ADN o ARN que aparece en una célula procariota o eucariota.
El complejo de ARNcr/proteína CasM puede ser capaz de unirse a una primera secuencia diana de ARN complementaria a la secuencia espaciadora de ARNcr, en el que la unión del complejo de ARNcr/proteína CasM da como resultado la escisión de una primera diana de ARN. Después de la escisión de la primera secuencia diana de ARN por el complejo de ARNcr/proteína CasM, el complejo puede tener actividad de endonucleasa no específica hacia cualquier ARN monocatenario de una manera independiente de la secuencia.
El complejo puede modificar la transcripción o traducción de un locus diana en la célula.
Se describe además un polinucleótido aislado que codifica una proteína CasM, en el que la proteína CasM es capaz de producir una rotura de una sola hebra en un sitio diana de ARN cuando se guía hacia el sitio diana de ARN mediante una guía de ácido nucleico afín. La guía de ácido nucleico afín puede comprender ARN, tal como ARNcr. La proteína CasM codificada por el polinucleótido puede comprender una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45; un ortólogo de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, es decir, una secuencia de CasM de una especie distinta de la especie que produce la secuencia de referencia; y una variante de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, por ejemplo un homólogo activo de la secuencia de aminoácidos de referencia.
Se describe además un polinucleótido modificado que codifica una proteína CasM, en el que la proteína CasM es capaz de producir una rotura de una sola hebra en un sitio diana del ARN cuando se guía hacia el sitio diana del ARN mediante una guía de ácido nucleico afín, en el que el polinucleótido se modifica con respecto a su secuencia nativa, tal como se modifica para la expresión en una célula hospedante seleccionada. La proteína CasM codificada por el polinucleótido puede comprender una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45; un ortólogo de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, es decir, una secuencia de CasM de una especie distinta de la especie que produce la secuencia de referencia; y una variante de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45, por ejemplo un homólogo activo de la secuencia de aminoácidos de referencia.
El polinucleótido puede modificarse para la expresión en una célula bacteriana, tal como para la expresión en una célula de Escherichia coli. El polinucleótido puede comprender la secuencia de SEQ ID NOS: 2-8 o 9.
El polinucleótido puede modificarse para la expresión en una célula eucariota, por ejemplo una célula de mamífero, tal como una célula humana. El polinucleótido puede comprender la secuencia de SEQ ID NOS: 10-17 o 18.
El polinucleótido puede modificarse para la expresión en una célula vegetal, tal como para la expresión en una célula de Zea mays (maíz). El polinucleótido puede comprender la secuencia de SEQ ID NOS: 19-26 o 27.
En un aspecto, la invención se refiere a un vector recombinante que comprende un polinucleótido o polinucleótido modificado como se describe aquí, y al menos un elemento de control enlazado operativamente al polinucleótido, por lo que una secuencia codificante de CasM en el polinucleótido puede transcribirse y traducirse en una célula hospedante. En ciertas realizaciones, al menos uno de los elementos de control es heterólogo al sistema codificante.
La proteína CasM codificada por el polinucleótido comprende una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37-44 y 45, o una secuencia de aminoácidos que tiene 90% o más de identidad de secuencia con una secuencia de aminoácidos seleccionada del grupo que consiste en las secuencias de aminoácidos de SEQ ID NOS: 37 a 44 y 45.
En realizaciones adicionales, la invención se refiere a una célula hospedante transformada con un vector recombinante descrito aquí. En ciertas realizaciones, la célula hospedante es una célula procariota o eucariota.
Se describe además un método para producir una proteína CasM, que comprende proporcionar una población de células hospedantes transformadas con un vector recombinante como se describe aquí; y cultivar la población de células en condiciones en las que se expresa la proteína CasM codificada por el polinucleótido presente en el vector recombinante.
También se describe una célula hospedante eucariota que comprende una proteína CasM de un complejo que comprende la proteína CasM, como se describe aquí.
También se describe un método para dirigir una proteína CasM hacia una secuencia diana de ácido nucleico seleccionada, que comprende poner en contacto la secuencia diana de ácido nucleico seleccionada con un complejo de guía de ácido nucleico afín/CasM que selecciona como diana dicha secuencia diana de ácido nucleico seleccionada, con lo cual la proteína CasM se suministra a la secuencia diana de ácido nucleico. La secuencia diana de ácido nucleico puede comprender ARN, tal como ARNm. El método puede comprender producir una o más roturas monocatenarias o bicatenarias en la secuencia diana.
El método puede realizarse en una célula, tal como una célula procariota o eucariota. La célula puede expresar constitutivamente la proteína CasM. Alternativamente, por ejemplo, cuando la célula no expresa constitutivamente la proteína CasM, la guía de ácido nucleico afín puede complejarse con la proteína CasM antes del suministro a la secuencia diana de ácido nucleico. La célula puede expresar constitutivamente la proteína CasM y la guía de ácido nucleico afín. El complejo puede modificar en una célula hospedante la transcripción o traducción de una secuencia de ácido nucleico seleccionada, tal como una secuencia de ARN.
En los métodos, la proteína CasM puede comprender una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45; un ortólogo de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45; y una variante de la secuencia de aminoácidos de SEQ ID NOS: 37-44 o 45.
Un polinucleótido donante puede suministrarse a la región de la secuencia diana de ácido nucleico seleccionada.
La proteína CasM puede ser capaz de procesar la matriz de repetición-espaciador de CRISPR en elementos de repetición-espaciador individuales. La proteína CasM puede escindir la matriz dentro de la región 5’ de cada secuencia repetida, dando lugar a un ARNcr procesado que comprende, en una dirección 5’ a 3’, una secuencia repetida y un elemento espaciador.
La secuencia repetida puede comprender una estructura secundaria que es reconocida por la proteína CasM. La estructura secundaria de la repetición puede comprender un tallo, un dúplex de tallo-bucle, un pseudonudo, o un dúplex tripartito. Los homólogos de la proteína CasM solo pueden reconocer la secuencia repetida o la estructura secundaria de sus elementos repetidos afines. Alternativamente, los homólogos de la proteína CasM pueden reconocer la secuencia repetida o la estructura secundaria de elementos repetidos no afines.
El complejo de ARNcr/CasM puede tener actividad de ARN monocatenario específica de secuencia. El reconocimiento y la escisión de un ARNss inicial complementario a la secuencia diana de ARNcr activa la proteína CasM para llevar a cabo la actividad de endonucleasa hacia cualquier ARN monocatenario de una manera independiente de la secuencia. El reconocimiento específico de secuencia de ARN del complejo de ARNcr/CasM facilita la eliminación diana de transcritos génicos que perturban la traducción de una proteína específica. La actividad de endonucleasa inespecífica de un complejo activado de ARNcr/CasM en un entorno celular puede provocar la muerte celular debido al agotamiento del ARN que codifica transcritos génicos esenciales. La dianización específica del ARN y la actividad de endonucleasa colateral de un complejo activado de ARNcr/CasM permite la selección específica de secuencia de células que expresan un transcrito de ARN.
Se describe además un método de cribado y destrucción de células que no han sido modificadas por una nucleasa dianizadora de ADN (por ejemplo, una Cas9 nucleasa de tipo II). Este método comprende poner en contacto un complejo de ARNcr/Cas9 con un locus de interés en una población de células. La puesta en contacto con el complejo de NATNA/Cas9 da como resultado la escisión del ADN y la subsiguiente reparación de la rotura por la máquina de reparación celular endógena y la introducción de inserciones y supresiones (“indeles”) en el sitio de rotura. El direccionamiento de NATNA/Cas9 hacia un locus seleccionado como diana que codifica un transcrito de ARN da como resultado indeles en una secuencia del transcrito de ARN. Esta secuencia del transcrito de ARN modificada es diferente en comparación con un transcrito procedente de una célula sin modificar (una célula de tipo salvaje). Un complejo de guía de ácido nucleico afín/CasM puede dirigirse entonces contra el transcrito no modificado, en el que el reconocimiento del transcrito no modificado por el complejo da como resultado la activación de la actividad de dianización del ARN monocatenario independiente de la secuencia, de la proteína CasM, y la muerte celular subsiguiente. Alternativamente, este método puede adaptarse para cribar la incorporación de un polinucleótido donante en el sitio de rotura de NATNA/Cas9.
Estos aspectos y otras realizaciones de la presente descripción se les ocurrirán fácilmente a los expertos en la técnica en vista de la descripción aquí.
LISTADO DE SECUENCIAS
Las secuencias a las que se hace referencia aquí se enumeran en la Listado de Secuencias enviado como archivo de texto ASCII titulado “CBI025 30_ST25.txt” - 300 KB, y se creó el 22 de marzo de 2018. El Listado de Secuencias titulado “CBI025 30_ST25.txt” se incorpora aquí como referencia en su totalidad.
BREVE DESCRIPCIÓN DE LAS FIGURAS
La FIG. 1 representa un operón CasM representativo de Eubacterium siraeum (N° de acceso de NCBI NZ_DS499551.1).
La FIG. 2 muestra una estructura de una secuencia repetida de CasM (SEQ ID NO: 51).
La FIG. 3 muestra los resultados del ensayo in vitro de escisión de matriz CRISPR descrito en los Ejemplos.
La FIG. 4 muestra una representación de una matriz CRISPR de CasM sintética.
La FIG. 5 muestra una representación de los resultados del ensayo in vitro de escisión de matriz CRISPR mostrados en la FIG. 3 y descritos en los Ejemplos.
La FIG. 6 muestra los resultados del ensayo de escisión de ARNss de CasM descritos en los Ejemplos.
DESCRIPCIÓN DETALLADA DE LA INVENCIÓN
Debe entenderse que la terminología usada aquí tiene el fin de describir realizaciones particulares únicamente, y no pretende ser limitante. Como se usa en esta memoria descriptiva y las reivindicaciones adjuntas, las formas singulares “un”, “una” y “el/la” incluyen referentes plurales a menos que el contexto indique claramente lo contrario. Así, por ejemplo, la referencia a un “complejo de guía/Cas” incluye uno o más de tales complejos; la referencia a “un polinucleótido” incluye uno o más polinucleótidos; etc.
A menos que se defina de otro modo, todos los términos técnicos y científicos usados aquí tienen el mismo significado que el comúnmente entendido por un experto en la técnica a la que pertenece la invención. Aunque en la práctica de la presente invención se pueden usar otros métodos y materiales similares, o equivalentes, a los descritos aquí, se describen aquí materiales y métodos preferidos.
En vista de las enseñanzas de la presente memoria descriptiva, un experto en la técnica puede aplicar técnicas convencionales de inmunología, bioquímica, química, biología molecular, microbiología, biología celular, genómica, y polinucleótidos recombinantes, como se enseña, por ejemplo, por los siguientes textos estándar: Antibodies: A Laboratory Manual, Segunda edición, E. A. Greenfield, 2014, Cold Spring Harbor Laboratory Press, ISBN 978-1936113-81-1; Culture of Animal Cells: A Manual of Basic Technique and Specialized Applications, 6a Edición, R. I. Freshney, 2010, Wiley-Blackwell, ISBN 978-0-470-52812-9; Transgenic Animal Technology, Tercera Edición: A Laboratory Handbook, 2014, C. A. Pinkert, Elsevier, ISBN 978-0124104907; The Laboratory Mouse, Segunda Edición, 2012, H. Hedrich, Academic Press, ISBN 978-0123820082; Manipulating the Mouse Embryo: A Laboratory Manual, 2013, R. Behringer, et al., Cold Spring Harbor Laboratory Press, ISBN 978-1936113019; PCR2: A Practical Approach, 1995, M. J. McPherson, et al., IRL Press, ISBN 978-0199634248; Methods in Molecular Biology (Series), J.M. Walker, ISSN 1064-3745, Humana Press; RNA: A Laboratory Manual, 2010, D. C. Rio, et al., Cold Spring Harbor Laboratory Press, ISBN 978-0879698911; Methods in Enzymology (Series), Academic Press; Molecular Cloning: A Laboratory Manual (Cuarta Edición), 2012, M. R. Green, et al., Cold Spring Harbor Laboratory Press, ISBN 978-1605500560; Bioconjugate Techniques, Tercera Edición, 2013, G. T. Hermanson, Academic Press, ISBN 978-0123822390; Methods in Plant Biochemistry and Molecular Biology, 1997, W. V. Dashek, CRC Press, ISBN 978-0849394805; Plant Cell Culture Protocols (Methods in Molecular Biology), 2012, V. M. Loyola-Vargas, et al., Humana Press, ISBN 978­ 1617798177; Plant Transformation Technologies, 2011, C. N. Stewart, et al., Wiley-Blackwell, ISBN 978-0813821955; Recombinant Proteins from Plants (Methods in Biotechnology), 2010, C. Cunningham, et al., Humana Press, ISBN 978-1617370212; Plant Genomics: Methods and Protocols (Methods in Molecular Biology), 2009, D. J. Somers, et al., Humana Press, ISBN 978-1588299970; Plant Biotechnology: Methods in Tissue Culture and Gene Transfer, 2008, R. Keshavachandran, et al., Orient Blackswan, ISBN 978-8173716164.
Como se usa aquí, “una proteína CasM” se refiere a una proteína CRISPR capaz de seleccionar como diana al ARN y causar roturas de ARN de una sola hebra cuando es guiada hacia un sitio diana mediante un ARNcr, sin la necesidad de asociación con un ARNtracr. Las proteínas CasM incluyen típicamente dos o más dominios de unión a nucleótidos procarióticos y eucarióticos superiores (HEPN) que se encuentran en la familia de proteínas PF05168 en la región C-terminal de la secuencia de CasM. Las proteínas CasM muestran sintenia con una o más proteínas que contienen el dominio WYL, y algunas veces con proteínas que contienen el dominio RtcB (ARN 3’-terminal fosfato ciclasa, grupo B). En base a las características anteriores, CasM puede clasificarse como un sistema CRISPR-Cas de Clase 2 Tipo VI debido a que es una proteína efectora única que contiene dos dominios HEPN usados para la interferencia de ARNss dianizada. Sin embargo, CasM tiene un grado muy bajo de similitud de secuencia con otros subtipos de Tipo VI. Las proteínas CasM ejemplares se muestran en SEQ ID NOS: 37-45, y están codificadas por polinucleótidos mostrados en SEQ ID NOS: 28-36, respectivamente. Estas proteínas muestran aproximadamente 13,59% a 99,82% de identidad de secuencia entre sí, y muestran menos de 8% de identidad de secuencia con otras proteínas CRISPR-Cas conocidas. Como se usa aquí, la expresión “proteína CasM” se refiere a una proteína CasM derivada de cualquier especie, subespecie o cepa de bacterias que codifica la proteína CasM, así como un ortólogo de la proteína CasM, es decir, una proteína CasM de una especie distinta de la especie que produce la proteína CasM de referencia. Por ejemplo, los ortólogos de CasM de CasM de Eubacterium siraeum, que se muestran en la Tabla 1, presentan aproximadamente 13,59% a 99,82% de identidad de secuencia entre sí. De este modo, los ortólogos de CasM se identifican en función de las características de CasM detalladas aquí. La referencia a una proteína CasM también abarca una variante de la proteína CasM de referencia, por ejemplo un homólogo activo de la secuencia de aminoácidos de referencia. De este modo, las proteínas CasM incluyen, pero no se limitan a, aquellas proteínas representadas en SEQ ID NOS: 37-45, ortólogos de las mismas, o variantes de las mismas. Los ejemplos no limitantes de tales proteínas incluyen proteínas CasM de Eubacterium siraeum; Ruminococcus sp., tal como de Ruminococcus bicirculans; Ruminococcus flavefaciens, tales como, pero sin limitarse a, FD-1 y la cepa XPD3002; Ruminococcus albus, tal como, pero sin limitarse a, la cepa KH2T6; aislados de Ruminococcus sp., tales como, pero sin limitarse a, los aislados 2789STDY5834971,2789STDY5608892 y 2789STDY5834894.
Por “proteína dCasM” se entiende una proteína CasM desactivada que carece de actividad, tal como actividad catalítica y/o de unión, también denominada “CasM muerta”. Dichas moléculas carecen de toda o una parte de la actividad biológica, tal como la actividad de nucleasa y/o de unión, y por lo tanto son incapaces de unirse y/o escindir un ácido nucleico diana de interés, respectivamente. En algunas realizaciones, estas proteínas CasM desactivadas pueden usarse para regular genes de una manera guiada por ácido nucleico. Esto se logra mediante la introducción de mutaciones que inactivan la función de nucleasa de CasM, y típicamente implica la mutación de restos catalíticos del gen que codifica CasM. dCasM se puede usar sola o en fusiones para reprimir sintéticamente (interferencia CRISPR o CRISPRi) o activar (activación CRISPR o CRISPRa) la expresión génica. CRISPRi puede funcionar independientemente de las maquinarias celulares del anfitrión. En algunas realizaciones, una proteína dCasM y un ácido nucleico dirigido al ácido nucleico personalizado, es decir, una guía de ácido nucleico afín diseñada con una región complementaria de cualquier gen de interés, se usan para dirigir dCasM a una ubicación genómica escogida. En otras realizaciones, dCasM se puede fusionar a un factor de transcripción, tal como un represor, y la dCasM-factor de transcripción fusionados pueden entonces trabajar en concierto con maquinarias celulares. CRISPRa se lleva a cabo mediante fusiones de dCasM-factor de transcripción (activador).
Un “ácido nucleico dirigido al ácido nucleico” (NATNA), como se usa aquí, se refiere a uno o más polinucleótidos que guían una proteína, tal como una proteína CasM, para dirigirse preferentemente a una secuencia diana de ácido nucleico presente en un polinucleótido (con respecto a un polinucleótido que no comprende la secuencia diana de ácido nucleico). Dichos NATNA también se conocen aquí como “guías de ácido nucleico afines” o “guías afines”. Los NATNA pueden comprender bases de ribonucleótidos (por ejemplo, ARN), bases de desoxirribonucleótidos (por ejemplo, ADN), combinaciones de bases de ribonucleótidos y bases de desoxirribonucleótidos (por ejemplo, ARN/ADN), nucleótidos, análogos de nucleótidos, nucleótidos modificados, y similares, así como restos de cadena principal modificada o enlaces sintéticos, de origen natural, y de origen no natural. De este modo, un NATNA, como se usa aquí, guía de manera específica del sitio una CasM, o una CasM desactivada, hacia un ácido nucleico diana. Se conocen muchos de estos NATNA, tales como, pero sin limitarse a, ARNgu (incluyendo ARN de guía única en miniatura y truncados), ARNcr, ARN de doble guía, que incluyen, pero sin limitarse a, moléculas de ARNcr/ARNtracr, como se describe aquí, y similares, cuyo uso depende de la proteína Cas particular. Para obtener una descripción no limitativa de NATNA ejemplares, véanse, por ejemplo, la Publicación PCT No. WO 2014/150624 de May et al., publicada el 29 de septiembre de 2014; la Publicación PCT No. WO 2015/200555 de May et al., publicada el 10 de marzo de 2016; la Publicación PCT No. WO 2016/201155 de Donohoue et al., publicada el 15 de diciembre de 2016; la Publicación PCT No. WO 2017/027423 de Donohoue et al., publicada el 16 de febrero de 2017; y la Publicación PCT No. WO 2016/123230 de May et al., publicada el 4 de agosto de 2016.
Con referencia a un NATNA o una guía de ácido nucleico afín, un “espaciador”, “secuencia espadadora”, o “elemento espaciador”, como se usa aquí, se refiere a la secuencia polinucleotídica que se puede hibridar específicamente con una secuencia de ácido nucleico diana. El elemento espaciador interactúa con la secuencia de ácido nucleico diana a través de enlaces de hidrógeno entre pares de bases complementarios (es decir, bases emparejadas). Un elemento espaciador se une a una secuencia diana de ácido nucleico seleccionada. Por consiguiente, el elemento espaciador es la secuencia de unión a la diana de ácido nucleico. El elemento espaciador determina la ubicación de la escisión nucleolítica y la unión específica del sitio de una proteína Cas. Los elementos espaciadores varían de aproximadamente 17 a aproximadamente 84 nucleótidos de longitud, y tienen una longitud promedio de 36 nucleótidos (véase, por ejemplo, Marraffini, et al., “CRISPR interference: RNA-directed adaptive immunity in bacteria and archaea,” Nature reviews Genetics (2010) 11:181-190). La variabilidad de la longitud funcional de un elemento espaciador es conocida en la técnica (por ejemplo, Publicación de Patente U.S. 2014/0315985 de May et al., publicada el 23 de octubre de 2014). Las expresiones “secuencia de unión a la diana de ácido nucleico” y “secuencia espadadora” se usan indistintamente aquí.
El término “ARNgu” se refiere típicamente a un ARN de guía única (es decir, una única secuencia polinucleotídica contigua) que esencialmente comprende un ARNcr conectado en su extremo 3’ al extremo 5’ de un ARNtracr a través de una secuencia de “bucle” (véase, por ejemplo, la Solicitud de Patente Publicada U.S. No. 2014/0068797 de Doudna et al., publicada el 6 de marzo de 2014). ARNgu interactúa con una proteína Cas afín esencialmente como se describe para los polinucleótidos ARNtracr/ARNcr. Similar al ARNcr, ARNgu tiene un espaciador, una región de complementariedad con una secuencia diana potencial de ADN o ARN, adyacente a una segunda región que forma enlaces de hidrógeno de pares de bases que forman una estructura secundaria, típicamente una estructura de tallo. El término incluye ARN de guía única truncados (tru-ARNgu) de aproximadamente 17-18 nucleótidos (nt) (véase, por ejemplo, Fu et. al., Nat Biotechnol. (2014) 32:279-284). El término también abarca ARNsg en miniatura funcionales con características prescindibles eliminadas, pero que retienen un módulo esencial y conservado denominado “nexo” ubicado en la porción de ARNgu que corresponde a ARNtracr (no ARNcr). Véanse, por ejemplo, la Publicación de Patente U.S. 2014/0315985 de May et al., publicada el 23 de octubre de 2014; Briner et al., “Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality”, Molecular Cell (2014) 56:333-339.
Como se usa aquí, “ARN de guía dual” se refiere a un sistema de ARN de dos componentes para un componente polinucleotídico capaz de asociarse con una proteína Cas afín. Un ARN de guía dual asociado a CRISPR-Cas CRISPR Clase 2 Tipo II representativo incluye un Cas-ARNcr y Cas-ARNtracr, emparejados por enlaces de hidrógeno para formar una estructura secundaria (véase, por ejemplo, la Solicitud de Patente Publicada U.S. No. 2014/0068797 de Doudna et al., publicada el 6 de marzo de 2014; véase también, Jinek M., et al., Science 337: 816-21 (2012)). Un ARN de guía dual Cas es capaz de formar un complejo de nucleoproteína con una proteína Cas análoga, en el que el complejo es capaz de dirigirse a una secuencia diana de ácido nucleico complementaria a la secuencia espaciadora.
Como se usa aquí, el término “afín” se refiere típicamente a una proteína Cas (por ejemplo, proteína CasM) y uno o más polinucleótidos (por ejemplo, una guía de ácido nucleico afín asociada a CRISPR-CasM) capaz de formar un complejo de nucleoproteína para la unión dirigida al sitio a una secuencia diana de ácido nucleico complementaria a la secuencia de unión diana de ácido nucleico presente en uno de los uno o más polinucleótidos.
Las expresiones “de tipo salvaje”, “de origen natural”, “nativo” y “sin modificar” se usan aquí para referirse a la forma, aspecto, fenotipo, o cepa típicos (o más comunes) que existen en la naturaleza; por ejemplo, la forma típica de células, organismos, características, polinucleótidos, proteínas, complejos macromoleculares, genes, ARN, ADN, o genomas según aparecen en y se pueden aislar de una fuente en la naturaleza. La forma, aspecto, fenotipo, o cepa de tipo salvaje sirven como el progenitor original antes de la modificación intencionada. De este modo, las formas mutantes, variantes, manipuladas, recombinantes, y modificadas no son formas de tipo salvaje.
Como se usa aquí, los términos “manipulado”, “manipulado genéticamente”, “recombinante”, “modificado”, y “de origen no natural” son intercambiables, e indican manipulación humana intencionada.
“Enlace covalente”, “covalentemente unido”, “unido covalentemente”, “enlazado covalentemente”, “conectado covalentemente”, y “enlace molecular” se usan indistintamente aquí, y se refieren a un enlace químico que implica compartir pares de electrones entre átomos. Los ejemplos de enlaces covalentes incluyen, pero no se limitan a, enlaces fosfodiéster y enlaces fosforotioato.
“Enlace no covalente”, “no covalentemente unido”, “unido no covalentemente”, “enlazado no covalentemente”, “interacción no covalente”, y “conectado no covalentemente” se usan indistintamente aquí, y se refieren a cualquier enlace químico relativamente débil que no implique compartir un par de electrones. Múltiples enlaces no covalentes a menudo estabilizan la conformación de macromoléculas y median interacciones específicas entre moléculas. Los ejemplos de enlaces no covalentes incluyen, pero no se limitan a, enlaces de hidrógeno, interacciones iónicas (por ejemplo, Na+Cl-), interacciones de van der Waals, y enlaces hidrófobos.
Como se usa aquí, “enlace de hidrógeno”, “emparejamiento de base de hidrógeno”, y “enlazado mediante hidrógeno” se usan indistintamente, y se refieren a enlaces de hidrógeno canónicos y enlaces de hidrógeno no canónicos, incluyendo, pero sin limitarse a, “pares de bases enlazadas mediante hidrógeno de Watson-Crick” (pares de bases enlazadas mediante hidrógeno de W-C o enlaces de hidrógeno W-C); “pares de bases con enlaces de hidrógeno de Hoogsteen” (enlaces de hidrógeno de Hoogsteen); y “pares de bases con enlaces de hidrógeno oscilantes” (enlaces de hidrógeno oscilantes). El enlace de hidrógeno W-C, incluyendo el enlace de hidrógeno W-C inverso, se refiere al emparejamiento de bases de purina-pirimidina, es decir, adenina:timina, guanina:citosina, y uracilo:adenina. El enlace de hidrógeno de Hoogsteen, incluyendo el enlace de hidrógeno inverso de Hoogsteen, se refiere a una variación del emparejamiento de bases en ácidos nucleicos en el que dos nucleobases, una en cada hebra, se mantienen unidas por enlaces de hidrógeno en el surco principal. Este enlace de hidrógeno no W-C puede permitir que una tercera hebra se enrolle alrededor de un dúplex y forme hélices de triple hebra. El enlace de hidrógeno oscilante, incluyendo el enlace de hidrógeno oscilante inverso, se refiere a un emparejamiento entre dos nucleótidos en moléculas de ARN que no sigue las reglas de pares de bases de Watson-Crick. Hay cuatro pares de bases de oscilación principales: guanina:uracilo, inosina (hipoxantina):uracilo, inosina-adenina e inosina-citosina. Las reglas para el enlace de hidrógeno canónico y el enlace de hidrógeno no canónico son conocidas por los expertos en la técnica (véanse, por ejemplo, The RNA World, tercera edición (serie de monografías de Cold Spring Harbor), R. F. Gesteland, Cold Spring Harbor Laboratory Press, ISBN 978-0879697396 (2005); The RNA World, segunda edición (serie de monografías de Cold Spring Harbor), R. F. Gesteland, et al., Cold Spring Harbor Laboratory Press, ISBN 978-0879695613 (1999); The ARN World (serie de monografías de Cold Spring Harbor), R. F. Gesteland, et al., Cold Spring Harbor Laboratory Press, ISBN 978-0879694562 (1993) (véase, por ejemplo, Appendix 1: Structures of Base Pairs Involving at Least Two Hydrogen Bonds, I. Tinoco); Principles of Nucleic Acid Structure, W. Saenger, Springer International Publishing AG, ISBN 978-0-387-90761-1 (1988); Principles of Nucleic Acid Structure, Primera Edición, S. Neidle, Academic Press, ISBN 978-01236950791 (2007)).
“Conectar”, “conectado”, y “conectando” se usan indistintamente aquí, y se refieren a un enlace covalente o un enlace no covalente entre dos macromoléculas (por ejemplo, polinucleótidos, proteínas, y similares). Por tanto, CasM y una guía de ácido nucleico afín están “conectadas” en un complejo de guía de ácido nucleico afín/CasM.
Como se usan aquí, las expresiones “ácido nucleico”, “secuencia de ácido nucleico”, “secuencia nucleotídica”, “oligonucleótido”, y “polinucleótido” son intercambiables, y se refieren a una forma polimérica de nucleótidos. Los nucleótidos pueden ser desoxirribonucleótidos (ADN), ribonucleótidos (ARN), análogos de los mismos, o combinaciones de los mismos, y pueden tener cualquier longitud. Los polinucleótidos pueden realizar cualquier función, y pueden tener cualquier estructura secundaria y terciaria. Los términos abarcan análogos conocidos de nucleótidos naturales y nucleótidos que están modificados en los restos de base, azúcar y/o fosfato. Los análogos de un nucleótido particular tienen la misma especificidad de emparejamiento de bases (por ejemplo, un análogo de una base A se empareja con T). Un polinucleótido puede comprender un nucleótido modificado o múltiples nucleótidos modificados. Los ejemplos de nucleótidos modificados incluyen nucleótidos fluorados, nucleótidos metilados, y análogos nucleotídicos. La estructura nucleotídica se puede modificar antes o después de ensamblar un polímero. Después de la polimerización, los polinucleótidos pueden modificarse adicionalmente mediante, por ejemplo, la conjugación con un componente marcador o un componente de unión a la diana. Una secuencia nucleotídica puede incorporar componentes no nucleotídicos. Los términos también abarcan ácidos nucleicos que comprenden enlaces o restos de cadena principal modificados, que son sintéticos, de origen natural y de origen no natural, y tienen propiedades de unión similares a las de un polinucleótido de referencia (por ejemplo, ADN o ARN). Ejemplos de tales análogos incluyen, pero no se limitan a, fosforotioatos, fosforamidatos, metilfosfonatos, metilfosfonatos quirales, 2-O-metil ribonucleótidos, ácidos nucleicos peptídicos (PNA), ácido nucleico bloqueado (LNA™) (Exiqon, Inc., Woburn, MA) nucleósidos, ácido nucleico de glicol, ácidos nucleicos puenteados, y estructuras de morfolino.
Los ácidos nucleicos peptídicos (PNA) son homólogos sintéticos de ácidos nucleicos en los que el esqueleto polinucleótido fosfato-azúcar se reemplaza por un polímero pseudopeptídico flexible. Las nucleobases están unidas al polímero. Los PNA tienen la capacidad de hibridarse con alta afinidad y especificidad a secuencias complementarias de ARN y ADN.
En los ácidos nucleicos de fosforotioato, el enlace de fosforotioato (PS) sustituye un átomo de azufre por un oxígeno que no forma puentes en el esqueleto de polinucleótido fosfato. Esta modificación hace que el enlace internucleotídico sea resistente a la degradación por nucleasas. En algunas realizaciones, se introducen enlaces de fosforotioato entre los últimos 3 a 5 nucleótidos en las secuencias del extremo 5’ o del extremo 3’ de una secuencia polinucleotídica para inhibir la degradación por exonucleasas. La colocación de enlaces de fosforotioato en todo un oligonucleótido también ayuda a reducir la degradación por nucleasas.
El ácido nucleico de treosa (TNA) es un polímero genético artificial. La estructura del esqueleto de TNA comprende la azúcares de treosa repetidos enlazados mediante enlaces de fosfodiéster. Los polímeros de TNA son resistentes a la degradación por nucleasas. El TNA puede autoensamblarse mediante enlaces de hidrógeno de pares de bases en estructuras de dúplex.
Las inversiones de enlace se pueden introducir en polinucleótidos mediante el uso de “fosforamiditos inversos” (véase, por ejemplo, ucalgary.ca/dnalab/synthesis/-modifications/linkages). Un enlace 3’-3’ en un extremo de un polinucleótido estabiliza el polinucleótido frente a la degradación por exonucleasas creando un oligonucleótido que tiene dos extremos 5’-OH pero que carece de un extremo 3’-OH. Normalmente, tales polinucleótidos tienen grupos fosforamidito en la posición 5’-OH y un grupo protector dimetoxitritilo (DMT) en la posición 3’-OH. Normalmente, el grupo protector DMT está en el 5’-OH, y el fosforamidito está en el 3’-OH.
Las secuencias polinucleotídicas se presentan aquí en la orientación convencional 5’ a 3’ a menos que se indique lo contrario.
Como se usa aquí, el término “complementariedad” se refiere a la capacidad de una secuencia de ácido nucleico para formar enlace o enlaces de hidrógeno con otra secuencia de ácido nucleico (por ejemplo, a través del emparejamiento de bases tradicional de Watson-Crick). Un porcentaje de complementariedad indica el porcentaje de restos en una molécula de ácido nucleico que puede formar enlaces de hidrógeno con una segunda secuencia de ácido nucleico. Cuando dos secuencias polinucleotídicas tienen un 100% de complementariedad, las dos secuencias son perfectamente complementarias, es decir, todos los restos contiguos de un primer polinucleótido se unen mediante enlace de hidrógeno con el mismo número de restos contiguos en un segundo polinucleótido.
Como se usa aquí, “unión” se refiere a una interacción no covalente entre macromoléculas (por ejemplo, entre una proteína y un polinucleótido, entre un polinucleótido y un polinucleótido, o entre una proteína y una proteína, y similares). Esta interacción no covalente también se conoce como “asociar” o “interactuar” (por ejemplo, si una primera macromolécula interactúa con una segunda macromolécula, la primera macromolécula se une a la segunda macromolécula de manera no covalente). Algunas porciones de una interacción de unión pueden ser específicas de secuencia (las expresiones “unión específica de secuencia”, “unión específicamente de secuencia”, “unión específica de sitio”, y “unión específicamente de sitio” se usan indistintamente aquí). La unión específica de secuencia, como se usa aquí, se refiere típicamente a una o más guías de ácidos nucleicos afines (es decir, NATNAs) capaces de formar un complejo con una proteína (por ejemplo, una proteína CasM) para hacer que la proteína se una a una secuencia de ácido nucleico (por ejemplo, una secuencia de ARN o ADN) que comprende una secuencia diana de ácido nucleico (por ejemplo, una secuencia diana de ARN o ADN) preferentemente con respecto a una segunda secuencia de ácido nucleico (por ejemplo, una segunda secuencia de ARN o ADN) sin la secuencia de unión a la diana de ácido nucleico (por ejemplo, la secuencia de unión a la diana de ARN o ADN). No es necesario que todos los componentes de una interacción de unión sean específicos de secuencia, tales como los contactos de una proteína con restos de fosfato en un esqueleto de ADN. Las interacciones de unión se pueden caracterizar por una constante de disociación (Kd). “Afinidad de unión” se refiere a la fuerza de la interacción de unión. Una mayor afinidad de unión se correlaciona con una menor Kd.
Como se usa aquí, se afirma que una proteína Cas (por ejemplo, una proteína CasM) “selecciona como diana” un polinucleótido si un complejo de nucleoproteína de ácido nucleico afín/proteína Cas se asocia con, se une a y/o escinde un polinucleótido en la secuencia diana de ácido nucleico dentro del polinucleótido.
Como se usa aquí, “rotura de una sola hebra” (SSB) se refiere a la escisión de una única hebra de ARN o ADN. Una “rotura de doble hebra” (DSB) se refiere a que se cortan ambas hebras de un segmento de doble hebra de ácido nucleico. En algunos casos, si se produce una rotura de este tipo, se puede afirmar que una hebra tiene un “extremo pegajoso” en el que los nucleótidos están expuestos y no están unidos por enlaces de hidrógeno a los nucleótidos de la otra hebra. En otros casos, puede producirse un “extremo romo” en el que ambas hebras permanecen completamente emparejadas entre sí en sus bases.
Como se usa aquí, el término “recombinación” se refiere a un proceso de intercambio de información genética entre dos polinucleótidos.
Como se usa aquí, “reparación de ácido nucleico”, tal como, pero sin limitarse a, reparación de ADN, abarca cualquier proceso mediante el cual la maquinaria celular repara el daño a una molécula de ácido nucleico contenida en la célula. El daño reparado puede incluir roturas de una sola hebra o roturas de doble hebra (DSB). Existen al menos tres mecanismos para reparar las DSB: reparación dirigida por homología (HDR), unión de extremos no homólogos clásica (c-NHEJ), y unión de extremos mediada por microhomología (MMEJ), todos definidos a continuación. “Reparación de ácido nucleico” también se usa aquí para referirse a la reparación de ácido nucleico resultante de la manipulación humana, en la que se modifica un locus diana, por ejemplo, insertando, eliminando, o sustituyendo nucleótidos, todos los cuales representan formas de edición del genoma.
Como se usa aquí, la expresión “reparación dirigida por homología” o “HDR” se refiere a la reparación del ácido nucleico que tiene lugar en las células, por ejemplo, durante la reparación de roturas monocatenarias y bicatenarias en una molécula de ácido nucleico, tal como el ADN. HDR requiere homología de secuencia nucleotídica, y usa un “molde donante” (ácido nucleico molde donante, tal como ADN, donante de polinucleotídico, u oligonucleótido (usado de forma intercambiable aquí) para reparar la secuencia en la que se produjo la rotura de la doble hebra (por ejemplo, secuencia diana de ADN). Esto da como resultado la transferencia de información genética desde, por ejemplo, el ADN molde donante a la secuencia diana de ADN. La HDR puede dar como resultado la alteración de la secuencia diana del ácido nucleico (por ejemplo, inserción, supresión, mutación) si la secuencia molde donante o la secuencia oligonucleotídica difiere de la secuencia diana y parte o la totalidad del polinucleótido u oligonucleótido molde donante se incorpora a la secuencia diana. En algunas realizaciones, en el sitio de la secuencia diana se copia o integra un polinucleótido molde donante completo, una parte del polinucleótido molde donante, o una copia del polinucleótido donante.
Por “polinucleótido donante” se entiende un polinucleótido que puede dirigirse e insertarse en un sitio diana de interés, tal como un locus de integración, para modificar el ácido nucleico diana. Todo o una parte del polinucleótido donante se puede insertar en el ácido nucleico diana. El polinucleótido donante puede usarse para reparar la rotura en la secuencia de ácido nucleico diana dando como resultado la transferencia de información genética (es decir, secuencias polinucleotídicas) desde el donante en el sitio o en las proximidades de la rotura. En consecuencia, en un sitio diana se puede insertar o copiar nueva información genética (es decir, secuencias polinucleotídicas). El polinucleótido donante puede ser ARN bicatenario o monocatenario, ADN, un vector, plásmido, o similar. Por tanto, un polinucleótido donante puede ser un casete de inserción, un vector de expresión de recombinasa, y similar. También se pueden usar donantes polinucleotídicos no simétricos que estén compuestos por dos oligonucleótidos. Son parcialmente complementarios, y cada uno puede incluir una región flanqueante de homología. El donante puede usarse para insertar o reemplazar secuencias polinucleotídicas en una secuencia diana, por ejemplo para introducir un polinucleótido que codifica una proteína o ARN funcional (por ejemplo, ARNip), para introducir una etiqueta de proteína, para modificar una secuencia reguladora de un gen, o para introducir una secuencia reguladora a un gen (por ejemplo un promotor, un potenciador, una secuencia de entrada de ribosoma interna, un codón de inicio, un codón de parada, una señal de localización, o señal de poliadenilación), para modificar una secuencia de ácido nucleico (por ejemplo, introducir una mutación), y similares.
Las modificaciones de ácido nucleico seleccionadas como diana que usan polinucleótidos donantes para cambios grandes (por ejemplo, más de 100 inserciones o supresiones de pares de bases (pb)) usan tradicionalmente moldes donantes basados en plásmidos que contienen brazos de homología que flanquean el sitio de alteración. Cada brazo puede variar en longitud, pero normalmente es más largo que alrededor de 100 pb, tal como 100-1500 pb, por ejemplo 100.. .200...300...400...500...600...700...800...900... 1000...1500 pb, o cualquier número entero entre estos valores. Sin embargo, estos números pueden variar, dependiendo del tamaño del polinucleótido donante y del polinucleótido diana. Este método puede usarse para generar grandes modificaciones, incluyendo la inserción de genes informadores como proteínas fluorescentes o marcadores de resistencia a antibióticos. Para la transfección en células, tales como células HEK, pueden usarse para un pocillo en una placa de 24 pocillos aproximadamente 100-1000 nanogramos (ng), por ejemplo 100...200...300...400...500...600... 700...800...900...1000 ng, o cualquier número entero entre estos valores, de un plásmido donante de tamaño típico (por ejemplo, aproximadamente 5 kb) que contiene un vector NATNA/Cas. (Véase, por ejemplo, Yang et al., “One Step Generation of Mice Carrying Reporter and Conditional Alleles by CRISPR/Cas-Mediated Genome Engineering” Cell (2013) 154:1370-1379).
Se han usado oligonucleótidos monocatenarios y parcialmente bicatenarios, tales como oligonucleótidos de ADN, en lugar de plásmidos dianizadores para modificaciones cortas (por ejemplo, menos de 50 pb) dentro de un locus definido sin clonación. Para lograr altas eficiencias de HDR, se pueden usar oligonucleótidos monocatenarios que contienen secuencias flanqueantes en cada lado que son homólogas a la región diana, y se pueden orientar en la dirección sentido o antisentido con respecto al locus diana. La longitud de cada brazo puede variar, pero la longitud de al menos un brazo es típicamente más larga que aproximadamente 10 bases, tal como de 10 a 150 bases, por ejemplo 10.. .20...30...40...50...60...70...80...90...100...110...120...130...140...150, o cualquier número entero dentro de estos intervalos. Sin embargo, estos números pueden variar, dependiendo del tamaño del polinucleótido donante y del polinucleótido diana. En algunas realizaciones, la longitud de al menos un brazo es 10 bases o más. En otras realizaciones, la longitud de al menos un brazo es 20 bases o más. En aún otras realizaciones, la longitud de al menos un brazo es 30 bases o más. En algunas realizaciones, la longitud de al menos un brazo es menor que 100 bases. En otras realizaciones, la longitud de al menos un brazo es mayor que 100 bases. En algunas realizaciones, la longitud de al menos un brazo es cero bases. Para el diseño de oligonucleótidos monocatenarios, se usa típicamente un oligonucleótido con una homología total de aproximadamente 100-150 pb. La mutación se introduce en el medio, dando brazos de homología de 50-75 pb para un donante diseñado para ser simétrico alrededor del sitio diana. En otros casos, no se requieren brazos de homología, y el polinucleótido donante se inserta usando mecanismos de reparación no homólogos.
Una “región genómica” es un segmento de un cromosoma en el genoma de una célula hospedante que está presente en cualquier lado del sitio de la secuencia diana del ácido nucleico, o, alternativamente, también incluye una porción del sitio de la secuencia diana del ácido nucleico. Los brazos de homología del polinucleótido donante tienen suficiente homología para experimentar una recombinación homóloga con las regiones genómicas correspondientes. En algunas realizaciones, los brazos de homología del polinucleótido donante comparten una homología de secuencia significativa con la región genómica que flanquea inmediatamente el sitio de la secuencia diana del ácido nucleico; se reconoce que los brazos de homología pueden diseñarse para tener suficiente homología con las regiones genómicas más alejadas del sitio de la secuencia diana del ácido nucleico.
Como se usa aquí, las expresiones “unión de extremos no homólogos clásica” o “c-NHEJ” se refieren a la reparación de roturas de doble hebra en el ADN mediante ligación directa de un extremo de la rotura al otro extremo de la rotura sin un requisito de un ADN molde donante. La NHEJ en ausencia de un ADN molde donante a menudo da como resultado pequeñas inserciones o supresiones de nucleótidos en el sitio de la rotura de la doble hebra, también denominadas “indeles”. Esta ruta de reparación del ADN está genéticamente definida, y requiere la actividad de ligasa IV, ADN-PKcs, Polm, Poli, y el heterodímero Ku70/80, entre otras proteínas (véase, por ejemplo, Sfeir y Symington, Trends Biochem Sci (2015) 40:701-714).
La “unión de extremos mediada por microhomología (MMEJ)”, una forma de unión de extremos no homólogos alternativa (alt-NHEJ), es otra ruta para reparar roturas de doble hebra en el ADN. MMEJ se asocia con supresiones que flanquean una DSB, e implica la alineación de secuencias microhomólogas internas a los extremos rotos antes de unirse. El mecanismo propuesto implica la resección 5’-3’ de los extremos del ADN en una DSB, hibridación de las microhomologías (1 -16 nucleótidos de homología), eliminación de colgajos heterólogos, síntesis de ADN de relleno de huecos, y ligación. MMEJ está genéticamente definida, y requiere la actividad de CtIP, PARP1, Pol 0, Lig 1 y Lig3, entre otras proteínas (véase, por ejemplo, Sfeir y Symington, “Microhomology-Mediated End Joining: A Back-up Survival Mechanism or Dedicated Pathway?” Trends Biochem Sci (2015) 40:701-714).
Para la inserción de ácidos nucleicos, también pueden usarse mecanismos alternativos de inserción de ácidos nucleicos que no requieren homología de secuencia entre la secuencia donante y la secuencia diana. Estos mecanismos involucran diversos componentes de la maquinaria de reparación celular, y debe entenderse que el alcance de la invención no está limitado por el uso de ningún mecanismo particular para la inserción de ácido nucleico después de que el ácido nucleico diana es cortado o mellado por un polinucleótido específico del sitio.
“Gen”, como se usa aquí, se refiere a una secuencia polinucleotídica que comprende exón o exones y secuencias reguladoras relacionadas. Un gen puede comprender además intrón o intrones y/o región o regiones no traducidas (UTR).
Como se usa aquí, “expresión” se refiere a la transcripción de un polinucleótido a partir de un molde de ADN, que da como resultado, por ejemplo, un ARN mensajero (ARNm) u otro transcrito de ARN (por ejemplo, no codificante, tales como los ARN estructurales o de andamiaje). El término se refiere además al proceso mediante el cual el ARNm transcrito se traduce en péptidos, polipéptidos o proteínas. Los transcritos y los polipéptidos codificados pueden denominarse colectivamente “producto o productos génicos”. La expresión puede incluir el ayuste del ARNm en una célula eucariota, si el polinucleótido deriva de ADN genómico.
Como se usa aquí, el término “modular” se refiere a un cambio en la magnitud, grado o cantidad de una función. Por ejemplo, un complejo de guía de ácido nucleico afín/proteína CasM, como se describe aquí, puede modular la actividad de una secuencia promotora uniéndose a una secuencia diana de ácido nucleico en o cerca del promotor. Dependiendo de la acción que se produzca después de la unión, el complejo de guía de ácido nucleico afín/proteína CasM puede inducir, potenciar, suprimir, o inhibir la transcripción de un gen ligado operativamente a la secuencia promotora. Por tanto, la “modulación” de la expresión génica incluye tanto la activación génica como la represión génica.
La modulación puede evaluarse determinando cualquier característica directa o indirectamente afectada por la expresión del gen diana. Tales características incluyen, por ejemplo, cambios en los niveles de ARN o proteínas, actividad de las proteínas, niveles de productos, expresión del gen, o nivel de actividad de los genes informadores. Por consiguiente, las expresiones “modular la expresión”, “inhibir la expresión” y “activar la expresión” de un gen pueden referirse a la capacidad de un complejo de guía afín/proteína CasM para cambiar, activar, o inhibir la transcripción de un gen.
Los términos “vector” y “plásmido” se usan indistintamente, y, como se usan aquí, se refieren a un vehículo polinucleotídico para introducir material genético en una célula. Los vectores pueden ser lineales o circulares. Los vectores pueden integrarse en un genoma diana de una célula hospedante o replicarse de forma independiente en una célula hospedante. Los vectores pueden comprender, por ejemplo, un origen de replicación, un sitio de clonación múltiple, y/o un marcador seleccionable. Un vector de expresión típicamente comprende un casete de expresión. Los vectores y plásmidos incluyen, pero no se limitan a, vectores integradores, plásmidos procariotas, plásmidos eucariotas, cromosomas sintéticos de plantas, episomas, vectores virales, cósmidos, y cromosomas artificiales. Un vector de expresión típicamente comprende un casete de expresión.
Como se usa aquí, la expresión “casete de expresión” es un constructo de polinucleotídico, generado de manera recombinante o sintética, que comprende secuencias reguladoras unidas operativamente a un polinucleótido seleccionado para facilitar la expresión del polinucleótido seleccionado en una célula hospedante. Por ejemplo, las secuencias reguladoras pueden facilitar la transcripción del polinucleótido seleccionado en una célula hospedante, o la transcripción y traducción del polinucleótido seleccionado en una célula hospedante. Un casete de expresión puede, por ejemplo, integrarse en el genoma de una célula hospedante o estar presente en un vector para formar un vector de expresión.
Como se usa aquí, un “vector de direccionamiento” es un constructo de ADN o ARN recombinante que típicamente comprende brazos de ADN o ARN personalizados, homólogos al ADN genómico o ARN derivado del mismo, que flanquean elementos de un gen diana o secuencia diana de ácido nucleico (por ejemplo, una SSB o DSB). Un vector de direccionamiento comprende un polinucleótido donante. Los elementos de la secuencia diana se pueden modificar de varias formas, incluyendo supresiones y/o inserciones. Un gen diana defectuoso puede reemplazarse por un gen diana funcional o, como alternativa, se puede eliminar un gen funcional. Opcionalmente, el polinucleótido donante de un vector de direccionamiento comprende un casete de selección que comprende un marcador seleccionable que se introduce en el gen diana. Las regiones de direccionamiento (es decir, secuencias diana de ácido nucleico) adyacentes o dentro de un gen o región diana pueden usarse para afectar la regulación de la expresión génica.
Como se usa aquí, las expresiones “secuencias reguladoras”, “elementos reguladores” y “elementos de control” son intercambiables, y se refieren a secuencias polinucleotídicas que están en dirección 5’ (secuencias no codificantes 5’), dentro, o en dirección 3’ (secuencias no traducidas 3’) de un diana polinucleotídica que se va a expresar. Las secuencias reguladoras influyen, por ejemplo, en el momento de la transcripción, la cantidad o el nivel de transcripción, el procesamiento o la estabilidad del ARN, y/o la traducción de la secuencia nucleotídica estructural relacionada. Las secuencias reguladoras pueden incluir secuencias de unión de activadores, potenciadores, intrones, secuencias de reconocimiento de poliadenilación, promotores, sitios de inicio de transcripción, secuencias de unión de represores, estructuras de tallo-bucle, secuencias de iniciación de la traducción, sitios internos de entrada del ribosoma (IRES), secuencias líder de traducción, secuencias de terminación de la transcripción (por ejemplo, señales de poliadenilación y secuencias poli-U), secuencias de terminación de la traducción, sitios de unión de cebadores, y similares.
Los elementos reguladores incluyen aquellos que dirigen la expresión constitutiva, inducible y reprimible de una secuencia nucleotídica en muchos tipos de células hospedantes, y aquellos que dirigen la expresión de la secuencia nucleotídica solo en ciertas células hospedantes (por ejemplo, secuencias reguladoras específicas de tejido). En algunas realizaciones, un vector comprende uno o más promotores pol III, uno o más promotores pol II, uno o más promotores pol I, o combinaciones de los mismos. Los ejemplos de promotores pol III incluyen, pero no se limitan a, promotores U6 y H1. Los ejemplos de promotores pol II incluyen, pero no se limitan a, el promotor LTR del virus del sarcoma de Rous (RSV) retroviral (opcionalmente con el potenciador del RSV), el promotor del citomegalovirus (CMV) (opcionalmente con el potenciador del CMV; véase, por ejemplo, Boshart, M., et al., Cell 41:521-530 (1985)), el promotor SV40, el promotor de dihidrofolato reductasa, el promotor de p-actina, el promotor de fosfoglicerol cinasa (PGK), y el promotor EF1 a. Los expertos en la técnica apreciarán que el diseño de un vector de expresión puede depender de factores tales como la elección de la célula hospedante a transformar, el nivel de expresión deseado, y similares. Puede introducirse un vector en las células hospedantes para producir de ese modo transcritos, proteínas, o péptidos, incluyendo proteínas o péptidos de fusión, codificados por ácidos nucleicos como se describe aquí.
Como se usa aquí, la expresión “operativamente enlazado” se refiere a secuencias polinucleotídicas o secuencias de aminoácidos colocadas en una relación funcional entre sí. Por ejemplo, un promotor o potenciador está operativamente ligado a una secuencia codificante si regula o contribuye a la modulación de la transcripción de la secuencia codificante. Las secuencias de ADN unidas operativamente que codifican secuencias reguladoras son típicamente contiguas a la secuencia codificante. Sin embargo, los potenciadores pueden funcionar cuando se separan de un promotor hasta en varias kilobases o más. Por consiguiente, algunos elementos polinucleotídicos pueden estar enlazados operativamente pero no contiguos.
Como se usa aquí, el término “expresión” se refiere a la transcripción de un polinucleótido a partir de un molde de ADN, dando como resultado, por ejemplo, un ARNm u otro transcrito de ARN (por ejemplo, no codificante, tales como ARN estructurales o de andamiaje). El término se refiere además al proceso mediante el cual el ARNm transcrito se traduce en péptidos, polipéptidos o proteínas. Los transcritos y los polipéptidos codificados pueden denominarse colectivamente “producto génico”. La expresión puede incluir empalmar el ARNm en una célula eucariota, si el polinucleótido deriva de ADN genómico.
Como se usa aquí, la expresión “identidad de secuencia” generalmente se refiere al porcentaje de identidad de bases o aminoácidos determinado comparando un primer polinucleótido o polipéptido con un segundo polinucleótido o polipéptido usando algoritmos que tienen varios parámetros de ponderación. La identidad de secuencia entre dos polipéptidos o dos polinucleótidos se puede determinar usando alineación de secuencia por varios métodos y programas de ordenador (por ejemplo, BlAST, CS-BLAST, FASTA, HMMER, L-ALIGN, etc.), disponible a través de la web mundial en sitios que incluyen GENBANK (ncbi.nlm.nih.gov/genbank/) y EMBL-EBI (ebi.ac.uk.). La identidad de secuencia entre dos secuencias polinucleotídicas o dos secuencias polipeptídicas se calcula generalmente usando los parámetros estándar por defecto de los diversos métodos o programas informáticos. Las proteínas Cas, tales como los homólogos de CasM, para uso aquí tendrán al menos un 90% o más de identidad de secuencia con la secuencia de tipo salvaje o natural de la proteína Cas de interés, tal como alrededor de 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, o identidad completa. Los ortólogos de CasM pueden variar mucho de la secuencia de referencia. Por ejemplo, los ortólogos de CasM que se muestran en la Tabla 1 muestran una identidad de secuencia aproximadamente de 13,59% a 99,82% entre sí. De este modo, los ortólogos de CasM se identifican en función de las características CasM detalladas aquí. También se describen aquí proteínas Cas, tales como homólogos de CasM, que tienen al menos aproximadamente 75%, 80%, 85%, o más de identidad de secuencia con la secuencia de tipo salvaje o natural de la proteína Cas de interés.
Como se usa aquí, “hibridación”, “hibridar”, o “hibridando” es el proceso de combinar dos moléculas de ADN o ARN monocatenarias complementarias para formar una molécula bicatenaria simple (ADN/ADN, ADN/ARN, ARN/ARN) a través del emparejamiento de bases de hidrógeno. La rigurosidad de la hibridación se determina típicamente por la temperatura de hibridación y la concentración de sal del amortiguador de hibridación; por ejemplo, la alta temperatura y el bajo contenido de sal proporcionan condiciones de hibridación de alta rigurosidad. Ejemplos de intervalos de concentración de sal e intervalos de temperatura para diferentes condiciones de hibridación son los siguientes: alta rigurosidad, aproximadamente 0,01 M a aproximadamente 0,05 M de sal, temperatura de hibridación 5°C a 10°C por debajo de Tm; rigurosidad moderada, aproximadamente 0,16 M a aproximadamente 0,33 M de sal, temperatura de hibridación de 20°C a 29°C por debajo de Tm; y baja rigurosidad, aproximadamente de 0,33 M a aproximadamente 0,82 M de sal, temperatura de hibridación de 40°C a 48°C por debajo de Tm. Tm de ácidos nucleicos dúplex se calcula mediante métodos estándar bien conocidos en la técnica (véase, por ejemplo, Maniatis, T., et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press: New York (1982); Casey, J., et al., Nucleic Acids Research 4:1539-1552 (1977); Bodkin, D.K., et al., Journal of Virological Methods 10(1):45-52 (1985); Wallace, R.B., et al., Nucleic Acids Research 9(4):879-894 (1981)). Herramientas de predicción de algoritmos para estimar Tm también están ampliamente disponibles. Las condiciones de alta rigurosidad para la hibridación se refieren típicamente a condiciones en las que un polinucleótido complementario a una secuencia diana se hibrida predominantemente con la secuencia diana y sustancialmente no se hibrida con secuencias no diana. Normalmente, las condiciones de hibridación son de rigurosidad moderada, preferiblemente de rigurosidad alta.
Como se usa aquí, el término “aminoácido” se refiere a aminoácidos naturales y sintéticos (no naturales), que incluyen análogos de aminoácidos, aminoácidos modificados, peptidomiméticos, glicina, e isómeros ópticos D o L.
Como se usa aquí, los términos “péptido”, “polipéptido”, y “proteína” son intercambiables, y se refieren a polímeros de aminoácidos. Un polipéptido puede tener cualquier longitud. Puede ser ramificado o lineal, puede estar interrumpido por no aminoácidos, y puede comprender aminoácidos modificados. Los términos pueden usarse para referirse a un polímero de aminoácidos que se ha modificado mediante, por ejemplo, acetilación, formación de enlaces de disulfuro, glicosilación, lipidación, fosforilación, reticulación, y/o conjugación (por ejemplo, con un componente o ligando marcador). Las secuencias polipeptídicas se presentan aquí en la orientación convencional N-terminal a C-terminal.
Se pueden fabricar polipéptidos y polinucleótidos usando técnicas de rutina en el campo de la biología molecular (véanse, por ejemplo, textos estándar establecidos anteriormente). Además, esencialmente cualquier polipéptido o polinucleótido se puede pedir de forma personalizada a fuentes comerciales.
Las expresiones “proteína de fusión” y “proteína quimérica”, como se usan aquí, se refieren a una única proteína creada al unir dos o más proteínas, dominios de proteínas, o fragmentos de proteínas que no se encuentran juntos de forma natural en una sola proteína. Por ejemplo, una proteína de fusión puede contener un primer dominio de una proteína CasM y un segundo dominio de una proteína Cas diferente. La modificación para incluir dichos dominios en proteínas de fusión puede conferir actividad adicional sobre los polipéptidos dirigidos al sitio modificados. Tales actividades pueden incluir actividad de nucleasa, actividad de metiltransferasa, actividad de desmetilasa, actividad de reparación de ADN o ARN, actividad de daño de ADN o ARN, actividad de desaminación, actividad de dismutasa, actividad de alquilación, actividad de depurinación, actividad de oxidación, actividad de formación de dímero de pirimidina, actividad de integrasa, actividad de transposasa, actividad de recombinasa, actividad de polimerasa, actividad de ligasa, actividad de helicasa, actividad de fotoliasa, actividad de glicosilasa, actividad de acetiltransferasa, actividad de desacetilasa, actividad de cinasa, actividad de fosfatasa, actividad de ubiquitina ligasa, actividad desubiquitinante, actividad de adenilación, actividad de desadenilación, actividad SUMOilante, actividad desSUMOilante, actividad de ribosilación, actividad de desribosilación, actividad de miristoilación, o actividad de desmiristoilación) que modifica un polipéptido asociado con la secuencia diana de ácido nucleico (por ejemplo, una histona). Una proteína de fusión también puede comprender etiquetas de epítopo (por ejemplo, etiquetas de histidina, etiquetas FLAG® (Sigma Aldrich, St. Louis, MO), etiquetas Myc), secuencias de proteínas informadoras (por ejemplo, glutationa-S-transferasa, beta-galactosidasa, luciferasa, proteína fluorescente verde, proteína fluorescente cian, proteína fluorescente amarilla) y/o dominios de unión a ácido nucleico (por ejemplo, un dominio de unión a ADN, un dominio de unión a ARN). Una proteína de fusión también puede comprender dominios activadores (por ejemplo, factores de transcripción de choque térmico, activadores NFKB) o dominios represores (por ejemplo, un dominio KRAB). Como lo describe Lupo, A., et al., Current Genomics 14(4): 268-278 (2013), el dominio KRAB es un potente módulo de represión transcripcional, y está ubicado en la secuencia amino-terminal de la mayoría de las proteínas con dedos de zinc C2H2 (véase, por ejemplo, Margolin, J., et al., Proceedings of the National Academy of Sciences of the United States of America 91:4509-4513 (1994); Witzgall, R., et al., Proceedings of the National Academy of Sciences of the United States of America 91:4514-4518 (1994)). El dominio KRAB generalmente se une a proteínas correpresoras y/o factores de transcripción a través de interacciones proteína-proteína, lo que provoca la represión transcripcional de genes a los que se unen las proteínas con dedos de zinc KRAB (KRAB-ZFP) (véase, por ejemplo, Friedman J.R., et al., Genes & Development 10:2067-2678 (1996)). En algunas realizaciones, se usan secuencias de ácidos nucleicos enlazadores para unir las dos o más proteínas, dominios de proteínas, o fragmentos de proteínas.
Un “resto”, como se usa aquí, se refiere a una porción de una molécula. Un resto puede ser un grupo funcional o describir una porción de una molécula con múltiples grupos funcionales (por ejemplo, que comparten aspectos estructurales comunes). Los términos “resto” y “grupo funcional” se usan típicamente de forma indistinta; sin embargo, un “grupo funcional” puede referirse más específicamente a una porción de una molécula que comprende algún comportamiento químico común. El término “resto” se usa a menudo como descripción estructural. En algunas realizaciones, un extremo 5’, un extremo 3’, o un extremo 5’ y un extremo 3’ (por ejemplo, un extremo 5’ no nativo y/o un extremo 3’ no nativo en un primer elemento de tallo) puede comprender uno o más restos.
Como se usa aquí, el término “aislado” puede referirse a un ácido nucleico o polipéptido que, por la mano de un ser humano, existe aparte de su entorno nativo, y por lo tanto no es un producto de la naturaleza. Aislado significa sustancialmente puro. Un ácido nucleico o polipéptido aislado puede existir en una forma purificada y/o puede existir en un entorno no nativo tal como, por ejemplo, en una célula recombinante.
Como se usa aquí, una “célula hospedante” generalmente se refiere a una célula biológica. Una célula es la unidad básica estructural, funcional y/o biológica de un organismo. Una célula puede provenir de cualquier organismo que tenga una o más células. Los ejemplos de células hospedantes incluyen, pero no se limitan a: una célula procariota, una célula eucariota, una célula bacteriana, una célula arquea, una célula de un organismo eucariota unicelular, una célula protozoaria, una célula de una planta (por ejemplo, células de cultivos vegetales (tales como soja, tomates, remolacha azucarera, calabaza, heno, cannabis, tabaco, plátanos, ñame, batatas, mandioca, patatas, trigo, sorgo, soja, arroz, maíz, Brassica productora de aceite (por ejemplo, colza y cánola productoras de aceite), algodón, caña de azúcar, girasol, mijo, y alfalfa), frutas, verduras, granos, semillas, plantas con flores, coníferas, gimnospermas, helechos, musgos, antoceros, hepáticas, musgos), un célula de algas, (por ejemplo, Botryococcus braunii, Chlamydomonas reinhardtii, Nannochloropsis gaditana, Chlorella pyrenoidosa, Sargassum patens C. agardh, y similares), algas (por ejemplo, kelp), una célula fúngica (por ejemplo, una célula de levadura o una célula de un hongo), una célula animal, una célula de un animal invertebrado (por ejemplo, mosca de la fruta, cnidarios, equinodermo, nematodo, y similares), una célula de un animal vertebrado (por ejemplo, pez, anfibio, reptil, pájaro, o mamífero), una célula de un mamífero (por ejemplo, un cerdo, una vaca, una cabra, una oveja, un roedor, una rata, un ratón, un primate no humano, un ser humano, y similares). Además, una célula puede ser una célula madre o una célula progenitora.
Como se usa aquí, “célula madre” se refiere a una célula que tiene la capacidad de autorrenovación, es decir, la capacidad de atravesar numerosos ciclos de división celular mientras se mantiene el estado indiferenciado. Las células madre pueden ser totipotentes no humanas o pluripotentes, multipotentes, oligopotentes, o unipotentes. Las células madre pueden ser células madre embrionarias no humanas o fetales, amnióticas, adultas, o pluripotentes inducidas.
Como se usa aquí, “células madre pluripotentes inducidas” se refiere a un tipo de célula madre pluripotente que deriva artificialmente de una célula no pluripotente, típicamente una célula somática adulta, induciendo la expresión de genes específicos.
“Planta”, como se usa aquí, se refiere a plantas completas, órganos de plantas, tejidos de plantas, germoplasma, semillas, células de plantas, y progenie de las mismas. Las células vegetales incluyen, sin limitación, células de semillas, cultivos en suspensión, embriones, regiones meristemáticas, tejido de callos, hojas, raíces, brotes, gametofitos, esporofitos, polen, y microesporas. Las partes de la planta incluyen tejidos diferenciados e indiferenciados que incluyen, pero no se limitan a, raíces, tallos, brotes, hojas, pólenes, semillas, tejido tumoral, y diversas formas de células y cultivos (por ejemplo, células individuales, protoplastos, embriones, y tejido de callos). El tejido vegetal puede estar en una planta o en un órgano vegetal, tejido, o cultivo celular. “Órgano vegetal” se refiere a tejido vegetal o un grupo de tejidos que constituyen una parte morfológica y funcionalmente distinta de una planta.
“Sujeto”, como se usa aquí, se refiere a cualquier miembro del filo Chordata, incluyendo, sin limitación, seres humanos y otros primates, incluyendo primates no humanos tales como macacos rhesus, chimpancés, y otras especies de monos y simios; animales de granja, tales como ganado, ovejas, cerdos, cabras, y caballos; mamíferos domésticos, tales como perros y gatos; animales de laboratorio, incluyendo conejos, ratones, ratas, y cobayas; aves, incluyendo aves domésticas, salvajes, y de caza, tales como pollos, pavos, y otras gallináceas, patos, y gansos; y similares. El término no denota una edad o género en particular. Por lo tanto, el término incluye individuos adultos, jóvenes, y recién nacidos, así como machos y hembras. En algunas realizaciones, una célula hospedante deriva de un sujeto (por ejemplo, células madre, células progenitoras, o células específicas de tejido). En algunas realizaciones, el sujeto es un sujeto no humano.
Como se usa aquí, “organismo transgénico” se refiere a un organismo cuyo genoma está modificado genéticamente. El término incluye la progenie (cualquier generación) de un organismo transgénico, siempre que la progenie tenga la modificación genética.
Sistemas CRISPR
El locus genómico CRISPR (repeticiones palindrómicas cortas agrupadas regularmente interespaciadas) se encuentra en los genomas de muchos procariotas (por ejemplo, bacterias y arqueas). Los loci CRISPR proporcionan resistencia a invasores extraños (por ejemplo, virus, fagos) en procariotas. De esta manera, el sistema CRISPR funciona como un tipo de sistema inmune para ayudar a defender a los procariotas contra invasores extraños. Hay tres etapas principales en el sistema inmune CRISPR-Cas: (1) adquisición, (2) expresión, y (3) interferencia. La adquisición implica escindir el genoma de virus y plásmidos invasores e integrar segmentos (denominados protoespaciadores) del ADN genómico en el locus CRISPR del organismo hospedante. Los segmentos que se integran en el genoma del hospedante se conocen como espaciadores, que median la protección contra el ataque posterior por el mismo virus o plásmido (o suficientemente relacionado). La expresión implica la transcripción del locus CRISPR y el procesamiento enzimático posterior para producir ARN CRISPR maduros cortos, cada uno de los cuales contiene una única secuencia espaciadora. La interferencia se induce después de que los ARN de CRISPR se asocian con proteínas Cas para formar complejos efectores, que entonces se dirigen a protoespaciadores complementarios en elementos genéticos extraños para inducir la degradación del ácido nucleico.
Actualmente, se han descrito dos clases de sistemas CRISPR, Clase 1 y Clase 2, basadas en los genes que codifican el módulo efector, es decir, las proteínas involucradas en la etapa de interferencia. Los sistemas de Clase 1 tienen un complejo de múltiples subunidades de ARNcr-efector, mientras que los sistemas de Clase 2 tienen una sola proteína, tal como Cas9, Cpf1, C2c1, C2c2, C2c3, o un complejo de ARNcr-efector. Los sistemas de Clase 1 comprenden sistemas de Tipo I, Tipo III, y Tipo IV. Los sistemas de Clase 2 comprenden sistemas de Tipo II, Tipo V, y Tipo VI.
Hasta la fecha, hay seis tipos (Tipos I-VI) y 19 subtipos de sistemas CRISPR categorizados dentro de estas clases (Makarova et al., Nature Reviews Microbiology (2015) 13:1-15; Shmakov et al., Nature Reviews Microbiology (2017) 15:169-182).
Los loci CRISPR se caracterizan actualmente por incluir una serie de secuencias repetidas cortas denominadas “repeticiones”. Las repeticiones pueden formar estructuras en horquilla, y/o las repeticiones pueden ser secuencias monocatenarias no estructuradas. Las repeticiones ocurren en grupos. Las repeticiones divergen con frecuencia entre especies. Las repeticiones se intercalan regularmente con secuencias intermedias únicas, denominadas “espaciadores”, lo que da como resultado una arquitectura de locus de repetición-espaciador-repetición. Los espaciadores son idénticos u homólogos a secuencias invasoras extrañas conocidas. En algunos casos, una unidad espaciador-repetición codifica un ARNcrispr (ARNcr). Un ARNcr se refiere a la forma madura de la unidad espaciadorrepetición. Un ARNcr contiene una secuencia espaciadora que participa en la selección de un ácido nucleico diana (por ejemplo, posiblemente como un mecanismo de vigilancia contra un ácido nucleico extraño). Por lo tanto, el ARNcr tiene una región de complementariedad con una secuencia diana potencial de ADN o ARN, y en algunos casos, por ejemplo, en sistemas de Tipo II actualmente caracterizados, una segunda región que forma enlaces de hidrógeno de pares de bases con un ARN CRISPR transactivante (ARNtracr) para formar una estructura secundaria, típicamente para formar al menos una estructura de tallo. En este contexto, el ARNtracr y un ARNcr interactúan a través de varios enlaces de hidrógeno de pares de bases para formar estructuras de ARN secundarias. La formación de complejos entre ARNtracr/ARNcr y una proteína Cas da como resultado un cambio conformacional de la proteína Cas que facilita la unión al ADN, las actividades de nucleasa de la proteína Cas, y la escisión de ADN específica del sitio guiada por ARNcr por la nucleasa. Para que un complejo de proteína Cas/ARNtracr/ARNcr escinda una secuencia diana de ADN, la secuencia diana de ADN es adyacente a un motivo adyacente protoespaciador afín (PAM).
Un locus CRISPR comprende secuencias polinucleotídicas que codifican genes asociados a CRISPR (cas). Los genes Cas están involucrados en la biogénesis y/o las etapas de interferencia de la función del ARNcr. Los genes Cas muestran una divergencia de secuencia extrema (por ejemplo, secuencia primaria) entre especies y homólogos. Algunos genes Cas comprenden estructuras secundarias y/o terciarias homólogas. Los genes Cas se nombran típicamente de acuerdo con el organismo del que derivan. Por ejemplo, los genes Cas en Staphylococcus epidermidis pueden denominarse tipo Csm, los genes Cas en Streptococcus thermophilus pueden denominarse tipo Csn, y los genes Cas en Pyrococcus furiosus pueden denominarse tipo Cmr.
La etapa de integración de un sistema CRISPR se refiere a la capacidad del locus CRISPR para integrar nuevos espaciadores en la matriz de ARNcr al ser infectado por un invasor extraño. La adquisición de los espaciadores del invasores extraño puede ayudar a conferir inmunidad a los ataques posteriores del mismo invasor extraño. La integración ocurre típicamente en el extremo líder del locus CRISPR. Las proteínas Cas están involucradas en la integración de nuevas secuencias espaciadoras. La integración transcurre de manera similar para algunos tipos de sistemas CRISPR (por ejemplo, Tipos I-III).
Los ARNcr maduros se procesan a partir de un transcrito de locus CRISPR policistrónico más largo (es decir, matriz de pre-ARNcr). Una matriz de pre-ARNcr comprende una pluralidad de ARNcr. Las repeticiones en la matriz de pre-ARNcr son reconocidas por genes cas. Los genes Cas se unen a las repeticiones y escinden las repeticiones. Esta acción puede liberar la pluralidad de ARNcr. Los ARNcr se pueden someter a eventos adicionales para producir la forma de ARNcr madura, tal como el recorte (por ejemplo, con una exonucleasa). Un ARNcr puede comprender todas, algunas, o ninguna de las secuencias repetidas de CRISPR.
La interferencia se refiere a la etapa del sistema CRISPR que es funcionalmente responsable de combatir la infección por un invasor extraño. La interferencia CRISPR sigue un mecanismo similar a la interferencia de ARN (ARNi: por ejemplo, en el que un ARN diana es dianizado (por ejemplo, hibridado) por un ARN de interferencia corto (ARNip)), lo que da como resultado la degradación y/o desestabilización del ARN diana. Los sistemas CRISPR actualmente caracterizados realizan interferencias de un ácido nucleico diana mediante el acoplamiento de ARNcr y genes Cas, formando así ribonucleoproteínas CRISPR (RNP). El ARNcr del RNP guía al RNP al ácido nucleico invasor extraño (por ejemplo, reconociendo el ácido nucleico invasor extraño mediante hibridación). Las unidades de ARNcr-ácido nucleico invasor extraño diana hibridadas se someten a escisión por proteínas Cas. La interferencia del ácido nucleico diana requiere típicamente un motivo adyacente protoespaciador (PAM) en un ácido nucleico diana.
Por un “sistema CRISPR-Cas”, como se usa aquí, se entiende cualquiera de las diversas clases, tipos y subtipos de CRISPR-Cas. Los sistemas de Clase 1 comprenden sistemas de Tipo I, Tipo III, y Tipo IV. Los sistemas de Tipo I se caracterizan actualmente por tener una proteína Cas3 que tiene actividad de helicasa y actividad de escisión. Los sistemas de Tipo I se dividen además en varios subtipos que tienen una combinación definida de genes distintivos y características distintas de la organización del operón.
Hasta la fecha, parece que todos los sistemas de Tipo III poseen un gen cas10, que codifica una proteína multidominio que contiene un dominio Palm (una variante del motivo de reconocimiento de ARN (RRM)) que es homólogo al dominio central de numerosas polimerasas y ciclasas de ácidos nucleicos y que es la subunidad más grande de los complejos de efector-ARNcr de Tipo III. Todos los loci de Tipo III también codifican la proteína de subunidad pequeña, una proteína Cas5, y típicamente varias proteínas Cas7. El Tipo III también se divide en varios subtipos.
Los sistemas de Tipo IV codifican un complejo de efector-ARNcr de múltiples subunidades mínimo que comprende una subunidad grande parcialmente degradada, Csf1, Cas5, Cas7, y, en algunos casos, una subunidad pequeña putativa. Los sistemas de Tipo IV carecen de genes casi y cas2. Los sistemas de Tipo IV no tienen subtipos, pero hay dos variantes distintas. Una variante de Tipo IV tiene una helicasa de la familia DinG, mientras que una segunda variante de Tipo IV carece de una helicasa de la familia DinG, pero tiene un gen que codifica una pequeña proteína ahelicoidal. Un ejemplo de un organismo con un sistema de Tipo IV es Acidithiobacillus ferrooxidans.
Los sistemas de Clase 2 comprenden sistemas de Tipo II, Tipo V, y Tipo VI. Los sistemas de Tipo II incluyen genes casi, cas2 y cas9. Hay dos hebras de ARN en los sistemas de Tipo II, un ARNcr y un ARNtracr, que se hibrida con una región complementaria de pre-ARNcr provocando la maduración del pre-ARNcr a ARNcr. El dúplex formado por ARNtracr y ARNcr es reconocido por y se asocia con una proteína multidominio, Cas9, codificada por el gen cas9, que combina las funciones del complejo de efector-ARNcr con la escisión del ADN diana. Cas9 se dirige a un ácido nucleico diana mediante una secuencia del ARNcr que es complementaria y se hibrida con una secuencia en el ácido nucleico diana.
En los sistemas de Tipo V, la unión de la secuencia diana del ácido nucleico implica una proteína Cas12a y el ARNcr, al igual que la escisión de la secuencia diana del ácido nucleico. En los sistemas de Tipo V, el dominio de nucleasa similar a RuvC de la proteína Cas12a escinde ambas cadenas de la secuencia diana de ácido nucleico de forma secuencial (Swarts, et al., Mol. Cell (2017) 66:221 -233. e4), produciendo salientes 5’, que contrastan con los extremos romos generados por la escisión de la proteína Cas9.
La actividad de escisión de la proteína Cas12a de los sistemas de Tipo V no requiere la hibridación de ARNcr con ARNtracr para formar un dúplex; en lugar de eso, los sistemas de Tipo V usan un solo ARNcr que tiene una estructura de tallo-bucle que forma un dúplex interno. La proteína Cas12a se une al ARNcr de una manera específica de secuencia y estructura reconociendo el tallo-bucle y las secuencias adyacentes al tallo-bucle, más notablemente los nucleótidos 5’ de la secuencia espaciadora, que se hibrida con la secuencia diana del ácido nucleico. Esta estructura de tallo-bucle está típicamente en el intervalo de 15 a 19 nucleótidos de longitud. Las sustituciones que interrumpen este dúplex de tallo-bucle anulan la actividad de escisión, mientras que otras sustituciones que no interrumpen el dúplex de tallo-bucle no suprimen la actividad de escisión.
Los sistemas de Tipo VI incluyen la proteína Cas13a (también conocida como proteína candidata 2 de clase 2, o C2c2) que no comparte similitud de secuencia con otras proteínas efectoras CRISPR (véase Abudayyeh, et al., Science (2016) 353:aaf5573). Las proteínas Cas13a tienen dos dominios HEPN y poseen actividad de escisión de ARN monocatenario. Las proteínas Cas13a son similares a las proteínas Cas12a en que requieren un ARNcr para la unión y escisión de la secuencia diana del ácido nucleico, pero no requieren ARNtracr. Además, de forma similar a la proteína Cas12a, el ARNcr para las proteínas Cas13a forma una horquilla estable, o estructura de tallo-bucle, que ayuda en asociación con la proteína Cas13a. Los sistemas de Tipo VI tienen una única endonucleasa de ARN polipeptídico que usa un solo ARNcr para dirigir la escisión del ARN de una manera dependiente de la diana. Además, después de hibridarse con el ARN diana complementario al espaciador, la proteína Cas13a se convierte en una endonucleasa de ARN promiscua que exhibe actividad de endonucleasa no específica hacia cualquier ARN monocatenario de una manera independiente de la secuencia (véase East-Seletsky, et al., Nature (2016) 538:270-273).
Como es evidente, el descubrimiento y la caracterización de los sistemas CRISPR están evolucionando actualmente.
Producción de componentes CRISPR
En todas las realizaciones descritas aquí, los diversos componentes se pueden producir mediante síntesis, o, por ejemplo, usando casetes de expresión que codifican CasM, una guía afín, etc. Los diversos componentes pueden proporcionarse a una célula o usarse in vitro. Estos componentes pueden estar presentes en un solo casete o en múltiples casetes, en el mismo o diferente constructo. Los casetes de expresión comprenden típicamente secuencias reguladoras funcionales en las células hospedantes en las que se introducen. Las secuencias reguladoras están implicadas en uno o más de los siguientes: regulación de la transcripción, regulación postranscripcional, y regulación de la traducción. Los casetes de expresión pueden estar presentes en los vectores de expresión e introducirse en una amplia variedad de células hospedantes, incluyendo células bacterianas, células de levadura, células vegetales, y células de mamífero.
En un aspecto, todos o una parte de los diversos componentes para uso aquí se producen en vectores, incluyendo los vectores de expresión, que comprenden polinucleótidos que los codifican. Los vectores útiles para producir componentes para uso en los presentes métodos incluyen plásmidos, virus (incluyendo los fagos) y fragmentos de ácido nucleico integrables (es decir, fragmentos integrables en el genoma del hospedante mediante recombinación homóloga). Un vector se replica y funciona independientemente del genoma del hospedante, o puede, en algunos casos, integrarse en el genoma mismo. Los vectores de replicación adecuados contendrán un replicón y secuencias de control derivadas de especies compatibles con la célula hospedante de expresión pretendida. En algunas realizaciones, los polinucleótidos que codifican uno o más de los diversos componentes están operativamente unidos a un promotor inducible, un promotor reprimible, o un promotor constitutivo. Los vectores de expresión también pueden incluir polinucleótidos que codifican etiquetas de proteínas (por ejemplo, etiquetas de poli-His, etiquetas de hemaglutinina, etiquetas de proteínas fluorescentes, etiquetas bioluminiscentes, etiquetas de localización nuclear). Las secuencias codificantes de dichas etiquetas proteicas se pueden fusionar con las secuencias codificantes, o se pueden incluir en un casete de expresión, por ejemplo, en un vector de direccionamiento.
Se conocen en la técnica métodos generales para la construcción de vectores de expresión. Los vectores de expresión para la mayoría de las células hospedantes están disponibles comercialmente. Existen varios productos de software comerciales diseñados para facilitar la selección de vectores apropiados y su construcción, tales como vectores de células de insectos para la transformación de células de insectos y expresión génica en células de insectos, plásmidos bacterianos para la transformación bacteriana y expresión génica en células bacterianas, plásmidos de levadura para la transformación celular y expresión génica en levaduras y otros hongos, vectores de mamíferos para la transformación de células de mamíferos y expresión de genes en células de mamíferos o en mamíferos, vectores virales (incluyendo vectores retrovirales, lentivirales y adenovirales) para la transformación celular y expresión génica, y métodos para permitir fácilmente la clonación de tales polinucleótidos. SnapGene™ (GSL Biotech LLC, Chicago, 111.; snapgene.com/resources/plasmid_files/your_time_is_valuable/), por ejemplo, proporciona una lista extensa de vectores, secuencias de vectores individuales y mapas de vectores, así como fuentes comerciales para muchos de los vectores.
Se han diseñado varios vectores de expresión para expresar polinucleótidos guía. Véase, por ejemplo, Shen et al. Nat. Methods (2014) 11:399-402. Además, los vectores y sistemas de expresión están disponibles comercialmente, tales como los de New England Biolabs (Ipswich, MA) y Clontech Laboratories (Mountain View, CA). Los vectores pueden diseñarse para expresar simultáneamente un NATNA específico de la diana usando un promotor U2 o U6, un CasM y/o dCasM y, si se desea, una proteína marcadora, para monitorizar la eficiencia de la transfección y/o para enriquecer/aislar aún más las células transfectadas por citometría de flujo.
Por ejemplo, los diversos componentes se pueden incorporar en vectores de mamíferos para uso en células de mamíferos. Un gran número de vectores de mamíferos adecuados para uso con los sistemas de la presente invención están disponibles comercialmente (por ejemplo, de Life Technologies, Grand Island, NY; NeoBiolab, Cambridge, MA; Promega, Madison, WI; DNA2.0, Menlo Park, CA; Addgene, Cambridge, MA).
Los vectores derivados de virus de mamíferos también pueden usarse para expresar los diversos componentes de los presentes métodos en células de mamíferos. Estos incluyen vectores derivados de virus tales como adenovirus, papovirus, herpesvirus, poliomavirus, citomegalovirus, lentivirus, retrovirus, virus de la vacuna y virus 40 del simio (SV40) (véanse, por ejemplo, Kaufman, R. J., Molec. Biotech. (2000) 16:151-160; Cooray et al., Methods Enzymol. (2012) 507:29-57). Las secuencias reguladoras unidas operativamente a los componentes pueden incluir secuencias de unión de activadores, potenciadores, intrones, secuencias de reconocimiento de poliadenilación, promotores, secuencias de unión de represores, estructuras de tallo-bucle, secuencias de iniciación de la traducción, secuencias líder de traducción, secuencias de terminación de la transcripción, secuencias de terminación de la traducción, sitios de unión a cebadores, y similares. Los promotores comúnmente usados son los promotores constitutivos de mamíferos CMV, EF1a, SV40, PGK1 (ratón o humano), Ubc, CAG, CaMKIIa y beta-Act, y otros conocidos en la técnica (Khan, K. H. Advanced Pharmaceutical Bulletin (2013) 3:257-263). Además, pueden usarse promotores de ARN polimerasa III de mamífero, incluyendo HI y U6.
Se han usado numerosas líneas celulares de mamíferos para la expresión de productos génicos, incluyendo HEK 293 (riñón embrionario humano) y CHO (ovario de hámster chino). Estas líneas celulares se pueden transfectar mediante métodos estándar (por ejemplo, usando fosfato de calcio o polietilenimina (PEI), o electroporación). Otras líneas celulares típicas de mamíferos incluyen, pero no se limitan a: HeLa, U2OS, 549, HT1080, CAD, P19, NiH 3T3, L929, N2a, células 293 de riñón embrionario humano, MCF-7, Y79, SO-Rb50, Hep G2, DUKX-X11, J558L, y células de riñón de hámster bebé (BHK).
Los vectores pueden introducirse y propagarse en una procariota. Los vectores procariotas son bien conocidos en la técnica. Normalmente, un vector procariota comprende un origen de replicación adecuado para la célula hospedante diana (por ejemplo, oriC derivado de E. coli, pUC derivado de pBR322, pSC101 derivado de Salmonella), origen 15A (derivado de p15A), y cromosomas artificiales bacterianos). Los vectores pueden incluir un marcador seleccionable (por ejemplo, genes que codifican resistencia a ampicilina, cloranfenicol, gentamicina, y kanamicina). Zeocin™ (Life Technologies, Grand Island, NY) se puede usar como una selección en bacterias, hongos (incluyendo la levadura), plantas, y líneas celulares de mamíferos. Por consiguiente, se pueden diseñar vectores que porten solo un gen de resistencia a fármacos para la zeocina para el trabajo de selección en varios organismos. Se conocen promotores útiles para la expresión de proteínas en procariotas, por ejemplo, T5, T7, Ramnosa (inducible), Arabinosa (inducible), y PhoA (inducible). Además, los promotores de T7 se usan ampliamente en vectores que también codifican T7 ARN polimerasa. Los vectores procariotas también pueden incluir sitios de unión a ribosomas de intensidad variable y señales de secreción (por ejemplo, mal, sec, tat, ompC, y pelB). Además, los vectores pueden comprender promotores de ARN polimerasa para la expresión de NATNA. Las secuencias de terminación de la transcripción de la ARN polimerasa procariota también son bien conocidas (por ejemplo, secuencias de terminación de la transcripción de Streptococcus pyogenes).
La expresión de proteínas en procariotas se realiza típicamente en E. coli con vectores que contienen promotores constitutivos o inducibles que dirigen la expresión de proteínas de fusión o de no fusión.
En algunas realizaciones, un vector es un vector de expresión de levadura que comprende uno o más componentes de los métodos descritos anteriormente. Ejemplos de vectores de expresión en Saccharomyces cerivisae incluyen, entre otros, los siguientes: pYepSec1, pMFa, pJRY88, pYES2, y picZ. Los métodos para la expresión génica en células de levadura son conocidos en la técnica (véase, por ejemplo, Methods in Enzymology, Volumen 194, “Guide to Yeast Genetics and Molecular and Cell Biology, Part A,” (2004) Christine Guthrie and Gerald R. Fink (eds.), Elsevier Academic Press, San Diego, CA). Normalmente, la expresión de genes que codifican proteínas en levadura requiere un promotor operativamente ligado a una región codificante de interés más un terminador transcripcional. Pueden usarse varios promotores de levadura para construir casetes de expresión para la expresión de genes en levadura.
Proteínas CasM
Se describe aquí CasM, una nueva proteína CRISPR-Cas. CasM muestra actividad de unión de ácido nucleico, y produce roturas, tal como roturas de una sola hebra (SSB) o DSB, cuando se acerca a una secuencia diana de ácido nucleico, por ejemplo, por asociación con una guía de ácido nucleico afín, tal como un ARNcr afín. Como se muestra en los Ejemplos aquí, CasM se dirige al ARN y es capaz de escindir el ARNss, tal como cuando se administra a una diana genómica cuando forma un complejo con un ARNcr, sin la necesidad de asociación con un ARNtracr. Las proteínas CasM típicamente incluyen dos o más dominios de unión a nucleótidos procariotas y eucariotas superiores (HEPN) que se encuentran en la familia de proteínas PF05168, en la región C-terminal de la secuencia de CasM. Las proteínas CasM muestran sintenia con una o más proteínas que contienen el dominio WYL y, a veces, con proteínas que contienen el dominio RtcB (ARN 3’-terminal fosfato ciclasa, grupo B). Con base en las características anteriores, CasM puede clasificarse como un sistema CRISPR-Cas Clase 2 Tipo VI. Sin embargo, CasM tiene un grado muy bajo de similitud de secuencia con otros subtipos de Tipo VI.
Las proteínas CasM ejemplares se muestran en SEQ ID NOS: 37-45, y están codificadas por polinucleótidos mostrados en SEQ ID NOS: 28-36, respectivamente. Estas proteínas muestran aproximadamente 13,59% a 99,82% de identidad de secuencia entre sí, y muestran menos de 8% de identidad de secuencia con otras proteínas CRISPR-Cas conocidas. CasM se ha encontrado en varias especies y aislados que incluyen, pero no se limitan a, Eubacterium siraeum; Ruminococcus sp., tal como de Ruminococcus bicirculans; Ruminococcus flavefaciens, tales como, pero sin limitarse a, FD-1 y cepa XPD3002; Ruminococcus albus tales como, pero sin limitarse a, la cepa KH2T6; aislados de Ruminococcus sp., tales como, pero sin limitarse a, los aislados 2789STDY5834971, 2789STDY5608892 y 2789STDY5834894. Sin embargo, debe entenderse que el término “CasM” se refiere a una proteína derivada de cualquier especie, subespecie, o cepa de bacterias que codifica una proteína CasM, así como ortólogos de la misma, o variantes de la misma. Las proteínas CasM representativas incluyen, pero no se limitan a, aquellas proteínas representadas como SEQ ID NOS: 37-45 (véase Tabla 1), sus ortólogos, o sus variantes. Las proteínas CasM tienen aproximadamente 800 a aproximadamente 1000 aminoácidos de longitud.
Tabla 1: Proteínas CasM representativas
Figure imgf000017_0001
El análisis de estas secuencias de la proteína CasM indica la presencia de dos dominios HEPN en la región C-terminal de las secuencias. El dominio HEPN a menudo participa en la unión de ácidos nucleicos y puede funcionar como una ARNasa independiente de metales en ciertos casos.
Los sistemas CasM muestran una fuerte sintenia con un marco de lectura abierto en las proteínas que contienen el dominio WYL (familia de proteínas PF13280). Las secuencias de los dominios WYL en varias especies que codifican proteínas CasM se muestran como SEQ ID NOS: 52-59 (véase Tabla 2). Los dominios WYL comparten similitudes con los dominios de pliegue de Rossman asociados a CRISPR (CARF), y se cree que se unen a ligandos derivados del conflicto entre el hospedante y el virus y regulan los sistemas CRISPR-Cas. Se ha demostrado que una proteína de dominio WYL (sll7009) es un regulador negativo del sistema I-D CRISPR-Cas en Synechocystis sp. (Hein et al., RNA Biol. (2013) 10: 852-864. En algunos casos, la proteína que contiene WYL contiene al menos dos dominios WYL. Estas duplicaciones son consistentes con el ensamblaje multimérico hipotético de estos dominios de unión a ligando (Schumacher et al., EMBO J. (2002) 21:1210-1218). Los extremos N de estos dominios WYL contienen homología con el represor transcripcional CopG y el dominio antitoxina ParD. Para su uso en eucariotas, las proteínas que contienen el dominio WYL se pueden modificar con una secuencia de señal de localización nuclear N- o C-terminal (NLS). SEQ ID NOS: 61-68 presentan proteínas ejemplares que contienen el dominio WYL modificadas con una etiqueta NLS C-terminal de siete aminoácidos derivada del antígeno T grande de SV40.
Tabla 2: Secuencias de dominio WYL en varias especies que contienen CasM
Figure imgf000018_0001
RtcB (ARN 3’-terminal fosfato ciclasa, grupo B) es una superfamilia de dominios de proteínas, y se ha identificado un homólogo de RtcB (SEQ ID NO. 60) próximo a los loci CasM. Se ha dado a conocer previamente que el dominio CARF tiene similitud de secuencia con el dominio N-terminal de la proteína RtcR, que actúa como regulador del sistema de reparación de ARN de Rtc. El sistema de Rtc está compuesto por la fosfato ciclasa 3’-terminal RtcA y la ARN ligasa RtcB. Las proteínas que contienen el dominio RtcB se pueden modificar con una NLS N- o C-terminal para uso en eucariotas. En SEQ ID NO: 69 se muestra un dominio RtcB con una NLS asociado derivado del antígeno T grande de SV40.
Una proteína CasM modificada puede tener un bajo grado de identidad de secuencia, un grado moderado de identidad de secuencia, o un alto grado de identidad de secuencia en su longitud con una proteína CasM de referencia, dependiendo de la función pretendida de la CasM en cuestión. Por “alto grado de identidad de secuencia” se entiende aproximadamente 90% de identidad de secuencia a 100% de identidad de secuencia, por ejemplo, alrededor de 90%...95%...98% de identidad de secuencia o superior. Un “grado moderado de identidad de secuencia” está típicamente entre alrededor de 80% de identidad de secuencia y alrededor de 85% de identidad de secuencia, por ejemplo, alrededor de 80% de identidad o más, tal como alrededor de 85% de identidad de secuencia. Un “bajo grado de identidad de secuencia” está típicamente entre alrededor de 50% de identidad y 75% de identidad, por ejemplo, alrededor de 50% de identidad, preferiblemente alrededor de 60% de identidad a alrededor de 75% de identidad. Los vectores recombinantes de la invención comprenden polinucleótidos que comprenden una secuencia codificante que tiene 90% o más de identidad de secuencia con cualquiera de las SEQ ID NOS: 37 a 44 y 45.
En algunas realizaciones, la secuencia de aminoácidos de la proteína CasM de referencia puede modificarse mediante supresión, inserción o sustitución de uno o más restos de aminoácidos (de naturaleza conservativa o no conservativa), de modo que la actividad de la proteína CasM se retiene, se potencia o se reduce enormemente. Estas modificaciones pueden ser deliberadas, tal como por mutagénesis dirigida al sitio, o pueden ser accidentales, tal como por mutaciones de hospedantes que producen las proteínas o errores debidos a la amplificación por PCR.
Las sustituciones conservativas son generalmente aquellas sustituciones que tienen lugar dentro de una familia de aminoácidos que están relacionados en sus cadenas laterales. Específicamente, los aminoácidos generalmente se dividen en cuatro familias: (1) ácidos -- aspartato y glutamato; (2) básicos -- lisina, arginina, histidina; (3) no polares --alanina, valina, leucina, isoleucina, prolina, fenilalanina, metionina, triptófano; y (4) polares no cargados -- glicina, asparagina, glutamina, cisteína, serina, treonina, tirosina. La fenilalanina, el triptófano y la tirosina a veces se clasifican como aminoácidos aromáticos. Es razonablemente predecible que un reemplazo aislado de leucina por isoleucina o valina, un aspartato por un glutamato, una treonina por una serina, o un reemplazo conservativo similar de un aminoácido por un aminoácido estructuralmente relacionado, no tendrá un efecto importante en la actividad biológica deseada. Por ejemplo, la proteína CasM puede incluir hasta alrededor de 5-10 sustituciones de aminoácidos conservativas o no conservativas, o incluso hasta alrededor de 15-100 o más, por ejemplo 50 o más, sustituciones de aminoácidos conservativas o no conservativas, o cualquier número entre 5-100, siempre que la función deseada de la molécula permanezca intacta.
En otras realizaciones, puede ser deseable modificar uno o más dominios catalíticos para convertir una proteína CasM desactivada por nucleasa, también denominada “catalíticamente inactiva”, “CasM catalíticamente muerta”, “CasM muerta” o “dCasM”, de manera que la proteína no produce roturas de ácido nucleico y/o se une a una secuencia diana pero no la escinde. Dichas moléculas carecen de toda o una parte de la actividad de nucleasa y son incapaces de escindir un ácido nucleico de interés y por lo tanto pueden usarse para regular genes de una manera guiada por ácidos nucleicos. Estas proteínas dCasM se pueden usar solas o en fusiones para reprimir sintéticamente (CRISPRi) o activar (CRISPRa) la expresión génica.
Las proteínas CasM pueden aislarse y purificarse directamente a partir de bacterias, o producirse sintética o recombinantemente usando polinucleótidos que las codifican.
Polinucleótidos CasM
Las secuencias de ácido nucleico que codifican proteínas CasM representativas se muestran en SEQ ID NOS: 28-36 (véase Tabla 3), y estos polinucleótidos pueden usarse para producir proteínas CasM como se describe aquí.
Tabla 3: Secuencias de ADN de CasM representativas
Figure imgf000019_0001
Estos polinucleótidos pueden diseñarse para codificar proteínas CasM nativas, tales como las proteínas representadas en SEQ ID NOS: 37-45 (véase Tabla 1); sus homólogos, incluyendo ortólogos que se encuentran en otras especies; o sus otras variantes. Además, una secuencia polinucleotídica casM se puede modificar para que tenga un bajo grado de identidad de secuencia, un grado moderado de identidad de secuencia, o un alto grado de identidad de secuencia, en su longitud con respecto a un polinucleótido casM de referencia, dependiendo de la función pretendida del CasM codificado en cuestión. Por “un alto grado de identidad de secuencia” se entiende aproximadamente 90% de identidad de secuencia a 100% de identidad de secuencia, por ejemplo, alrededor de 90%...95%...98% de identidad de secuencia o superior. Un “grado moderado de identidad de secuencia” está típicamente entre alrededor de 80% de identidad de secuencia y alrededor de 85% de identidad de secuencia, por ejemplo, alrededor de 80% de identidad o más, tal como alrededor de 85% de identidad de secuencia. Un “bajo grado de identidad de secuencia” está típicamente entre alrededor de 50% de identidad y 75% de identidad, por ejemplo, alrededor de 50% de identidad, preferiblemente alrededor de 60% de identidad a alrededor de 75% de identidad.
En algunas realizaciones, las secuencias polinucleotídicas se modifican para mejorar la expresión en una célula hospedante seleccionada. El sesgo de uso de codones se refiere a las diferencias en la frecuencia de aparición de codones sinónimos en el ADN codificante. Por ejemplo, para los 20 aminoácidos estándar en el código genético, hay 64 codones diferentes (61 codones que codifican aminoácidos, y 3 codones de parada). La sobreabundancia en el número de codones permite que varios aminoácidos sean codificados por más de un codón. Los códigos genéticos de diferentes organismos a menudo están sesgados hacia el uso de uno de los varios codones que codifican un aminoácido en particular. Por tanto, se encontrará una frecuencia mayor de un codón de lo esperado por casualidad en organismos particulares. Por consiguiente, para potenciar la expresión en una célula hospedante particular, a menudo es deseable manipular polinucleótidos para incluir codones que están predispuestos para la expresión en la célula hospedante seleccionada. Hay varios paquetes de software disponibles en línea para este fin. Por ejemplo, una base de datos de Integrated DNA Technologies, Coralville, IA (idtdna.com/CodonOpt), es una herramienta para producir secuencias modificadas para expresión en docenas de organismos. GeneScript, Piscataway, NJ, también proporciona herramientas de modificación a través del algoritmo OptimumGene™ ((genscript.com/codon opt.html?src=google&gclid=CIX3uoqexdICFRSUfgodu3sAlQ). Véase también, Patente U.S. No. 8.326.547.
Normalmente, las secuencias polinucleotídicas modificadas para la expresión en células hospedantes particulares mostrarán una identidad de secuencia de alrededor de 50%-99% con las secuencias nativas, tal como 60%-95%, por 65%..70%..75%...80%...85%...90%...95% o más de identidad de secuencia, o cualquier número entero entre estos intervalos, con las secuencias nativas.
Usando estas herramientas, las secuencias polinucleotídicas se pueden modificar para la expresión en cualquier célula hospedante comúnmente usada, tal como, pero sin limitarse a, células bacterianas y células eucariotas, incluyendo, pero sin limitarse a, células bacterianas tales como E. coli, Lactoccocus lactis, sistemas de Pseudomonas, sistemas de Streptomyces, sistemas de Bacillus subtilis, sistemas Brevibacillus, bacterias corineformes, y bacterias halofílicas; células de algas; levadura y otras células fúngicas; células vegetales; células de mamífero tales como células humanas; células de insectos, y similares.
Las SEQ ID NOS: 1-9 muestran secuencias polinucleotídicas que codifican CasM representativas modificadas para la expresión en células de E. coli (véase Tabla 4). SEQ ID NOS: 10-18 muestran secuencias polinucleotídicas que codifican CasM representativas modificadas para expresión en células humanas (véase Tabla 5). SEQ ID NOS: 19­ 27 muestran secuencias polinucleotídicas que codifican CasM modificadas para expresión en células de Zea mays (véase Tabla 6).
Tabla 4: Secuencias de ADN de casM representativas modificadas para la expresión en E. coli
Figure imgf000020_0001
Tabla 5: Secuencias de ADN de casM representativas modificadas para la expresión en células humanas
Figure imgf000020_0002
Figure imgf000021_0001
Tabla 6: Secuencias de ADN de casM representativas modificadas para la expresión en Zea mays
Figure imgf000021_0002
Los polinucleótidos casM también se pueden modificar para incluir secuencias que codifican secuencias de señal de localización nuclear (NLS) N- o C-terminales, tales como para la expresión en células eucariotas. Dichas secuencias son conocidas, e incluyen, sin limitación, una etiqueta NLS derivada del antígeno T grande de SV40. Tal etiqueta está presente en el extremo C-terminal de las proteínas que se muestran en SEQ ID NOS: 61-69 (es decir, los últimos siete aminoácidos de estas secuencias).
Los polinucleótidos casM pueden usarse para producir proteínas CasM de manera recombinante usando métodos bien conocidos en la técnica.
Complejos de CasM
Las proteínas CasM se pueden complejar con una guía de ácido nucleico afín (complejo de guía afín/CasM) para suministrar CasM en proximidad con una secuencia de ácido nucleico diana. Una guía afín, tal como un ARNcr, es un polinucleótido que guía de forma específica de sitio una nucleasa CasM, o una nucleasa CasM desactivada, a una región de ácido nucleico diana. La especificidad de unión está determinada conjuntamente por la región complementaria en la guía afín y un motivo de ADN corto (motivo adyacente protoespaciador o PAM) yuxtapuesto a la región complementaria. El espaciador presente en la guía se hibrida específicamente con una secuencia de ácido nucleico diana y determina la ubicación de la unión específica del sitio de una proteína Cas y la escisión nucleolítica.
Los complejos de guía afín/CasM pueden producirse usando métodos bien conocidos en la técnica. Por ejemplo, los componentes de guía de los complejos se pueden producir in vitro, y los componentes CasM se pueden producir de forma recombinante, y después las guías y las proteínas CasM se pueden complejar juntas usando métodos conocidos en la técnica. Además, se pueden desarrollar líneas celulares que expresan constitutivamente proteínas CasM y se pueden transfectar con los componentes guía, y los complejos se pueden purificar a partir de las células usando técnicas de purificación estándar, tales como, pero sin limitarse a, cromatografía de afinidad, intercambio iónico, y exclusión de tamaño. Véase, por ejemplo, Jinek M., et al., “A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity,” Science (2012) 337:816-821.
Alternativamente, los componentes, es decir, las guías afines y los polinucleótidos casM pueden proporcionarse por separado a una célula, por ejemplo, usando constructos separados, o juntos, en un solo constructo, o en cualquier combinación, y los complejos se pueden purificar como antes.
Se conocen métodos para diseñar guías particulares, tales como para uso en los complejos. Véase, por ejemplo, Briner et al., “Guide RNA Functional Modules Direct Cas9 Activity and Orthogonality,” Molecular Cell (2014) 56:333-339. Para ello, se identifica en primer lugar la secuencia genómica del gen al que se va a dirigir. La región exacta del gen seleccionado a seleccionar como diana dependerá de la aplicación específica. Por ejemplo, para activar o reprimir un gen diana usando, por ejemplo, activadores o represores Cas, se pueden dirigir complejos de guía afín/CasM al promotor que dirige la expresión del gen de interés. Para la desactivación genética, las guías se diseñan comúnmente para seleccionar como dianas exones expresados constitutivamente 5’, lo que reduce las posibilidades de eliminación de la región seleccionada como diana del ARNm debido al ayuste alternativo. Los exones cercanos al extremo N-terminal pueden ser seleccionados como diana debido a que las mutaciones de desplazamiento de marco aquí aumentarán la probabilidad de producción de un producto proteico no funcional. Alternativamente, se pueden diseñar guías afines para seleccionar como dianas exones que codifican dominios de proteínas esenciales conocidos. En este sentido, es más probable que las mutaciones sin desplazamiento del marco, tales como inserciones o supresiones, alteren la función de las proteínas cuando se producen en dominios de proteínas que son esenciales para la función de las proteínas. Para la edición de genes usando HDR, la secuencia diana debe estar cerca de la ubicación de la edición deseada. En este caso, se identifica la ubicación en la que se desea editar, y se selecciona una secuencia diana cercana.
Las guías se pueden suministrar a una célula. Si la célula expresa constitutivamente una nucleasa CasM, entonces la nucleasa CasM se reclutará en el sitio diana para escindir el ácido nucleico diana. Si la célula no expresa una nucleasa CasM, se pueden administrar complejos de guía afín/CasM a las células para romper el genoma, lo que desencadena las rutas de reparación en las células.
A continuación, las células tratadas se criban usando métodos bien conocidos en la técnica, tales como el uso de técnicas de cribado de alto rendimiento que incluyen, pero no se limitan a, plataformas de cribado basadas en clasificación de células activadas por fluorescencia (FACS), plataformas de cribado basadas en microfluidos, y similares. Estas técnicas son bien conocidas en la técnica. Véase, por ejemplo, Wojcik et al., Int. J. Molec. Sci. (2015) 16:24918-24945. A continuación, las células se pueden expandir y volver a transfectar con complejos adicionales de guía afín/CasM para introducir una mayor diversidad, y este proceso puede repetirse iterativamente hasta que se obtenga una población con las propiedades deseadas. Los clones de células individuales se separan de la población, se expanden, y se secuencian para recuperar las mutaciones que dieron como resultado la función deseada.
Aplicaciones de CasM
Debido a sus capacidades para dianizar el ARN, CasM puede usarse para editar ARN y, en algunas realizaciones, para tratar enfermedades causadas por ARN tóxico o ARN empalmado incorrectamente.
En algunas realizaciones, los complejos de guía afín/CasM, tales como, pero sin limitarse a, los complejos de ARNcr/CasM, son capaces de actividad de ARNss específica de secuencia. El reconocimiento y la escisión de un ARNss inicial complementario a la secuencia diana de ARNcr activa la proteína CasM para llevar a cabo la actividad de endonucleasa hacia cualquier ARN monocatenario de una manera independiente de la secuencia. El reconocimiento de secuencia específica de ARN del complejo de ARNcr/CasM facilita la eliminación diana de transcritos génicos que perturban la traducción de una proteína específica. La actividad de endonucleasa inespecífica de un complejo de ARNcr/CasM activado en un entorno celular puede provocar la muerte celular debido al agotamiento del ARN que codifica los transcritos génicos esenciales. Por tanto, la actividad de endonucleasa colateral y de dianización del ARN específico de un complejo de ARNcr/CasM activado permite la selección específica de secuencia de células que expresan un transcrito de ARN.
Por lo tanto, en otros aspectos, los complejos de CasM, tales como, pero sin limitarse a, los complejos de ARNcr/CasM, pueden usarse en métodos de cribado y destrucción de células, tales como células bacterianas, que no han sido modificadas por una nucleasa dirigida al ADN (es decir, una nucleasa Cas9 de Tipo II). Este método comprende poner en contacto un complejo de NATNA/Cas9 con un locus de interés en una población de células. El contacto del complejo de NATNA/Cas9 con el locus da como resultado la escisión del ADN y la subsiguiente reparación de la rotura por la máquina de reparación celular endógena y la introducción de indeles en el sitio de rotura. El direccionamiento del complejo de NATNA/Cas9 hacia un locus seleccionado como diana que codifica un transcrito de ARN da como resultado indeles en una secuencia de transcrito de ARN. Esta secuencia de transcrito de ARN modificada es diferente en comparación con un transcrito de una célula no modificada (una célula de tipo salvaje). A continuación, un complejo de ARNcr/CasM puede dirigirse al transcrito no modificado, en el que el reconocimiento de ARNcr/CasM del transcrito no modificado da como resultado la activación de la actividad de direccionamiento del ARN monocatenario independiente de la secuencia de la proteína CasM y la posterior muerte celular. Alternativamente, este método puede adaptarse para cribar la incorporación de un polinucleótido donante en el sitio de rotura NATNA/Cas9.
En otro aspecto, los complejos de CasM pueden dirigirse a una región codificante de exón eucariota para provocar un salto de exón. Este método comprende poner en contacto un complejo de ARNcr/CasM desactivada, tal como, pero sin limitarse a, un complejo de ARNcr/dCasM, con un sitio donante (extremo 5’ de un intrón), un sitio de ramificación (proximal al extremo 3’ de un intrón), o un sitio aceptor (5’ de un exón) de un pre-ARNm. Poner en contacto el complejo de ARNcr/dCasM con las diversas regiones implicadas en los eventos de empalme de exón evita el ayuste adecuado de uno o más exones juntos, y hace que el exón diana se “omita” y, por lo tanto, no se incluya en el ARNm maduro y, por lo tanto, se omita de la secuencia polipeptídica traducida.
En aún otro aspecto, los complejos de CasM se usan para la detección de una o más moléculas diana in vitro. Este método comprende poner en contacto un complejo de guía afín/CasM, tal como un complejo de ARNcr, con una diana de ARNss de interés dentro de un grupo de ácidos nucleicos. El complejo de ARNcr/CasM se puede añadir a una muestra que contiene potencialmente la diana de ARNss de interés, en combinación con un informador de ARN fluorescente desactivado, por ejemplo, un hexámero de ARN con una 6-carboxifluoresceína en el extremo 5’ y un desactivador lowa Black® FQ (Integrated DNA Technologies, Coralville, IA) en el extremo 3’. El contacto del complejo de ARNcr/CasM con la diana de ARNss activa la proteína CasM para llevar a cabo la escisión colateral del informador de ARN fluorescente desactivado, en el que la escisión del informador da como resultado un aumento de la fluorescencia que puede leerse con un espectrofotómetro. La ganancia de fluorescencia se usa como una medida de la presencia de una diana de ARNss de interés.
En otro aspecto, CasM puede usarse para la escisión dirigida de un transcrito de ARNm endógeno mientras se administra simultáneamente un transcrito de ARNm exógeno en las células. Este método comprende poner en contacto un complejo de guía afín/CasM, con un transcrito de ARNm endógeno asociado a la enfermedad, mientras se administra simultáneamente un ARNm que codifica el polipéptido exógeno no patológico en una célula. Por tanto, el fenotipo asociado a la enfermedad se reprime mientras se restaura el fenotipo no patológico.
Las proteínas CasM descritas aquí también se pueden usar con guías afines asociadas para activar o reprimir un gen diana, desactivar un gen, producir un producto proteico no funcional, o alterar la función de la proteína. La presente invención incluye métodos para modular la transcripción in vitro o in vivo usando los diversos componentes y complejos descritos aquí. En una realización, un complejo de guía afín/proteína CasM puede reprimir la expresión génica interfiriendo con la transcripción cuando la guía afín dirige la unión diana de ácido nucleico del complejo a la región promotora del gen. El uso de los complejos para reducir la transcripción también incluye complejos en los que la proteína CasM se fusiona con un regulador descendente conocido de un gen diana (por ejemplo, un polipéptido represor). Por ejemplo, la expresión de un gen está bajo el control de secuencias reguladoras a las que puede unirse un polipéptido represor. Una guía afín puede dirigir la unión a la diana de ácido nucleico de un complejo proteico represor a las secuencias que codifican las secuencias reguladoras o adyacentes a las secuencias reguladoras, de modo que la unión del complejo proteico represor pone a la proteína represora en contacto operable con las secuencias reguladoras. De manera similar, CasM puede fusionarse con un polipéptido activador para activar o aumentar la expresión de un gen bajo el control de secuencias reguladoras a las que puede unirse un polipéptido activador.
En una realización, CasM se puede fusionar con una nucleasa, o un mutante o una parte activa del mismo, así como una guía afín, para acercar la nucleasa a una secuencia de ácido nucleico diana, en la que la nucleasa puede producir una rotura de una sola hebra o de doble hebra. De esta manera, se puede lograr un corte específico de locus en un ácido nucleico diana usando una guía afín en combinación con CasM y la nucleasa de interés. Por ejemplo, puede ser deseable asociar CasM con una endonucleasa de restricción para escindir en un sitio de restricción particular en una secuencia de ácido nucleico diana. La endonucleasa de restricción se puede seleccionar de cualquiera de los diversos tipos de endonucleasas de restricción, tales como, pero sin limitarse a, tipo I, II, III, o IV. Véase, por ejemplo, la Publicación PCT No. WO 2013/098244 de Brouns et al., publicada el 4 de julio de 2013, para métodos de producción de complejos entre una proteína Cas y una endonucleasa de restricción.
Usando los métodos descritos aquí, se puede seleccionar como diana cualquier secuencia de ácido nucleico deseada, y en particular secuencias de ARN, para modificación, incluyendo, sin limitación, secuencias de ARNm que codifican proteínas, con el fin de reducir o restaurar la función del producto génico; regiones que tienen una propensión a incorporar secuencias nucleotídicas de un molde donante, denominadas aquí “puntos calientes de HDR”; regiones de puerto seguro, es decir, regiones en las que se pueden insertar secuencias nucleotídicas sin alterar la función del gen vecino; regiones reguladoras no codificantes en secuencias de ácido nucleico; y similares.
Las secuencias codificantes de proteínas, incluyendo el ARN, tal como el ARNm, para el direccionamiento mediante los métodos descritos aquí incluyen, pero no se limitan a, anticuerpos de mamíferos (AB) (IgG, IgA, IgM, IgE), fragmentos de anticuerpos tales como regiones Fc, regiones de anticuerpos Fab, cadenas pesadas de anticuerpos, cadenas ligeras de anticuerpos, CDR de anticuerpos, nanocuerpos, anticuerpos quiméricos y otros dominios de IgG; receptores de células T (TCR); endonucleasas y exonucleasas, tales como TALENS, nucleasas CRISPR tales como Cas9, Cas3, Cpfl, ZnFN, meganucleasas, dominios de nucleasas tales como dominio HNH, dominio RuvC; recombinasas tales como Cre, Tre, Brecl, Flp, g-integrasa, IntI4 integrasa, XerD recombinasa, HP1 integrasa; ADN topoisomerasas; transposones tales como la familia Tc1/mariner, Tol2, piggyBac, Sleeping beauty; proteínas RAG; retrotransposones tales como retrotransposones LTR y retrotransposones no LTR (Alu, SINE, LINE); enzimas que incluyen, pero no se limitan a, arginasas, glicosidasas, proteasas, cinasas, y enzimas de glicosilación tales como glicosiltransferasa; anticoagulantes tales como proteína C, proteína S, y antitrombina; coagulantes tal como trombina; nucleasas tales como ADNasas, ARNasas, helicasas, GTPasas; proteínas de unión a ADN o ARN; moléculas informadoras, tales como proteína fluorescente verde (GFP); péptidos penetrantes en células y sus fusiones con proteínas cargo; proteínas de membrana tales como GPCR, receptores de dolor tales como canales TRP y canales iónicos; receptores de superficie celular que incluyen, pero no se limitan a, EGFR, FGFR, VEGFR, IGFR, y receptor de efrina; moléculas de adhesión celular tales como integrinas y cadherinas; canales iónicos; rodopsinas; inmunorreceptores tales como CD28, CD80, PD-1, PD-L1, CTLA-4, CXCR4, CXCR5, B2M, TRACA, TRBC; proteínas que se sabe que están relacionadas con defectos genéticos; proteínas segregadas que incluyen, pero no se limitan a, hormonas, citocinas, factores de crecimiento; antígenos de vacunas tales como proteínas virales del virus de la inmunodeficiencia humana (VIH), dengue, citomegalovirus (CMV), ébola, zika, y virus oncolíticos; proteínas y péptidos de toxina de serpiente que incluyen, pero no se limitan a, fosfolipasas y metaloproteasas; péptidos cíclicos ribosomales.
La presente invención también abarca métodos de ingeniería del genoma para prevenir o tratar enfermedades, trastornos y afecciones usando los diversos métodos descritos aquí. En una realización, un método de ingeniería del genoma usa la introducción de secuencias de ácido nucleico en un organismo o células de un organismo (por ejemplo, un paciente) para lograr la expresión de los componentes de la presente invención para proporcionar la modificación de una función diana. Por ejemplo, las células de un organismo pueden diseñarse, ex vivo, mediante (i) introducción de vectores que comprenden casetes de expresión que expresan los diversos componentes, (ii) introducción directa de un NATNA y/o polinucleótidos donantes y proteínas CasM, o (iii) introducción de combinaciones de estos componentes. Las células manipuladas se proporcionan a un organismo (por ejemplo, un paciente) a tratar.
En la técnica se conocen ejemplos de ingeniería del genoma y técnicas para la terapia (véanse, por ejemplo, Kay, M.A., Nature Reviews Genetics (2011) 12:316-328; Wang et al., Discov. Med. (2014) 18:67-77; Wang et al., Discov. Med. (2014) 18:151-61; “The Clinibook: Clinical Gene Transfer State of the Art,” Odile Cohen-Haguenauer (Editor), EDP Sciences (31 de octubre de 2012), ISBN-10: 2842541715).
En algunos aspectos, los componentes de la presente invención se administran usando sistemas de administración a nanoescala, tal como nanopartículas. Además, se pueden usar liposomas y otros sistemas de suministro de partículas. Por ejemplo, los vectores que incluyen los componentes de los presentes métodos pueden empaquetarse en liposomas antes de su administración al sujeto o a las células derivadas del mismo, como se describe en las Patentes U.S. Nos. 5.580.859; 5.264.618; 5.703.055. La encapsulación de lípidos se logra generalmente usando liposomas que pueden unirse o atrapar y retener de manera estable el ácido nucleico.
Los métodos descritos aquí también pueden usarse para generar organismos modificados genéticamente no humanos, tales como ratones, plantas, y similares.
PARTE EXPERIMENTAL
Los aspectos de la presente invención se ilustran adicionalmente en los siguientes ejemplos. Se han realizado esfuerzos para asegurar la precisión con respecto a los números usados (por ejemplo, cantidades, concentraciones, cambios porcentuales, etc.), pero se deben tener en cuenta algunos errores y desviaciones experimentales. A menos que se indique lo contrario, la temperatura está en grados centígrados, y la presión es igual o cercana a la atmosférica. Debe entenderse que estos Ejemplos, aunque indican algunas realizaciones de la invención, se dan únicamente a modo de ilustración.
Los siguientes Ejemplos no pretenden limitar el alcance de lo que los inventores consideran diversos aspectos de la presente invención.
Ejemplo 1
Descubrimiento de una nueva proteína asociada a CRISPR (Cas) in silico
Este Ejemplo describe el descubrimiento in silico de una nueva proteína Cas, denominada “CasM”, a partir de datos de secuenciación genómica. El enfoque general usado fue similar a los métodos descritos en Shmakov et al., “Discovery and functional characterization of diverse Class 2 CRISPR-Cas systems” Molecular Cell (2015) 60:385-397. En particular, se utilizó una tubería computacional para buscar datos de secuenciación para matrices CRISPR en genomas completos y cóntigos metagénicos.
Se inspeccionó cada cóntigo o genoma en el conjunto de datos para determinar si contenía una matriz CRISPR usando Minced (github.com/ctSkennerton/minced) y PILERCR (drive5.com/pilercr/).
Cada vez que se encontraba una matriz CRISPR en un cóntigo o genoma, la secuencia de ADN circundante (hasta 10 kilobases a cada lado de la matriz CRISPR) se inspeccionaba más a fondo en busca de marcos de lectura abiertos (ORF) usando la herramienta getorf (emboss.sourceforge.net/apps/cvs/emboss/apps/getorf.html).
La secuencia de aminoácidos primaria de cada ORF predicho se analizó para posibles anotaciones de dominio funcional usando la herramienta HHPred (detección de homología y predicción de estructura por comparación HMM-HMM; toolkit.tuebingen.mpg.de/hhpred). HHPred permite al usuario especificar con qué bases de datos comparar la secuencia de aminoácidos para encontrar dominios de proteínas similares. Las bases de datos buscadas incluyeron PFAM (que incluye una gran colección de familias de proteínas; http://pfam.xfam.org/), PDB (banco de datos de proteínas; wwpdb.org), CDD (base de datos de dominios conservados; ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml), y KEGG (Kyoto Encyclopedia of Genes and Genomes; genome.jp/kegg/).
Usando estas herramientas, se encontraron ORF que codifican una nueva proteína supuesta asociada a CRISPR, denominada “CasM”, en varias especies en la familia Clostridia. Los ORF son proximales a una proteína de unión a ADN de HTH predicha con homología con un dominio WYL asociado a CRISPR. Véase la FIG. 1 para un mapa representativo de un operón CRISPR encontrado en Eubacterium siraeum (N° de acceso al genoma NZ_DS499551.1, coordenadas 211.800-220.497). Las diversas características del locus CRISPR se describen en la Tabla 7.
Tabla 7: Locus CasM CRISPR para Eubacterium siraeum (FIG. 1)
Figure imgf000025_0001
Los resultados del análisis de HHPred se analizaron para determinar si los ORF que codifican CasM tenían dominios predichos que se encuentran comúnmente en las proteínas asociadas con CRISPR. No se encontraron anotaciones para CasM, lo que indica que la proteína era nueva.
Las secuencias de las diversas proteínas CasM nativas se muestran en SEQ ID NOS: 37-45 (véase la Tabla 1), y los polinucleótidos nativos que los codifican se muestran en SEQ ID NOS: 28-36 (véase la Tabla 3). Esta proteína no tiene una homología significativa con ninguna familia de proteínas conocida ni con ningún efector Cas de Clase 2.
Ejemplo 2
Modificación de codones de secuencias de casM nativas
Este Ejemplo describe el proceso de optimización de codones de secuencias codificantes de CasM para mejorar la expresión en células hospedantes seleccionadas.
Las secuencias nucleotídicas de casM nativas se recuperaron de los genomas de referencia o cóntigos metagenómicos de los microbios hospedantes como se describe en el Ejemplo 1. Las secuencias de aminoácidos de las regiones codificantes se generaron con la herramienta de traducción de ADN ExPASy (web.expasy.org/translate/). A continuación, estas secuencias de aminoácidos se introdujeron en la herramienta de optimización de codones de Integrated DNA Technologies (Coralville, IA) (idtdna.com/CodonOpt). Se escogió “Aminoácido” para la opción “Tipo de Secuencia”, y se escogió “Gen” para la opción “Tipo de Producto”. Para cada secuencia de casM nativa, se realizaron modificaciones de codones para aumentar la expresión en células de E. coli, humanas, y de Zea mays.
SEQ ID NOS: 1-9 muestran las secuencias modificadas para uso en E. coli (véase la Tabla 4). SEQ ID NOS: 10-19 muestran las secuencias modificadas para uso en células humanas (véase la Tabla 5). SEQ ID NOS: 20-27 muestran las secuencias modificadas para uso en células de Z. mays (véase la Tabla 6). La Tabla 8 muestra el porcentaje de identidad de las secuencias modificadas con las secuencias nativas.
Tabla 8: Porcentaje de identidad de secuencia con secuencias de casM nativas
Figure imgf000025_0002
Figure imgf000026_0001
Ejemplo 3
Producción de plásmidos de expresión de CasM para ensayos de interferencia de ADN
Este Ejemplo describe la producción de plásmidos que expresan la proteína CasM.
Las secuencias nucleotídicas de casM modificadas expuestas en el Ejemplo 2 se sintetizaron in vitro. Las secuencias de ADN se clonaron en un plásmido apropiado para la expresión en E. coli.
Para la expresión en E. coli, las secuencias modificadas en E. coli se clonaron en un esqueleto plasmídico p14A usando nucleasas de restricción apropiadas. El esqueleto plasmídico contenía un promotor T7 en dirección 5’ de la secuencia codificante de CasM para facilitar la transcripción en las células.
El esqueleto plasmídico p14A también contenía un sitio de clonación que permitía la inserción de una matriz CRISPR mínima. La matriz CRISPR mínima contenía una secuencia repetida, seguida de una secuencia espaciadora, seguida de una secuencia repetida. La cadena principal del plásmido también contenía un promotor T7 en dirección 5’ del sitio de la matriz CRISPR, un gen de resistencia a la kanamicina, y un origen de replicación ColE1.
Se usan técnicas similares para preparar plásmidos para la expresión en células humanas y de Zea mays. Una vez que se producen los plásmidos, se transfectan a la célula seleccionada, por ejemplo, células de E. coli, humanas o vegetales (por ejemplo, células de Zea mays).
Ejemplo 4
Ensayo de interferencia de plásmidos
Este Ejemplo describe el uso de CasM en un ensayo para evaluar su capacidad para escindir ADN de doble hebra en forma de plásmido diana. El enfoque general es similar a los métodos usados en Burnstein et al., Nature (2016) 542:237-241.
El plásmido de expresión CasM del Ejemplo 3 se transforma en células de E. coli. Las células se cultivan en un medio que contiene kanamicina para seleccionar solo las células que contienen el plásmido de expresión de CasM.
Se construye un plásmido diana que contiene la secuencia espaciadora contenida en la matriz CRISPR del plásmido de expresión de CasM. Adyacente a la secuencia espaciadora hay una secuencia PAM aleatorizada de 7 nucleótidos. Las bibliotecas de plásmidos que contienen secuencias PAM aleatorizadas se ensamblan hibridando un oligonucleótido de ADN que contiene una diana con una región PAM aleatorizada de 7 nt con un cebador, y se extienden con fragmento Klenow (New England Biolabs, Ipswitch, MA). El ADN de doble hebra se digiere con EcoRI y NcoI, y se liga en un esqueleto de pUC19. La biblioteca ligada se transforma en E. coli DH5a y se cosechan las células, los plásmidos se extraen y purifican. 200 ng de la biblioteca combinada se transforman en E. coli electrocompetente que posee un locus CRISPR o un plásmido de control sin ningún locus. Las células transformadas se cultivan en placas en medios selectivos que contienen carbenicilina (100 mg l-1) y cloranfenicol (30 mg l-1) durante 30 horas a 25°C. Se extrae el ADN plasmídico, y se amplifica la secuencia de PAM con adaptadores para la secuenciación de Illumina. Se extrae la región PAM de 7 nt, y se calculan las frecuencias de PAM para cada secuencia de 7 nt. Las secuencias de PAM agotadas por encima del umbral especificado se usan para generar un logotipo de secuencia con WebLogo (weblogo.berkeley.edu). Si hay PAM empobrecidos, esto muestra que la nucleasa es una ADN nucleasa de doble hebra.
Ejemplo 5
Modificación dirigida de células HEK293 mediante CasM
Este Ejemplo ilustra el uso de CasM para modificar células de riñón embrionario humano (HEK293) en ubicaciones diana específicas.
Los polinucleótidos casM se transfectan en células HEK293 que expresan constitutivamente una fusión CasM-GFP (HEK293-CasM-GFP), usando el sistema Shuttle de 96 pocillos Nucleofector™ (Lonza, Allendale, NJ) y el siguiente protocolo. Los polinucleótidos casM están diseñados para dirigirse al gen FUT8. Cantidades molares iguales de componentes polinucleotídicos casM se preparan en un amortiguador de hibridación (HEPES 1,25 mM, MgCl20,625 mM, KCl 9,375 mM a pH 7,5), se incubaron durante 2 minutos a 95°C, se retiraron del termociclador, se dejaron equilibrar a temperatura ambiente, y se dispensaron en un volumen final de 10 pl en una placa de 96 pocillos. El medio de cultivo se aspira de las células HEK293-CasM-GFP, y las células se lavan una vez con PBS libre de calcio y magnesio y después se tripsinizan mediante la adición de TrypLE (Life Technologies, Grand Island, NY) seguido de incubación a 37°C durante 3-5 minutos. Las células tripsinizadas se pipetean suavemente hacia arriba y hacia abajo para formar una suspensión de células individuales, y se añaden al medio de cultivo completo DMEM compuesto de medio de cultivo DMEM (Life Technologies, Grand Island, NY) que contiene 10% de FBS (Fisher Scientific, Pittsburgh, PA) y que está suplementado con penicilina y estreptomicina (Life Technologies, Grand Island, NY).
A continuación, las células se peletizan mediante centrifugación durante 3 minutos a 200 x g, se aspira el medio de cultivo, y se resuspenden las células en PBS. Las células se cuentan usando el contador de células automatizado Countess™ II (Life Technologies, Grand Island, NY). 2,2 x 107 células se transfieren a un tubo de 50 ml y se peletizan. El PBS se aspira, y las células se resuspenden en una disolución Nucleofector™ SF (Lonza, Allendale, NJ) hasta una densidad de 1 x 107 células/ml. A continuación, se añaden 20 pl de la suspensión celular a los pocillos individuales que contienen 10 pl de componentes polinucleotídicos casM, y todo el volumen se transfiere a los pocillos de una placa Nucleocuvette™ de 96 pocillos (Lonza, Allendale, NJ). La placa se carga en Nucleofector™ Shuttle™ de 96 pocillos (Lonza, Allendale, NJ), y las células se nucleofectan usando el programa Nucleofector™ 96-CM-130 (Lonza, Allendale, NJ). Después de la nucleofección, se añaden 70 pl de medio de cultivo completo DMEM a cada pocillo, y se transfieren 50 pl de la suspensión celular a una placa de cultivo celular de 96 pocillos recubierta de colágeno que contiene 150 pl de medio de cultivo completo DMEM precalentado. Después, la placa se transfiere a una incubadora de cultivo de tejidos y se mantiene a 37°C en 5% de CO2 durante 48 horas.
El ADN genómico (ADNg) se prepara usando la disolución de extracción de ADN QuickExtract (Illumina, San Diego, CA) de acuerdo con las instrucciones del fabricante. Los amplicones de secuenciación de entre 150 pb y 200 pb están diseñados para abarcar el sitio diana CasM RNP FUT8. Usando ADNg previamente aislado, se realiza una primera PCR usando Herculase II Fusion DNA Polymerase™ (Agilent, Santa Clara, CA) con cebadores que comprenden una secuencia adaptadora y una secuencia específica para la región que flanquea el sitio diana FUT8. Se realiza una segunda PCR usando los amplicones de la primera ronda de PCR como molde a 1/20° el volumen del volumen de la reacción de PCR. La segunda PCR usa un segundo conjunto de cebadores que comprende una secuencia complementaria a la secuencia adaptadora del primer par de cebadores, una secuencia de índice de código de barras única para cada muestra, y una secuencia adaptadora de celda de flujo. Los amplicones se agrupan y analizan en un gel TBE al 2%, y las bandas de tamaños de amplicones esperados se purifican en gel usando el kit de extracción de gel QIAEX II™ (Qiagen, Venlo, Luxemburgo). Las concentraciones de amplicones purificados se evalúan usando el kit de ensayo BR de ADN de doble hebra y el Qubit system™ (Life Technologies, South San Francisco, CA) ,y la calidad de la biblioteca se determina usando el Agilent DNA100Chip y Agilent Bioanalyzer 2100 system™ (Agilent, Santa Clara, CA). Después de la validación de la calidad de la biblioteca, la biblioteca se secuencia en un MiSeq Benchtop Sequencer™ (Illumina, San Diego, CA) con el MiSeq Reagent Kit v2™ (300 ciclos, Illumina, San Diego, CA) según las instrucciones del fabricante para las lecturas finales emparejadas de 151 pb.
La identidad de los productos en los datos de secuenciación se analiza basándose en la secuencia del código de barras del índice adaptada al amplicón en la segunda ronda de PCR. Se usa una secuencia de comandos computacional para procesar los datos de MiSeq mediante la ejecución de las siguientes tareas:
1. Unir lecturas finales emparejadas con la ayuda de fastq-join (Aronesty 2011: code.google.com/p/ea-utils);
2. Validar las lecturas de secuencia para detectar secuencias de cebadores apropiadas que están presentes en los extremos 5’ y 3’ de la secuencia de lectura usando un divisor de código de barras fastx (hannonlab.cshl.edu/fastx_toolkit/index.html); se descartan las lecturas que carecen de secuencias de cebadores correctas en ambos extremos.
3. Comparar las secuencias de lectura con la secuencia de FUT8 de tipo salvaje esperada; las secuencias de lectura idénticas se clasifican como que tienen la misma modificación indel.
Otros loci cromosómicos dentro de las células HEK293 se modifican de manera similar mediante la selección de una secuencia espaciadora apropiada para CasM RNP. La selección es específica para un gen diana específico, y el procedimiento descrito en este Ejemplo es fácilmente modificable por un experto en la técnica para otros dianas génicas.
Este procedimiento puede proporcionar datos para verificar el CasM RNP y para detectar la actividad de nucleasa guiada por ácido nucleico en loci seleccionados como diana en células HEK293.
Ejemplo 6
Ensayo de procesamiento de matrices CasM CRISPR
Este Ejemplo describe la actividad de procesamiento de la matriz CRISPR de una proteína CasM. El siguiente método se puede practicar con otros homólogos de proteínas CasM para caracterizar sus capacidades de procesamiento de matrices CRISPR.
A. Identificación de la secuencia de repetición de la matriz CRISPR
La matriz CRISPR del homólogo de proteína CasM (SEQ ID NO: 39) se analizó in silico, y la secuencia repetida se identificó. La estructura in silico de una secuencia repetida CRISPR (SEQ ID NO: 51) asociada con la proteína CasM (SEQ ID NO: 39) como se predice usando un algoritmo de plegamiento de ARN (rna.urmc.rochester.edu/RNA structureWeb/Servers/Predictl.html) se muestra en la FIG. 2 (SEQ ID NO: 51). Los diversos componentes estructurales de secuencia de repetición CRISPR representados en la FiG. 2 se describen en la Tabla 9.
Tabla 9: Indicadores numéricos usados para ilustrar
los componentes estructurales de secuencia repetida CRISPR de CasM (FIG. 2)
Figure imgf000028_0001
La secuencia repetida se usó para diseñar una matriz CRISPR incorporando secuencias espaciadoras 5’, 3’, o tanto 5’ como 3’ de la secuencia repetida. Las secuencias se usaron para la síntesis como ARN. La matriz sintética CasM CRISPR se representa en la FIG. 4, y los componentes estructurales 470-473 se detallan en la Tabla 9. Los componentes adicionales 490 y 491 corresponden a una primera secuencia espaciadora 5’ y una primera 3’, respectivamente. Los componentes de la matriz CRISPR se muestran en la Tabla 10.
Tabla 10: Componentes de la matriz CRISPR
Figure imgf000028_0002
SEQ ID NO: 46 comprende, en una orientación 5’ a 3’, componentes estructurales de matriz CRISPR 490, 470-473 y 491. SEQ ID NO: 47 comprende, en una orientación 5’ a 3’, componentes estructurales de matriz CRISPR 490 y 470­ 473. La SEQ ID NO: 48 comprende, en una orientación 5’ a 3 ’, los componentes estructurales de la matriz CRISPR 470-473 y 491.
Alternativamente a la síntesis, las matrices CRISPR se pueden obtener mediante PCR usando cebadores superpuestos 3’ que contienen secuencias de ADN correspondientes a los componentes de la matriz CRISPR y la incorporación de una secuencia promotora T75’ de las matrices CRISPR, seguido de la transcripción in vitro.
B. Purificación de CasM
La secuencia codificante de la proteína CasM se optimizó por codones para la expresión en E. coli, y se incorporó en un esqueleto plasmídico pET modificado en dirección 3’ de una proteína de unión a maltosa (MBP) usando nucleasas de restricción apropiadas. El esqueleto plasmídico contenía un promotor T7-Lac en dirección 5’ de la secuencia codificante de MBP-CasM para facilitar la transcripción en las células. Además, el esqueleto plasmídico contenía un gen de resistencia a la kanamicina y un origen de replicación ColEl.
El plásmido de expresión CasM se transformó en células Rosetta2 (DE3), y las células se cultivaron en dos matraces de agitación de 1 l a 37°C hasta que las células alcanzaron una densidad óptica de 0,6, después de lo cual se indujo la expresión de proteínas mediante la adición de IPTG 0,5 mM. A continuación, las células se incubaron a 16°C durante la noche.
Las células se recogieron mediante centrifugación y se lisaron mediante sonicación. Los restos celulares se peletizaron, y el lisado clarificado se purificó usando una combinación de cromatografía en columna HisTrap, seguido de escisión de la etiqueta MBP, y finalmente cromatografía en columna de intercambio catiónico. La proteína purificada final se cuantificó usando un espectrofotómetro NanoDrop™ 2000 (ThermoFisher, Waltham, MA), y se almacenó a -80°C.
C. Procesamiento de matriz CRISPR in vitro
Los reactivos de matriz CRISPR sintéticos se resuspendieron en agua hasta una concentración final de 250 gM y se diluyeron hasta una concentración de trabajo de 250 nM. Las matrices CRISPR se incubaron a 95°C durante dos minutos y se enfriaron a 0,5°C/s en un termociclador hasta una temperatura final de 25°C.
CasM se diluyó a una concentración final de 500 nM en amortiguador de escisión 1x (HEPES 20 mM, KCl 100 mM, MgCl25 mM, y glicerol al 5% a pH 7,4). La reacción se inició mediante la adición de proteína CasM a matrices CRISPR desnaturalizadas en un volumen de reacción final de 12 gl, seguido de incubación a 37°C durante 15 minutos. La reacción se terminó por inactivación por calor a 95°C durante 2 minutos, y se mezclaron 6 gl de la reacción con 6 gl de amortiguador de carga de ARN 2 x (New England Biolabs, Ipswich, MA). Low Range ssRNA Ladder™ (New England Biolabs, Ipswich, MA) se diluyó 125 veces en agua, y se mezclaron 7 gl con 7 gl de RNA Loading Dye™ (New England Biolabs, Ipswich, MA) 2 x, y se incubaron a 90°C durante 4 minutos, y después se incubaron en hielo durante 5 minutos. Se analizaron las reacciones de procesamiento de matriz CRISPR y la escalera de ARNss en un Mini-PROTEAN 15% TBE-Urea™ (Bio-RAD, Hercules, CA) a 200 V durante 1 hora en 1 x amortiguador de ejecución TBE. El gel se tiñó usando 2 x SYBR gold™ (MilliporeSigma, St. Louis, MI) durante 15 minutos, y se visualizó usando un Gel Doc ™ EZ system ™ (Bio-RAD, Hercules, CA). Los resultados de las reacciones de procesamiento de la matriz CRISPR se muestran en la FIG. 3, y el orden de los carriles se presenta en la Tabla 11.
Tabla 11: Orden del carril del gel de escisión de la matriz CRISPR
Figure imgf000029_0001
Los resultados de los ensayos de escisión de la matriz CRISPR (FIG. 3) demostraron que la proteína CasM es capaz de procesar una matriz CRISPR afín. Las tres bandas mostradas en el Carril 1 corresponden a estándares de 150, 80 y 50 nucleótidos del Low Range ssRNA Ladder™ (New England Biolabs, Ipswich, MA), respectivamente). El indicador 480 de la FIG. 3 corresponde a un ARNcr CasM procesado que comprende una parte de la secuencia repetida CRISPR y una secuencia espaciadora. El indicador 481 corresponde a las especies de ARN escindidas del extremo 5’ de la matriz CRISPR después de la adición de CasM.
CasM escindió los nucleótidos en la región 5’ del elemento repetido (FIG. 3, comparando el Carril 2 con el 5; comparando el Carril 3 con el Carril 6), y no mostró escisión 3’ del elemento repetido (FIG. 3, comparando el Carril 4 con el Carril 7). ARNcr procedía de la matriz CasM CRISPR y por lo tanto tenía un elemento de repetición 5’ y un elemento espaciador 3 ’ de la repetición. En ausencia de CasM, no se observó escisión del ARNcr (FIG. 3, Carriles 2, 3 y 4).
Los esquemas de los regímenes de procesamiento de ARNcr se representan en la FIG. 5. En la FIG. 5, el panel I corresponde a la reacción de la Fig. 3, Carril 5; en la FIG. 5, el panel II corresponde a la reacción de la FIG. 3, Carril 6; y en la FIG. 5, el panel III corresponde a la reacción de la FIG. 3, Carril 7. Los diversos componentes representados en la FIG. 5 se describen en la Tabla 12.
Tabla 12: Indicadores numéricos usados para ilustrar
los resultados del ensayo de escisión de matriz CRISPR in vitro (FIG. 5)
Figure imgf000030_0001
Ejemplo 7
Ensayo de escisión de ARNss de CasM
Este Ejemplo ilustra el uso de un complejo de ARNcr/proteína CasM para llevar a cabo la escisión de ARNss. El siguiente método puede practicarse con otra proteína CasM y ARNcr para escindir dianas de ARNss.
A. Generación de diana de ARNss
Se generó una diana de ARNss mediante amplificación por PCR de una secuencia diana de 224 nucleótidos de un plásmido. Se incorporó una secuencia del promotor T7 en el extremo 5’ del cebador de PCR inverso (SEQ ID NO: 50) para la transcripción. Los cebadores usados para el molde de ADN de la diana de ARNss se presentan en la Tabla 13.
Tabla 13: Cebadores de molde de ADN de la diana de ARNss
Figure imgf000030_0002
Los cebadores estaban presentes a una concentración de 400 nM cada uno. Las reacciones de PCR se realizaron usando Q5 Hot Start High-Fidelity 2X Master M ix™ (New England Biolabs, Ipswich, MA), siguiendo las instrucciones del fabricante, con 10 ng de molde de plásmido. Las reacciones de ensamblaje por PCR se llevaron a cabo usando las siguientes condiciones de ciclos térmicos: 98°C durante 2 minutos; 20 ciclos durante 10 segundos a 98°C; 15 segundos a 60°C; 30 segundos a 72°C; y una extensión final a 72°C durante 2 minutos. La calidad del producto de ADN se evaluó después de la reacción de PCR mediante electroforesis en gel de agarosa (1,5%, SYBR® Safe; Life Technologies, Grand Island, NY).
Entre 0,1-0,5 pg del molde de ADN de la diana de ARNss amplificado se uso como un molde para la transcripción usando T7 High Yield RNA Synthesis Kit™ (New England Biolabs, Ipswich, MA) durante aproximadamente 16 horas a 372C. Las reacciones de transcripción se trataron con ADNasa I (New England Biolabs, Ipswich, MA) y se purificaron usando GeneJet RNA Cleanup and Concentration K it™ (Life Technologies, Grand Island, NY). La calidad del ARN transcrito se verificó mediante electroforesis en gel de agarosa (2%, SYBR® Safe; Life Technologies, Grand Island, NY), y se cuantificó usando el Quant-iT™ RNA Assay Kit™ (ThermoFisher, Waltham, MA).
B. Diseño de ARNcr CasM
La secuencia diana de ARNss de 224 nucleótidos se sondó in silico para una secuencia diana de 30 nucleótidos. La secuencia diana se anexó in silico al extremo 3’ de la secuencia de repetición de ARNcr de CasM, y la secuencia de ARNcr se proporcionó a un fabricante comercial para su síntesis.
C. Ensayo de escisión de ARNss
Los reactivos de ARNcr sintéticos se resuspendieron en agua hasta una concentración final de 250 pM, y se diluyeron hasta una concentración de trabajo adecuada de 250 nM. La diana de ARNss transcrita in vitro se diluyó a 43 ng/pl en agua. Tanto el ARNcr como los reactivos de la diana de ARNss se incubaron por separado a 95°C durante dos minutos, y se enfriaron a 0,5°C/s en un termociclador hasta una temperatura final de 25°C. La proteína CasM se diluyó a diversas concentraciones en agua y amortiguador de escisión 1 x. Se añadió ARNcr desnaturalizado a diversas concentraciones a la proteína CasM, y se incubó en un termociclador durante 10 minutos a 37°C. Las reacciones de escisión se iniciaron mediante la adición de la diana de ARNss a una concentración final de 56,4 nM en un volumen de reacción final de 12 pl. La concentración de cada componente en las diversas reacciones se muestra en la Tabla 14.
Tabla 14: Concentraciones de los componentes de la reacción dirigida contra ARNss
Figure imgf000031_0001
Las muestras se mezclaron y centrifugaron brevemente antes de incubarlas durante 1 hora a 37°C. Las reacciones se terminaron incubando la reacción a 95°C durante 2 minutos, seguido de la adición de 100 U/pl de proteinasa K (New England Biolabs, Ipswich, MA), urea 4 M, DTT 5 pM, Ed Ta 50 pM, e incubación a 37°C durante 15 minutos. Se mezclaron 7 pl de cada reacción con 6 pl de 2 x colorante de carga de ARN (New England Biolabs, Ipswich, MA), y se incubaron a 90°C durante dos minutos. Low Range ssRNA Ladder™ (New England Biolabs, Ipswich, MA) se diluyó 125 veces en agua, y se mezclaron 7 pl con 7 pl de 2 x RNA Loading Dye™ (New England Biolabs, Ipswich, MA), y se incubaron a 90°C durante 4 minutos, y después se incubaron en hielo durante 5 minutos. Las reacciones de escisión y la escalera de ARNss se analizaron en un Mini-PROTEAN 15% TBE-Urea™ (BioRAD, Hercules, CA), que funciona a 200 V durante 1 hora en amortiguador de ejecución TBE IX. El gel se tiñó usando 2x SYBR gold™ (Life Technologies, Grand Island, NY) durante 15 minutos, y se visualizó usando un Gel Doc EZ system™ (BioRAD, Hercules, CA). Los resultados del ensayo de escisión de ARNcr se muestran en la FIG. 6, y los componentes de cada carril se muestran en la Tabla 15. El indicador numérico 500 corresponde a la diana de ARNss. El indicador numérico 501 corresponde a una diana ARNss hibridada con las secuencias espadadoras del ARNcr CasM. El indicador numérico 502 corresponde a un ARNcr CasM sin procesar. El indicador numérico 503 corresponde a la especie de ARNcr CasM procesada.
Tabla 15: Orden de carril de gel de escisión de ARNss
Figure imgf000032_0001
Los resultados del ensayo de escisión de ARNss mostrados en la FIG. 6 demostraron que un complejo de proteínas CasM:ARNcr era capaz de escindir la diana de ARNss. Los resultados de este procedimiento demuestran que el aumento de la cantidad de complejos de CasM:ARNcr dio como resultado cantidades reducidas de la diana de ARNss (FIG. 6, indicador 500), visualizado en el gel (FIG. 6, carriles 1-10).
Ejemplo 8
Producción de plásmidos de expresión CasM y RtcB para ensayos de placa de gota de fago MS2
Este Ejemplo describe la producción de plásmidos para la expresión de CasM, RtcB (ARN 3’-terminal fosfato ciclasa, grupo B), y una matriz CRISPR correspondiente en E. coli para su uso en un ensayo de placa de gota de fagos MS2. El siguiente método se puede practicar con otros homólogos de CasM, RtcB, y matrices CRISPR.
La secuencia nucleotídica de casM y rtcB de Eubacterium siraeum (SEQ ID NO: 37 y SEQ ID NO: 60, respectivamente) se seleccionan y se optimizan los codones para la expresión en E. coli. Las secuencias modificadas en E. coli se clonan en un esqueleto de plásmido p14A usando nucleasas de restricción apropiadas. El esqueleto del plásmido contiene un promotor T7 en dirección 5’ de cada secuencia codificante de proteína, para facilitar la transcripción en las células. También se puede construir dos plásmidos de control, uno que contiene solo la secuencia del gen casM bajo el control de un promotor T7, y el otro plásmido que solo contiene la secuencia del gen rtcB bajo el control de un promotor T7.
Una secuencia espaciadora que tiene homología con el genoma del fago MS2 se diseña in silico flanqueada 5’ y 3’ por la secuencia de repetición CasM CRISPR de Eubacterium siraeum. Como control, se diseña de forma similar un espaciador no dianizador sin homología con el fago MS2 o el genoma de E. coli. Ambas secuencias se subclonan en plásmidos separados entre una secuencia del promotor T7 en dirección 5’ y una secuencia terminadora de la transcripción en dirección 3’.
Ejemplo 9
Ensayo de placa de gota de fagos MS2
Este Ejemplo describe el uso de CasM y RtcB en un ensayo para evaluar la capacidad de la proteína RtcB para modular la actividad de nucleasa colateral y específica de secuencia de CasM en E. coli. El método aquí expuesto está adaptado de Smargon et al., Molec. Cell (2017) 65:618-630. No todas las etapas siguientes son necesarias para el cribado, ni el orden de las etapas debe ser como se presenta.
Los plásmidos de expresión construidos en el Ejemplo 8 se transforman individualmente y en combinación en células BL21 (AI) de E. coli de un proveedor comercial, tal como Invitrogen (Carlsbad, CA). Las células transformadas se cultivan durante la noche a 37°C, con agitación, en caldo de lisogenia (LB) suplementado con 100 pg/ml de carbenicilina, para seleccionar las células que contienen el plásmido de expresión de CasM.
Al día siguiente, las células se diluyen 1:100, y después se cultivan a 37°C, con agitación, hasta una DO600 de 2,0. A continuación, las células se mezclan con 4 ml de agar superior que contiene carbenicilina (10 g/l de triptona, 5 g/l de extracto de levadura, 10 g/l de cloruro de sodio, 5 g/l de agar), y se vierten en placas base de antibiótico LB. El agar superior también contiene 0,2% de arabinosa para inducir la expresión de las secuencias codificantes de casM, rtcB y de la matriz CRISPR. Se preparan diluciones en serie de 10 veces del fago MS2 (ATCC 15597-B1, Manassas VA) en LB, y después se colocan sobre agar superior endurecido con una pipeta multicanal. La formación de placa se evalúa después de la incubación durante la noche de las placas manchadas a 37°C.
Para evaluar si la proteína RtcB modula la actividad de escisión de CasM, se determina la formación de placas relativa comparando las células que expresan CasM, RtcB y la matriz CRISPR que se dirigen al fago MS2; células que expresan CasM y la matriz CRISPR que se dirigen al fago MS2; y células que expresan CasM y la matriz CRISPR que no se dirigen al fago MS2; células que expresan CasM y RtcB solamente.
Ejemplo 10
Introducción de complejos de RNP de CasM en células diana
Este Ejemplo ilustra el diseño y suministro de complejos de ribonucleoproteína (RNP) de CasM y ARNcr en células humanas para permitir la escisión del ARNm del gen del receptor del factor de crecimiento epidérmico humano (EGFR), y la subsiguiente desactivación de la expresión del gen EGFR.
A. Producción de complejos de CasM y transformación en células
Los ARNcr maduros (SEQ ID NOS: 70-165) se diseñaron para dianizar el locus EGFR en el genoma humano. Cada ARNcr contenía una repetición de 36 nt en 5’ (SEQ ID NO: 51) seguida de un espaciador de 30 nt. Los ARNcr fueron se diseñaron para dianizar 72 secuencias únicas complementarias al ARNm de egfr dentro de los exones 1-3. Las secuencias se diseñaron de manera que las secuencias flanqueantes dentro de 1 pb no estuvieran sesgadas por ningún nucleótido. Como controles negativos, que no se predice que induzcan escisión, los ARNcr también se diseñaron para dianizar (1) ocho secuencias genómicas en dirección 5’ del ARNm de egfr predicho; (2) ocho secuencias complementarias al exón 1 de ARNm de vegfa; y (3) ocho secuencias idénticas al ARNm de egfr.
Se crearon moldes de guía de ADN bicatenario (ADNbc) que contenían secuencias del promotor T7 en dirección 5’ mediante hibridación de oligonucleótidos complementarios (Integrated DNA Technologies, Coralville, IA) a una concentración final de 10 pM en amortiguador de hibridación (HEPES 30 mM, KCL 300 mM), después incubando a 95°C durante dos minutos, y después se enfrió lentamente hasta aproximadamente 25°C, y se incubó durante 20 minutos más. Después de la hibridación, las guías se transcribieron con T7 RNA polymerase HiScribe™ T7 High Yield RNA Synthesis K it™ (New England Biolabs, Ipswich, MA) según las instrucciones del fabricante. A continuación, las muestras se digirieron con ADNasa-I sin ARNasa (New England Biolabs, Ipswich, MA) según las instrucciones del fabricante, después se purificaron usando perlas RNAClean XP™ (Beckman Coulter, Indianapolis, IN).
Para la purificación con perlas ARNClean XP™, se combinaron 30 pl de muestra con 155 pl de isopropanol al 100% y 10 pl de acetato de sodio 3M, y después se mezclaron completamente. A continuación, se incubaron 50 pl de perlas ARNClean XP™ en un imán durante tres minutos para permitir la separación del líquido y las perlas, y se eliminó el sobrenadante. Posteriormente, las muestras que contenían ARNcr se añadieron a las perlas, se mezclaron, se incubaron a aproximadamente 25°C durante cinco minutos, y después se incubaron en un imán durante tres minutos. Finalmente, se eliminó el sobrenadante, las perlas se lavaron una vez con etanol al 85%, se secaron, y después el ARNcr se eluyó en 20 pl de agua de calidad para biología molecular. Los ARNcr se cuantificaron usando ribogreen, y después se normalizaron a 1 pg/pl.
Para ensamblar los RNP de CasM, se añadieron 120 pmoles de cada ARNr único a un pocillo, y después se incubaron a 95°C durante dos minutos, seguido de 25°C durante aproximadamente 10 minutos. A continuación, las guías de ARNcr desnaturalizadas se combinaron con 20 pmoles de CasM (SEQ ID NO: 39) en amortiguador de ensamblaje de RNP (HEPES 20 mM; pH 7,4, MgCl2 10 mM, KCl 150 mM, glicerol al 5%), y después se incubaron a 37°C durante 10 minutos.
B. Transfección de complejos de RNP de CasM en células eucariotas
Se cultivaron células HeLa (ATCC, Manassas, VA) en suspensión en medio DMEM suplementado con FBS al 10% y disolución Antibiótico-Antimicótica 1x (Mediatech, Inc., Manassas, VA) a 37°C, 5% de CO2 y 100% de humedad. Las células HeLa se transfectaron usando el sistema lanzadera de 96 pocillos Nucleofector® (Lonza, Allendale, NJ). Antes de la nucleofección, se ensamblaron 5 pl de los RNP CasM:ARNcr en pocillos individuales de una placa de 96 pocillos. Las células HeLa se transfirieron a un tubo de centrífuga cónico de 50 ml, y se centrifugaron a 200 x G durante cinco minutos. Se aspiró el medio, y el pelete celular se lavó en PBS exento de calcio y magnesio. Las células se centrifugaron una vez más, y se resuspendieron en amortiguador Nucleofector SF™ (Lonza, Allendale, NJ) a una concentración de 5 x 106 células/ml. Se añadieron 20 pl de esta suspensión celular a los RNP de CasM:ARNcr en la placa de 96 pocillos, se mezclaron, y después todo el volumen se transfirió a una placa Nucleocuvette™ de 96 pocillos. Después, la placa se cargó en el Nucleofector Shuttle™ de 96 pocillos, y las células se nucleofectaron usando el programa 96-CN-114 Nucleofector™ (Lonza, Allendale, NJ). Inmediatamente después de la nucleofección, se añadieron 75 pl de medio DMEM completo a cada pocillo de la placa Nucleocuvette™ de 96 pocillos. La mitad del contenido de cada pocillo se transfirió después a una placa de cultivo de tejido de 96 pocillos que contenía 150 pl de medio DMEM completo. A continuación, se repitió este procedimiento para colocar en placa un duplicado para cada pocillo, uno que se usaría para la lisis y el análisis del ADN genómico, y otro para el análisis FACS. Las células se cultivaron a 37°C, 5% de CO2 y 100% de humedad durante aproximadamente 5 días.
C. Análisis FACS de la reducción de EGFR mediada por CasM
El análisis de clasificación celular activada por fluorescencia (FACS) se realizó 5 días después de la nucleofección de células HeLa con RNP CasM2 dirigidas contra EGFR. En resumen, 2 x 105 - 4 x 105 células/pocillo se despegaron con TrypLE Express (Gibco), se tiñeron con 2 pl de APC anti-EGFR humano (Clone AY13, Sony Biotechnology) en un volumen total de 100 pl, y después se analizaron usando un citómetro de flujo Intellicyte (Intellicyt, Albuquerque, NM). Los resultados de estos experimentos se muestran en la Tabla 16.
Tabla 16: Reducción de EGFR mediada por CasM
Figure imgf000034_0001
Figure imgf000035_0001
Figure imgf000036_0001

Claims (16)

REIVINDICACIONES
1. Un vector recombinante, que comprende:
un polinucleótido que comprende una secuencia codificante para una proteína (CasM) asociada a repeticiones palindrómicas cortas agrupadas regularmente interespaciadas (CRISPR) que comprende una secuencia de aminoácidos seleccionada del grupo que consiste en la secuencia de aminoácidos de SEQ ID NOS: 37 a 44 y 45, o una secuencia de aminoácidos que tiene 90% o más de identidad de secuencia con una secuencia de aminoácidos seleccionada del grupo que consiste en las secuencias de aminoácidos de SEQ ID NOS: 37 a 44 y 45; y
al menos un elemento de control enlazado operativamente al polinucleótido, por lo que la secuencia codificante de CasM en el polinucleótido puede transcribirse y traducirse en una célula hospedante.
2. El vector recombinante de la reivindicación 1, en el que al menos uno de los elementos de control es heterólogo a la secuencia codificante.
3. El vector recombinante de la reivindicación 1 o 2, en el que el polinucleótido se modifica para la expresión en una célula hospedante seleccionada.
4. El vector recombinante de la reivindicación 3, en el que el polinucleótido se modifica para la expresión en una célula bacteriana.
5. El vector recombinante de la reivindicación 3, en el que el polinucleótido se modifica para la expresión en una célula eucariota.
6. El vector recombinante de la reivindicación 5, en el que el polinucleótido se modifica para la expresión en una célula de mamífero.
7. El vector recombinante de la reivindicación 6, en el que el polinucleótido se modifica para la expresión en una célula humana.
8. El vector recombinante de una cualquiera de las reivindicaciones 5 a 7, en el que el polinucleótido comprende además una secuencia que codifica una secuencia de señal de localización nuclear (NLS) N- o C-terminal.
9. El vector recombinante de la reivindicación 1, en el que la célula hospedante es un procariota, y el vector recombinante es un vector procariota.
10. El vector recombinante de la reivindicación 1, en el que la célula hospedante es un eucariota, y el vector recombinante es un vector eucariota.
11. El vector recombinante de la reivindicación 1, en el que la célula hospedante es una célula de mamífero, y el vector recombinante es un vector de mamífero.
12. El vector recombinante de la reivindicación 11, en el que la célula de mamífero es una célula humana.
13. El vector recombinante de cualquier reivindicación anterior, en el que la secuencia codificante para la proteína CasM comprende una secuencia de aminoácidos que tiene una identidad de secuencia del 95% o más con una secuencia de aminoácidos seleccionada del grupo que consiste en las secuencias de aminoácidos de SEQ ID NOS: 37 a 44 y 45.
14. El vector recombinante de 13, en el que la secuencia codificante para la proteína CasM comprende una secuencia de aminoácidos seleccionada del grupo que consiste en las secuencias de aminoácidos de SEQ ID NOS: 37 a 44 y 45.
15. El vector recombinante de cualquier reivindicación anterior, en el que la proteína CasM es catalíticamente inactiva.
16. Una célula hospedante que comprende el vector recombinante de una cualquiera de las reivindicaciones 1 a 15.
ES18720431T 2017-03-28 2018-03-27 Proteína asociada a CRISPR (CAS) Active ES2894725T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762477494P 2017-03-28 2017-03-28
US201862629641P 2018-02-12 2018-02-12
PCT/US2018/024677 WO2018183403A1 (en) 2017-03-28 2018-03-27 Crispr-associated (cas) protein

Publications (1)

Publication Number Publication Date
ES2894725T3 true ES2894725T3 (es) 2022-02-15

Family

ID=62063167

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18720431T Active ES2894725T3 (es) 2017-03-28 2018-03-27 Proteína asociada a CRISPR (CAS)

Country Status (6)

Country Link
US (6) US10876101B2 (es)
EP (2) EP3526324B1 (es)
CA (1) CA3084252A1 (es)
ES (1) ES2894725T3 (es)
PT (1) PT3526324T (es)
WO (1) WO2018183403A1 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US9163284B2 (en) 2013-08-09 2015-10-20 President And Fellows Of Harvard College Methods for identifying a target site of a Cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9526784B2 (en) 2013-09-06 2016-12-27 President And Fellows Of Harvard College Delivery system for functional nucleases
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US20150166982A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting pi3k point mutations
CA2956224A1 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
US10194672B2 (en) 2015-10-23 2019-02-05 NanoGuard Technologies, LLC Reactive gas, reactive gas generation system and product treatment using reactive gas
WO2017070632A2 (en) 2015-10-23 2017-04-27 President And Fellows Of Harvard College Nucleobase editors and uses thereof
IL264565B2 (en) 2016-08-03 2024-07-01 Harvard College Adenosine nuclear base editors and their uses
AU2017308889B2 (en) 2016-08-09 2023-11-09 President And Fellows Of Harvard College Programmable Cas9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
EP3526320A1 (en) 2016-10-14 2019-08-21 President and Fellows of Harvard College Aav delivery of nucleobase editors
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2018165504A1 (en) 2017-03-09 2018-09-13 President And Fellows Of Harvard College Suppression of pain by gene editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
IL269458B2 (en) 2017-03-23 2024-02-01 Harvard College Nucleic base editors that include nucleic acid programmable DNA binding proteins
WO2018183403A1 (en) 2017-03-28 2018-10-04 Caribou Biosciences, Inc. Crispr-associated (cas) protein
WO2018209320A1 (en) 2017-05-12 2018-11-15 President And Fellows Of Harvard College Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation
US10392616B2 (en) * 2017-06-30 2019-08-27 Arbor Biotechnologies, Inc. CRISPR RNA targeting enzymes and systems and uses thereof
JP2020534795A (ja) 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物
US10476825B2 (en) 2017-08-22 2019-11-12 Salk Institue for Biological Studies RNA targeting methods and compositions
US11970720B2 (en) 2017-08-22 2024-04-30 Salk Institute For Biological Studies RNA targeting methods and compositions
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
EP3697906A1 (en) 2017-10-16 2020-08-26 The Broad Institute, Inc. Uses of adenosine base editors
JP2022527740A (ja) 2019-03-19 2022-06-06 ザ ブロード インスティテュート,インコーポレーテッド 編集ヌクレオチド配列を編集するための方法および組成物
EP3997227A1 (en) 2019-07-10 2022-05-18 Locanabio, Inc. Rna-targeting knockdown and replacement compositions and methods for use
US11896731B2 (en) * 2020-04-03 2024-02-13 NanoGuard Technologies, LLC Methods of disarming viruses using reactive gas
IL297761A (en) 2020-05-08 2022-12-01 Broad Inst Inc Methods and compositions for simultaneously editing two helices of a designated double-helix nucleotide sequence
AU2021391643A1 (en) 2020-12-01 2023-06-29 Locanabio, Inc. Rna-targeting compositions and methods for treating cag repeat diseases
WO2022221278A1 (en) 2021-04-12 2022-10-20 Locanabio, Inc. Compositions and methods comprising hybrid promoters
WO2022241059A2 (en) * 2021-05-11 2022-11-17 Mammoth Biosciences, Inc. Effector proteins and methods of use
BR112023024985A2 (pt) 2021-06-01 2024-02-20 Arbor Biotechnologies Inc Sistemas de edição de genes compreendendo uma crispr nuclease e usos dos mesmos
AU2023209457A1 (en) * 2022-01-21 2024-08-08 Mammoth Biosciences, Inc. Effector proteins and methods of use
WO2023154807A2 (en) 2022-02-09 2023-08-17 Locanabio, Inc. Compositions and methods for modulating pre-mrna splicing
WO2023205637A1 (en) 2022-04-18 2023-10-26 Locanabio, Inc. Rna-targeting compositions and methods for treating c9/orf72 diseases
WO2024173645A1 (en) 2023-02-15 2024-08-22 Arbor Biotechnologies, Inc. Gene editing method for inhibiting aberrant splicing in stathmin 2 (stmn2) transcript
WO2024196814A1 (en) 2023-03-17 2024-09-26 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Methods for treatment of age-related macular degeneration

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US545617A (en) * 1895-09-03 Nut-lock
US5703055A (en) 1989-03-21 1997-12-30 Wisconsin Alumni Research Foundation Generation of antibodies through lipid mediated DNA delivery
US5264618A (en) 1990-04-19 1993-11-23 Vical, Inc. Cationic lipids for intracellular delivery of biologically active molecules
US8326547B2 (en) 2009-10-07 2012-12-04 Nanjingjinsirui Science & Technology Biology Corp. Method of sequence optimization for improved recombinant protein expression using a particle swarm optimization algorithm
GB201122458D0 (en) 2011-12-30 2012-02-08 Univ Wageningen Modified cascade ribonucleoproteins and uses thereof
JP6343605B2 (ja) 2012-05-25 2018-06-13 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア Rna依存性標的dna修飾およびrna依存性転写調節のための方法および組成物
RU2018122288A (ru) 2013-03-14 2019-03-06 Карибо Биосайенсиз, Инк. Композиции и способы с участием нуклеиновых кислот, нацеленных на нуклеиновые кислоты
WO2015200555A2 (en) 2014-06-25 2015-12-30 Caribou Biosciences, Inc. Rna modification to engineer cas9 activity
CA2975166C (en) 2015-01-28 2020-01-14 Pioneer Hi-Bred International, Inc. Crispr hybrid dna/rna polynucleotides and methods of use
US20160362667A1 (en) 2015-06-10 2016-12-15 Caribou Biosciences, Inc. CRISPR-Cas Compositions and Methods
US9580727B1 (en) 2015-08-07 2017-02-28 Caribou Biosciences, Inc. Compositions and methods of engineered CRISPR-Cas9 systems using split-nexus Cas9-associated polynucleotides
WO2018035250A1 (en) 2016-08-17 2018-02-22 The Broad Institute, Inc. Methods for identifying class 2 crispr-cas systems
BR112019015244A2 (pt) 2017-03-24 2020-04-14 Curevac Ag ácidos nucleicos codificando proteínas associadas a crispr e usos dos mesmos
WO2018183403A1 (en) 2017-03-28 2018-10-04 Caribou Biosciences, Inc. Crispr-associated (cas) protein
US10392616B2 (en) 2017-06-30 2019-08-27 Arbor Biotechnologies, Inc. CRISPR RNA targeting enzymes and systems and uses thereof
US10476825B2 (en) 2017-08-22 2019-11-12 Salk Institue for Biological Studies RNA targeting methods and compositions

Also Published As

Publication number Publication date
US11293011B2 (en) 2022-04-05
EP3985113A1 (en) 2022-04-20
US20210079367A1 (en) 2021-03-18
US10889808B2 (en) 2021-01-12
CA3084252A1 (en) 2018-10-04
US11932883B2 (en) 2024-03-19
EP3526324A1 (en) 2019-08-21
US10876101B2 (en) 2020-12-29
US20180282715A1 (en) 2018-10-04
WO2018183403A1 (en) 2018-10-04
PT3526324T (pt) 2021-10-20
EP3526324B1 (en) 2021-08-25
US20220177864A1 (en) 2022-06-09
US20200080068A1 (en) 2020-03-12
US11028381B2 (en) 2021-06-08
US11939606B2 (en) 2024-03-26
US20210269785A1 (en) 2021-09-02
US20190185831A1 (en) 2019-06-20

Similar Documents

Publication Publication Date Title
ES2894725T3 (es) Proteína asociada a CRISPR (CAS)
EP3902911B1 (en) Polypeptides useful for gene editing and methods of use
ES2699848T3 (es) Acido nucleico CRISPR clase 2 de tipo cruzado modificado que se dirige a ácidos nucleicos
US20200208155A1 (en) Engineered nucleic acid-targeting nucleic acids
ES2730378T3 (es) Procedimientos para incrementar la eficiencia de la modificación mediada por Cas9
US20160362667A1 (en) CRISPR-Cas Compositions and Methods
CN116096879A (zh) Rna引导的核酸酶及其活性片段和变体以及使用方法
TW202227624A (zh) Dna修飾酶及活性片段,及其變異體與使用方法
CA3147783A1 (en) Rna-guided nucleases and active fragments and variants thereof and methods of use
US20230203463A1 (en) Rna-guided nucleases and active fragments and variants thereof and methods of use
TW202346583A (zh) Rna引導核酸酶、其活性片段與變體,及使用方法
CA3125175A1 (en) Polypeptides useful for gene editing and methods of use
JP2024501892A (ja) 新規の核酸誘導型ヌクレアーゼ