CN109563508B

CN109563508B - 通过定点dna裂解和修复靶向原位蛋白质多样化

Info

Publication number: CN109563508B
Application number: CN201780046643.1A
Authority: CN
Inventors: D·吴; O·格里斯贝克; M·埃尔多安
Original assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Current assignee: Max Planck Gesellschaft zur Foerderung der Wissenschaften eV
Priority date: 2016-07-29
Filing date: 2017-07-31
Publication date: 2023-07-07
Anticipated expiration: 2037-07-31
Also published as: CN109563508A; WO2018020050A1; EP3491131B1; US11608570B2; JP2019523005A; US20190144853A1; EP3491131A1; JP7026304B2

Abstract

本发明涉及产生表达目的蛋白质的多种不同突变变体的一组细胞(即细胞库)的方法，其中每个细胞仅从单个基因拷贝中表达一种所述突变变体。本发明还涉及用于鉴定与相应的野生型目的蛋白质相比具有不同的或修饰的生物活性的目的蛋白质的突变变体的方法或细胞库。根据本发明，所鉴定的目的蛋白质的突变变体可用于白色生物技术。

Description

通过定点DNA裂解和修复靶向原位蛋白质多样化

本发明涉及产生表达目的蛋白质的各种不同突变变体的一组细胞(即细胞库)的方法，其中每个细胞仅从单个基因拷贝中表达一种所述突变变体。本发明还涉及用于鉴定与相应的野生型目的蛋白质相比具有不同的或修饰的生物活性的目的蛋白质的突变变体的方法或细胞库。根据本发明，所鉴定的目的蛋白质的突变变体可用于白色生物技术。

白色生物技术(即应用于工业生产的生物技术)对可持续发展有许多承诺。白色生物技术使用活细胞和酶来合成与常规产品相比容易降解、需要更少的能量并在其生产过程中产生更少的废物的产品。例如，几种酶广泛用于食品制造中并且作为洗衣粉中的活性成分以减少人造表面活性剂的量。还有用于分解脂肪的酶被设计用于洗涤剂。此外，转基因微生物用于在大规模发酵罐中生产医疗产品，例如抗体或人胰岛素。白色生物技术的好处是多方面的：它们不依赖化石资源，与传统工艺相比更节能，其底物、产物和废物具有生物可降解性，这些都有助于减少对环境的影响。白色生物技术使用替代底物和能源，为化学、纺织、食品、包装和保健行业带来了许多创新。

蛋白质已成为白色生物技术的重要工具，例如在工业方法和医学中，但是它们很少以其原生形式使用。通常，需要多轮迭代改进以产生给定酶、抗体或其他目的蛋白质的高效突变变体。在缺乏关于结构-功能关系的详细知识的情况下，通过诱变和筛选使蛋白质多样化已成为进化具有有用性质的蛋白质的选择方法。

已经实施了一系列技术来进行定点诱变和随机诱变，通常在某个阶段将两者结合起来。用改良的PCR技术可以实现定点诱变(QuickChange Kit，Stratagene；Kunkel，1985，Proc Natl Acad Sci US A.82(2)：488-492；Vandeyar，Gene 65(1)：129-133。)，如果已经存在关于给定蛋白质功能的知识，则是有用的。它用于用一系列其他氨基酸取代单个氨基酸，使待测变体的数量保持相当低。此外，选择用于诱变的单个氨基酸取决于对目的蛋白质的各种氨基酸残基的功能重要性的非常精确的了解。

随机诱变旨在探索蛋白质中的序列空间，而不需要对可能的功能位点有先入为主的观点。存在许多这样的技术，包括例如化学或物理诱变或易错PCR方法。化学或物理诱变使用DNA修饰物质或紫外线(Bridges，1985，Proc.Natl.Acad.Sci.USA 82：4193-4197)来破坏DNA。这种错误的修复导致掺入改变的核苷酸，并且反过来可导致编码蛋白质中的氨基酸取代。用于此目的的物质包括烷基化化合物如乙基甲磺酸盐(Lai，2004，Biotechnol.Bioeng.86：622-627)，脱氨基物质如亚硝酸(Myers，1985，Science 229：242-247)，或碱性类似物如2-氨基嘌呤(Freese，1959，J.Mol.Biol.1：87-105)。这些化学或物理诱变技术的缺点是它们影响整个细胞和基因组的所有基因，而不仅仅是目的基因。因此，毒性和改变的细胞稳态严重影响筛选结果。此外，这些技术显示出强烈的突变偏向，即它们对突变特定核苷酸具有强烈偏好(Myers，1985，1985，Science 229：242-247；Lai，2004，Biotechnol.Bioeng.86：622-627)。因此，这些技术主要用于基因失活研究。

目前优选的基因多样化方法是易错PCR的变型(Leung，1989，Technique 1：11-15)。在该方法中，目的基因在体外通过聚合酶复制，其被迫通过多种方式引入错误。每轮PCR都会积累错误。该技术可用于对目的基因的序列空间采样。然而，它也显示突变偏向，因为这种诱变不允许密码子以编码所有可能的氨基酸的方式多样化。这是因为许多氨基酸交换需要每个密码子最多三个核苷酸取代，而错误PCR最可能最多仅引入每个密码子一个核苷酸交换。因此，取决于起始密码子，氨基酸通常只能转变为三到七个其他氨基酸，使得在给定位置上大多数可能的氨基酸的功能未被探索(Wong，2006，Journal of MolecularBiology，355(4)：858-871)。而且，难以突变基因中的邻近氨基酸残基或短链延伸残基。因此，不能对近距离突变之间的协同效应和上位相互作用进行采样。该方法的另一个缺点是该方法在体外进行，随后需要将任何多样化的库引入目的细胞或生物体中以筛选所需的表型。虽然可以将库有效地转化到大肠杆菌中进行繁殖和筛选，但哺乳动物细胞对这种方法提出了许多问题。该问题主要源于需要具有在给定细胞中表达的库的单个变体(即单突变变体)以允许对其功能的明确评估。不幸的是，哺乳动物细胞的主要转染方法，磷酸钙介导的转染或脂质体介导的转染导致DNA构建体大规模共转染成单细胞。虽然这方面经常用于研究应用中的优点，但它对筛选和功能评估库的个体突变变体提出了严重的问题。原则上病毒转染可以帮助克服这种共转染问题，因为病毒颗粒可以滴定不超过1的感染复数。然而，将多样化基因库克隆到诸如用于慢病毒生产的大型病毒穿梭质粒中是非常耗时的，并且还已知效率极低。这种低效率导致生成的库的丰富性大量损失。此外，受感染的细胞以非常不同的水平表达转基因，这隐藏了突变蛋白的功能活性。

因此，目前靶向蛋白质多样化是低效的。特别地，产生在限定位置具有不同氨基酸残基的目的蛋白质的不同变体的细胞库是耗时且劳动密集的。如果需要获得其中每个细胞仅表达目的蛋白质的一种变体的细胞库，则所需的工作和资源甚至增加。然而，这样的库将具有显著的优点，因为它能够快速且全面地筛选具有有益特性的蛋白质变体。

因此，本发明所要解决的技术问题是提供一种改进的蛋白质多样化方法。特别地，本发明的一个目的是提供用于有效产生能产生蛋白质的不同变体的一组细胞(即细胞库)的手段和方法，其中每个细胞表达一种蛋白质变体。

通过提供如本文提供的和如权利要求中表征的实施方案解决了技术问题。

因此，本发明涉及一种用于产生蛋白质库的方法，特别是用于产生表达目的蛋白质的突变变体的一组细胞的方法，其中所述目的蛋白质的所述突变变体之一是按每个细胞从单基因拷贝表达的。该方法包括以下步骤：

a)在所述编码目的蛋白质的基因中在用于诱变的靶位点处或附近的细胞基因组中诱导双链断裂(DSB)或单链切口，其中所述编码所述目的蛋白质的基因是以单拷贝的形式包含在细胞的基因组中，并且其中所述编码目的蛋白质的基因的所述单拷贝包含在所述用于诱变的靶位点处或附近的失活突变；

b)优选地，向细胞(步骤a)提供不同供体核酸模板的库，用于经由同源重组修复诱导的DSB或单链切口，其中所述库的不同供体核酸模板包含在对应于所述用于诱变的靶位点的位置处的不同的突变，并通过同源性定向修复(HDR)，特别是同源重组去除所述失活突变；

c)选择和/或富集已去除失活突变的细胞；和

d)提供在步骤c)中选择的一组细胞，其是表达所述目的蛋白质的不同突变变体的一组细胞，其中所述目的蛋白质的所述不同突变变体之一是按每个细胞从单基因拷贝表达的。

基因组DNA中DSB或单链切口的存在触发细胞内修复机制，例如非同源末端连接(NHEJ)。因此，即使没有步骤b)，也可以通过本发明的方法获得所需蛋白质的不同突变体。实际上，NHEJ的修复引入了多种随机缺失或插入；因此，可以导致目的蛋白质的多样化。因此，本发明的一个方面涉及用于产生表达目的蛋白质的突变变体的一组细胞的方法，其中所述目的蛋白质的所述突变变体之一是按每个细胞从单基因拷贝表达的，其中所述方法包括以下步骤：

i)在编码所述目的蛋白质的基因中在用于诱变的靶位点处或附近在细胞基因组中诱导双链断裂(DSB)或单链切口，其中所述编码所述目的蛋白质的基因是以单拷贝的形式包含在细胞的基因组中，并且其中所述编码目的蛋白质的基因的所述单拷贝包含在所述用于诱变的靶位点处或附近的失活突变；

ii)选择和/或富集通过细胞DNA修复过程去除失活突变的细胞；和

iii)提供步骤c)中选择的一组细胞，其是表达所述目的蛋白质的不同突变变体的一组细胞，其中所述目的蛋白质的所述不同突变变体之一是按每个细胞从单基因拷贝表达的。

以下关于本发明方法的步骤a)提供的所有描述和定义经必要的变更适用于上述步骤i)。另外，以下关于本发明方法的步骤c)提供的所有描述和定义经必要的变更适用于上述步骤ii)。与此一致，以下关于本发明方法的步骤d)提供的所有描述和定义经必要的变更适用于上述步骤iii)。

然而，如下面更详细解释的，如果通过同源定向修复(HDR)修复DSB或单链切口，则可显著增加所需蛋白质的多样化程度。因此，本发明的方法优选包括步骤b)，其中通过提供供体核酸模板诱导HDR修复。

因此，本发明涉及一种生产方法(即，生产表达目的蛋白质的突变变体的一组细胞的方法)。在该方法中，在用于诱变的靶位点附近诱导(即引入)DSB或单链切口(优选DSB)。该DSB或单链切口优选通过同源定向修复(HDR)，特别是同源重组修复。在步骤(b)中使用不同的核酸模板有利地使得能够在一个步骤内产生目的蛋白质的几种不同突变变体。此外，可以容易地选择其中目的蛋白质已被成功修饰(特别是突变)的细胞，因为在引入期望的突变(优选通过HDR)期间，目的蛋白质内的失活突变(例如，移码突变)被去除。因此，仅其中发生了目的蛋白质成功突变的细胞表达了活性目的蛋白质，因此可以容易地选择(或富集)。通过使用该蛋白质库生产方法，可以制备目的蛋白质的几种变体，其分别在不同的细胞，例如哺乳动物细胞中表达。因此，利用本文提供的方法，制备一组细胞(即细胞库)，其包含各自表达目的蛋白质的不同突变变体的细胞。特别地，使用本文提供的生产方法，提供一组细胞(例如哺乳动物细胞)，其中每个细胞表达目的蛋白质的单个突变变体。所述细胞组是用于选择和/或鉴定具有改善特征的目的蛋白质的突变变体的有用工具。例如，与从单拷贝和任选地从相同启动子表达目的原始蛋白质的细胞相比，所得组的细胞可用于下游分析，例如表型分析。因此，本发明提供了一种用于蛋白质多样化的有效且成本有效的方法。该方法的容易性，效率，细胞背景和缺乏突变偏向可以有利地加速蛋白质工程。

此外，在本发明的生产方法中，靶向单链切口或DSB的组合及其相应的修复(优选通过HDR)以所需的偏向程度引入目的蛋白质的多样性。这为在活细胞环境中顺序扫描给定蛋白质中氨基酸段的影响提供了前所未有的机会。因此，本文提供的手段和方法有助于鉴定具有改善特征的新蛋白质变体，这可以显著扩展白色生物技术方法的适用性。例如，本文提供的手段和方法可以导致鉴定可以用于工业生产的新酶变体或可以用于治疗和/或预防疾病的新抗体变体。如下所述，还可通过本文提供的手段和方法获得生长因子的新变体。

本发明的生产方法的使用提供了优于现有技术的许多优点。例如，通过使用本发明的生产方法，可以通过单次转染使目的蛋白质快速多样化。此外，在所得到的细胞组中，促进了对所选蛋白质变体的进一步分析和加工，每个细胞含有单个蛋白质变体。此外，一旦转染的(例如CRISPR)质粒被稀释，所得细胞稳定地表达蛋白质变体。此外，由于使用在诱变期间被去除的失活突变，可以容易地鉴定表达经历多样化的蛋白质的细胞并将其与表达亲本(即野生型)蛋白质的细胞分离。就引入的突变的性质而言，本发明的生产方法还提供了很大程度的灵活性。例如，至少高达12个成簇氨基酸残基段可以平行进行饱和诱变。另外，本文提供的生产方法基本上没有突变偏差，因为可以产生所有可能的变体。然而，如果需要，也可以插入潜在的偏向，这取决于供体核酸模板的同源性设计。然而，本文提供的生产方法是高度特异性的，因为在细胞基因组内不产生不想要的突变。例如，可以容易地设计供体核酸模板，使得目标蛋白质内的关键残基保持不变，同时修饰周围的残基。另外，通过使用本文提供的生产方法，可以直接选择(和/或富集)可以在活细胞中成功表达的突变变体。此外，用于本文提供的生产方法的所有试剂都非常节省成本。

本文提供的生产方法的另一个优点是它产生一组细胞，包含细胞，每个细胞仅携带编码目的蛋白质变体的基因的一个单拷贝(即一个等位基因)。第二拷贝的存在(如在现有技术的方法中的情况)导致表达一种以上目的蛋白质的突变变体的细胞。这显著改变了下游分析。因此，采用一个单一基因拷贝具有确保所产生的细胞组仅包含每个细胞表达目的蛋白质的单个突变变体的细胞的优点。

因此，本发明有利地允许甚至在哺乳动物细胞中简单且快速地产生丰富多样化的蛋白质库，每个细胞具有单个变体。优选使用CRISPR/Cas9系统和HDR(特别是同源重组)实现多样化。例如，可以如下实现本发明的生产方法。失活突变，例如，阅读框移码可以在目的蛋白质内的诱变靶位点处或附近引入。为此目的，可以将目的蛋白质以单拷贝数稳定地转化到细胞，例如哺乳动物细胞中。随后，可以在用于诱变的靶位点附近引入DSB或单链切口(优选DSB)，例如，通过使用CRISPR系统。所述单链切口或DSB通过细胞修复机制修复，优选通过使用细胞HDR系统修复。为了诱导HDR，特别定制的寡核苷酸(即供体核酸模板)用作修复模板并包含同源臂和所需的多样化序列。HDR有利地导致插入所需的多样化并去除失活突变，例如，恢复阅读框。

例如，利用本文提供的生产方法，可以制备可直接选择(即可正选择性地)的目的蛋白质的突变变体。可直接选择的蛋白质的实例是荧光蛋白。如果目的蛋白质是可直接选择的，则可以容易地选择(和/或富集)具有改善特征的突变变体，例如，通过选择(和/或富集)具有增加的荧光的突变变体。为了工程化不可直接选择的蛋白质(例如非荧光蛋白)，可以在目的蛋白质的下游(即C-末端)框中标记荧光蛋白。在这种情况下，通过HDR或NHEJ(优选HDR)的失活突变(例如移码突变)去除也恢复了荧光蛋白的表达，并允许通过荧光分选收获(即选择和/或富集)所有多样化的蛋白变体。

如上所述，本发明的生产方法允许产生表达目的蛋白质的突变变体的一组细胞。具体地，它允许产生一组细胞，包含各自表达来自单个基因拷贝的特定突变变体的细胞。因此，所述细胞组包含各自表达目的蛋白质的不同突变变体的细胞。

在本发明的一个方面，本文提供的生产方法还包括产生步骤a)中使用的细胞的步骤。在本文提供的生产方法中，编码目的蛋白质(即目的基因)的基因的单拷贝可以是内源基因拷贝。然而，在本文提供的生产方法中优选的是，编码目的蛋白质的基因的单拷贝是外源基因拷贝(即它在所采用的细胞中不天然存在)。如果在本文提供的生产方法中，所述编码目的蛋白质的基因的单拷贝是外源的，则步骤a)的细胞的产生包括在细胞基因组中引入所述编码目的蛋白质的基因的单拷贝。将编码目的蛋白质的基因的外源单拷贝引入基因组的方法是本领域公知的，并且涉及例如位点特异性同源重组系统。例如，将目的基因的单拷贝整合到细胞中可以通过标准抗生素选择，Flp-In或Jump-in重组，慢病毒转染和选择，或通过Cas9靶向切割和与同源结构域重组来完成，例如在AAVS1基因座中。

在本发明的一个方面，步骤a)中使用的细胞的产生包括在所述单拷贝的编码目的蛋白质的基因中引入所述失活突变。所述失活突变可以是，例如，移码突变。可以引入这种移码突变，例如，通过在目的基因的编码阅读框内添加或去除1，2，3或4个碱基。因此，移码可能是由大于产生移码所需的缺失引起的，例如，通过缺失编码几种氨基酸的核苷酸。缺失这样大的区域可能是有利的，并且它增加了与修复模板的同源性，这可以增加重组率。例如，通过利用由较大的缺失(例如，去除编码所有靶向氨基酸的核苷酸加上1-2个碱基)引起的移码来失活目的基因，直接在诱导的DSB后，染色体游离末端将与供体核酸模板共享直接同源性。没有可能损害同源重组反应的中间原始DNA。然而，也可以通过去除选定(或引入的)PAM位点下游的4个碱基对产生移码，从而去除一个氨基酸并产生移码。如果编码所述目的蛋白质的单个基因是外源的，则可以在将所述编码目的蛋白质的基因的单拷贝引入细胞基因组之前或之后引入所述失活突变。原则上，可以采用本领域已知的任何诱变方法在将目的基因整合到细胞中之前在目的基因中引入失活突变。这种诱变方法的非限制性实例是，例如，靶向限制酶消化和连接或基于PCR的定点诱变方法(Quick Change Kit，Stratagene；Kunkel，1985，Proc Natl Acad Sci US A.82(2)：488-492)。在本发明的上下文中，还可以在将目的基因的拷贝(没有失活突变)掺入细胞基因组后引入失活突变。这可以通过本领域已知的基因工程方法实现。这种基因工程方法包括，例如，通过使用整合了移码的合适供体核酸模板的CRISPR/Cas介导的基因编辑。这些方法在本领域中是公知的并且描述于例如在Ran，2013，Nature Protocols 8(11)：2281-2308)。

如果编码目的蛋白质的基因的所述单拷贝是内源的，则步骤a)中使用的细胞的产生可以包括通过使用位点特异性同源重组系统在细胞基因组中编码目的蛋白质的基因中引入所述失活突变。位点特异性同源重组系统，例如CRISPR/Cas9系统，是本领域公知的并且描述于例如在Ran，2013，Nature Protocols 8(11)：2281-2308。

本文提供的生产方法产生一组表达目的蛋白质的突变变体的细胞，其中所述目的蛋白质的所述突变变体之一按每个细胞从单个基因拷贝表达。这意味着在本文提供的生产方法的步骤a)中，编码目的蛋白质的基因以单拷贝存在于细胞中。因此，步骤a)的细胞的产生可以包括失活(优选缺失)编码目的蛋白质的基因的拷贝，以便获得每个细胞编码目的蛋白质的基因的单个拷贝。在许多细胞培养系和植物中，有两个以上的等位基因。因此，为了最后获得单拷贝，必须使所有其他等位基因(而不是一个)失活(优选缺失)以产生如步骤a)中所用的细胞。因此，如果所述编码目的蛋白质的基因是以多于一个拷贝存在于基因组中的内源基因，那么步骤a)的细胞的产生可以包括所述编码目的蛋白的基因编码的内源拷贝的失活(优选缺失)以便每个细胞获得所述编码目的蛋白质的基因的单个拷贝。用于失活或缺失特定基因拷贝(即特定等位基因)的方法是本领域公知的。例如，Ran，2013，NatureProtocols 8(11)：2281-2308中描述了通过使用CRISPR/Cas9系统缺失一个基因拷贝。或者，可以通过使用单倍体细胞培养物，例如WO2013/079670A1中所述，获得包含一个拷贝的目的基因的细胞。

本文提供的方法的步骤a)包括在细胞基因组中诱导DSB或单链切口(优选DSB)。所述DSB或单链切口优选分别通过使用位点特异性核酸酶或位点特异性切口酶进行。因此，步骤a)的细胞的产生可以包括向细胞中引入编码位点特异性核酸酶或位点特异性切口酶的核酸序列。此外，步骤a)的细胞的产生可以进一步包括分别在单拷贝的目的基因中引入所述位点特异性核酸酶或所述位点特异性切口酶的相应识别位点。

例如，如果位点特异性核酸酶是Cas9或Cpf1或位点特异性切口酶是Cas9，则所述识别序列优选地包含紧邻切割位点下游的原型间隔区相邻基序(PAM)。

各种CRISPR核酸酶及其变体的PAM靶序列(例如用于SpCas9的5'-NGG，用于SaCas9的5'-NNGRRT，用于Cpf1的5'-TTN)大量存在于哺乳动物基因组中。因此，通过使用本文提供的方法可以靶向大多数基因而不引入PAM序列。然而，如果在所需的切割位点的立即下游没有PAM序列，则可以将PAM序列(例如，用于SpCas9的5'-NGG，用于SaCas9的5'-NNGRRT，用于Cpf1的5'-TTN)引入到所需切割位点下游的目的蛋白质中。因此，取决于所使用的位点特异性核酸酶或切口酶，如果在所需位置的目的基因内不存在，则由所述位点特异性核酸酶或切口酶切割的识别位点(例如，如果使用Cas9或Cpf1则为PAM序列，或锌指核酸酶，转录激活因子样效应核酸酶或megaTAL核酸内切酶的特定识别位点)可以与移码一起工程化到目的基因中。

步骤a)的细胞的产生可以进一步包括向细胞中引入将位点特异性核酸酶或位点特异性切口酶靶向识别位点的工具。例如，可以将导向RNA或编码所述导向RNA的多核苷酸引入步骤a)的细胞中。导向RNA可以是短的合成的嵌合tracr/crRNA(“单导向RNA”或sgRNA)。导向RNA还可包含两个短的合成tracr/crRNA(“双导向RNA”或dgRNA)。对于一些位点特异性核酸酶(例如Cpf1)，短的合成crRNA可用作导向RNA。在本文提供的方法的一个方面，Cas9经由sgRNA或经由dgRNA靶向所述识别位点。Cpf1可以经由crRNA靶向所述识别位点。

因此，产生步骤a)的细胞可以包括在一个拷贝中将编码目的蛋白质的核苷酸序列外源地引入细胞中。例如，可以用编码目的蛋白质的核苷酸序列转化、转染或转导细胞，导致编码目的蛋白质的基因的单个拷贝的表达。用于细胞转染、转化或转导的手段和方法是本领域公知的，并且包括例如脂质体介导的转染，Ca²⁺-磷酸介导的转染和病毒载体介导的递送(参见例如Green，Sambrook，2012，Molecular Cloning.A laboratory manual.ColdSpring Harbor Laboratory Press)。优选地，所得细胞稳定表达目的蛋白质。如上所述，产生步骤a)的细胞可以进一步包括向细胞中引入位点特异性核酸酶或切口酶；或编码位点特异性核酸酶或切口酶的多核苷酸；例如经由转染、转化或转导。另外，产生步骤a)的细胞可以进一步包括向细胞中引入导向RNA；或编码导向RNA的多核苷酸；例如通过转染、转化或转导。最后，产生步骤a)的细胞可以包括在位点特异性核酸酶或切口酶的所需切割位点的下游引入识别位点(例如PAM序列)。

或者，对于步骤a)，可以使用已经表达目的蛋白质的细胞(来自相应基因的单拷贝)。目的蛋白质可已经包含在所需切割位点下游的失活(例如移码)突变和/或识别位点(例如PAM序列)。所述细胞可已经包含位点特异性核酸酶或切口酶；或编码所述位点特异性核酸酶或切口酶的多核苷酸。所述细胞也可已经包含导向RNA；或编码所述导向RNA的多核苷酸。

“编码目的蛋白质的基因中的用于诱变的靶位点”是在a)的细胞中编码目的蛋白质(即目的基因)的单拷贝的核酸序列内的位置，其对应于设想被多样化/诱变以产生目的蛋白质的突变变体的位置。因此，用于诱变的靶位点原则上可以是应该引入突变的目的基因的编码序列内的任何确定位置。例如，如果要在目标蛋白质内突变特定氨基酸，那么用于诱变的靶位点可以是编码所述待突变氨基酸的核苷酸的三联体。如果要突变几个氨基酸，那么用于诱变的靶位点可以是编码所述氨基酸的核苷酸序列。

诱导的DSB或单链切口的位置可以(直接)在编码目的蛋白质的基因的单拷贝内在预定的用于诱变的靶位点处或与其紧邻。术语“用于诱变的靶位点紧邻”在下文中定义。例如，如果氨基酸的缺失和/或引入(例如缺失)诱导了移码，则DSB或单链切口可位于所述缺失和/或引入的上游或下游1-100bp的位置。

本发明方法的步骤a)包括诱导(即引入)DSB或单链切口(也称为单链断裂)或由其组成。所述DSB或单链切口“在细胞基因组中”诱导；这意味着DSB或单链切口在细胞的基因组DNA中被诱导。所述基因组DNA可以是内源基因组DNA。然而，所述基因组DNA也可以衍生自已插入基因组DNA的质粒，例如，通过稳定转染、转导或转化。

如本领域所知，DSB是DNA双螺旋的两条DNA链的中断。DSB可以是平端的(即两条链在相同位置切割)或可以包含粘性末端(即两条链在不同位置切割，这导致DSB两端的短的单链的互补序列))。如本领域所知，单链切口(或单链断裂)是DNA双螺旋的单个DNA链的中断。DSB和单链切口背景下的“中断”涉及分别在两条链中或仅在双螺旋的两条链中的一条链中的两个核苷酸之间的磷酸二酯键的断裂。优选地，在步骤a)的细胞的基因组中诱导(即引入)DSB。

在本发明的上下文中，所述DSB或所述单链切口可以在距离所述用于诱变的靶位点小于120碱基对，优选小于30个碱基对或最优选小于10个碱基对的距离内诱导。类似地，所述失活突变可以与所述诱变的靶位点的距离小于120个碱基对，优选小于30个碱基对或最优选小于10个碱基对。因此，失活突变(例如移码)和DSB或单链断裂之间的距离可以是0-120个碱基对(对应于0-40个氨基酸)。

原则上，DSB或单链切口可以通过本领域已知的任何方法实现，以分别产生位点特异性DSB或位点特异性单链切口。优选地，通过位点特异性核酸酶(也称为“序列特异性核酸酶”)诱导(即引入)DSB，并且在步骤a)中编码目的蛋白质的基因的失活单拷贝优选包含对于所述位点特异性核酸酶的相应的识别位点。与此一致，单链切口优选由位点特异性切口酶(也称为“序列特异性切口酶”)诱导，并且步骤a)中编码目的蛋白质的基因的失活单拷贝优选包含所述位点特异性切口酶的相应识别位点。因此，本发明步骤a)中使用的细胞可包含位点特异性核酸酶或位点特异性切口酶；或编码位点特异性核酸酶或位点特异性切口酶的多核苷酸。在本发明的一个方面，步骤a)的细胞的基因组不包含所用的位点特异性核酸酶或位点特异性切口酶的任何额外识别位点。这具有防止对细胞的基因组DNA进行任何进一步修饰的优点。编码位点特异性核酸酶或位点特异性切口酶的多核苷酸可以在步骤a)的细胞中包含的载体(例如质粒载体)上编码，或者可以稳定地掺入细胞的基因组中。用(质粒)载体瞬时转化或转染细胞或用于将多核苷酸稳定整合到细胞基因组中的手段和方法是本领域已知的。使用DNA的磷酸钙沉淀或脂质体介导的转染可以方便地实现质粒的瞬时转染。Green，Sambrook，2012，Molecular Cloning.A laboratory manual.Cold SpringHarbor Laboratory Press中提供了使用这些技术的指南。例如，在Kingston,2003,CurrProtoc Cell Biol.Chapter 20:Unit 20.3.中描述了磷酸钙转染。例如，在Gulick,2003,Curr Protoc Cell Biol.Chapter 20:Unit 20.4T描述了使用DEAE-葡聚糖的转染。例如，在Potter,2011,Curr Protoc Cell Biol.Chapter 20:Unit 20.5中描述了通过电穿孔进行的转染。例如，在Hawley-Nelson,2003,Curr Protoc Cell Biol.Chapter 20:Unit 20.6中描述了使用阳离子脂质试剂转染培养的真核细胞。编码位点特异性核酸酶或位点特异性切口酶的多核苷酸尤其可以与在所采用的细胞中具有活性的组成型(即组成型活性)启动子可操作地融合，即位点特异性核酸酶或切口酶可以在组成型(即组成型活性)启动子的控制下。本领域已知的组成型启动子系统的非限制性实例是CMV，遍在蛋白启动子和CAG启动子。例如，在一个方面，位点特异性核酸酶或切口酶在CMV启动子的控制下表达。或者，位点特异性核酸酶或切口酶也可以在诱导型启动子的控制下表达，即编码位点特异性核酸酶或切口酶的多核苷酸可以与诱导型启动子可操作地融合。诱导型启动子系统的非限制性实例是本领域已知的并且包括例如，Tet开/关系统，热激启动子和光诱导型启动子)。诱导型启动子系统的使用具有如下优点：位点特异性核酸酶或位点特异性切口酶的表达，从而DSB或单链切口的诱导可被及时地控制。例如，这种诱导型系统允许在足以确保引入DSB或单链切口的时间后停止表达。因此，表达可以例如在24-48小时后停止。诱导型表达系统还允许在限定的时间点开始表达位点特异性核酸酶或位点特异性切口酶。如果位点特异性核酸酶或切口酶在所用细胞中稳定表达，这可能是有利的。

优选地，位点特异性核酸酶或位点特异性切口酶由包含在步骤a)的细胞中的质粒表达。可以从细胞中去除该质粒。例如，可以通过稀释质粒来实现质粒的去除。稀释意味着在随后的细胞分裂周期中，新产生的细胞将逐渐失去编码核酸酶/切口酶的所有转染的质粒，因为这些质粒是附加型的并且不在哺乳动物细胞中扩增。然而，如上所述，步骤a)中的细胞也可以稳定地表达位点特异性核酸酶或位点特异性切口酶。

在本发明方法的上下文中使用的位点特异性核酸酶可以是任何已知的位点特异性核酸酶。特别地，术语“位点特异性核酸酶”(或“序列特异性核酸酶”)涉及可以在限定的靶位点切割DNA双链的两条链以便在DNA双链中引入DSB的任何酶。类似地，在本发明方法的上下文中使用的位点特异性切口酶可以是任何已知的位点特异性切口酶。术语“位点特异性切口酶”(或“序列特异性切口酶”)涉及可以在确定的靶位点切割DNA双链的一条链以便在DNA双链中引入单链切口的任何酶。

在本发明的上下文中，锌指核酸酶(ZFN)或转录激活因子样效应核酸酶(TALEN)可分别用作位点特异性核酸酶或位点特异性切口酶，因为这些分子先前已用于HDR介导的基因组编辑(Li，2011，Nature 475：217-221；Bedell，2012，Nature 491：114-118；Genovese，2014，Nature 510：235-240)。在本发明的上下文中有用的另一种位点特异性核酸酶是megaTAL内切核酸酶，其已经显示出特别适合于基因编辑，因为它具有高靶特异性并且使脱靶切割最小化，参见例如Boissel，2014，Nucleic Acids Res.42(4)：2591-2601。然而，聚簇的规则间隔短回文重复(CRISPR)相关(Cas)效应蛋白，例如Cas9或Cpf1，提供了更简单和通用的基因组编辑方法。因此，在本发明的上下文中，优选位点特异性核酸酶或切口酶是Cas9或位点特异性核酸酶是Cpf1。最优选地，Cas9核酸酶(也称为“CRISPR/Cas9核酸酶”)在本发明的生产方法中用作位点特异性核酸酶或位点特异性切口酶。

ZFN包含应为每个靶基因设计的锌指DNA结合结构域和FokI核酸酶。类似地，TALEN包含应为每个靶基因设计的DNA结合结构域和FokI核酸酶。FokI核酸酶在与锌指DNA结合结构域或DNA结合结构域组合时，具有在限定的靶位点向DNA引入单链切口或双链断裂的活性。实际上，由于ZFN和TALEN可以在限定的靶侧向DNA引入单链切口，因此它们通常被称为锌指切口酶(ZFNickase)和转录激活因子样效应切口酶(TALE切口酶)。因此，如上所述，ZFN或TALEN可以在本发明中用作位点特异性核酸酶或位点特异性切口酶。Cas9核酸酶主要诱导DSB。然而，已经描述了修饰的Cas9核酸酶，其中蛋白质的核酸酶功能被改变为产生切口功能。换句话说，切割双链靶DNA的两条链的天然存在的Cas9核酸酶可以被改变成仅切割(即切开)一条链的切口酶。几种Cas9切口酶在本领域中是已知的并且描述于例如在Tsai,2016,Nature Reviews Genetics 17.5:300-312。修饰Cas9蛋白以获得位点特异性切口酶的手段和方法是本领域熟知的，并且包括例如将氨基酸置换引入Cas9中，其使得一个核酸酶结构域失活。更具体地，天冬氨酸可以例如在酿脓链球菌Cas9的第10位被丙氨酸取代，如Cong，2013，Science，339：819-823中所示。

具有切口功能的修饰的Cas9蛋白的使用提供的优点是，基因组中由此引入的DNA损伤更可能经由同源重组而不是通过非同源末端连接来修复。因此，Cas9可以在本发明的方法中用作位点特异性核酸酶或位点特异性切口酶。Cpf1可以在本文提供的方法中用作位点特异性核酸酶。

Fok1核酸酶的核苷酸和氨基酸序列是本领域公知的。Fok1核酸酶的氨基酸序列在本文中显示为SEQ ID NO:19。优选地，本文中用作位点特异性核酸酶的FokI核酸酶具有位点特异性核酸酶活性并且包含与SEQ ID：19的氨基酸序列具有至少80％，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，甚至更优选至少99％，最优选100％序列同一性的氨基酸序列。

可以通过使用含有靶向基因序列的质粒或线性dsDNA在体外测试位点特异性核酸酶活性。将靶DNA与位点特异性核酸酶混合，使消化进行1小时，并通过凝胶电泳显现成功的切割。

如果在本文提供的方法中Fok1核酸酶用作位点特异性切口酶，则优选所述FokI核酸酶具有位点特异性切口酶活性并且包含与SEQ ID NO:19具有至少80％，优选至少85％，优选至少90％，甚至更优选至少95％，甚至更优选至少98％，甚至更优选至少99％，最优选100％的序列同一性的氨基酸序列。

用于测试位点特异性切口酶活性的方法是本领域公知的并且描述于例如，McConnell,2009,Proceedings of the National Academy of Sciences of the UnitedStates of America.106(13):5099-5104。简而言之，通过PCR产生用于切口酶测定的靶标片段，其中200bp位于上游和下游的切口位点的侧翼。使切口反应在37℃下在含有50mMTris(pH 7.5)，100mM NaCl，10mM MgCl₂和1mM DTT的10μL反应中进行1小时。消化后，加入2μL的5×终止溶液[0.1M Tris·HCl(pH 7.5)，0.25M EDTA，5％SDS]，并用去离子甲酰胺，0.1％二甲苯蓝和0.1％溴酚蓝在95℃下使样品变性5分钟，快速冷却，然后在6％聚丙烯酰胺变性凝胶上电泳分离。将凝胶干燥并通过磷光成像分析。

megaTAL内切核酸酶是大范围核酸酶与TAL效应子的融合物，是一类具有高活性和特异性的新型DNA靶向内切核酸酶。megaTAL内切核酸酶的核苷酸和氨基酸序列是本领域公知的，并且例如显示在，例如，Boissel，2014年，Nucleic Acids Res.42(4)：2591-2601。优选地，本文中用作位点特异性核酸酶的megaTAL内切核酸酶具有位点特异性核酸酶活性，并且包含与SEQ ID NO:20的氨基酸序列具有至少80％，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，甚至更优选至少99％，最优选100％的序列同一性的氨基酸序列。可以如上所述在体外测试位点特异性核酸酶活性。

Cfp1核酸酶的核苷酸和氨基酸序列是本领域公知的，并且例如在http:// www.ncbi.nlm.nih.gov/protein/U2UMQ6.1或http://www.addgene.org/browse/sequence/124373/中显示。AsCpf1和LbCpf1的氨基酸序列在本文中分别显示为SEQ ID NO:21和22。例如，在本发明的上下文中使用的Cpf1核酸酶优选具有位点特异性核酸酶活性并且与SEQ ID NO:21或22的氨基酸序列具有至少80％，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，甚至更优选至少99％，最优选100％的同一性的氨基酸序列。可以如上所述在体外测试位点特异性核酸酶活性。

Cas9核酸酶是CRISPR/Cas9家族的酶。Cas9核酸酶的非限制性实例是本领域已知的。在本发明的上下文中，可以使用任何(DSB诱导的)Cas9核酸酶以诱导DSB。与此一致，可以使用任何(单链断裂诱导)Cas9核酸酶以诱导单链切口。本文使用的Cas9核酸酶优选衍生自细菌物种。可用于本文的Cas9核酸酶的非限制性实例是来自酿脓链球菌的SpCas9核酸酶，来自嗜热链球菌的St1Cas9核酸酶和来自金黄色葡萄球菌的SaCas9核酸酶。这些蛋白质的氨基酸序列是本领域已知的并且显示于例如http://www.ncbi.nlm.nih.gov/protein/500000239？report＝genbank&log$＝pr otalign&blast_rank＝1&RID＝T6UUUEV901R或http://www.ncbi.nlm.nih.gov/protein/J7RUA5.1。SpCas9，St1Cas9和SaCas9的氨基酸序列在本文中分别作为SEQ ID NO:23，24和25提供。优选地，本文采用的Cas9核酸酶具有位点特异性核酸酶活性，并且包含与任何已知Cas9核酸酶的氨基酸序列，例如与如SEQ ID NO:23，24或25所示的SpCas9，St1Cas9或SaCas9的氨基酸序列分别具有至少80％，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，更优选至少99％，最优选100％的序列同一性的氨基酸序列。可以如上所述在体外测试位点特异性核酸酶活性。如果在本文提供的方法中Cas9核酸酶用作位点特异性切口酶，那么优选所述Cas9核酸酶具有位点特异性切口酶活性并且包含与任何已知Cas9核酸酶，例如SpCas9，St1Cas9或SaCas9的氨基酸序列具有至少80％，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，更优选至少99％，最优选100％序列同一性的氨基酸序列。可以如上所述在体外测试位点特异性切口酶活性。

因此，在本发明的上下文中，位点特异性核酸酶可以选自Cas9核酸酶，Cpf1核酸酶，ZFN，TALEN和megaTAL内切核酸酶。使用Cas9作为核酸酶或切口酶具有以下优点：它仅需要将Cas9蛋白与定义靶特异性的一种短的合成的嵌合tracr/crRNA(“单导向RNA”，sgRNA)或两种短的合成tracr/crRNA组合表达(“双导向RNA”，dgRNA)。类似地，使用Cpf1作为核酸酶具有以下优点：它仅需要将Cpf1蛋白的表达与定义靶特异性的一种短的合成crRNA组合。因此，使用Cas9或Cpf1作为位点特异性核酸酶或切口酶代表了靶特异性单链或双链断裂(Cas9)或双链断裂(Cpf1)的产生中的显著简化。因此，在本发明的上下文中优选位点特异性DNA核酸酶是Cas9或Cpf1，或者位点特异性切口酶是Cas9。最优选地，位点特异性核酸酶或位点特异性切口酶是Cas9(即Cas9核酸酶)。

除了SpCas9，St1Cas9和SaCas9之外，已知几种其他Cas9直向同源物，其可用于本发明的上下文中。这些Cas9直向同源物包括源自脑膜炎奈瑟氏球菌和新凶手弗朗西斯菌的那些。可以在本发明的方法中应用的几种已知Cas9核酸酶的序列是本领域已知的，并且显示，例如，在WO2014/131833中。在此，Cas9核酸酶也可以是SpCas9突变体，例如eSpCas9(Ian，2016，Science，351：84-88)或SpCas9-HF1(Kleinstiver，2016，Nature，529：490-495)，其可以诱导比原始的SpCas9更特异性的切割。此外，还有SpCas9突变体，其识别不同的PAM(Kleinstiver，2015，Nature523(7561)：481-485)，或者改变了PAM特异性(例如Kleinstiver，2015，Nature 523(7561)：481-485中描述的VQR和EQR变体)，其也可以应用于本文提供的方法中。其他已知的Cas9变体如分裂Cas9，内含肽-Cas9，工程改造的Cas9，或二聚体RNA引导的FokI-dCas9核酸酶(RFN)也可以在如本文提供的方法中使用。这些Cas9变体描述于例如Zetsche，2015，Nat Biotechnol.33(2)：139-142；Truong，2015，Nucleic AcidsRes.43(13)：6450-6458；Tsai，2014，Nat Biotechnol.32(6)：569-576。当在本文提供的方法中使用这些Cas9变体之一时，必须如本领域公知的那样调整实验。特别地，分裂Cas9和RFN分别需要多个质粒和模板，并且内含肽-Cas9需要添加4-羟基他莫昔芬。然而，这些是本领域技术人员公知的微不足道的变化。

通过使用具有最小或没有脱靶效应的Cas9变体可以进一步增强本文提供的方法的特异性，同时保持可比较的上靶切割活性(Kleinstiver，2016，Nature，529：490-495；Slaymaker，2016，Science 351，84-88)。然而，在本发明的上下文中，优选Cas9核酸酶是SpCas9，St1Cas9或SaCas9。最优选地，Cas9核酸酶是SpCas9。

因为ZFN和TALEN经由蛋白质结构域实现特异性DNA结合，所以必须为每个核酸酶插入单个靶位点。或者，需要为给定序列定制特定核酸酶(Heidenreich，2016，NatureReviews Neurosciences，17：36-44)。相比之下，Cas9由特异性决定导向RNA序列(CRISPRRNA(crRNA))指导，该序列与反式激活crRNA(tracrRNA)相关并与互补DNA靶序列形成Watson-Crick碱基对，从而产生位点特异性双链断裂(Heidenreich，2016，Nature ReviewsNeurosciences，17：36-44)。一个简单的双组分系统(由Cas9和tracrRNA-crRNA双链体与“单导向RNA”sgRNA融合组成)或简单的三组分系统(由Cas9，tracrRNA分子和crRNA分子组成，其中两个RNA分子形成“双导向RNA”，即dgRNA)可用于在任何目的基因组基因座处实现DNA切割。Cpf1是一种单RNA引导的核酸酶，仅使用crRNA且不使用tracrRNA，也可用于诱导位点特异性DSB。因此，简单地通过改变导向RNA的短特异性决定部分就可以将不同的Cas蛋白靶向特定的DNA序列，这可以在一个克隆步骤中容易地实现。

因此，如果本文提供的方法使用Cas9作为位点特异性核酸酶，则步骤a)的细胞可以进一步包含：

(i)至少一种由至少一种靶序列特异性CRISPR RNA(crRNA)分子和至少一种反式激活crRNA(tracrRNA)分子组成的导向RNA；(“双导向RNA”，dgRNA)

(ii)编码(i)的RNA分子的多核苷酸；

(iii)至少一种导向RNA，其是包含至少一种靶序列特异性crRNA和至少一种tracrRNA的嵌合RNA分子；或(“单导向RNA”，sgRNA)；和/或(iv)编码(iii)的嵌合RNA的多核苷酸。

所述导向RNA将位点特异性核酸酶(例如Cas9或Cpf1)或位点特异性切口酶(例如Cas9)靶向所需DSB或单链切口的位点。例如，如果通过氨基酸的缺失和/或引入(例如缺失)诱导了移码，则导向RNA(例如sgRNA)可以将位点特异性核酸酶或切口酶靶向DSB的期望位置或者单链切口，其可以位于所述缺失和/或引入的上游或下游1-100bp(对应于1-33个氨基酸)的位置。通过使用位点特异性DNA核酸酶(例如Cas9或Cpf1)和导向RNA进行基因组编辑是本领域公知的，并且描述于例如Jennifer Doudna编辑的“CRISPR-Cas：A LaboratoryManual”，2016，ISBN 978-1-621821-31-1中。

在本文提供的方法的优选方面，步骤a)的细胞包含编码至少一种sgRNA的多核苷酸(例如质粒载体)。该多核苷酸可包含编码与靶序列互补(或与靶序列的一部分互补)的序列的序列，其长度为约20个核苷酸，随后是长度为约76个核苷酸的导向RNA支架序列。该支架序列编码直接重复(DR)序列和tracrRNA。

如上所述，在本发明的一个实施方案中，位点特异性核酸酶是Cpf1。在该实施方案中，基因组编辑机器还可包含：

(i)至少一种包含靶序列特异性crRNA分子的导向RNA；或

(ii)编码(i)的RNA分子的多核苷酸。

在本发明的上下文中，编码Cas9或Cpf1核酸酶的多核苷酸和编码导向RNA的多核苷酸可以包含在一个单一核酸序列中，例如包含在一个质粒载体中。或者，分开的核酸序列，例如，编码Cas9/Cpf1核酸酶或导向RNA的单独质粒载体可以存在于(或递送至)步骤a)的细胞中。然而，预组装的Cas9蛋白质-导向RNA核糖核蛋白复合物(RNP)也可包含在(或递送至)本文提供的生产方法的步骤a)的细胞中。

如上所述，Cas9核酸酶在与包含靶序列特异性crRNA分子和tracrRNA分子的导向RNA组合时，具有将单链或双链断裂，优选双链断裂引入DNA的限定靶位点的活性。在本发明的优选方面，编码Cas9核酸酶(例如SpCas9)以及sgRNA的质粒载体存在于(或递送至)步骤a)的细胞中。在本发明的另一个优选方面，Cas9核酸酶在细胞中稳定表达，而sgRNA被递送至细胞，例如经由编码sgRNA的质粒载体。

如上文和下文所示，本文提供的生产方法的步骤a)的细胞优选包含用于所用位点特异性核酸酶的识别位点或用于DSB或单链切口的靶位点处或紧邻它的所用位点特异性切口酶。如果Cas9用作位点特异性核酸酶或位点特异性切口酶，或者如果Cpf1用作位点特异性核酸酶，则特定识别位点(即原型间隔区相邻基序，PAM)优选紧邻DSB或单链切口靶位点的下游。本文中，“DSB或单链切口的靶位点”是多核苷酸内诱导DSB或单链切口的位置。各种CRISPR核酸酶及其变体的PAM序列是本领域公知的(例如，用于SpCas9的5'-NGG，用于SaCas9的5'-NNGRRT(SEQ ID NO:50)或5'-NNGRR(N)(SEQ ID NO:51)，用于St1Cas9的5'-NNAGAAW(SEQ ID NO:52)，用于Cpf1的5'-TTN)。

并且大量存在于哺乳动物基因组中。因此，通过使用Cas9核酸酶或Cpf1核酸酶而不人工引入PAM序列，可以靶向大多数基因。然而，如果在野生型目的基因内，所应用的位点特异性核酸酶或切口酶的PAM序列不在所需的用于DSB或单链切口的靶位点下游，则可以外源引入PAM序列。如果紧接着用于DSB或单链切口的靶位点的下游，已经存在所需PAM序列的一部分，则可以通过外源引入PAM序列的缺失核苷酸(即通过外源引入不是内源性地存在于目的基因内的所需位置的PAM序列的核苷酸)产生完整的PAM序列。

识别位点(例如PAM序列)可以存在或不存在于编码目的蛋白质的基因的突变变体中，所述突变变体包含在c)中选择和/或d)中提供的细胞中。例如，可以在引入DSB或单链切口和细胞修复(例如HDR或NHEJ)期间去除所述识别位点。特别地，步骤b)中提供的供体核酸模板可以配置成从目的基因中去除识别位点。例如，供体核酸模板可以不包含与对应于目的基因内的识别位点的位置处的识别位点对应的序列。因此，在本发明的一个方面，识别位点可以不存在于编码目的蛋白质的基因的突变变体中，所述突变变体包含在步骤c)中选择和/或富集的细胞中。这样将避免Cas9或Cpf1重复切割。

通过在将目的基因导入细胞基因组之前将所述识别位点或其部分引入目的基因中，可以实现识别位点或其部分的外源导入。如果目的基因是内源蛋白，可以通过本领域已知的基因工程方法，特别是同源重组，掺入外源识别位点或其部分。

在本发明的一个优选方面，步骤a)中的细胞包含目的基因，其中所应用的位点特异性核酸酶或位点特异性切口酶的识别位点(例如PAM序列)紧邻用于DSB或单链切口的靶位点的下游或上游。如上所述，在本文提供的方法中优选位点特异性核酸酶或位点特异性切口酶是Cas9。在本文提供的方法中进一步优选的是，步骤a)中的细胞表达将所述Cas9核酸酶靶向所述识别位点(例如所述PAM序列)的sgRNA或dgRNA。例如，PAM位点可以是所需切割位点下游或上游1-100bp(例如所需的用于DSB或单链切口的位点)。

如上所述，如果使用ZRN，TALEN或megaTAL内切核酸酶作为位点特异性核酸酶/切口酶，则需要针对给定序列定制特异性核酸酶。TALEN可以定制设计以靶向特定的DNA序列，例如12个碱基段，以达到一定程度的特异性。TALEN由蛋白质模块组装，每个蛋白质模块识别特定的碱基。例如，为了识别12碱基DNA段，需要融合具有正确碱基识别的12个蛋白质模块。在现有技术中常规地执行为序列设计正确的TALEN，并且可以例如通过应用在线工具进行。此外，对TALEN的设计和靶向的指南可以在互联网上找到，例如：在TALEN靶向物教程中(https://tale-nt.cac.cornell.edu/tutorials/talentargeterupdated和在http://www.e-talen.org/E-TALEN/designtalens.html下)。此外，设计和组装用于DNA靶向的定制TALEN和其他基于TAL效应子的构建体的描述也在科学文献中描述，例如Cermak，2011，Nucleic Acids Res.39(12)：e82)。

本文提供的产生方法的步骤a)中的DSB也可以通过所述编码目的蛋白质的基因的两条链中的每条链中的两条单链切口诱导(即引入)。所述两个单链切口可以由相同的切口酶或两种不同的切口酶引入。因此，在步骤a)的细胞中所述编码目的蛋白质的基因的单拷贝可以包含两个识别位点(例如PAM序列)。如果相同的切口酶用于两个单链切口，则两个识别位点可以是相同的。如果两个不同的切口酶用于两个单链切口，则识别位点可以彼此不同。第一和/或第二切口酶可以是具有位点特异性切口活性的Cas9核酸酶。例如，使用Cas9核酸酶允许用单一酶引入两个缺口。这可以通过提供两种不同的导向RNA(例如两种不同的sgRNA)来实现，所述导向RNA介导将酶靶向各自的识别位点。对于Cas9核酸酶，可以使用将Cas9核酸酶靶向至两个不同靶位点和至少一个PAM序列的两种不同sgRNA来诱导期望的DSB(参见例如Tsai，Shengdar Q.和J.Keith Joung."Defining and improving the genome-wide specificities of CRISPR-Cas9 nucleases."Nature Reviews Genetics 17.5(2016):300-312)。Cas9核酸酶和/或两种导向RNA(例如两种不同的sgRNA)可以从单独的质粒表达，或者优选地，从相同的质粒表达。用作具有切口活性的Cas9核酸酶的识别位点的PAM序列是本领域已知的。例如，Cas9n(Cas9的D10A突变体)的PAM序列是5'-NGG

基因组DNA中存在DSB或单链切口触发细胞内修复机制。通常，如果存在单链切口并且如果可获得修复模板，则通过同源定向修复(HDR)特别是通过同源重组修复这种中断；而双链断裂通常通过非同源末端连接(NHEJ)或HDR来修复。然而，在经由NHEJ进行单链切口修复的情况下也可能发生，但是频率远低于HDR。通常，在引入单链或双链断裂后，如果存在供体核酸模板，则可以诱导HDR；参见，例如，Heidenreich，2016，Nature ReviewsNeurosciences，17：36-44；Cong，2013，Science，339：819-23；Doudna，2014，Science，346：1258096；Hsu，2014，Cell 157：1262-78。HDR能够进行精确的基因组编辑，包括在用于诱变的靶位点准确插入、缺失或替换所需序列。相反，NHEJ的修复引入了任何种类的随机缺失或插入，也称为“INDEL突变”。这种INDEL突变的插入核苷酸的数量和类型很难控制。类似地，INDEL突变限于一个或多个核苷酸的插入和/或缺失；因此，不提供如HDR提供的目的蛋白质的类似程度的多样化。因此，根据本发明的优先方面，设想DSB或单链切口至少优先通过HDR修复。这通过向细胞提供供体核酸模板库来实现。因此，在本发明的方法中不必遏制(即抑制)NHEJ以诱导HDR。实际上，可能需要一定比例的NHEJ以进一步使目的蛋白质的突变变体多样化。

不管本发明的方法是否包括步骤b)，NHEJ可以有助于目的蛋白质的多样化。在NHEJ导致去除步骤a)中单拷贝的目标基因中包含的失活突变的情况下，也可以在步骤c)中选择表达目的蛋白的这种突变变体的细胞，并且因此可以也形成步骤d)中提供的细胞组的一部分。因此，在本发明的一个方面，步骤d)中提供的细胞组可以进一步包含细胞，其中通过NHEJ发生DSB或单链切口的修复。通过NHEJ发生DSB或单链切口修复的细胞可包含至少一个去除失活突变的随机突变，其中所述随机突变优选包含邻近在步骤a)中引入DSB或单链切口的位置处直接插入和/或缺失一个或多个核苷酸。如上所述，这种随机突变也称为INDEL突变。

如果需要，在步骤a)和b)期间，细胞可以在增加同源重组与NHEJ的比率的条件下培养。例如，所述条件可以是NHEJ中涉及的酶的抑制或失活，抑制NHEJ的蛋白质的表达，添加抑制NHEJ的物质，减缓复制叉进展，和/或引发G2/M中的细胞周期停滞(参见例如，Wu，2005，Proceedings of the National Academy of Sciences of the United States ofAmerica 102.7:2508-2513)。可能被抑制的NHEJ中涉及的潜在酶是KU70和/或DNA连接酶IV。抑制NHEJ的蛋白质可以是包含E1B55K和E4orf6或由E1B55K和E4orf6组成的蛋白质复合物。抑制NHEJ的物质可选自Scr7-吡嗪，ESCR7，L755507，布雷菲德菌素A和L189(CAS 64232-83-3)组成的组(参见，例如，Yu，2015，Cell stem cell 16.2：142-147或http://www.tocris.com/pdfs/5342.pdf)。由于这种培养条件，同源重组与NHEJ的比率可以增加至少1倍，优选至少3倍，最优选至少15倍。介导NHEJ的酶如DNA连接酶IV或KU70可以在合适的细胞系中完全敲除或用相应蛋白质的形式替换，在所述蛋白质中去稳定化氨基酸序列与蛋白质的N-或C-末端融合。稳定药物可使这些酶保持功能，同时去除药物使蛋白质快速降解，参见例如Egeler，2011，Journal of Biol Chemistry 286：31328-31336。然后可以在通过降解瞬时去除NHEJ的酶的条件下进行本申请的蛋白质多样化方案。在蛋白质多样化后，可以再次添加配体并导致新表达的介导NHEJ的酶的稳定化。

在本文提供的生产方法的步骤b)中，向细胞提供供体核酸模板库。所述供体核酸模板去除编码目的蛋白质的基因内的失活突变。因此，所述核酸模板配置成去除所述失活突变。或者，换句话说，供体核酸模板的核酸序列以这样的方式配置：使用所提供的供体核酸模板进行DSB或单链切口的HDR(特别是同源重组)时，去除了编码目的蛋白质的基因的失活突变。

所述不同的供体核酸模板可包含或是双链DNA分子。例如，所述不同的供体核酸模板可以包含在载体，例如，质粒载体中。在这种情况下，每种所述不同的供体核酸模板可以包含在单独的载体中。另外或备选地，所述不同供体核酸模板可包含或是单链寡核苷酸。例如，所述单链寡核苷酸可以是锁定核酸(LNA)和/或可以包含硫代磷酸酯修饰。

术语“锁定核酸”或“LNA(s)”是本领域公知的。LNA是核苷酸，其中核糖部分用连接2'氧和4'碳的额外桥修饰。该桥将核糖“锁定”在3'-内(北)构象中，这通常在A型双链体中发现。锁定的构象改善了寡核苷酸的杂交特性、靶特异性和对核酸酶的抗性。

术语“硫代磷酸酯修饰”是本领域技术人员公知的，并且意指硫代磷酸酯键用硫原子代替寡核苷酸的磷酸酯主链中的非桥接氧。该修饰使得核苷酸间键合对核酸酶降解具有抗性。

每种所述不同供体核酸模板包含与用于诱变的靶位点侧翼区域同源的同源核酸序列。这些同源核酸序列位于编码所需突变的区域的侧翼。例如，如果供体核酸模板包含在质粒中，则同源序列的长度可以是至少800个核苷酸(即在所需突变的两侧至少400个核苷酸)，优选至少1600个(即所需突变两侧至少800个核苷酸)，最优选至少2000个(即所需突变两侧至少1000个核苷酸)。如果供体核酸模板是ssODN，则同源序列的长度可以是约40个核苷酸(即所需突变两侧20个核苷酸)至约200个核苷酸(即所需突变两侧100个核苷酸)，优选约60个核苷酸(即所需突变两侧30个核苷酸)至约120个核苷酸(即所需突变两侧的60个核苷酸)，最优选约80个核苷酸(即所需突变两侧的40个核苷酸)至约100个核苷酸(即所需突变两侧的50个核苷酸)。因此，每个所述不同的供体核酸模板可以包含在对应于所述用于诱变的靶位点的所述位置上游的第一同源核酸序列，其长度为至少20个核苷酸，例如20至500个核苷酸，20至300个核苷酸，20至100个核苷酸，30至60个核苷酸，或40至50个核苷酸；并且可以进一步包含在对应于所述用于诱变的靶位点的所述位置下游的第二同源核酸序列，其长度为至少20个核苷酸，例如20至500个核苷酸，20至300个核苷酸，20至100个核苷酸，30至60个核苷酸或40至50个核苷酸。

第一同源核酸序列可以位于对应于用于诱变的靶位点的所述位置的正上游，或者可以位于对应于用于诱变的靶位点的所述位置的正上游的10个核酸内。类似地，第二同源核酸序列可以位于对应于用于诱变的靶位点的所述位置的正下游，或者可以位于对应于用于诱变的靶位点的所述位置的正下游的10个核酸内。

供体核酸模板内的同源序列可以与用于诱变的靶位点侧翼区域具有至少80％的序列同一性，优选至少95％的序列同一性，最优选至少99％的同一性。

如上所述，根据本发明，供体核酸模板在对应于用于诱变的靶位点的位置处还包含不同的突变。特别地，每个供体核酸模板包含将在目的蛋白质中(在用于诱变的靶位点处)产生的所需突变。与对应于用于诱变的靶位点的位置处的所述不同突变是一个或多个核苷酸取代、缺失或插入，即与编码野生型的(即未修饰的)目的蛋白质的核苷酸序列相比的一个或多个核苷酸取代、缺失或插入。例如，对于目的蛋白质和突变的核苷酸内源的核苷酸的组合可以在用于诱变的靶位点产生不同的氨基酸序列。或者，新插入到用于诱变的靶位点的核苷酸可编码与野生型(即未修饰的)目的蛋白质的相应位置处存在的氨基酸残基相比不同的一个或多个氨基酸残基。

在本发明的上下文中，供体核酸模板通过HDR，特别是通过同源重组去除(编码目的蛋白质的基因)的失活突变。在供体核酸模板内，去除所述失活突变的核酸序列可以是编码目的蛋白质的基因的相应野生型序列，和/或可以去除编码目的蛋白质的基因内的移码突变。

通常，在本文提供的方法中，使用一批供体核酸模板，其包含编程在其中的多样性，侧翼为同源臂。通常，所有供体核酸模板在一批中合成并共享相同的同源臂，但它们构成数百万种不同的供体分子。特别地，由于不同的“供体核酸序列”，供体核酸模板库包含至少2种，至少5种，至少10种，至少15种，至少20种，至少100种，至少1000种，至少10000种或至少1000000种不同的供体核酸模板。因此，本发明的一个方面涉及本文提供的方法，其中不同供体核酸模板的库包含至少两种不同的供体核酸模板，优选至少5种不同的供体核酸模板，更优选至少10种不同的供体核酸模板，甚至更优选至少15种不同的供体核酸模板，甚至更优选至少20种不同的供体核酸模板，甚至更优选至少100种不同的供体核酸模板，甚至更优选至少1000种不同的供体核酸酸模板，甚至更优选至少10000种不同的供体核酸模板，或甚至更优选至少1000000种不同的供体核酸模板。如上所述，供体核酸模板包含不同的突变。优选地，每个供体核酸分子有一个突变。每个供体核酸模板内的“突变”是与目的基因内的相应序列相比不同的核苷酸或核苷酸序列。每个供体核酸模板内的“突变”也称为“多样化序列”。所述“突变”或“多样化序列”优选在目的蛋白质内产生一个或多个氨基酸取代、替换和/或插入。所述多样化序列可以编码一种或多种特定氨基酸，和/或可以包含简并密码子。例如，多样化序列内的简并密码可以是NNN，NNK/NNS，NNB和/或MAX系统。如本领域所知，N代表DNA的任何核苷酸，即腺嘌呤(A)，鸟嘌呤(G)，胞嘧啶(C)或胸腺嘧啶(T)。B代表除腺嘌呤之外的任何核苷酸。因此，简并密码NNB降低了引入终止密码子(即TAA，TGA)的可能性。如本领域所知，在简并密码中，K代表鸟嘌呤(G)或胸腺嘧啶(T)，不包括腺嘌呤(A)或胞嘧啶(C)；S代表胞嘧啶(C)或鸟嘌呤(G)，不包括腺嘌呤(A)或胸腺嘧啶(T)。MAX系统也是本领域已知的，并描述于例如Hughes，2003，J.Mol.Biol.331：973-979。在该系统中，在每个待靶向的位点产生多达20个引物(每个氨基酸一个)。将它们退火至完全随机化的模板(靶向残基的NNN)，并连接以形成无偏向的库。

供体核酸模板也可以设计成使(a)特定氨基酸保持不变，其中侧翼氨基酸(即未改变的氨基酸周围的氨基酸)被修饰。因此，供体核酸模板内的简并密码子可以与来自目标蛋白质的原始氨基酸序列的氨基酸交错。例如，用于诱变的靶位点内的一些氨基酸可被认为是关键的，因此不应多样化。

不同供体核酸模板的库包含供体核酸模板，所述供体核酸模板在对应于用于诱变的靶位点的位置处包含的突变不同。例如，不同的供体核酸模板在它们编码的氨基酸中可以在对应于用于诱变的靶位点的位置上不同。另外或备选地，不同的供体核酸模板可以在对应于用于诱变的靶位点的位置处由它们编码的不同氨基酸的量不同。例如，在不同供体核酸模板的库内，一些供体核酸模板可以在对应于用于诱变的靶位点的位置处编码1个氨基酸，而其他供体核酸模板在对应于用于诱变的靶位点的位置处编码至少2个，至少3个，至少4个，至少5个，至少6个，至少7个，至少8个，至少9个，至少10个，至少11个和/或至少12个氨基酸(例如3至5个氨基酸)。

例如，在失活的目的基因(即包含失活突变的目的基因)中，至少一个氨基酸的密码子可能已被缺失。在这种情况下，供体核酸模板可以被配置为替换缺失的氨基酸，以去除移码，并随机化替换的氨基酸侧翼的至少一个氨基酸(例如1或2个氨基酸)。

在本文提供的生产方法中，步骤b)可以在步骤a)之前进行；或优选与步骤a)同时进行。如果步骤a)和b)同时进行，则位点特异性核酸酶或切口酶也可以切割一些供体核酸模板。这不会显著扰乱本发明的方法。然而，如果需要，可以通过本领域技术人员通常已知的几种方法避免切割供体核酸模板。例如，如果供体核酸模板是双链DNA(dsDNA)，例如，如果包含在质粒中，可以将沉默或至少中性突变引入供体核酸模板的PAM序列中。如果供体核酸模板是ssODN，则可以通过在同一链上具有sgRNA序列和相应的ssODN序列来避免切割ssODN。

在本发明的生产方法的步骤a)中，在编码目的蛋白质(即目的基因)的基因中在用于诱变的靶位点处或其附近诱导DSB或单链切口。在该上下文中，细胞在其基因组中仅包含目的基因的单个且失活拷贝(即，仅目的基因的单个且失活的等位基因)。具体地，通过在用于诱变的靶位点处或附近包含至少一个失活突变来失活目的基因的单拷贝，其中在该靶位点处氨基酸序列应该多样化(特别是诱变)。

因此，编码目的蛋白质的基因的单拷贝包含在用于诱变的靶位点处或附近的失活突变。所述失活突变可以在引入DSB或单链切口的位点处或附近。例如，选择的(或引入的)PAM位点下游的1-21个核苷酸(对应于1-7个氨基酸)，可以已经去除4个碱基对，去除一个氨基酸并产生移码。

包含失活突变的基因也可以称为失活基因或通过突变失活的基因。因此，包含在目的基因中的失活突变优选是基因核酸序列内的任何改变/修饰，其至少抑制或更优选地阻止相应蛋白质的表达。换句话说，与缺乏失活突变的相应野生型基因编码的蛋白质相比，失活突变可以抑制或优选地阻止目标蛋白质的表达。失活突变还可以导致与相应的野生型蛋白质相比活性较低的蛋白质的表达。或者，换句话说，与野生型目的蛋白质(即由没有失活突变的目的基因编码的蛋白质)相比，从失活的目的基因表达的蛋白质(即由具有失活突变的目的基因编码的目的蛋白质)可能具有较少的活性。例如，活性较低的蛋白质可以具有不超过70％，优选不超过50％，更优选不超过30％，甚至更优选不超过10％，最优选0％的相应野生型目的蛋白质的活性。与相应的野生型蛋白质相比，这种活性较低的蛋白质可以具有较低的酶活性(如果目的蛋白质是酶)或对特定表位的结合活性较低(如果目的蛋白质是抗体)。如果目的蛋白质是荧光蛋白，则这种活性较低的蛋白质可能具有较少(或优选没有)荧光。然而，目的蛋白质不限于酶、抗体和荧光蛋白。因此，取决于目的蛋白质，活性较低的蛋白质可能具有例如对亲和材料或分子结构(例如DNA、RNA、蛋白质或肽)的较低的结合亲和力，在诱导可在体内观察到的化学反应(例如显色反应)方面较低活性，或较低的药物和/或抗生素抗性。

在本发明的上下文中，由失活突变引起的目的蛋白质的较低活性可用于步骤c)中，用于选择和/或富集其中已例如，通过同源重组去除所述失活突变的那些细胞。例如，在失活突变引起较少荧光活性的情况下，可以在步骤c)中选择和/或富集荧光细胞(和/或高荧光细胞)。因此，可以使用荧光激活细胞分选(FACS)技术。在所附实施例中给出了如何进行这种FACS技术的非限制性实例。

失活突变的实例包括导致编码所述目的蛋白的基因的移码的突变(即导致目的基因阅读框改变的突变)，这是一种在所述编码目的蛋白质的基因中引入过早终止密码子的突变或在所述编码目的蛋白质的基因中引入导致失活氨基酸取代的突变的突变。所述失活氨基酸取代可以抑制或阻止相应蛋白质的活性(例如酶活性或结合活性)，或者可以优选抑制或更优选地阻止相应蛋白质的表达。最优选地，失活突变是编码目的蛋白质的基因(即核苷酸序列)内的移码突变。

从分子角度来看，失活突变可以是碱基对取代，一个或多个核苷酸的插入或一个或多个核苷酸的缺失。例如，所述失活突变是或包含碱基对取代、碱基对插入、碱基对缺失、终止密码子或失活氨基酸取代。所述失活氨基酸取代可以导致例如错误折叠的蛋白质和/或催化失活的蛋白质。技术人员知晓实现任何上述类型的失活突变需要哪种突变。

如上所述，单拷贝的编码目的蛋白质的基因中的失活突变位于用于诱变的靶位点处或附近。如本文所用，术语“用于诱变的靶位点附近”是指到用于诱变的靶位点的任何距离，其仍然允许设计供体核酸模板以在用于诱变的靶位点处引入所需的突变和去除失活突变。因此，术语“用于诱变的靶位点附近”可以指不超过100个核苷酸，优选不超过80个核苷酸，更优选不超过60个核苷酸，甚至更优选不超过40个核苷酸，甚至更优选不超过30个核苷酸，最优选不超过10个核苷酸的距离。类似地，失活突变也可以直接定位在用于诱变的靶位点处。

在本发明的上下文中，失活突变可以阻止目的蛋白质的选择活性(例如荧光活性)。在这种情况下，本文提供的生产方法的步骤c)可以包含或选择和/或富集具有所述选择活性(例如具有荧光活性)的细胞。优选地，失活突变阻止目的蛋白质的表达。在这种情况下，目的蛋白质的表达表明成功去除了失活突变；因此，有利地表明目的蛋白质的成功诱变。在这种情况下，本文提供的生产方法的步骤c)可以包含或选择和/或富集表达所述目的蛋白质的细胞。如果目的蛋白质不是可直接选择的(即由于其固有特性而不可选择，例如荧光)，可以通过使用特异性结合所述目的蛋白质的抗体来选择和/或富集表达目的蛋白质的细胞。

例如，FACS和特异性结合目的蛋白质的抗体可用于选择和/或富集表达目的蛋白质的细胞。如果目的蛋白质在细胞表面上展示，这种方法特别有用。这可以通过商业载体，例如pDisplay实现。特别地，在将单个拷贝数插入细胞基因组之前，可以将发送目的蛋白质的突变变体到细胞表面的靶向序列简单地添加到编码目的蛋白质的基因盒中。这些技术已变得非常强大并且允许在细胞，例如哺乳动物细胞，例如HEK293细胞的表面上有效地功能性呈递蛋白质(例如Fab片段，单链抗体或完整IgG)。用于有效展示和筛选的方案已成为本领域的标准，并且例如由Ho，2008，Methods in Molecular Biology，525：pp 337-352；和Zhou，2012，Methods in Molecular Biology，907：293-302提供。

或者，如果目的蛋白质是结合分子，例如抗体，则可以通过淘选方法鉴定表达目的蛋白质的突变变体的细胞。为此目的，可以将特定表面与所需抗原缀合。表达抗体库并在细胞表面上表达的细胞可以在该表面上温育。表达有效抗体的细胞将与表面结合。在洗去未结合细胞后，通过用增加量的添加的可溶性抗原进行的额外洗涤可以增加严格性。在几轮洗涤后，可以通过合适的方法(例如胰蛋白酶消化)收获结合到表面的剩余细胞，并使其恢复。

或者，可以通过将抗体吸附到表面并在细胞表面上呈递目的蛋白质来恢复淘选方法。这种淘选可用于富集细胞。

还可以产生包含目的蛋白质和免疫标签的融合蛋白，例如，myc表位或HA标签，作为选择标记(代替荧光蛋白或抗药性蛋白或除荧光蛋白或抗药性蛋白外)。

可能需要(例如，如果目的蛋白质是荧光蛋白)目的蛋白质是单体。因此，可以修饰目的基因以防止表达的目的蛋白质的二聚体或多聚体形成。

或者，编码目的蛋白质的基因可以作为融合基因包含在细胞的基因组中，其中所述融合基因包含编码目的蛋白质的基因下游的标记基因。标记基因(也称为“选择标记基因”)是赋予适于人工选择的性状的基因。标记基因编码标记(也称为“标记蛋白”)。“阳性标记”是选择标记，其赋予宿主生物选择性优势，或者由于其固有特性(例如荧光)而是可选择的。“阴性标记”(也称为“反向选择标记”)是选择性标记，其消除或抑制不被选择的宿主生物的生长。

在上述融合基因中，标记基因和编码目的蛋白质的基因在框内。特别地，在融合基因中，目的蛋白质的编码序列和标记基因可彼此有效融合，使得它们在一个mRNA分子中表达，从而允许表达相应的融合蛋白。所述融合蛋白包含目标蛋白和彼此有效连接/融合的标记蛋白。特别地，所述融合蛋白包含目的蛋白质，并且在其C末端包含标记蛋白质。

在本发明的上下文中优选的是，包含在所述融合基因中的目的蛋白质中的失活突变也阻止了标记基因的表达。在这种情况下，去除了失活突变的细胞；因此，已经发生了目的蛋白质的多样化；可以通过选择和/或富集表达标记基因的细胞来容易地选择。因此，在本文提供的生产方法的一个方面，步骤c)包含或是选择和/或富集表达由标记基因编码的蛋白质的细胞。优选地，由标记基因编码的蛋白质的表达是可直接选择的(即由于其固有特性，例如由于其荧光而是可选择的)。例如，由标记基因编码的蛋白质可以是荧光蛋白。在这种情况下，步骤c)中的选择和/或富集优选包括分离表达所述荧光蛋白的细胞。用于选择性分离细胞群的几种方法是本领域已知的。例如，细胞的分离可以通过FACS或微流体细胞分选来实现，或者可以包括FACS或微流体细胞分选。可能理想的是(例如，如果标记基因编码荧光蛋白)，标记蛋白(例如由标记基因编码的蛋白)是单体。因此，如上所述，可以修饰标记基因以防止表达的标记蛋白的二聚体或多聚体形成。

表达上述融合基因的细胞(即包含编码目的蛋白质的基因和标记基因的融合基因)的选择和/或富集也可以通过使用除荧光分选之外的其他机制来实现。例如，由标记基因编码的蛋白质的表达可以赋予药物抗性，可以赋予抗生素抗性，可以互补营养缺陷型，可以赋予可检测的酶活性，或者可以是免疫表位。可以使用标记蛋白的这些性质以在步骤c)中选择和/或富集已去除失活突变的细胞。

例如，由标记基因编码并赋予酶活性的蛋白质可以是例如β-内酰胺酶、或如肠激酶或TEV等蛋白酶。已知几种药物(例如抗生素)以及编码赋予对所述药物抗性的蛋白质的基因。例如，嘌呤霉素通过破坏核糖体上的肽转移从而导致翻译过程中链过早终止来抑制蛋白质合成。pac基因编码嘌呤霉素N-乙酰基转移酶，是潜在的嘌呤霉素抗性基因。潮霉素B是一种氨基糖苷类抗生素，其通过破坏易位和促进80S核糖体的错译来抑制蛋白质合成。编码氨基环醇磷酸转移酶的hyg基因赋予对潮霉素B的抗性。Zeocin通过嵌入和切割DNA导致细胞死亡。Sh ble基因产物与Zeocin结合，阻止其结合DNA；因此，赋予抵抗力。杀稻瘟素是原核细胞和真核细胞中的翻译抑制剂。bsd基因的产物赋予对杀稻瘟素的抗性。G-418干扰真核细胞中80S核糖体和蛋白质合成的功能。neor基因赋予对G-418的抗性。如果由标记基因编码的蛋白质赋予抗药性，抗生素抗性或互补营养缺陷型，则在步骤c)中选择和/或富集优选包括在选择条件下培养细胞。

在本发明的上下文中，目的蛋白质的表达也可以是阴性选择的。或者，换句话说，由标记基因编码的蛋白质的非表达可以指示目的蛋白质的表达。因此，由标记基因编码的蛋白质可以在失活突变的存在下表达，并且标记基因可以不在已经去除失活突变的细胞中表达。在本文中，“未表达”包括蛋白质不在框中表达。因此，如果转录了与标记基因的阅读框不同的阅读框，则认为标记基因不表达。因此，本发明的一个方面涉及本文提供的生产方法，其中由所述标记基因编码的蛋白质在编码所述目的蛋白质的所述基因中存在所述失活突变的情况下表达，并且其中所述标记基因在去除所述编码目的蛋白质的基因中的所述失活突变的细胞中不表达，或不在框内表达。在这种情况下，本文提供的生产方法的步骤c)优选包含或是选择和/或富集不表达由标记基因编码的蛋白质的细胞。为了在不表达由标记基因编码的蛋白质时实现目的蛋白质的表达，本领域已知一些系统。例如，由标记基因编码的蛋白质可以是胸苷激酶(HSVtk)。这种蛋白质在哺乳动物细胞中起着条件致死标记的作用，因为它能够使某些核苷类似物如更昔洛韦磷酸化，将它们转变为毒性DNA复制抑制剂。

上述融合基因(即包含编码目的蛋白质的基因和标记基因的融合基因)可以包含所述编码目的蛋白质的基因和所述标记基因之间的接头核酸序列。所述接头核酸序列可包含编码自切割肽的核酸序列或由其组成。几种自切割肽在本领域中是公知的。例如，自切割肽可以选自T2A肽，P2A肽，E2A肽和F2A肽。2A肽，特别是T2A，P2A，E2A和F2A的氨基酸序列在下文中显示为SEQ ID NO:1-4。

接头核酸序列还可以包含编码位点特异性蛋白酶的靶位点的核酸序列或由其组成。例如，所述位点特异性蛋白酶的靶位点可以选自具有如SEQ ID NO:5所示的氨基酸序列的TEV蛋白酶的靶位点，具有如SEQ ID NO:6所示的氨基酸序列的Genenase I的靶位点，具有如SEQ ID NO:7所示氨基酸序列的肠激酶的靶位点，以及具有如SEQ ID NO:8所示氨基酸序列的人鼻病毒(HRV)3C蛋白酶的靶位点。虽然不太优选，但位点特异性蛋白酶的靶位点也可以是具有SEQ ID NO:9所示氨基酸序列的因子Xa的靶位点，以及具有如SEQ ID NO:10所示氨基酸序列的凝血酶的靶位点。如果接头核酸序列包含编码位点特异性蛋白酶的靶位点的核酸序列或由其组成，则所述细胞(即本文提供的生产方法的步骤a)-d)中任一步骤的细胞)可进一步表达切割所述靶位点的相应的位点特异性蛋白酶。所述位点特异性蛋白酶可选自TEV蛋白酶，Genenase I，肠激酶，人鼻病毒(HRV)3C蛋白酶，因子Xa和凝血酶。

优选地，在本文提供的生产方法的步骤a)和b)之后，经历多样化的细胞产生与目的蛋白质融合的标记蛋白。标记基因以与目的基因相同的水平表达，并且当荧光蛋白用作标记蛋白时，所述荧光蛋白可用作蛋白质浓度的估计。因此，对于利用目的蛋白质的结合测定，可以将结合校准至表达水平。此外，可以用FACS或微流体分选快速收集表达荧光标记基因的细胞，这是比抗生素选择更快速的方法。

如果标记基因编码阳性或阴性选择标记蛋白，则存在几种可能性以获得仅由多样化变体组成的细胞群。如果经由多个可切割的肽接头如T2A或F2A一起使用阳性和阴性标记，可以使用阴性选择来消除非移码变体，使用单纯疱疹病毒1型胸苷激酶等基因，并针对更昔洛韦进行选择。一旦细胞是同基因的，并经由本发明的生产方法进行多样化，可以用阳性选择基因如潮霉素磷酸转移酶和潮霉素B去除不需要的剩余的移码变体。但是，如上所述，其他选择标记也是可用的。

在本发明方法的步骤c)中，选择和/或富集(例如富集)细胞，其中已去除失活突变。通过进行至少1次(例如1至10次，例如3次)又一轮的选择，甚至可以改善已去除失活突变的细胞的选择和/或富集。例如，可以生长步骤c)中选择/富集的细胞并且可以选择和生长所需的部分(例如，显示最高蛋白质表达的1-30％细胞，例如显示最高蛋白质表达的5％细胞)。该过程可重复1至10次，例如3次。如果目的蛋白质是荧光蛋白或与荧光蛋白融合，则可以选择显示最高蛋白质表达的1-30％细胞，例如，通过选择显示最高荧光的1-30％细胞，例如，通过FACS。

步骤c)中选择的细胞包含细胞或由细胞组成，其中在步骤a)中诱导的DSB或单链切口的修复导致编码目的蛋白质的基因中的失活突变的去除。去除失活突变优选意指以表达目的蛋白的突变变体的方式修饰编码目的蛋白的失活单拷贝的序列。如下所述，所述突变变体与目的蛋白质具有至少80％的序列同一性。因此，完全不同的蛋白质(例如由与编码目的蛋白质的基因的阅读框不同的阅读框的转录产生)不被认为是目的蛋白质的突变变体。如上所述，失活突变还可以导致目的蛋白质的变体的表达，其具有降低的活性或根本没有活性。在这种情况下，去除失活突变可以至少在目的蛋白质的一些突变变体中恢复目的蛋白质的活性。然而，如在本文提供的方法中，产生了目的蛋白质的几种不同突变变体，这些突变变体中的许多通常在试图改善蛋白质活性方面仍然是无功能的。例如，失活突变的去除可导致目标蛋白质的突变变体的表达，其具有至少80％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％。甚至更优选至少99％，甚至更优选至少100％的相应的目的蛋白质的活性。最优选地，突变变体具有超过100％(例如至少101％，至少110％，至少120％，或至少150％)的目的蛋白质的活性。

在本文提供的生产方法的步骤d)中，提供了表达目的蛋白质的不同突变变体的一组细胞。目的蛋白质的氨基酸序列由目的基因编码而没有失活突变。或者，换句话说，目的蛋白质(在本文中也称为“野生型目的蛋白质”)是在步骤a)的细胞中编码目的蛋白质的基因编码的蛋白质，如果该基因将不包含失活突变。尽管目的蛋白质也称为“野生型目的蛋白质”，但它原则上也可以是特定蛋白质的已知突变变体。例如，具有改进性质的蛋白质的突变变体可以是本领域已知的，并且可能需要测试该已知突变变体内的其他突变是否导致具有甚至更好性能的蛋白质。

因此，目的蛋白质可以是在本文提供的手段和方法中待突变的任何蛋白质。例如，目的蛋白质可以是荧光蛋白，抗体，酶，生长因子，细胞因子，肽激素，转录因子，RNA结合蛋白，细胞骨架蛋白，离子通道，G-蛋白偶联受体，激酶，磷酸酶，分子伴侣，转运蛋白或跨膜蛋白。优选地，目的蛋白质是酶，抗体或荧光蛋白。如果所述目的蛋白质是荧光蛋白，它可以是选自mNeonGreen，mRuby2/3，dTomato，TagRFP，Citrine，Venus，YPet，mTFP1，EGFP，KusabiraOrange，mOrange，mApple，mCerulean3，mTurquoise2，mCardinal，EosFP，Dronpa，Dreiklang和红外iRFP的荧光蛋白。如果目的蛋白质是荧光蛋白，其优选mNeonGreen2。如果目的蛋白质是抗体，则用于诱变的靶位点优选在编码所述抗体的重链或轻链的核酸序列的CDR编码区中。如果目的蛋白质是酶，则用于诱变的靶位点优选在编码酶的活性中心或所述酶的调节亚基的核酸区域中。

目的蛋白质的突变变体是与目的蛋白质具有相关但不相同的氨基酸序列的蛋白质。特别地，目的突变变体的氨基酸序列可与目的蛋白质的氨基酸序列具有至少80％，甚至更优选至少85％，甚至更优选至少90％，甚至更优选至少95％，甚至更优选98％和最优选至少99％的序列同一性。在本发明的生产方法的一个方面，在步骤d)中提供的细胞组的细胞中表达的所述目的蛋白质的不同突变变体包含与目的蛋白质相比，一个或多个氨基酸交换，一个或多个氨基酸的插入，和/或一个或多个氨基酸的缺失。例如，所述一个或多个氨基酸交换可以是至少1个，例如，至少2个，至少3个，或至少5个氨基酸交换。类似地，所述一个或多个氨基酸的插入可以是至少1个氨基酸，例如，至少2个，至少3个，或至少5个氨基酸的插入。与此一致，所述一个或多个氨基酸的缺失可以是至少1个，例如，至少2个，至少3个，或至少5个氨基酸的缺失。

优选地，目的蛋白质的突变变体具有与目的蛋白质的氨基酸序列相同的氨基酸序列，与目的蛋白质相比，除了一个或多个氨基酸取代(即交换)，一个或多个氨基酸的插入，和/或一个或多个氨基酸的缺失。这些一个或多个氨基酸的取代、插入和/或缺失位于用于诱变的靶位点。取代、插入和/或缺失的氨基酸数可以是1至25个氨基酸，优选1至20个氨基酸，更优选1至15个氨基酸，甚至更优选1至12个氨基酸，甚至更优选1至5个氨基酸，最优选3至5个氨基酸。

本文提供的生产方法的步骤d)中提供的细胞组优选是富集的细胞，所述细胞在用于诱变的靶位点包含不同的突变，所述突变包含在不同供体核酸模板中在与编码目的蛋白质的基因中用于诱变的靶位点对应的位置处。对应于用于诱变的靶位点的位置可以例如通过本文其他地方描述的和/或本领域已知的序列比对来确定。优选地，细胞组中富含的细胞是这样的细胞，其中所述DSB的HDR或单链切口(优选DSB)经由与在步骤b)中提供的不同供体核酸模板的库的供体核酸模板的同源重组发生。换句话说，在本发明方法的步骤d)中提供的细胞组优选富集表达目的蛋白质的不同突变变体的细胞，所述突变变体由目的基因的突变变体编码。特别地，如上所述，在本文提供的生产方法的步骤a)中，目的基因包含失活突变，即目的蛋白质活性较低和/或表达较少。优选地，根本不表达目的蛋白质。在本文提供的生产方法的步骤b)中，通过提供供体核酸模板诱导HDR，其又导致失活突变的去除。因此，恢复了目的蛋白质的活性和/或表达。另外，HDR导致将供体核酸模板中包含的突变引入目的蛋白质中。将突变引入目的基因中用于诱变的靶位点处。因此，d)中提供的细胞组优选包含或富含这样的细胞，其中使用所提供的不同供体核酸模板库的供体核酸模板发生诱导的DSB或单链切口的HDR。设想在步骤d)中提供的细胞组中至少4％，优选至少6％，更优选至少8％，甚至更优选至少12％，甚至更优选至少15％，甚至更优选至少20％，甚至更优选至少30％，甚至更优选至少40％，甚至更优选至少50％，最优选至少60％的细胞在用于诱变的靶位点包含在不同的供体核酸模板中包含的突变之一。

如在本文提供的方法中，使用不同供体核酸模板的库，得到的细胞组包含目的蛋白质的不同突变变体。因此，在本文提供的生产方法中，步骤d)中提供的所述细胞组包含(或优选是)表达所述目的蛋白质的不同突变变体的细胞库，其中每个细胞从单个基因拷贝表达所述不同突变变体之一。因此，所产生的细胞组包含在表达的目的蛋白质的特定突变变体中不同的不同细胞。所述不同细胞可以作为库培养。或者，可以分别培养所述不同细胞。细胞的单独培养可以促进目的蛋白质的单个突变变体的纯化和/或分析。因此，在本文提供的生产方法的一个方面，步骤d)中提供的所述细胞组是细胞库，其中分别培养表达不同突变变体的细胞。在本发明的这个方面，本文提供的生产方法可以进一步包括在步骤c)和d)之间从步骤c)中选择和/或富集的细胞中分离表达不同突变变体的细胞的步骤。

根据本发明，可以确定目的蛋白质的一种或多种突变变体(包含在所产生的细胞组中)的核酸和/或氨基酸序列。分析目的蛋白质的突变变体的核苷酸或氨基酸序列可用于确定产生的突变和/或克隆所需的突变变体。因此，在本发明的一个方面，本文提供的生产方法还包括确定编码在步骤c)中选择和/或富集的和/或在d)中提供的细胞中包含的目的蛋白质的所述不同突变变体的一种或多种基因的核酸序列；或测定包含在步骤c)中选择和/或富集的和/或d)中提供的细胞中一种或多种所述目的蛋白质的不同突变变体的氨基酸序列。

该细胞组(也称为“细胞库”或“细胞群”)优选包含100,000至数十亿个细胞。例如，对于FACS，通常使用几亿个细胞(例如100,000,000至300,000,000个细胞)。对于淘选，可以使用一升规模的悬浮细胞培养物，例如，每毫升约500,000个细胞。因此，为了淘选可以应用数十亿个细胞。用于本发明方法的细胞原则上可以是其中可发生细胞修复(例如HDR(特别是同源重组))的任何细胞。这种细胞在本领域中是众所周知的。在所有二倍体生物体中(即使二倍体仅是短暂的，如在复制细菌或复制单倍体酵母中)，原则上可以诱导HDR。例如，在本文提供的手段和方法中，细胞可以是任何原核细胞(例如，其中可以发生HDR，特别是同源重组)或任何真核细胞(例如其中可以发生HDR，特别是同源重组)。例如，在本发明的上下文中使用的细胞可以选自酵母细胞，非哺乳动物脊椎动物细胞(例如，其中可以发生HDR，特别是同源重组)，植物细胞(例如，其中可以发生HDR，特别是同源重组)，昆虫细胞(例如其中可以发生HDR，特别是同源重组)或哺乳动物细胞(例如其中可以发生HDR，特别是同源重组)。优选使用哺乳动物细胞或非哺乳动物脊椎动物细胞。最优选使用哺乳动物细胞。特别优选的非哺乳动物脊椎动物细胞是DT-40细胞，它是来自白色来亨鸡中的禽白血病病毒诱导的法氏囊淋巴瘤的B细胞系的细胞。可以在本发明的上下文中使用的特别优选的哺乳动物细胞是HEK 293细胞(有时也称为人胚胎肾293细胞，HEK-293，293细胞，293T细胞或HEK细胞)，淋巴瘤细胞系(例如NS0，Sp2/0-Ag14)，白血病细胞系，Jurkat细胞，中国仓鼠卵巢(CHO)细胞，HeLa细胞，PC12细胞，产生抗体的杂交瘤细胞系，永生化人B细胞系或本领域已知的其他永生化人细胞系。

在本文提供的生产方法中，可以将培养期间调节至所用的相应细胞类型。在诱导HDR后的培养期间(即步骤a)和b)后的培养期间)发生目的蛋白质的突变变体的表达。随后，可以在本文提供的生产方法的步骤c)中选择和/或富集包含目的蛋白质的细胞(例如，以包含目的蛋白质和标记蛋白质的融合蛋白的形式)。例如，当细胞是哺乳动物细胞时，细胞可以在步骤a)和b)之后培养至少48小时，优选至少72小时，最优选至少96小时。如本文所述，步骤a)和b)优选同时进行。因此，上述培养期可以在同时进行的步骤a)和b)之后进行。

在本文提供的生产方法中产生的细胞组可以包含表达(目的蛋白质的)突变变体的细胞，所述突变变体与野生型目的蛋白质相比具有改善的第一活性和/或新活性。因此，在本文提供的方法的步骤d)中提供一组细胞后，可以进行进一步的步骤e)以特异性地富集具有改善的第一活性和/或新活性的突变变体。因此，本发明的一个方面涉及本文提供的生产方法，其中与野生型目的蛋白质相比，所述目的蛋白质的所述突变变体第一活性得到改善和/或具有新活性，其中所述方法还包括：

e)从细胞组中选择和/或富集第二组细胞，其表达第一活性得到改善和/或具有新活性的目的蛋白的突变变体。

或者，可以在本文提供的生产方法的步骤c)中直接使用改善的第一活性和/或新活性，以特别选择和/或富集表达具有所述改善的第一活性和/或新活性的突变变体的细胞。例如，如果目的蛋白质是荧光蛋白，那么表达具有改善的荧光(例如改善的第一活性)的目的蛋白质的突变变体的细胞可以在本文提供的方法的步骤c)中选择性地富集。

因此，本发明的另一方面涉及本文提供的生产方法，其中所述目的蛋白质的所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性，和其中步骤c)包括选择和/或富集目的蛋白质的突变变体，其与目标野生型蛋白质相比第一活性得到改善和/或具有新的活性。

本文提供的生产方法有利地能够筛选与目的蛋白质相比具有不同的或修饰的活性的(目的蛋白质)突变变体。因此，本发明提供了筛选方法，即用于鉴定与野生型目的蛋白质相比具有不同的或修饰的(例如生物学)活性的目的蛋白质的突变变体的方法，其中所述方法包括：

a)从由本发明的生产方法得到的细胞组中选择和/或富集第二组细胞，其表达第一活性得到改善和/或具有新活性的目的蛋白的突变变体；和

b)确定由所述第二组表达的目的蛋白质的突变变体的氨基酸序列和/或确定编码由所述第二组表达的目的蛋白质的突变变体的基因的核酸序列。

如上所述，改善的第一活性和/或新活性可以直接用于本文提供的生产方法的步骤c)中，以特别选择和/或富集表达具有改善的第一活性和/或新活性的突变变体的细胞。因此，本发明提供了另一种筛选方法，即用于鉴定与野生型目的蛋白质相比具有不同的或修饰的(例如生物学)活性的目的蛋白质的突变变体的方法，其中所述方法包括：

a)本文提供的生产方法，

其中步骤c)包括选择和/或富集目的蛋白质的突变变体，其与野生型目的蛋白质相比第一活性得到改善和/或具有新的活性；和

b)确定目的蛋白质的至少一种突变变体的氨基酸序列，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新的活性；和/或确定编码目的蛋白质的突变变体的至少一种基因的核酸序列，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新的活性。

本文提供的生产方法或本文提供的筛选方法可以进一步包括表达和任选地收集与野生型目的蛋白质相比具有不同的或修饰的生物活性的所述目的蛋白质。本领域已知有几种方法可用于选择和/或富集表达突变变体的细胞，所述突变变体与野生型目的蛋白质相比具有改善的第一活性和/或具有新活性。例如，可以通过使用FACS、磁激活细胞分选、微流体细胞分选和/或基于珠子的细胞分离进行选择和/或富集目的蛋白的突变变体，其与野生型目的蛋白质相比第一活性得到改善和/或具有新活性。

如上所述，术语“目的蛋白质”和“野生型目的蛋白质”在本文中可互换使用，并且是指在本文提供的方法中待突变的蛋白质。因此，如果需要对该已知突变体进行进一步修饰，则术语“野生型目的蛋白质”也指特定蛋白质的已知突变体。本文中，“第一活性”是指本领域新鉴定或已知的目的蛋白质的任何活性。在本文中，术语“新活性”是指与“第一活性”不同的任何其他活性。因此，“新活性”可以是本领域中新鉴定或已知的任何活性，只要其不同于“第一活性”即可。不同的或修饰的活性优选是增加的活性。例如，具有增加的活性的目的蛋白质的突变变体可具有至少101％，优选至少110％，更优选至少120％，或最优选至少150％的野生型目的蛋白质的活性。

例如，在本文提供的生产方法或筛选方法的一个方面，所述目的蛋白质是荧光蛋白，并且所述第一活性和/或所述新活性(例如第一活性)是荧光。用于根据其荧光分选细胞的方法是本领域公知的并且包括例如FACS。在本文提供的生产方法或筛选方法的另一个方面，目的蛋白质是抗体，并且所述第一活性和/或所述新活性(例如第一活性)是抗原结合。所述抗体的潜在“新活性”可以是交叉反应性，例如，与另一个生物体内的相应抗原。可能需要一种针对人抗原并且显示出与非人动物的相应抗原的交叉反应性的抗体，例如为了便于临床前动物研究。在本文提供的生产方法或筛选方法的另一个方面，所述目的蛋白质是酶，并且所述第一活性和/或所述新活性(例如第一活性)是所述酶的酶活性。用于在蛋白质库内鉴定具有所需活性的那些蛋白质的方法是本领域公知的，并且描述于例如Wojcik，2015，Int.J.Mol.Sci.16:24918-24945；和Xiao,2015,Ind.Eng.Chem.Res.54:4011-4020。

如上所述，在本文提供的手段和方法中，目的蛋白质可以是抗体。例如，本发明在工程化和选择具有比天然存在的变体有新特异性或更高亲和力的Fab片段，单链抗体或完整IgG中提供了许多优点。

为此目的，可以将编码Fab片段，单链抗体或轻链和重链IgG的基因以单拷贝数插入细胞中。如上文和下文所述，可以在用于诱变的靶位点附近插入移码或另一种失活突变。在该实例中，用于诱变的靶位点优选位于编码CDR的区域(互补决定区)内，即抗原结合结构域的区域内。然而，用于诱变的靶位点也可位于影响抗体功能的其他位点内。如果需要(例如，如果人源化抗体基因在人细胞系中多样化)，可以将密码子与内源抗体基因序列区区分以确保仅异源基因多样化。

首先筛选库以有效恢复阅读框和/或产生融合标记基因(例如荧光蛋白或抗性标记)。为了有效呈递和随后筛选抗体库，可以使用表面展示技术在细胞表面上定位新的抗体变体。将抗体变体发送至细胞表面的靶向序列可简单地加入编码目的蛋白质的基因盒中，然后以单拷贝数插入细胞基因组中。这些技术已经变得非常强大并且允许例如在细胞(例如哺乳动物细胞，例如HEK293细胞)表面上有效的功能呈递Fab片段，单链抗体或完整IgG。用于有效显示和筛选的方案已成为本领域的标准，并且例如由Ho，2008，Methods inMolecular Biology，525：pp 337-352；和Zhou，2012，Methods in Molecular Biology，907：293-302提供。通过FACS分选可以筛选这种表面展示的抗体库。

为此目的，荧光团缀合的抗原可用于标记展示对该特异性抗原表现出亲和力的抗体的细胞。FACS分选允许收获这些细胞。在连续几轮筛选中，可以增加严格性，因为细胞可以用增加量的未标记抗原洗涤，然后是额外的FACS分选。这将允许鉴定对给定抗原具有特别高亲和力的变体。

或者，可以经由淘选方法鉴定所需的抗体。为此目的，可以将特定表面与所需抗原缀合。表达抗体库并在细胞表面上表达它的细胞可以在该表面上温育。表达有效抗体的细胞将与表面结合。在洗去未结合细胞后，通过用增加量的添加的可溶性抗原的额外洗涤可以增加严格性。在几轮洗涤后，可以通过合适的方法(例如胰蛋白酶消化)收获结合到表面的剩余细胞，并允许回收。

编码所选抗体变体的基因可以通过从这些细胞制备PolyA-RNA，进行RT-PCR以将基因转录成cDNA并将它们亚克隆到合适的载体中进行进一步分析来分离。

如上所述，本文提供的生产方法有利地能够有效地产生细胞库(即一组细胞)而没有任何非期望的突变偏向。因此，在产生的细胞库中，根据其密码子普遍性，已经随机插入、缺失和/或取代氨基酸。然而，可以通过使用专门设计用于诱导所需突变偏向的供体核酸模板来编程所需的突变偏向。因此，本文提供的细胞库或者包含在特定位点随机修饰的突变变体，没有任何突变偏向；或者在特定位点随机修饰，具有通过使用特定供体核酸模板产生的所需突变偏向。因此，本文提供的细胞库具有高度变异性。

例如，通过使用本文提供的生产方法，甚至靶向小区域，例如，只有8个氨基酸的区域，将产生超过250亿个变体的潜在库。从如此大的池中生成库意味着更少的重复。

相反，现有技术的诱变方法，例如，易错PCR(Error Prone PCR)，不能提供无偏向密码子使用，更重要的是，由于PCR复制过程将包含大量冗余(即变体的多个拷贝将构成库的大部分)，导致浪费筛选努力。例如，在Firth，2005，Bioinformatics 21(15)：3314-3315中描述了易错PCR。根据这项研究，在一个包含1000万种变体的库中，只有大约100,000种变异体具有6个或更多突变，总共有550万个重复突变。

通过本文提供的生产方法产生的细胞库与现有技术的细胞库，例如，如EP 2 319918 A1中公开的细胞库显著不同。在该文献中，将多样化的序列克隆到慢病毒质粒中以产生慢病毒，然后慢病毒感染细胞并变得稳定地整合在这些细胞中。在EP 2 319 918 A1中，慢病毒整合在基因组中的不同位点，这导致(由于不同的邻近调节序列)慢病毒编码的蛋白质在不同细胞内的表达遭受强烈波动的事实。相反，在通过本文提供的方法产生的细胞库中，多样化(即突变的)目的蛋白的表达总是发生在相同的基因组基因座上，这确保了表达蛋白在不同细胞内的高再现性和可比性。此外，将DNA库克隆到大的慢病毒质粒中(如EP 2319 918 A1中所述)是非常低效的并且导致目的蛋白质的产生的变体(即突变体)的多样性的大量丧失。因此，由本发明方法提供的细胞库包含更多不同的目的蛋白质变体。此外，如EP 2 319 918 A1中所公开的，仅基于慢病毒的方法可以使小蛋白质多样化。

通过使用本文提供的生产方法，如果6个氨基酸位置被随机化，则可以产生1000万个变体的库，如通过以下计算所证明的：

p＝(1–(1-1/n)^s)

其中

p是覆盖度

s是样品

n是变体

p＝(1-(1-1/20^6)^10000000)

p＝14.47％，或来自1000万的池的926万(p*n)不同的变体。

因此，在本文提供的细胞库中，与现有技术的细胞库相比，每个细胞群的不同突变变体的量更高。因此，所提供的细胞库优于本领域已知的细胞库，因为它提供了更有效的工具，用于筛选具有改善特性的目的蛋白质的突变变体。因此，本发明的另一方面涉及通过本文提供的方法获得的细胞库。

根据本发明，本文提供的细胞库可用于鉴定与野生型目的蛋白质相比具有不同的或修饰的生物活性的目的蛋白质的突变变体。所鉴定的目的蛋白质的突变变体可用于白色生物技术。例如，鉴定的突变变体可以是用于治疗的抗体，即用于治疗和/或预防疾病的抗体。鉴定的突变变体也可以是用于工业生产的酶，例如，用于可生物降解的塑料的酶。酶(例如纤维素酶)的修饰变体也可用于纺织品或纸的生产。或者，酶的鉴定的突变变体可用于生产生物燃料。例如，生物技术生产的乙醇可用作汽油的替代品。目的蛋白质也可以是工程化以用于治疗的细胞因子或生长因子。

用于实现本文提供的方法的手段可以是试剂盒的一部分，其可以用于产生本文提供的细胞组(即细胞库)。因此，本发明涉及一种试剂盒，其包含：

(i)包含单拷贝的目的基因的细胞；

(ii)如本文所定义的不同供体核酸模板的库；和/或

(iii)定点核酸酶或切口酶；或编码位点特异性核酸酶或切口酶的多核苷酸。

在本发明的试剂盒中，目的基因可包含如本文所述的失活突变。本发明的试剂盒可以进一步包含反应缓冲液，储存溶液，洗涤溶液和/或进行本文所述方法所需的剩余试剂或材料。此外，本发明的试剂盒的部分可以单独包装在小瓶或瓶子中，或者组合在容器或多容器单元中。此外，该试剂盒可包含使用说明。本发明的试剂盒的制造优选遵循本领域技术人员已知的标准程序。如上所述，本文提供的试剂盒可用于实施本文提供的方法，特别是用于生产本发明的细胞库。

在本发明的上下文中，术语“同一性”或“同一性百分比”是指氨基酸或核苷酸序列与本文所示序列具有同一性，例如，具有至少80％，优选至少90％，更优选至少95％，甚至更优选至少98％，甚至更优选至少99％的同一性，其中较高的同一性值比较低值优选。根据本发明，在两个或更多个核酸或氨基酸序列的上下文中，术语“同一性”或“同一性百分比”是指当比较和比对以在比较窗口上的最大对应性时，或在使用本领域已知的序列比较算法测量的指定区域上，或通过手动比对和视觉检查时，两个或更多个相同或具有指定百分比的相同氨基酸残基或核苷酸(例如，与例如SEQ ID NO:19-25中的任何一个的氨基酸序列具有至少80％，至少90％，至少95％，至少98％或至少99％同一性)的两个或多个序列。优选地，所描述的同一性存在于全长氨基酸或核苷酸上。

具有本领域技术的人将知晓如何使用例如基于CLUSTALW计算机程序(Thompson，1994，Nucl Acids Res，2：4673-4680)或FASTDB(Brutlag，1990，Comp App Biosci，6：237-245)的算法来确定序列之间的百分比同一性，如本领域已知的。本领域技术人员也可使用BLAST和BLAST 2.0算法(Altschul，1997，Nucl Acids Res 25：3389-3402；Altschul，1993，J Mol Evol，36：290-300；Altschul，1990，J Mol Biol 215：403-410)。例如，BLAST 2.0，代表Basic Local Alignment Search Tool BLAST(Altschul，1997，loc.cit.；Altschul，1993，loc.cit.；Altschul，1990，loc.cit。)，可用于搜索局部序列比对。如上所述，BLAST产生核苷酸和氨基酸序列的比对以确定序列相似性。由于比对的局部性质，BLAST在确定精确匹配或鉴定相似序列时特别有用。使用BLAST的类似计算机技术(Altschul，1997，loc.cit.；Altschul，1993，loc.cit.；Altschul，1990，loc.cit.)用于在核苷酸数据库(例如GenBank或EMBL)中搜索相同或相关的分子。

如本文所用，术语“靶序列特异性CRISPR RNA”或“crRNA”通常是本领域已知的并且描述于例如Ran，2013，Nature Protocols 8(11)：2281-2308中。crRNA通常含有与靶序列互补的序列(或与靶序列的一部分互补)，其长度为10至30，优选15至25(例如约20)个核苷酸，侧翼为长度为21至46个核苷酸的两个直接重复序列(DR)。crRNA的3'位的DR与相应的tracrRNA互补并杂交，所述tracrRNA又与Cas9蛋白结合。与SpCas9或SaCas9核酸酶一起使用的优选DR序列是如SEQ ID NO:11所示的序列(即GTTTAGAGCTA)。可以通过对各Crispr/Cas操纵子中发生的序列重复的生物信息学分析以及Cas9核酸酶和tracrRNA以及推定的DR序列侧翼靶序列的实验性结合研究来鉴定与其他细菌物种的Cas9核酸酶一起起作用的DR序列，如Deltcheva，2011，Nature，471：602-607所示。

如本文所用，术语“反式激活crRNA”或“tracrRNA”是本领域公知的并且描述于例如Hsu，2014，Cell 157：1262-78，Yang，2014，Nature Protocols，9：1956-1968和Heidenreich，2016，Nature Reviews Neurosciences，17：36-44中。术语“tracrRNA”是指小RNA，其与crRNA互补并且与crRNA碱基配对，从而形成RNA双链体。tracrRNA还可以与pre-crRNA互补并与pre-crRNA碱基配对，其中该pre-crRNA然后被RNA特异性核糖核酸酶切割，以形成crRNA/tracrRNA杂合体。特别地，“tracrRNA”含有与crRNA或pre-crRNA的回文重复序列互补的序列。因此，它可以与具有直接重复的crRNA或pre-crRNA杂交。crRNA/tracerRNA杂合体是所谓的“导向RNA”，它作为Cas9核酸酶的引导，裂解入侵的核酸。用于SpCas9或SaCas9核酸酶的优选tracrRNA序列在本文中显示于SEQ ID NO:12(即TAGCAAGTTAAAATAAGGCTAGTCCGTTTTT)。

通过使用常规技术可以容易地设计包含至少一种靶序列特异性crRNA和至少一种tracrRNA(即单导向RNA，sgRNA)的嵌合RNA分子，其靶向期望的靶序列(例如所需的用于诱变的靶位点)。例如，sgRNA可以包含长度为至少17个核苷酸的序列(例如约19个碱基对)，其与邻近PAM位点的序列(例如SpCas9的NGG)具有同源性。另外，sgRNA优选与细胞基因组中的序列(目的基因旁边)没有显著的同源性。例如，这种嵌合RNA可以是例如如Jinek，Science，337：816-821所示。在Ran，2013，Nat Protoc 8 2281-2308中描述了另一种获得单导向RNA的方法。特别地，可以通过无偏向的全基因组范围分析来设计单导向RNA，以最小化Cas9的潜在脱靶切割(Ran，2013，Nat Protoc 8 2281-2308)。因此，可以使用在线工具(例如，CRISPR设计工具，http：//crispr.mit.edu/)。

技术人员容易知晓可以如何设计靶向期望的靶序列(例如所需的用于诱变的靶位点)的双导向RNA(即包含至少一种靶序列特异性CRISPR RNA(crRNA)分子和至少一种tracrRNA分子的导向RNA)。例如，可以通过分别设计crRNA和tracrRNA来设计这种双导向RNA。可以通过与靶序列互补的序列与部分或整个DR序列设计crRNA。例如，可以通过分别设计crRNA和tracrRNA来设计这种双导向RNA。可以通过与靶序列互补的序列和部分或整个DR序列设计crRNA。可以如Jinek，Science，337：816-821所示合成tracrRNA。

用于Cpf1核酸酶的导向RNA的产生在本领域中是公知的。例如，可以如Zetsche，2015，Cell，163：759-71所述设计这种导向RNA。设想crRNA含有与靶序列互补(或与靶序列的一部分互补)的序列，其长度为10-30个核苷酸，优选15-25个核苷酸。优选地，Cpf1的crRNA包含与靶序列互补(或与靶序列的一部分互补)的序列，其长度为约20个核苷酸，接着是长度为约19个核苷酸的核苷酸序列。该19个核苷酸序列是直接重复的短茎-环结构。Cpf1不需要额外的tracrRNA。

本文中“同源定向修复”或“HDR”是指细胞中修复DSB或单链切口的机制，其通常通过同源重组进行；参见，例如，Cong，2013，Science 339 819-23；Pardo，2009，Cellular andMolecular Life Sciences 66(6)：1039-1056；Bolderson，2009，Clinical CancerResearch，15：6314-6320。因此，术语“同源定向修复”或“HDR”优选是指同源重组。当细胞核中存在同源DNA片段(即供体核酸模板)时，HDR修复机制只能由细胞使用。当同源DNA片段不存在时，可以发生另一种称为非同源末端连接(NHEJ)的过程。高度易错的NHEJ途径诱导各种长度的插入和缺失(INDELS)，这可导致移码突变，并因此导致基因敲除。相反，HDR途径指导同源DNA供体模板(即供体核酸模板)和受损DNA位点之间的精确重组事件，导致单链或双链断裂的精确校正。因此，HDR可用于将特定突变或转基因引入基因组。供体核酸模板(通常是ssODN)必须含有与待修复区域具有序列同源性的区域。虽然同源重组似乎是HDR的主要途径，但有证据表明HDR中可能涉及第二种替代机制，特别是当使用单链寡核苷酸(ssODN)作为修复模板来插入库时。Aarts和te Riel的教导(2010，J.Cell.Mol.Med.14(6B)：1657-1667)表明，寡核苷酸介导的HDR可能涉及在复制叉的背景中寡核苷酸的同源区域与基因组中的靶区域的退火。该工作表明，可能涉及像引发一样的冈崎片段，在此期间寡核苷酸在复制叉进展期间物理掺入到基因靶位点中。

术语“同源重组”是指遗传重组的机制，其中包含相似核苷酸序列的两条DNA链交换遗传物质。细胞使用同源重组修复受损DNA，特别是修复单链和双链断裂。同源重组的机制是本领域技术人员公知的，并且已经描述于例如Paques，1999，Microbiol Mol BiolRev，63：349404。

根据本发明的方法，位点特异性核酸酶或切口酶(例如Cas9核酸酶)可以存在于或可以引入步骤a)的细胞中。例如，位点特异性核酸酶或切口酶可以作为蛋白质存在或引入。或者，可以以编码所述蛋白质的多核苷酸的形式引入位点特异性核酸酶或切口酶(例如Cas9核酸酶)。应当理解，多核苷酸以可表达的形式编码所述位点特异性核酸酶或切口酶(例如Cas9核酸酶)和/或所述导向RNA，使得在步骤a)的细胞中表达导致功能性位点特异性核酸酶或切口酶和功能性导向RNA。确保功能性多肽或RNA表达的手段和方法是本领域熟知的。例如，编码序列可以包含在载体中，例如质粒，粘粒，病毒，噬菌体或例如在基因工程中常规使用的另一种载体。优选地，载体是质粒载体。插入载体中的编码序列可以是例如通过标准方法合成，或从天然来源分离。编码序列可以进一步连接到转录调控元件和/或其他氨基酸编码序列。此类调节序列是本领域技术人员公知的，并且包括但不限于确保转录起始的调节序列，内部核糖体进入位点(IRES)(Owens，2001，Proc Natl Acad Sei，USA，98：1471-1476)和任选的确保转录的终止和转录物的稳定化的调节元件。确保转录起始的调节元件的非限制性实例包括翻译起始密码子，转录增强子，例如SV40-增强子，绝缘子和/或启动子，例如如巨细胞病毒(CMV)启动子，SV40启动子，RSV启动子(劳斯肉瘤病毒)，lacZ启动子，鸡β-肌动蛋白启动子，CAG启动子(鸡β肌动蛋白启动子和巨细胞病毒立即早期增强子的组合)，gai10启动子，人延伸因子1α-启动子，AOX1启动子，GAL1启动子CaM激酶启动子，lac，trp或tac启动子，lacUV5启动子或苜蓿银纹夜蛾(autographa californica)多核多角体病毒(AcMNPV)多面体启动子。确保转录终止的调节元件的非限制性实例包括V40-poly-A位点，tk-poly-A位点或SV40，lacZ或AcMNPV多面体多腺苷酸化信号。另外的调节元件可包括翻译增强子，Kozak序列和侧翼为RNA剪接的供体和受体位点的间插序列。此外，还可以包括诸如复制起点，药物抗性基因或调节剂(作为诱导型启动子的一部分)的元件。

本文中，术语“多核苷酸”，“核酸”，“核酸序列”或“核苷酸序列”在本文中可互换使用，并且指DNA，例如cDNA或基因组DNA，和RNA。根据本发明使用的多核苷酸可以是天然的以及(半)合成来源的。因此，多核苷酸可以是例如根据常规有机化学方案合成的核酸分子。本领域技术人员熟悉多核苷酸的制备和用途(参见，例如，Sambrook和Russel“MolecularCloning，A Laboratory Manual”，Cold Spring Harbor Laboratory，N.Y.(2001))。根据本发明使用的多核苷酸可包含本领域已知的核酸模拟分子或由其组成。它们可以含有另外的非天然或衍生的核苷酸碱基，这是本领域技术人员容易理解的。根据本发明的核酸模拟分子或核酸衍生物包括但不限于硫代磷酸酯核酸，氨基磷酸酯核酸，吗啉代核酸，己糖醇核酸(HNA)，肽核酸(PNA)和锁定核酸(LNA)。

本文中术语“基因”是指DNA的基因座(或区域)，其由核苷酸组成，并且是生物体基因组内遗传的分子单位。然而，本文中术语“基因”不限于存在于生物体基因组中的核苷酸序列。本文中，术语“基因”针对编码蛋白质的每个核苷酸序列。因此，本文术语“基因”还包括人工产生的核苷酸序列，例如没有内含子的核苷酸序列。因此，本文术语“基因”也指cDNA序列。因此，本文中术语“目的基因”或“编码(用于)目的蛋白质的基因”可互换使用，并且是指编码目的蛋白质的核苷酸序列。所述核苷酸序列优选是编码目的蛋白质的cDNA。表明术语“编码(encode)”或“编码(encoding)”分别与术语“编码(encode for)”或“编码(encoding for)”互换使用。另外，本文术语“基因拷贝”是指核苷酸序列的拷贝。因此，术语“单个基因拷贝”是指特定核苷酸序列的单拷贝；并且意指所述核苷酸序列在特定细胞的基因组内是独特的。

本文中术语“供体核酸模板”(也称为“DNA供体模板”，参见例如Heidenreich，2016，Nature Reviews Neurosciences，17：36-44)是指在HDR过程中，优选在同源重组的过程中用作模板的核酸序列，并且携带将被引入靶序列的修饰。通过使用该供体核酸模板作为模板，将包括修饰的遗传信息复制到目的基因中。例如，供体核酸模板可以与目标基因的一部分相同，除了1至36个不同的核苷酸之外；因此，可以在同源重组时导致1至12个氨基酸的引入或取代。供体核酸模板也可以配置成同源重组导致氨基酸的缺失，例如，1至12个氨基酸的缺失。本文中，供体核酸模板优选是单链核酸分子(即ssODN)。然而，质粒载体也可用作供体核酸模板，即(基于质粒的)双链DNA可用作供体核酸模板。

供体核酸模板包含“供体核酸序列”，其携带待插入的突变(即对目的基因的修饰)。供体核酸模板还包含与供体核酸模板的靶序列同源的区域。在这方面，“供体核酸模板的靶序列”是目的基因内的序列区域，其围绕用于诱变的靶位点。本文中，术语“与供体核酸模板的靶序列同源的区域”是指所谓的“同源臂”。同源臂是具有足够序列同一性以确保与供体核酸模板的靶序列的特异性结合的区域。与供体核酸模板(同源臂)的靶序列同源的区域位于“供体核酸序列”的侧翼，该“供体核酸序列”携带待插入目的基因的突变(即修饰)。或者，换句话说，同源臂位于供体核酸序列的5'和3'末端。因此，本文提供的方法中使用的供体核酸模板包含第一同源臂，接着是供体核酸序列，其后是第二同源臂。同源臂优选为供体核酸序列(即携带突变的序列)在两侧的侧翼的>30个核苷酸，更优选30-150个核苷酸，甚至更优选30-80个(例如40-55个)核苷酸。

优选地，“与供体核酸模板的靶序列同源的区域”与供体核酸模板的相应靶序列具有至少95％，优选至少97％，更优选至少98％，甚至更优选至少99％，甚至更优选至少99.9％，最优选100％的序列同一性。上述定义的序列同一性仅限于“供体核酸模板的靶序列”，其用作同源臂的结合位点。因此，整个供体核酸模板和“供体核酸模板的靶序列”之间的总体序列同一性可以不同于上面定义的序列同一性，这是由于存在待被插入用于诱变的靶位点的目的基因中的供体核酸模板的一部分(即供体核酸序列)。

可以通过使用常规技术(例如，如Ran，2013，Nat Protoc 8 2281-2308中所述)，容易地设计在所需用于诱变的靶位点诱导HDR(特别是同源重组)的供体核酸模板。

如上所述，在本发明的上下文中，供体核酸模板可以是单链寡脱氧核苷酸(ssODN)。术语“寡脱氧核苷酸(ODN)”是本领域公知的，并且涉及由脱氧核苷酸残基序列组成的核酸聚合物。如果ODN不与第二种不同(即互补或部分互补的)寡核苷酸链杂交，则ODN是单链ODN(ssODN)。尽管如此，应当理解，ssODN可以折回到其自身上，从而形成由一个寡脱氧核苷酸链组成的部分或完整的双链分子。然而，优选ssODN不折回以形成部分或完整的双链分子，而是在其整个长度上是单链的。根据本发明的ODN是指寡脱氧核苷酸和多脱氧核苷酸两者，长度为30至600个核苷酸，优选长度为50至500个核苷酸，甚至更优选长度为70至350个核苷酸，最优选长度为90至150个核苷酸。例如，为了插入短序列(例如长度为1至36个核苷酸的核苷酸序列)，可以使用约90-150个核苷酸长的ssODN。在这方面，ssODN优选包含>30个核苷酸，更优选30-150个核苷酸，甚至更优选40-55个核苷酸(例如约50个核苷酸)的同源臂，在供体核酸序列(即携带突变的序列)的两侧。

如上文和下文所述，通过使用本文提供的手段和方法，外源重组基因可以以单拷贝数稳定地引入哺乳动物细胞系中并在体内多样化，例如，通过使用CRISPR/Cas9系统和同源重组修复。作为示例性地使用荧光蛋白mNeonGreen，所附实施例显示目的位点可以用CRISPR靶向，并且可以通过同源修复插入不同长度的多样化氨基酸序列的大库。为此目的，可以选择性地在靶向位点附近引入阅读框移码，其导致非荧光蛋白。如所附实施例中所示，切割和修复导致插入所需的多样化并恢复阅读框。突变体的分析(例如通过FACS)允许筛选大量变体和序列空间。如所附实施例中所证明的，本文提供的方法已经导致mNeonGreen2的工程化，mNeonGreen2是亮度增加的绿色荧光蛋白变体。还如所附实施例中所示，该方法可以扩展到非荧光蛋白靶标，其中荧光蛋白或选择标记物的融合可以用于收集多样化蛋白质用于进一步的功能分析。

如上所述，在本发明的上下文中，已经设计了蛋白质mNeonGreen2。与mNeonGreen相比，该蛋白质有利地具有增加的亮度。因此，本发明还涉及mNeonGreen2。因此，本发明的一个方面涉及选自下组的多肽：

(a)包含由具有SEQ ID NO:91所示核酸序列的核酸分子编码的氨基酸序列的多肽；

(b)包含SEQ ID NO:92所示氨基酸序列的多肽；

(c)由编码包含SEQ ID NO:92所示氨基酸序列的多肽的核酸分子编码的多肽；

(d)与(a)-(c)中任一项的多肽具有至少80％同源性，优选至少85％，更优选至少90％，甚至更优选至少95％，甚至更优选至少98％，甚至更优选至少99％同一性的多肽，其中所述多肽在对应于如SEQ ID NO:28所示的mNeonGreen的147-150位的位置包含氨基酸“DACW”；和

(e)包含由核酸分子编码的氨基酸序列的多肽，所述核酸分子由于(a)或(c)中定义的核酸分子的核苷酸序列的遗传密码而简并。

本文提供的mNeonGreen2具有荧光活性。实际上，如由量子产率和消光系数的乘积确定的mNeonGreen2的总亮度比mNeonGreen(例如，如SEQ ID NO:28所示)的亮度更亮。例如，本文提供的mNeonGreen2的总亮度比mNeonGreen(例如，如SEQ ID NO:28所示)亮至少1％，优选至少2％，更优选至少4％，甚至更优选至少6％，最优选至少8％或至少10％。

本发明的一个方面涉及以下项目。

1.一种用于产生表达目的蛋白质的突变变体的一组细胞的方法，其中所述目的蛋白质的所述突变变体之一是按每个细胞从单个基因拷贝表达，所述方法包括：

a)在细胞基因组中的靶位点处或附近诱导双链断裂(DSB)或单链切口，用于在所述编码目的蛋白质的基因中进行诱变，其中编码所述目的蛋白质的所述基因是以单拷贝包含在细胞基因组中，并且其中编码所述目的蛋白质的所述基因的单拷贝包含在所述用于诱变的靶位点处或附近的失活突变；

b)向步骤a)的细胞提供不同供体核酸模板的库，用于经由同源重组来修复诱导的DSB或单链切口，其中所述库的不同供体核酸模板在对应于所述诱变靶位点的位置处包含不同的突变，并通过同源定向修复(HDR)，尤其是同源重组去除所述失活突变；

c)选择和/或富集已去除失活突变的细胞；和

2.项目1的方法，其中d)中提供的所述细胞组富含包含在所述用于诱变的靶位点处的不同突变的细胞，所述突变包含在对应于所述用于诱变的靶位点的位置处的不同供体核酸模板中。

3.项目2的方法，其中在所述细胞组富含的细胞是这样的细胞，其中经由与所述不同供体核酸模板库的供体核酸模板的同源重组发生所述DSB或单链切口的修复。

4.项目1至3中任一项的方法，其中在d)中提供的所述细胞组中，至少4％，优选至少20％，最优选至少60％的细胞包含在所述用于诱变的靶位点处的突变之一，所述突变包含在不同供体核酸模板中。

5.项目1至4中任一项的方法，其中d)中提供的所述细胞组还包含这样的细胞，其中通过非同源末端连接(NHEJ)发生DSB或单链切口的修复。

6.项目5的方法，其中通过NHEJ修复DSB或单链切口的细胞包含至少一个去除失活突变的随机突变，其中所述随机突变优选包含插入和/或缺失与在步骤a)中引入DSB或单链切口的位置直接相邻的一个或多个核苷酸。

7.项目1至6中任一项的方法，其中所述失活突变被引入所述单拷贝的编码目的蛋白质的基因中。

8.项目1至7中任一项的方法，其中所述失活突变阻止所述目的蛋白质的表达。

9.项目1至8中任一项的方法，其中所述失活突变是或包含碱基对取代，碱基对插入，碱基对缺失，终止密码子或失活氨基酸取代。

10.项目1至9中任一项的方法，其中所述失活突变阻止目的蛋白质的可选择活性。

11.项目10的方法，其中步骤c)包含或是选择和/或富集具有所述可选择活性的细胞。

12.项目1至11中任一项的方法，其中所述失活突变在所述编码目的蛋白质的基因中引入移码，在所述编码目的蛋白质的基因中引入过早终止密码子或在所述编码目的蛋白质的基因中引入导致失活的氨基酸取代的突变。

13.项目1至12中任一项的方法，其中步骤c)包含或是选择表达所述目的蛋白质的细胞。

14.项目12或13的方法，其中所述所述编码目的蛋白质的基因作为融合基因包含在所述细胞的基因组中，其中所述融合基因包含在所述编码目的蛋白质的基因下游的标记基因。

15.项目14的方法，其中所述编码目的蛋白质的基因中的所述失活突变阻止所述标记基因的表达。

16.项目14或15的方法，其中由所述标记基因编码的蛋白质的表达是可直接选择的。

17.项目14至16中任一项的方法，其中步骤c)包含或是选择表达由所述标记基因编码的蛋白质的细胞。

18.项目14至17中任一项的方法，其中由所述标记基因编码的蛋白质是荧光蛋白。

19.项目18的方法，其中步骤c)中的所述选择和/或富集包括分离表达所述荧光蛋白的细胞。

20.项目19的方法，其中所述细胞分离是或包括荧光激活细胞分选(FACS)或微流体细胞分选。

21.项目14至17中任一项的方法，其中由所述标记基因编码的蛋白质的表达赋予抗生素抗性，赋予药物抗性，互补营养缺陷型或赋予可检测的酶活性。

22.项目21的方法，其中步骤c)中的所述选择和/或富集包括在选择条件下培养细胞。

23.项目14的方法，其中由所述标记基因编码的蛋白质在所述编码目的蛋白质的基因中存在所述失活突变的情况下表达，并且其中所述标记基因在细胞中不表达或不在框内表达，所述细胞中所述编码目的蛋白质的基因中的所述失活突变被去除。

24.项目14或23的方法，其中目的蛋白质的表达是可负选择的。

25.项目14，23或24中任一项的方法，其中步骤c)包含或是选择和/或富集不表达由所述标记基因编码的蛋白质的细胞。

26.项目14和23-25中任一项的方法，其中由标记基因编码的所述蛋白质是胸苷激酶(HSVtk)。

27.项目14至26中任一项的方法，其中所述融合基因还包含在所述编码目的蛋白质的基因和所述标记基因之间的接头核酸序列。

28.项目27的方法，其中所述接头核酸序列包含或组成为编码自切割肽的核酸序列。

29.项目28的方法，其中所述自切割肽选自T2A肽，P2A肽，E2A肽和F2A肽。

30.项目27的方法，其中所述接头核酸序列包含或组成为编码位点特异性蛋白酶的靶位点的核酸序列。

31.项目30的方法，其中所述位点特异性蛋白酶的靶位点选自具有SEQ ID NO:5所示氨基酸序列的TEV蛋白酶的靶位点，具有如SEQ ID NO:6所示的氨基酸序列的Genenase I的靶位点，具有如SEQ ID NO:7所示的氨基酸序列的肠激酶的靶位点，以及具有如SEQ IDNO:8所示氨基酸序列的人鼻病毒(HRV)3C蛋白酶的靶位点。

32.项目30或31的方法，其中所述细胞进一步表达切割所述靶位点的相应位点特异性蛋白酶。

33.项目30或32的方法，其中所述位点特异性蛋白酶选自TEV蛋白酶，Genenase I，肠激酶，人鼻病毒(HRV)3C蛋白酶，因子Xa和凝血酶。

34.项目1至33中任一项的方法，其中编码目的蛋白质的基因的单拷贝是外源基因拷贝。

35.项目1至34中任一项的方法，其中编码目的蛋白质的基因的单拷贝是内源基因拷贝。

36.项目1至35中任一项的方法，其中所述方法还包括产生如a)中所用的细胞的步骤。

37.项目36的方法，其中所述产生包括在单拷贝的所述编码目的蛋白质的基因中引入所述失活突变。

38.项目36或37的方法，其中所述编码目的蛋白质的基因的单拷贝是外源的，并且其中所述产生包括在细胞基因组中引入所述编码目的蛋白质的基因的单拷贝。

39.项目38的方法，其中所述将编码目的蛋白质的基因的外源单拷贝引入基因组涉及位点特异性同源重组系统。

40.项目38或39的方法，其中在将所述编码目的蛋白质的基因的单拷贝引入细胞基因组之前或之后引入所述失活突变。

41.项目38或39的方法，其中所述产生包括在在细胞基因组中入所述编码目的蛋白质的基因的单拷贝之前或之后，在目的基因中引入所述失活突变。

42.项目36或37的方法，其中所述编码目的蛋白质的基因的单拷贝是内源的，并且其中所述产生包括通过使用位点特异性同源重组系统在编码细胞基因组中的目的蛋白质的基因中引入所述失活突变。

43.项目36，37和42中任一项的方法，其中所述编码目的蛋白质的基因是在基因组中以一个以上拷贝存在的内源基因，并且其中所述产生包括内源性拷贝的所述编码目的蛋白质的基因的失活，以获得每个细胞所述编码目的蛋白质的基因的单个拷贝。

44.项目36至43中任一项的方法，其中所述产生包括向细胞中引入编码位点特异性核酸酶或位点特异性切口酶的核酸序列。

45.项目44的方法，其中所述产生还包括向所述细胞中的单拷贝的所述目标基因中引入所述位点特异性核酸酶或所述位点特异性切口酶的相应识别序列。

46.项目44或45的方法，其中所述产生还包括向细胞中引入将所述位点特异性核酸酶或所述位点特异性切口酶靶向所述识别位点的工具。

47.项目1至46中任一项的方法，其中诱导所述DSB。

48.项目1至47中任一项的方法，其中所述DSB由位点特异性核酸酶诱导，并且其中在步骤a)的细胞中所述编码目的蛋白质的基因的单拷贝包含所述位点特异性核酸酶的相应的识别位点。

49.项目48的方法，其中所述位点特异性核酸酶在组成型或诱导型启动子的控制下表达。

50.项目48或49的方法，其中所述位点特异性核酸酶在质粒上编码。

51.项目50的方法，其中所述方法还包括在步骤c)和d)之间或在步骤d)之后从所选和/或提供的细胞中去除编码所述位点特异性核酸酶的质粒。

52.项目33至36中任一项的方法，其中所述编码目的蛋白质的基因中所述位点特异性核酸酶的识别位点内源地存在于所述单拷贝的所述编码目的蛋白质的基因中或者是全部或部分外源引入的。

53.项目48至52中任一项的方法，其中所述位点特异性核酸酶的所述识别位点被完全或部分外源引入，并且其中外源引入的序列不存在于包含在c)中选择的或d)中提供的细胞中的编码所述目的蛋白质的基因的突变变体中。

54.项目48至53中任一项的方法，其中所述位点特异性核酸酶选自Cas9核酸酶，Cpf1核酸酶，锌指核酸酶(ZNF)，转录激活物样核酸酶(TALEN)和megaTAL内切核酸酶。

55.项目48至53中任一项的方法，其中所述位点特异性核酸酶是CRISPR/Cas9核酸酶。

56.项目54或55的方法，其中所述Cas9核酸酶选自来自酿脓链球菌的SpCas9，来自嗜热链球菌的St1Cas9，来自金黄色葡萄球菌的SaCas9，Cas9VQR变体，Cas9EQR变体，SplitCas9，Intein-Cas9，工程改造的Cas9和二聚体RNA引导的FokI-dCas9核酸酶(RFN)。

57.项目54至56中任一项的方法，其中步骤a)中的细胞表达将所述Cas9核酸酶靶向所述识别位点的sgRNA。

58.项目54至57中任一项的方法，其中所述Cas9核酸酶的所述相应识别位点包含被所述Cas9核酸酶识别的PAM位点。

59.项目1至47中任一项的方法，其中所述双链断裂由编码所述目的蛋白质的基因内的不同链上的两个单链切口诱导。

60.项目59的方法，其中所述两个单链切口由一个或多个切口酶引入，并且其中在步骤a)的细胞中编码所述目的蛋白质的基因的单个拷贝包含第一位点特异性切口酶的第一识别位点和第二位点特异性切口酶的第二识别位点。

61.项目59的方法，其中所述第一和第二位点特异性切口酶是相同的。

62.项目60至61中任一项的方法，其中所述第一和/或所述第二切口酶是Cas9切口酶。

63.项目62的方法，其中步骤a)中的细胞包含第一sgRNA，其将所述第一位点特异性切口酶靶向所述第一识别位点，并将所述第二位点特异性切口酶靶向所述第二识别位点。

64.项目63的方法，其中第一识别序列和/或第二识别序列包含PAM序列。

65.项目1至46中任一项的方法，其中所述单链切口由位点特异性切口酶诱导，并且其中编码所述目的蛋白质的基因的单拷贝包含所述位点特异性切口酶的相应识别位点。

66.项目65的方法，其中所述编码目的蛋白质的基因中所述位点特异性切口酶的识别位点内源性地存在于所述编码目的蛋白质的基因中或者完全或部分外源引入。

67.项目65或66的方法，其中所述位点特异性切口酶的识别位点被完全或部分外源引入，并且其中外源引入的序列不存在于包含在c)中选择的或d)中提供的细胞中编码目的蛋白质的基因的突变变体中。

68.项目65至67中任一项的方法，其中所述位点特异性切口酶是Cas9切口酶。

69.项目68的方法，其中所述Cas9切口酶的相应识别序列是被所述CRISPR/Cas9切口酶识别的PAM序列。

70.项目1至69中任一项的方法，其中所述细胞是原核细胞或真核细胞。

71.项目1至69中任一项的方法，其中所述细胞是酵母细胞，非哺乳动物脊椎动物细胞，植物细胞，昆虫细胞或哺乳动物细胞。

72.项目1至69中任一项的方法，其中所述细胞是哺乳动物细胞。

73.项目71或72的方法，其中所述哺乳动物细胞选自HEK 293细胞，淋巴瘤细胞系(例如NS0或Sp2/0-Ag14)，白血病细胞系，Jurkat细胞，中国仓鼠卵巢(CHO)细胞，HeLa细胞，PC12细胞，产生抗体的杂交瘤细胞系，永生化的人B细胞系和永生化的人细胞系。

74.项目71的方法，其中所述非哺乳动物脊椎动物细胞是DT40鸡细胞。

75.项目1至74中任一项的方法，其中所述DSB或所述单链切口在距用于诱变的靶位点小于100个碱基对，优选小于30个碱基对或最优选小于10个碱基对的距离内被诱导。

76.项目1至75中任一项的方法，其中所述失活突变与所述用于诱变的靶位点的距离小于100个碱基对，优选小于30个碱基对或最优选小于10个碱基对。

77.项目1至76中任一项的方法，其中所述不同的供体核酸模板包含或是双链DNA分子。

78.项目77的方法，其中所述不同供体核酸模板中的每一个包含在单独的载体中。

79.项目1至78中任一项的方法，其中所述不同供体核酸模板包含或是单链寡核苷酸。

80.项目79的方法，其中所述单链寡核苷酸是锁定核酸和/或包含硫代磷酸酯修饰。

81.项目1至80中任一项的方法，其中所述不同供体核酸模板中的每一个包含与所述编码目的蛋白质的基因同源的同源核酸序列。

82.项目81的方法，其中所述同源核酸序列包含20至100个核苷酸，优选30至60个核苷酸，最优选40至50个核苷酸。

83.项目1至82中任一项的方法，其中所述不同供体核酸模板中的每一个包含在对应于所述用于诱变的靶位点的所述位置上游的第一同源核酸序列，其长度为至少20个核苷酸，例如20至500个核苷酸，20至300个核苷酸，20至100个核苷酸，30至60个核苷酸或40至50个核苷酸，并且还包含在对应于所述用于诱变的靶位点的所述位置下游的第二同源核酸序列，其长度为至少20个核苷酸，例如20至500个核苷酸，20至300个核苷酸，20至100个核苷酸，30至60个核苷酸或40至50个核苷酸。

84.项目81至83中任一项的方法，其中同源意指至少80％的序列同一性，优选至少95％的序列同一性，最优选至少99％的同一性。

85.项目1至84中任一项的方法，其中在对应于所述用于诱变的靶位点的位置处的所述不同突变是一个或多个核苷酸取代、缺失或插入。

86.项目1至85中任一项的方法，其中在d)中提供的细胞组的细胞中表达的目的蛋白质的所述不同突变变体包含与目的蛋白质相比，一个或多个氨基酸交换，一个或多个氨基酸的插入和/或一个或多个氨基酸的缺失。

87.项目86的方法，其中所述一个或多个氨基酸交换是至少1个，例如，至少2个，至少3个，或至少5个氨基酸交换。

88.项目86的方法，其中所述一个或多个氨基酸的插入是至少1个，例如，至少2个，至少3个，或至少5个氨基酸的插入。

89.项目86的方法，其中所述一个或多个氨基酸的缺失是至少1个，例如，至少2个，至少3个，或至少5个氨基酸的缺失。

90.项目1至89中任一项的方法，其中所述去除所述失活突变的核酸序列是编码目的蛋白质的基因的相应野生型序列，和/或去除目的蛋白质的基因内的移码突变。

91.项目1至90中任一项的方法，其中步骤b)在步骤a)之前进行或优选与步骤a)同时进行。

92.项目1至91中任一项的方法，其中在步骤a)和b)期间，细胞在与NHEJ相比增加同源重组率的条件下培养。

93.项目92的方法，其中所述条件是NHEJ中涉及的酶的抑制或失活，抑制NHEJ的蛋白质的表达，添加抑制NHEJ的物质，减缓复制叉进展或引发G2/M中的细胞周期停滞。

94.项目93的方法，其中NHEJ中涉及的酶是KU70或DNA连接酶IV，并且其中涉及NHEJ的酶被抑制。

95.项目93的方法，其中抑制NHEJ的蛋白质是包含E1B55K和E4orf6或由E1B55K和E4orf6组成的蛋白质复合物。

96.项目93的方法，其中所述抑制NHEJ的物质选自Scr7-吡嗪，ESCR7，L755507，布雷菲德菌素A和L189(CAS 64232-83-3)。

97.项目92至96中任一项的方法，其中与NHEJ相比同源重组率增加至少1倍，优选至少3倍，最优选至少15倍。

98.项目1至97中任一项的方法，其中所述细胞是哺乳动物细胞并且在步骤a)和/或b)和c)之间培养至少48小时，优选至少72小时，最优选至少96小时。

99.项目1至98中任一项的方法，其中d)中提供的所述细胞组是表达所述目的蛋白质的不同突变变体的细胞池，其中所述不同突变变体之一每个细胞从单基因拷贝表达。

100.项目1至98中任一项的方法，其中d)中提供的所述细胞组是细胞库，其中分别培养表达不同突变变体的细胞。

101.项目100的方法，其中所述方法还包括在步骤c)和d)之间从步骤c)中选择的细胞中分离表达不同突变变体的细胞的步骤。

102.项目1至101中任一项的方法，其中所述方法还包括确定编码在步骤c)中选择和/或富集的和/或在d)中提供的细胞中包含的所述目的蛋白质的所述不同突变变体的一种或多种基因的核酸序列；或测定在步骤c)中选择和/或富集的和/或d)中提供的细胞中包含的目的蛋白质的一种或多种所述不同突变变体的氨基酸序列。

103.项目1至102中任一项的方法，其中所述目的蛋白质是荧光蛋白，抗体，酶，生长因子，细胞因子，肽激素，转录因子，RNA结合蛋白，细胞骨架蛋白，离子通道，G蛋白偶联受体，激酶，磷酸酶，分子伴侣，转运蛋白或跨膜蛋白。

104.项目1至102中任一项的方法，其中所述目的蛋白质是选自mNeonGreen，mRuby2/3，dTomato，TagRFP，Citrine，Venus，YPet，mTFP1，EGFP；Kusabira Orange，mOrange，mApple，mCerulean3，mTurquoise2，mCardinal，EosFP，Dronpa，Dreiklang和红外iRFP的荧光蛋白。

105.项目1至102中任一项的方法，其中所述目的蛋白质是抗体，并且其中所述用于诱变的靶位点位于编码所述抗体的重链或轻链的核酸序列的CDR编码区中。

106.项目1至102中任一项的方法，其中所述目的蛋白质是酶，并且其中所述用于诱变的靶位点位于编码酶的活性中心或所述酶的调节亚基的核酸区域中。

107.项目1至106中任一项的方法，其中所述目的蛋白质的所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性，其中所述方法还包含：

e)从细胞组中选择和/或富集第二组细胞，所述第二组细胞表达所述目的蛋白质的突变变体，所述突变变体的所述第一活性得到改善和/或具有所述新活性。

108.项目1至106中任一项的方法，其中所述目的蛋白质的所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性，并且其中步骤c)包括选择和/或富集目的蛋白质的突变变体，所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新的活性。

109.一种用于鉴定目的蛋白质的突变变体的方法，所述突变变体与野生型目的蛋白质相比具有不同的或修饰的活性，其中所述方法包括：

a)从项目1至106中任一项产生的细胞组中选择和/或富集第二组细胞，该第二组细胞表达所述目的蛋白质的突变变体，所述突变变体的所述第一活性得到改善和/或具有所述新活性；和

110.一种鉴定目的蛋白质的突变变体的方法，所述突变变体与野生型目的蛋白质相比具有不同的或修饰的活性，其中所述方法包括：

a)制备表达项目1至106中任一项的目的蛋白质的突变变体的细胞组的方法，

111.项目109或110的方法，其中所述方法还包括表达和任选地收集与野生型目的蛋白质相比具有不同的或修饰的生物活性的所述目的蛋白质。

112.项目107-111中任一项的方法，其中所述选择和/或富集目的蛋白质的突变变体包括FACS细胞分选，磁激活细胞分选，微流体细胞分选和/或基于珠子的细胞分离，所述目的蛋白质的突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性。

113.项目107-112中任一项的方法，其中所述目的蛋白质是荧光蛋白，并且所述第一活性和/或所述新活性是荧光。

114.项目107-112中任一项的方法，其中所述目的蛋白质是抗体，并且所述第一活性和/或所述新活性是抗原结合。

115.项目107-112中任一项的方法，其中所述目的蛋白质是酶，并且所述第一活性和/或所述新活性是所述酶的酶活性。

116.通过项目1至115中任一项的方法获得的细胞库。

117.项目116的细胞库的用途，用于鉴定与野生型目的蛋白质相比具有不同的或修饰的生物活性的目的蛋白质的突变变体。

118.项目117的用途，其中将所鉴定的目的蛋白质的突变变体应用于白色生物技术。

119.项目1至115中任一项的方法，项目116的细胞库，或项目117或118的用途，其中所述目的蛋白质是选自生长因子，细胞因子，肽激素，转录因子，RNA结合蛋白，细胞骨架蛋白，离子通道，G蛋白偶联受体，激酶，磷酸酶，分子伴侣，转运蛋白和跨膜蛋白中的任一种蛋白。

在此，引用了许多文献，包括专利申请和科学出版物。这些文献的公开内容虽然不被认为与本发明的可专利性相关，但在此通过引用整体并入。

附图示出：

图1：用于本发明的蛋白质库产生的方法的示例性但非限制性实施方案的方案。用于目的基因的表达盒，在这种情况下是编码荧光蛋白mNeonGreen的基因，以单拷贝数稳定地转化到合适细胞系的基因组中。插入工程化细胞系基因组内的独特FRT位点是合适的手段。在待被靶向用于诱变的位点附近的mNeonGreen中引入了移码。移码防止mNeonGreen和融合到mNeonGreen的3'末端的另一种选择标记蛋白(在这种情况下是荧光蛋白mKate2)的表达。Cas9/sgRNA的转染首先在与移码相邻的基因组整合的靶基因mNeonGreen中产生靶向切割。共转化的ssDNA库(Oligo Library)包含与mNeonGreen的切割位点相邻的同源区域，并且能够进行同源定向修复。整合到mNeonGreen基因后，修复移码并在靶位点插入的所需随机性的多样化文库。

图2：质粒和克隆方案。将mNeonGreen的基因插入到细菌表达质粒pSLICE3(来自pRSETB)中，并使用靠近mNeonGreen内的靶位点的PCR技术引入移码。将mKate2融合在移码的mNeonGreen的下游作为第二标记基因，并将该盒插入哺乳动物表达质粒pcDNA5FRT中。将pcDNA5FRT-mNeonFrameshift-mKate2转染到在基因组中具有单个FRT位点的合适细胞系(例如HEK 293细胞)中。mNeonFrameshift-mKate2的表达盒以单拷贝数整合到独特的FRT位点。选择稳定表达盒的细胞。将编码Cas9的表达质粒和合适的导向RNA(sgRNA)转染到细胞中。通过Cas9切割时，具有相应同源臂的共转染的寡核苷酸库使得能够进行同源定向修复，从而校正mNeonGreen内的移码并将所需的随机化的一段多样化序列插入基因内的选定靶位点。

图3：在4轮的筛选过程中来自a)3个残基(mNeonGreen的残基148-150)库和b)来自5个残基(mNeonGreen的残基145-149)库的活细胞的亮度直方图。初始分选(用虚线填充)展示非常低的中值荧光。后续轮次的FACS分选(灰色空心圆圈到闭合的黑色圆圈)展示出明显的亮度改善，因为从群体中消除了低荧光mNeonGreen变体。(FITC A：绿色发射荧光通道)。

图4：在最后一轮FACS分选3残基和5残基库后的活细胞以及用于比较的亲本mNeonGreen表达细胞群的亮度直方图。

图5：表达mNeonGreen的稳定转化的HEK 293细胞(a)，3残基库的成员(b)和5残基库的成员(c)的荧光显微图像。发射为530/20nm。所有荧光均匀分布在细胞的细胞质和细胞核中，没有任何聚集迹象。

图6：初始轮的FACS分选后多样化mNeonGreen变体的氨基酸序列。使用该技术已经使一段3个氨基酸(残基147-149)的序列多样化。该图显示了10种选择的变体的DNA序列(左)和翻译的蛋白质序列(右)。氨基酸的多样化序列在连字符之间。mNeonGreen中靶位点的亲本氨基序列是DWC。

图7：mNeonGreen2的表征。图显示了从大肠杆菌中纯化的重组mNeonGreen2的激发和发射光谱。变体的量子产率确定为0.8。消光系数为124.000M^-1cm^-1，高于亲本mNeonGreen(116.000)。因此，在如由量子产率和消光系数的乘积确定的总体亮度中，mNeonGreen 2比亲本mNeonGreen亮高达10％。

图8：mNeonGreen中的靶标选择。显示了mNeonGreen的结构(顶部)和一级氨基酸序列(底部)。选择用于多样化的5个区域在结构中标记为黑色，并且在氨基酸序列中编号和加下划线。阻断二聚体和四聚体形成的残基在氨基酸序列中用灰色阴影标记。这些残基保持不变，而周围的残基则多样化。在每个位点，鉴定了用于Cas9靶向的附近的NGG PAM位点，并且设计引物以借助质粒pSpCas9(BB)-2A-Puro产生合适的sgRNA。

图9：用于在如图7所示的mNeonGreen内产生靶位点的sgRNA的引物列表。

图10：关于如何执行本发明的一般化方案。

图11：突变和筛选程序的另一种备选构建体设计。标记蛋白N-乙酰转移酶嘌呤霉素抗性蛋白经由P2A肽与荧光蛋白mRuby2的C-末端融合。当修复在mRuby2内的靶位点附近引入的移码时，产生嘌呤霉素抗性并且可以使用药物选择收获和富集多样化的mRuby2库。用嘌呤霉素处理用Cas9/sgRNA转染的细胞连续两天，以消除那些不能正确表达靶荧光蛋白库的细胞。

图12：在使用嘌呤霉素选择两天后，插入mRuby2的生色团区域(使mRuby2的氨基酸残基67-69多样化)的3残基氨基酸库的下一代测序结果。X轴表示观察到的突变类型的百分比(0-100％)。总库大小为7292个序列。框内计数所有观察到的相对于野生型mRuby2基因在框内的突变序列(6639序列)。框内，无停止等于框内序列和没有早期终止密码子(6537序列)。框内，无停止，正确长度表示框内的所有序列，没有早期终止密码子，并且与野生型mRuby2基因长度相同(3077)。达到文库要求表示展示插入框中的正确库的序列数(2550)。不在框内表示相对于野生型mRuby2基因不在框内的序列(653)。框内，有停止表示相对于野生型mRuby2基因具有早期终止密码子的突变序列的数目(102)。嘌呤霉素处理的效果通过库中“不在框内和框内有停止”序列的低丰度来证明。

图13：通过下一代测序验证的翻译的多样化库蛋白的长度分布。只考虑了独特的序列。轴表示观察到的多样化mRuby2蛋白的长度分布及其相对丰度。亲本mRuby2蛋白长度为236个氨基酸。可以看出存在INDEL(插入-缺失)事件，最可能是通过导致蛋白质变体的非同源末端连接，其中诱变也改变多样化氨基酸序列的长度，从而额外增加库的多样性。

图14：mRuby2的生色团区域(氨基酸67-69)中多样化的3-氨基酸残基序列内每个位置的核苷酸频率的下一代测序分析。供体单链寡核苷酸掺入了带有预先设想的合成类型NNB的三个密码子的库(其中N是任何核苷酸，B是除A(腺嘌呤)之外的任何核苷酸)。这种设计消除了TAA和TGA终止密码子的产生。除了不利于终止密码子的这种预先程序化的偏向，核苷酸在突变位置上几乎相等地分布，因此随机分布，这表明所提出的方法产生具有设计偏向的高度异质和复杂的文库。

图15：mRuby2在氨基酸残基43-47处的靶向诱变。a)mRuby2的结构。β片层上的黑色序列段表示使用Cas9多样化的区域。它是对应于残基43-47的5-氨基酸区域。亲本mRuby2中该修饰区域的原始一级序列是Q43，T44，M45，R46和I47。b)用于诱变的mRuby2的表达盒的基本结构。对于该系列实验，除了选择标记嘌呤霉素R之外，荧光蛋白TagBFP2与mRuby2融合。使用第二荧光团允许以另外的波长进行FACs分选。

图16：荧光直方图，显示Cas9编辑和连续轮次FACS分选后mRuby2亮度的演变。mRuby2在氨基酸43至47的区域内多样化。垂直虚线表示FACS轮次的截止门。a)对照指示在编辑之前表达移码的mRuby2载体的细胞。b)Cas9编辑开始后72h的细胞群的荧光直方图。选择始于1亿个细胞群。在任意截断线上方出现红色的细胞被分选，增殖，扩增并用于新一轮的FACS分选。c)第二轮FACS分选。使用1％截断值来选择亮细胞。d)第三轮分选。选择比mRuby2-对照群体更亮的细胞群。e)第三轮选择和扩增后细胞群的直方图。f)表达亲本mRuby2的对照群体的直方图。

图17：荧光点图表示，显示在Cas9编辑和连续三轮FACS分选后，参照融合标记蛋白“mTagBFP2”，mRuby2荧光强度的演变。a-f)类似于图16。

图18：第一轮FACS分选后7种荧光重组蛋白的发射荧光图。为每种蛋白质在右侧指出多样化区域的氨基酸序列。在分选荧光后，从细胞中分离mRNA，逆转录并将cDNA克隆到细菌表达载体pRSETB中。在细菌中表达后，使用本领域的标准程序提取荧光蛋白，并使用荧光光谱仪分析重组蛋白。融合标签-BFP2用作归一化蛋白质水平的标准。数据表明，形成这些细胞系的蛋白质变体可以方便地提取并转移到其他系统进行分析。线上的数字表示发射峰值波长(nm)。右上方的序列QTMRI表示亲本mRuby2序列。

图19：如图18所示的7种不同mRuby2变体的DNA和蛋白质序列。深灰色阴影突出了变体多样化区域的DNA序列。浅灰色阴影突出显示由修复模板引入的沉默突变修饰的密码子，以消除sgRNA的重复结合和多次重切。AAA表示未改变的亲本序列。这表明在这种情况下的多样化是非同源末端连接(NHEJ)的结果，而AAG是通过基于同源模板的修复引入的。因此，NHEJ可以显著促进蛋白质的多样化。右图显示了变体多样化区域的相应氨基酸序列。mRuby2表示亲本序列。mRuby2DNA序列中的两个小写“aa”表示已经缺失以实现亲本mRuby2蛋白失活的移码的两个核苷酸。随后均通过同源定向修复和偶尔通过NHEJ在Cas9编辑后恢复的变体和阅读框进行修复。

图20：用于说明图21中呈现的结果的实验程序的方案。目的是确定同源定向修复的总体速率并评估是否任何药理学处理可影响该速率。a)mRuby2 DNA的靶向Cas9编辑方案。在这种特殊情况下，将带有修复模板的移码引入到亲本mRuby2中。导向RNA和修复模板(SSODN HDR模板)共同递送并产生移码的mRuby2。HA-L：同源臂左；HA-R：同源右臂和ssODN：单链寡核苷酸。带点的黑条表示移码区域。b)HDR诱导策略的下一代测序分析概述，计划为四个连续步骤。将其中mRuby2失活的约200万个细胞分选，得到暗细胞(1)。分离该群体中mRNA形式，逆转录并进行下一代测序(2)。通过深度测序获得围绕移码位点的200万个序列(3)。最后，对序列进行比对，去除重复并分析剩余的600.000个结果。UMI：独特的分子标识，15个随机核苷酸的序列段。GSP：基因特异性引物。线图案代表UMI变体。测序区域为250bp。

图21：8种不同药理学干预对通过下一代测序分析的mRuby2的同源定向修复(HDR)的影响。实验细节在图20中示出。同源定向修复的比率在X轴上指示。在Cas9编辑的72h期间将对药物化合物的处理应用于细胞。在所有情况下，应用相同的sgRNA和相同的修复模板(除了仅SG外)。NU7441：用NU7441处理；SCR7：用SCR7处理；SG+SS：对照实验，应用sgRNA和HDR模板，无额外的药理学处理；BFA：用布雷菲德菌素A处理；NOCOD：用诺考达唑处理；RS-1：用RS-1处理；NOCOD+RAD51：同时用诺考达唑和RAD51 mRNA处理；RAD51：用RAD51 mRNA处理。仅SG：仅引导sgRNA，但未应用同源性模板。

通过参考以下非限制性实施例进一步描述和/或说明本发明。

实施例1：mNeonGreen的蛋白质多样化和靶向诱变

蛋白质库生成的示意性概述

所进行的实验的基本设置在图1和图2中示意性地描绘。具体地，在第一步中，产生包含在CMV启动子控制下的mNeonGreen基因的单拷贝的载体(称为pcDNA5-FRT-NGFS)。通过克隆引入该载体中的单个mNeonGreen基因拷贝包含mNeonGreen基因中的失活移码突变，其阻止来自所述载体的mNeonGreen蛋白的表达。在将基因克隆到载体中之前，通过定点诱变将移码突变引入基因。具体地，通过在预定位置缺失4个碱基对，在特定靶位点引入移码突变，以产生如SEQ ID NO:26所示的mNeonGreen核苷酸序列的移码形式。这种预定义位置位于被选择作为用于利用下面进一步描述的步骤引入不同突变的靶位点的位点。

在下一步中，产生稳定的细胞系，其中将pcDNA5-FRT-NGFS载体的单拷贝整合到细胞的基因组中。具体地，这通过使用Flp-In重组进入Flp-In-293细胞系(Thermofisher)来实现。因此，产生了包含在CMV启动子控制下的单拷贝失活的mNeonGreen变体(称为NGFS)的稳定细胞系。

随后将生成的细胞系用于产生表达mNeonGreen的不同突变变体的一组细胞(换句话说，细胞库)。通过基于重组的方法产生突变变体，其中首先在细胞基因组中引入双链断裂(DSB)，其位置与NGFS基因单拷贝内的失活移码突变非常接近。特别地，在这种情况下，在缺失位点上游1bp处引入切口。在该实施例中，CRISPR/Cas9系统用于引入位点特异性DSB。为此，用编码Cas9核酸酶的载体(即SpCas9)转化稳定的细胞系。相同的载体还编码将Cas9核酸酶靶向至引入DSB的位点的sgRNA。与编码Cas9核酸酶和sgRNA的载体一起，还将寡核苷酸库共转化到细胞系中。该库的寡核苷酸具有允许它们作为供体核酸模板的序列，用于经由同源重组修复引入的DSB。为了用作用于同源重组的供体核酸模板，寡核苷酸包含与DSB侧翼区域同源的序列。此外，寡核苷酸包含3或5个氨基酸的突变密码子。寡核苷酸库包含在相应的3个(mNeonGreen的残基147-149)或5个氨基酸(mNeonGreen的残基146-150)靶位点具有不同突变的不同寡核苷酸，其允许基本上覆盖所有可能的密码子。类似地，寡核苷酸不具有引入移码的失活突变。因此，寡核苷酸被配置为通过同源重组去除移码突变。

结果和讨论

被采用以产生表达目的蛋白质的突变变体的细胞的方法的基本概念(即用于产生表达蛋白质的不同突变变体的细胞库)总结在图1和图2中。具体地，Flp重组酶系统用于将蛋白质编码基因的单拷贝插入哺乳动物细胞系。在本实施例的背景下，改造了荧光蛋白mNeonGreen(Shaner，2013，Nature methods 10.5：407-409)。为了将库成员与亲本mNeonGreen区分开，将移码形式的失活突变插入到mNeonGreen的阅读框中，这阻止了靶蛋白和潜在C末端融合蛋白的正确表达。设计Cas9/sgRNA系统以在移码位点附近特异地切割。特别地，在缺失位点上游1bp处引入切口。为了修复双链断裂，将两端具有适当同源臂的寡核苷酸(即供体核酸模板)共转染到细胞中并充当修复模板。除了同源序列之外，这些修复模板还包含多样化的DNA序列的片段，这些片段将被框内融合到mNeonGreen内的靶位点(即用于诱变的靶位点)中。在合成修复模板时，预先设计了多样化的程度和DNA和蛋白质的多样化片段的长度。随后在双链断裂位点重组修复模板导致插入所需的多样化，并且还修复mNeonGreen中的移码，恢复表达。因此，仍然有荧光的细胞随后含有正确折叠和功能的多样化基因变体。

详细地，用靶向Cas9/sgRNA载体以及具有三种多样化氨基酸的修复模板库或具有五种多样化氨基酸的修复模板库转化含有mNeonGreen的移码/缺失的HEK293细胞。这些修复模板导致将三种或五种多样化氨基酸引入mNeonGreen基因的选定位点。该库由核苷酸NNB编码，其中N代表四种核苷酸中的任何一种，而B编码除A外的任何核苷酸。这用于降低引入终止密码子(TAA，TGA)的可能性。然而，原则上可以掺入对核苷酸的任何偏好或偏向。作为3个氨基酸库的靶标，最初在mNeonGreen内选择氨基酸序列NSLTAAD*WCRSK(SEQ ID NO:30)。星号表示在编码天冬氨酸147的密码子后立即双链断裂的位点。带下划线的氨基酸说明残基被3残基库取代。在多样化库的侧翼，这些寡核苷酸修复模板分别在Cas9切割位点处编码mNeonGreen的每一侧的48或45个碱基对的同源性。最后，修复模板中的这个可变结构域编码缺失的碱基对以恢复正确的阅读框，并正确表达剩余的C-末端结构域。转染后，用荧光显微镜进行的每日检查显示转染后48小时的细胞中绿色荧光的开始，表达荧光mNeonGreen变体的细胞的亮度和细胞数量进一步增加，在转染后96小时达到最大值。这种延迟是由于第一次Cas9所需的顺序表达，然后是特异性基因组DNA切割，然后是同源修复，然后是CMV启动子驱动的mNeonGreen变体的表达。对照反应，使用刚将移码修复回亲本mNeonGreen的模板，显示效率为5％，荧光细胞的百分比经由细胞计数检测。

在此阶段，细胞为了亮度经历FACS。FITC通道用于FACSAria III分选仪(BD)，其适合mNeonGreen孔的光谱分布。收集显示该信号的所有细胞，包括基线以上的细胞，以便最大化库大小用于后续测序。使分选的细胞生长3轮进一步筛选，每轮中保持前5％的细胞并生长。如图3所示，来自多样化变体的细胞的初始选择显示出荧光强度的广泛分布，具有非常低的平均强度。这种低水平的平均荧光是由于对荧光蛋白结构产生不利影响的大量变体。

为了验证多样化残基在期望位点的正确插入，在第一轮FACS分选后收集细胞用于基因组DNA提取。通过PCR提取多样化的mNeonGreen基因并克隆到大肠杆菌表达载体中。转化后，挑选随机选择的细菌菌落，并对变体测序。许多克隆的测序结果在图6中显示。变体已在感兴趣的靶位点多样化。此外，在检查多样性序列时没有观察到密码子偏向。

每次又一轮的分选增加了库群体的平均荧光，因为消除了暗淡变体(即显示低水平荧光强度的变体)。图4显示了最后第三轮分选后的结果，并包括与亲本mNeonGreen的比较。两个库群体的平均亮度表明分选的多样化变体的荧光高于亲本mNeonGreen。

在最后一轮FACS分选中获得的细胞图像在图5中显示。细胞具有均匀荧光，没有指示聚集成细胞器的聚集。在最后一轮FACs分选之后，通过RT-PCR提取编码mNeonGreen较亮变体的基因，转录成cDNA并克隆到细菌表达载体中。对一种这样的mNeonGreen变体，暂命名为mNeonGreen2(SEQ ID NOs：91和92)，进行了纯化和更详细的表征(图7)。

图8显示了使用这种方法进行多样化的mNeonGreen中的其他靶位点的概述。预计这些靶位点的多样化可以导致mNeonGreen的更加明亮的变体。最后，使用本申请中提供的方案，所有这些多样化的位点可以组合以获得mNeonGreen的超亮变体。

图9显示了用于将Cas9靶向如图8所示的mNeonGreen内其他位点的sgRNA的序列。

材料和方法

包含具有失活突变的mNeonGreen的mNeonGreen底物质粒的构建

质粒pSLiCE3-NeonGreen(Shaner，2013，Nature methods 10.5：407-409)中mNeonGreen的编码区(Allele Biotechnology；核酸序列参见SEQ ID NO:27；氨基酸序列参见SEQ ID NO:28)是用引物5'-TCGCTGACCGCTGCGGACGCAGGTCGAAGAAGACTTACC-3'-正向(SEQID NO:13)和5'-GTCCGCAGCGGTCAGCGAGTTGGTC-3'-反向(SEQ ID NO:14)进行定点诱变，以缺失4-碱基对。特别是，mNeonGreen的核苷酸序列的位置442-445已被缺失。缺失位于切割位点下游1bp和所选PAM位点上游3bp。所选择的PAM位点位于mNeonGreen核苷酸序列的位置448-450。或者，换句话说，碱基对442，443，444和445被缺失，位置446和447保留(2bp)，并且所选择的PAM位点位于位置448，449和450。这导致去除一个氨基酸和引入了一个移码，导致称之为NGFS的非荧光蛋白。mNeonGreen的突变编码区的核酸序列显示在SEQ ID NO:29中。

在诱变PCR后，随后用以下引物扩增NGFS的编码结构域：

5'-TCGCTGACCGCTGCGGACGCAGGTCGAAGAAGACTTACC-3'(正向引物，SEQ ID NO:15)；和

5'-CGGCCGCCACTGTGCTGGATCTATTATCACTTGTACAGCTC GTCCATGC-3'(反向引物，SEQID NO:16)。

上述引物包括与pcDNA5-FRT载体(Thermofisher)的重叠，并且使用SLiCE克隆(Methods Mol Biol.2014；1116：235-244)将PCR产生的编码结构域片段连接到AflII-Not1切割的pcDNA5-FRT(Thermofisher)载体中，产生构建体pcDNA5-FRT-NGFS。通过DNA测序验证该构建体的序列。

sgRNA/Cas9质粒的构建

用限制酶BbsI(NEB)双切割质粒pSpCas9(BB)-2A-Puro(Ran，2013，Nat Protoc.8(11)：2281-2308)，凝胶纯化(NucleoSpin Gel和PCR Clean-up，Macherey-Nagel)，并与预退火的引物5'-CACCGCGCTGACCGCTGCGGACGC-3'(正向，SEQ ID NO:17)和5'-AAACGCGTCCGCAGCGGTCAGCGC-3'(反向，SEQ ID NO:18)连接以产生编码sgRNA序列的核酸序列，该sgRNA序列靶向4-碱基对缺失上游的NGFS序列。特别地，4-bp缺失在NGFS的20bp识别序列内。将sgRNA编码序列以从U6启动子表达的方式引入质粒pSpCas9(BB)-2A-Puro中。最终的构建体，称为pSpCas9(BB)-2A-Puro-NGFS，经由测序确认。pSpCas9(BB)-2A-Puro-NGFS可用于表达Cas9核酸酶和相应的sgRNA，用于将Cas9核酸酶靶向NGFS基因序列中4-碱基对缺失上游的限定位点。

供体核酸模板库的构建/设计

105个碱基对的合成ssDNA的修复模板(即供体核酸模板)称为NSFS-R(参见SEQ IDNO:30)，其由NGFS缺失一侧的50bp同源性组成，并且还包含在NGFS序列中缺失的4bp，用于测试Cas9系统的效率。还产生了两个供体核酸模板库，其再次由50bp同源侧翼和简并NNB密码子组成，以替换缺失的氨基酸和移码，并随机化该缺失侧翼的1或2个氨基酸。这些库被称为NGFS-3M和NGFS-5M，指每个库中随机化氨基酸的数量。

所有克隆步骤在LB平板和补充有氨苄青霉素的LB培养基上并在37℃下生长的大肠杆菌XL1-Blue(Agilent)中进行。

稳定的细胞系生成

将Flp-In-293细胞系(Thermofisher)在补充有10％FBS，100U/mL青霉素，100μg/mL链霉素和2.5mM L-谷氨酰胺的DMEM中生长，并使用Lipofectamine 3000，遵循标准方案用pcDNA5-FRT-NGFS和包含编码Flp-重组酶(Thermofisher)的基因的pOGG44质粒共转化。将细胞以100μM进行潮霉素选择，直至产生等基因菌落，将其合并并用标准方案维持。结果是包含单拷贝的NGFS基因的稳定细胞系。值得注意的是，通过确保在Flp-In-293细胞系中预定义的靶位点整合(通过Flp催化重组)单个pcDNA5-FRT-NGFS载体，使用的Flp-In策略确保仅将单个拷贝的NGFS基因整合到基因组中。Flp-In重组的基本原理在本领域中是已知的，并且例如在https://www.thermofisher.com/de/de/home/references/Protocols/proteins-ex pression-isolation-and-analysis/protein-expression-Protocol/flp-in-system-f or-generating-constitutive-expression-cell-lines.html中描述。

HEK293Cas9表达，供体修复模板库提供和FACS分选

细胞在10cm平板上生长至80％汇合，然后用供体核酸模板库NGSF-3M、NGFS-5M和NGFS-R中的每一个和pSpCas9(BB)-2A-Puro-NGFS共转化。经由荧光显微镜(Axiovert135TV，Zeiss)检查细胞，并且在96小时后，观察到最大荧光，并且制备细胞用于FACS细胞分选(FACSAria III，BD Biosciences)。在FITC通道上显示荧光的所有细胞都被分选和扩增。

在第一轮中，使NSFS-3M和NGFS-5M分选的细胞生长直至在10cm平板上达到汇合，此时使用DNeasy Blood&Tissue Kit(Qiagen)取出5百万个细胞用于基因组DNA提取。使剩余的细胞生长用于随后轮的FACS，选择亮度前5％的细胞并在每轮中扩增。在最后一轮之后，从最佳表现的变体，即具有最高荧光的变体分离基因组DNA。

DNA分析和确定目标基因的突变和蛋白表达及分析。

使用引物5'-ATAAGGATCCGGCCACCATGGTGAGCAAGGGCGAGGAGGAT-3'正向(SEQ IDNO:38)和5'-TATAGGAATTCCTATTATCACTTGTACAGCTCGTCCATGCCC-3'反向(SEQ ID NO:39)(其包括与EcoRV切割载体pSLiCE3的重叠)，将在上述步骤中分离的基因组DNA用作模板以提取修复的mNeonGreen的编码结构域。SLiCE克隆随后热休克转化大肠杆菌XL1-Blue导致荧光菌落的产生。在首轮NGFS-3M和NGFS-5M分选的情况下，观察到荧光强度的广泛变化，并挑选菌落用于质粒制备(NucleoSpin Plasmid，Macherey-Nagel)，用于测序和随后在大肠杆菌菌株BL-21(NEB)中表达。

简而言之，使用在LB+氨苄青霉素中在37℃振荡生长的4ml转化BL21的起始培养物接种200ml在室温下振荡生长48h的自诱导Studier培养基。收获细胞并用溶菌酶裂解，冻融循环和10μm超声处理，然后超速离心。在NI-NTA树脂(Jena Bioscience)上纯化10-His-标记的蛋白质，并用25mM咪唑洗涤，并用250mM咪唑洗脱。在3M盐酸胍(Guanadine HCl)中在95℃热变性5m后，经由Bradford测定法测定荧光蛋白浓度。使用480nm的激发，经由0.01至0.1吸光度单位的稀释光谱的积分荧光光谱测定量子产率，针对在0.1N NaCl(QE 0.95)中荧光素的发射校准。

实施例2：用于多样化和定向诱变的方法的可能变化

本发明的手段和方法允许靶蛋白内肽序列的复杂的饱和诱变。图10中提供了一般过程的方案。

该方法首先涉及产生目的基因(GOI)到培养细胞系中的稳定的单拷贝整合。单拷贝整合方法可以通过多种手段完成，包括标准抗生素选择，Flp-In和Jump-In重组，慢病毒转染和选择，或通过Cas9靶向切割和与同源结构域重组，例如在AAVS1基因座中。以下描述集中于用于产生稳定的单拷贝细胞系的Flp-In系统，但不限于此。

GOI接收到位于为了多样化而靶向的位置的移码突变。该位点也适合被靶向用于通过位点特异性核酸酶切割。GOI可以是荧光蛋白或非荧光蛋白。如果需要，由GOI编码的蛋白质产物可以与多种标记基因融合，例如另外的荧光报告基因或抗药性基因。如果融合，这些标记可以是直接融合，或通过可切割或自切割肽接头连接。由于GOI中的移码，标记最初将无法正确表达。移码可以在经由定点诱变克隆GOI期间产生，或者可以经由如下所述的核酸酶方法直接在含有GOI标记融合的细胞系中产生。

为了在目的基因中引入靶向双链断裂，优选使用CRISPR/Cas9作为核酸酶，因为它非常有效且可编程以靶向基因内的许多可能位置。然而，诱导单链切口或优选双链断裂的其他酶和手段，例如锌指核酸酶(ZNF)或转录激活因子样效应核酸酶(TALEN)也是适用的。如果不存在于目的基因内的正确位点，则可以将用于CRISPR(PAM位点)切割的靶位点或用于TALEN或锌指核酸酶的靶位点与移码一起工程化到目的基因中。切割和修复时，将从多样化基因中移除此类位点。

可以通过几种方法实现切割/修复方案的效率的提高。可以优化将sgRNA和Cas9或其他核酸酶递送到细胞中的转染方案和方法。此外，通过抑制非同源末端连接(NHEJ)，经由诸如共表达E1B55K和E4orf6，或使用抑制剂Scr7抑制KU70和DNA连接酶IV的方法，可以提高同源重组修复的效率。

在靶向切割GOI中的基因组DNA后，使用单链DNA作为模板(即作为供体核酸模板)用于经由同源重组的修复。寡核苷酸含有多样化所需的简并密码子和移码校正碱基配对。多样化的序列侧翼为与切割位点侧翼的区域同源的长度为30至80个碱基对的区域。多样化的序列可包括特定氨基酸以及简并密码子，包括NNN，NNK/NNS，NNB或用于表达所有可能的氨基酸的MAX系统。简并密码子可以与来自原始肽序列的氨基酸交错，所述氨基酸可能被认为是关键的并且不应该是多样化的。简并或特异性密码子的数量也可以变化，缩短或增加最终蛋白质长度。

多样化后，经过正确处理的细胞将产生融合的标记基因。该基因将以与GOI在相同的水平表达，并且当使用荧光蛋白时，它可以用作蛋白质浓度的估计值。因此，对于利用GOI的结合测定，可以将结合校准至表达水平。表达荧光标记基因的细胞可以用FACS或微流体分选快速收集，这是比抗生素选择更快速的方法。

如果融合标记是阳性或阴性抗性基因，则存在几种可能性以获得仅由多样化变体组成的细胞群。如果经由多个可切割的肽接头如T2A或F2A一起使用阳性和阴性标记，则可以通过上述方法将原始GOI转化为移码变体，并且可以使用阴性选择以利用单纯疱疹病毒1型胸苷激酶等基因来消除非框架-移码变体，并针对更昔洛韦选择。一旦这些细胞是同基因的，并通过上述方法进行多样化，可以用阳性选择基因如潮霉素磷酸转移酶和潮霉素B去除不需要的剩余移码变体。然而，也可使用其他选择标记。

本文提供的生产方法的应用示例性地说明了编码mNeonGreen的基因的多样化，mNeonGreen是迄今为止最亮的已知单体荧光蛋白。通过使用本文提供的方法，可以使各种蛋白质如mNeonGreen多样化，并经由FACS分选更亮的变体。单体mNeonGreen已经从四聚体荧光蛋白LanYFP工程化。红色荧光标记基因mKate2可以融合到mNeonGreen的C末端。因为在移码校正后它总是会发荧光，它可以用来成功地收集mNeonGreen的多样化变体，即使它们是昏暗的或非荧光的。mKate2也可用于在分选期间校正不同的蛋白质表达水平。示例性实验方法的概述如图10所示。

基于预测的晶体结构和针对mNeonGreen进展发表的研究，五个区域可能成为复杂饱和诱变的靶标。图8中示出了mNeonGreen内靶标选择的实例。图9中显示了可用于产生sgRNA至mNeonGreen内靶位点的引物列表。通过使用本文提供的方法，可以实现例如在每个基因座上，5个氨基酸经历饱和诱变，每个基因座可能有320万个组合变体。另外，可以以这样的方式进行本文提供的方法：在某些位点，待分化的序列内的某些残基保持不变。例如，那些残基可以保持不变，其先前已被引入以阻断二聚体和四聚体形成以产生单体mNeonGreen。保持它们不变不会阻止二聚体界面的重新形成。本文提供的方法的这种示例性应用证明了本发明能够实现的诱变的非凡灵活性。

在对所有发红色荧光变体进行初步分选后，表明成功重组，mNeoGen测序可用于经由对多样化区域进行测序，例如，使用Illumina MiSeq NextGen测序平台来准确报告多样化的范围。

每组变体可经历多轮筛选以选择表现最佳的荧光蛋白变体。最终的变体可以在DNA改组之前进行表征，以产生最终的组合变体组，以与野生型目的蛋白质(这里示例性地为祖先mNeonGreen)进行比较。

材料和方法

可用于使融合基因，例如包含mNeonGreen和mKate2的融合基因多样化的材料和方法如下所示。

寡核苷酸退火并克隆到骨架载体：

1.用BbsI在37℃消化1ug pSpCas9(BB)-2A-Puro 30min：

2.凝胶纯化经消化的质粒。

3.磷酸化和退火每对寡核苷酸：

使用以下参数在热循环仪中退火：

37℃ 30min

95℃ 5min，然后以5℃/min降至25℃4.建立连接反应并在室温下温育10min：

5.将质粒转化为XL1-Blue

6.用测序检查克隆，用Midiprep扩增载体

用于PCR诱变的移码引物

PCR诱变

1. PCR pSlice3-NeonGreen

95C/30s变性，60C/30s退火，72C/3m延伸

2. Dpn1消化

在50uL PCR反应混合物中2.5uL

37℃ 60min

3.分析凝胶+PCR纯化

FRT载体生成

1. PCR NeonGreen-Frameshift

95C/30s变性，60C/30s退火，72C/30s延伸

2. PCR mKate2

95C/30s变性，60C/30s退火，72C/30s延伸

3.在37℃下用AflII和NotI消化1ug pcDNA5FRT-APMA-ap-IRES-H2BGFP 3h：

4.凝胶纯化经消化的DNA。

5. SLiCE在37℃下将DNA片段连接30min：

6.转化

7.通过测序检查克隆

稳定的细胞系生成

1.将3x 30mm的Flx-In-293细胞的平板生长至80％汇合

2.用Lipofectamine 3000将10：1pOG44转化到pcDNA5-FRT-NGFS质粒

3.在没有抗生素的情况下在30℃下生长过夜

4选择含有30、60和120μg/ml的潮霉素，直至形成菌落。

库生成

1.将4x10cm的每种mNeonGreen-mKate2变体的平板生长至80％汇合

2.用Lipofectamine 3000用pSpCas9(BB)-2A-Puro-NGFS1-5质粒转化

使用100pM/ul模板稀释1000倍至培养基的最终体积(100nM)

3.在FACS之前生长96小时

FACS第1轮

1.用胰蛋白酶处理细胞

2.以2百万细胞/ml重悬

3.为每个细胞系记录100万个事件，包括NeonGreen-mKate2对照系

4.根据如从mNeonGreen-mKate2对照系确定的，分选所有显示mKate2荧光的细胞。

用于mKate2的PE-TexasRed或PE-Cy5，使用具有最佳信号的那个

每15ml falcon 2ml培养基，每个构建体带4个管。

每400k细胞更换一次收集管

5.每个构建体预计大约160万个细胞。(效率为5％)

6.在2x10cm平板中生长直至汇合。

7.对于每个库变体，胰蛋白酶处理细胞，合并，洗涤并取500万个细胞用DNeasy试剂盒进行基因组提取。将DNA保存在-80℃。

8.在2×10cm平板上培养剩余的细胞用于FACS

FACS第2轮和后续轮次

1.用胰蛋白酶处理细胞

2.以2百万细胞/ml重悬

3.为每个细胞系记录100万个事件，包括mNeonGreen-mKate2对照系

4.对FITC通道上的所有细胞进行分选

通过前向散射绘制FITC

按亮度取前10％的细胞，校准尺寸

每15ml falcon 2ml培养基，每个细胞系带4管。

每400k细胞更换一次收集管

5.每个构建体预计大约160万个细胞。

6.在2x10cm平板中生长直至汇合

实施例3：荧光蛋白mRuby2的原位定向诱变和随后的变体的深度测序分析

在该实施例3中，Flp-重组酶系统用于将单拷贝的蛋白质编码基因插入哺乳动物细胞系中。在本实施例的上下文中，设计了经由P2A肽(SEQ ID NO:2)与嘌呤霉素抗性基因(嘌呤霉素R)(SEQ ID NO:32)在其C末端融合的荧光蛋白mRuby2(Lam，2012，Naturemethods 9.10：1005-1012)(SEQ ID NO:31)。为了将库成员与亲本mRuby2区分开，将移码形式的失活突变插入mRuby2的阅读框中，其阻止靶蛋白和C-末端融合蛋白嘌呤霉素R的正确表达。突变体库生成过程包括两个相邻的步骤。简而言之，在第一步中，首先用体外转录的移码ssODN转染Cas9/mRuby2-P2A-puroR双稳定细胞，所述移码ssODN由于生色团区域内的2-核苷酸缺失而导致特定的移码。随后，经由FACS选择移码的暗细胞。在接下来的第二步中，表达移码的mRuby2-P2A-puroR盒的暗细胞用随机化另一种体外转录的sgRNA转染，其与移码的mRuby2一起与ssODN结合，导致mRuby2突变体库的产生。C末端末端融合的嘌呤霉素抗性基因能够正确选择和富集适当表达mRuby2库的细胞并消除移码的亲代细胞。嘌呤霉素抗生素治疗在第二步结束时进行。实验细节显示在方法部分。

图11中描绘了待多样化的荧光蛋白的构建体设计的示意图。

除作为C末端标记的嘌呤霉素抗性基因外，第二mRuby2构建体还掺入蓝色荧光蛋白TagBFP2(SEQ ID NO:94)。这允许使用额外的蓝色激光线进行FACS分选。该构建体在图15中示意性地示出。

结果和讨论

详细地，最初产生质粒载体(称为pcDNA5-FRT-mRuby2-P2A-嘌呤霉素R)，其包含单拷贝的标记蛋白，N-乙酰转移酶嘌呤霉素抗性蛋白，其与荧光蛋白mRuby2的C-末端的P2A肽融合并在CMV启动子的控制下表达。平行地，还产生了稳定表达与新霉素抗性基因融合的Cas9基因的HEK293细胞系。

在下一步中，使用Cas9稳定的细胞产生双稳定细胞系，其中将pcDNA5-FRT-mRuby2-P2A-嘌呤霉素R质粒载体的单拷贝整合到其基因组中。具体地，这通过使用Flp-In重组进入Flp-In-293细胞系(Thermofisher)来实现。最后，产生包含单拷贝的mRuby2-P2A-嘌呤霉素基因盒并表达Cas9-新霉素R基因的双稳定细胞系。

产生的双稳定细胞系用于2步诱变方案，其最终导致产生表达mRuby2的不同突变变体的一组细胞。库生成过程包括两个相邻的步骤。在第一步中，首先用ssODN转染mRuby2+/Cas9+双阳性细胞，所述ssODN经由mRuby2的生色团区域内的2-核苷酸缺失引入特定的移码。随后经由FACS选择mRuby2移码的因此是暗的细胞。在接下来的第二步中，用随机化ssODN转染表达移码的mRuby2-P2A-嘌呤霉素R蛋白的暗细胞，所述随机化ssODN修复移码并导致突变细胞库的产生。在第一步和第二步中，通过基于重组的方法产生突变体，在该实施例中，其是引入位点特异性双链断裂(DSB)的CRISPR/Cas9系统。

在第一步中，在细胞基因组中对应于Met-67密码子的最后一个核苷酸的位置引入DSB，其位置，Met-67密码子是mRuby2的生色团区域的一部分。该第一个DSB导致mRuby2-P2A-嘌呤霉素R盒的单拷贝内的移码突变。为此，为了使mRuby2蛋白失活，用特异性体外转录的sgRNA转染mRuby2/Cas9双稳定细胞系，同时将移码的ssODN供体模板共转染到细胞系中。寡核苷酸具有允许它们作为供体核酸模板的序列，用于经由同源定向修复修复引入的DSB。为了用作同源定向修复的供体核酸模板，寡核苷酸含有与DSB侧翼区域同源的序列。此外，寡核苷酸还含有移码序列，用于在mRuby2的生色团区域的紧邻上游进行2个核苷酸缺失。

在移码ssODN转染后两天，细胞经历FACS以收获表达mRuby2的移码变体的细胞。TexasRed通道用于FACSAria III分选仪(BD)，其符合mRuby2的光谱分布。收集显示接地零(ground-zero)信号的所有细胞作为移码的暗细胞，所述信号基于不表达mRuby2的HEK293细胞系的基础信号而被抵消。FACS分选数据显示，整个群体中暗细胞的百分比为40％，这实际上表明了突变效率。使分选的细胞再生长4天以应用诱变方案的第二步。在分选暗细胞后的第四天，将一半细胞冷冻为原种，另一半用于第二步。

在第二步中，将DSB引入细胞基因组中对应于mRuby2基因的生色团区域的紧邻上游的位置。经由共同递送的ssODN库进行的第二次DSB和以下同源定向修复导致了移码的校正以及突变体mRuby2细胞库的产生。为了用作同源定向修复的供体核酸模板，单链寡核苷酸(ssODN)包含与DSB侧翼区域同源的序列。此外，寡核苷酸含有多样化的密码子，代替包含mRuby2蛋白的生色团区域的氨基酸Met67-Try68-Gly69。对于寡核苷酸中的密码子多样化，使用合成方案NNB，其中N代表任何核苷酸，B代表除A(腺嘌呤)之外的任何核苷酸。当寡核苷酸结合反向链时，多样化的密码子由序列VNN编码，其中V代表除T(胸苷)之外的任何核苷酸(参见SEQ ID NO:33)。因此，当在相反链上读取时，产生的序列将是NNB。

ssODNs总共由109个核苷酸组成。在ssODNS的5'和3'位点上都有50个碱基的同源区，以及在其间的9个随机化的核苷酸(SEQ ID NO:34)。NNB密码子由第一和第二核苷酸位置(NN)中的四个核苷酸中的任何一个组成，并且排除第三个位置(B)中仅是A核苷酸。实验细节显示在方法部分。还配置寡核苷酸，以通过同源定向修复去除mRuby2内的移码突变。在用合适的sgRNA和修复寡核苷酸转染后24小时，通过每天用新鲜的嘌呤霉素补充培养基，将培养基更新并将2ug/μL嘌呤霉素施用于细胞连续3天。在施用的前两天，观察到显著的细胞死亡，并且在第3天，没有显著的细胞死亡，并且嘌呤霉素处理结束。嘌呤霉素处理导致框内突变体的阳性选择并消除亲本移码的细胞，以及具有不希望的早期终止密码子的细胞；最终这种抗生素处理能够富集含有所需库的细胞。

最后，整个库直接用于利用MiSeq Next Generation Sequencing System(Illumina)的深度测序。为了收集整个突变基因库，使用RNeasy Mini Kit(Qiagen)进行总RNA分离。收集总RNA后，通过使用基因特异性引物(SEQ ID NO:35)，将mRuby2序列逆转录成cDNA库，然后用Machery Nagel Gel&PCR cleanup kit纯化。然后通过10个PCR循环扩增这些cDNA库，以便为深度测序做好准备。仅PCR扩增mRuby2序列的感兴趣的小区域。扩增的序列段对应于野生型mRuby2DNA序列内核苷酸位置86-313之间的区域。使用正向和反向引物进行10-循环-PCR，两者均具有衔接子侧翼序列，其能够使库扩增子与Illumina MiSeq平台(SEQ ID NO:36和SEQ ID NO:37)的流量(flows)结合。

如图12所示，91％的序列在框内，这表明嘌呤霉素选择有效地工作并消除了大多数含有移码的mRuby2-P2A-嘌呤霉素R盒和/或早期终止密码子的细胞。另一方面，它还表明存在不能完全满足库要求的序列，因为它们引入了核苷酸和密码子的额外插入或缺失，可能是由于同源定向修复。然而，我们认为多样化靶序列长度中的这种额外变化是该方案的受欢迎的副作用，并且可用于检测有趣的表型。完全描绘由寡核苷酸引入的库长度的序列的百分比是35％。图13中显示的深度测序数据证明突变蛋白质之间存在长度分布，其范围为218至243个氨基酸。然而，观察到的优势蛋白长度是236，其实际上是野生型mRuby2蛋白的长度。这些数据表明，所提出的诱变系统能够在蛋白质长度方面产生具有显著准确度的蛋白质库。

mRuby2的生色团区域由三个密码子和九个核苷酸组成，已经用在5'和3'侧具有50个碱基同源臂的单链DNA寡核苷酸和在这些同源臂之间的三个连续的NNB密码子突变(其中N是任何核苷酸，B是除A(腺嘌呤)之外的任何核苷酸)。这种设计消除了TAA和TGA终止密码子的产生。在图14中，显示在任一密码子的第三个位置都没有观察到A核苷酸。除此之外，核苷酸在突变位置上几乎相等地分布，因此是随机分布，这表明所提出的方法产生具有预期预编程偏差的高度异质和复杂的库。

在第二个亲本构建体中，mRuby2与蓝色荧光蛋白TagBFP2和嘌呤霉素抗性基因融合(图15)。该构建体用于使氨基酸43-47多样化。基于晶体结构信息，残基Q43，T44，M45，R46，I47是生色团相互作用区域的一部分，因此作为多样化的靶标是感兴趣的。最初，将图15中所示的mRuby2-TagBFP2-嘌呤霉素编码表达盒作为单拷贝插入HEK293细胞的基因组中。这通过如上所述使用Flp-In重组进入Flp-In-293细胞系来实现。引入的单个mRuby2-TagBFP2-嘌呤霉素基因拷贝包含mRuby2基因中的失活移码突变，其阻止mRuby2蛋白从盒中表达。在将基因克隆到载体中之前，通过定点诱变将移码突变引入该基因。具体地，通过在预定位置缺失2个碱基对，在特定靶位点引入移码突变，以产生mRuby2核苷酸序列的移码形式。随后将生成的细胞系用于产生表达mRuby2的不同突变变体的细胞库。特别地，在这种情况下，在缺失位点下游6bp处引入切口。

产生突变体库和定向进化mRuby2蛋白的程序涉及两个相邻步骤。简而言之，在第一步中，Cas9/mRuby2-P2A-puroR双稳定细胞用体外转录的sgRNA以及ssODNs共转染，所述sgRNA与待修饰的DNA区域紧密结合，所述sgRNA导致感兴趣的区域多样化。这个ssODN长115个碱基。5'50碱基和3'50碱基是同源臂，并且在中间的15个碱基掺入带有5个NNB密码子的库。除了导致感兴趣区域的多样化之外，同源性模板还将先前引入的移码校正回与其同源臂处于框中。转染后72小时，用FACSAria III分选仪(BD)分选细胞，因此第二步开始(图16,17)。

第二步，新荧光变体的选择和富集，涉及4个连续的框内分选过程，但是经由FACS选择荧光细胞。如图16所示，应用3轮迭代FACS以逐渐选择和富集更亮的变体。在第一轮FACS中处理了大约1亿个细胞，结果在第1轮结束时收集了大约250k个荧光细胞。第1轮后，从收获的细胞中收集mRNA并逆转录成DNA，克隆到细菌表达载体pRSETB中并转化到大肠杆菌BL21中。使用Ni²⁺-亲和柱从大肠杆菌中纯化7种不同的mRuby2蛋白变体，并在荧光光谱仪上获得发射光谱(图18)。多样化变体的序列显示在图19中。如所预期的，所有变体具有残基43-47的多样化。从sgRNA结合区域内的沉默突变的引入或缺失判断，7种变体中的5种使用HDR进行多样化，而其他变体是NHEJ的结果(图19)。

然后通过另外两轮FACS进一步处理第1轮FACS分选后的细胞群(图16，17)，以增加具有更高荧光强度的细胞的产量。在每轮FACS期间，将收集的细胞在10cm平板中培养，直至平板完全汇合。当平板变得汇合时，通过另一个FACS期间进一步处理富集的细胞。

还有兴趣确定任何药理学治疗或其他条件是否会改变用于修复和多样化目的蛋白质的HDR与其他机制(如NHEJ)之间的比例(图20，21)。为了测试各种策略在诱导HDR途径上的有效性，我们评估了不同的处理方法。深度测序技术用于分析HDR活性。实验概述在图20中示意化。对于该实验，将移码的ssODN模板引入表达mRuby2的完整简单编码序列的细胞中，该序列如前所述在HEK293细胞中作为单拷贝插入。ssODN与sgRNA共同递送，sgRNA与引入移码的区域紧密结合。通过紧邻PAM位点上游的2个核苷酸缺失实现移码。ssODN的长度为100个碱基，其与预期的2-核苷酸缺失的直接5'和3'末端互补。

评估了8种不同的策略，并与对照进行了比较，对照是仅用sgRNA但没有HDR ssODN模板转染细胞。在所有情况下，利用相同的sgRNA，并且在所有情况下，除了-对照之外，使用相同的ssODN HDR模板。在所有情况下，除了使用诺考达唑的情况外；处理剂、sgRNA和HDR模板共同递送。共同递送后24小时，除了处理剂之外更换细胞培养基。在利用诺考达唑的情况下，在共同递送sgRNA，ssODN和处理试剂之前，用诺考达唑将细胞预处理18h。在18h结束时，细胞同步并进行转染。转染后72h，通过FACS分选仪处理细胞。所有细胞在mRuby2通道中显示接地零信号，并且在蓝色通道中具有从零到顶部的任何信号度的细胞被收集作为编辑的细胞。收集的整个群体代表任何可能的编辑，包括HDR模板引入的移码和NHEJ引起的变化。总共分选了2百万个细胞，随后，整个库直接用于MiSeq新一代测序系统(Illumina)的深度测序。为了收集整个突变基因库，使用RNeasy Mini Kit(Qiagen)进行总RNA分离。收集总RNA后，通过使用基因特异性引物，将mRuby2序列逆转录为cDNA库，然后用Machery NagelGel&PCR cleanup kit纯化。然后通过10个PCR循环扩增这些cDNA库，以便为深度测序做好准备。PCR扩增仅mRuby2序列的感兴趣的小区域(SEQ ID NO:95)。扩增的序列段对应于亲本原始mRuby2DNA序列内的核苷酸位置75-324之间的区域。使用正向和反向引物进行10循环PCR，两者均具有衔接子侧翼序列，其能够使库扩增子与Illumina MiSeq平台的流动结合。不同处理的结果和对HDR比率的影响如图21所示。

材料和方法

FRT载体生成

1. PCR mRuby2

95C/30s变性，60C/30s退火，72C/30s延伸

2. PCR P2A-嘌呤霉素抗性基因

95C/30s变性，60C/30s退火，72C/30s延伸

3.在37℃下用AflII和NotI消化1ug pcDNA5FRT-APMA-ap-IRES-H2BGFP 3小时：

4.凝胶纯化经消化的DNA。

5. SLiCE在37℃下将DNA片段连接30min：

6.转化

7.通过测序检查克隆

稳定的细胞系生成

产生稳定的FRT-mRuby2-P2A-嘌呤霉素R表达细胞系

1.将3x 30mm平板的Flx-In-293细胞生长至80％汇合

2.用Lipofectamine 3000以10：1pOG44-pcDNA5-FRT-mRuby2-P2A-puromycinR质粒转染

3.在没有抗生素的情况下在30℃下生长过夜

4.选择含有30，60和120μg/ml的潮霉素，直至形成菌落。

产生稳定的表达Cas9的FRT-mRuby2-P2A-嘌呤霉素R阳性细胞系

1.将3x 30mm平板的表达FRT-mRuby2-P2A-puromycinR的细胞系培养至80％汇合

2.用Lipofectamine 3000以10：1的含有与新霉素抗性基因融合的酿脓链球菌Cas9核酸酶的pSpCas9质粒载体转染

3.在没有抗生素的情况下在37℃生长过夜

4.用600μg/ml的G418抗生素进行选择，直至形成菌落

库生成

库生成方案包括两个相邻的步骤。在第一步中，首先用ssODN转染细胞，由于生色团区域内的2-核苷酸缺失，ssODN导致特定的移码。在接下来的第二步中，表达移码蛋白的细胞用随机化ssODN转染，导致库的产生。

方案如下：

第一步：

1.将细胞用胰蛋白酶消化并接种在10cm细胞培养板中，具有70-80％汇合。

2.在接种第二天，将10ug sgRNA+10ug移码ssODN(在200uL Optimem中混合)和7.5uL Lipofectamine MessengerMax试剂(在200uL Optimem的单独管中)混合。然后，将这两种200uL溶液混合成一种并在室温下温育15min。然后将总溶液施加到10cm板上。

3.第二天，将培养基更新并再温育一天。转染后两天，经由FACS分选移码的暗细胞并扩增到10cm平板中，这需要4天达到60-70％汇合度的汇合。

4.达到70％汇合后，将板分成两个单独的10cm板。将其中一个平板冷冻为原种，将另一个平板温育过夜以引入随机化和库生成过程。

第二步：

5.在第二天，通过使用Lipofectamine MessengerMax，使用与上述相同的转染参数，用含有NNB的随机化ssODN转染移码的mRuby2表达细胞内的感兴趣区域。转染后24h，培养基更新。然后将细胞转移到15cm平板中，重新铺板24h后，经由每天用新鲜的嘌呤霉素更新培养基，连续3天将2ug/uL嘌呤霉素施用于细胞上。在施用的前两天，观察到显著的细胞死亡，并且在第3天，未观察到显著的细胞死亡，并且嘌呤霉素处理结束。嘌呤霉素处理导致框内突变体以及不具有早期终止密码子的突变体的正选择，其导致掺入所需库的细胞的富集。

cDNA库生成和下一代测序制备

1.根据RNeasy Mini Kit(Qiagen)的数据表进行总RNA分离

2.根据RevertAid H Minus First Strand cDNA Synthesis Kit(ThermoFisher)进行cDNA转化，使用具有SEQ ID NO:4的mRuby2特异性反向引物，42℃50分钟。

3.使用整个cDNA库，在24个单独的PCR管中用具有SEQ ID NO:5和SEQ ID NO:6的引物对进行10个循环的下一代测序PCR。单个PCR反应管中的反应条件如下：

95C/10s变性，60C/10s退火，72C/10s延伸

4. PCR纯化

5. MiSeq(Illumina)深度测序

实施例4：使用多样化和定向诱变的方法修饰抗体

如上所述，在本文提供的手段和方法中，目的蛋白质可以是抗体。例如，本发明在工程化和选择与天然存在的变体相比具有新特异性或更高亲和力的Fab片段、单链抗体或完整IgG中提供了许多优点。

为此目的，编码Fab片段、单链抗体或轻链和重链IgG的基因将以单拷贝数插入细胞中。在用于诱变的靶位点附近插入移码或另一种失活突变。在该实施例中，用于诱变的靶位点优选位于编码CDR的区域(互补决定区)内，即抗原结合结构域的区域内。然而，用于诱变的靶位点也可位于影响抗体功能的其他位点内。

如果需要(例如，如果人源化抗体基因在人细胞系中多样化)，密码子将与内源抗体基因序列分化，以确保仅异源基因多样化。

将首先筛选库以有效恢复阅读框和/或产生融合的标记基因(例如荧光蛋白或抗性标记)。为了有效呈递和随后筛选抗体库，将使用表面展示技术来定位细胞表面上的新抗体变体。将抗体变体发送至细胞表面的靶向序列将简单地加入编码目的蛋白质的基因盒中，然后以单拷贝数插入细胞基因组中。这些技术已经变得非常强大并且允许例如Fab片段、单链抗体或细胞(例如哺乳动物细胞，例如HEK293)表面上的完整IgG的有效的功能呈递。用于有效展示和筛选的方案已成为本领域的标准，并且例如由Ho，2008，Methods inMolecular Biology，525：pp 337-352；和Zhou，2012，Methods in Molecular Biology，907：293-302提供。

通过FACS分选可以筛选这种表面展示的抗体库。为此目的，荧光团缀合的抗原可用于标记展示对该特异性抗原表现出亲和力的抗体的细胞。FACS分选允许收获这些细胞。在连续几轮筛选中，可以增加严格性，因为细胞可以用增加量的未标记抗原洗涤，然后是另外的FAC分选。这将允许鉴定对给定抗原具有特别高亲和力的变体。

或者，可以经由淘选方法鉴定所需的抗体。为此目的，可以将特定表面与所需抗原缀合。表达抗体库并在细胞表面上表达的细胞可以在该表面上温育。表达有效抗体的细胞将与表面结合。在洗去未结合细胞后，通过用增加量的所加入的可溶性抗原的额外洗涤可以增加严格性。在几轮洗涤后，可以通过合适的方法(例如胰蛋白酶消化)收获结合到表面的剩余细胞，并允许恢复。

可以通过从这些细胞制备PolyA-RNA，进行RT-PCR以将基因转录成cDNA并将它们亚克隆到合适的载体中进行进一步分析来分离编码所选抗体变体的基因。

本发明涉及以下核苷酸和氨基酸序列：

SEQ ID NO:1：2A肽T2A的氨基酸序列：

E G R G S L L T C G D E E N P G P

SEQ ID NO:2：2A肽P2A的氨基酸序列：

A T N F S L L K Q A G D V E E N P G P

SEQ ID NO:3：2A肽E2A的氨基酸序列：

Q C T N Y A L L K L A G D V E S N P G P

SEQ ID NO:4：2A肽F2A的氨基酸序列：

V K Q T L N F D L L K L A G D V E S N P G P

SEQ ID NO:5：TEV蛋白酶的靶位点：实际上，X可以是任何氨基酸

Glu，X，X，Tyr，X，Gln，Gly/Ser

SEQ ID NO:6：Genenase I的靶位点：

Pro-Gly-Ala-Ala-His-Tyr

SEQ ID NO:7：肠激酶的靶位点：

ASP-ASP-ASP-ASP-Lys

SEQ ID NO:8：人鼻病毒(HRV)3C蛋白酶的靶位点：

Leu-Glu-Val-Leu-Phe-Gln-Gly-Pro

SEQ ID NO:9：因子Xa的靶位点：

Ile-(Glu或Asp)-Gly-Arg

SEQ ID NO:10：凝血酶的靶位点：

Leu-Val-Pro-Arg-Gly-Ser

SEQ ID NO:11：与SpCas9或SaCas9核酸酶一起使用的优选直接重复(DR)序列：GTTTTAGAGCTA

SEQ ID NO:12：与SpCas9或SaCas9核酸酶一起使用的优选tracrRNA序列：TAGCAAGTTAAAATAAGGCTAGTCCGTTTTT

SEQ ID NO:13：用于定点诱变的正向引物：

5'-TCGCTGACCGCTGCGGACGCAGGTCGAAGAAGACTTACC-3'正向

SEQ ID NO:14：用于定点诱变的反向引物：

5'-GTCCGCAGCGGTCAGCGAGTTGGTC-3'-反向

SEQ ID NO:15：正向扩增引物：

5'-TCGCTGACCGCTGCGGACGCAGGTCGAAGAAGACTTACC-3’

SEQ ID NO:16：反向扩增引物：

5'-CGGCCGCCACTGTGCTGGATCTATTATCACTTGTACAGCT CGTCCATGC-3’

SEQ ID NO:17：预退火的正向引物：

5'-CACCGCGCTGACCGCTGCGGACGC-3’

SEQ ID NO:18：预退火的反向引物：

5'-AAACGCGTCCGCAGCGGTCAGCGC-3’

SEQ ID NO:19：FokI核酸酶的氨基酸序列：

SEQ ID NO:20：megaTAL内切酶的氨基酸序列：

SEQ ID NO:21：AsCpf1的氨基酸序列：

SEQ ID NO:22：LbCpf1的氨基酸序列：

SEQ ID NO:23：SpCas9的氨基酸序列：

SEQ ID NO:24：St1Cas9的氨基酸序列：

SEQ ID NO:25：SaCas9的氨基酸序列：

SEQ ID NO:26：mNeonGreen的移码版本的核苷酸序列：

SEQ ID NO:27：mNeonGreen的编码区的核苷酸序列

SEQ ID NO:28：mNeonGreen的氨基酸序列

SEQ ID NO:29：mNeonGreen的突变编码区的核苷酸序列

Atggtgagcaagggcgaggaggataacatggcctctctcccagcgacacatgagttacacatctttggctccatcaacggtgtggactttgacatggtgggtcagggcaccggcaatccaaatgatggttatgaggagttaaacctgaagtccaccaagggtgacctccagttctccccctggattctggtccctcatatcgggtatggcttccatcagtacctgccctaccctgacgggatgtcgcctttccaggccgccatggtagatggctccggataccaagtccatcgcacaatgcagtttgaagatggtgcctcccttactgttaactaccgctacacctacgagggaagccacatcaaaggagaggcccaggtgaaggggactggtttccctgctgacggtcctgtgatgaccaactcgctgaccgctgcggacgcaggtcgaagaagacttaccccaacgacaaaaccatcatcagtacctttaagtggagttacaccactggaaatggcaagcgctaccggagcactgcgcggaccacctacacctttgccaagccaatggcggctaactatctgaagaaccagccgatgtacgtgttccgtaagacggagctcaagcactccaagaccgagctcaacttcaaggagtggcaaaaggcctttaccgatgtgatgggcatggacgagctgtacaag

SEQ ID NO:30：105个碱基对的供体核酸模板，称为NSFS-R

GGTTTCCCTGCTGACGGTCCTGTGATGACCAACTCGCTGACCGCTGCGGACTGGTGCAGGTCGAAGAAGACTTACCCCAACGACAAAACCATCATCAGTACCTTT

SEQ ID NO:31：mRuby2的氨基酸序列

MVSKGEELIKENMRMKVVMEGSVNGHQFKCTGEGEGNPYMGTQTMRIKVIEGGPLPFAFDILATSFMYGSRTFIKYPKGIPDFFKQSFPEGFTWERVTRYEDGGVVTVMQDTSLEDGCLVYHVQVRGVNFPSNGPVMQKKTKGWEPNTEMMYPADGGLRGYTHMALKVDGGGHLSCSFVTTYRSKKTVGNIKMPGIHAVDHRLERLEESDNEMFVVQREHAVAKFAGLGGGMDELYK

SEQ ID NO:32：嘌呤霉素抗性基因的氨基酸序列

MTEYKPTVRLATRDDVPRAVRTLAAAFADYPATRHTVDPDRHIERVTELQELFLTRVGLDIGKVWVADDGAAVAVWTTPESVEAGAVFAEIGPRMAELSGSRLAAQQQMEGLLAPHRPKEPAWFLATVGVSPDHQGKGLGSAVVLPGVEAAERAGVPAFLETSAPRNLPFYERLGFTVTADVEVPEGPRTWCMTRKPGA

SEQ ID NO:33：mRuby2发色团区域的密码子多样化的寡核苷酸(结合反向链)

5'TGT TTA AAG AAA TCA GGA ATG CCT TTC GGG TAC TTG ATA AAA GTA CGG CTVNNVNNVNN GAACGAC GTG GCA AGA ATG TCA AAG GCA AAT GGC AGG GGT CCT CCC TCG A3'

SEQ ID NO:34：用于在mRuby2的发色团区域附近诱导移码(2个核苷酸缺失)的寡核苷酸

5'AGTCATCGAGGGAGGACCCCTGCCATTTGCCTTTGACATTCTTGCCACGTCGTTCGTATGGCAGCCGTACTTTTATCAAGTACCCGAAAGGCATTCCTGATTTCTTTAAACAGTCCT 3'

SEQ ID NO:35：用于RT PCR的基因特异性引物

5'CTTGTACAGCTCGTCCATCCC 3'

SEQ ID NO:36：深度测序引物1

5'TACACGACGCTCTTCCGATCTATGCACAGGTGAAGGAGAAGG 3'

SEQ ID NO:37：深度测序引物2

5'CAGACGTGTGCTCTTCCGATCCTCCACCATCTTCGTATCTCG 3'

SEQ ID NO:38：用于提取修复的mNeonGreen的编码结构域的正向引物

5'-ATAAGGATCCGGCCACCATGGTGAGCAAGGGCGAGGAGGAT-3'正向

SEQ ID NO:39：用于提取修复的mNeonGreen的编码结构域的反向引物

5'-TATAGGAATTCCTATTATCACTTGTACAGCTCGTCCATGCCC-3'反向

SEQ ID NO:40：用于PCR诱变的移码引物，1.F

CTTTAAGTGGACACCACTGGAAATGGCAAGC

SEQ ID NO:41：用于PCR诱变的移码引物，1.R

CCAGTGGTGTCCACTTAAAGGTACTGATGATGGTTTTG

SEQ ID NO:42：用于PCR诱变的移码引物，2.F

CTGGTGCAGGAGAAGACTTACCCCAACGACAAAAC

SEQ ID NO:43：用于PCR诱变的移码引物，2.R

TAAGTCTTCTCCTGCACCAGTCCGCAGC

SEQ ID NO:44：用于PCR诱变的移码引物，3.F

CAGGTGAAGGTGGTTTCCCTGCTGACGGTC

SEQ ID NO:45：用于PCR诱变的移码引物，3.R

AGGGAAACCACCTTCACCTGGGCCTCTCC

SEQ ID NO:46：用于PCR诱变的移码引物，4.F

TCGGGTATGGCATCAGTACCTGCCCTACCCTGAC

SEQ ID NO:47：用于PCR诱变的移码引物，4.R

GGTACTGATGCCATACCCGATATGAGGGACCAG

SEQ ID NO:48：用于PCR诱变的移码引物，5.F

GTCCGCAGCGGTCAGCGAGTTGGTC

SEQ ID NO:49：用于PCR诱变的移码引物，5.R

GCAACCGTAAAGTTCAAGTACAAAGG

SEQ ID NO:50：SaCas9的PAM序列

5'-NNGRRT

SEQ ID NO:51：SaCas9的PAM序列

5'-NNGRR(N)

SEQ ID NO:52：St1Cas9的PAM序列

5'-NNAGAAW

SEQ ID NOs 53至90显示在附图中。

SEQ ID NO:91：mNeonGreen2的核苷酸序列(多样化序列为斜体、下划线且粗体)

SEQ ID NO:92：mNeonGreen2的氨基酸序列(多样化序列为斜体、下划线且粗体)

SEQ ID NO:93：mNeonGreen2内的氨基酸序列

Asp Ala Cys Trp

SEQ ID NO:94：mRuby2-TagBFP2-嘌呤霉素的氨基酸序列

SEQ ID NO:95：亲本原始mRuby2序列内的测序区域的核苷酸序列

Claims

1.一种产生表达目的蛋白质的突变变体的一组细胞的方法，其中所述目的蛋白质的所述突变变体之一是按每个细胞从单个基因拷贝表达，所述方法包括：

a)在细胞基因组中的用于在编码所述目的蛋白质的基因中进行诱变的靶位点处或附近诱导双链断裂(DSB)或单链切口，其中所述编码所述目的蛋白质的基因是以单拷贝包含在所述细胞的基因组中，并且其中所述编码所述目的蛋白质的基因的单拷贝包含在所述用于诱变的靶位点处或附近的失活突变；

b)向步骤a)的细胞提供不同供体核酸模板的库，用于经由同源重组来修复经诱导的DSB或单链切口，其中所述库的不同供体核酸模板在对应于所述用于诱变的靶位点的位置处包含不同的突变，并通过同源定向修复(HDR)去除所述失活突变；

c)选择和/或富集已去除失活突变的细胞；和

2.权利要求1的方法，其中所述失活突变阻止所述目的蛋白质的表达。

3.权利要求1或2的方法，其中所述编码所述目的蛋白质的基因作为融合基因包含在所述细胞的基因组中，其中所述融合基因包含所述编码目的蛋白质的基因下游的标记基因；并且其中编码所述目的蛋白质的基因中的所述失活突变阻止所述标记基因的表达。

4.权利要求3的方法，其中所述标记基因编码荧光蛋白。

5.权利要求1至4中任一项的方法，其中所述双链断裂是通过使用位点特异性核酸酶进行的，所述位点特异性核酸酶选自Cas9核酸酶，Cpf1核酸酶，锌指核酸酶(ZNF)，转录激活因子样核酸酶(TALEN)和megaTAL内切核酸酶；或其中所述单链切口是通过使用位点特异性切口酶进行的，所述位点特异性切口酶是Cas9切口酶。

6.权利要求1至5中任一项的方法，其中所述细胞是哺乳动物细胞。

7.权利要求1至6中任一项的方法，其中所述方法还包括确定编码在步骤c)中选择和/或富集的和/或在d)中提供的细胞中包含的编码所述目的蛋白质的所述不同突变变体的一种或多种基因的核酸序列；或测定包含在步骤c)中选择和/或富集和/或d)中提供的细胞中的目的蛋白质的一种或多种所述不同突变变体的氨基酸序列。

8.权利要求1至7中任一项的方法，其中所述目的蛋白质是荧光蛋白，抗体，酶，生长因子，细胞因子，肽激素，转录因子，RNA结合蛋白，细胞骨架蛋白，离子通道，G蛋白偶联受体，分子伴侣，转运蛋白或跨膜蛋白。

9.权利要求1至8中任一项的方法，其中所述目的蛋白质是激酶或磷酸酶。

10.权利要求1至9中任一项的方法，其中：

(i)所述目的蛋白质是抗体，并且其中所述用于诱变的靶位点在编码所述抗体的重链或轻链的核酸序列的CDR编码区中；或

(ii)所述目的蛋白质是酶，并且其中所述用于诱变的靶位点在编码所述酶的活性中心或所述酶的调节亚基的核酸区域中。

11.权利要求1至10中任一项的方法，其中所述目的蛋白质的所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性，其中所述方法还包括：

e)从所述细胞组中选择和/或富集第二组细胞，该第二组细胞表达所述目的蛋白质的突变变体，所述突变变体的所述第一活性得到改善和/或具有所述新活性。

12.权利要求1至10中任一项的方法，其中所述目的蛋白质的所述突变变体与野生型目的蛋白质相比，第一活性得到改善和/或具有新活性，并且其中步骤c)包括选择和/或富集目的蛋白质的突变变体，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新活性。

13.一种鉴定目的蛋白质的突变变体的方法，所述目的蛋白质与野生型目的蛋白质相比具有不同的或修饰的活性，其中所述方法包括：

a)从权利要求1至10中任一项所得的细胞组中选择和/或富集第二组细胞，所述第二组细胞表达所述目的蛋白质的突变变体，所述突变变体的所述第一活性得到改善和/或具有所述新活性；和

14.一种鉴定目的蛋白质的突变变体的方法，所述突变变体与野生型目的蛋白质相比具有不同的或修饰的活性，其中所述方法包括：

a)权利要求1至10中任一项的产生表达目的蛋白质的突变变体的一组细胞的方法，

其中步骤c)包括选择和/或富集目的蛋白质的突变变体，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新活性；和

b)确定目的蛋白质的至少一种突变变体的氨基酸序列，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新的活性；和/或确定编码目的蛋白质的突变变体的至少一种基因的核酸序列，所述突变变体与野生型目的蛋白质相比第一活性得到改善和/或具有新活性。

15.权利要求11至14中任一项的方法，其中：

(i)所述目的蛋白质是抗体，并且所述第一活性和/或所述新活性是抗原结合；或

(ii)所述目的蛋白质是酶，并且所述第一活性和/或所述新活性是所述酶的酶活性。

16.通过权利要求1-15中任一项的方法获得的细胞库。