CN103282560A

CN103282560A - 抗体文库

Info

Publication number: CN103282560A
Application number: CN2011800447113A
Authority: CN
Inventors: 马克西米利亚诺·瓦斯克斯; 阿尔温德·西瓦苏布拉马尼亚恩; 迈克尔·费尔德豪斯
Original assignee: Adimab LLC
Current assignee: Adimab LLC
Priority date: 2010-07-16
Filing date: 2011-07-14
Publication date: 2013-09-04
Anticipated expiration: 2031-07-14
Also published as: DK3741883T3; US20160244750A1; JP2021027838A; JP2023169425A; WO2012009568A2; JP2019023247A; US20130197201A1; MX360336B; US10138478B2; AU2011279073B2; AU2016225862A1; CA2805875C; AU2021250973B2; JP6898103B2; EP2593594A4; MX2013000519A; EP3336225B1; AU2011279073A1; CA2805875A1; AU2019200298A1

Abstract

提供了一种方法，该方法克服已知方法中不充分的固有缺点以通过特异性设计具有定向的序列和长度多样性的文库来产生编码抗体的多核苷酸文库。

Description

抗体文库

相关申请

本申请要求美国临时申请序列号No.61/365,194（其于2010年7月16日提交），其整体通过参考的方式并入本文。

背景技术

作为研究工具，抗体在诊断和治疗应用中具有很深的关联性。然而，识别有用的抗体是困难的，而一旦识别，在其适合应用于人体治疗之前，抗体常常需要大量的重新设计或“人性化”。

许多用于鉴定抗体的方法涉及：通过扩增来自B细胞或组织的核酸衍生的抗体展示文库。部分这些方法用于合成文库。然而，许多这些方法有局限性。例如，大多数本领域中已知的人抗体文库只包含有抗体序列多样性，其可以实验捕获或从生物源（例如，B细胞）克隆。因此，这些文库可能会过度代表一些序列，而完全缺乏或不充分代表其他序列，特别是结合人抗原序列。现有技术中已知的大多数合成文库本有其他局限性，如发生不自然的（即非人）氨基酸序列模体，其有可能成为免疫原性的。

因此，需要存在多样化的抗体文库，其包含候选抗体，非免疫原性的（即人），并具有期望的性能（例如，能够识别各种各样的抗原）。然而，获得这种文库需要平衡产生多样化文库的竞争目标，同时仍保持文库内序列的人的特征。本发明提供了抗体文库（其具有这些和其它期望的特征），以及制造和使用此文库的方法。

发明概述

本发明提供，除其他事项外，改进合成文库的设计和生产，模仿CDRH3、CDRL3、重链、轻链和/或全长（完整）抗体序列自然的人清单的多样性。在一些实施方案中，本发明定义和提供产生TN1、DH、N2和H3-JH部分理论部分池的方法，考虑纳入文库（例如多核苷酸或多肽）的物理表现，包括或编码CDRH3序列（例如抗体文库）。在某些实施方案中，本发明定义和提供这些理论部分池个别成员与参考集CDRH3序列相匹配的方法，以确定参考集理论部分池中每个部分发生的频率（或部分使用权重）。虽然任何CDRH3序列集可以被用作参考集，本发明还定义和提供生成特定参考集或兴趣子集的方法。例如，除其他外，本发明提供过滤原始参考集的方法，以获得提供的参考集具免疫前特征。本发明还提供来定义和/或鉴定部分的方法，其在参考集的CDRH3序列中发生，但不是在理论部分池中。这些部分可以被添加到理论部分池，例如，为了考虑纳入物理文库。虽然参考集中特定部分发生的频率对选择部分纳入物理文库是有用的，本发明还提供了许多物理化学和生物性能，其可用于（单独或连同任何其他标准或标准）选择部分以纳入物理文库。

在一些实施方案中，本发明提供文库不同于本领域中已知的某些其它文库，因为它们在构成或序列中不是sitewise-随机的，因此本质上比本领域中某些其它文库（例如随机参见美国公开号2009/0181855的实施例14，通过引用的方式全部并入，讨论信息内容和随机性）的随机性更小。在一些实施方案中，可以使用简并寡核苷酸，以进一步提高文库的成员的多样性，同时进一步改进与序列（例如CDRH3、CDRL3、重链、轻链和/或全长（完整）抗体序列）参考集的匹配。

本发明还提供文库，其成员具有彼此相关的序列，通过进行本文所描述的分析选择它们纳入物理文库，例如通过生成如实施例3中的CDRH3参考集；生成如实施例5-7理论部分池；如实施例4和8，匹配理论部分池成员与参考集；以及如实施例8-9，选择理论部分池成员以纳入物理文库。还提供通过利用简并寡核苷酸进一步增加某些序列中多样性的方法，如实施例12-16。

在一些实施方案中，本发明提供多核苷酸和多肽文库（包括CDRH3、CDRL3、重链、轻链和/或全长（完整）抗体序列），以及制作和使用此文库的方法。

在一些实施方案中，本发明提供文库包括，基本上由或由任何本文所述的文库或理论部分池组成。

在一些实施方案中，本发明认识到，通过模仿TdT计算的酶的体内活性，可以生成理论部分池和随后相匹配CDR序列的大参考数据集以选择，纳入文库，这些理论部分最好地复述了基准数据集中的CDR序列。

在某些实施方案中，本发明提供多核苷酸文库，包括至少约10⁴多核苷酸编码CDRH3多肽，所述CDRH3多肽结构为：[TN1]-[DH]-[N2]-[H3-JH]，其中：TN1为多肽，对应于表9-10和18-26中的任何TN1多肽，或由表25-26中任何TN1多核苷酸翻译所产生的多肽；DH为多肽，对应于表9、11、17-25和28中的任何DH多肽，或由表16、25和27中任何DH编码的多核苷酸翻译所产生的多肽；N2为多肽，对应于表9、12、18-25和30中的任何N2多肽，或由表25和29中任何N2编码的多核苷酸翻译所产生的多肽；以及H3-JH为多肽，对应于表9、13、15、18-25和32中的任何H3-JH多肽，或由表14、25和31中任何H3-JH编码的多核苷酸翻译所产生的多肽。

在一些实施方案中，本发明提供文库，其中文库中序列的至少约1％、5％、或10％具有上述提供的结构，或者本文所提供的任何文库。

在某些实施方案中，本发明提供文库，其包括多核苷酸编码CDRH3多肽，由表23-25中提供的任一个TN1、DH、N2、和H3-JH多肽集产生。

在一些实施方案中，本发明提供文库，其包括多核苷酸编码CDRH3多肽，由表26中提供的TN1多肽集，表28中提供的DH多肽集，表30中提供的N2多肽集和表32中提供的H3-JH多肽集所产生。

在某些实施方案中，本发明提供文库，其成员显示（或编码多肽显示）与上述多肽至少有一定百分比的同一性，例如，文库包括至少约10⁴多核苷酸编码CDRH3多肽，结构为：[TN1]-[DH]-[N2]-[H3-JH]，其中：TN1为多肽，与表9-10和18-26中的任何TN1多肽至少约80％、90％、或95％相同，或与表25-26中，由任何TN1多核苷酸翻译产生的多肽至少约80％、90％、或95％相同；DH为多肽，与表9、11、17-25和28中的任何DH多肽至少约80％、90％、或95％相同，或与表16、25和27中任何DH-编码的多核苷酸翻译产生的多肽至少约80％、90％、或95％相同；N2为多肽，表9、12、18-25和30中的任何N2多肽至少约80％、90％、或95％相同，或与表25和29中任何N2编码的多核苷酸翻译产生的多肽至少约80％、90％、或95％相同；以及H3-JH为多肽，与表9、13、15、18-25和32中的任何H3-JH多肽至少约80％、90％、或95％相同，或表14、25和31中任何H3-JH编码多核苷酸翻译产生的多肽至少约80％、90％、或95％相同。

在一些实施方案中，本发明提供文库，包含多核苷酸编码轻链可变区，其中轻链可变区选自：（a）在一个或多个位4、49、和46变化的VK1-05序列；（b）在一个或多个位4、49、46、和66变化的VK1-12序列；（c）在一个或多个位4、49、和66变化的VK1-33序列；（d）在一个或多个位4、49、和46变化的VK1-39序列；（e）在一个或多个位2、4、46、和49变化的VK2-28序列；（f）在一个或多个位2、4、36、和49变化的VK3-11序列；（g）在一个或多个位第2、4、48、和49变化的VK3-15序列；（h）在一个或多个位2、4、48、和49变化的VK3-20序列；和/或（ⅰ）在一个或多个位4、46、49、和66变化的VK4-1序列。

在某些实施方案中，本发明提供文库包括多核苷酸编码轻链可变区，其包括多肽序列与表3中提供的一条或多条轻链多肽序列至少约80%、90%、或者95%相同。

在一些实施方案中，本发明提供文库，其中轻链可变区包含在表3中提供的多肽序列。

在某些实施方案中，本发明提供文库包括编码轻链可变区的多核苷酸,其中所述轻链可变区的L3-VL多肽序列在位89至94之间的两个或三个残基上变化，包括与L3-VL种系序列的比较。在一些实施方案中，提供了含有单一轻链种系序列以及其变体的文库。在某些实施方案中，可以联合来自不同轻链种系序列的变体，以制备编码多轻链种系序列以及其变体的文库。本文提供的任何轻链L3-VL种系序列可以在位89-94之间两个或三个残基上变化，包括性地，并且本领域技术人员将认识到任何其它L3-VL序列可以发生变化，更具本文描述的原理，以制备本发明提供的文库。在一些实施方案中，本发明包括含有编码抗体轻链可变区的多核苷酸的文库，其中抗体轻链可变区包括下述的L3-VL序列的一个或多个：(i)氨基酸序列，其与L3-VL种系序列(例如参见表1)相同;(ii)氨基酸序列，其含有在残基89-94之间的两个替换，包括性地，与L3-VL种系序列相比；以及(iii)氨基酸序列，其在残基89-94之间含有3个替换，包括性地，与L3-VL种系序列相比。在一些实施方案中，文库上的各抗体轻链可变区包括上文所述L3-VL序列中一个或多个。在一些实施方案中，这种文库与一个或多个其它核酸集联合，编码或编码抗体轻链可变区，并且含有或者不含有这种L3-VL序列。在一些实施方案中，本发明包括的文库含有编码抗体轻链可变区的多核苷酸，其含有在表4中提出的氨基酸序列，或者在表5-7的一个或多个中提出的多核苷酸序列，其中在位89-94上的两个或三个残基（包括性地）是可变的。

在一些实施方案中，本发明包括的文库含有编码抗体轻链可变区的多核苷酸，其中整个文库，所有编码抗体轻链可变区的序列之间彼此相同（除了在残基89和残基94之间的位上具有残基替换）；包括性地并且进一步地，其中整个文库，任意两个编码抗体轻链可变区的序列之间，在不超过3个位上互相不同。

在一些实施方案中，本发明提供文库包括的多核苷酸编码轻链可变区，所述轻链可变区包括的多肽序列与在表5-7中提供的两个或多个多核苷酸序列翻译制备的多肽，至少约80%、90%或者95%相同。在某些实施方案中，所述文库的所有成员与在表5-7中提供的一个或多个多核苷酸序列翻译制备的多肽，至少约80%、90%或者95%相同。

在某些实施方案中，本发明提供的文库，包括轻链可变区，其包括由在表5-7中提供的所述多核苷酸序列翻译制备的多肽。在某些实施方案中，文库的所有成员包含通过表5-7中提供的多核苷酸序列的翻译而制备的多肽。

在一些实施方案中，本文描述的任意文库含有或者编码CDRL3和/或轻链可变区，其含有或者编码在完全轻链中的这种CDRL3和/或轻链可变区。而且，在一些实施方案中，这些文库(和/或完全轻链文库)进一步含有胡总恶化编码一个或多个重链CDRH3、可变结构域或者完整重链。在一些实施方案中，提供的文库包括或者编码完整抗体，例如完整IgG。

在一些实施方案中，提供的文库包括或者编码人抗体或者抗体片段；在这些实施方案中，提供的文库包括或者编码完整人抗体。

在某些实施方案中，本发明提供文库，其包括含有本文描述的文库核酸的核酸载体。在许多实施方案中，每个这种文库成员包括所述相同载体。

在一些实施方案中，本发明提供宿主细胞含有一个或多个提供的文库,例如包括载体。在一些实施方案中，宿主细胞是酵母，并且在某些实施方案中酵母是酿酒酵母。

在一些实施方案中，本发明提供分离自本文所述文库的抗体。

在某些实施方案中，本发明提供的试剂盒含有本文所述的任何文库。

在一些实施方案中，本发明提供的文库和/或理论部分池代表为计算机可读格式，例如，表10,23-25和26中的TN1多肽；表11,23-25和28中的DH多肽；表12,23-25和30中的N2多肽；表13,15,17,23-25和32中的H3-JH多肽；表25-26中的TN1多核苷酸；表25和27中的DH多核苷酸；表25和29中的N2多核苷酸；和/或表25和31中的H3-JH多核苷酸。

在某些实施方案中，本发明提供了在计算机可读格式下人免疫前集合(附录A)的多核苷酸序列,或其多肽表达产物的代表。

在一些实施方案中，本发明提供制作合成多核苷酸的方法，所述多核苷酸编码CDRH3文库,包含:(a)提供含有TN1、DH、N2和H3-JH部分的理论部分池;(b)提供CDRH3序列的参考集;(c)利用理论部分池，以鉴定与在所述参考集（b）中最接近的匹配；(d)从理论部分池选择部分，以纳入合成文库；并且(e)合成所述合成CDRH3文库。在某些实施方案中，本发明提供通过该方法制备的文库。在一些实施方案中，选择所述部分，以纳入所述合成文库，根据在CDRH3序列参考集中它们这些部分的使用权重。

在某些实施方案中，本发明提供方法，制备编码CDRL3文库的合成多核苷酸，包括：(i)获得轻链序列参考集，其中所述参考集含有具有VL部分的轻链序列，其起源于所述相同IGVL种系基因和/或它的等位基因变异体;(ii)测定哪个氨基酸发生在所述参考集中的每个所述CDRL3位，其由所述IGVL基因编码；(iii)合成轻链可变结构域编码序列，其中在位89和94之间的两个位，包括性地，含有简并密码子，所述简并密码子编码所述5个（在所述参考集中对应位的氨基酸残基上发生）最高频率中的两个或多个；以及(iv)合成编码所述CDRL3文库的多核苷酸。在某些实施方案中，本发明提供通过该方法制备的文库。

在一些实施方案中，本发明提供利用任意本发明的文库，以分离结合抗原的抗体的方法，包括使所述文库的所述多肽表达产物与抗原接触，并且分离与所述抗原结合的多肽表达产物。

在某些实施方案中，与从生物源清单中扩增产生的文库相比较本发明的文库中N-连接的糖基化位点、脱酰胺模体、和/或Cys残基的数量为减少的或消除的。

本发明提供许多多核苷酸和多肽序列和部分，其可用于构建大的多核苷酸和多肽序列(例如，TN1,DH,N2,和H3-JH部分其可用于构建CDRH3)。本领域技术人员将容易认识到，在某些情况下对齐本发明提供的序列后，这些序列可被更加简洁地被提供的共有序列表示,而且这些共有序列落入本发明的范围内，并可用于更加简洁地代表本文提供的任何序列。

附图简述

图1显示，VK1-39中游离残基4和49（星号标记）具有多样性指数，可比拟或大于CDR位（即，在这个例子中等于或高于0.07）的多样性指数。

图2显示，临床验证的CDRL3序列从种系样序列（N=35）稍微偏离。

图3显示，在本发明的文库和以前的CDRL3文库VK-v1.0中，跳跃二聚体CDRL3中的序列百分比，为X或更少的突变种系。在这里，FX为文库中序列的百分比，为X或更少的突变种系。

图4显示，应用提供的方法，用于生成核苷酸序列编码亲本H3-JH部分。

图5显示，方法的一般原理图用于从理论部分池选择部分，以纳入理论和/或合成文库。

图6显示，“好”和“差”的频率表示从酵母-基础的文库中分离出的CDRH3序列，见US2009/0181855描述，以及它们与其中所述（“设计”）文库设计中含有的序列的比较，作为DH部分疏水性（向右递增）的功能。

图7显示，LUA-141文库和示例性文库设计的3（ELD-3）中的CDRH3序列百分比，匹配CDRH3序列从Lee-666和Boyd-3000，具有0个，1个，2个，3个或3个以上的氨基酸错配的。

图8显示，示例性文库设计3(ELD-3)和扩展多样性文库设计都回复到与临床相关CDRH3序列更好的匹配，与LUA-141文库相比。

图9显示，示例性文库设计3(ELD-3)的组合效率大于所述LUA-141文库。具体而言，ELD-3部分比所述LUA-141文库部分更加有可能产生独特的CDRH3。

图10显示，LUA-141、示例性文库设计3(ELD-3)、以及来自HPS(人H3)的人CDRH3序列的Kabat-CDRH3氨基酸成分。

图11显示，LUA-141、示例性文库设计3(ELD-3)、以及来自HPS(人H3)的人CDRH3序列的Kabat-CDRH3长度分布。

图12显示，在所述扩展多样性文库中的CDRH3序列的百分比，其匹配来自Boyd et al.的CDRH3序列（具有0至32个氨基酸错配）。

图13显示，示例性文库设计3(“ELD-3”)、扩展多样性文库设计(“扩展多样性”)、以及来自Boyd et al.数据集(“Boyd2009”)的人CDRH3序列的Kabat-CDRH3长度分布。

图14显示，扩展多样性文库设计(“Extended多样性”)和来自Boyd etal.数据集(“Boyd2009”)的人CDRH3序列的Kabat-CDRH3氨基酸成分。

图15显示，扩展多样性文库设计的组合效率，通过匹配20,000从所述相同设计随机选择的序列。约65%的所述序列在所述设计中只出现一次，并且约17%出现两次。

发明详述

本发明提供，除其他事项外，多核苷酸和多肽文库，生产和使用文库的方法，含有文库的试剂盒，和以计算机可读形式表述本文公开的文库和/或理论部分池。该申请中教导的文库可以描述，至少部分地，在组分（例如多核苷酸或多肽的“部分”）上它们被组装。除其他事项外，本发明特异地提供并考虑这些多核苷酸或多肽部分，生产和使用此部分的方法，和试剂盒和计算机可读形式的表述，包括文库部分。

在某些实施方案中，本发明提供抗体文库，根据序列和天然产生的人抗体清单中的CDR长度分布特异地设计。据估计，即使在抗原刺激的情况下，个体人制造至少约10⁷个不同的抗体分子（Boyd et al.,ScienceTranslational Medicine,2009,1:1）。许多抗体的抗原结合位点可与各种相关但不同的抗原表位交叉反应。此外，人抗体清单足够大，以确保有抗原结合位位点，以适应几乎任何潜在的抗原表位，虽然可能有低亲和力。

哺乳动物的免疫系统已经进化出独特的遗传机制，使其在转录之前通过组合连接性染色体分离的基因部分，以非常经济的方式能够产生几乎是无限数量的不同轻链和重链。每一种类型的免疫球蛋白（Ig）链（即，kappa轻链，lambda轻链，重链）是由组合组装DNA序列合成的，选自从两个或多个基因部分家族，以产生单一的多肽链。具体而言，重链和轻链每一个都含有可变区和恒定（C）区，重链的可变区是由组装自3个序列基因序列家族的DNA序列编码的：可变（IGHV）、多样性（IGHD）、和连接（IGHJ）。轻链的可变区是由组装自2个基因序列家庭的DNA序列编码，编码每个的kappa和lambda轻链：可变（IGLV）和连接（IGLJ）。每个可变区（重链和轻链）也与恒定区重新组合，以产生全长免疫球蛋白链。

虽然组合装配V，D和J基因部分为抗体可变区多样性做出了重大贡献，进一步的多样性在前B细胞阶段引入体内，通过不精确的连接这些基因部分并在基因部分之间的连接处（例如参见，美国出版公开号2009/0181855，其通过引用的方式全部并入，获取更多信息）引入非模板核苷酸。

在B细胞识别抗原后，诱导增殖。在扩散过程中，B细胞受体位点经历了非常高速的体细胞突变，其远远大于正常的基因突变率。主要是免疫球蛋白可变区局部发生突变，包含替换、插入和删除。此体细胞高突变使能够产生B细胞以表达具有增强朝向抗原亲和力的抗体。此抗原-驱动的体细胞高突变微调抗体应答给定的抗原。

本发明的合成抗体文库有可能识别任何抗原，包括人类起源的抗原。识别人类起源的抗原可能不存在于其他抗体文库，如从人的生物来源（例如，来自人“的cDNA）制备的抗体文库，因为自-反应抗体通过阴性选择被捐赠者的免疫系统除去。

进一步，本发明提供合理和/或简化文库开发和/或筛选的某些方面的策略。例如，在一些实施方案中，本发明允许使用细胞分选技术（例如，荧光激活细胞分选，FACS）以识别阳性克隆，并因此绕过或避免生成的杂交瘤文库和上清筛选的标准和繁琐方法的要求。

另外，在一些实施方案中，本发明提供文库和/或子文库，其可容纳多个筛选途径。例如，在一些实施方案中，提供的文库和/或子文库可进行多次筛选。在一些实施方案中，个体提供的文库和/或子文库可用于针对目标多个发现更多的抗体。

在进一步描述本发明之前，某些术语被定义。

定义

除非另有定义，本文所用的所有技术和科学术语具有由本领域技术人员与本发明有关通常所理解的含义。除非另有规定，Kabat编号系统用于整个应用。下面的定义补充这些本领域，并且定向于当前的应用中所述的实施方案。

术语“氨基酸”或者“氨基酸残基,”如可被本领域技术人员理解的,通常是指具有本领域公认的氨基酸，如氨基酸选自:丙胺酸(Ala或者A);精氨酸(Arg或者R);天冬酰胺酸(Asn或者N);天（门）冬氨酸(Asp或者D);半胱氨酸(Cys或者C);谷氨酰胺(Gln或者Q);谷氨酸(Glu或者E);甘氨酸(Gly或者G);组氨酸(His或者H);异亮氨酸(Ile或者I):亮氨酸(Leu或者L);赖氨酸(Lys或者K);甲硫氨酸(Met或者M);苯基丙氨酸(Phe或者F);脯氨酸(Pro或者P);丝氨酸(Ser或者S);苏氨酸(Thr或者T);色氨酸(Trp或者W);酪氨酸(Tyr或者Y);和缬氨酸(Val或者V),虽然修饰,合成,或稀有氨基酸可根据需要使用。一般地,氨基酸可以分组为具有非极性侧链(例如，Ala,Cys,Ile,Leu,Met,Phe,Pro,Val)；带负电荷的侧链(例如，Asp,Glu);带正电的侧链(例如，Arg,His,Lys);或不带电荷的极性侧链(例如，Asn,Cys,Gln,Gly,His,Met,Phe,Ser,Thr,Trp和Tyr)。

如可被那些在本技术领域的普通技术人员理解，这里所使用的术语“抗体”在最广泛的意义上，特别包括至少单克隆抗体，多克隆抗体，多特异性抗体（例如，双特异性抗体），嵌合抗体，人源化抗体，人抗体和抗体片段。抗体为蛋白质，其包含一个或多个多肽，基本上或部分上由免疫球蛋白基因或免疫球蛋白基因片段编码。识别的免疫球蛋白基因包括kappa,lambda,alpha,gamma,delta,epsilon和mu恒定区基因，以及无数的免疫球蛋白可变区基因。

术语“抗体结合区”是指一个或多个免疫球蛋白部分或抗体可变区能够结合抗原。通常情况下，抗体结合区为：例如，抗体轻链(或可变区或其一个或多个CDR),抗体重链(或可变区或其一个或多个CDR),重链Fd区，结合的抗体轻和重链(或其可变区)如Fab,F(ab’)₂,单结构域,或单链抗体(scFv),或全长抗体的任何区域其识别的抗原,例如，IgG(例如IgG1,IgG2,IgG3或IgG4亚型),IgA1,IgA2,IgD,IgE或IgM抗体。

"抗体片段"包含完整抗体的一部分,例如，抗原-结合区及其一个或多个部分。抗体片段的实施例包括Fab,Fab',F(ab')₂,和Fv片段,双抗体，线性抗体，单链抗体，以及由完整抗体和抗体片段形成的多特异性抗体。

术语“目标抗体”是指抗体，其具有的目标特征为从本发明的文库识别的和/或分离的。目标的示例性性能包括,例如，但不限于,结合到特定的抗原或抗原表位，结合以一定的亲和力，交叉反应性，阻断两个分子之间的结合相互作用,和/或引起一定的生物效应。

术语“典范结构”，那些本技术领域的普通技术人员所理解的，指的是通过采用抗原结合（CDR）环的主链构象。从比较的结构的研究，已经发现，6个抗原结合环的5个仅具有可用构象有限的清单。每个典范结构的特征在于，多肽主链的扭转角。因此，抗体之间的通讯环，有非常相似的三维结构，尽管大部分环（Chothia and Lesk,J.Mol.Biol.,1987,196:901;Chothia et al.,Nature,1989,342:877;Martin and Thornton,J.Mol.Biol.,1996,263:800，均通过引用的方式全部并入）的高氨基酸序列可变性。而且，所采用的环结构和围绕其的氨基酸序列之间是有关系的。正如在本领域中已知的，通过环的长度和驻留在环关键位的氨基酸残基，以及保守框架（即，在环外）的范围内来确定特定的典范类构象。因此，可基于在这些关键氨基酸残基的存在下来制作分配给特定的典范类。术语“典范结构”可能还包括考虑到抗体的线性序列，例如，如由Kabat（Kabat等，在“免疫目标蛋白质序列”中，第5版，U.S.卫生和人类服务部门，1992）编目的。Kabat的编号方案是广泛采用的以一致的方式编号抗体可变结构域氨基酸残基的标准，用于本文，除非另有说明。附加结构的考虑也可用于确定抗体的典范结构。例如，Kabat编号没有充分反映这些差异，可以由Chothia等编号系统进行描述。和/或其它技术揭示，例如，晶体学和二维或三维计算模型。因此，给定的抗体序列可能被置于在典范类中，其允许，除其他外，确定适当的底架序列（例如，根据期望在文库中包括各种典范结构）。考虑抗体氨基酸序列和结构的Kabat编号，Chothia等所描述的，和它们的影响用于解释抗体结构典范方面，在文献中描述。

术语“CDR”，和其复数形式“CDRs”，是指互补决定区（CDR），3个组成轻链可变区（CDRL1，CDRL2和CDRL3）的约束性以及3个组成重链可变区（CDRH1，CDRH2和CDRH3）的约束性。CDR有助于抗体分子的功能活性并由氨基酸序列分离，其包含框架区。确切定义的CDR边界和长度受不同的分类和编号系统支配。因此CDR是指由Kabat，Chothia，接触或其它边界定义，包括，例如，下面描述的CDRH3编号系统。尽管不同的边界，这些系统中的每一个具有某种程度的重叠，在其可变区中构成了所谓的“超可变区”。因此，根据这些系统的CDR定义的长度和边界区（相对于在相邻框架区）可能会不同。见，例如Kabat等，“免疫目标蛋白质序列”，第5版，U.S.卫生和人类服务部门，1992；Chothia等.，J.Mol.Biol.，1987，196：901；和MacCallum等，J.Mol.Biol.,1996,262:732，均通过引用的方式全部并入。

本文所用的“CDRH3编号系统”定义CDRH3的第一个氨基酸，为始于位95和CDRH的最后一个氨基酸为位3102。注意，这是不根据Kabat的习惯的编号系统。氨基酸部分，始于95位被称为“TN1”和，当存在时，分配的数字95，96，96A，96B，等。注意，在当前应用中使用的命名法与在美国公开号2009/0181855和2010/0056386，和WO/2009/036379使用的略有不同。在这些应用中，位95是指定的“尾巴”残留，而在这里，尾巴（T）已经与N1部分结合，产生一个部分，指定的“TN1”。TN1部分随后为“DH”部分，其被分配号码97，97A，97B，97C，等。DH部分随后为“N2”部分，其中，当存在时，编号为98，98A，98B等。最后，“H3-JH”部分的最C-终端氨基酸残基是指定的，编号102。在其之前，残余物（N-末端）直接，当存在时，是101，和前1个为100（如果存在的话）。H3-JH氨基酸的其余部分以相反的顺序进行编号，只是氨基酸N-末端始于99至100，N-末端的残基为99A至99，以及99B，99C等。因此CDRH3序列残基数目的实施例可以包括以下：

具TN1和N2的13个氨基酸CDR-H3

(95)(96)(96A)(97)(97A)(97B)(97C)(97D)(98)(99)(100)(101)(102)

|------------|-----------------------|----|------------------|

TN1 DH N2 H3-JH

不具TN1和N2的10个氨基酸CDR-H3

(97)(97A)(97B)(97C)(97D)(97E)(97F)(97G)(101)(102)

|--------------------------------------|---------|

DH H3-JH

本发明的“底架”为抗体重链可变(IGHV)或轻链可变(IGLV)结构域的部分，其不是CDRH3或CDRL3的一部分，分别地。本发明的底架是限定的，作为抗体可变区的部分开始于FRM1的第一个氨基酸并结束于FRM3的最后一个氨基酸。就重链而言,底架包括的氨基酸包括从位1至位94。就轻链(kappa和lambda)而言,底架是限定的，如包括从位1至位88。本发明的底架对于对应的种系可变结构域序列而言，可含有特定的修饰相。这些修饰可能为加工的(例如以除去N-连接的糖基化位点)或天然产生的(例如，考虑到天然产生的等位（基因）变异)。例如，本领域已知免疫球蛋白基因清单是多态的(Wang et al.,Immunol.Cell.Biol.,2008,86:111;Collins et al.,Immunogenetics,2008,60:669,均通过引用的方式全部并入)；底架,CDR和恒定区代表这些等位基因变异体包含于本发明中。在一些实施方案中，可基于存在于不同患者人群中的等位（基因）变异来选择用于本发明特定实施方案的等位（基因）变异,例如，识别在这些患者人群中非免疫原性的抗体。在某些实施方案中，本发明该抗体免疫原性可依赖于患者群主要组织相容性复合体（MHC）基因中的等位基因变异。在设计本发明的文库中，此等位（基因）变异也可被考虑。在本发明的某些实施方案中，底架和恒定区被包含在载体中，而且通过同源重组在它们之间引入CDR3区域。

如本文使用的，设计具“定向多样性”的序列已被特异性设计，以同时含有序列多样性和长度多样性。定向的多样性不是随机的。

如本文使用的，术语“多样性”是指各种或明显的异质性。术语“序列多样性”是指共同代表几种可能性的各种序列，例如，那些在天然人抗体的序列中被发现的。例如，CDRH3序列多样性可指组合公知的人TN1、DH、N2和H3-JH部分的各种可能性以形成CDRH3序列。CDRL3序列多样性（kappa或lambda）可参考天然产生的轻链可变区各种可能性的结合，有助于CDRL3（即，“L3-VL”）和加入（即，“L3-JL”）部分，以形成CDRL3序列。如本文使用的，“H3-JH”是指IGHJ基因的部分有助于CDRH3。如本文使用的，“L3-VL”和“L3-JL”是指IGLV和IGLJ基因的部分（kappa或lambda）分别有助于CDRL3。

如本文使用的，术语“表达”是指涉及生产多肽的步骤，包括但不限于，转录、转录后修饰、翻译、翻译后修饰和分泌。

术语“框架区”是指本领域公认抗体可变区的部分，其在更多不同的（即，超变的）CDR之间存在。这样的框架区通常是指如框架1通过4（FRM1、FRM2、FRM3、和FRM4），并在三维空间内为所陈述的6个CDR（3个形成重链及3个形成轻链）提供了骨架，以形成抗原结合表面。

术语“全长重链”是指免疫球蛋白重链，其含有免疫球蛋白重链的每个典范结构的结构域，包括4个框架区，3个CDR,和恒定区。

术语“全长轻链”是指免疫球蛋白轻链，其含有免疫球蛋白轻链的每个典范结构的结构域，包括4个框架区，3个CDR,和恒定区。

术语“种系样”当使用于本发明轻链CDRL3序列方面时，指含有下述组合的这些序列:(i)首要的6个野生型残基通过IGVL种系基因(即，Kabat编号系统中，位89至94；“L”为kappa或lambda)有助于CDRL3;和(ii)几个氨基酸序列的1个，2、1至4个氨基酸长度，极大地,但不完全，源自JL部分(“L,”再次为kappa或lambda).对于kappaCDRL3序列最常见的长度(即8、9、和10残基),序列(ii)数量20及为:FT,LT,IT,RT,WT,YT,[X]T,[X]PT,[X]FT,[X]LT,[X]IT,[X]RT,[X]WT,[X]YT,[X]PFT,[X]PLT,[X]PIT,[X]PRT,[X]PWT和[X]PYT，其中[X]对应的氨基酸残基在各自VK种系序列的位95(Kabat)上发现。X是最常见的P,但也可能为S或任何其它在VK种系序列位95上发现的氨基酸残基。对于本文例举的8个VK底架，对应于160种系样序列，(即2至4个氨基酸长度20个序列结合每8个VK种系序列的位89至94)，在表1中提供。应用类似的途径来为lambda轻链定义种系样CDRL3序列。如上述的kappa序列，由IGVL基因(在这种情况下,IGV　)编码的CDRL3的完整，未突变的部分可在很大程度上与序列结合，但不完全，源自J　部分。此处,随后的序列(对应于(ii),上述)，数量5及为:YV,VV,WV,AV或V。此外，并如US2009/0818155中实施例7所述的，可进一步允许通过考虑偏好密码子在V　-基因-编码的CDRL3部分最后位变化，而仍然考虑结果序列“种系样”。更具体而言，US2009/0818155中实施例7的整个“简约文库”可被限定为“种系样。”本领域技术人员容易认识到这些方法可扩展到其它VK和V　序列。

术语“基因型-表型连锁”，如那些在本技术领域的普通技术人员所理解的，是指该核酸（基因型）编码特定表型（例如，结合抗原）的蛋白质可以从文库分离的事实。为了说明的目的，噬菌体表面表达的抗体片段可在其结合的抗原（例如，美国专利号5837500）基础上被分离。同步结合抗体与抗原使分离的噬菌体含有编码抗体片段的核酸。因此，表型（抗体片段的抗原结合特性）已经与基因型（编码抗体片段的核酸）“联系”。维持基因型-表型连锁的其他方法，包括那些Wittrup等（美国专利号6300065，6331391，6423538，6696251，6699658，和美国出版公开号20040146976，均通过引用的方式全部并入），Miltenyi（美国专利号7166423，通过引用的方式全部并入），Fandl（美国专利号6919183，美国出版公开号20060234311，均通过引用的方式全部并入），Clausell-Tormos等（化学生物学，2008，15：427，通过引用的方式全部并入），Love等（Nat.Biotechnol.,2006，24：703，通过引用的方式全部并入），以及Kelly等（Chem.Commun.,2007，14：1773，通过引用的方式全部并入）。术语可用于参考任何方法，本地化的抗体蛋白连同基因编码抗体蛋白质，在方式中，它们都可以被回收，同时保持它们之间的联系。

本文中术语“异源部分”用于表示另外部分的抗体，其中部分是不是自然发生的抗体的一部分。示例性的异源部分包括药物、毒素、显像剂、和任何其它的组分，这可能提供不为抗体本身固有的活性。

如本文使用的，术语“宿主细胞”是用来指细胞，包含本发明的多核苷酸。应当理解，此术语不仅是指对特定主题的细胞，而是这种细胞的后代或潜在后代。由于某些修改，由于突变或环境的影响，可能会发生在后代，事实上，此后代未必与亲本细胞相同，但仍包括在本文所用的术语范围内。

如本文使用的，术语“人抗体CDR文库”包括至少一个多核苷酸或多肽文库，其已经设计为代表人抗体（例如，术语“CDR”在人抗体CDR文库中可以被“CDRL1”，“CDRL2”，“CDRL3”，“CDRH1”，“CDRH2”，和/或“CDRH3”取代）中天然产生的CDR的序列多样性和长度多样性。已知人CDR序列代表不同的数据集，包括Jackson et al.,J.Immunol Methods,2007,324:26;Martin,Proteins,1996,25:130;Lee et al.,Immunogenetics,2006,57:917,Boyd et al.,Science Translational Medicine,2009,1:1,andWO/2009/036379，均通过引用的方式全部并入，和HPS，其在附录A中提供。

术语“人免疫前集,”或者“HPS,”是指3,571策划的人免疫前重链序列参考集对应于GI Nos.，在附录A中提供。

“完整抗体”为一个包含全长重-和轻-链(即，每个重链和轻链的4个框架,3个CDR,和恒定区)。完整抗体也是指“全长”抗体。

术语“长度多样性”是指核苷酸或氨基酸序列家族的各种长度。例如，在天然产生的人抗体中，重链CDR3序列长度不同，例如，从约2氨基酸至超过约35氨基酸，以及轻链CDR3序列长度不同，例如，从约5至约16氨基酸。

术语“文库”是指实体集，包含2个或更多个具有如本文所述多样性的实体，和/或根据本发明的方法设计。例如，“多核苷酸文库”是指多核苷酸集，包含2个或更多个多核苷酸，具有如本文所述的多样性，和/或根据本发明的方法设计。“多肽文库”是指多肽集，包括2个或多个多肽，具有如本文所述的多样性，和/或根据本发明的方法设计。“合成多核苷酸文库”是指多核苷酸集，其包括2个或多个合成多核苷酸，具有如本文所述的多样性，和/或根据本发明的方法设计。所有成员都为合成的文库也由本发明所包括。“人抗体文库”是指多肽集，包括2个或多个多肽，具有如本文所述的多样性，和/或根据本发明的方法设计，例如设计文库以代表天然产生的人抗体的序列多样性和长度多样性。在一些实施方案中，术语“文库”可能是指共享类似结构或序列特征的实体集，例如，“重链文库”，“轻链文库”，“抗体文库，”和/或“CDRH3文库。

术语“物理实现”是指理论（例如，以计算机为基础的）部分或合成（例如，寡核苷酸-基）多样性可实际物理采样，例如，通过任何显示的方法。示例性展示方法包括：噬菌体展示、核糖体展示、和酵母展示。对于合成序列，文库的物理实现的大小依赖于（1）理论多样性的分数，其实际上可以进行合成，以及（2）特定筛选方法的局限性。筛选方法示例性的局限性包括变体的数量，可以在特定的测定（例如，核糖体展示、噬菌体展示、酵母展示）中筛选，以及宿主细胞（例如，酵母、哺乳动物细胞、细菌）的转化效率可用于进行筛选试验。为说明的目的，给出了10¹²个成员的理论多样性文库，文库（例如，在酵母、细菌细胞、或核糖体展示中）的示例性物理实现，能最大限度地包括1011个成员，因此，文库理论多样性的样品约10％。然而，如果少于文库的10¹¹个成员，具合成10¹²个理论多样性，及文库的物理实现能最大限度地包括10¹¹个成员，文库的物理实现小于文库理论多样性的10％被采样。同样，文库的物理实现，可以最大限度地包括超过10¹²个成员将“过采样”的理论多样性，这意味着每个成员可以存在多于1次（假设合成整个10¹²个理论多样性）。

术语“多核苷酸”是指核酸，如DNA分子和RNA分子及其类似物（例如，使用核苷酸类似物或使用核酸化学产生的DNA或RNA）。如果需要，多核苷酸可以由合成的方法制作，例如，使用本领域认可的核酸化学或使用酶（例如，聚合酶），以及，如果需要，可以修饰。典型的修饰包括甲基化，生物素，和其它本领域公知的修饰。此外，核酸分子可以是单链或双链，并在需要的地方，连接到可检测的部分。此处，本文的碱基代表遵照国际纯化学与应用化学联盟（IUPAC）命名法（参见美国出版公开号2009/0181855，通过引用的方式全部并入）。

免疫前抗体文库具有序列多样性和长度多样性，在这些序列遭受阴性选择和/或体细胞突变之前，类似于天然产生的人抗体序列。例如，相信Lee等描述的序列集，（免疫遗传学，2006，57：917，通过引用的方式全部并入）和本文所描述（参见附录A）的人免疫前集（HPS）为代表来自免疫前清单序列。在本发明的某些实施方案中，本发明的序列与这些序列（例如，就组分和长度而言）类似。

如本文使用的，术语“sitewise随机”描述生成氨基酸序列的过程，其中只考虑发生在个体位的氨基酸，并且高阶模体（例如，逐对相关）未做出解释（例如，见Knappik，等，J Mol Biol,2000,296:57，并在美国公开号为2009/0181855中分析提供，均通过引用的方式全部并入）。

术语“分割池合成”是指程序，其中的多个个体第一反应的产物是组合（池）的，然后在参于多个第二反应之前分离（分割）。例如，美国公开号2009/0181855（其全部内容通过引用并入）描述了合成278DH分部（产物），每个在单独的反应中。合成后，这些278部分是结合（池）的，然后分布（分割）在141列之中，用于合成N2部分。这使得每个278DH部分与每个141N2部分配对。

如本文使用的，“随机”描述了生成核苷酸或氨基酸随机序列的过程，这被认为是从概率分布的一个示例的元素（例如参见美国专利号5723323）。

如本文使用的，术语“合成多核苷酸”是指通过化学过程形成的分子，与天然来源的分子，或通过以天然来源的分子为基础的模板扩增（例如，免疫球蛋白链种群的B细胞通过PCR扩增克隆的不是“合成”，这里所用的）的分子相反。在一些情况下，例如，当是指本发明的文库，其包含多个部分（例如TN1、DH、N2和/或H3-JH），发明包括文库，其中合成至少1个，2个，3个，或4个前面提及的成分。通过举例的方式，文库，合成其中的某些成分，而其它成分是天然来源的或通过以天然来源的分子为基础的模板扩增，将由本发明所包含。文库完全合成，当然，也可以由本发明所包含。

术语“理论多样性”是指在文库设计中变体的最大数量。例如，给定3个残基的氨基酸序列，其中每个残基1和3可能为5个氨基酸类型中的任何1个以及残基2可能为20个氨基酸类型中的任何1个，理论多样性为5×20×5=500可能的序列。类似地如果序列X通过组合4个氨基酸部分来构建，其中部分1具有100个可能的序列，部分2具有75个可能的序列，部分3具有250个可能的序列，以及部分4具有30个可能的序列，片段X的理论多样性可能为100×75×200×30，或5.6×10⁵个可能的序列。

术语“理论部分池”是指多核苷酸或多肽部分集，可以用作构建块以组装更大的多核苷酸或多肽。例如，理论部分池含含有TN1、DH、N2、和H3-JH部分可被用于通过连接它们组装CDRH3序列文库，组合以形成由[TN1]-[DH]-[N2]-[[H3-JH]代表的序列，并合成相应的寡核苷酸。术语“理论部分池”可以适用于任何多核苷酸或多肽部分集。因此，当TN1、DH、N2、和H3-JH部分集共同被视为理论部分池，每个部分的个体集也包含理论部分池，特别是TN1理论部分池，DH理论部分池，N2理论部分池和H3-JH理论部分池。任何含有2个或更多个序列的这些理论部分池的子集，也可以为考虑的理论部分池。

术语“独特”，如本文使用的，是指从每一个序列内的设计集（例如，理论多样性）内不同于（例如，具有不同的化学结构）每一个其它序列的序列。应当理解的是，在特定的物理实现中，来自理论多样性的许多独特的序列有可能有多个副本。例如，在理论水平文库包含3个独特的序列，如果在文库的物理实现中每个序列中发生3次，可能包含9个成员。然而，在某些实施方案中，每个独特的序列可能只发生1次，少于1次或1次以上。

术语“可变的”是指免疫球蛋白结构域的部分，其表现出它们的序列中可变性，而且涉及确定特定的抗体（即“可变结构域”）的特异性和结合亲和力。变化性不均匀地分布于抗体整个的可变结构域；其集中于每个重链中和轻链中可变区的子域，这些子域被称为“超可变的”区域或“互补确定的区域（CDR）。可变结构域更保守的（即，非超可变的）部分的被称为“框架”区（FRM）。天然产生的重链和轻链的可变结构域均包含4个FRM区域，主要是采用β-折叠结构，由三个超可变区连接，其形成环连接，及在某些情况下形成部分，β-折叠片结构。每个链的超可变区由FRM在近距离保持在一起以及，与超可变区形成其它链，有助于抗原结合站位点的形成（参见Kabat等，免疫相关蛋白序列，5th Ed。公共卫生服务，美国国立卫生，Bethesda,Md.,1991，通过引用的方式全部并入）。恒定结构域不直接涉及抗原结合，但表现出不同的效应子功能，例如，例如，抗体依赖性细胞介导的细胞毒性和补体激活。

本发明的文库含有“VKCDR3”序列和“V　CDR3”序列分别是指轻链CDR3（CDRL3）序列的kappa和lambda的子集的。这种文库针对多样性设计，以共同代表人抗体CDRL3清单的长度和序列多样性。这些文库的“免疫前”版本具有类似的序列多样性和长度的多样性，如在这些序列进行负向选择和/或体细胞突变之前，天然产生的人抗体CDRL3序列。已知人CDRL3序列中在不同的数据集中代表，包括NCBI数据库，WO/2009/036379，以及Martin，蛋白质，1996，25：130均通过引用的方式全部并入。

文库的通常设计

可设计本发明提供的抗体文库，以反映如由人的免疫系统所创建的免疫前清单的某些方面。某些本发明的文库是基于通过收集的人V、D、和J基因以及人重链的大型数据库和轻链序列（例如，来自下列的公知的种系序列和序列：Jackson等，免疫学方法，2007，324：26；Lee等，免疫遗传学，2006，57：917；Boyd等，科学转化医学，2009，1：1-8，均通过引用的方式全部并入）来理性设计了解的；以及来自重排的VK和V　序列（参见WO/2009/036379，也通过引用的方式全部并入）的序列编译。可以找到额外的信息，例如，Scaviner等，Exp.Clin.Immunogenet，1999，16：234;Tomlinson等，J.Mol.Biol，1992，227：799；Matsuda等，J.Exp.Med，1998，188：2151，均通过引用的方式全部并入。

在本发明的某些实施方案中，部分代表在人清单中发现的可能的V、D、和J多样性，以及交界多样性（即，TN1和N2），从头合成如单链或双链DNA寡核苷酸。在本发明的某些实施方案中，寡核苷酸编码的CDR序列以及一个或多个含重链或轻链底架序列和恒定结构域的受体载体导入到酵母中。采用无引物基础的PCR扩增或来自哺乳动物的cDNA或mRNA的模板定向克隆步骤。通过标准同源重组，接受酵母重组CDR部分与受体载体含有底架序列和恒定区，以创建正确有序的合成，全长人重链和/或轻链免疫球蛋白文库，其可被基因传播、表达、和筛选。本领域技术人员将容易认识到可以设计受体载体，以生产构建而不是全长人重链和/或轻链。例如，在本发明的某些实施方案中，可以设计底架以编码多肽部分编码抗体片段或抗体片段的亚基，使得序列编码抗体片段，或其亚基（当寡核苷酸盒含有CDR与受体的载体结合时产生）。

因此，在某些实施方案中，本发明提供合成免疫前人抗体清单，清单包括:

(a)一个或多个选择的人抗体重链底架(即，重链可变区的氨基酸1至94,使用Kabat定义);

(b)CDRH3清单(下面将更全面地描述)，基于人IGHD和IGHJ种系序列设计，以及从人CDRH3序列的参考集提取TN1和N2序列，CDRH3清单包含(i)TN1部分;(ii)DH部分;(iii)N2部分;(iv)H3-JH部分。

(c)一个或多个选择的人抗体kappa和/或lambda轻链底架；以及

(d)基于人IGLV和IGLJ种系序列设计的CDRL3清单，其中“L”可能为kappa或者lambda轻链。

本发明还提供了用于生产和使用这类文库的方法，以及文库包含一个或多个免疫球蛋白结构域或抗体片段。在下面更详细地提供了本发明抗体文库各成分的设计和合成。

抗体文库底架序列的设计

在某些实施方案中，提供的文库从选定的底架序列构建，其基于天然产生的可变结构域序列（例如，IGHV和IGLV基因）。可以任意选择这种底架序列，或通过某些预先确定标准的定义。例如，Kabat数据库，为电子数据库，其中含有非冗余重排的抗体序列，可被查询用于那些最常见代表的重链和轻链种系序列。如BLAST算法，或更专业的工具，如SoDA（Volpe等，生物信息学，2006，22：438-44，通过引用的方式全部并入），可以用来比较重排的抗体序列与种系序列（例如使用V BASE2数据库；例如参见Retter等，核酸Res，2005，33：D671，D674，通过引用的方式全部并入），或类似的人V、D和J基因的集合，以识别最常用于产生功能性抗体的种系家族。

多种标准可用于选择底架以列入本发明的文库。例如，序列是已知的（或已经确定）在酵母中表示较差，或在本发明中使用（例如，细菌、哺乳动物细胞、真菌、或植物）其它有机体可以从文库排除。也可以基于在人类外周血中代表其相应的种系基因来选择底架。在本发明的某些实施方案中，选择对应于种系序列的底架，其在人类外周血中高度代表可能是可取的。在一些实施方案中，选择对应种系序列是较少代表的底架可能是可取的，例如，增加文库的正则多样性。因此，可以选择底架以生产文库，其代表功能的人抗体的最大和最多的结构多样性。

在本发明的某些实施方案中，较少多样化的底架可以利用，例如，如果其为可取的产生较小的，更集中的文库具较少的底架可变性和较大的CDR可变性。在本发明的一些实施方案中，底架可以基于它们本发明细胞（例如酵母细胞）的表达来选择以及典范结构的多样性由所选择的序列代表，因此，可能会生产具有典范结构多样性的文库，其在本发明的细胞中表达顺畅。

重链底架序列的设计

设计和选择重链底架序列可用于本发明，见美国公开号2009/0181855和2010/0056386,以及WO/2009/036379中详述,均通过引用的方式全部并入,因此，这里只简要描述。

在一般情况下，所述文库的VH结构域包含3个组成部分：(1)VH“底架,”其包括氨基酸1至94(使用Kabat编号),(2)所述CDRH3,其在本文中的定义包括适当的所述Kabat CDRH3(位95-102),和(3)所述FRM4区域,包括氨基酸103至113(Kabat编号).所述整体VH结构域结构可因此示意性地示出(不按比例)如:

(1)…(94) (95)…(102) (103)…(113)

|----------------------------------------|-------------------|--------------------------|

VH底架 CDRH3 FRM4

在本发明的某些实施方案中，所述文库的VH底架可包含一个或多个下列IGHV种系序列:IGHV1-2,IGHV1-3,IGHV1-8,IGHV1-18,IGHV1-24,IGHV1-45,IGHV1-46,IGHV1-58,IGHV1-69,IGH8,IGH56,IGH100,IGHV3-7,IGHV3-9,IGHV3-11,IGHV3-13,IGHV3-15,IGHV3-20,IGHV3-21,IGHV3-23,IGHV3-30,IGHV3-33,IGHV3-43,IGHV3-48,IGHV3-49,IGHV3-53,IGHV3-64,IGHV3-66,IGHV3-72,IGHV3-73,IGHV3-74,IGHV4-4,IGHV4-28,IGHV4-31,IGHV4-34,IGHV4-39,IGHV4-59,IGHV4-61,IGHV4-B,IGHV5-51,IGHV6-1,和/或IGHV7-4-1的从约Kabat残基1至约Kabat残基94。在本发明的一些实施方案中，文库可含有一个或多个这些序列,一个或多个这些序列的等位基因变异体,或编码氨基酸序列其至少约99.9%,99.5%,99%,98.5%,98%,97.5%,97%,96.5%,96%,95.5%,95%,94.5%,94%,93.5%,93%,92.5%,92%,91.5%,91%,90.5%,90%,89%,88%,87%,86%,85%,84%,83%,82%,81%,80%,77.5%,75%,73.5%,70%,65%,60%,55%,或者50%地等同于一个或多个这样的序列。本领域技术人员将认识到上述提供的给定底架定义,任何IGHV-编码序列可被适用于作为本发明的底架。如在美国公开号2009/0181855和2010/0056386,以及WO/2009/036379(均通过引用的方式全部并入)所示例的,这些底架可能是多变的,特别是因CDRH1和CDRH2区域中氨基酸残基的变化而变化,进一步增加文库的多样性。

轻链底架序列的设计

设计和选择轻链底架序列可用于本发明，见美国公开号2009/0181855和2010/0056386,以及WO/2009/036379,中详述均通过引用的方式全部并入,因此，这里只简要描述。本发明的所述轻链底架可基于kappa和/或lambda轻链序列。

文库的VL结构域包含3个主要组成部分:(1)VL“底架”,其包括氨基酸1至88(使用Kabat编号),(2)所述CDRL3,其在本文中的定义包括适当的所述KabatCDRL3(位89-97),和(3)所述FRM4区域,包括氨基酸98至107(Kabat编号).所述整体VL结构域结构可因此示意性地示出(不按比例)如:

(1)…(88) (89)…(97) (98)…(107)

VL底架 CDRL3 FRM4

在本发明的某些实施方案中，文库的VL底架包括一个或多个底架基于IGKV种系序列。在本发明的某些实施方案中，文库的VL底架可包含一个或多个下列IGKV种系序列:IGKV1-05,IGKV1-06,IGKV1-08,IGKV1-09,IGKV1-12,IGKV1-13,IGKV1-16,IGKV1-17,IGKV1-27,IGKV1-33,IGKV1-37,IGKV1-39,IGKV1D-16,IGKV1D-17,IGKV1D-43,IGKV1D-8,IGK54,IGK58,IGK59,IGK60,IGK70,IGKV2D-26,IGKV2D-29,IGKV2D-30,IGKV3-11,IGKV3-15,IGKV3-20,IGKV3D-07,IGKV3D-11,IGKV3D-20,IGKV4-1,IGKV5-2,IGKV6-21和/或IGKV6D-41的从约Kabat残基1至约Kabat残基88。在本发明的一些实施方案中，文库可含有这些序列的一个或多个,这些序列的一个或多个等位基因变异体,或编码氨基酸序列至少约99.9%、99.5%、99%、98.5%、98%、97.5%、97%、96.5%、96%、95.5%、95%、94.5%、94%、93.5%、93%、92.5%、92%、91.5%、91%、90.5%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、77.5%、75%、73.5%、70%、65%、60%、55%、或者50%等同于这些序列的一个或多个。

在本发明的某些实施方案中，文库的VL底架包括一个或多个底架基于IG　V种系序列。在本发明的某些实施方案中，文库的VL底架可包含一个或多个下列IG　V种系序列:IG　V3-1,IG　V3-21,IG　44,IG　V1-40,IG　V3-19,IG　V1-51,IG　V1-44,IG　V6-57,IG　11,IG　V3-25,IG　53,IG　V3-10,IG　V4-69,IG　V1-47,IG　41,IG　V7-43,IG　V7-46,IG　V5-45,IG　V4-60,IG　V10-54,IG　V8-61,IG　V3-9,IG　V1-36,IG　48,IG　V3-16,IG　V3-27,IG　V4-3,IG　V5-39,IG　V9-49,和/或IG　V3-12的从约Kabat残基1至约Kabat残基88。在本发明的一些实施方案中，文库可含有这些序列的一个或多个,这些序列的一个或多个等位基因变异体,或编码氨基酸序列至少约99.9%、99.5%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%、或者50%等同于这些序列的一个或多个。

本领域技术人员将认识到上述提供的给定底架定义,任何IGKV-或IG　V-编码序列可被适用于作为本发明的底架。

TN1,DH,N2和H3-JH部分的设计和选择

人种系清单含有至少6个IGHJ基因(IGHJ1、IGHJ2、IGHJ3、IGHJ4、IGHJ5、和IGHJ6；包括在表14中,其中所述主要等位基因为指定的“01,”而且选定的等位基因变异体为指定的“02”或“03”),而且至少27个IGHD基因(表16,包括等位基因变异体)。在一些实施方案中，本发明包含CDRH3多肽序列文库,或多核苷酸序列编码CDRH3序列，所述文库包含本文所公开的任何理论部分池成员。

本领域的普通技术人员将认识到对于生产本发明中的功能性CDRH3文库，本文提供的理论部分池中的不是每个部分都是必需的。因此，在某些实施方案中，本发明的CDRH3文库将含有本发明所述的任何理论部分池的部分集。例如，在本发明的某些实施方案中，本发明提供的任何理论部分池的H3-JH部分的至少约15,30,45,60,75,90,100,105,120,135,150,165,180,195,200,210,225,240,255,270,285,300,320,340,360,380,400,420,440,460,480,500,520,540,560,580,600,620,640,或者643,或由本文所述的方法产生,列入到文库中。在本发明的一些实施方案中，本发明提供的任何理论部分池的DH部分的至少约15,30,45,60,75,90,100,105,120,135,150,165,180,195,200,250,300,350,400,450,500,550,600,650,700,750,800,850,900,950,1000,1050,1100,1111,2000,3000,4000,5000,6000,7000,14000,21000,28000,35000,42000,49000,56000,63000,或者68374,或由本文所述的方法产生,列入到文库中。在本发明的一些实施方案中，本发明提供的任何理论部分池的TN1和/或N2部分的至少约10,20,30,40,50,60,70,80,90,100,110,120,130,140,141,150,160,170,180,190,或者200,220,240,260,280,300,320,340,360,380,400,420,424,440,460,480,500,550,600,650,700,727,750,800,850,900,950,或1000,或由本文所述的方法产生,列入到文库中。在某些实施方案中，本发明的文库可含有小于特定数量的多核苷酸或多肽部分,其中使用任何1个上述提供的用于各自部分的整数，部分的所述数量是限定的。在本发明的一些实施方案中，特定的数量范围是限定的,使用上述提供的任何2个整数，如所述范围的下边界和上边界（包括或排除）。提供的所有整数的组合，其限定的上边界和下边界，是预期的。

在某些实施方案中，本发明提供CDRH3文库包含本发明提供的任何理论部分池部分的至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,或99%。例如，本发明提供文库包含本发明提供的任何理论部分池的TN1,DH,N2,和/或H3-JH部分的至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,和99%。在本发明的一些实施方案中，特定的百分比范围是限定的,使用上述提供的任何2个百分比，如所述范围的下边界和上边界（包括或排除）。提供的所有百分比的组合，其限定的上边界和下边界，是预期的。

在本发明的一些实施方案中，CDRH3文库中H3-JH,DH,TN1和/或N2部分的至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,或99%为本发明提供的任何理论部分池的H3-JH,DH,TN1,和/或N2部分,或由本文所述的方法产生。在本发明的一些实施方案中，从CDRH3文库(例如，结合到特定抗原和/或通用配体通过一个或多个轮的选择)中分离的抗体的H3-JH,DH,TN1,和/或N2部分的至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,或99%为本发明提供的任何理论部分池的H3-JH,DH,TN1,和/或N2部分,或由本文所述的方法产生。在某些实施方案中，本发明的CDRH3文库可含有小于本发明提供的任何理论部分池的H3-JH,DH,TN1,和/或N2部分的特定百分比,或由本文所述的方法产生,其中使用任何1个上述提供的用于各自部分的整数，部分的所述数量是限定的。在本发明的一些实施方案中，特定的百分比范围是限定的,使用上述提供的任何2个百分比，如所述范围的下边界和上边界，包括或排除。提供的所有百分比的组合，其限定的上边界和下边界，是预期的。

在阅读本文的公开时，本领域技术人员将理解。本文提供的任何理论部分池中给定的TN1、DH、N2、和/或H3-JH部分,或由本文描述的方法产生,类似于TN1、DH、N2、和/或H3-JH部分,及对应的CDRH3文库,可被生产,而不是100%与其序列方面所提供的相同,可能在功能上非常相似。此理论部分池和CDRH3文库也落入本发明的范围内。可以使用在本领域中公知的各种技术，以获得这些附加的序列，包括本文中所提供的诱变技术。因此，本发明明确列举的每个实施方案也可以使用部分来实行，其共享本发明提供的任何理论部分池中的任何部分的特定百分比同一性，或由本文所述的方法产生。例如，本发明的每个先前描述的实施方案可使用TN1,DH,N2,和/或H3-JH部分来实行，其与本发明提供的任何理论部分池中的TN1,DH,N2,和/或H3-JH部分至少约50%,55%,60%,65%,70%,75%,80%,85%,90%,91%,92%,93%,94%,95%,96%,97%,98%,99%,99.5%,或99.9%的一致性,或由本文所述的方法产生。

在一些实施方案中，本发明提供文库从一个或多个VH底架序列结合以一个或多个TN1部分,一个或多个DH部分,一个或多个N2部分,和一个或多个H3-JH部分产生。在某些实施方案中，每个底架的至少1、2、5、10、20、50、75、或100,TN1、DH、N2、或H3-JH部分包括在本发明的文库中。

在一些实施方案中，本发明提供从理论部分池选择TN1、DH、N2、和H3-JH部分的方法，以列入合成CDRH3文库中，包含：

(i)提供理论部分池含有一个或多个TN1、DH、N2、和H3-JH部分;

(ii)提供CDRH3序列参考集；

(iii)利用(i)中的理论部分池以鉴定与(ii)参考集中每个CDRH3序列接近的匹配；和

(iv)选择来自理论部分池的部分以列入合成文库。

在一些实施方案中，选择的过程（iv）可以涉及任何数量的其他条件，包括在第（ii）集中（i）部分的发生频率；相应部分的使用权重；和部分（例如，疏水性，α-螺旋倾向，和/或等电点）的任何物理化学性能（见www.genome.jp/aaindex/所有数值指数）。任意地，TN1和/或N2部分不会出现在理论部分池（i）中，但在（ii）参考集中被发现，可被识别并添加到预期的理论部分池，以在预期的理论部分池和/或合成本发明的文库中产生增加TN1和/或N2多样性的理论部分池。

任何特征或部分的特征集可用于选择它们以列入文库,包括例如一个或多个生物性能(例如，免疫原性、稳定性、半衰期)和/或一个或更多的物理化学性能，如以上提供的数字指标。在一些实施方案中，至少1,2,3,4,5,6,7,8,9,10,11,12,13,14,15或更多的此性能用于部分以列入本发明的文库。

在索引中提供的理化性能包括，例如，ANDN920101α-CH的化学位移s(Andersen et al.,1992);ARGP820101疏水性指数(Argos et al.,1982);ARGP820102信号序列螺旋电位(Argos et al.,1982);ARGP820103膜埋偏好参数(Argos et al.,1982);BEGF750101内螺旋的构象参数(Beghin-Dirkx,1975);BEGF750102β-结构的构象的参数(Beghin-Dirkx,1975);BEGF750103β-转角构象参数(Beghin-Dirkx,1975);BHAR880101平均弹性指数(Bhaskaran-Ponnuswamy,1988);BIGC670101残基量(Bigelow,1967);BIOV880101访问的信息价值;平均分数35%(Biou et al.,1988);BIOV880102访问的信息价值;平均分数23%(Biou et al.,1988);BROC820101在TFA中的保留系数(Browne et al.,1982);BROC820102在HFBA中的保留系数(Browne et al.,1982);BULH740101转移自由能至表面(Bull-Breese,1974);BULH740102表观部分比容量(Bull-Breese,1974);BUNA790101NH化学位移(Bundi-Wuthrich,1979);BUNA790102α-CH的化学位移(Bundi-Wuthrich,1979);BUNA790103自旋-自旋耦合常数3JHα-NH(Bundi-Wuthrich,1979);BURA740101α-螺旋的归一化频率(Burgess et al.,1974);BURA740102延伸结构的归一化频率(Burgess et al.,1974);CHAM810101立体参数(Charton,1981);CHAM820101极化参数(Charton-Charton,1982);CHAM820102在水中的溶液自由能,kcal/mole(Charton-Charton,1982);CHAM830101卷曲构象的Chou-Fasman参数(Charton-Charton,1983);CHAM830102β-折叠Chou-Fasman参数相关性最好的，由残基限定的参数(Charton-Charton,1983);CHAM830103在侧链中原子数标记为1+1(Charton-Charton,1983);CHAM830104在侧链中原子数标记为2+1(Charton-Charton,1983);CHAM830105在侧链中原子数标记为3+1(Charton-Charton,1983);CHAM830106在所述最长链中的键数(Charton-Charton,1983);CHAM830107电荷转移能力的参数(Charton-Charton,1983);CHAM830108电荷转移供体能力的参数(Charton-Charton,1983);CHOC750101埋藏残基的平均容量(Chothia,1975);CHOC760101在三肽中的接触表面残基(Chothia,1976);CHOC760102在折叠蛋白中的接触表面残基(Chothia,1976);CHOC76010395%埋藏的残基比例(Chothia,1976);CHOC760104100%埋藏的残基比例(Chothia,1976);CHOP780101β-转角的归一化频率(Chou-Fasman,1978a);CHOP780201α-螺旋的归一化频率(Chou-Fasman,1978b);CHOP780202β-折叠的归一化频率(Chou-Fasman,1978b);CHOP780203β-转角的归一化频率(Chou-Fasman,1978b);CHOP780204N-末端螺旋的归一化频率(Chou-Fasman,1978b);CHOP780205C-末端螺旋的归一化频率(Chou-Fasman,1978b);CHOP780206N-末端非螺旋区域的归一化频率(Chou-Fasman,1978b);CHOP780207C-末端非螺旋区域的归一化频率(Chou-Fasman,1978b);CHOP780208N-末端β-折叠的归一化频率(Chou-Fasman,1978b);CHOP780209C-末端β-折叠的归一化频率(Chou-Fasman,1978b);CHOP780210Normalized frequency of N-末端非β区域的归一化频率(Chou-Fasman,1978b);CHOP780211C-末端β区域的归一化频率(Chou-Fasman,1978b);CHOP780212在转角中第一残基的频率(Chou-Fasman,1978b);CHOP780213在转角中第二残基的频率(Chou-Fasman,1978b);CHOP780214在转角中第三残基的频率(Chou-Fasman,1978b);CHOP780215在转角中第四残基的频率(Chou-Fasman,1978b);CHOP780216在转角中第2和第3残基的频率(Chou-Fasman,1978b);CIDH920101α-蛋白质的归一化疏水性标度(Cid etal.,1992);CIDH920102β-蛋白质的归一化疏水性标度(Cid et al.,1992);CIDH920103α+β-蛋白质的归一化疏水性标度(Cid et al.,1992);CIDH920104α/β-蛋白质的归一化疏水性标度(Cid et al.,1992);CIDH920105归一化平均疏水性标度(Cid et al.,1992);COHE430101部分比容量(Cohn-Edsall,1943);CRAJ730101中间螺旋的归一化频率(Crawford et al.,1973);CRAJ730102β-折叠的归一化频率(Crawford et al.,1973);CRAJ730103转角的归一化频率(Crawford et al.,1973);DAWD720101大小(Dawson,1972);DAYM780101氨基酸组分(Dayhoffet al.,1978a);DAYM780201相对突变性(Dayhoff et al.,1978b);DESM900101对于细胞色素b的膜偏好:MPH89(Degli Esposti et al.,1990);DESM900102平均膜偏好:AMP07(Degli Esposti et al.,1990);EISD840101一致归一化的疏水性标度(Eisenberg,1984);EISD860101溶剂化自由能(Eisenberg-McLachlan,1986);EISD860102基于原子的疏水矩(Eisenberg-McLachlan,1986);EISD860103疏水矩方向(Eisenberg-McLachlan,1986);FASG760101分子量(Fasman,1976);FASG760102熔点(Fasman,1976);FASG760103旋光度(Fasman,1976);FASG760104pK-N(Fasman,1976);FASG760105pK-C(Fasman,1976);FAUJ830101疏水性参数pi(Fauchere-Pliska,1983);FAUJ880101图形形状指数(Fauchere et al.,1988);FAUJ880102平滑upsilon立体参数(Fauchere et al.,1988);FAUJ880103归一化的范德华体积(Fauchere et al.,1988);FAUJ880104侧链的STERIMOL长度(Fauchere et al.,1988);FAUJ880105侧链的STERIMOL最小宽度(Fauchere et al.,1988);FAUJ880106侧链的STERIMOL最大宽度(Fauchere et al.,1988);FAUJ880107α-碳的N.m.r.化学位移(Fauchere et al.,1988);FAUJ880108局部电效应(Fauchere et al.,1988);FAUJ880109氢键供体的数量(Fauchere etal.,1988);FAUJ880110完整非键轨道的数量(Fauchere et al.,1988);FAUJ880111正电荷(Fauchere et al.,1988);FAUJ880112负电荷(Fauchere et al.,1988);FAUJ880113pK-a(RCOOH)(Fauchere et al.,1988);FINA770101螺旋-卷曲平衡常数(Finkelstein-Ptitsyn,1977);FINA910101在位点i-1的螺旋起始(Finkelstein et al.,1991);FINA910102在位点i,i+1,i+2的螺旋起始(Finkelstein et al.,1991);FINA910103在位点j-2,j-1,j的螺旋终止(Finkelstein et al.,1991);FINA910104在位点j+1的螺旋终止参数(Finkelstein et al.,1991);GARJ730101分配系数(Garel et al.,1973);GEIM800101α-螺旋指数(Geisow-Roberts,1980);GEIM800102对于α-蛋白质的α-螺旋指数(Geisow-Roberts,1980);GEIM800103对于β-蛋白质的α-螺旋指数(Geisow-Roberts,1980);GEIM800104对于α/β-蛋白质的α-螺旋指数(Geisow-Roberts,1980);GEIM800105β-链指数(Geisow-Roberts,1980);GEIM800106对于β-蛋白质的β-链指数(Geisow-Roberts,1980);GEIM800107对于α/β-蛋白质的β-链指数(Geisow-Roberts,1980)

GEIM800108非周期性指数(Geisow-Roberts,1980);GEI M800109α-蛋白质的非周期性指数(Geisow-Roberts,1980);GEIM800110β-蛋白质的非周期性指数(Geisow-Roberts,1980);GEIM800111α/β-蛋白质的非周期性指数(Geisow-Roberts,1980);GOLD730101疏水性因子(Goldsack-Chalifoux,1973);GOLD730102残基量(Goldsack-Chalifoux,1973);GRAR740101组成(Grantham,1974);GRAR740102极性(Grantham,1974)

GRAR740103容量(Grantham,1974);GUYH850101分配能(Guy,1985);HOPA770101水合数(Hopfinger,1971),被Charton-Charton引用(1982)

HOPT810101亲水性值(Hopp-Woods,1981);HUTJ700101热容(Hutchens,1970);HUTJ700102绝对熵(Hutchens,1970);HUTJ700103形成熵(Hutchens,1970);ISOY800101α-螺旋的归一化相对频率(Isogai et al.,1980);ISOY800102延伸结构的归一化相对频率(Isogai et al.,1980);ISOY800103弯曲的归一化相对频率(Isogai et al.,1980);ISOY800104弯曲R的归一化相对频率(Isogai et al.,1980);ISOY800105弯曲S的归一化相对频率(Isogai et al.,1980);ISOY800106螺旋端的归一化相对频率(Isogaiet al.,1980);ISOY800107双弯曲的归一化相对频率(Isogai et al.,1980);ISOY800108卷曲的归一化相对频率(Isogai et al.,1980);JANJ780101平均接触表面面积(Janin et al.,1978);JANJ780102埋藏的残基百分比(Janin etal.,1978);JANJ780103暴露的残基百分比(Janin et al.,1978);JANJ790101埋藏和接触摩尔分数的比例(Janin,1979);JANJ790102转移自由能(Janin,1979);JOND750101疏水性(Jones,1975);JOND750102pK(-COOH)(Jones,1975);JOND920101发生的相对频率(Jones et al.,1992);JOND920102相对突变性(Jones et al.,1992)

JUKT750101氨基酸分布(Jukes et al.,1975);JUNJ780101序列频率(Jungck,1978);KANM800101螺旋的平均相对概率(Kanehisa-Tsong,1980);KANM800102β-折叠的平均相对概率(Kanehisa-Tsong,1980);KANM800103内螺旋的平均相对概率(Kanehisa-Tsong,1980);KANM800104内β-折叠的平均相对概率(Kanehisa-Tsong,1980);KARP850101对于没有硬性邻居的弹性参数(Karplus-Schulz,1985);KARP850102对于一个硬性邻居的弹性参数(Karplus-Schulz,1985);KARP850103对于两个硬性邻居的弹性参数(Karplus-Schulz,1985);KHAG800101所述Kerr-恒定增量(Khanarian-Moore,1980);KLEP840101净电荷(Klein et al.,1984);KRIW710101侧链相互作用参数(Krigbaum-Rubin,1971);KRIW790101侧链相互作用参数(Krigbaum-Komoriya,1979);KRIW790102被水占据的位点分数(Krigbaum-Komoriya,1979);KRIW790103侧链容积(Krigbaum-Komoriya,1979);KYTJ820101亲水性指数(Kyte-Doolittle,1982);LAWE840101转移自由能,CHP/水(Lawson et al.,1984);LEVM760101疏水性参数(Levitt,1976);LEVM760102C-α和侧链中心的距离(Levitt,1976);LEVM760103侧链角θ(AAR)(Levitt,1976);LEVM760104侧链扭转角度Φ(AAAR)(Levitt,1976);LEVM760105测量的回转半径(Levitt,1976);LEVM760106范德华参数R0(Levitt,1976)

LEVM760107范德华参数参数ε(Levitt,1976);LEVM780101α-螺旋的归一化频率，加权的(Levitt,1978);LEVM780102β-折叠的归一化频率，加权的(Levitt,1978);LEVM780103反转的归一化频率，加权的(Levitt,1978);LEVM780104α-螺旋的归一化频率，未加权的(Levitt,1978);LEVM780105β-折叠的归一化频率，未加权的(Levitt,1978);LEVM780106反转的归一化频率，未加权的(Levitt,1978);LEWP710101在β-弯曲中的发生频率(Lewis et al.,1971);LIFS790101对所有β-链的构象偏好(Lifson-Sander,1979);LIFS790102对所有平行β-链的构象偏好(Lifson-Sander,1979);LIFS790103对于逆平行β-链的构象偏好(Lifson-Sander,1979);MANP780101平均围绕疏水性(Manavalan-Ponnuswamy,1978);MAXF760101α-螺旋的归一化频率(Maxfield-Scheraga,1976);MAXF760102延伸结构的归一化频率(Maxfield-Scheraga,1976);MAXF760103ζR的归一化频率(Maxfield-Scheraga,1976);MAXF760104左手α-螺旋的归一化频率(Maxfield-Scheraga,1976);MAXF760105ζL的归一化频率(Maxfield-Scheraga,1976);MAXF760106α区域的归一化频率(Maxfield-Scheraga,1976);MCMT640101折射率差(McMeekin et al.,1964),被Jones引用(1975);MEEJ800101在HPLC、pH7.4中的保留系数(Meek,1980);MEEJ800102在HPLC、pH2.1中的保留系数(Meek,1980);MEEJ810101在NaClO4中的保留系数(Meek-Rossetti,1981);MEEJ810102在NaH2PO4中的保留系数(Meek-Rossetti,1981);MEIH800101C-α的平均等效间距(Meirovitch et al.,1980);MEIH800102侧链的平均等效间距(Meirovitch et al.,1980);MEIH800103平均侧链定向角(Meirovitch et al.,1980);MIYS850101有效分配能(Miyazawa-Jernigan,1985);NAGK730101α-螺旋的归一化频率(Nagano,1973);NAGK730102β-结构的归一化频率(Nagano,1973)

NAGK730103卷曲的归一化频率(Nagano,1973);NAKH900101总蛋白质的AA组成(Nakashima et al.,1990);NAKH900102总蛋白质AA组成的SD(Nakashima et al.,1990);NAKH900103mt-蛋白质AA组成(Nakashima et al.,1990);NAKH900104mt-蛋白质的归一化组成(Nakashima et al.,1990);NAKH900105来自动物mt-蛋白质的AA组成(Nakashima et al.,1990);NAKH900106来自动物的归一化组成(Nakashima et al.,1990);NAKH900107来自真菌和植物的mt-蛋白质AA组成(Nakashima et al.,1990);NAKH900108来自真菌和植物的归一化组成(Nakashima et al.,1990);NAKH900109膜蛋白质的AA组成(Nakashima et al.,1990);NAKH900110膜蛋白质的归一化组成(Nakashimaet al.,1990);NAKH900111非-mt-蛋白质跨膜区(Nakashima et al.,1990);NAKH900112mt-蛋白质跨膜区(Nakashima et al.,1990);NAKH900113平均和计算的组成比例(Nakashima et al.,1990);NAKH920101单跨蛋白质CYT的AA组成(Nakashima-Nishikawa,1992);NAKH920102单跨蛋白质CYT2的AA组成(Nakashima-Nishikawa,1992);NAKH920103单跨蛋白质EXT的AA组成(Nakashima-Nishikawa,1992);NAKH920104单跨蛋白质EXT2的AA组成(Nakashima-Nishikawa,1992);NAKH920105单跨蛋白质MEM的AA组成(Nakashima-Nishikawa,1992);NAKH920106多跨蛋白质CYT的AA组成(Nakashima-Nishikawa,1992);NAKH920107多跨蛋白质EXT的AA组成(Nakashima-Nishikawa,1992);NAKH920108多跨蛋白质MEM的AA组成(Nakashima-Nishikawa,1992);NISK8001018A接触数(Nishikawa-Ooi,1980);NISK86010114A接触数(Nishikawa-Ooi,1986);NOZY710101转移能,有机溶剂/水(Nozaki-Tanford,1971);OOBM770101每个原子的平均非键合能(Ooβke-Ooi,1977);OOBM770102每个原子短和中度范围的非键合能(Ooβke-Ooi,1977);OOBM770103每个原子长范围非键合能(Ooβke-Ooi,1977)

OOBM770104每个残基平均非键合能(Ooβke-Ooi,1977);OOBM770105每个残基短和中度范围的非键合能(Ooβke-Ooi,1977);OOBM850101最优β-结构-卷曲平衡常数(Ooβke et al.,1985);OOBM850102形成反转的最优倾向(Ooβke et al.,1985);OOBM850103最优转移能参数(Ooβke et al.,1985);OOBM850104每个原子最优平均非键合能(Ooβke et al.,1985);OOBM850105最优侧链相互作用参数(Ooβkeet al.,1985);PALJ810101来自LGα-螺旋的归一化频率(Palau et al.,1981);PALJ810102来自CFα-螺旋的归一化频率(Palau et al.,1981);PALJ810103来自LGβ-折叠的归一化频率(Palau et al.,1981);PALJ810104来自CFβ-折叠的归一化频率(Palau et al.,1981);PALJ810105来自LG转角的归一化频率(Palau et al.,1981);PALJ810106来自CF转角的归一化频率(Palau etal.,1981);PALJ810107在所有类别中α-螺旋的归一化频率(Palau et al.,1981);PALJ810108在α+β类别中α-螺旋的归一化频率(Palau et al.,1981);PALJ810109在α/β类别中，α-螺旋的归一化频率(Palau et al.,1981);PALJ810110在所有-β类别中，β-折叠的归一化频率(Palau et al.,1981);PALJ810111在α+β类别中，β-折叠的归一化频率(Palau et al.,1981);PALJ810112在α/β类别中，β-折叠的归一化频率(Palau et al.,1981);PALJ810113在所有-α类别中，转角的归一化频率(Palau et al.,1981);PALJ810114在所有-β类别中，转角的归一化频率(Palau et al.,1981);PALJ810115在α+β类别中，转角的归一化频率(Palau et al.,1981);PALJ810116在α/β类别中，转角的归一化频率(Palau et al.,1981);PARJ860101HPLC参数(Parker et al.,1986);PLIV810101分配系数(Pliska et al.,1981);PONP800101在折叠形式中的围绕疏水性(Ponnuswamy et al.,1980);PONP800102在围绕疏水性中的平均获得（平均gain）(Ponnuswamy et al.,1980);PONP800103在围绕疏水性中的平均获得率（平均gain ratio）(Ponnuswamy et al.,1980);PONP800104在α-螺旋中的围绕疏水性(Ponnuswamy et al.,1980);PONP800105在β-折叠中的围绕疏水性(Ponnuswamy et al.,1980);PONP800106在转角中的围绕疏水性(Ponnuswamy et al.,1980);PONP800107可得到的还原比率（可及性reduction ratio）(Ponnuswamy et al.,1980);PONP800108围绕残基的平均数(Ponnuswamy et al.,1980);PRAM820101在回归分析中的截距(Prabhakaran-Ponnuswamy,1982);PRAM820102在回归分析中的斜率x1.0E1(Prabhakaran-Ponnuswamy,1982);PRAM820103在回归分析中的相关系数(Prabhakaran-Ponnuswamy,1982);PRAM900101疏水性(Prabhakaran,1990);PRAM900102在α-螺旋中的相对频率(Prabhakaran,1990);PRAM900103在β-折叠中的相对频率(Prabhakaran,1990);PRAM900104在反-转角中的相对频率(Prabhakaran,1990);PTIO830101螺旋-卷曲平衡常数(Ptitsyn-Finkelstein,1983);PTIO830102β-卷曲平衡常数(Ptitsyn-Finkelstein,1983);QIAN880101在框位-6的α-螺旋权重(Qian-Sejnowski,1988);QIAN880102在框位-5的α-螺旋权重(Qian-Sejnowski,1988);QIAN880103在框位-4的α-螺旋权重(Qian-Sejnowski,1988);QIAN880104在框位-3的α-螺旋权重(Qian-Sejnowski,1988);QIAN880105在框位-2的α-螺旋权重(Qian-Sejnowski,1988);QIAN880106在框位-1的α-螺旋权重(Qian-Sejnowski,1988);QIAN880107在框位-0的α-螺旋权重(Qian-Sejnowski,1988);QIAN880108在框位1的α-螺旋权重(Qian-Sejnowski,1988);QIAN880109在框位2的α-螺旋权重(Qian-Sejnowski,1988);QIAN880110在框位3的α-螺旋权重(Qian-Sejnowski,1988);QIAN880111在框位4的α-螺旋权重(Qian-Sejnowski,1988);QIAN880112在框位5的α-螺旋权重(Qian-Sejnowski,1988);QIAN880113在框位6的α-螺旋权重(Qian-Sejnowski,1988);QIAN880114在框位-6的β-折叠权重(Qian-Sejnowski,1988);QIAN880115在框位-5的β-折叠权重(Qian-Sejnowski,1988);QIAN880116在框位-4的β-折叠权重(Qian-Sejnowski,1988);QIAN880117在框位-3的β-折叠权重(Qian-Sejnowski,1988);QIAN880118在框位-2的β-折叠权重(Qian-Sejnowski,1988);QIAN880119在框位-1的β-折叠权重(Qian-Sejnowski,1988);QIAN880120在框位0的β-折叠权重(Qian-Sejnowski,1988);QIAN880121在框位1的β-折叠权重(Qian-Sejnowski,1988);QIAN880122在框位2的β-折叠权重(Qian-Sejnowski,1988);QIAN880123在框位3的β-折叠权重(Qian-Sejnowski,1988);QIAN880124在框位4的β-折叠权重(Qian-Sejnowski,1988);QIAN880125在框位5的β-折叠权重(Qian-Sejnowski,1988);QIAN880126在框位6的β-折叠权重(Qian-Sejnowski,1988);QIAN880127在框位-6的卷曲权重(Qian-Sejnowski,1988);QIAN880128在框位-5的卷曲权重(Qian-Sejnowski,1988);QIAN880129在框位-4的卷曲权重(Qian-Sejnowski,1988);QIAN880130在框位-3的卷曲权重(Qian-Sejnowski,1988);QIAN880131在框位-2的卷曲权重(Qian-Sejnowski,1988);QIAN880132在框位-1的卷曲权重(Qian-Sejnowski,1988);QIAN880133在框位0的卷曲权重(Qian-Sejnowski,1988);QIAN880134在框位1的卷曲权重(Qian-Sejnowski,1988);QIAN880135在框位2的卷曲权重(Qian-Sejnowski,1988);QIAN880136在框位3的卷曲权重(Qian-Sejnowski,1988);QIAN880137在框位4的卷曲权重(Qian-Sejnowski,1988);QIAN880138在框位5的卷曲权重(Qian-Sejnowski,1988);QIAN880139在框位6的卷曲权重(Qian-Sejnowski,1988);RACS770101C-α的平均等效间距(Rackovsky-Scheraga,1977);RACS770102侧链的平均等效间距(Rackovsky-Scheraga,1977);RACS770103侧链定向偏好(Rackovsky-Scheraga,1977);RACS820101在A0(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820102在AR(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820103在AL(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820104在EL(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820105在E0(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820106在ER(i)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820107在A0(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820108在AR(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820109在AL(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820110在EL(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820111在E0(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820112在ER(i-1)中平均相对分数发生率(Rackovsky-Scheraga,1982);RACS820113θ(i)的值(Rackovsky-Scheraga,1982);RACS820114θ(i-1)的值(Rackovsky-Scheraga,1982);RADA880101从chx至wat的转移自由能(Radzicka-Wolfenden,1988);RADA880102从oct至wat的转移自由能(Radzicka-Wolfenden,1988);RADA880103从vap至chx的转移自由能(Radzicka-Wolfenden,1988);RADA880104从chx至oct的转移自由能(Radzicka-Wolfenden,1988);RADA880105从vap至oct的转移自由能(Radzicka-Wolfenden,1988);RADA880106可及表面积（Accessible surface area）(Radzicka-Wolfenden,1988);RADA880107从外至内的转移能(95%埋藏的)(Radzicka-Wolfenden,1988);RADA880108平均极性(Radzicka-Wolfenden,1988);RICJ880101在N"的相对偏好值(Richardson-Richardson,1988);RICJ880102在N'的相对偏好值(Richardson-Richardson,1988);RICJ880103在N-帽的相对偏好值(Richardson-Richardson,1988);RICJ880104在N1的相对偏好值(Richardson-Richardson,1988);RICJ880105在N2的相对偏好值(Richardson-Richardson,1988);RICJ880106在N3的相对偏好值(Richardson-Richardson,1988);RICJ880107在N4的相对偏好值(Richardson-Richardson,1988);RICJ880108在N5的相对偏好值(Richardson-Richardson,1988);RICJ880109在中间的相对偏好值(Richardson-Richardson,1988);RICJ880110在C5的相对偏好值(Richardson-Richardson,1988);RICJ880111在C4的相对偏好值(Richardson-Richardson,1988);RICJ880112在C3的相对偏好值(Richardson-Richardson,1988);RICJ880113在C2的相对偏好值(Richardson-Richardson,1988);RICJ880114在C1的相对偏好值(Richardson-Richardson,1988);RICJ880115在C-帽的相对偏好值(Richardson-Richardson,1988);RICJ880116在C'的相对偏好值(Richardson-Richardson,1988);RICJ880117在C"的相对偏好值(Richardson-Richardson,1988);ROBB760101α-螺旋的信息测度(Robson-Suzuki,1976);ROBB760102N-末端螺旋的信息测度(Robson-Suzuki,1976);ROBB760103中间螺旋的信息测度(Robson-Suzuki,1976);ROBB760104C-末端螺旋的信息测度(Robson-Suzuki,1976);ROBB760105对于扩展的信息测度(Robson-Suzuki,1976);ROBB760106折叠的信息测度(Robson-Suzuki,1976);ROBB760107扩展但没有H-键的信息测度(Robson-Suzuki,1976);ROBB760108转角的信息测度(Robson-Suzuki,1976);ROBB760109N-末端转角的信息测度(Robson-Suzuki,1976);ROBB760110中间转角的信息测度(Robson-Suzuki,1976);ROBB760111C-末端转角的信息测度(Robson-Suzuki,1976);ROBB760112卷曲的信息测度(Robson-Suzuki,1976);ROBB760113环的信息测度(Robson-Suzuki,1976);ROBB790101水合自由能(Robson-Osguthorpe,1979);ROSG850101在转移中的平均埋藏面积(Rose et al.,1985);ROSG850102平均分数面积损失(Rose et al.,1985);ROSM880101侧链亲水性，未对溶剂化修正的(Roseman,1988);ROSM880102侧链亲水性,对溶剂化修正的(Roseman,1988);ROSM880103螺旋形成的侧链亲水性损失formation(Roseman,1988);SIMZ760101转移自由能(Simon,1976),被Charton-Charton引用(1982);SNEP660101首要成分I(Sneath,1966);SNEP660102首要成分II(Sneath,1966);SNEP660103首要成分III(Sneath,1966);SNEP660104首要成分IV(Sneath,1966);SUEM840101Zimm-Bragg在20C的参数(Sueki et al.,1984);SUEM840102Zimm-Bragg参数sigma x1.0E4(Sueki et al.,1984);SWER830101最优匹配疏水性(Sweet-Eisenberg,1983);TANS770101α-螺旋的归一化频率(Tanaka-Scheraga,1977);TANS770102孤立螺旋的归一化频率(Tanaka-Scheraga,1977);TANS770103延伸结构的归一化频率(Tanaka-Scheraga,1977);TANS770104链逆转R的归一化频率(Tanaka-Scheraga,1977);TANS770105链逆转S的归一化频率(Tanaka-Scheraga,1977);TANS770106链逆转D的归一化频率(Tanaka-Scheraga,1977);TANS770107左手螺旋的归一化频率(Tanaka-Scheraga,1977);TANS770108ζR的归一化频率(Tanaka-Scheraga,1977);TANS770109卷曲的归一化频率(Tanaka-Scheraga,1977)

TANS770110链逆转的归一化频率(Tanaka-Scheraga,1977);VASM830101构象状态A的相对群体（Relative population）(Vasquez etal.,1983);VASM830102构象状态C的相对群体(Vasquez et al.,1983);VASM830103构象状态E的相对群体(Vasquez et al.,1983);VELV850101电子-离子相互作用电位(Veljkovic et al.,1985);VENT840101Bitterness(Venanzi,1984);VHEG790101至亲脂相的转移自由能(vonHeijne-Blomberg,1979);WARP780101每个侧链原子的平均相互作用(Warme-Morgan,1978);WEBA780101在高盐色谱层析中的RF值(Weber-Lacey,1978);WERD780101埋藏在里面的倾向(Wertz-Scheraga,1978);WERD780102ε(i)至ε(ex)的自由能变化(Wertz-Scheraga,1978);WERD780103α(Ri)至α(Rh)的自由能变化(Wertz-Scheraga,1978);WERD780104ε(i)至α(Rh)的自由能变化(Wertz-Scheraga,1978);WOEC730101极性要求(Woese,1973);WOLR810101水合电位(Wolfenden et al.,1981);WOLS870101主要属性值z1(Wold et al.,1987);WOLS870102主要属性值z2(Wold et al.,1987);WOLS870103主要属性值z3(Wold et al.,1987);YUTK870101未折叠的吉布斯能，在水,pH7.0(Yutani et al.,1987);YUTK870102未折叠的吉布斯能，在水,pH9.0中(Yutani et al.,1987);YUTK870103未折叠的活化吉布斯能，pH7.0(Yutaniet al.,1987);YUTK870104未折叠的活化吉布斯能，pH9.0(Yutani et al.,1987);ZASB820101分配系数对离子强度的相依性(Zaslavsky et al.,1982);ZIMJ680101疏水性(Zimmerman et al.,1968);ZIMJ680102Bulkiness(Zimmerman et al.,1968);ZIMJ680103极性(Zimmerman et al.,1968);ZIMJ680104等电点(Zimmerman et al.,1968);ZIMJ680105RF等级(Zimmerman et al.,1968);AURR980101在螺旋末端N4'的归一化位置残基频率(Aurora-Rose,1998);AURR980102在螺旋末端N"的'归一化位置残基频率(Aurora-Rose,1998);AURR980103在螺旋末端N"的归一化位置残基频率(Aurora-Rose,1998);AURR980104在螺旋末端N'的归一化位置残基频率(Aurora-Rose,1998);AURR980105在螺旋末端Nc的归一化位置残基频率(Aurora-Rose,1998);AURR980106在螺旋末端N1的归一化位置残基频率(Aurora-Rose,1998);AURR980107在螺旋末端N2的归一化位置残基频率(Aurora-Rose,1998);AURR980108在螺旋末端N3的归一化位置残基频率(Aurora-Rose,1998);AURR980109在螺旋末端N4的归一化位置残基频率(Aurora-Rose,1998);AURR980110在螺旋末端N5的归一化位置残基频率(Aurora-Rose,1998);AURR980111在螺旋末端C5的归一化位置残基频率(Aurora-Rose,1998);AURR980112在螺旋末端C4的归一化位置残基频率(Aurora-Rose,1998);AURR980113在螺旋末端C3的归一化位置残基频率(Aurora-Rose,1998);AURR980114在螺旋末端C2的归一化位置残基频率(Aurora-Rose,1998);AURR980115在螺旋末端C1的归一化位置残基频率(Aurora-Rose,1998);AURR980116在螺旋末端Cc的归一化位置残基频率(Aurora-Rose,1998);AURR980117在螺旋末端C'的归一化位置残基频率(Aurora-Rose,1998);AURR980118在螺旋末端C"的归一化位置残基频率(Aurora-Rose,1998);AURR980119在螺旋末端C"'的归一化位置残基频率(Aurora-Rose,1998);AURR980120在螺旋末端C4'的归一化位置残基频率(Aurora-Rose,1998);ONEK900101外推至0尿素的多肽ΔG值(O'Neil-DeGrado,1990);ONEK900102螺旋形成参数(ΔΔG)(O'Neil-DeGrado,1990);VINM940101归一化弹性参数(B-值),平均(Vihinen et al.,1994);VINM940102归一化弹性参数(B-值)for each residue surrounded by nonerigid neighbours(Vihinen et al.,1994);VINM940103Normalized被一个刚性邻居围绕的，对于每个残基的归一化弹性参数(B-值)(Vihinen et al.,1994);VINM940104被两个刚性邻居围绕的，对于每个残基的归一化弹性参数(B-值)(Vihinen et al.,1994);MUNV940101在α-螺旋构象中的自由能(Munoz-Serrano,1994);MUNV940102在α-螺旋区域中的自由能(Munoz-Serrano,1994);MUNV940103在β-链构象中共的自由能(Munoz-Serrano,1994);MUNV940104在β-链区域中的自由能(Munoz-Serrano,1994);MUNV940105在β-链区域中的自由能(Munoz-Serrano,1994)

WIMW960101AcWl-X-LL肽从双层界面至水的转移自由能(Wimley-White,1996);KIMC930101热力学β折叠倾向(Kim-Berg,1993);MONM990101跨膜螺旋的转角倾向度标(Monne et al.,1999);BLAM930101在T4溶菌酶中位44的α螺旋倾向(Blaber et al.,1993);PARS000101基于B值的分布，嗜中温蛋白质的p-值(Parthasarathy-Murthy,2000);PARS000102基于B值的分布，嗜热蛋白质的p-值(Parthasarathy-Murthy,2000);KUMS000101在嗜热蛋白质的非冗余家族中，在所述18个非冗余家族中的氨基酸残基的分布(Kumar et al.,2000);KUMS000102在嗜中温蛋白质的非冗余家族中，在所述18个非冗余家族中的氨基酸残基的分布(Kumar et al.,2000);KUMS000103在嗜热蛋白质中，在所述α-螺旋中氨基酸残基的分布(Kumar et al.,2000);KUMS000104在嗜中温蛋白质中，在所述α-螺旋中氨基酸残基的分布(Kumar et al.,2000);TAKK010101侧链对蛋白质稳定性的贡献(kJ/mol)(Takano-Yutani,2001);FODM020101pi-螺旋内的氨基酸倾向(Fodje-Al-Karadaghi,2002);NADH010101在所述二态模型中，基于自信息值的亲水性度标(5%可及性)(Naderi-Manesh et al.,2001);NADH010102在所述二态模型中，基于自信息值的亲水性度标(9%可及性)(Naderi-Manesh et al.,2001);NADH010103在所述二态模型中，基于自信息值的亲水性度标(16%可及性)(Naderi-Manesh et al.,2001);NADH010104在所述二态模型中，基于自信息值的亲水性度标(20%可及性)(Naderi-Manesh et al.,2001);NADH010105在所述二态模型中，基于自信息值的亲水性度标(25%可及性)(Naderi-Manesh et al.,2001);NADH010106在所述二态模型中，基于自信息值的亲水性度标(36%可及性)(Naderi-Manesh et al.,2001);NADH010107在所述二态模型中，基于自信息值的亲水性度标(50%可及性)(Naderi-Manesh et al.,2001);MONM990201在横跨膜螺旋中的平均转角倾向(Monne et al.,1999);KOEP990101源自设计序列的α-螺旋倾向(Koehl-Levitt,1999);KOEP990102源自设计序列的β-折叠倾向(Koehl-Levitt,1999);CEDJ970101在细胞外蛋白质中的氨基酸组成(百分比(Cedano et al.,1997);CEDJ970102在锚定蛋白质中的氨基酸组成(百分比(Cedano et al.,1997);CEDJ970103在膜蛋白质中的氨基酸组成(百分比(Cedano et al.,1997);CEDJ970104在细胞内蛋白质中的氨基酸组成(百分比(Cedano et al.,1997);CEDJ970105在核蛋白质中的氨基酸组成(百分比(Cedano et al.,1997);FUKS010101在细胞内的嗜热性蛋白质的氨基酸的表面组成(百分比(Fukuchi-Nishikawa,2001);FUKS010102在细胞内的嗜温蛋白质的氨基酸的表面组成(百分比(Fukuchi-Nishikawa,2001);FUKS010103在细胞外的嗜温蛋白质的氨基酸的表面组成(百分比(Fukuchi-Nishikawa,2001);FUKS010104在核蛋白质中的氨基酸的表面组成(百分比(Fukuchi-Nishikawa,2001);FUKS010105在细胞内嗜热性蛋白质的氨基酸的内部组成(百分比(Fukuchi-Nishikawa,2001);FUKS010106在细胞内嗜温性蛋白质的氨基酸的内部组成(百分比(Fukuchi-Nishikawa,2001);FUKS010107在细胞外嗜温性蛋白质的氨基酸的内部组成(百分比(Fukuchi-Nishikawa,2001);FUKS010108在核蛋白质的氨基酸的内部组成(百分比(Fukuchi-Nishikawa,2001);FUKS010109在细胞内嗜热性蛋白质的氨基酸的全链组成(百分比(Fukuchi-Nishikawa,2001);FUKS010110在细胞内嗜温性蛋白质的氨基酸的全链组成(百分比(Fukuchi-Nishikawa,2001);FUKS010111在细胞外嗜温性蛋白质的氨基酸的全链组成(百分比(Fukuchi-Nishikawa,2001);FUKS010112在核蛋白质中的氨基酸全链组成(百分比(Fukuchi-Nishikawa,2001);AVBF000101筛选系数gamma,局部的(Avbelj,2000);AVBF000102筛选系数gamma,非局部的(Avbelj,2000);AVBF000103斜率三肽,FDPB VFF中性的(Avbelj,2000);AVBF000104斜率三肽,LD VFF中性的(Avbelj,2000);AVBF000105斜率三肽,FDPB VFF noside(Avbelj,2000);AVBF000106斜率三肽FDPB VFF所有的(Avbelj,2000);AVBF000107斜率三肽FDPBPARSE中性的(Avbelj,2000);AVBF000108斜率十肽,FDPB VFF中性的(Avbelj,2000);AVBF000109斜率蛋白质,FDPB VFF中性的(Avbelj,2000);YANJ020101通过高斯进化方法的侧链构象(Yang et al.,2002);MITS020101两亲性指数(Mitaku et al.,2002);TSAJ990101使用ProtOr包括结晶水的容积(Tsai et al.,1999);TSAJ990102使用ProtOr不包括结晶水的容积(Tsai et al.,1999);COSI940101电子-离子相互作用电位值(Cosic,1994);PONP930101疏水性标度(Ponnuswamy,1993);WILM950101在RP-HPLC中的疏水性系数,C18具有0.1%TFA/MeCN/H2O(Wilce etal.1995);WILM950102在RP-HPLC中的疏水性系数，C8具有0.1%TFA/MeCN/H2O(Wilce et al.1995);WILM950103疏水性系数，在RP-HPLC中,C4具有0.1%TFA/MeCN/H2O(Wilce et al.1995);WILM950104疏水性系数，在RP-HPLC中，C18具有0.1%TFA/2-PrOH/MeCN/H2O(Wilce et al.1995);KUHL950101亲水性度标(Kuhn et al.,1995);GUOD860101保留系数，在pH2(Guo et al.,1986);JURD980101修饰的Kyte-Doolittle疏水性标度(Juretic et al.,1998);BASU050101从所述接触矩阵获得的相互作用度标(Bastolla et al.,2005);BASU050102通过最大化所述在单域球蛋白质上的相关系数平均值，获得相互作用度标(Bastolla et al.,2005);BASU050103通过在享有TM桶折叠的序列对上，最大化所述相关系数平均值，获得相互作用度标(Bastolla etal.,2005);SUYM030101连接体倾向指数(Suyama-Ohara,2003);PUNT030101在MPtopo数据库中，来自1D_螺旋基于知识的膜倾向度标(Punta-Maritan,2003);PUNT030102在MPtopo数据库中，来自3D_螺旋基于知识的膜倾向度标(Punta-Maritan,2003);GEOR030101来自所有数据集的连接体倾向(George-Heringa,2003);GEOR030102来自1-连接体数据集的连接体倾向(George-Heringa,2003);GEOR030103来自2-连接体数据集的连接体倾向(George-Heringa,2003);GEOR030104来自3-连接体数据集的连接体倾向(George-Heringa,2003);GEOR030105来自小数据集的连接体倾向(连接体长度小于6残基)(George-Heringa,2003);GEOR030106来自中等数据集的连接体倾向(连接体长度在6和14残基之间)(George-Heringa,2003);GEOR030107来自长数据集的连接体倾向(连接体长度大于14残基)(George-Heringa,2003);GEOR030108来自螺旋的连接体倾向(由DSSP注释)数据集(George-Heringa,2003);GEOR030109来自非螺旋的连接体倾向(由DSSP注释)数据集(George-Heringa,2003);ZHOH040101来自基于知识的原子-原子电位的稳定性度标(Zhou-Zhou,2004);ZHOH040102提取来自突变实验的相对稳定性度标(Zhou-Zhou,2004);ZHOH040103Buriability(Zhou-Zhou,2004);BAEK050101连接体指数(Bae et al.,2005);HARY940101埋藏在蛋白质内部的残基平均容量(Harpaz et al.,1994);PONJ960101残基平均容量(Pontius et al.,1996);DIGM050101静水压力不对称指数,PAI(Di Giulio,2005);WOLR790101疏水性指数(Wolfenden et al.,1979);OLSK800101平均内部偏好s(Olsen,1980);KIDA850101疏水性-相关指数(Kidera et al.,1985);GUYH850102从Wertz-Scheraga指数计算的表观分配能(Guy,1985);GUYH850103从Robson-Osguthorpe指数计算的表观分配能(Guy,1985);GUYH850104从Janin指数计算的表观分配能(Guy,1985);GUYH850105从Chothia指数计算的表观分配能(Guy,1985);ROSM880104侧链、中性形式的氨基酸的亲水性(Roseman,1988);ROSM880105氨基酸侧链的亲水性,pi-值，在pH7.0中(Roseman,1988);JACR890101来自IFH度标的权重(Jacobs-White,1989);COWR900101疏水性指数,3.0pH(Cowan-Whittaker,1990)

BLAS910101度标的侧链疏水性值(Black-Mould,1991);CASG920101来自天然蛋白质结构的疏水性标度(Casari-Sippl,1992);CORJ870101NNEIG指数(Cornette et al.,1987);CORJ870102SWEIG指数(Cornetteet al.,1987);CORJ870103PRIFT指数(Cornette et al.,1987);CORJ870104PRILS指数(Cornette et al.,1987);CORJ870105ALTFT指数(Cornette etal.,1987)

CORJ870106ALTLS指数(Cornette et al.,1987);CORJ870107TOTFT指数(Cornette et al.,1987);CORJ870108TOTLS指数(Cornette et al.,1987);MIYS990101通过贝特近似的相对分配能(Miyazawa-Jernigan,1999);MIYS990102优化的分配能-方法A(Miyazawa-Jernigan,1999);MIYS990103优化的分配能–方法B(Miyazawa-Jernigan,1999);MIYS990104优化的分配能–方法C(Miyazawa-Jernigan,1999);MIYS990105优化的分配能–方法D(Miyazawa-Jernigan,1999);ENGD860101疏水性指数(Engelman et al.,1986);以及FASG890101疏水性指数(Fasman,1989)

在本发明的一些实施方案中，简并寡核苷酸用于合成本发明中的一个或多个TN1、DH、N2和/或H3-JH部分。在本发明的某些实施方案中，位于寡核苷酸5’端，编码H3-JH部分的密码子为简并密码子。此简并密码子可能为从5’端的第1个密码子,从5’端的第2个密码子,从5’端的第3个密码子,从5’端的第4个密码子,从5’端的第5个密码子,和/或以上的任意组合。在本发明的一些实施方案中，位于或在DH部分5’和/或3’端附近的一个或多个密码子是简并的。此简并密码子可能为从5’和/或3’端的第1个密码子,从5’和/或3’端的第2个密码子,从5’和/或3’端的第3个密码子,从5’和/或3’端的第4个密码子,从5’和/或3’端的第5个密码子,和/或以上的任意组合。用于每个寡核苷酸，编码部分的简并密码子可能选自其能力以最优化概括理论部分池和/或CDRH3参考集中的序列。

在一些实施方案中，本发明提供生产H3-JH部分理论部分池的方法，如实施例中所述。利用NNN三联体来产生理论部分池,代替或除了实施例5中的NN对，也落入本发明的范围内,如从这些理论部分池的合成文库结合部分。

在一些实施方案中，本发明提供生产DH部分理论部分池的方法，如实施例中所述。特别地,例如，本发明提供由实施例6PYTHON程序描述的生产DH部分理论部分池的方法。实施例6描述应用此程序以生产68K理论部分池(逐步删除后，最小长度的DNA序列=4碱基；而且列入理论部分池的最小长度的肽序列=2)。提供了可选择的实施例，其中，逐步删除后，最小长度的DNA序列为1个碱基，而且最小长度的肽序列为1个氨基酸。也可以设想，其它值也可用于这些参数。例如，逐步删除后，最小长度的DNA序列可能为集合，如1,2,3,4,5,6,7,8,9,10,11,12,13,14,或15,而且理论部分池中最小长度的肽序列可能为集合，如1,2,3,4,或5。

使用TN1、DH、N2、和H3-JH部分设计CDRH3文库

本发明的所述CDRH3文库包含TN1,DH,N2,和H3-JH部分。因此，在本发明的某些实施方案中，CDRH3文库的整体设计，可以由下式表示：

[TN1]-[DH]-[N2]-[H3-JH]。

在本发明的某些实施方案中，合成CDRH3清单通过同源重组结合选择的VH底架序列和重链恒定区,因此，在本发明的某些实施方案中，包括合成CDRH3文库DNA序列侧翼的5’和3’端是可取的,以促进合成CDRH3文库和含有选择的底架和恒定区的载体之间的同源重组。在某些实施方案中，所述载体还含有编码IGHJ基因（即，FRM4-JH）的非截断区域的至少一部分的序列。因此，可能添加多核苷酸编码N-末端序列(例如，CA(K/R/T))以合成CDRH3序列,其中N-端多核苷酸与底架的FRM3，而且可能添加多核苷酸编码C-末端序列(例如，WG(Q/R/K)G)以合成CDRH3,其中C-端多核苷酸与FRM4-JH是同源的。虽然序列WG(Q/R)G存在于此示例性实施方案中,额外的氨基酸,FRM4-JH中此序列的C-端也可能包括在多核苷酸中，编码C-端序列。所述多核苷酸的目的是编码N-端和C-端序列,在这种情况下是为了方便同源重组，而且本领域技术人员将认识到这些序列可能比下图所示的更长或更短。因此，在本发明的某些实施方案中，CDRH3清单的整体设计,包括序列，要求促进与选择的底架同源重组,可以由下式表示(与下划线的载体区域同源):

CA[R/K/T]-[TN1]-[DH]-[N2]-[H3-JH]-[WG(Q/R/K)G]。

在本发明的一些实施方案中，CDRH3清单可以由下式表示,其不包括上述示意图中表示的T残基:

CA[R/K]-[TN1]-[DH]-[N2]-[H3-JH]-[WG(Q/R/K)G]。

V、D、和J基因参考描述集合包括Scaviner et al.,Exp.Clin,Immunogenet.,1999,16:243and Ruiz et al.,Exp.Clin.Immunogenet,1999,16:173的文献描述,均通过引用的方式全部并入。

尽管同源重组为生产本发明的文库的一种方法,在本技术领域的普通技术人员将容易地认识到，其它的DNA组装方法，如结扎或位点特异性重组，和/或DNA合成，也可以用于生产本发明的文库。

CDRH3长度

所述部分的长度可能也是变化的,例如，生产特定分布CDRH3长度的文库。在本发明的一个实施方案中,H3-JH部分为约0至约10个氨基酸长度,DH部分为约0至约12个氨基酸长度,TN1部分为约0至约4个氨基酸长度,以及N2部分为约0至约4个氨基酸长度。在某些实施方案中，H3-JH部分为至少约0、1、2、3、4、5、6、7、8、9、和/或10个氨基酸长度。在一些实施方案中，DH部分为至少约0、1、2、3、4、5、6、7、8、9、10、11、和/或12个氨基酸长度。在某些实施方案中，TN1部分为至少约0、1、2、3、或4个氨基酸长度。在一些实施方案中，N2氨基酸为至少约0、1、2、3、或4个氨基酸长度。在本发明的某些实施方案中，CDRH3为约2至约35,约2至约28,或约5至约26个氨基酸长度。在一些实施方案中，CDRH3为至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、和/或35个氨基酸长度。在一些实施方案中，本发明任何部分或CDRH3的长度可能小于特定数量的氨基酸,其中使用上述任何1个提供的整数，所述氨基酸数量是限定的用于各自部分或CDRH3。在本发明的某些实施方案中，特定数量的范围是限定的，使用上述任何2个提供的整数，如所述范围的下边界和上边界（包括或排除）。提供的所有整数的组合，其限定的上边界和下边界，是预期的。

设计CDRL3文库

设计CDRL3文库,和轻链序列,在美国公开号2009/0181855和2010/0056386,以及WO/2009/036379中详述，均通过引用的方式全部并入,因此，本文只做简述。根据类似的原则设计本文所述的文库,有3个重要的不同,即目前的发明文库包含(1)CDRL1和CDRL2内的可变性；(2)框架区内的可变性；和/或(3)CDRL3内的可变性，设计以生产轻链文库CDRL3，其非常类似于人种系样CDRL3序列,如上(表1)限定的。

本发明的CDRL3文库可能为VKCDR3文库和/或V　CDR3文库。在本发明的某些实施方案中，通过分析公共数据库或其它数据库中的数据来测定VL序列中限定的位上特定氨基酸的发生模式，例如，NCBI数据库(见,例如，WO/2009/036379)。在本发明的某些实施方案中，基于同一性和从其起源基因的基础上分配到家族来比较这些序列。然后可以测定在每个种系家族中，每个序列位上的氨基酸组合物。此过程的图示在本文的实施例中提供。

框架可变性的轻链

在一些实施方案中，本发明提供轻链可变结构域文库，其中，轻链可变结构域在一个或多个框架位2、4、36、46、48、49、和66上是可变的。在一些实施方案中，本发明提供轻链可变结构域文库，包含至少多个轻链可变结构域，其氨基酸序列是彼此相同的，除了在一个或多个位2、4、36、46、48、49、和66上替换。在某些实施方案中，本发明提供轻链可变结构域文库，包含至少多个轻链可变结构域，其氨基酸序列为本文公开的任何轻链可变结构域序列的至少约70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、和/或99.5%，而且在一个或多个位2、4、36、46、48、49、和66上进一步替换。在某些实施方案中，选择氨基酸作为在这些位点的包含物，所述位点选自在参考轻链可变区的参考集合中，在相应的位点，在大约最好为3、4、5、6、7、8、9,和/或10最频繁发生的氨基酸。

在一些实施方案中，本发明提供选择框架位的系统和方法，在轻链可变结构域内是变化的,包含:

(i)获得轻链序列的参考集,其中所述参考集含有轻链序列的VL部分，选自序列发现,或由单IGVL种系基因和/或序列编码,或由单IGVL种系基因的等位基因变异体编码；

(ii)确定参考集内的框架位具有一定程度的可变性，类似于发生在一个或多个参考集(例如，框架位中的所述可变性为至少约70%,80%,90%,或95%,100%,或在参考集中CDR位内发现的更多的可变性)中序列CDR位内的可变性程度;

(iii)确定（ii）中鉴定的每个框架位的氨基酸残基出现的频率；

(iv)合成轻链可变结构域编码序列，其中(ii)中鉴定的框架位是变化的，包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20最频繁出现的氨基酸残基(在相应位(iii)中鉴定的).

本领域技术人员,阅读本公开将会理解本发明提供类似方法用于开发重链序列中框架的变体。

具CDR1和/或CDR2可变性的轻链

在一些实施方案中，本发明提供轻链可变结构域文库，其中所述轻链可变结构域在一个或多个CDRL1位28、29、30、30A、30B、30E、31、和32(Chothia-Lesk编号方案;Chothia and Lesk,J.Mol.Biol.,1987,196:901)是变化的。在一些实施方案中，本发明提供轻链可变结构域文库，其中所述轻链可变结构域在一个或多个CDRL2位50、51、53、和55是变化的。在一些实施方案中，选择列入CDRL1和/或CDRL2位的氨基酸选自约在轻链可变结构域内参考集中相应位上最多2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、和/或20最频繁出现的氨基酸。

(i)获得轻链序列的参考集,其中所述参考集含有轻链序列的VL部分，选自序列发现于,或由单IGVL种系基因和/或序列编码,或由单IGVL种系基因的等位基因变异体编码；

(ii)确定哪个CDRL1和/或CDRL2位在参考集内是可变的。

(iii)合成轻链可变结构域编码序列，其中(ii)中鉴定的CDRL1和/或CDRL2位是变化的，包括2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20最频繁出现的氨基酸残基。

本领域技术人员,阅读本公开将会理解本发明提供类似方法用于开发重链序列中CDRH2和/或CDRH2的变体。

轻链序列

在一些实施方案中，本发明提供轻链文库包含一个或多个本文提供的任何轻链序列，例如，表3和/或表4中的多肽序列和/或表5、表6、和/或表7中的多核苷酸序列。本领域的普通技术人员将认识到并非本文提供的所有轻链序列对于生产本发明的功能性轻链文库是必需的。因此，在某些实施方案中，本发明的轻链文库将含有上述的序列集。例如，在本发明的某些实施方案中，本文提供的，轻链多核苷酸和/或多肽序列的至少约10、100、200、300、400、500、600、700、800、900、10³、10⁴、和/或10⁵包括在文库中。在一些实施方案中，本发明的文库可含有小于特定数量的多核苷酸或多肽部分,其中使用任何一个上述提供的用于各自部分的整数，部分的所述数量是限定的。在本发明的某些实施方案中，特定数量范围是限定的，使用上述任何2个提供的整数，如所述范围的下边界和上边界（包括或排除）。提供的所有整数的组合，其限定的上边界和下边界，是预期的。

在某些实施方案中，本发明提供的轻链文库包括来自本文提供的轻链序列集的至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,或者99%。例如，本发明提供的文库包括在表3、表4、表5、表6、和/或表7中的轻链序列的至少约1%、2.5%、5%、10%、15%、20%、25%、30%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、或者99%。在本发明的一些实施方案中，特定的百分比范围是限定的,使用上述提供的任何2个百分比，如所述范围的下边界和上边界，包括或排除。提供的所有百分比的组合，其限定的上边界和下边界，是预期的。

在本发明的一些实施方案中，本文提供的文库中轻链序列的至少约1%、2.5%、5%、10%、15%、20%、25%、30%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、或99%为轻链序列。在本发明的某些实施方案中，本文提供的从轻链文库(例如，通过结合到特定抗原和/或通用配体)中分离的轻链序列的至少约1%、2.5%、5%、10%、15%、20%、25%、30%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、或99%为轻链序列。在一些实施方案中，本发明的轻链文库可能含有小于本文提供的轻链序列的特定百分比，其中使用上述提供的任何一个百分比，轻链序列的百分比是限定的。在本发明的某些实施方案中，特定的百分比范围是限定的,使用上述提供的任何2个百分比，如所述范围的下边界和上边界（包括或排除）。提供的所有百分比的组合，其限定的上边界和下边界，是预期的。

本领域的普通技术人员将进一步认识到，本文提供的给定的轻链序列,类似的轻链序列可被生产，其共享整体序列特性指定的水平和/或本文描述的一个或多个特征元件,序列特性的整体程度和/或特征序列元件可赋予共同的功能属性。那些在本领域的普通技术人员将非常熟悉制备这种相关序列的各种技术，包括本文中所提供的诱变技术。因此，本发明中每一个明确列举的实施例也可以使用也可实施使用轻链序列，共享与本文提供的任何轻链序列相同的特定百分比。例如，本发明中每个先前描述的实施例可以实施使用的轻链序列与本文提供轻链序列的同一性至少约70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、或99.9%。例如，在一些实施方案中，本发明提供的轻链文库包含轻链可变结构域与本文提供轻链序列的同一性至少约70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.5%、或99.9%,在一个或多个框架位2、4、36、46、48、49、和66,CDRL1位28、29、30、30A、30B、30E、31、和32(Chothia-Lesk编号方案),和/或CDRL2位50、51、53、和55中具有替代。

在一些实施方案中，本发明提供用于CDRL3部分内变化位的系统和方法，由特定IGVL种系基因编码，包含:

(i)获取轻链序列参考集,其中所述参考集含有轻链序列的VL部分，最初来自相同的IGVL种系基因和/或其等位基因变异体;

(ii)确定在参考集组每个CDRL3位上出现的氨基酸，由IGVL基因(即，包括位89-94)编码；

(iii)合成轻链可变结构域编码序列，其中每个轻链可变结构域内的2个位编码序列含有简并密码子，在参考集中的相应位上编码2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20最频繁出现的氨基酸残基。

如实施例所描述，可选择(iii)中的简并密码子以最佳地再生参考集所含的氨基酸多样性，对于每条轻链中每两个位的变化。最后，虽然上面描述的方法和系统相对于CDRL3，本等领域技术人员将容易地认识到，相同的原理可以应用于重链的CDRH1和/或CDRH2,其全部由IGHV基因编码。

CDRL3长度

在一些实施方案中，作为一种替代或本文所描述的除了其他功能，本发明提供CDRL3长度可变化的文库。因此，本发明提供，除其他事项外，CDRL3长度特定分布的文库。虽然CDRL3文库长度8、9、和10为示例性的，本等领域技术人员将容易地认识到，本文描述的方法可以应用于生产不同长度的轻链CDRL3(例如约5、6、7、11、12、13、14、15和/或16)其也落入本发明的范围内。在一些实施方案中，本发明的任何CDRL3长度可能小于特定数量的氨基酸,其中使用任何一个上述提供的用于各自部分的整数，氨基酸的数量是限定的。在本发明的某些实施方案中，特定数量范围是限定的，使用上述任何2个提供的整数，如所述范围的下边界和上边界（包括或排除）。提供的所有整数的组合，其限定的上边界和下边界，是预期的。

合成抗体文库

在本发明的一些实施方案中，提供的文库包括一种或多种合成多核苷酸。在一些实施方案中，提供的文库可能包含合成多核苷酸，选自(a)重链底架多核苷酸；(b)轻链底架多核苷酸；(c)CDR3多核苷酸;(d)恒定结构域多核苷酸;和(e)他们的组合。那些本领域的普通技术人员将理解，在提供的文库中，此合成多核苷酸可能连接到其它合成或非-合成多核苷酸。

本文提供的合成多核苷酸可通过任何可行的方法制备。例如，在一些实施方案中，合成多核苷酸可以通过分割池DNA合成，如Feldhaus et al.,核酸研究,2000,28:534;Omstein et al.,Biopolymers,1978,17:2341;Brenner and Lerner,PNAS,1992,87:6378中描述的,美国公开号2009/0181855和2010/0056386,以及WO/2009/036379(均通过引用的方式全部并入)。

在本发明的一些实施方案中，部分代表在人清单中发现的可能的TN1、DH、N2、和JH多样性，为从头合成的，要么是双链DNA寡核苷酸,单链DNA寡核苷酸代表编码链,要么是单链DNA寡核苷酸代表非编码链。然后此序列可随着含有底架序列的受体载体被引入到宿主细胞中,并在某些情况下部分FRM4和恒定区。从哺乳动物cDNA或mRNA或从哺乳动物cDNA的模板定向克隆步骤或mRNA需要被采用进行无引物基础的PCR扩增。

通过酵母同源重组构建文库

在某些实施方案中，本发明开发酵母细胞的固有能力，以促进高效率的同源重组。在酵母中，同源重组的机制及其应用简要描述如下(例如还参见，美国专利号6,406,863;6,410,246;6,410,271;6,610,472;和7,700,302,均通过引用的方式全部并入)。

作为说明性的实施方案，同源重组可在，例如，酿酒酵母中进行，其具有遗传机制的设计以高效率进行同源重组。示例性S.cerevisiae菌株包括EM93，CEN.PK2，RM11-1a，YJM789，和BJ5465。这种机制被认为是演变为染色体修复的目的，并且也被称为“间隙修复”或“间隙填充”。通过利用这种机制，突变可以被导入酵母基因组的特异位点。例如，携带突变基因的载体可以包含2个序列部分，其与基因的5'和3'开放阅读框（ORF）序列是同源的，目的是中断或突变。所述载体也可编码阳性选择标记，例如作为营养酶等位基因（例如URA3）和/或抗生素抗性标记（例如遗传霉素/G418），两侧为2个同源的DNA部分。其它选择标记和抗生素抗性标记对本领域技术人员是已知的。

在本发明的一些实施方案中，该载体（例如质粒）为线性化的并转化到酵母细胞中。通过质粒和酵母基因组之间的同源重组，在2个之间的同源重组位点，在酵母基因组中的野生型基因和突变基因（包括选择标记基因）之间发生DNA含量的相互交换，其两侧为2个同源序列部分。通过选择一个或多个选择标记，存活的酵母细胞将是那些野生型的基因已被突变基因（Pearson等.，酵母，1998，14：391，通过引用的方式全部并入）取代的细胞。此机制已被用在所有6000个酵母基因，或开放阅读框（ORF）制作系统突变，用于功能基因组学研究。因为交换是相互的，类似的方法也已经成功地应用于将酵母基因组DNA片段克隆到质粒载体（Iwasaki等.，基因，1991，109：81，通过引用的方式全部并入）中。

通过利用存在于酵母中内源性的同源重组机制，未经连接步骤，基因片段或合成寡核苷酸可以被克隆到质粒载体中。在本申请中的同源重组，获得（例如通过寡核苷酸合成，PCR扩增，限制消化出另一个向量，等）靶基因片段（即，被插入到质粒的载体片段，例如CDR3）。与质粒载体选定区域同源的DNA序列，被添加到靶基因片段的5'和3'端。这些同源区可能被充分合成，或通过用引物PCR扩增靶基因片段添加结合到同源序列。质粒载体可包括正选择标记，如营养酶等位基因（例如URA3），或抗生素抗性标记（例如遗传霉素/G418）。然后由独特的限制性切割质粒线性化载体，位于序列区域之间与靶基因片段同源共享，从而在切割位点创造人工间隙。将线性化的质粒载体和靶基因片段两侧与质粒载体为序列同源，共转化到酵母宿主菌株中。然后，所述酵母能够认识到载体和靶基因片段之间序列同源性的2个延伸，并通过在间隙同源重组促进DNA含量的相互交换。作为结果，在目标基因片段不经过连接插入到载体中。

上述描述的方法已经被证明当目标基因片段为单链DNA的形式时工作，例如，作为圆形M13噬菌体的衍生形式，或单链寡核苷酸（Simon和Moore，Mol.Cell Biol.，1987，7：2329；Ivanov等，Genetics，1996，142：693;和DeMarini等.，2001，30：520.，均通过引用的方式全部并入）。因此，目标形式的可以组合到缺口的载体可以是双链或单链，源自化学合成，PCR，限制性消化，或其它方法。

几个因素可能会影响酵母中同源重组的效率。例如，间隙修复的效率与同源序列侧翼的线性化载体和靶基因的长度相关。在某些实施方案中，约20或多个碱基对的长度可用于同源序列，及约80碱基对可能得到接近优化的结果(Hua et al.,Plasmid,1997,38:91;Raymond et al.,GenomeRes.,2002,12:190,均通过引用的方式全部并入)。在本发明的某些实施方案中，至少约5、10、15、20、21、22、23、24、25、26、27、28、29、30、31、32、33、3435、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、187、190、或200同源碱基对可用于促进重组。在某些实施方案中，约20和约40碱基对之间被利用。此外，载体和基因片段之间的相互交换具严格的序列-依赖性，即它不引起移码。因此，间隙修复克隆确保为基因片段的插入，同时具有高效率和精度。高效率使得其可以同时以一个变换尝试克隆2个，3个，或更多的靶基因片段到相同的载体中(Raymond et al.,Biotechniques,1999,26:134,通过引用的方式全部并入)。此外，精确序列保护的性质通过同源重组使人们有可能克隆选择的基因或基因片段到表达或融合载体，用于直接功能检查(El-Deiry et al.,Nature Genetics,1992,1:4549;Ishioka et al.,PNAS,1997,94:2449,均通过引用的方式全部并入)。

使用同源重组，基因片段的文库已经在酵母中构建。例如，人脑cDNA文库作为双杂交融合文库在载体pJG4-5(Guidotti and Zervos,Yeast,1999,15:715,通过引用的方式全部并入)中构建。已经报道，总共6,000对的PCR引物用于扩增6,000个已知的酵母ORF以研究酵母基因组蛋白质相互作用(Hudson et al.,Genome Res.,1997,7:1169,通过引用的方式全部并入)。在2000年,Uetz et al.在酿酒酵母中进行综合分析的蛋白-蛋白相互作用(Uetz et al.,Nature,2000,403:623,通过引用的方式全部并入)。通过使用综合系统对芽殖酵母蛋白质-蛋白质相互作用图谱进行研究以检查酵母蛋白质之间双杂交相互作用的所有可能组合(Ito et al.,PNAS,2000,97:1143,通过引用的方式全部并入),以及使用本系统研究牛痘病毒的基因组蛋白连锁图谱(McCraith et al.,PNAS,2000,97:4879,通过引用的方式全部并入)。

在本发明的某些实施方案中，可通过同源重组加入合成CDR3(重链或轻链)具有编码重链或轻链底架、部分FRM4、和恒定区,以形成全长重链或轻链。在本发明的某些实施方案中，同源重组直接在酵母细胞中进行。在一些实施方案中，这种方法包括：

(a)转化到酵母细胞：

(i)线性载体编码重链或轻链底架、部分FRM4、和恒定区,其中线性化位点在底架的FRM3端和恒定区开始之间；以及

(ii)CDR3插入核苷酸序列文库为直链和双链的，其中每个CDR3插入序列包含核苷酸序列编码CDR3和5'-和3'-侧翼序列与(i)载体末端有足够的同源性，在线性化的位点使载体和CDR3插入序列文库之间发生同源重组；以及

(b)在转化的酵母细胞中允许同源重组在载体和CDR3插入序列之间发生，使的CDR3插入序列并入到载体中，以生产载体编码全长重链或轻链。

如上述指定的，CDR3插入可具有5'侧翼序列和3'侧翼序列，其与线性载体的末端同源。当CDR3插入和线性载体引入到宿主细胞,例如，酵母细胞，由线性化载体创建的“缝隙”（线性化位点），通过在这两个线性双链DNA的5'和3'末端（即，载体和插入片段）重组同源序列，由CDR3片段插入填充。通过本次同源重组活动，圆形载体文库编码全长重或轻链，包括产生可变CDR3插入。在实施例中提出这些方法的特定实例。

可以进行随后的分析以确定，例如，同源重组的效率其导致正确地插入CDR3序列到载体中。例如，直接从选择的酵母克隆PCR扩增CDR3插入可能揭示许多克隆是重组的。在某些实施方案中，利用了文库的最低约90%的重组克隆。在某些实施方案中，利用了文库具最低约1%、5%10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、或99%的重组克隆。选择克隆相同的PCR扩增也可能揭示的插入片段大小。

为了验证在选定克隆中的序列多样性，具正确插入片段大小的PCR扩增产物可能为“指印”，在其扩增的区域内具限制性内切酶已知的切割或不切割。从凝胶电泳图谱，可确定是否克隆分析为相同的身份或有区别的或多元化的身份。也可以直接测定PCR产物的序列以揭示插入的身份和克隆程序的保真度，并证明克隆的独立性和多样性。

表达和筛选体系

由本文所描述的任何技术或其它合适的技术产生的多核苷酸文库，可被表达和筛选以识别具有所需结构和/或活性的抗体。可以进行抗体的表达，例如，使用无细胞提取物（及例如，核糖体展示），噬菌体展示，原核细胞（例如，细菌的展示），或真核细胞（例如，酵母展示）。在本发明的某些实施方案中，抗体文库在酵母中表达。

在一些实施方案中，改造多核苷酸以作为模板，其可以无细胞提取物中表达。载体和提取物如描述的，例如在美国专利号5324637；5492817；5665563（均通过引用的方式全部并入）可使用并且许多为市售的。可以使用核糖体展示和其它无细胞技术用于连接多核苷酸（即基因型）与多肽（即表型），例如Profusion^TM（例如参见美国专利号6348315；6261804；6258558；和6214553，均通过引用的方式全部并入）。

可选择地或另外地，本发明的多核苷酸可以在大肠杆菌表达系统中表达，如由Pluckthun和Skerra所描述的。（Meth.Enzymol.,1989,178:476;Biotechnology,1991,9:273，均通过引用的方式全部并入）。突变体蛋白可被表达用于培养基/或在细菌的细胞质中分泌，如Better和Horwitz描述的，Meth.Enzymol.,1989,178:476，通过引用的方式全部并入。在一些实施方案中，单一结构域编码VH和VL，每个连接到序列的3'端编码信号序列的，如ompA，phoA的或pelB信号序列（Lei等，J.Bacteriol.,1987,169:4379，通过引用的方式全部并入）。这些基因融合被组装在双顺反子构建体中，使其可以从单一载体中表达，并分泌到E.Coli的壁膜间隙中，其中它们将再折叠，并可以以活性的形式回收。（Skerra等，Biotechnology,1991,9:273，通过引用的方式全部并入）。例如，抗体重链基因可以同时表达抗体轻链基因，以产生抗体或抗体片段。

在本发明的一些实施方案中，抗体序列在原核生物膜表面上表达，例如，E.coli，使用如所述的分泌信号和脂化部分，例如，在US2004/0072740；US2003/0100023；和US2003/0036092（均通过引用的方式全部并入）中。

高等真核细胞，如哺乳动物细胞，例如骨髓瘤细胞（例如NS/0细胞），杂交瘤细胞，中国仓鼠卵巢（CHO），和人胚胎肾（HEK）细胞，也可用于表达本发明的抗体。通常情况下，设计在哺乳动物细胞中表达的抗体，被分泌到培养基中，或在细胞表面上表达。抗体或抗体片段可以被生产，例如，完整抗体分子或个体VH和VL片段，Fab片段，单结构域，或作为单链（scFv）（Huston等，PNAS,1988,85:5879，通过引用的方式全部并入）。

可选择地或另外地，可以由锚定周质表达（APEX2杂交的表面显示）表达和筛选抗体，如所描述的，例如，Jeong等，PNAS，2007，104：8247（通过引用的方式全部并入），或者由其它所述的锚定方法，例如，Mazor等，Nature Biotechnology,2007,25:563（通过引用的方式全部并入）。

在本发明的一些实施方案中，可以使用哺乳动物细胞显示（Ho等，PNAS，2006，103：9637，通过引用的方式全部并入）来选择抗体。

可以通过任何适当的手段进行筛选源自本发明的文库的抗体。例如，可以通过标准免疫测定法和/或亲和层析来评估结合活性。筛选本发明的抗体用于催化功能，例如，可使用标准的检测来完成蛋白水解功能，例如，血红蛋白的噬斑分析，如美国专利号5798208中所述（通过引用的方式全部并入）。可以通过体外检测以确定候选抗体结合治疗目标的能力，例如，BIACORE^TM仪器，其基于表面等离子体共振衡量抗体与给定目标或抗原的结合率。可使用任何的许多动物模型来进行体内检测并随后测试，如适当的，在人类中。也可以考虑基于细胞的生物检测。

即时发明的一个特征是速度，在此速度下所述文库的抗体可被表达和筛选。在本发明的某些实施方案中，抗体文库可在酵母中被表达,其倍增时间小于约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、或24小时。在一些实施方案中，倍增时间为约1至约3小时,约2至约4,约3至约8小时,约3至约24,约5至约24,约4至约6，约5至约22,约6至约8,约7至约22,约8至约10小时,约7至约20,约9至约20,约9至约18,约11至约18,约11至约16,约13至约16,约16至约20,或约20至约30小时。在本发明的某些实施方案中，抗体文库在酵母中表达，倍增时间为约16至约20小时,约8至约16小时,或约4至约8小时。因此，本发明的抗体文库可在约数小时内左右被表达和筛选，如与以前公知的技术相比，其需要数天时间表达和筛选抗体文库。在哺乳动物细胞中，这样的筛选过程中的生产量的限速步骤通常为时间，需要以迭代的方式重新生长分离细胞的种群，其中，在某些情况下，具有的倍增时间大于当前发明中酵母使用的倍增时间。

在本发明的某些实施方案中，经过一个或多个富集步骤后(例如通过筛选抗原结合，绑定到通用配体，或其它属性)文库组成可能为限定的。例如，具有组分的文库包含本发明的约x%序列或文库可能被富集，以含有本发明的约2x%、3x%、4x%、5x%、6x%、7x%、8x%、9x%、10x%、20x%、25x%、40x%、50x%、60x%75x%、80x%、90x%、95x%或99x%序列或文库，经过一个或多个富集步骤后。在本发明的一些实施方案中，本发明的一种或多种文库可能被富集约2-倍,3-倍,4-倍,5-倍,6-倍,7-倍,8-倍,9-倍,10-倍,100-倍,1,000-倍,或更多倍（相对于它们在一个或多个富集步骤之前发生的）。在本发明的某些实施方案中，文库可以包含序列特定类型的至少一定的数量，例如CDRH3、CDRL3、重链、轻链、或整个抗体(例如，至少约10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10¹⁶、10¹⁷、10¹⁸、10¹⁹或者10²⁰)。在某些实施方案中，在一个或多个富集步骤期间，这些序列可能被富集，以提供文库，包含至少约10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10¹⁶、10¹⁷、10¹⁸、或者10¹⁹个相应的序列。

亲和成熟的诱变途径

如上所述，通过选择的过程识别抗体引线（antibody lead），其涉及筛选本发明文库的的抗体以结合到一个或多个抗原，或结合到生物活性。这些抗体引线的编码序列可能在体外或在体内被进一步诱变，产生多样性的二级文库引入到上下文中的初始抗体引线。然后可以进一步筛选这种诱变的抗体引线，用于绑定到目标抗原或生物活性，在体外或在体内，下面的程序类似于那些用于从初级文库中选择的初始抗体引线。这种突变和选择的初级抗体引线有效地模仿了哺乳动物中天然产生的亲和成熟过程，其产生的抗体与抗原的亲和力逐步增加。

在本发明的一些实施方案中，仅CDRH3区域是诱变的。在本发明的一些实施方案中，所述整个可变区是诱变的。在本发明的一些实施方案中，一个或多个CDRH1、CDRH2、CDRH3、CDRL1、CDRL2、和/CDRL3可能是诱变的。在本发明的一些实施方案中，“轻链转移”可以用于亲和力成熟协议的一部分。在某些实施方案中，这可能涉及配对一个或多个重链与许多轻链，选择轻链增强亲和力和/或抗体的生物活性。在本发明的某些实施方案中，轻链与一个或多个重链可被配对的数量至少约2,5,10,100,10³,10⁴,10⁵,10⁶,10⁷,10⁸,10⁹,或10¹⁰。在本发明的某些实施方案中，这些轻链由质粒编码。在本发明的一些实施方案中，轻链可以整合到宿主细胞的基因组中。

可以使用任何各种各样的方法来诱变抗体引线的编码序列。诱变方法的例子包括但不限于，位点定向诱变，易错的PCR诱变，盒式诱变，和随机PCR诱变。可选择地或另外地，可以合成寡核苷酸编码所需突变区域，并引入到待诱变的序列中，例如，通过重组或连接。

位点定向诱变或点突变可被用于在特定区域中逐渐改变CDR序列。例如，这可能通过使用寡核苷酸定向诱变或PCR来完成。例如，抗体引线的短序列可能被替换为合成诱变的寡核苷酸中的重链或轻链区域，或两者。这样的方法可能无法高效用于诱变处理大量的CDR序列，但可能用于微调特定的引线来实现对特定目标蛋白的更高的亲和力。

盒式诱变可替代地或附加地用于在特定的区域诱变CDR序列。在典型的盒式诱变中，单一模板的序列块，或区域，被完全地或部分地随机序列所替代，但是，可以获得最大的信息内容，可以被许多寡核苷酸的随机序列来统计学限制。相似于点突变，此方法也可以被用于微调特定的引线，以实现对特定目标蛋白更高的亲和力。

易错PCR，或“毒药”PCR，可用于诱变CDR序列，例如，由下列协议中描述的，美国专利号6153745；Caldwell和Joyce，PCR方法及应用，1992,2:28；Leung等，技术，1989，1：11；Shafikhani等，生物技术，1997，23：304；和Stemmer等，PNAS，1994，91：10747（均通过引用的方式全部并入）。

易错PCR的条件可包括，例如，（a）高浓度的Mn²⁺（例如，约0.4至约0.6mM），其有效地诱导Taq DNA聚合酶的失效；和/或（b）在PCR反应中，1个核苷酸底物（例如，三磷酸）不相称的高浓度，其导致这种高浓度底物错误地掺入到模板中，并产生突变。可选择地或另外地，其它的因素，例如，PCR循环数量，所使用的DNA聚合酶的种类，和该模板的长度，可能会影响到“错误”核苷酸到PCR产物中的错掺率。市售的试剂盒可用于诱变所选的抗体文库，如：“多样性PCR随机诱变试剂盒”（CLONTECH^TM）。

在某些实施方案中，以PCR为基础的突变中使用的引物对，可能包括在表达载体中与同源重组位点匹配的区域。这样的设计允许通过同源重组诱变后，温和地引入PCR产品退入到重链或轻链底架载体。

也可以使用其它基于PCR的诱变方法，单独或结合上述的易错PCR。例如，可以用DNA酶消化PCR扩增的CDR部分以在双链DNA上创建缺口。这些缺口可以通过其它的核酸外切酶，如Bal31扩展到间隙中。然后，间隙可通过在低浓度的规则底物dGTP，dATP，dTTP，和dCTP下，其中1个底物（例如，dGTP）为不成比例的高浓度，使用DNA Klenow聚合酶由随机序列填充。此填充式反应在填充间隙区域生产高频率突变。这种DNase消化的方法可用于结合易错PCR，以在所需的CDR部分中创建高频率的突变。

从初级抗体引线扩增的CDR或抗体部分也可以在体内通过开发预-B细胞突变的固有能力来诱变。预-B细胞的Ig基因特别易受高的突变率。在预-B细胞的环境中（在预-B细胞增殖时），Ig启动子和增强子促进此类率高突变。因此，CDR基因部分可被克隆到哺乳动物表达载体中，其包含人Ig增强子和启动子。这样的构建体可被引入预-B细胞系，如38B9，其允许在预-B细胞中，VH和VL基因部分自然地突变（Liu和Van Ness，Mol.Immunol.，1999，36：461，通过引用的方式全部并入）。可以从培养的预-B细胞系中扩增诱变的CDR部分，并重新引入回底架-包含载体通过，例如，同源重组。

在一些实施方案中，从筛选文库中分离的CDR“hit”可以被重新合成，例如用简并密码子或三核苷酸，并使用间隙修复重新克隆到的重链或轻链载体。

本发明的多核苷酸序列的其他变体

在某些实施方案中，本发明提供多核苷酸，其与本文所教导的多核苷酸杂交，或与本文所教导的多核苷酸补充物杂交。例如，在杂交和洗涤后分离的多核苷酸与本文所教导的多核苷酸或本文所教导的多核苷酸补充物，在低、中等或高严格条件下杂交和洗涤后保持杂交，由本发明包含。

示例性低严格条件包括在约37℃下，与约30%至约35%甲酰胺,约1M NaCl,约1%SDS(十二烷基硫酸钠)的缓冲液杂交，并在约50℃至约55℃下，用约1X至约2X SSC(20X SSC=3.0M NaCl/0.3M柠檬酸三钠)洗涤。

示例性中等严格条件包括在约37℃下约40%至约45%甲酰胺,约1MNaCl,约1%SDS中杂交,并在约55℃至约60℃下，在约0.5X至约1XSSC中洗涤。

示例性高严格条件包括在约37℃下，约50%甲酰胺,约1M NaCl,约1%SDS中杂交,并在约60℃至约65℃下，约0.1X SSC中洗涤。

另外，洗涤缓冲液可能包含约0.1％至约1％的SDS。

杂交的持续时间一般小于约24小时，通常为约4至约12小时。

子文库和包含本发明的文库或子文库的较大文库

文库包含本文描述的文库组合(例如，CDRH3和CDRL3文库)也由本发明包括。子文库包含本文描述的部分也由本发明包括(例如，在特定重链底架中的CDRH3文库或CDRH3文库的子集,例如基于长度)。

而且，文库含有一个本发明的文库或子文库也落入本发明的范围内。例如，在本发明的某些实施方案中，一种或多种本发明的文库或子文库可含于大的文库(理论或物理地)中,其可包括序列源自其它手段的序列,例如，非-人或人序列源自随机或sitewise-随机合成。在本发明的某些实施方案中，多核苷酸文库中序列的至少约1%可能为本发明的这些(例如CDRH3序列、CDRL3序列、VH序列、VL序列),而不管其它序列中99%的组合物如何。仅作为说明的目的，本领域技术人员将容易地认识到文库含有10⁹总成员,其中10⁷成员为可实用于本发明文库(即1%)的成员,而且本发明的文库的成员可从此文库中分离。在本发明的一些实施方案中，在任何多核苷酸文库中，序列的至少约0.001%、0.01%、0.1%、2%、5%、10%、20%、30%、40%、50%、60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%可能为本发明的这些，而不管其它序列的组合物如何。在一些实施方案中，本发明的序列可包含任何多核苷酸文库中序列的约0.001%至约1%,约1%至约2%,约2%至约5%,约5%至约10%,约10%至约15%,约15%至约20%,约20%至约25%,约25%至约30%,约30%至约35%,约35%至约40%,约40%至约45%,约45%至约50%,约50%至约55%,约55%至约60%,约60%至约65%,约65%至约70%,约70%至约75%,约75%至约80%,约80%至约85%,约85%至约90%,约90%至约95%,或约95%至约99%,而不管其它序列的组合物如何。因此，比本发明的一种或多种文库或子文库更加多样化的文库,但仍然包含本发明的一种或多种文库或子文库，一定量的一种或多种文库或子文库中，此本发明的一种或多种文库或子文库可以有效地筛选，并且由本发明的一个或多个文库或子文库编码的序列可以从中分离，也落入本发明的范围内。

可选择的骨架

如将对本领域的技术人员是显而易见的,本发明提供的CDRH3和/或CDRL3多肽也可在替代的骨架上展示骨架。已经显示几个这样的骨架可产生特异性和亲和性的分子，其与这些抗体竞争。示例性替代骨架包括这些源自纤连蛋白(例如AdNectin),β-三明治(例如iMab),载脂蛋白(例如Anticalin),EETI-II/AGRP,BPTI/LACI-D1/ITI-D2(例如Kunitz结构域),硫氧还蛋白(例如肽核酸适体),蛋白A(例如Affibody),锚蛋白重复序列(例如DARPin),B-晶状体球蛋白/泛素(例如Affilin),CTLD3(例如四连接素),和(LDLR-A模块)₃(例如，Avimer)。提供替代骨架上的附加信息，例如，在Binz et al.,Nat.Biotechnol.,200523:1257and Skerra,Current Opin.inBiotech.,200718:295-304中,均通过引用的方式全部并入。

本发明的另外实施方案

文库容量

在本发明的一些实施方案中，文库包含约10¹至约10²⁰不同的多核苷酸或多肽序列(编码或包含，例如，抗体、重链、CDRH3、轻链和/或CDRL3)。在一些实施方案中，本发明的文库为设计的，以包括至少约10¹、10²、10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵、10¹⁶、10¹⁷、10¹⁸、10¹⁹、或10²⁰、或更多不同的抗体、重链、CDRH3、轻链、和/或CDRL3多核苷酸或多肽序列。在一些实施方案中，本发明的文库可含有小于特定数量的多核苷酸或多肽序列,其中使用上述提供的任何一个整数，序列的数量是限定的。在本发明的某些实施方案中，特定的数量范围是限定的,使用上述提供的任何2个整数，如所述范围的下边界和上边界（包括或排除）。提供的所有整数的组合，其限定的上边界和下边界，是预期的。

在一些实施方案中，本发明提供文库，其中文库中的一小部分成员是根据本文所述方法、系统、和组合物生产的。本发明的文库的一个重要特性是它们有利地模仿人免疫前清单的某些方面,包括长度多样性和序列多样性。一个或在本技术领域的普通技术人员将容易地认识到，本发明提供的文库包括文库，其中文库中的成员子集是根据本文所述方法、系统、和组合物生产的。例如，文库含有10⁸个成员，其中10⁶个成员是根据本文所述方法、系统、和组合物生产的,可含有根据本文所述方法、系统、和组合物生产的1%的序列。本领域技术人员将认识到可使用本领域中已知的筛选技术分离多个一个或多个10⁶成员。因此，所述文库落入本发明的范围内。更具体而言，本文提供的文库包含至少约1%,2.5%,5%,10%,15%,20%,25%,30%,40%,45%,50%,55%,60%,65%,70%,75%,80%,85%,90%,95%,或者99%CDRH3、CDRL3、轻链、或重链、和/或全长抗体序列落入本发明的范围内。包含至少约10³、10⁴、10⁵、10⁶、10⁷、10⁸、10⁹、10¹⁰、10¹¹、10¹²、10¹³、10¹⁴、10¹⁵的本文所述CDRH3、CDRL3、轻链、重链、和/或全长抗体序列的文库落入本发明的范围内。

人免疫前集

在一些实施方案中，本发明包括3,571治疗人免疫前抗体序列集，含于HPS,他们对应于CDRH3序列(附录A),和/或在计算机可读格式中这些CDRH3序列(和/或其TN1,DH,N2和/或H3-JH部分)的代表。在某些实施方案中，本发明包括生产CDRH3文库的方法,本发明包括匹配来自理论部分池的候选部分(即，TN1,DH,N2,和H3-JH)与HPS中的CDRH3序列和/或CDRH3序列的任何其它清单。在一些实施方案中，本发明包含候选部分（来自本文公开的理论部分池和/或选择部分列入物理文库）。

实施方案

虽然本文描述的方法证明使用有限数量的等位基因变异体生产H3-JH和DH部分的理论部分池，本领域技术人员将认识到本文所教导的方法可能适用于任何IGHJ和IGHD基因，包括任何其它等位基因变异体和所有的非人IGHJ和IGHD基因。可选择地或另外地，本文描述的方法可能适用于任何CDRH3序列参考集,例如提取额外的TN1和/或N2部分。可选择地或另外地，本领域技术人员将认识到本发明描述的每个实施方案可能为多核苷酸或多肽形式）在载体,病毒,或微生物(例如酵母或细菌)内）。而且，由于本发明涉及合成文库是完全列举的，在计算机可读格式中，本发明的某些实施例及其使用与以上描述的任一实施例相关。

非人抗体文库也落入本发明的范围内。

本公开描述了去除来自本发明文库的含有Cys残基，N-连接的糖基化模体，脱酰胺模体，高疏水性序列的序列。本领域技术人员将认识到一个或多个这些标准(即，不一定是全部)可适用于从任何本发明的文库中去除不需要的序列。然而，文库含有一个或多个这些类型的序列也落入本发明的范围内。其它标准也可以被使用；本文所描述的不是限制性的。

在某些实施方案中，本发明提供文库，特定序列的次数是重复的，在文库(或理论,合成,或物理实现)中是有限的。例如，在一些实施方案中，本发明提供文库，其中在文库(例如CDRH3,CDRL3,重链,轻链,全长抗体)中，任何序列发生的频率小于约2,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,200,300,400,500,600,700,800,900,或1000。在一些实施方案中，在文库中任何序列发生的频率小于库中任何其它序列发生频率的倍数，例如小于库中任何其它序列发生频率的约2,5,10,15,20,25,30,35,40,45,50,55,60,65,70,75,80,85,90,95,100,200,300,400,500,600,700,800,900,或1000倍数。

在一些实施方案中，通过组合部分的多样性文库是限定的用于生产CDRH3序列,特定数量的非兼并部分组合可被用于生产特定的CDRH3序列。在一些实施方案中，此度量可使用,例如，来自CDRH3文库的约2000,5000,10000,20000,50000,100000,或多个序列样本来计算和使用部分“自-匹配”用于产生文库的CDRH3序列。在某些实施方案中，本发明提供文库，其中文库中CDRH3序列的至少约95%,90%,85%,80%,75%,70%,65%,60%,55%,50%,45%,40%,35%,30%,25%,20%,15%,10%,或5%可由单一的组合部分形成。

在本发明的某些实施方案中，统计抽样分析被用于产生CDRH3参考集。虽然使用这种方法可能是有利的，但对于本发明的每一个实施例而言，它不是必需的。

在一些实施方案中，本发明提供选择多核苷酸的方法和系统以编码本发明的多肽,包含选择多核苷酸部分，缺失(或含有)特定限制位点个体和/或与其它部分(例如参见实施例9.3.7)组合串联后。

本文提供的示例性文库是非限制性的，并且仅仅为了举例而提供。

实施例

由下列实施例进一步说明本发明，不应该被解释为限制。贯穿本申请引用的所有参考文献，专利和公开的专利申请的内容在此作为参考引入。

一般情况下,本发明的实践采用,除非另有说明,现有的化学，分子生物学，DNA重组技术，PCR技术，免疫学（特别是，例如抗体技术），表达系统（例如酵母表达、细胞无表达、噬菌体展示技术、核糖体展示、和PROFUSION^TM）技术，以及任何必要的细胞培养技术，其在本研究领域的范围内并在文献中解释。参见，例如，Sambrook,Fritsch and Maniatis,Molecular Cloning:Cold Spring Harbor Laboratory Press(1989);DNACloning,Vols.1and2,(D.N.Glover,Ed.1985);寡核苷酸合成(M.J.Gait,Ed.1984);PCR Handbook Current Protocols in核酸Chemistry,Beaucage,Ed.John Wiley&Sons(1999)(Editor);Oxford Handbook of核酸Structure,Neidle,Ed.,Oxford Univ Press(1999);PCR Protocols:A Guide to Methodsand Applications,Innis et al.,Academic Press(1990);PCR EssentialTechniques:Essential Techniques,Burke,Ed.,John Wiley&Son Ltd(1996);The PCR Technique:RT-PCR,Siebert,Ed.,Eaton Pub.Co.(1998);抗体Engineering Protocols(Methods in Molecular Biology),510,Paul,S.,HumanaPr(1996);抗体Engineering:A Practical Approach(Practical Approach Series,169),McCafferty,Ed.,Irl Pr(1996);Antibodies:A Laboratory Manual,Harlowet al.,C.S.H.L.Press,Pub.(1999);Current Protocols in Molecular Biology,eds.Ausubel et al.,John Wiley&Sons(1992);Large-Scale Mammalian CellCulture Technology,Lubiniecki,A.,Ed.,Marcel Dekker,Pub.,(1990);PhageDisplay:A Laboratory Manual,C.Barbas(Ed.),CSHL Press,(2001);抗体Phage Display,P O’Brien(Ed.),Humana Press(2001);Border et al.,NatureBiotechnology,1997,15:553;Border et al.,Methods Enzymol.,2000,328:430;核糖体展示，如被Pluckthun et al.在美国专利号6,348,315中描述,以及Profusion^TM被Szostak et al.在美国专利号6,258,558;6,261,804;和6,214,553中描述;以及细菌周质表达在US20040058403A1中描述。在本段中每个所引用的文献通过引用的方式全部并入。

使用Kabat公约和程序进一步分析相关抗体序列细节以分析排列的核苷酸和氨基酸序列可能发现,例如，在Johnson et al.,Methods Mol.Biol.,2004,248:11;Johnson et al.,Int.Immunol.,1998,10:1801;Johnson et al.,Methods Mol.Biol.,1995,51:1;Wu et al.,蛋白质,1993,16:1;以及Martin,蛋白质,1996,25:130中。在本段中引用的每个参考文献通过引用的方式全部并入。

使用Chothia公约进一步分析相关抗体序列细节可能发现,例如，在Chothia et al.,J.Mol.Biol.,1998,278:457;Morea et al.,Biophys.Chem.,1997,68:9;Morea et al.,J.Mol.Biol.,1998,275:269;Al-Lazikani et al.,J.Mol.Biol.,1997,273:927.Barre et al.,Nat.Struct.Biol.,1994,1:915;Chothia et al.,J.Mol.Biol.,1992,227:799;Chothia et al.,Nature,1989,342:877;以及Chothia et al.,J.Mol.Biol.,1987,196:901中。进一步分析CDRH3信息可能发现，见Shirai et al.,FEBS Lett.,1999,455:188以及Shirai et al.,FEBS Lett.,1996,399:1。描述了进一步分析相关Chothia细节分析,例如，在Chothia et al.,Cold Spring Harb.Symp.Quant Biol.,1987,52:399中。在本段中引用的参考文献通过引用的方式全部并入。

描述了进一步相关CDR联系考虑细节,例如，在MacCallum et al.,J.Mol.Biol.,1996,262:732中，通过引用的方式全部并入。

本文引用的进一步相关抗体序列和数据库的细节，见：例如，在Tomlinson et al.,J.Mol.Biol.,1992,227:776,VBASE2(Retter et al.,核酸sRes.,2005,33:D671);BLAST(www.ncbi.nlm.nih.gov/BLAST/);CDHIT(bioinformatics.ljcrf.edu/cd-hi/);EMBOSS(www.hgmp.mrc.ac.uk/Software/EMBOSS/);PHYLIP(evolution.genetics.washington.edu/phylip.html);以及FASTA(fasta.bioch.virginia.edu)中。在本段中引用的参考文献通过引用的方式全部并入。

轻链文库

实施例1.具有框架和/或CDRL1和/或CDRL2可变性的轻链文库

虽然抗体序列的多样性集中在CDR中，框架区内的某些残基也可以影响抗原的识别和/或调节亲和力(Queen et al.,Proc.Natl.Acad.Sci.USA,1989,86:10029;Carter et al.,Proc.Natl.Acad.Sci.USA,1992,89:4285,均通过引用的方式全部并入)。这些残基已经编目并用于制作框架替换，以提高抗体的亲和力，例如，在抗体人源化的过程中(例如参见“Vernier”残基，Foote and Winter,J.Mol.Biol.,1992,224:487,通过引用的方式全部并入)。在重链中，Vernier残基包括Kabat-编号的残基2,27-30,47-49,67,69,71,73,78,93-94,和103。在轻链中,Vernier残基包括Kabat残基2,4,35-36,46-49,64,66,68-69,71,和98。Vernier残基数量与kappa和lambda轻链序列(参见表4，在Chothia et al.,J.Mol.Biol.,1985,186:651中，其通过引用的方式全部并入)相同。此外，在VL-VH界面处的框架位也可能影响的亲和力。在重链中,界面残基包括Kabat残基35,37,39,45,47,91,93,95,100,和103(Chothia et al.,J.Mol.Biol.,1985,186:651,通过引用的方式全部并入)。在所述轻链中，界面残基包括Kabat残基34,36,3844,46,87,89,91,96,和98。

下列过程用于选择被改变的框架残基和氨基酸，其应该被改变:

a.收集人VK轻链DNA序列，从NCBI(参见对于GINos.WO/2009/036379的附录A)获得。根据VK种系部分的种系起源对这些序列进行分类。

b.Vernier和界面位的每个变化模式进行了如下检查：

i.公式1(来自Makowski&Soares,Bioinformatics,2003,19:483,通过引用的方式全部并入)用于计算Vernier位，界面位，CDRL1,和CDRL2的多样性指数。

d = \frac{1}{NΣ p_{i}^{2}}

公式1

此处,d是多样性指数，N为20（即氨基酸类型的总数），并且p_i是在目标位类型“i”的氨基酸的分数。所述总和实行超过了20种氨基酸类型。所述参数d将达到其最小值0.05或者1/20，当单一的氨基酸类型在给定位观察到：对于剩余的一种类型和0，p_i是1。相反地，当所有氨基酸类型是同等可能的(例如，对于所有ip_i是0.05)，d将达到其最大值1.0。

ii.对于每个Vernier和界面位的多样性指数，与在CDRL1和CDRL2中所述位的多样性指数是可比的。

iii.发现所述界面位是相对不变的，并且d值非常接近最小值0.05，因此不被改变。所述Vernier残基具有多样性指数与所述CDR位是可比的，或者比其大(即，在或者高于0.07，对于在图1中提供的特定实施例)，选择所述Vernier残基作为变异的候选(参见图1)。所述氨基酸残基（包括在这些位上的）选自：在人VK轻链集合中所述序列上（对每个特定的VK种系）最频繁发生的2至3个氨基酸。

iv.表2显示，在9个示例性轻链种系中的每个中，选择用于变异的位。所述供选择的框架位代表多样性指数小于所述初级框架位，但是其中可变性仍然可以被纳入以影响抗原结合。

v.在所述框架位中的氨基酸残基（选择用于变异）按照下文进行变化（表3提供了这些变体的多肽序列）：

1.位2:种系I任选地改变为V。

2.位4:种系M或L任选地改变为L或M。在一些实施方案中，从M至L变化,但不能反向,可能是优选的，因为在生产，加工，或存储过程中M可遭受氧化，有可能改变抗体性能。

3.位36:种系Y任选地改变为F和H。

4.位46:种系L任选地改变为V。

5.位48:种系I任选地改变为L。

6.位49:种系Y任选地改变为S,F和H。

7.位66:种系G任选地改变为R和E。

本领域技术人员将容易地认识到，上面标出的程序也可被用于选择V　种系序列中变化的位，而且此文库含有的V　链也落入本发明的范围内。

除了框架突变，可变性也被引入到CDRL1和CDRL2中。其通过测定CDRL1和CDRL2中可变的残基来进行,在一特定种系内，在上面使用的VK数据集中，并将最频繁发生的2至4变体列入到本发明合成文库的CDRL1和CDRL2中。除了V　.1-5种系CDRL2的位50，这些替代品不从等位变异中出现。表3示出了本发明当前例举的实施方案的9个轻链底架和其框架的多肽序列以及CDR L1/L2变体。选择CDRL1/L2位中的氨基酸残基作为变异变化如下(使用Chothia-Lesk编号系统；Chothia and Lesk,J.Mol.Biol.,1987,196:901):

1.位28:种系S或G任选地改变为G,A,或D。

2.位29:种系V任选地改变为I.。

3.位30:种系S任选地改变为N,D,G,T,A,或R。

4.位30A:种系H任选地改变为Y。

5.位30B:种系S任选地改变为R或T。

6.位30E:种系Y任选地改变为N。

7.位31:种系S任选地改变为D,R,I,N,或T。

8.位32:种系Y或N任选地改变为F,S,或D。

9.位50:种系A,D,或G任选地改变为G,S,E,K,或D。

10.位51:种系G或A任选地改变为A,S,或T。

11.位53:种系S或N任选地改变为N,H,S,K,或R。

12.位55:种系E任选地改变为A或Q。

实施例2.在CDRL3中具有增强多样性的轻链文库

制造轻链文库的各种方法在本领域中是已知的（例如，见美国公开号2009/0181855，2010/0056386，和WO/2009/036379）。分析临床验证抗体序列表明来自种系样VL-JL（其中“L”可以是kappa或lambda种系序列）重排，在体细胞突变（图2）之前，这些序列的偏差非常小。在这里，种系样重排为：其中的V或J部分都不同于各自的种系基因，并用于此具体实施例的目的，其中CDRL3的长度被限制为8，9或10个氨基酸（见美国公开号2009/0181855，2010/0056386，和WO/2009/036379）。然而，对于IGHJK1基因，WT（Trp-Thr）和RT（Arg-Thr）序列（前2个N-端残基）被认为是“种系样”而且为完整的L3重排，含有此序列。因此，新的轻链文库是被设计的，并与目标同时构建（1）尽量减少从种系样序列的偏差，如以上限定的；以及（2）生成的最大多样性。特别地，总体目标是最大化的类型的多样性，其由临床验证抗体序列指示为最有利的。特别地，设计的文库寻求最大化CDRL3序列多样性，其不同于由两个或更少的氨基酸长度匹配的种系序列。

这是通过利用“跳跃二聚体”或“跳三聚体”的途径以轻链寡核苷酸设计来完成的。跳跃二聚物的途径包括在每个由部分的VL（L3-VL）编码的CDRL3的6个位上列入简并密码子。每个单独的L3-VL序列种系的至多2个位不同，但2位无须彼此相邻。因此，每个VL底架的设计的简并寡核苷酸合成的总数量为6!/(4!2!)，或15（在每个kappa种系底架的VL和JL之间的结合处（位96）最常发生的氨基酸为6个（即F，L，I，R，W，Y，P；参见美国公开号2009/0181855和2010/0056386，和WO/2009/036379，均通过引用的方式全部并入，提供在位96结合氨基酸的详细信息。跳跃三聚体的途径类似于跳跃二聚体的途径，在个体的L3-VL序列中，来自种系具有3位不同，而不是如跳跃二聚体中的2个。在跳跃的二聚体和三聚体的途径中，选择每个位的简并密码子，选择（1）再生多样性包含有公开可用的人VK序列（参见WO/2009/036379附录A）中已知的清单；以及（2）以最大限度地减少或消除所得合成轻链中CDRL3内不希望的序列，如N-连接的糖基化模体（NXS/NXT），Cys残基，终止密码子，和脱酰胺-倾向NG模体。表4示出了15个简并寡核苷酸编码VK1-39CDRL3序列，为9个氨基酸的长度，而且F或Y作为结合氨基酸，以及相应的简并多肽序列。表5、表6、和表7为示例性跳跃二聚体和三聚体文库的每个VK序列提供寡核苷酸序列，CDRL3长度分别为为8，9和10，而且序列为相应的CDRL3。

然后列举每个种系文库内独特CDRL3序列的数量，并与不同的轻链中文库中独特CDRL3序列的数量相比，指定的“VK-1.0”（见实施例6.2，美国专利公开号2009/0181855）每个为3种长度。表8提供了各自种系文库中独特CDRL3序列的数量。

图3提供了在跳跃二聚体中序列的百分比以及VK-1.0文库具有9个氨基酸长度的CDRL3，其不包含来自种系样序列（表1）或1，2，3，或4的突变或来自种系样序列更少的突变。天然发生的VK1-05序列都差不多可能有Ser（种系氨基酸型）如位95Kabat的Pro，从而2个残基（S和P）列入合成文库代表VK1-05清单。然而，如表1所示，当VK基因为VK1-05时，出于分析的目的，仅Ser被认为是95位的种系样残基。绘图VK3-20代表在文库中剩余的底架，长度为9。人类种系序列的VK1-05文库中所有的序列在3个氨基酸以内，而且人种系样序列的约63％的序列在2个氨基酸以内。对于文库其余的，以及如设计的，人种系样序列100％的序列在2个氨基酸以内；因此，在跳跃二聚体文库中95％以上的长度为9的序列，被认为在种系样序列内作为整体在2个氨基酸的范围内。相比之下，对应于人种系样序列，长度为9个氨基酸的VK-V1.0文库成员的仅16％在2个氨基酸之内。对于长度为8，在跳跃二聚体文库中序列的约98％在2个氨基酸种系样的范围内，相对VK-1.0约为19％。对于长度为10，在跳跃二聚体文库中，95％以上的序列内在2个氨基酸种系样之内，相对VK-1.0约8％。

在一些实施方案中，在位内集中的多样性最有可能为在折叠抗体中溶剂暴露的，位89和90（KABAT编号）不从种系修饰-这些是最常见的QQ，但VK2-28底架的序列是MQ。其它VK种系基因在位88-89具有不同序列，并且作为底架，这些基因的使用也落入本发明的范围内。例如，VK1-27具有QK，VK1-17和VK1-6都具有LQ，依此类推。在这些位中的序列在本领域中是已知的，也可以获得，例如，从SCAVINER等，Exp.Clin.Immunogenet.,1999,16:234（见图2），其通过引用的方式全部并入。

CDRH3文库

以下实施例描述的方法和组成用于设计和合成的抗体文库，与本领域中已知的文库相比，具有改进的CDRH3序列。与本领域中已知的文库相比，本发明的CDRH3序列具有增强的多样性，同时保留人类序列的特性，改进CDRH3部分的合成效率，和/或改进在一个或多个参考集中合成CDRH3序列和人CDRH3序列之间的匹配。

实施例3.生成人免疫前CDRH3序列的Curated参考集

从BLAST公共资源（ftp.ncbi.nih.gov/blast/db/FASTA/;filename:igSeqNt.gz;download date:Aug29,2008）下载含有约84,000个人和小鼠重链DNA序列的文件。在这些约84,000个序列中，在分析序列头注释的基础上约34,000个序列被识别为人重链序列。然后过滤这些序列如下：首先，根据相应的（最接近匹配）VH种系，通过他们的VH区域，对所有的序列进行分类。由于广泛的突变，序列是不正确的或长度不足，或可能错配，则被丢弃。第二，在DNA水平上，当与其相应的种系VH序列相比时，任何序列含有5个以上的突变，也被丢弃。假设，符合Rada and Milstein,EMBO J.,2001,20:4570，在可变区N-末端部分的突变（或缺乏），也可用于作为在可变区C-末端部分中突变的保守代替（或缺乏），特别是在CDRH3中。因此，仅选择VH中具有5个或更少核苷酸突变的序列，其为CDRH3的N-末端，也是极有可能选择为CDRH3序列，其在所有（即，具有免疫前的特性）上为轻突变或不突变。

在将剩余的DNA序列翻译成氨基酸对应物后，识别含有重链种系氨基酸序列的适当的阅读框，并用于识别CDR序列，包括CDRH3。进一步过滤在此点上获得的CDRH3序列的列表，以消除集合中与任何其它序列没有差异的成员，至少3个氨基酸（匹配长度后）。这个过程收获了11,411个CDRH3序列，3,571个序列标注为源于健康成人（“健康免疫前集”或“HPS”；见GINos.附录A）的序列以及7840各序列标注为源于个体患病、胎儿源、或抗原特异性源。然后，下面描述的方法用于将HPS中的每个序列解卷积成4个部分，构成CDRH3,：（1）TN1，（2）DH，（3）N2，和（4）：H3-JH。

实施例4.在参考集中，匹配从理论部分池到CDRH3部分的方法

本实施例描述的方法，用于识别HPS中CDRH3的TN1、DH、N2、和H3-JH部分。目前实施例的途径设计和合成的人CDRH3序列模拟部分的V-D-J基因重组过程，通过其，人的免疫系统产生免疫前CDRH3清单。这里描述的匹配方法确定哪个TN1、DH、N2和H3-JH部分已经被用于生产特定CDRH3，跨越CDRH3（例如，HPS）参考集。然后，使用该信息，与下文所述的其它信息（例如，物理化学性质）任选结合，以确定来自理论部分池（或参考集中来自CDRH3序列的部分提取，在TN1和N2的情况下）的哪些TN1、DH、N2、和H3-JH部分的应被列入合成CDRH3文库。

输入到匹配方法为：（1）CDRH3序列（例如，HPS中的人CDRH3序列）参考集，和（2）理论部分池，含有多个TN1、DH、N2和/或H3-JH部分。方法，通过其中产生理论部分池的成员，更全面的描述如下。对于参考集中的每个CDRH3，匹配的方法产生两个输出：（i）最接近匹配的CDRH3序列的列表，可以通过使用理论部分池的部分产生，及（ii）从理论部分池的一个或多个部分的组合，可用于创建这些最接近匹配的CDRH3序列。

匹配方法按如下进行：理论部分池每个TN1部分，在其第一个氨基酸与参考集CDRH3序列的第一个氨基酸（位95）对齐。对于每个部分的长度，所有的（即，一个或多个）部分恢复最佳匹配被保留，而其余的部分被丢弃。然后保留的TN1部分把来自理论部分池所有的DH部分连接起来，以创建[TN1]-[DH]部分。然后如上述对齐这些部分，保留每个[TN1]-[DH]部分所有最佳匹配。以[TN1]-[DH]-[N2]和[TN1]-[DH]-[N2]-[[H3-JH]部分重复此过程，直到来自参考集的CDRH3序列长度由组合理论部分池的部分相同概括。保留所有部分组合恢复与参考集中CDRH3的最佳匹配作为匹配方法的输出。

表9提供了输出匹配方法的实施例，具体为来自HPS的4个单独序列的输出，使用理论部分池指定的“理论部分池1，”或“TSP1”。TSP1含有几个理论部分池，即：212TN1部分（表10），1,111DH部分（表11），141的N2部分（表12），和285H3-JH部分（表13）。测试例1中的CDRH3序列含有与TSP1相同的匹配，其通过独特组合4个部分来达到。测试例2.1和2.2每个恢复相同的匹配，但通过两2不同的组合，TN1和DH部分不同。在测试例3.1，4.1，和4.2中，最接近的匹配都是远离参考CDRH3的单一的氨基酸，并可通过TSP1的1个（3.1）或2个（4.1和4.2）部分的组合达到。也可归纳这种途径以找到在任何理论部分池内与任何参考CDRH3序列最接近的匹配，以及理论部分池内所有部分的组合可以精确地生产参考CDRH3序列和/或最接近的匹配。

实施例5.得到H3-JH部分的理论部分池

为了生产H3-JH部分的理论部分池以考虑列入合成CDRH3文库，下面的方法应用于产生表14中12种系IGHJ序列的7个突变体（IGHJ1-01，IGHJ2-01，IGHJ3-02，IGHJ4-02，IGHJ5-02，IGHJ6-02和IGHJ6-03）。选择这7个等位基因，是因为人类的序列中他们是最常发生的等位基因。表14（仅在FRM4一些不同）的所有文库序列被用于产生H3-JH和/或JH（即，H3-JH和FRM4），也落入本发明的范围内。该方法的目的是在体内VDJ重组过程中模拟创建结合多样性，其中通过酶介导的添加发生并删除种系基因部分的核苷酸。该方法进行如下，并且导致完全列举H3-JH部分的理论部分池：

1.预处理被施用于IGHJ基因，其含有偏好密码子，由其5'末端（IGHJ3-02，IGHJ4-02，IGHJ5-02，IGHJ6-02和IGHJ6-03）的2个核苷酸碱基组成，在第一核苷酸编码翻译JH部分之前产生众所周知的JH框架区。例如，IGHJ3-02基因含有AT二核苷酸序列，在第一个核苷酸编码翻译JH部分之前产生JH框架区（图4中，顶部）。所有偏好密码子由完成后的2个核苷酸碱基组成，在其2个大部分5'位（图4，顶部，IGHJ3-02的第2行）使用所有可能的核苷酸双峰（即，NN）。更具体而言，种系序列中的大部分5'核苷酸突变为N以及额外的N添加到核苷酸的5'端。

2.IGHJ基因IGHJ1-01（图4，中心）和IGHJ2-01（图4，底部），在其5'末端含有0和1个核苷酸碱基，在第一个核苷酸编码翻译JH部分之前产生JH框架区。对于这些基因，在步骤1中所述的预处理不被进行。相反，5'双峰突变为NN（图4，中部和底部，每个的第2行）。因此，进行此步骤后，上面列举的7个IGHJ基因的每个转化为变体，如在其前2个5'位具有NN双峰。

3.然后删除通过步骤1和2产生序列的5'密码子，得到的DNA序列的前2个碱基随后突变为NN双峰（图4，所有的行3-4）。

4.然后删除步骤3中产生序列的5'密码子，得到的DNA序列的前2个碱基随后突变为NN双峰（图4，所有的行5-6）。

5.然后翻译由步骤（1）-（4）所产生的每一个多核苷酸序列，以来自可读阅读框由248个亲本H3-JH多肽部分（表15）组成，获得理论部分池，用于每个序列以产生JH框架区。

6.亲本H3-JH多肽部分在其N-末端被截断，通过在一定时间除去一个氨基酸，直到仅JH部分的部分包含FW4剩余（即，H3-JH部分，长度为0个氨基酸）。

上面描述的方法导致生产285个H3-JH部分（表13）的理论部分池。

实施例6.得到DH部分的理论部分池

生成DH部分的2个理论池，使用2种翻译方法中的一个或多个，指定的“翻译法0”（TM0），或“翻译方法1”（“TM1”），每一个在27个人种系IGHD DNA序列或部分的3个正向阅读框中进行，由此得到（表16）。1K DH理论部分池(1K DH)

TM1将被用来产生“1K DH理论部分池”（“1K DH”；见表11的1,111DH部分）。在TM1中，IGHD序列具有偏好密码子，在任何3个正向阅读框内翻译完成后含有2个非翻译碱基，仅如果2个碱基可编码单一的氨基酸完成后，产生完整的密码子。例如，DNA序列，如TTA-GCT-CG具有2个完整的密码子，其将被转换为LA，以及剩余的偏好密码子（CG）只编码R，作为任何CGA，CGC，CGG，或CGT将编码R。因此，应用TM1这个序列会收获LAR。对于具有偏好密码子的序列，其编码一个以上的氨基酸（例如，GA或AG），偏好密码子则被忽略。应用TM1到表16的27IGHD序列，产生理论部分池含有73个DH亲本部分，表17（一些含有终止密码子（“Z”）和非成对的Cys残基）。然后在氨基酸水平上逐步删除这些序列，在其N-和C-末端，直到仅有2个氨基酸保持。如果他们含有终止密码子，则丢弃被截断的部分，未配对的Cys残基，N-连接的糖基化模体，或脱酰胺模体。此过程收获表11的1,111DH部分。

68K DH理论部分池(68K DH)

表16的27IGHD基因和等位基因逐步删除，或删除其5'和3'端，直到保留4个碱基，收获4个或更多个核苷酸的5,076个独特的多核苷酸序列。这些5,076个序列，进行系统地在其5'和/或3'端添加0，1和/或2N个核苷酸。使用TM0翻译由此产生的序列。所述TM0，仅翻译完整的密码子；部分密码子（即，1或2个碱基）将被忽略。以终止密码子消除部分后，这种方法收获了68,374个独特DH多肽部分，未配对的Cys残基，最后位的或下一位最后位的Asn可导致N-连接的糖基化模体，和脱酰胺模体（“68K DH理论部分池”）。使用表16中的IGHD基因作为输入，用于下面提供的PYTHON计算密码代码将再生68,374DH部分确切的理论部分池。在本程序中有2个自由参数：（1）逐步缺失（在本例中的4个碱基）后，最小长度的DNA序列剩余，及（2）最小长度（在此例中2个氨基酸）的肽序列可接受列入理论部分池。这些参数是可以改变的，以改变程序的输出。例如，改变第一个参数到一个碱基和第二个参数到一个氨基酸，可导致更大的理论部分池，具有68,396独特的序列，其中包括18个单一氨基酸部分。DH部分逐步截断为不同的长度也落入本发明的范围内；例如在翻译之前，那些截断为1，2，3，或4个或多个氨基酸，或1，2，3，4，5，6，7，8，9，10或更多个核苷酸。

PYTHON计算机程序，以形成68,374DH部分

实施例7.推导TN1和N2部分的理论部分池

在一些情况下，本实施例中的文库被设计为，相比本领域公知的其它文库，在其TN1和N2部分有更大的多样性。通过使用实施例4中描述的匹配方法，所述TN1和N2部分的多样性是增加的，以解卷积在HPS中的CDRH3序列到它们的组成部分（即，TN1、DH、N2、和H3-JH），接着按如下所描述的方式提取“新的”TN1和N2部分。对于本发明的目的，“新的”TN1和N2部分为不会出现在理论部分池中的TN1和N2部分，与CDRH3序列参考集相匹配。下面为所使用方法的实施例，以从HPS提取新的TN1和N2部分。这种方法可以推广到从任何CDRH3序列参考集，使用任何理论部分池含有TN1，DH，N2，和/或H3-JH部分，来提取新的TN1和N2部分。

表9提供了参考CDRH3序列ERTINWGWGVYAFDI（测试例5.1-5.4）匹配的结果，来自HPS，使用理论部分池1（“TSP1”）。参考CDRH3的最佳匹配为4个CDRH3序列，参考CDRH3序列的每个在三个氨基酸之内。在每个这些匹配中，TN1，DH，N2和H3-JH部分的长度分别为4，3，3和5个氨基酸。因此，参考CDRH3可以解卷积分为以下部分：ERTI-NWG-WGW-YAFDI（即，分别为：[TN1]-[DH]-[N2]-[H3-JH]）。DH和H3-JH部分分别来自参考CDRH3，NWG和YAFDI，存在于TSP1是相同的。然而，来自参考CDRH3的TN1（ERTI）和N2（WGW）部分缺少TSP1和与TSP1部分有一个或多个氨基酸的错配。这些“新的”TN1和N2部分提取自参考CDRH3，并考虑将其列入预期的理论部分池和/或合成文库。应用分析到HPS的所有成员，其它新的TN1和N2部分是积累的。为了有力地识别TN1和N2序列，只对那些CDRH3序列进行提取，其中在参考CDRH3和TSP1中的DH和H3-JH部分累计返回不超过3个氨基酸的错配，这意味着，参考CDRH3中的DH和H3-JH部分已被可靠地分配。

实施例8.计算各部分的使用权重

计算部分使用权重，在确定来自理论部分池（例如，TSP1和TSP1加新的TN1和N2部分，如实施例7中描述的识别）的这部分的效用，应列入在合成文库中。利用上述的匹配方法和等式2获得部分使用权重：

等式2

w (i) = \frac{1}{S_{m}} Σ_{j = 1}^{S_{m}} \frac{1}{g (j)} Σ_{k = 1}^{g (j)} f_{i} (k)

其中,

·w(i):部分权重i.0≤w(i)≤1。

·S_m:序列的数量（超出参考CDRH3集的总S），其中在参考CDRH3序列的特定区域中包含一个或多个不超过m氨基酸错配的最佳匹配。在这里，在Kabat-CDRH3区域计算错配，但也可考虑CDRH3序列的其它片段。在这里使用恒定的值m=3，但也可以使用其它的值，或者该值可能依赖于参考CDRH3序列的长度。

·g(j):简并部分的组合总数，生产参考CDRH3序列j最佳的匹配。

·f_i(k):在简并匹配K中，分数氨基酸与TN1，DH，N2或H3-JH部分同一性，相对于在参考CDRH3序列j中相应的序列片段。如果部分没有表现出与j匹配，分数氨基酸同一性等于零。其它的f定义，例如作为氨基酸序列类似性（例如，在氨基酸的理化性能如疏水性的基础上），而不是同一性，可也使用。

用于计算部分使用权重的程序将进一步举例说明如下。在每个这些实施例中，从TSP1提供的最佳匹配组合为单一CDRH3序列（S_m=1）和简并性（k）和依赖权重计算的分数错配（k）是解释的。

实施例8.1.测试例1的部分使用权重，在表9中

参考测试例1，表9。CDRH3序列RTAHHFDY是相同的，通过独特的部分组合（g=1）位于TSP1（f=1，下标下降为简单起见）中。表18提供部分的使用权重对应于来自TSP1的最佳匹配，为测试例1的CDRH3。

实施例8.2.测试例2.1和2.2的部分使用权重，在表9中

参考测试例2.1和2.2，表9。CDRH3序列VGIVGAASY可能是相同的，通过2个明显的部分组合（g=2）位于TSP1（f=1）中，表19提供部分的使用权重对应于来自TSP1的最佳匹配，为测试例2.1和2.2的CDRH3。

实施例8.3.测试例3.1的部分使用权重，在表9中

参考测试例3.1，表9。CDRH3序列DRYSGHDLGY可能是相同的，通过独特的部分组合（g=1）位于TSP1（f=1，下标下降为简单起见）中，具有单一的氨基酸差异。如以下提供的，TN1,N2和H3-JH部分匹配对应参考序列片段相同，而5个DH氨基酸中的4个匹配相同。

序列来自HPS:DR-YSGHD-LG-Y

在TSP1的最近邻:DR-YSGYD-LG-Y

因此，这里

f=DH部分的4/5;并且

=1，对于TN1,N2,和H3-JH部分(表20).

实施例8.4.匹配测试例4.1和4.2，在表9中.

参考测试例4.1和4.2，表9。CDRH3序列GIAAADSNWLDP可能是相同的，通过2个明显的部分组合（g=2）位于TSP1（f=1，下标下降为简单起见）中，每个具有单一的氨基酸差异。如以下提供的，TN1,DH和N2部分匹配对应参考序列片段相同，而6个H3-JH氨基酸中的5个匹配相同。

序列来自HPS:(-)-GIAAA-D-SNWLDP

在TSP1的最近邻:(-)-GIAAA-D-SNWFDP

序列来自HPS:G-IAAA-D-SNWLDP

在TSP1的最近邻:G-IAAA-D-SNWFDP

这里,(-)代表“空”TN1部分.

应用等式2的结果，在表21中提供的部分使用权重。

实施例8.5.计算测试例1至4.2的部分使用权重，在表9中

扩展上述的个体计算，同时包括表9中所有的测试例1至4.2的结果，在表22中的部分使用权重。

实施例8.6.计算测试例5.1至5.4的部分使用权重，在表9中

从CDRH3序列参考CDRH3序列ERTINWGWGVYAFDI和新的TN1和N2部分提取，在实施例7中。在这种情况下，新的TN1和N2部分（分别为ERTI和WGV），和来自TSP1（分别为NWG和YAFDI）的DH和H3-JH部分，各自分配统一使用权重。

实施例9.选择TN1、DH、N2和JH部分以列入合成文库

图5提供的一般方法用于设计合成CDRH3文库。该方法使用如输入：（1）理论部分池含有TN1、DH、N2、和H3-JH部分（例如，TSP加上新的TN1和N2部分）；和（2）收集参考CDRH3序列（例如，HPS）。从这些输入中，选择理论部分池部分的特定子集列入在物理CDRH3文库中。

首先，使用上述的匹配方法，从内TSP1集内，获得HPS的CDRH3的最佳匹配，带或不带的新的TN1和N2部分。然后使用此数据，通过公式2来计算部分的使用权重。优先列入在物理文库的部分是基于其在HPS（如由部分使用权重所指示的）的CDRH3序列中其发生的相对频率，以及其它因素（下面更充分地描述），如疏水性，α-螺旋的倾向，以及在酵母中的表达性。

实施例9.1.示例性文库设计(ELD-1)

ELD-1使用的HPS和来自TSP11（9.5×10⁹个成员）的部分作为输入，并产生输出100TN1，200DH，141N2和100H3-JH部分，分别来自TSP1，按照它们在HPS中的使用权重顺序排列，以产生理论复杂度为2.82×10⁸的文库。对应于ELD-1的部分在表23中提供。注意，这里为所有部分（即，TN1、DH、N2、和H3-JH）的组合，及部分（即，仅TN1，仅N2，和仅H3-JH）的各自集合构成理论部分池。

实施例9.2.示例性文库设计2(ELD-2)

此设计的输入为来自TSP1的HPS和部分，加从HPS中提取的新的TN1和N2部分（实施例7）。输出为：（1）200DH和100H3-JH部分，每个来自TSP1；和（2）100TN1和200N2部分包括TN1和N2部分原本在TSP1中和那些从HPS序列中提取的。应用实施例7中描述的方法来提取新的TN1和N2部分（即，那些不包括在TSP1中）导致在1710新TN1部分和1024新N2部分的识别。在表24中提供对应于ELD-2的部分。注意，这里所有的部分（即，TN1、DH、N2、和H3-JH）的组合，和部分（即，TN1，卫生署只，N2只，H3-JH）的各自集合构成理论部分池。如在ELD-1中，仅仅基于其在HPS中的使用权重，选择ELD-2中所有的部分列入。

实施例9.3.示例性文库设计3(ELD-3)

此设计的输入与那些用于ELD-2的是相同的。如在ELD-2中，输出为（1）200DH和100H3-JH部分集，每个来自TSP1；和（2）100TN1和200N2部分集，包括原本在TSP1中的TN1和N2部分和那些提取自HPS序列（实施例7）。然而，该方法用于选择在两个方面不同的ELD-3部分。首先，除了部分的使用权重，使用选定的部分的物理化学性能（疏水性，等电点和α-螺旋倾向），以便优先部分列入物理文库。疏水性被用于按优先次序排列疏水DH部分（其经验性地过分代表（在从酵母为基础的文库中分离的）表达不良的抗体。利用α-螺旋结构形成的等电点和倾向以识别位于理化性质空间区域的部分，其相对本领域公知（例如，美国公开号2009/0181855和2010/0056386，和WO/2009/036379）CDRH3文库中未开发的。第二，通过自展分析HPS数据集来计算部分使用权重。这些方法有如下更充分的说明。表25中提供对应于ELD-3的部分。注意，这里所有部分（即，TN1、DH、N2、和H3-JH）的组合，部分（即，仅TN1，仅DH，仅N2，仅H3-JH）的各自集合构成理论部分池。

实施例9.3.1.通过自展分析产生部分使用权重

自展分析（Efron&Tibshirani,An Introduction to the Bootstrap,1994Chapman Hill,New York）是广泛使用的统计程序，以估计给定样本统计的可变性。此估计基于数个子样本的统计计算值，等于原始样品的大小并源自其通过放回抽样。随机选择原始样品成员以形成子样本，并通常在每个子样本中包括多倍（因此，“放回抽样”）。

这里，原始样品为HPS数据集，n=3,571成员以及统计为部分的使用权重。1000个子样本，每个为3,571个成员，通过从HPS数据集（每个子样本中允许给定的序列不超过10个重复）中随机地选择序列产生。然后上述的匹配方法应用于每个子样本，而且计算最终部分的使用的权重作为各子样本获得值的平均。通过此自展过程得到的平均值比单独从亲本HPS数据集获得的计算值更加具健壮性。除非另有说明，这些1000个子样本的平均值用于选择ELD-3的部分。

实施例9.3.2.氨基酸性能指标

AAindex数据库，见网址www.genome.jp/aaindex/，提供超过500个数值的指标，代表各种氨基酸的物理化学和生化性能和氨基酸对。这些性能包括疏水性、静电行为、二级结构倾向和其它特征，有几个指标通常可用于给定的属性。通过开始熟知的Kyte-Doolittle疏水性指数（KYJT820101）来选择以下3个指标并从其和对方添加数字相关的指标。因此，它们潜在地描述氨基酸属性空间的非重叠区域，并用于分析和选择DH和H3-JH部分用于ELD-3：

1.KYTJ820101(亲水指数))

2.LEVM780101(α-螺旋的归一化频率)

3.ZIMJ680104(等电点)

实施例9.3.3.在从酵母为基础的文库中分离的表达不良的抗体中，疏水DH部分是过分代表的

从约1200个抗体在S.cerevisiae中表达的蛋白表达水平的基础上，抗体被列为无论是“好”或“差”的表达者。检查每个类别中的每个抗体的CDRH3序列，以识别与表达水平相关的序列功能。一个这样的序列特征为使用KYTJ820101指数计算的DH部分的疏水性。图6给出了“好”和“差”的表达者的频率，作为DH部分疏水性（向右递增）的功能。从合成文库预期的分布用于分离这些抗体也提供作为参考（“设计”）。具有最高值（图的最右边）疏水性DH部分在“差”的表达者之间是过量表达的（基于设计相对预期），并“好”的表达者之间是不善表达的。同样地，亲水性的DH部分（最左边）在“好”的表达者之间是过量表达的和在“差”的表达者之间是不善表达的。从这个数据，它被推断为：可以通过合成具有更少疏水DH部分的CDRH3序列来提高整个文库中抗体的表达能力。

实施例9.3.4.选择200DH部分以列入ELD-3

来自TSP1的一系列71DH部分是指定的，作为“核心”DH部分以自动列入ELD-3中。这些部分有以下的优选特性：

1.71个中的53个存在于顶端7％的DH部分中，通过来自自展分析的部分使用权重进行排序。

2.71个中的18个存在于顶端7％的DH部分中，通过源自抗体（分离自在S.Cerevisiae中文库表达）的使用权重进行排序。剩余的1,040个部分为指定的“非核心”。为了完成在ELD-3中的200个部分集合，按以下方式分别为从部分的“非核心”池选择129个部分：

1.65个部分被消除，因为它们包含（a）在最后或倒数第二位的Asn残基以通过与N2的氨基酸组合形成N-连接的糖基化模体或（b）氨基酸序列NG，与脱酰胺有所牵连。

2.进一步考虑取消高于中值KYTJ820101疏水性指数（中位数=2.9，对于1KDH）的部分。鉴于已知重要的Tyr以抗原识别（Fellouse等，PNAS，2004，101：12467；和Hofstadter等，J.Mol.Biol.,1999,285:805，均通过引用的方式全部并入），部分含有至少一个Tyr残基被保留，除非位于最高的疏水性四分位数（KYTJ820101值高于9.4）。这消除了443个部分。

3.通过使用目标函数获得最后一组的129个部分，目的是最大化“核心”和剩余443“非核心”部分之间的Euclidean距离，在由下述变化：（1）氨基酸近邻的不匹配；和（2）3个理化性质指标的值限定的多维空间中。

实施例9.3.5.选择100H3-JH部分以列入ELD-3

选择100个H3-JH部分列入ELD-3中，按下述方式。

1.经实验验证后，选择24个H3-JH部分，在其它文库中仅含有这些H3-JH部分（参见美国公开号2009/0181855和2010/0056386，和WO/2009/036379）。

2.基于其存在于H3-JH部分顶部的25％的选择57个部分，从上述自展分析的使用权重来进行排序。这些57H3-JH部分，再加上28H3-JH部分（1）（即，85个部分总和）为指定的作为H3-JH部分的“核心”，其中，类似核心DH部分，自动包括在ELD-3中。

4.通过使用目标函数选择15个另外的部分，其目的是最大化Euclidian距离，在“核心”和剩余的200个“非核心”部分之间，在多维空间中限定，由下述变化限定：（1）的氨基酸与近邻的不匹配；及（2）三个理化性质指数值。

实施例9.3.6.选择100TN1和200N2部分以列入ELD-3

TN1和N2部分提取自引导程序的每个子样品的序列，并选择具有最高平均部分使用权重的100个TN1和200N2部分，以列入到所述文库中，在消除具有不希望模体的序列（即Cys和Asn残基）后。

实施例9.3.7.选择核苷酸序列编码部分选择列入ELD-3

每个多肽部分选择列入文库中，必须回翻（多肽至DNA）到相应的寡核苷酸序列。虽然大量的寡核苷酸可能每个编码多肽部分，由于遗传密码的简并性，一定的约束施加到选择寡核苷酸是更理想的。首先，由于ELD-3在酵母（S.cerevisiae）中表达，避免了在酵母中很少使用的密码子。例如，精氨酸为6个可能的密码子，3个：CGA，CGC和CGG用于编码酵母蛋白质，编码率低于10％（见，例如，Nakamura et al.,核酸，2000，28:292），而且因此，尽可能避免这3个密码子。第二，由于许多抗体在中国仓鼠卵巢（CHO）细胞（后发现例如，在酵母中）的生产，CCG密码子（编码Pro）也被避免，因为它很少被仓鼠（Nakamura等）使用。

在实际构建CDRH3寡核苷酸文库（见实施例10，美国出版公开号2009/0181855）的过程中采用许多限制性内切酶。因此，在CDRH3多核苷酸序列内避免发生这些限制性内切酶的识别模体是可取的。在个别部分的水平上选择密码子，以避免引入可用于下游的限制性内切酶的识别模体。由于这样的模体也可能会由组合组件的部分产生，也检查部分组合以及，只要有可能，改变密码子以消除发生此模体。具体而言，在构建的当前示例的CDRH3文库：BsrDI，BbsI，和AvrII的过程中，使用3个限制性内切酶。前两项是II型酶，具有非回文可识别位点。检查明确寡核苷酸反向链编码的部分用于这两种酶的识别位点。特别地，检查反向链用于模体GCAATG和CATTGC（BsrDI）和GAAGAC及GTCTTC（BbsI）。用于AvrII的识别模体为回文的，所以寡核苷酸仅检查用于序列CCTAGG。然而，AvrII仅用于处理TN1部分，并且因此在评估其存在于其它部分或它们的组合是不必要的。

施加附加的限制以提高多肽至多核苷酸转化率的工程，避免连续运行6个或更多的相同类型的碱，因为这被认为增加固相寡核苷酸合成过程中的错误。因此，选择用于ELD-3部分的DNA序列，以避免此模体。包括用于ELD-3部分的DNA序列，与相应的多肽序列，在表25中。本等领域技术人员将很容易认识到，这些方法也可以适用于任何其它的文库，任何限制性位点，任何数目的核苷酸重复，和/或以避免在任何生物体中发生任何被认为是不希望的密码子。

实施例10.匹配ELD-3与人CDRH3数据集和临床相关抗体

本发明的目标是模仿V-D-J重组过程，潜在地在体内构建创建人CDRH3清单，从而相比其它本领域中已知的文库，增加了CDRH3文库的多样性，同时保持CDRH3中人的特征。一个成功的度量为人参考CDRH3序列的哪个集合表示相同，或通过在任何本发明的文库接近的匹配（例如，小于约5，4，3，2-氨基酸差异）。我们使用2个人CDRH3序列参考数据集来评估此度量，包括非相互重叠和HPS：（1）666个人CDRH3序列的集合（Lee等，免疫遗传学，2006,57:917;“Lee-666”）；和（2）3000个人CDRH3序列的集合，随机从超过200,000序列中选择，Boyd等公开，Science Translational Medicine，2009，1:1-8(“Boyd-3000”)。3000个人CDRH3序列随机抽样的结果（来自Boyd等），作为施用于（Boyd等）集（>200,000CDRH3序列）所有成员，代表相同的分析结果。

图7提供了在两个合成文库，“LUA-141”和ELD-3中CDRH3序列的百分比，来自Lee-666或Boyd-3000集，具0个，1个，2个，3个或3个以上的氨基酸错配。这里，“LUA-141”代表含有212TN1，278DH，141N2，和28H3-JH（见美国公开号2009/0181855）的文库。特别地，值得注意的是ELD-3表现出具有较高序列的比例（Lee-666和Boyd-3000集分别为12.9％和12.1％），其比LUA-141（Lee-666和Boyd-3000集分别为8.4％和6.3％）更匹配相同的参考CDRH3的序列。还值得注意的是ELD-3表现出人CDRH3序列更高累积的比例，相对于LUA141（Lee-666和Boyd-3000集分别为41.2％和43.7％），发现有不超过两个的氨基酸错配（Lee-666和Boyd-3000集分别为54.1％和52.5％）。

由另一种可以评估抗体文库的度量，是他们与“临床相关的”参考CDRH3序列相匹配的能力。图8表明，ELD-3比LUA-141文库回报更好的与临床相关CDRH3序列的匹配。具体而言，在一个氨基酸内，ELD-3匹配55个临床验证抗体中的34（62％）个，而LUA-141文库仅匹配55个中的20（37％）个。

实施例11.比较ELD-3与LUA-141

ELD-3具有73TN1，92DH，119N2，28H3-JH，其与LUA-141相同。因此，在ELD-3（4.0×10⁸个成员）中序列的94.5％与LUA-141文库（2.3×10⁸个成员）的是不同的。图9表明，ELD-3部分的组合效率大于LUA-141中的部分。具体而言，ELD-3部分比LUA-141文库部分更可能收获独特的CDRH3。这是有利的，因为其允许一个合成文库具有增加的CDRH3多样性使用较少的部分。

图10提供了来自HPS的LUA-141，ELD-3，和人CDRH3序列的Kabat-CDRH3的氨基酸组成。

图11提供了来自HPS的LUA-141，ELD-3，和人CDRH3序列的Kabat-CDRH3长度分布。

简并寡核苷酸合成的CDRH3文库

实施例12.利用简并寡核苷酸进一步增加CDRH3多样性

本实施例中所描述的方法，延伸上述教导方法，生产的CDRH3文库成员的比上述文库多。特别是，1个或2个简并密码子被引入到DH或N2多核苷酸部分，而且（通常）没有简并密码子或一个简并密码子被引入到H3-JH部分。也设想具有不同数目的简并密码子部分；例如DH部分具有0，1，2，3，4，5，6，7，8，或多个简并密码子，及H3-JH部分具有0，1，2，3，4，5，或多个简并密码子。在CDRH3文库中此结果含有大于约10¹¹（约2×10¹¹）个不同的CDRH3氨基酸序列，紧密反映的属性，如人CDRH3序列参考集中长度和组成等等。如下所述，在DH部分的简并位通常，但不总是，为非常的N-和/或C-末端位，或分别5'和3'端的密码子（即，不一定只有第一个或最后一个碱基），当考虑相应的寡核苷酸序列。简并密码子也同样用于合成N2部分。200个TN1部分为如ELD-3中所述，虽然具有简并TN1部分的文库，或具有其它可选择的TN1部分序列，落入本发明的范围内。另外的100个TN1部分完成300TN1部分集用于此文库。氨基酸和核苷酸序列列于表26中。也可以使用3核苷酸的混合物代替，或除此之外，简并寡核苷酸，以便使氨基酸型“碱基”或“种子”部分序列（限定的下文）中的一个或多个选择位变化。

实施例13.选择DH部分，由简并寡核苷酸合成

通过比较包含在Boyd等的序列，计算68K DH理论部分池的部分使用权重。根据其部分使用权重（如上面所述），排列3个或更多个氨基酸长度的DH部分，及顶端201为指定的“种子”序列。然后通过选择特定的位到合并简并密码子，这些种子序列是变化的。选择位的变异，它们有不同的氨基酸类型，通过比较的种子序列与9171DH部分的参考集（其为68KDH理论部分池的子集）来确定。选择这些9,171DH部分是因为在Boyd等中，他们的部分使用权重是显著的，这意味着累积的部分使用权重（实施例8）为至少1.0。

比较每个201种子序列与9,171DH部分参考集中的每个序列，以及那些相同长度和在单一位上不同的序列，进一步被认为是种子可能的变体。在这种方式下，每个种子的最大可变位是被识别的而且每个位的一组候选氨基酸类型也被识别。最后，考虑一组简并密码子，以识别此密码子最忠实地代表了每个特定位的候选氨基酸类型组。简并密码子编码终止密码子，Cys残基，N-连接的糖基化模体（即，NXS或NXT，其中X为任何氨基酸型），或脱酰胺模体（NG）从考虑中排除。此过程中产生的149个独特的简并寡核苷酸序列，其共同编码3,566个独特的多肽序列。也考虑根据相同的原理产生可选择的设计，及那些具有更大的多样性（就独特多肽序列数目方面）和较小的RMAX的值（见下文），优先供列入本发明的文库。然而，也设想可以使用不同的标准来从68K DH理论部分池文库选择DH部分，以及由这些不同的标准选择包括DH池的文库，也落入本发明的范围内。

因为不是所有的简并寡核苷酸编码相同数目的多肽，后者不在包含于本发明的CDRH3文库的整个给定的理论部分池（即，TN1，DH，N2和H3-JH）均匀地相同的权重同步发生。例如，由总简并性4寡核苷酸编码的单独氨基酸序列X，将有1/4的“权重”，而另一个单独的氨基酸序列，Y，由简并性6寡核苷酸所编码，将有1/6的权重。此外，某些氨基酸序列可以由一个以上的简并寡核苷酸编码，因此它们的权重将为由每个寡核苷酸个体贡献的总和。在给定的理论部分池内，最权重多肽的权重比例为至少偏重一个，RMAX，为重要的设计标准，理想情况下会尽量减少。RMAX值可能是由长度限定的，总体来说为任何给定类型（即，全部DH部分，或全部H3-JH部分，以及TN1，和/或N2部分）的所有部分。表27列出了简并寡核苷酸序列，而表28列出独特的从这些寡核苷酸得到的多肽序列。这两个表包括DH二聚体部分，其设计详列如下。

实施例13.1.选择DH二聚体部分

采用不同的方法以设计一组简并寡核苷酸编码DH二聚体序列。该方法旨在包括在ELD-3加中的所有45二聚体序列，如许多其它的400理论可能的二聚体序列（即，在每个2位=20*20内20残基可能），减去部分含Asn(N)残基和过度疏水性的二聚体（即，任何二聚体结合，仅包含F，I，L，M，和/或V残基）。此设计过程最终收获了35简并寡核苷酸序列，编码213独特的肽二聚体序列。由于选择过程用于本发明所有的部分，个人或本技术领域的普通技术人员将容易地认识到，可以使用其它标准来选择的DH二聚体部分，而且文库包括的这些部分也落入本发明的范围内。

结合DH二聚体部分与实施例13中的DH部分，获得当前示例性文库的最后一组DH部分，相对于ELD-3中的200个寡核苷酸，由总共184个寡核苷酸（35个编码二聚体和149编码部分，具有3个或更多个氨基酸）编码。184个寡核苷酸编码总共3,779个独特的多肽序列：213个二聚体和三个氨基酸或更大的3,566个较长的部分。

实施例14.扩展的N2多样性的形成

如上所述，ELD-3含有200个N2部分。在目前的示例性文库中，所述空N2部分（即，没有N2，使得所述DN部分与所述H3-JH部分直接连接）和单体N2部分，与在ELD-3中的相同。但是，使用简并寡核苷酸形成二聚体、三聚体和四聚体的集合，其不仅-重现了在ELD-3中所有对应的序列，而且产生附加的多样性。与所述DH部分一样，这些简并寡核苷酸被设计，以消除Asn（不合适的位）以及Cys残基、和终止密码子。更具体而言，Asn残基被允许在三聚体中的第一位、和四聚体中的第一或者第二位，只要后续的氨基酸不是Gly（并且下一个氨基酸不是Ser或者Thr），从而避免在候选N2部分内的脱酰胺或者N-连接的糖基化模体。目前示例性文库的N2理论部分池含有1个0聚体(即没有N2部分),18单体,279二聚物,339三聚物,和90四聚物N2氨基酸序列,或总共727部分。这些氨基酸序列被1、18、81、36和10寡核苷酸分别编码，对总共146个氨基酸。表29列出了所述146个氨基酸序列，同时表30列出了最终的独特多肽序列。

实施例15.扩展的H3-JH多样性的形成

应用核苷酸水平渐进删除人IGHJ多核苷酸部分的5'端下降到原点，其中只有对应于FRM4保留（即，无H3-JH保留）的DNA序列，其次通过系统的1-或2-bp在相同的5'端完成，导致翻译后（“643”个H3-JH设定”）643个独特的H3-JH肽部分。如完成的DH部分，与约237,000人的序列（来自Boyd等）比较后，可能通过它们的获得使用权重来对643个部分进行排列顺序，以及顶端200个体序列，选择来自如上所述的那些缺乏的不需要的模体，为当前例举的文库提供H3-JH组。

在交替例举的实施方案中，200个H3-JH部分中的46个被设计在第一位（即，在肽和寡核苷酸水平，分别为N-末端或5'端）具有双重简并密码子，因此，总体而言，200个寡核苷酸可编码246个独特的肽序列。

在其它可选择的例举的实施方案中，可以设想进一步利用简并密码子以产生由90，100，200或更多个寡核苷酸编码的文库，代表了多达500个不同的多肽序列。优选地，但不是必须的，这些多达500个独特的序列可以为643H3-JH参考集中的序列子集，如上所述，或这些序列变体的子集。如上面例举的，H3-JH部分含有不需要的多肽模体可能从设计中消除。用于JH部分的寡核苷酸序列列于表31，而由此产生的独特的多肽序列在表32中提供。在表31中，但还提供了对应于FRM4区域的核苷酸序列，但“肽长度”值仅是指H3-JH部分。为简单起见，仅H3-JH肽序列被包括在表32中。

实施例16.扩展多样性文库设计(EDLD)

上述选择的TN1，DH，H3-JH和N2部分，并在表26至32中提供，被组合以产生扩展的多样性文库设计（EDLD），具约2×10¹¹的理论多样性（300TN1×3,779DH×727N2×246H3-JH）。根据实施例9.3.7中的原则选择寡核苷酸编码选定的部分。

图12-15示出了本设计表示的某些特性，例如，约237,000个CDRH3序列（Boyd等）的约50％，可由文库序列重现任一个或无不匹配（即，求和“0”和“1”二进制，图12）。这些文库的理论长度分布（图13）和氨基酸组成（图14）也密切匹配在相同组人CDRH3序列中观察到的各自的特性。图15示出了扩展多样性文库设计的组合效率。在设计中（即，通过生成一个非退化结合的部分）序列的约65％仅出现一次。图8，如先前陈述的，显示：根据与临床相关的人抗体序列的匹配方面，扩展多样性文库设计优于LUA-141和ELD-3二者。

表1.对于由本发明提供的8种所述VK底架的种系样序列。

表2.示例性轻链种系的框架变体的总结.

表3.在CDRL1、CDRL2和框架中，具有可变性的示例性轻链底架的多肽序列。对于部分边界的所述Kabat数量被示出。此处，L1和L2（在所述“目录”栏中）分别表示在CDRL1和CDRL2的可变性，而“F”表示框架变体。指定的序列（L1或者L2以及F）在CDR和框架区都含有可变性.

表4.对于VK1-39序列的跳跃二聚体和三聚体寡核苷酸，具有CDRL3长度9，以及F作为连接点的氨基酸。即，下文描述的所述序列在YYC和FGG之间，以产生…YYC-[89-97]-FGG…

表5.示例性VK跳跃二聚体和三聚体序列的寡核苷酸序列，具有CDRL3长度8.

表6.示例性VK跳跃二聚体和三聚体序列的寡核苷酸序列，具有CDRL3长度9

表7.示例性VK跳跃二聚体和三聚体序列的寡核苷酸序列，具有CDRL3长度10

表8.在示例性跳跃二聚体(“JD”)和跳跃三聚体(“JT”)VK文库中的独特CDRL3氨基酸序列的数量，并与VK-v1.0比较

*目前没有示例。但是，给定所述特定的教导，本领域技术人员将能容易地生产这种长度的文库，这些文库包括在本发明的范围内。

表9.来自所述HPS和TSP1的示例性CDRH3序列的匹配输出。在所述理论设计中的氨基酸错配加粗表示。

表10.212TN1序列的理论部分池包含在理论部分池1(TSP1)中。

表11.1K DH理论部分池序列(1,111DH部分)。

表12.141N2部分理论部分池，在理论部分池1(TSP1)中。

表13.285H3-JH部分的理论部分池。

表14.12种种系IGHJ基因和等位基因。

表15.248亲本H3-JH部分的理论部分池。

表16.27人IGHD基因和等位基因的多核苷酸序列。

表17.73DH亲本部分的理论部分池。“Z”代表终止密码子。

表18.方程1在测试例1中的应用。

表19.方程1在测试例2.1和2.1中的应用。

表20.方程1在测试例3.1中的应用。.

表21.方程1在测试例4.1和4.2中的应用。

表22.方程1在所有测试例中的应用。

表23.在示例性文库设计1(ELD-1)中使用的部分。收集的序列，形成包括TN1、DH、N2,和H3-JH部分的单个理论部分池的理论部分池。

表24.在示例性文库设计2(ELD-2)中使用的部分。收集所述序列形成理论部分池序列，所述理论部分池包括TN1、DH、N2,和H3-JH部分的单个理论部分池。

表25.在示例性文库设计3(ELD-3)中使用的部分。收集所述序列形成理论部分池的序列，所述理论部分池包括TN1、DH、N2,和H3-JH部分的单个理论部分池。

¹“AR”和“AK”是指在目前实施例中，所述重链低架的所述最后两个C-末端氨基酸。他们不是所述TN1部分的组成部分。

表26.300TN1部分的理论部分池(加AR/AK;其不是TN1的组成部分)，在所述实施例12中的文库中使用。

表27.简并寡核苷酸序列的理论部分池，编码实施例13的DH部分。

表28.独特DH多肽部分的理论部分池，由表27的简并寡核苷酸编码

表29.寡核苷酸序列的理论部分池，编码实施例14的N2部分。

表30.独特N2多肽部分的理论部分池，由表29的寡核苷酸编码。

表31.寡核苷酸的理论部分池，编码实施例15的JH部分。

表32.独特H3-JH多肽部分的理论部分池，由表31的寡核苷酸编码。

等同形似

本领域熟练技术人员将认识到，或者能确定使用不仅常规的实验，许多等同形式，对每个具体的实施方案以及本文描述的方法使用许多等同形式。这种等同形式纳入本发明权利要求的范围。

附录A

在所述人免疫前SET (HPS)中3,571序列的GI编号

Claims

1.合成多核苷酸文库，包含至少约10⁴多核苷酸编码多肽，包含CDRH3序列，所述CDRH3序列结构为：

[TN1]-[DH]-[N2]-[H3-JH]，其中：

TN1为多肽，对应于表9-10和18-26中的任何所述TN1多肽，或表25-26中任何所述TN1多核苷酸翻译产生的多肽；

DH为多肽，对应于表9、11、17-25和28中的任何所述DH多肽，或表16、25和27中任何所述DH-编码多核苷酸翻译产生的多肽；

N2为多肽，对应于表9、12、18-25和30中的任何所述N2多肽，或表25和29中任何所述N2-编码多核苷酸翻译产生的多肽；以及

H3-JH为多肽，对应于表9、13、15、18-25和32中的任何所述H3-JH多肽，或表14、25和31中任何所述H3-JH-编码多核苷酸翻译产生的多肽。

2.权利要求1所述的文库，其中在所述文库中的序列至少约1％、5％、或10％具有所述提供的结构。

3.权利要求1所述的文库，其中所述多核苷酸编码CDRH3多肽，由所述TN1，DH，N2集生产，而且H3-JH多肽由表23-25中的任何一个提供。

4.权利要求1所述的文库，其中所述多核苷酸编码CDRH3多肽由表26中提供的TN1多肽集生产，所述DH多肽集在表28中提供，所述N2多肽集在表30中提供而且所述H3-JH多肽集在表32中提供。

5.使用权利要求1所述文库以分离结合抗原抗体的方法，包括使所述所述文库的多肽表达产物与抗原联系，并且分离结合到所述抗原的多肽表达产物。

6.权利要求1所述的文库，其中与从生物源清单扩大生产的文库相比，N-连接的糖基化位点、脱酰胺模体、和/或Cys残基的数量是减少的或消除的。

7.权利要求1所述的文库，还包含编码一种或多种轻链可变结构域多肽的多核苷酸。

8.权利要求7所述的文库，其中所述多肽表达为全长IgG。

9.权利要求8所述的文库的多肽表达产物。

10.从权利要求9所述的多肽表达产物分离的抗体。

11.含有权利要求1所述的文库的载体。

12.含有权利要求11所述的载体的宿主细胞。

13.权利要求12所述的宿主细胞，其中所述宿主细胞是酵母细胞。

14.权利要求13所述的酵母细胞，其中所述酵母是酿酒酵母。

15.含有权利要求1所述文库的试剂盒。

16.以计算机可读格式代表权利要求1所述文库。

17.合成多核苷酸文库，包含至少约10⁴多核苷酸编码多肽，包含CDRH3序列，所述CDRH3序列具有结构为：

[TN1]-[DH]-[N2]-[H3-JH]，其中：

TN1为与表9-10和18-26的任意所述TN1多肽至少约80％、90％、或95％地相同的多肽，或者与表25-26的任何所述TN1多核苷酸翻译产生的多肽至少约80％、90％或者95％地相同的多肽；

DH为与表9、11、17-25和28的任意所述DH多肽至少约80％、90％或者95％地相同的多肽，或者与表16、25和27的任意所述DH-编码多核苷酸翻译产生的多肽至少约80％、90％或95％地相同的多肽；

N2为与表9、12、18-25和30的任意所述N2多肽至少约80％、90％或者95％相同地多肽，或者与表25和29的任意所述N2-编码多核苷酸至少约80％、90％、或者95％地相同的多肽；以及

H3-JH为与表9、13、15、18-25和32的任意所述H3-JH多肽至少约80％、90％、或95％地相同的多肽，或者与表14，25和31的任意所述H3-JH-编码多核苷酸至少约80％、90％或95％相同的多肽。

18.合成多核苷酸编码轻链可变区的文库，其中所述轻链可变区选自：

(a)VK1-05序列在一个或多个位4、49、和46变化的；

(b)VK1-12序列在一个或多个位4、49、46、和66变化的；

(c)VK1-33序列在一个或多个位4、49、和66变化的；

(d)VK1-39序列在一个或多个位4、49、和46变化的；

(e)VK2-28序列在一个或多个位2、4、46、和49变化的；

(f)VK3-11序列在一个或多个位2、4、36、和49变化的；

(g)VK3-15序列在一个或多个位2、4、48、和49变化的；

(h)VK3-20序列在一个或多个位2、4、48、和49变化的；

以及

(i)VK4-1序列在一个或多个位4、46、49、和66变化的。

19.权利要求18所述的文库，其中所述文库包含多核苷酸，所述多核苷酸编码轻链可变区，所述轻链可变区包含多肽序列至少约80％，90％，或95％与表3中提供的2个或多个所述轻链多肽序列相同。

20.权利要求18所述的文库，其中所述轻链可变区包含在表3中提供的所述多肽序列。

21.合成多核苷酸的文库，所述多核苷酸编码轻链可变区，其中在所述轻链可变区的所述多肽序列在位89至94之间的2个或3个残基上是可变的，包括，所述可变轻链多肽序列。

22.权利要求21所述的文库，其中所述文库包含多核苷酸，所述多核苷酸编码轻链可变区，所述轻链可变区包括的多肽序列与在表5-7中的两条或多条所述多核苷酸序列翻译产生的多肽至少约80％、90％或95％地相同。

23.权利要求21所述的文库，其中所述轻链可变区包括在表5-7中提供的所述多核苷酸序列翻译产生的多肽。

24.任何下文所述的代表，以计算机可读格式：

表10、23-25和26的所述TN1多肽；

表11、23-25和28的所述DH多肽；

表12、23-25和30的所述N2多肽；

表13、15、17，23-25和32的所述H3-JH多肽；

表25-26的所述TN1多核苷酸；

表25和27的所述DH多核苷酸；

表25和29的所述N2多核苷酸；以及

表25和31的所述H3-JH多核苷酸。

25.所述人免疫前Set(附录A)、以及其多肽表达产物的代表，以计算机可读格式。

26.制备合成多核苷酸文库的方法，所述多核苷酸编码的多肽包括CDRH3序列，所述方法包括：

(a)提供含有TN1、DH、N2和H3-JH部分的理论部分池；

(b)提供CDRH3序列的参考集；

(c)利用所述理论部分池(a)以鉴与在所述(b)参考集中的每个CDRH3序列最接近的匹配；

(d)从所述理论部分池选择部分，以纳入在合成文库中；并且

(e)合成所述合成CDRH3文库。

27.多核苷酸的文库，根据权利要求26所述方法制备。

28.权利要求26所述的方法，其中选择的纳入所述合成文库的所述部分是根据在CDRH3序列的参考集中的其对应的各部分使用权重选择的。

29.权利要求26所述的方法，其中选择的纳入所述合成文库的所述部分是根据一种或多种物理化学性质选择的。

30.权利要求26所述的方法，其中所述CDRH3序列的参考集是免疫前CDRH3序列的参考集。

31.权利要求26所述的方法，进一步包括选择附加的TN1和N2部分，其在所述参考集中发生，但不是发生在所述理论部分池中。

32.权利要求26所述的方法，其中终止密码子从所述文库中减少或消除。

33.权利要求26所述的方法，其中所述未配对Cys残基、N-连接的糖基化模体和脱酰胺模体在所述文库的翻译产物中减少或者消除。

34.权利要求26所述的方法，其中在于所述参考集中的CDRH3序列匹配之前，所述DH部分和H3-JH部分被逐渐截断。

35.权利要求26所述的方法，还包括在部分中引入1个或2个简并密码子，所述部分选自DH和N2、或其组合。

36.权利要求26所述的方法，还包括在所述H3-JH部分中引入1个简并密码子。

37.权利要求26所述文库的所述多肽表达产物。

38.分离自权利要求37所述多肽表达产物的抗体。

39.制备合成编码CDRL3文库的多核苷酸的方法，包括：

(i)获得轻链序列的参考集，其中所述参考集含有具VL部分的轻链序列，源自所述相同的IGVL种系基因和/或其等位基因变异体；

(ii)确定在所述参考集中的每个所述CDRL3位上发生的哪个氨基酸由所述IGVL基因编码；

(iii)在位89和94之间的两个或者三个位，包括，含有简并密码子；所述简并密码子编码在所述参考集中对应位上5个最频繁发生的氨基酸残基的两个或者三个；以及

(iv)合成所述多核苷酸，其编码所述CDRL3文库。

40.根据权利要求39所述方法制作多核苷酸文库。

41.合成多核苷酸文库，编码多肽包含：

一个或多个VH底架，包含人IGHV序列的Kabat残基1至94；

一个或多个TN1部分，选自人CDRH3序列参考集；

一个或多个DH部分，选自理论部分池其已经与人CDRH3序列参考集相匹配；

一个或多个N2部分，选自人CDRH3序列参考集；和

一个或多个H3-JH部分，选自理论部分池其已经与人CDRH3序列参考集相匹配。