CN105143250B

CN105143250B - 一种改造非抗体类蛋白产生结合分子的方法及其产品和一种长效glp-1受体激动剂

Info

Publication number: CN105143250B
Application number: CN201380075612.0A
Authority: CN
Inventors: 王瑞; 黄金; 张伟; 卢水秀; 史孟君; 王军亮; 司武亮
Original assignee: BEIJING PROSPEROUS BIOPHARM CO LTD
Current assignee: BEIJING PROSPEROUS BIOPHARM CO LTD
Priority date: 2013-05-10
Filing date: 2013-05-10
Publication date: 2020-11-03
Anticipated expiration: 2033-05-10
Also published as: WO2014179983A1; CN105143250A

Abstract

本发明公开了一种新型的蛋白模板用于生成非抗体类靶向结合分子。所述蛋白模板及其衍生的靶向结合分子可与多肽、蛋白或化学功能分子形成融合蛋白或蛋白偶联物。由此，后者可具备可调节的靶向性或半衰期性质，同时保留结构稳定性和功能分子原有的活性，在制药及分子诊断领域有广泛应用前景。本发明也公开了一系列的GLP‑1受体激动剂融合蛋白，所述高分子包括GLP‑1受体激动剂多肽和靶向肽。其中，靶向肽为人工改造后的、能够与血清白蛋白可逆性地结合的肽。所述高分子还可以在靶向肽和GLP‑1受体激动剂多肽之间包括一个连接分子。这类高分子药剂能够保留GLP‑1受体激动剂多肽的活性，同时具有更长的体内半衰期，在治疗糖尿病、肥胖症、神经退行性疾病等领域具有较好的前景。

Description

一种改造非抗体类蛋白产生结合分子的方法及其产品和一种长效GLP-1受体激动剂

发明领域

本发明涉及生物药，即拟抗体(或称非自然抗体)类可与靶点结合的高分子。本发明也涉及糖尿病、肥胖症、心血管病、神经退行性疾病领域，特别涉及GLP-1受体激动剂。

背景介绍

具备工程改造潜力的蛋白分子，能够在人工改造后，特异性地识别和结合特定靶点。这类靶向蛋白分子及工程改造技术因此被着重运用于制药和诊断等生物技术领域，其重要性与日俱增。在过去几十年中，这类工作主要集中在单克隆抗体的研发。作为生物体免疫系统的重要组成部分，单克隆抗体分子是天然的抗原结合分子，能够针对种类繁多的各种药物靶标产生很强的特异性结合能力。但从产业化角度来看，抗体及其衍生分子仍然有着不少关键缺陷，不能满足现实需求。这主要体现在如下几个方面：首先，单克隆抗体的分子量一般超过10万道尔顿，穿透组织的能力不强，限制了其对于诸如实体瘤等重大疾病的疗效。其次，单克隆抗体及其衍生片段的抗原结合界面比较平坦，对于药物靶标中很重要的离子通道蛋白、酶的催化位点等类型很难结合。另外，抗体是由两种不同的多肽链组成，因此克隆步骤复杂，有时会导致结构不稳定。单链的工程抗体片段或其他衍生物，例如单链抗体(VH和VL亚基通过连接肽直接相连)等，在大多数情况下，只能小批量生产。最后，抗体及其功能性片段的生产及纯化成本很高，往往需要复杂的糖基化等翻译后修饰，在昂贵的哺乳动物细胞中生产，产率较低。

发明的概要

本申请中披露的发明涉及一种鉴定一个蛋白模板产生拟抗体潜力的方法，包括：(i)初步选择某蛋白；(ii)用该蛋白本身的结构信息来鉴定该蛋白中可以引入变化而又基本不影响该蛋白结构的一或多个区域(称为可变区)，从而鉴定该蛋白模板产生拟抗体的潜力。

在实施上述方法的一种做法中，可以进一步包括用该蛋白本身的序列信息来优先选择用该蛋白的结构信息所鉴定的一或多个可变区。

实施上述方法的一种做法可以进一步包括：鉴定该蛋白模板产生拟抗体的潜力后验证该蛋白模板产生拟抗体的潜力，其验证方法包括：(i)在所鉴定可变区中引入点突变，插入一或多个可以参与形成蛋白模板与其他蛋白相互作用的界面并呈现非线性结构，或者可以自身呈现非线性结构的多肽(NLP)，或以一或多个所述多肽部分或全部取代所述可变区，然后分析所形成的在可变区引入上述变化的蛋白变体的性能，其中，该蛋白变体的性能好坏验证了所述鉴定该蛋白模板产生拟抗体的潜力。或(ii)将所述蛋白模板克隆到常用的蛋白展示方法的展示载体中，并在所鉴定的可变区中插入随机寡核苷酸从而建立一个所述蛋白模板的可变区被随机多肽部分或全部取代的文库，然后用常用的蛋白展示方法来从所建文库中筛选对于一或多个给定靶点有亲和力的蛋白(称为“融合蛋白”)；其中所筛出的融合蛋白的性能好坏验证了该蛋白模板产生拟抗体的潜力。

蛋白展示可以包括以下中的一种:(i)噬菌体展示(phage display)；(ii)酵母展示(yeast display)；(iii)mRNA展示；和(Ⅳ)核糖体展示(ribosome display)。

上面所述分析的蛋白变体或融合蛋白之性能可以包括：(i)热稳定性，(ii)酶稳定性，(iii)溶解性，(iv)是否具有引入多肽的原有的与其靶点的亲和力，(v)表达水平。

本申请中披露的发明还涉及一种制作拟抗体的方法，包括：(i)初步选择某蛋白；(ii)用该蛋白本身的结构信息来鉴定该蛋白中可以引入变化而又基本不影响该蛋白结构的一或多个区域(称为可变区)，从而鉴定该蛋白模板产生拟抗体的潜力。然后进一步包括在一或多个鉴定的可变区中引入点突变，插入一或多个多肽，或以一或多个所述多肽部分或全部取代所述可变区。

上面所述的多肽可以是一或多个可以参与形成蛋白模板与其他蛋白相互作用的界面并且呈现非线性结构，或者可以自身呈现非线性结构的的多肽。

在实施上述方法的一种做法中，可以进一步包括将一或多个所鉴定的可变区用与对应可变区长短接近的所述多肽的部分或全部取代所述可变区。

上面所插入的多肽可以来源于以下之一：(i)自身能够形成环状结构并具有靶向结合能力的多肽；(ii)抗体互补决定区(Complementarity determining regions，或CDR)的一部分；(Ⅲ)两个互相作用的天然蛋白之间的结合界面(binding interface)的一部分。

上面所插入的多肽可以用以下方法之一制作：(i)选择一或多个已知的和某靶点蛋白结合的多肽；(ii)通过蛋白展示来筛选能和某一靶点相结合的多肽；(iii)筛选双硫键非线性多肽(NLP)；(iv)制作某一靶点的抗体，然后按照该抗体的互补决定区(Complementarity determining regions，或CDR)的部分或全部序列来制作一或多段多肽；和(v)从两个互相作用的天然蛋白之间的结合界面(binding interface)选择一段作为所述多肽。

上面所述的蛋白展示可以是以下方法中的一种：(i)噬菌体展示(phagedisplay)；(ii)酵母展示；(iii)mRNA展示；和(iv)核糖体展示(ribosome display)。

本申请中披露的制作拟抗体的方法还可以进一步包括改变可变区之外(称为不可变区)来进一步改进所制拟抗体。

上面所述的对不可变区进行的改变可以包括：(i)将不可变区的N端或C端序列进行增删，(ii)将所述N端或C端改造为适合表达宿主的序列，和(iii)将不可变区中连接二级结构的连接区的残基替换为侧链较短的残基。

上面所述的侧链较短的残基可以是甘氨酸、丙氨酸和丝氨酸。

上面所述的鉴定一个蛋白模板产生拟抗体潜力的方法，包括：(i)初步选择某蛋白；(ii)用该蛋白本身的结构信息来鉴定该蛋白中可以引入变化而又基本不影响该蛋白结构的一或多个区域(称为可变区)，从而鉴定该蛋白模板产生拟抗体的潜力，其中可变区用以下方法鉴定：

(i)选择一或多个与该蛋白结构相似的蛋白，和该蛋白组成一个蛋白结构组；

(ii)用一或多种常用来描述蛋白结构的数据和一或多个描述不完全数据的随机性的数学模型来描述该蛋白结构组的结构特征(称为结构谱)；

(iii)用随机抽样方法来更新所述模型及有关参数，直至模型收敛，从而估计出结构谱；

(iv)将该蛋白组结构中倾向于偏离了结构最常见状态，而呈现出不常见状态的结构区域鉴定为可变区。

上面描述蛋白结构的数据可以是三维欧几里德空间坐标数据。而三维欧几里德空间坐标数据所表述的对象可以是蛋白全原子、碳alpha(C_α)、碳beta(C_β)、碳gamma(C_γ)、碳delta(C_Δ)、碳epsilon(C_ε)或其他类型原子，或以上原子类型的组合。描述蛋白结构的数据还可以是蛋白质接触图(protein contact map)。

上面鉴定一个蛋白模板产生拟抗体潜力的方法中描述不完全数据的随机性的数学模型可以是隐马氏模型，其中所述隐马氏模型的每一个节点有三种状态M(Match，同源保守)状态，I(Insert，随机空间)状态和D(Deletion，缺失)状态；这三种状态遵守一定的概率分布；其中第(iv)步将该蛋白组结构中倾向于偏离了M状态，或者呈现出I状态的结构区域鉴定为可变区。

上述方法中的三种状态所遵守的概率分布可以是高斯(Gaussian)分布、贝塔(Beta)分布或指数(Exponential)分布。

上面所述的鉴定一个蛋白模板产生拟抗体潜力的方法还可以设定明确的参数，以区分以下三种因素引起的蛋白结构柔韧性：(i)热稳定性导致的自体柔性，(ii)非热稳定性导致的自体柔性，和(iii)自然或人工进化过程中蛋白结构可被容忍发生的偏差。

上面所述的蛋白组的结构可以被视为遵循一定的图谱(G)出现的随机路径(A)，按照一定的发射概率产生的随机变量(Y)，通过一定的旋转(R)和平移(v)操作，而产生的随机三维点阵；其中随机抽样方法可以是Monte Carlo方法，而用随机抽样方法来更新的所述模型有关参数可以是图谱(G)、随机路径(A)、随机变量(Y)、旋转(R)和平移(v)。

上面所述的随机路径过程中所涉及的联合概率或条件概率由Forward或Viterbi算法得出。

上面所述的随机抽样可以进行至少100次，并进一步包括(i)对于每次抽样检查该蛋白结构的每个残基所对应的节点状态，如果节点状态对应I状态，标记该残基为属于潜在可变区；(ii)如果节点状态对应M状态，而该残基的空间位置大大偏离所对应的M状态所对应发射概率分布则标记该残基为属于潜在可变区。

上面所述的方法中，可以把被标记为属于潜在可变区的累计次数超过一定比例的残基视为可变区。

上面所述的方法中，大大偏离可以是指发射概率小于0.05。

上面所述的方法中，可以以被标记为属于潜在可变区的累计次数超过95％作为被视为可变区的标准。

本申请中披露的发明还涉及一种鉴定一个蛋白模板产生拟抗体潜力的方法，包括：(i)初步选择某蛋白；(ii)用该蛋白本身的结构信息来鉴定该蛋白中可以引入变化而又基本不影响该蛋白结构的一或多个区域(称为可变区)，从而鉴定该蛋白模板产生拟抗体的潜力；(iii)用该蛋白本身的序列信息来优先选择(ii)所鉴定的可变区，包括：

(a)选择一或多个与该蛋白序列相似的蛋白，和该蛋白组成一个蛋白组；

(b)对所述蛋白组进行多序列比对，建立系统发育树，根据分子进化模型，计算每个位点的进化速率并给各位点的保守性打分。

(c)用第(b)步得到的位点分数来优先选择可变区，即分数越低的位点越有可能属于可变区，从而被优先选择。

本申请中披露的发明还涉及一个多肽或蛋白，其序列可以是以下序列之一或者和以下序列之一有75％以上同源：(i)SEQ ID NO:1，其中可变区包括第32至43个氨基酸之间、第55至58个氨基酸之间和第90至93个氨基酸之间；(ii)SEQ ID NO:15，其中可变区包括第72至81个氨基酸之间；(iii)SEQ ID NO:16，其中可变区包括第10至15个氨基酸之间和第45至68个氨基酸之间；(iv)SEQ ID NO:17，其中可变区包括：第67至71个氨基酸之间、第86至91个氨基酸之间和第96至101个氨基酸之间。

上面所述的同源性还可以是：80％以上同源、85％以上同源、90％以上同源、95％以上同源和99％以上同源。

上面所述多肽或蛋白中，其可变区被以下多肽或和以下多肽75％以上同源的序列插入，或者其可变区部分或全部被所述多肽序列部分及全部替代：

(i)SEQ ID NO:2；(ii)SEQ ID NO:3；(iii)SEQ ID NO:4；(iv)SEQ ID NO:5；(v)SEQ ID NO:6；(vi)SEQ ID NO:7；和(vii)SEQ ID NO:8。

本申请中披露的发明还涉及一个分离的核酸分子，该核酸分子编码上述的多肽或蛋白。

本申请中披露的发明还涉及一个表达载体，该表达载体包含上述核酸分子。

本申请中披露的发明还涉及一个表达载体，该表达载体可以表达上述多肽或蛋白。

本申请中披露的发明还涉及一个表达载体，其序列为SEQ ID NO:14或和SEQ IDNO:14至少75％以上同源的序列。所述的同源性还可以是：80％以上同源、85％以上同源、90％以上同源、95％以上同源和99％以上同源。

本申请中披露的发明还涉及一个多肽或蛋白，其序列可以是SEQ ID NO:1或者其中至少有一个氨基酸和SEQ ID NO:1所对应的基因(即1x5j)的野生序列相比有改变。

本申请中披露的发明还涉及一个多肽或蛋白，其序列可以是SEQ ID NO:16或者其中至少有一个氨基酸和SEQ ID NO:16所对应的基因(即1k1g)的野生序列相比有改变。

本申请中披露的发明还涉及一个高分子(macromolecule)，包括以下两部分：

(i)一段有生物功能的的多肽或蛋白，其序列是以下序列之一或者和以下序列之一有75％以上同源：(a)SEQ ID NO:25；(b)SEQ ID NO:26；和(c)SEQ ID NO:43。

(ii)一个血清白蛋白靶向多肽或蛋白，其序列是以下序列之一或者和以下序列之一有75％以上同源：(a)SEQ ID NO:27；(b)SEQ ID NO:28；(c)SEQ ID NO:29；(d)SEQ IDNO:30；(e)SEQ ID NO:31；(f)SEQ ID NO:32；(g)SEQ ID NO:33；(h)SEQ ID NO:34；和(i)SEQ ID NO:35。

上面所述的高分子，在所述生物功能的多肽(第一部分)和所述血清白蛋白靶向多肽(第二部分)之间还可以进一步包括一个连接分子(第三部分)，该连接分子的分子量在300到5,500之间。

上面所述的有生物功能的的多肽可以是SEQ ID NO:26(即GLP-1)的以下突变体：

(i)A8G、R36G和G37K突变体；

(ii)His¹GLP-1修饰突变体，具体包括：脱氨基GLP-1、(D-His¹)GLP-1、N-山梨醇-GLP-1、N-咪唑-GLP-1、N-α-甲基-GLP-1、N-甲基-GLP-1、N-乙酰基-GLP-1和N-焦谷氨酰-GLP-1；

(iii)Ala²GLP-1突变体，具体包括：(D-Ala²)GLP-1、(Gly²)GLP-1、(Ser²)GLP-1、(Aha²)GLP-1、(Thr²)GLP-1、(Aib²)GLP-1、(Abu²)GLP-1和(Val²)GLP-1；

(iv)Glu³GLP-1突变体，具体包括：(Asp³)GLP-1、(Ala³)GLP-1、(Pro³)GLP-1、(Phe³)GLP-1、(Lys³)GLP-1和(Tyr³)GLP-1；

(v)在GLP-1的N末端加上赖氨酸残基的突变体KGLP-1。

上面所述的高分子中所述三部分可以以融合蛋白形式连在一起或者以共轭(conjugation)形式连在一起。

上面所述的高分子中的连接分子可以是一个非多肽分子。非多肽分子可以是(但并不限于)以下分子之一或任何组合：聚乙二醇、聚丙二醇、(乙烯/丙烯)共聚乙二醇、聚氧乙烯、聚氨酯、聚磷腈、多糖、右旋糖酐、聚乙烯醇、聚乙烯基吡咯烷酮、聚乙烯基乙基醚、聚丙烯酰胺、聚丙烯、聚氰基、脂质聚合物、几丁质、透明质酸和肝素。

上面所述的高分子中的连接分子可以是一个多肽分子，该多肽可以由天然或非天然氨基酸组成。所述天然氨基酸可以是可以形成蛋白质的天然氨基酸。所述天然氨基酸可以是由遗传密码直接编码的天然氨基酸。所述的作为连接分子的多肽还可以是以下序列之一或者和以下序列之一有75％以上同源：(a)SEQ ID NO:36；(b)SEQ ID NO:37；(c)SEQ IDNO:38；(d)SEQ ID NO:39；(e)SEQ ID NO:40；(f)SEQ ID NO:41；和(g)SEQ ID NO:42。所述的同源性还可以是：80％以上同源；85％以上同源；90％以上同源；95％以上同源；和99％以上同源。

上面所述的高分子中有生物功能的的多肽和所列出的序列(a)SEQ ID NO:25、(b)SEQ ID NO:26、和(c)SEQ ID NO:43至少80％同源，而且所述血清白蛋白靶向多肽和所列出的序列(a)SEQ ID NO:27、(b)SEQ ID NO:28、(c)SEQ ID NO:29、(d)SEQ ID NO:30、(e)SEQID NO:31、(f)SEQ ID NO:32、(g)SEQ ID NO:33、(h)SEQ ID NO:34和(i)SEQ ID NO:35至少80％同源。所述的同源性还可以是85％以上同源、90％以上同源、95％以上同源和99％以上同源。

本申请中披露的发明还涉及一个分离的核酸分子，该核酸分子编码上述高分子中的多肽或蛋白。

本申请中披露的发明还涉及一个表达载体，该载体可以表达上述高分子中的多肽或蛋白。

本申请中披露的发明还涉及一种药物或疫苗，该药物或疫苗包含上面所述的任何一个多肽或蛋白，或者上面所述的任何一个高分子，或者上面所述的的任何一个核酸分子，或者上面所述的任何一个表达载体。

附图说明

结合文中的附图，将能够更好的理解前面提到的发明内容，以及接下来的具体实施方式，这些附图以举例的方式给出，不能作为对权利要求的限制。在附图中：

图1为本发明中一些方法的流程图。

图2为一个测试模板蛋白产生拟抗体能力的逻辑流程图。

图3为一个说明基于给定靶点产生拟抗体的逻辑流程图。

图4为1x5j及其结构相似蛋白的结构谱。

图5为对1x5j各残基是否属于结构元件的概率化估计。

图6为综合序列谱和结构谱结果对1x5j的分析结果。

图7为用来表达1x5j及其蛋白变体的典型质粒图。

图8为检测1x5j变体在噬菌体表面表达情况的噬菌体ELISA结果。

图9为模板蛋白和NLP多肽形成的融合蛋白与血清白蛋白结合能力的测试结果。

图10为1fna、1hms和1klg的噬菌体ELISA结果。

图11为1hms模板蛋白的BMT文库突变产物电泳图。

图12为GLP1受体激动剂融合蛋白的表达。

图13为纯化后的融合蛋白Ex4-1fna-sab1、Ex4-1hms-sab1和Ex4-1x5j-sab1的电泳图。

图14为融合蛋白Ex4-1fna-sab1、Ex4-1hms-sab1和Ex4-1x5j-sab1经肠激酶酶切后的电泳图。

图15为经肠激酶酶切并纯化后的融合蛋白电泳图。

图16为检测Ex4-1fna-sab1与人血清白蛋白的结合能力的ELISA结果。

图17为Ex4-1fna-sab1对正常小鼠血糖浓度的影响。

图18为给药2小时后Ex-4和融合蛋白Ex4-1fna-sab1在小鼠中的降糖效果比较。

图19为给药12小时后Ex-4和融合蛋白Ex4-1fna-sab1在小鼠中的降糖效果比较。

图20为融合蛋白Ex4-1fna-sab1与Ex4在小鼠中的降糖效果比较。

图21为Ex4在小鼠血浆中的药代动力学曲线。

图22为融合蛋白Ex4-1fna-sab1在小鼠血浆中的药代动力学曲线。

图23为融合蛋白Ex4-1fna-sab1在比格犬中的降糖效果。

图24为融合蛋白Ex4-1fna-sab1在比格犬中的药代动力学曲线。

发明详细说明

由于单克隆抗体的缺点，继单克隆抗体之后，被称为“拟抗体”的新型靶向蛋白被发现。这类新型靶向蛋白通过改造天然蛋白模板而得到，具有致密而热稳定的结构，体积小(5-20kDa)，而又具有较大的可突变表面积用于工程改造和定向进化，这些区域在改造后不至于严重破坏原本蛋白的稳定性。这些拟抗体模板蛋白具有与抗体完全不同源的序列，但对于特定抗原的特异性结合能力毫不逊色，而且通常都具有更好的溶解性、组织穿透能力、热稳定性和酶稳定性，而且可以通过原核系统(如大肠杆菌)或简单的真核系统(如酵母)大量生产。目前为止，已经有接近60种具有这类潜力的拟抗体模板被发现，并逐步取代单克隆抗体在药物治疗、诊断和其他生物技术领域中的应用。

但是，与单克隆抗体不同，拟抗体蛋白的抗原结合区(即可变区)与结构区没有明确定义的界限，且往往随着靶点的变化而变化，因此需要大量的突变工作予以确认。拟抗体蛋白模板(scaffold)的可变区确认之后，需进行人工设计，构建大容量的变体文库，并对个别靶点进行筛选，以测试该模板是否有足够的潜力，产生具有足够结构多样性的变体。所以，拟抗体药物前体的设计、筛选和优化等早期环节通常高度依赖于构建大容量的蛋白文库，耗时漫长，花费很高。因此，相比于单克隆药物有数百个处于临床阶段的品种和数十个上市品种，拟抗体药物目前仅有十几个处于临床阶段的品种和1个上市品种，其发展受到以上技术瓶颈的制约。

本领域的普通技术人员很早就体会到传统文库筛选法的局限性。例如，Dahiyat等指出“一个长500氨基酸的蛋白有20的500次方种可能变化，文库筛选法不可能筛选这么多种可能性”，只能“检验很小一部分可能提高功能的蛋白变体”(Dahiyat B.I.等，美国专利7,379,822，此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)。Kiss等指出，这类文库构建的方法高度依赖于随机产生的寡聚核苷酸(编码氨基酸密码子序列)以产生文库序列的多样性，其中一个致命弱点就是容易产生终止密码子以及严重影响蛋白折叠的氨基酸残基组合(Kiss等.Nucleic Acids Res.2006,34(19):e132)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

特别的是，相比于非常成熟的短肽(<3kDa)文库展示技术，由于拟抗体蛋白的大小通常在5kDa到20kDa之间，进行拟抗体的文库展示非常困难，需要高度的实验技巧，而且不同拟抗体模板的文库展示方法一般难以相互借鉴。很多拟抗体蛋白模板，由于文库构造过于困难，或者文库容量有限，或者筛选效率低下等原因，导致无法在测试环节筛出阳性克隆，而被放弃。即使是通过测试的拟抗体蛋白模板，在实际药物筛选中，其针对不同靶点的筛选方法也差异较大，需要分别摸索、优化(参考文献：Ruigrok等.Alternative affinitytools:more attractive than antibodies.Biochem J.2011May 15；436(1):1-13.doi:10.1042/BJ20101860)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

鉴于文库方法的以上不足，近年来发展出一些新思路和方法，试图解决上述传统文库筛选法的局限性。例如，研究发现，个别蛋白的特定位点或区域可以容纳多肽替换或插入，并保留植入多肽或抗体CDR的原有靶向性。例如，将somatostatin多肽序列植入模板蛋白CTLA4的类CDR3区可以获得对于somatostatin受体具有靶向结合能力的chimera蛋白(参考文献：Design and expression of soluble CTLA-4variable domain as a scaffoldfor the display of functional polypeptides，Proteins.1999Aug1；36(2):217-27)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。又如，CD4抗体的HCDR1环可以插入到神经元型一氧化氮合酶(neuronal nitric oxidesynthase)的一个蛋白抑制剂中，每一个这样形成的分子都有结合CD4的能力(Bes C.等，Chardes T.PIN-bodies:a new class of antibody-like proteins with CD4specificity derived from the protein inhibitor of neuronal nitric oxide synthase.Biochem.Biophys.Res.Commun.2006；343:334-344)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。Bes等演示了只有从抗CD4抗体的六个CDR(Complementarity determining regions，或抗体互补决定区)中的五个CDR中分离的多肽(而不是从该抗体可变区的其他部分分离的多肽)才有以可溶、环状形式结合CD4的能力(Bes C.等.Efficient CD4 binding and immunosuppressive properties ofthe 13B8.2 monoclonal antibody are displayed by its CDR-H1-derived peptideCB1.FEBS Lett.2001；508:67-74.)。此文献全篇以参考合并(incorporation byreference)的方式成为本申请的一部分。

又例如，将溶菌酶(lysozyme)抗体中与抗原结合的环区嫁接到绿色荧光蛋白(greenfluorescent protein，GFP)中可以产生一个与溶菌酶结合的荧光蛋白(Kiss等.Antibody binding loop insertions as diversity elements Nucl.Acids Res.(2006)34(19):e132)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

又例如，将一个从HIV-1gp41蛋白的C末端中分离出的HIV-1C多肽的整个抗原表位(即19个非连续氨基酸形成的一个溶剂可到达的表面区域，约2000平方埃以上)插入GCN4蛋白亮氨酸拉链(leucine zipper)的表面，可以形成一个和天然配体抗病毒能力接近的人造配体(Samuel K.Sia等.Protein grafting of an HIV-1-inhibiting epitope PNAS 2003100(17)9756-9761；doi:10.1073/pnas.1733910100)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

更多例子可以在以下文献中找到：

Norman,T.C.等.Genetic selection of peptide inhibitors of biologicalpathways.Science 285,591–595(1999)；

Colas,P.等.Genetic selection of peptide aptamers that recognize andinhibit cyclin-dependent kinase 2.Nature 380,548–550(1996)；

Kwan,A.H.等.Engineering a protein scaffold from a PHDfinger.Structure(Camb)11,803–813(2003)；

Karlsson,G.B.等.Activation of p53 by scaffold-stabilised expressionof Mdm2-binding peptides:visualisation of reporter gene induction at thesingle-cell level.Br.J.Cancer 91,1488–1494(2004)；

Vita,C.等.Scorpion toxins as natural scaffolds for protein engineering.Proc.Natl.Acad.Sci.USA 92,6404–6408(1995)；

Martin,L.等.Rational design of a CD4 mimic that inhibits HIV-1entryand exposes cryptic neutralization epitopes.Nat.Biotechnol.21,71–76(2003)。

以上引用的文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

这种一步到位的多肽移植(“one-shot”protein grafting)，就可以直接产生拟抗体，略过了构建文库并进行多轮筛选、优化的步骤，提供了一种不依赖于文库构建而直接产生拟抗体、快速发现潜在的新的拟抗体模板蛋白的新思路。同时，后续研究发现，这些能够容纳多肽移植的蛋白也往往具有成为新的拟抗体模板的潜力，可以对相应位点进行随机化建立文库，针对更多靶点筛选、产生拟抗体。另外，对于某些已经被广泛研究的原有拟抗体模板(scaffold)，近来也有发明将抗体的CDR直接导入以获得拟抗体，例如诺华公司(Novartis)的US20100322930等。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

但是上述方法的重要缺点是在于没有利用模板蛋白的结构信息，没有主动地、系统地判断模板蛋白产生拟抗体能力的办法，而是在很大程度上依靠碰运气来找到特定位点或区域可以容纳多肽替换或插入的个别蛋白。

另外，也有方法通过计算找出某靶点蛋白和它的某一个结合伙伴(例如抗体)的已知结构的结合面上几个关键的disembodied氨基酸，然后改造某蛋白模板来模拟所找出的几个氨基酸，从而使改造后的蛋白模板能和所述的靶点蛋白结合。例如，Baker等通过计算来改造一些蛋白模板来模拟靶点蛋白influenza hemagglutinin(HA)和HA的抗体之间互相作用的几个disembodied的氨基酸，从而使改造后的蛋白模板能够结合靶点蛋白HA(Baker等，Computational Design of Proteins Targeting the Conserved Stem Region ofInfluenza Hemagglutinin，Science,Vol 332,816-821(2011))。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。但这种方法的局限性是需要所选靶点蛋白有已知的结合伙伴，并且需要知道这个靶点蛋白和已知的结合伙伴互相结合的结合面的详细结构。

本发明提供了一种方法和一个系统，无须耗时耗力地构建大容量蛋白文库和实施高通量筛选，而是通过识别待改造目标蛋白的可变元件(也叫可变区)，结合已知靶点和非线性多肽序列的信息，以判断任意未知蛋白模板产生拟抗体的能力，并可以针对特定靶标快速产生拟抗体。

图1描述了本发明的总体结构。简言之，本发明通过分析蛋白模板的结构谱图，找出与其结构谱图有显著偏离的连续区域(即可变元件)，然后，将已知对于某靶标具有特异性结合能力的一个或多个非线性多肽，直接替换或者插入该区域，最后，测定所生成的蛋白变种是否与该靶标仍具备特异性结合能力，以此判断该蛋白模板产生拟抗体的能力。本发明还可以针对任意靶标，改造已知或未知的蛋白模板，以产生拟抗体。简言之，针对任意靶标，首先利用相对简单的短肽文库展示技术，筛选产生多个非线性多肽，直接替换或者插入到一个或多个蛋白模板中通过结构谱图分析而得到的可变元件，最后，在由此得到的多个蛋白变种中找出与靶标有特异性结合的拟抗体。本发明的优势在于，与现有的技术不同，绕过了直接利用文库展示较大蛋白的困难操作，利用结构谱图识别出蛋白模板中相对独立的可变元件，通过进行多肽置换等方式，产生最终的拟抗体。因此，本发明克服了现有技术将可变元件及其所在模板蛋白视为筛选或设计中不可分割的整体因而局限于围绕单个蛋白模板进行筛选的瓶颈，可同时对多个结构元件(对应多个蛋白模板)和可变元件(对应多个非线性多肽)进行筛选，降低了难度，提高了通量和成功率，克服了可变区变区边界随靶点变化而变化的难题。

特别地，拟抗体分子的功能是以一定的柔性结构为基础，不是具有特定的、不易改变的刚性结构。在它们与其相应的靶分子相互作用时，可以改变自身的结构，以便更有效地与靶分子结合。从拟抗体药物设计的角度来看，柔性较大的部位，对于大规模突变的容忍度更强，一方面不容易影响结构稳定性(成药性)，另一方面，容易与靶分子形成更强的结合力。由于目前技术获得的蛋白结构信息主要是静态图像(如X射线衍射晶体或NMR结构)，仅包含非常小尺度上的、由于热稳定性而导致的柔性，而难以揭示更大尺度上的、对于拟抗体药物设计更为重要的柔性信息，更无法预测进行多肽序列替换或者插入后所带来的变化。这里本发明提供了一种方法，利用完全概率化的数学模型，对于热稳定性导致的自体柔性、非热稳定性导致的自体柔性、自然或人工进化过程中蛋白结构可被容忍发生的偏差等三种因素，设定了明确的模型参数，并通过比较目标蛋白结构与其他同源结构蛋白进行参数估计，从而准确、有效地实现了利用多肽序列替换或者插入方法所进行的拟抗体蛋白设计。

近年来，基于靶向血清白蛋白的多肽长效化技术路线受到重视。这一技术采用人工改造后的、具有血清白蛋白靶向性的小蛋白分子(一般仅有约100残基)，与需要延长半衰期的多肽基因重组，而不会大幅度降低活性。所得到的融合蛋白药物进入血液循环系统后，绝大部分被吸附到血清白蛋白上，少部分保持游离状态。被吸附的融合蛋白药物借助与血清白蛋白的可逆性结合作用(半衰期：19-20天)，避免被降解或排泄。随着游离的融合蛋白药物被消耗或清除，吸附状态的融合蛋白药物从血清白蛋白上逐渐解离下来，从而维持了血液中的药物浓度，长时间地维持药效。目前上市的每日注射型GLP1品种之一—利拉鲁肽，就是利用靶向血清白蛋白技术，将半衰期提高到约14小时。

这一技术路线的关键点在于使原型多肽药物产生足够的血清白蛋白靶向性。现有方法有如下几种：(1)通过化学修饰原型多肽(如酰化作用，AlbuTag等)产生靶向性。这类方法产生的结合强度非常有限，Kd值一般在uM量级，基本无法做到每周注射的半衰期要求；(2)将原型多肽与血清白蛋白靶向型多肽(如Genentech、Dyax、Isogenica等公司的albuminaffinity peptides)或Albumin-binding Fab片段重组。这类方法产生的结合强度略好，Kd值约为数百nM至几uM，但所得药物一般为50-60的多肽，生产成本较高；(3)将原型多肽与血清白蛋白靶向拟抗体(如Domantis GSK的dAbs，Ablynx和BAC的VHH，Affibody)重组。可用于产生这类人工靶向蛋白的原型蛋白包括：金黄色葡萄球菌A结构域蛋白(US5831012，EP0739353)，人纤连蛋白(US6818418，EP1266025)等。这类方法产生的结合强度可以满足每周甚至更长时间注射的需求，而且可调节。这类GLP1药物可通过高密度发酵，极大地降低了成本。在投入同样的生产成本情况下，可以比化学合成工艺提高近百倍的产能。此段引用的文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

关键参考文献如下(这些文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)。

Hopp等.The effects of affinity and valency of an albumin-bindingdomain(ABD)on the half-life of a single-chain diabody-ABD fusionprotein.Protein Engineering,Design&Selection vol.23no.11pp.827–834,2010

Stork等.Biodistribution of a Bispecific Single-chain Diabody and ItsHalf-life Extended Derivatives.THE JOURNAL OF BIOLOGICAL CHEMISTRY VOL.284,NO.38,pp.25612–25619,September 18,2009

Jonsson等.Engineering of a femtomolar affinity binding protein tohuman serum albumin.Protein Engineering,Design&Selection vol.21no.8pp.515–527,2008Stork等.A novel tri-functional antibody fusion protein with improvedpharmacokinetic properties generated by fusing a bispecific single-chaindiabody with an albumin-binding domain from streptococcal protein G.ProteinEngineering,Design&Selection vol.20no.11pp.569–576,2007

本发明的一个方面，是提供了一套无须大容量文库构建即可产生拟抗体的方法。其使用了五个部分：靶点系统100、非线性多肽(Non-Linear Peptide，NLP)系统200、模板系统300、设计单元400和试验系统500，拥有两个输入点和一个输出点。根据目的不同，对应不同的逻辑流程。

其中一种逻辑流程如图1中标号①所示。其目的是为了测试任意模板蛋白产生拟抗体的能力。这一逻辑流程主要是为了鉴定模板蛋白的可变区，不直接关心拟抗体将结合什么样的靶点。这一逻辑流程从模板系统300出发，一路经过靶点系统100和NLP系统200到达设计单元400；另一路信息直接到达设计单元400，在设计单元400完成设计后，进入试验单元500，结合靶点系统100的帮助，输出结论。具体而言，如图2所示，在该业务逻辑下，模板系统300包含一个信息采集单元310，用于获得待测蛋白的基本信息，一个分析单元320，用于分析待测蛋白的可变元件区域；靶点系统包含一个信息采集单元110，用于挑选适宜的参考靶点，和一个合成单元120，用于合成上述靶点；NLP系统200包含一个信息采集单元210，用于挑选适宜的非线性多肽序列，和一个试验筛选单元220，用于筛选针对选定靶点的非线性多肽；设计单元400，用于综合靶点系统、NLP系统和模板系统的结果，设计待测蛋白的变体；试验系统500包含一个合成单元510，用于合成变体蛋白，和一个测试单元520，用于测试变体蛋白对于参考靶点的结合能力，并且输出最终的评价结果。

另一种逻辑流程如图1中标号②所示。其目的是为了针对特定靶点快速产出最适合该特定靶点的拟抗体。这一逻辑流程主要以靶点为中心，看哪一个拟抗体和该特定靶点产生最佳结合，所以这一逻辑流程不直接关心所测拟抗体是否从总体上看对大多数靶点是一个好的拟抗体。这一逻辑流程从靶点系统100出发，一路经过模板系统300，到达设计单元400；另一路经过NLP系统200到达设计单元400，在设计单元400完成设计后，进入试验单元500，结合靶点系统100的帮助，输出结论。具体而言，如图3所示，在该业务逻辑下，靶点系统100包含一个信息采集单元110，用于获得给定靶点的相关信息，和一个合成单元120，用于合成上述靶点；模板系统300包含一个信息采集单元310，用于获得具有产生拟抗体潜力、或者可能具有该潜力的模板蛋白的信息，一个分析单元320，用于分析上述模板蛋白的可变元件区域；NLP系统200包含一个信息采集单元210，用于挑选已知对于给定靶点具有结合能力的非线性多肽序列，和一个试验筛选单元220，用于筛选针对给定靶点的非线性多肽；设计单元400，用于综合靶点系统、NLP系统和模板系统的结果，设计模板蛋白的变体；试验系统500包含一个合成单元510，用于合成变体蛋白，和一个测试单元520，用于测试变体蛋白对于参考靶点的特异性结合能力，输出结果。

本领域的普通技术人员用模板(或“Scaffold”)来描述一种蛋白框架(Binz等，Nature Biotechnology,Vol.23,1257(2005)，此文献全篇以参考合并(incorporation byreference)的方式成为本申请的一部分)。这种蛋白框架(在该模板结构稳定的前提下)，和一般蛋白框架不同，通常能够容忍下述一些改变。这些改变包括，但并不限于：(1)模板内一或多段区域一些氨基酸的改变；(2)一些外来氨基酸序列在模板内一或多段区域的插入；和(3)模板内一或多段区域被外来氨基酸序列全部或部分取代。上述改变中有些改变能够引起模板蛋白功能的变化，这些变化包括(但并不限于)模板对原来结合靶点结合力的升高或降低，以及模板能够结合以前不能结合的靶点。

本发明的另一方面涉及GLP-1(人胰高血糖素样肽-1)受体激动剂高分子药物，该类药物是治疗2型糖尿病药物的重要新型药物。在GLP-1受体激动剂药物出现之前，2型糖尿病患者无论最初采用哪一类降糖药物治疗，随着病程的进展，都不可避免地导致胰岛β细胞功能的衰竭及并发症的产生。一般来说，单种口服降糖药失效为每年5％～20％，也就是说单种药治疗的疗效最多能持续5年左右。例如：磺脲类单药治疗6年以上约有53％的患者必须联合胰岛素治疗。随访9年的结果显示，磺脲类或二甲双胍单药治疗组中只有25％的患者能够达到血糖控制目标。随着糖尿病病程的进展，各种慢性并发症的发生率也逐步增加。糖尿病的并发症是引起糖尿病患者致死、致残的主要原因，尤其是心脑血管并发症已经成为糖尿病最主要的死亡原因(高达75％)，约70％的糖尿病病人是因为心血管疾病住院治疗的。

GLP-1受体激动剂药物的出现改变了这一状况，可以避免胰岛β细胞衰竭，提高胰岛素敏感性，减少糖尿病的心脑血管并发症。具体而言，GLP-1受体激动剂药物具有如下几点与以往糖尿病药物不同的独特治疗机理和安全性：(1)降糖作用呈现“血糖浓度依赖性”，最接近内分泌降糖生理状态，避免了口服降糖药和胰岛素的低血糖不良反应，可固定剂量给药，优于胰岛素，适宜长期用药。(2)具有胰岛β细胞保护和促进增殖的作用，比口服降糖药和外源性胰岛素更能刺激胰岛β细胞反应，是唯一有可能阻止2型糖尿病进行性恶化的药物品种。(3)延缓胃排空，控制食欲，减轻体重，避免了口服降糖药的体重不良反应，更受用药患者欢迎。(4)具备综合的心血管保护作用和神经系统作用，有更宽的适用潜力，尤其适用代谢综合症患者。

从临床效果的角度来看，GLP1受体激动剂药物相对传统西药有明显优势。具体表现在：(1)血糖浓度依赖性的降血糖作用。GLP-1受体激动剂不会引起显著的临床低血糖反应，适用于饮食、磺脲类控制较差的患者，以及需胰岛素治疗的患者。(2)提高胰岛素敏感性，改善胰岛β细胞功能，能够预防、并从根本上治愈糖尿病患者以及糖尿病的易感人群糖耐量减低(IGT)患者。而且，比外源性胰岛素更能促进β细胞的刺激反应时相。(3)减轻体重，控制饮食，效果优于磺脲类、噻唑烷胺酮类和胰岛素。(4)与二甲双胍联用，疗效优于单用/格列美脲联用/甘精胰岛素联用。(5)具有心血管保护作用，可降低血压，减少糖尿病心血管并发症，提高机体应激反应能力。

除此之外，研究显示GLP-1受体激动剂还通过多种途径产生降低体重的作用，包括抑制胃肠道蠕动和胃液分泌、抑制食欲及摄食以及延缓胃内容物排空。此外，GLP-1受体激动剂还可作用于中枢神经系统(特别是下丘脑)，从而使人体产生饱胀感和食欲下降。除此之外，GLP-1受体激动剂还具有许多其他生物学特性及功能，例如，GLP-1受体激动剂可能发挥降脂、降压作用，从而对心血管系统产生保护作用，还可通过作用于中枢增强学习和记忆功能，保护神经。

美国Amylin制药公司合成的GLP-1受体激动剂Exenatide(含39个氨基酸的多肽)在2005年上市，其长效缓释制剂在2012年上市。Novo Nordisk公司的另一种GLP-1受体激动剂Liraglutide在2010年上市。目前在临床阶段的GLP-1受体激动剂品种还包括：EliLilly/Amylin公司的GLP1-Fc、LY548806和GLP1-PEG等；Novo Nordisk公司的Semaglutide，ConjuChem公司的PC-DAC，GSK公司的Albiglutide，Roche/Ipsen公司的Taspoglutide，安万特/Zealand Pharma的Lixisenatide，Intarcia公司的ITCA650，以及国内豪森药业的GLP1-PEG。

尽管GLP-1受体激动剂药物具有巨大的市场潜力，但市场上的药物需要每日注射，不良反应发生率高。应用传统的多肽长效化技术(如PEG化学修饰和血清白蛋白/Fc融合技术等)，将引入比GLP-1受体激动剂多肽体积大10倍以上的高分子聚合物或蛋白分子，会导致药物活性丧失。另外，包括在研的品种在内，绝大多数需要复杂的化学合成工艺，人均年花费约为2至3万元。这一花费，是中国糖尿病患者的人均年度药物支出水平(4000元)的5倍以上，是注射胰岛素花费的10倍，非常昂贵。即使是仿制药物品种，受到生产工艺的局限，预期售价也在1万元以上。因此市场上以及正在开发的GLP1药物，只能满足不超过10万人的“高端市场”人群需求，仅占中国2型糖尿病患者人群的0.1％。因此，迫切需要用药更方便、年花费更少的新型长效基因工程GLP1类药物。

本发明提供了一系列基于靶向血清白蛋白多肽的GLP-1受体激动剂高分子药物。其特征在于所述高分子包括SEQ ID NO:25,26和43所示的氨基酸序列或者与SEQ ID NO:25,26和43相似的序列，这些序列可以激活GLP-1受体；SEQ ID NO:27-35所示的氨基酸序列或者与SEQ ID NO:27-35相似的序列，这些序列可以靶向结合血清白蛋白。

上面所述的高分子药物中还可以包括一个连接分子。该连接分子的主要目的是使上述的两部分(激活GLP-1受体部分和血清白蛋白靶向多肽部分)从空间上分开一定距离，从而使上述的两部分能更好地起到生物效果。因其所起的作用是隔离作用，所述连接分子的化学成分并不重要。只有其大小对隔离效果(即最终生物功能)有影响。所以所述连接分子可以是非多肽或多肽。非多肽的连接分子可以是天然或非天然。例如，非多肽的连接分子可以是(但并不限于)聚乙二醇、聚丙二醇、(乙烯/丙烯)共聚乙二醇、聚氧乙烯、聚氨酯、聚磷腈、多糖、右旋糖酐、聚乙烯醇、聚乙烯基吡咯烷酮、聚乙烯基乙基醚、聚丙烯酰胺、聚丙烯、聚氰基、脂质聚合物、几丁质、透明质酸和肝素。多肽的连接分子中的氨基酸可以是任何氨基酸，包括天然的和非天然的，可以是D氨基酸，也可以是L氨基酸。可以是形成蛋白质的氨基酸，也可以是不参与形成蛋白质的氨基酸。可以是遗传密码直接编码的氨基酸，也可以是不直接被遗传密码编码的氨基酸。例如，多肽的连接分子可以是SEQ ID NO:36-42或者与SEQ ID NO:36-42相似的序列。

SEQ ID NO:25

Exendin-4的氨基酸序列

HGEGTFTSDLSKQMEEEAVRLFIEWLKNGGPSSGAPPPS

SEQ ID NO:26

GLP-1的氨基酸序列

HAEGTFTSDVSSYLEGQAAKEFIAWLVKGRG

SEQ ID NO:27

sab1

VSSVPTKLEVVAATPTSLLISWDASSSSVSYYRITYGETGGNSPVQEFTVPGSKSTATISGLKPGVDYTITVYAEVRSFCTDWPAEKSCKPLRGPISINYRT

SEQ ID NO:28

sab2

VSSVPTKLEVVAATPTSLLISWDASSSSVSYYRITYGETGGNSPVQEFTVPGSKSTATISGLKPGVDYTITVYAVTDWPAEKSPISINYRT

SEQ ID NO:29

sab3

VDAFLGTWKLVEVRSFCTDWPAEKSCKPLRGTTIIEKNGDILTLKTHSTFKNTEISFKLGVEFDETTADDRKVKSIVTLDGGKLVHLQKWDGQETTLVRELIDGKLILTLTHGTAVCTRTYEKE

SEQ ID NO:30

sab4

SGPMMPPVGVQASILSHDTIRITWADEVRSFCTDWPAEKSCKPLRGRYYTVRWKTNIPANTKYKNANATTLSYLVTGLKPNTLYEFSVMVTKGRRSSTWSMTAHGTTFELS

SEQ ID NO:31

sab5

SGPMMPPVGVQASILSHDTIRITWADEMCYFPGICWMRYYTVRWKTNIPANTKYKNANATTLSYLVTGLKPNTLYEFSVMVTKGRRSSTWSMTAHGTTFELS

SEQ ID NO:32

sab6

SGPMMPPVGVQASILSHDTIRITWADRLIEDICLPRWGCLWEDDRYYTVRWKTNIPANTKYKNANATTLSYLVTGLKPNTLYEFSVMVTKGRRSSTWSMTAHGTTFELS

SEQ ID NO:33

sab7

SEQ ID NO:34

sab8

LVPTSPPKDVTVVTDWPAEKSKTIIVNWQPPSEANGKITGYIIYYSTEVRSFCTDWPAEKSCKPLRGWVIEPVVGNRLTHQIQELTLDTPYYFKIQARNSKGMGPMSEAVQFRTPKAS

SEQ ID NO:35

sab9

SAPRDVVASLVSTRFIKLTWRTPEVRSFCTDWPAEKSCKPLRGTYSVFYTKEGIARERVENTSHPGEMQVTIQNLMPATVYIFRVMAQNKHGSGESSAPLRVE

SEQ ID NO:36

linker1

LAAA

SEQ ID NO:37

linker2

(GGGGS)n(n＝1-6)

SEQ ID NO:38

Linker3

(GGSGGGS)n(n＝1-5)

SEQ ID NO:39

Linker4

A(EAAAK)nA(n＝2-5)

SEQ ID NO:40

Linker5

(PEAPTD)n(n＝1-5)

SEQ ID NO:41

IEGR

SEQ ID NO:42

FNPRG(P/A/S)

SEQ ID NO:43

Exendin-4变体的氨基酸序列

HHGEGTFTSDLSKQMEEEAVRLFIEWLKNGGPSSGAPPSKKKKKK GLP-1的氨基酸序列除上述SEQ ID NO:26外，还包括以下突变体：

⑴A8G、R36G和G37K突变体；

⑵His¹GLP-1修饰突变体，具体包括：脱氨基GLP-1、(D-His¹)GLP-1、N-山梨醇-GLP-1、N-咪唑-GLP-1、N-α-甲基-GLP-1、N-甲基-GLP-1、N-乙酰基-GLP-1和N-焦谷氨酰-GLP-1；

⑶Ala²GLP-1突变体，具体包括：(D-Ala²)GLP-1、(Gly²)GLP-1、(Ser²)GLP-1、(Aha²)GLP-1、(Thr²)GLP-1、(Aib²)GLP-1、(Abu²)GLP-1和(Val²)GLP-1；

⑷Glu³GLP-1突变体，具体包括：(Asp³)GLP-1、(Ala³)GLP-1、(Pro³)GLP-1、(Phe³)GLP-1、(Lys³)GLP-1和(Tyr³)GLP-1；

⑸在GLP-1的N末端加上赖氨酸残基的突变体KGLP-1。

本发明还提供了一系列能编码所述多肽和融合蛋白的核酸分子。

本发明所述多肽和融合蛋白可通过化学合成或基因工程重组表达产生。一般优选基因重组表达，方法如下：编码所述分子的核酸插入到表达载体中。编码所述分子的DNA区段在表达载体中有效连接以确保其表达的控制序列。表达控制序列包括但不限于：启动子、信号序列、增强子元件和转录终止序列。一旦载体已经掺入到适当的宿主中，就将宿主维持在适合于高水平表达所述核酸序列、收集和纯化该多肽和融合蛋白的条件下。这些表达载体通常作为游离体或宿主染色体DNA的一部分而在宿主中复制。通常表达载体含有选择标记(如氨苄青霉素抗性、四环素抗性等)，以便检测表达了含有期望DNA序列的那些宿主细胞。宿主包括但不限于大肠杆菌、酵母菌等。

本发明所述多肽和融合蛋白一经表达，则可按照本领域的标准方法纯化，包括硫酸铵沉淀、亲和柱、柱层析、HPLC纯化、凝胶电泳等。对于制药用途，优选基本上纯的、至少约90-95％纯度的产物。

本发明的多肽或融合蛋白，可以与一种或几种药学上可接受的辅料共同制成药物组合物。这些辅料包括：水溶性填充剂、pH调节剂、稳定剂、注射用水、渗透压调节剂等等。该药物组合物可以通过肌肉、静脉内、皮下等注射途径给药，优选的剂型为冻干或溶液注射剂。所述的水溶性填充剂辅料包括但不限于：甘露醇、低分子右旋糖苷、山梨醇、聚乙二醇、葡萄糖、乳糖、半乳糖等一种或几种的组合。所述的pH调节剂包括但不限于：枸橼酸、磷酸、盐酸、氢氧化钾或钠或铵、碳酸钠或钾或铵盐、碳酸氢钠或钾或铵盐等生理可接受的有机或无机酸和碱及盐等一种或几种的组合。所述的稳定剂包括但不限于：EDTA-2Na、硫代硫酸钠、焦亚硫酸钠、亚硫酸钠、磷酸氢二钾、碳酸氢钠、碳酸钠、精氨酸、谷氨酸、聚乙二醇、十二烷基硫酸钠、三羟甲基胺基甲烷等一种或几种的组合。所述的渗透压调节剂包括但不限于：氯化钠、氯化钾等一种或多种的组合。本发明的药物组合物还可以在组合治疗中给药，即与其它药剂组合。例如，组合治疗可包括本发明的组合物连同至少一种或多种其它治疗剂，例如抗炎药、抗癌药和化疗药物。

具体实施方式

这里将对附图说明中的具体实例进行参照说明。在下面的详细描述中，阐述了许多具体细节以提供一个关于本发明的透彻理解。给出的实施例仅为了阐明本发明，而不是为了限制本发明的范围。在以下的实施例中，未详细描述的各种过程和方法是本领域中公知的常规方法。所用试剂的来源、商品名以及有必要列出其成分者，均在首次出现时标出，其后所用相同试剂如无特殊说明，均与首次标明的内容相同。

实施例1：评估某未知蛋白模板产生拟抗体的潜力

下面结合具体的实施例，说明采用本发明评估某给定蛋白(pdb编号:1x5j)产生拟抗体的潜力。该实施例从模板系统300出发。在模板系统300的信息采集单元310中，一方面，本单元采集1x5j蛋白的已知数据，包括但不限于其一级序列信息、二级序列信息、三级结构信息、生产工艺信息(如生产工艺、表达效率等)和功能信息(如亚细胞定位信息、酶稳定性等)。常用的方法包括：数据库查询和文献挖掘。在本实施例中，通过查询SCOP数据库得到1x5j的一级序列为SEQ ID NO 1。

GSSGSSGPMMPPVGVQASILSHDTIRITWADNSLPKHQKITDSRYYTVRWKTNIPANTKYKNANATTLSYLVTGLKPNTLYEFSVMVTKGRRSSTWSMTAHGTTFEL(SEQ ID NO 1)

另一方面，本单元采集与1x5j蛋白的序列相似的其他蛋白信息。常用的方法为数据库查询。在本实施例中，信息采集单元310采用位点特异迭代BLAST(PSI-BLAST)算法，搜索SWISS-PROT数据库，共采集了301条与1x5j蛋白具有相似序列的其他蛋白。PSI-BLAST和BLAST是本领域常用的序列数据库搜索算法(Altschul等，Gapped BLAST and PSI-BLAST:anew generation of protein database search programs.Nucl.Acids Res.(1997)25(17):3389-3402doi:10.1093/nar/25.17.3389)(“Altschul 1997文章”)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。BLAST是Basic LocalAlignment Search Tool的缩写，意为“基本局部相似性比对搜索工具”。国际有多个著名生物信息中心都提供基于Web的BLAST服务器。

具体而言，首先，将目标蛋白的序列作为查询序列，利用BLAST算法搜索SWISS-PROT数据库，得到多个相似序列的比对结果，由此建立一个位置特异的分值矩阵。其次，将该分值矩阵作为查询序列，继续利用BLAST算法搜索SWISS-PROT数据库，以找到新的相似蛋白序列，并更新分值矩阵。例如，上述建立位置特异的分值矩阵的过程和更新分值矩阵的过程都可以按照Altschul1997文章来进行。此过程被反复迭代直至不再有新的相似序列被发现。

另一方面，本单元还采集与1x5j蛋白的结构相似的其他蛋白信息。在本示例中，信息采集单元310通过查询SCOP数据库，获得了与1x5j结构相似的、同属于人源的其他5个蛋白(SCOP编号：d1x5fa1、d1x5ha1、d1x5ka1、d1x5ga1和d1x5ia1)。SCOP数据库是蛋白质结构分类数据库，提供了已知结构蛋白之间的结构和进化关系的信息，所涉及的蛋白质包括结构数据库PDB中的所有条目。其结构分类主要是通过人工观察和比较而得来的。其分类层次包括：结构家族、结构超家族、折叠等。类似的还有CATH数据库等。

进而，在模板系统300的分析单元320中，一方面，本单元分析1x5j与其相似序列蛋白的谱图，从中找出1x5j蛋白中的快速进化位点，进行打分。一般流程为：对上述序列进行多序列比对，建立系统发育树，根据特定的分子进化模型，计算每个位点的进化速率，进行打分。多序列比对的常用方法包括：CLUSTAL算法(参考：Larkin等.Clustal W and ClustalX version 2.0.Bioinformatics(2007)23(21):2947-2948，此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)，Dialign算法(参考：Morgenstern等.DIALIGN:finding local similarities by multiple sequencealignment.Bioinformatics(1998)14(3):290-294)等。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。

建立系统发育树的常用方法包括：相邻连接(Neighbor-Joining)算法、非加权配对组(UPGMA)算法、最小进化(ME)算法、最大简约(MP)算法、最大似然(ML)算法、贝叶斯(Bayes)算法等。本领域有多个共知的用于序列进化分析的假说和模型，包括碱基取代速率模型、位点内速率差异模型等等，可用于计算进化速率(Johnson等.Model selection inecology and evolution,Trends in Ecology&Evolution,19(2):101-108(2004))。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。在本实施例中，利用Consurf软件(Glaser等.ConSurf:identification of functional regions inproteins by surface-mapping of phylogenetic information.Bioinformatics.2003Jan；19(1):163-4，此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)，进行打分，并且取保守型分值大于1作为筛选标准，得到符合条件的快速进化位点，结果如表1所示。

表1-快速进化位点打分表

另一方面，本单元分析1x5j蛋白及与其结构相似的其他蛋白的结构谱，从中找出1x5j蛋白的可变元件。该结构谱可以由蛋白全原子、Cα或者其他类型分子的三维欧几里德空间坐标数据构成。在本示例中，利用隐马氏模型(Hidden Markov Models)对于任何一组蛋白结构的Cα结构谱进行描述。隐马氏模型是本领域内常用的数学模型，被广泛用于描述不完全数据的随机性与潜在结构，特别地在描述蛋白序列谱或结构谱中有重要应用。相关介绍可参考：Eddy,Profile Hidden Markov Models.Bioinformatics 14(9):755-763(1998)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。在本示例中，用于描述蛋白结构谱的隐马氏模型是具有n个节点的结构。每个节点具有M、D、I三种状态。其中，第k个节点的M状态，只能向第k+1个节点的M或D状态，或者第k个节点的I状态转移；第k个节点的D或I状态，只能向第k+1个节点的M或D状态，或者第k个节点的I状态转移。

这种状态转移概率矩阵设定为未知参数，但不依赖于所在节点的序号。同时，每个节点k的M状态都分别对应一个未知的发射概率分布(三维正态分布)，其期望值参数为(x_k,y_k,z_k)，方差参数为σ_j ²，由此可产生三维空间坐标；特别地，σ_j ²根据每个蛋白结构(X_j)而分别定义，且不随节点位置而变化。相反，所有节点的I状态都只对应同一个未知的三维高斯概率分布，其期望值参数为(x,y,z)，方差参数为σ²，由此可产生三维空间坐标。从而，在该模型下，任一蛋白的三维空间结构(X_j)，都可以视为：遵循一定的图谱(G)出现的随机路径(A)，按照一定的发射概率产生的随机变量(Y)，通过一定的旋转(R)和平移(v)操作，而产生的随机三维点阵。由于这一随机过程中所涉及的联合概率或条件概率，均可由本领域内所共知的Forward或Viterbi算法得出(参见Eddy,Profile Hidden MarkovModels.Bioinformatics 14(9):755-763(1998)，此文献全篇以参考合并(incorporationby reference)的方式成为本申请的一部分)，便可以利用本领域内共知的随机抽样方法，例如MonteCarlo方法来更新隐马氏模型G、A、Y、R、v等未知参数直至收敛，得到最终的蛋白结构谱。如图4所示，即为一组蛋白结构的最终结构谱。其中，节点状态之间连线越粗，代表所观察到的蛋白结构出现在这一位置的概率越大。由此可见，在第-1至2节点，第10至22节点，第42-51节点，第112-116节点，这组蛋白结构倾向于偏离了模型中的M状态，即同源保守的空间位置，而是呈现出要么缺失(D状态)，要么随机出现于空间之中(I状态)。对应这类结构谱特征的结构区域，在本系统中定义为可变元件。随机元件可以通过以上示例中利用肉眼甄别、定性分析结构谱的方法得到，也可以如下述示例，利用统计学方法，在结构谱图中精确选择。对于特定的蛋白结构(Xj)，在上述随机抽样进行参数估计的过程中，可产生100个随机路径的抽样(A1…100)，以及对应的(R，v)1…100。对于每次抽样，检查该蛋白结构的每个残基所对应的节点状态。若对应I状态，标记该残基为潜在可变元件；若对应M状态，而该残基的空间位置大大偏离所对应的M状态所对应发射概率分布(比如，发射概率小于0.05)，则标记该残基为潜在可变元件。在总共100次抽样中，被标记为潜在可变元件的累计次数超过一定比例的残基(比如：95％)，被最终视为可变元件。图5显示了按照这一方法，得到1x5j中的可变元件。

为更好地理解以上描述的隐马氏模型，上述鉴定可变元件的过程可以和下面的假想类比。假定某人带五种不同颜色石子爬长城，在大部分烽火台上此人会停下将五种不同颜色石子各扔一个。大部分时间此人会不用什么力气，也就是说石子被随手丢在地上。但此人有时会使劲将一种或多种颜色石子扔得很远。也有时此人也会从一个烽火台跳下长城而跳跃到不是下一个而是再下一个烽火台再爬上该烽火台继续爬长城扔石子。继续假定某观察者没有每天跟着此人。这个观察者只是最终看到很多五种颜色石子所形成的轨迹，连长城也看不到。这个观察者现在的任务是推算长城的走向和每一个石子是怎样扔出去的。也就是说石子怎么会成为今天的样子。

以上推算长城走向和每一个石子怎样被扔出去的问题就象上面描述的在蛋白模板中找可变区的问题。假想中的长城就是结构谱。而五种颜色的石子就像是蛋白组(假定有五种蛋白)中的蛋白。今天能看到的只是这五种蛋白(即五种颜色石子)。问题是这五种蛋白怎样到了今天的样子。上面爬长城扔石子假想中的烽火台就像是上述隐马氏模型的节点。轻轻扔石子就像是隐马氏模型节点中的M(Match，同源保守)状态。使劲扔石子就像是隐马氏模型节点中的I(Insert，随机空间)状态。而跳跃烽火台就像是隐马氏模型节点中的D(Delete，缺失)状态。

根据以上方法所鉴定的1x5j一些可变区是第32至43个氨基酸之间、第55至58个氨基酸之间和第90至93个氨基酸之间。

如上所述，在1x5j的可变区被鉴定之后，在靶点系统中，通过110单元可获得适宜评价1x5j的靶点蛋白信息。120单元用于合成、纯化靶点，包括表达纯化全长的靶点蛋白、靶点蛋白特定片段或者表达在稳定或快速转染细胞系上的靶点蛋白等，其常用方法为本领域内所共知。在本实施例中，选择来源为人、鼠、兔的血清白蛋白作为靶点，购自Sigma-Aldrich公司。

进而，在NLP系统200中，通过信息采集单元210获得已知对给定靶点具有靶向结合能力的非线性多肽(NLP)的序列。常用方法包括数据库检索和文献检索，在上述基础上可进行简单增删的二次设计。符合检索条件的NLP序列包括但不限于：来自于给定靶点的抗体的CDR序列，来自于天然或人工筛选的具有靶向结合能力的非线性多肽序列，已知配体的结合部位序列等。通常情况下，在210所得信息不充分、不完全或其他有必要的情况下，筛选单元220针对给定靶点进行非线性多肽筛选，通常方法包括噬菌体展示、mRNA展示等方法。

在本实施例中，利用M13噬菌体肽库(PhD-C7C噬菌体库，New England Biolabs公司)进行NLP多肽筛选。Ph.D.-C7C噬菌体展示肽库是将随机七肽融合到M13噬菌体次要衣壳蛋白(pⅢ)上而构建成的一个组合文库。所展示的随机多肽两侧各有一个半胱氨酸(Cys)。在非还原条件下，这两个半胱氨酸自发地形成一个二硫键，使展示的多肽环化。受限于二硫键环内的7肽库已被证实能识别抗原表位结构、D-氨基酸靶分子的镜像配基及开发以多肽为基础的治疗药物等。该肽库表达的随机肽在噬菌体次要衣壳蛋白pⅢ的N端，第1个半胱氨酸之前是丙氨酸残基，第2个半胱氨酸和野生型pⅢ序列之间是连接肽段Gly-Gly-Gly-Ser。该肽库由10⁹个不同克隆组成，扩增一次后得到噬菌体文库，其中每10μl中每个序列的拷贝数约为100。

针对靶点蛋白的筛选细节如下所述。将人血清白蛋白(HSA，Sigma-Aldrich公司)溶解于0.1M NaHCO₃得到100μg/ml浓度的HSA溶液(pH8.6)，然后通过物理吸附固定到96孔ELISA板(Nunc Maxisorb)上。在前三轮的生物淘洗中，将1.5ml的HSA溶液加到每个聚苯乙烯Petra平板(60×15mm，Corning公司，美国)中，然后把平板放到湿润容器中，4℃轻摇过夜。第四轮时，HSA浓度变为10μg/ml。用0.1M NaHCO3(pH8.6)配制1％的卵清蛋白封闭板孔1小时。用含有0.1％吐温-20的Tris盐缓冲液(TBS缓冲液)，悬浮10μl的噬菌体文库。前三轮中，噬菌体与HSA室温轻摇结合1小时；第四轮，结合20分钟。未结合的噬菌体用TBS反复冲洗除去。其中，前三轮TBS含有0.1％(v/v)的吐温-20，第四轮含有0.3％(v/v)的吐温-20。结合噬菌体的HSA颗粒加入2M Glycine-HCl(pH2.2)10分钟，来洗脱噬菌体。加入150μl的1MTris-HCl(pH9.2)，中和被洗脱的噬菌体。噬菌体浓度可以通过大肠杆菌ER2738菌株滴定试验来评估。洗脱后的噬菌体通过大肠杆菌ER2738菌株增殖。过夜细胞培养液使用LB培养基按照1:100稀释。1ml稀释的培养基分装到培养试管中。使用无菌木质小棍的一端，从密度小于约100个菌斑的平板中挑取蓝色菌斑，转移到装有稀释培养基的试管中，37℃摇动培养5小时。培养液放到微型离心管中12,000rpm离心10分钟，上清液中含有大量扩增后的噬菌体颗粒。取出上清上层的80％放4℃，可保存数周而滴度不变。经过4步随机筛选的噬菌体颗粒使用通用引物96gIII(如5′-CCCTCATAGTTAGCGTAACG–3′)DNA测序鉴定，使用兔抗M13噬菌体抗体的ELISA试验来评估他们与HSA的结合力。加入1/6体积的PEG/NaCl溶液到扩增后的噬菌体上清中过夜沉淀，然后用12,000rpm离心10分钟。一排ELISA板孔使用0.1M NaHCO₃稀释的浓度为100μg/ml的HSA 200μL包被，放在气密湿箱中4℃过夜培养。另一个孔板使用梯度稀释的噬菌体包被。两个平板均使用0.1M NaHCO₃溶解的1％酪蛋白封闭。噬菌体使用200μl/孔含有0.1％吐温-20的TBS按照4倍梯度稀释，第一个孔中含有10¹²病毒体，最后一孔也即第12个孔含有2.4×10⁵病毒体。每一排噬菌体使用排枪转移到包被有HSA的板子上。板子放在室温摇动孵育1小时，然后用含有0.3％吐温-20的TBS溶液洗涤。接着用兔抗M13噬菌体抗体孵育，再用结合辣根过氧化物酶的山羊抗兔IgG检测结合的噬菌体。结合的辣根过氧化物酶的数量通过底物ABTS/H₂O₂显色后，用405nm的吸光度读数来衡量。每个样本重复5遍。对照组中不加噬菌体。每个读数都应减去405nm的背景吸收值。ELISA试验中405nm的吸光度值与结合的噬菌体数量相关。挑取与对照组相比吸光度显著增强的噬菌体克隆进行测序，获得其含有的NLP多肽序列(部分如表2所示)。

表2本实施例中涉及的NLP序列

编号	用于改造1x5j的NLP序列	序列大小
			SEQ ID NO 2	EVRSFCTDWPAEKSCKPLRG	20
SEQ ID NO 3	RAPESFVCYWETICFERSEQ	20
			SEQ ID NO 4	EMCYFPGICWM	11
SEQ ID NO 5	QRQMVDFCLPQWGCLWGDGF	20
			SEQ ID NO 6	RLIEDICLPRWGCLWEDD	18
SEQ ID NO 7	GEWWEDICLPRWGCLWEEED	20
			SEQ ID NO 8	NVCLPKWGCLWE	12

进而，在设计系统400，将上述环节所得NLP多肽的序列全部或部分插入或替换目标蛋白1x5j的序列来进行改造。在本实施例中，首先综合序列谱和结构谱的分析结果，确定可插入非线性多肽序列的位置。如图6，被圈注的三个区域(A，B，C)是用本申请中披露的方法对1x5j蛋白结构谱分析后识别出的可变元件。而图6中具有小球状结构的区域，则是对该蛋白序列谱分析后识别出的非保守序列。这样结构信息和序列信息都被利用于分析和识别可变元件。但本申请中披露的这些方法并不必须使用序列信息。仅使用目标蛋白(即模板蛋白)本身的结构信息，用本申请中披露的这些方法，也可以分析和识别可变元件。

一般地，建议在实际操作中，序列谱分析的结果起辅助作用，结构谱分析的结果起主导作用。例如，A、C两个可变元件同时也含有非保守序列，具有快速进化的特征，因此可以用于进行NLP改造。在实际操作中，考虑到非线性多肽序列(NLP)的大小平均为10-20个残基左右，远远超过可变元件C的大小，与可变元件A的大小较为接近。因此，首选将NLP的全部或部分序列移植入可变元件A。另外，考虑到变体蛋白的稳定性、可溶性以及其他因素的优化，一般也推荐对非可变元件区的某些残基进行替换。常见操作包括，将N端或C端序列进行增删或改造为适合表达宿主的序列，将连接二级结构的连接区的残基替换为侧链较短的残基，比如丝氨酸，将半胱氨酸替换为丝氨酸等。主要目的是为了减少所改区域的疏水性，从而提高变体蛋白的可溶性和其他性能。

改造后的部分1x5j变体的序列如表3所示：

表3：1x5j变体序列及针对血清白蛋白的靶向结合强度

进而，在试验系统500，通过合成单元510合成以上设计的蛋白变体，常用方法包括化学合成法、酶切法、生物反应器表达法等。本实施例采用了原核生物大肠杆菌(E.coli.)表达的方法产生目的蛋白如下：

1)构建编码蛋白质变体的DNA。构建蛋白质的DNA序列可以采用人工合成法和PCR方法。本发明采用全基因合成的方法制备蛋白变体的全长双链DNA。在本实例中，考虑到后续纯化和检测方便，变体N端添加了HIS和FLAG标签，融合蛋白序列为：

MGHHHHHHHHHHSSDYKDDDDKGENLYFQGSSGPMMPPVGVQASILSHDTIRITWADEVRSFCTDWPAEKSCKPLRGRYYTVRWKTNIPANTKYKNANATTLSYLVTGLKPNTLYEFSVMVTKGRRSSTWSMTAHGTTFELS(SEQ ID NO 12)

基因序列为：

ATGGGCCATCATCACCATCATCACCACCATCACCATAGCAGCGACTACAAAGACGACGATGACAAAGGTGAAAACCTGTACTTCCAGGGATCCAGCGGCCCAATGATGCCGCCAGTGGGCGTGCAGGCAAGCATTCTGAGCCATGATACCATTCGTATTACCTGGGCGGATGAGGTGCGTAGCTTTTGCACCGATTGGCCGGCAGAAAAAAGCTGCAAACCGCTGCGTGGCCGTTATTACACGGTGCGTTGGAAAACCAACATTCCGGCAAACACGAAATACAAAAACGCGAACGCGACCACCCTGAGCTATCTGGTTACGGGCCTGAAGCCGAATACGCTGTATGAGTTCAGCGTGATGGTGACCAAAGGCCGTCGTAGCAGCACCTGGAGCATGACCGCGCATGGCACGACCTTTGAACTGAGCTA(SEQ ID NO 13)

本实例中合成的编码DNA具有以下特征：5’端具有NcoI酶切位点，其用于表达载体pET28a的3’端连接；3’端具有XhoI酶切位点，其用于与pET28a的5’端连接。将产物进行双酶切(NcoI/XhoI)，并进行纯化。

2)构建蛋白质变体的表达载体并表达。

利用本领域常规的酶切法与粘性末端连接法，把模板DNA与表达质粒分别酶切，再用DNA连接酶连接，得到所需表达载体，如图7所示。本实例中，将表达载体pET28a进行双酶切(NcoI/XhoI)，然后与上面步骤中纯化后的产物进行连接。将连接产物以热击的方法转入DH5α感受态细胞。热击转化方法为本领域常规的技术。然后提质粒，测序。经测序验证后具有编码完整融合蛋白的表达载体，再转化BL21(DE3)感受态细胞进行表达。本发明中的融合蛋白的表达采用本领域常规的lac启动子大肠杆菌融合蛋白表达技术，使用IPTG启动融合蛋白的产生。将含有融合蛋白表达载体的BL21(DE3)感受态细胞在含有卡那霉素抗生素的LB培养基中进行过夜预培养。将过夜的菌液以1:100的比例用含卡那霉素的LB新鲜培养基稀释，37℃培养菌液直至OD600达到0.6，将体系温度降至25℃，使用ITPG启动融合蛋白的表达。

载体序列为：(SEQ ID NO 14)

3)本发明中的融合蛋白的纯化。

一旦本发明的融合蛋白在适当的宿主细胞中表达，可以通过标准的蛋白质分离和纯化技术对发明中的融合蛋白进行纯化。例如根据融合蛋白表达在体内的标签进行融合蛋白粗提纯。本发明中，纯化后的融合蛋白可以通过离子交换、超滤等方法将其浓缩至所需浓度。融合蛋白表达16小时后，将菌液离心、收集，超声波破碎10次，每次15秒。将破碎后的菌液高速离心，上清液过镍柱。用镍柱捕获6X HIS标签的融合蛋白，并利用咪唑的浓度梯度对融合蛋白进行洗脱。将洗脱的蛋白收集、透析及浓缩，紫外线灭菌处理。

进而，在测试单元520，测试蛋白变体对靶点蛋白的结合能力。常用的技术包括ELISA、FACS(高精确度分选型流式细胞仪)、SPR(表面等离子共振)等方法，具体细节为领域所共知。在本实施例中，采用了间接ELISA的方法，具体如下：孔板上包被100μl用40mMNaHCO₃(pH9.5)配制的5μg/ml的靶点蛋白(人血清白蛋白)溶液，4℃过夜培养，每一个样本保留一个孔不包被靶点蛋白，作为空白对照。倒掉包被溶液，用去离子水洗一次，PBS洗一次。之后每个孔加入PBS配置的含1％Ficoll 400的溶液300μl封闭2小时。倒掉封闭液，用PBS洗一次，加入用PBST(PBS+0.1％Tween20)稀释的蛋白样品100μl，室温孵育1小时。用PBST洗3次，每个孔加入100μl的

M2单克隆抗体(用PBST稀释1000倍)，室温孵育1小时。用PBST洗3次。每个孔加入100μl用PBST稀释1000倍的HRP标记的山羊抗鼠IgG，室温孵育1小时。用PBST洗4次，用PBS洗2次，按照厂家说明书，加入100μl的1-StepTMTurbo TMB-ELISA显色底物，30分钟内加入2M H₂SO₄ 100μl终止反应。使用微量滴定板分光光度计测量450nm处的吸光度，结果如表3所示。1x5j经本发明改造后，能够产生针对靶点蛋白的变体，证明其具备产生拟抗体的能力。

实施例2：噬菌体ELISA检测1x5j变体在噬菌体表面的表达情况

获得以上1x5j变体并验证与靶点蛋白的结合能力后，以如下方法进行噬菌体文库展示。在MaxiSorp微孔板中加入50μl/孔用包被缓冲液(50mM NaHCO₃，pH9)稀释1000倍的Anti-V5标签抗体溶液，同时用不含抗体的包被缓冲液包被阴性对照孔。在一个湿润的盒子中室温孵育1小时(或4℃孵育过夜)。用TBST洗一次。加入200μl封闭缓冲液，在一个湿润的盒子中4℃孵育过夜或室温孵育1小时。用TBST洗一次。加入50μl用TBST稀释的噬菌粒样品(样品浓度分别为10⁶、10⁷和10⁸噬菌粒/孔)。在回转摇床上室温孵育40分钟。用TBST洗5次。加入50μl HRP标记的抗噬菌体抗体溶液(用TBST/BSA稀释2500倍)，在回转摇床上室温孵育40分钟。先用TBST洗5次，再用TBS洗2次。加入50ul 1-Step Turbo TMB-ELISA显色液(Pierce)，孵育直至出现蓝色。用带滤芯的枪头加入50μl 2M H₂SO₄终止反应。使用酶标仪测定450nm处的的吸光值。

TBS：50mM Tris，150mM NaCl，pH7.5。

封闭液：含0.5％BSA的TBS溶液。

TBST：含0.1％吐温20的TBS缓冲液。

TBST/BSA：含1mg/ml BSA的TBST溶液。

如图8所示，摸索后的最优条件为：IPTG浓度为0.2mM，使用带挡板的三角瓶，培养体系为20ml。在最优条件下，噬菌体的滴度为1×10¹⁰/ml。

实施例3：针对给定靶点(人血清白蛋白)产生非抗体类的靶向蛋白

在本实施例中，目标是产生针对给定靶点的蛋白结合分子。通过模板系统的信息收集单元310选择了1fna、1hms、1k1g三个非抗体类蛋白作为模板蛋白，并分别得到与其具有相似序列或者相似结构的蛋白信息。

其中，1fna是已知具有产生拟抗体能力的非抗体蛋白模板(US6818418，此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)，过去十多年中已经被充分研究。基于1fna的靶向结合人血清白蛋白的新型靶向蛋白，在美国专利申请13/098851和12/989494中有所描述(此两篇文献全篇以参考合并(incorporation byreference)的方式成为本申请的一部分)，是通过大规模噬菌体文库展示方法而得到的。本实施例披露了利用本发明而产生的，包括全新人工靶向结合序列的，靶向于人血清白蛋白的蛋白结合分子。1hms是已知具有一定的产生拟抗体能力的蛋白模板，在本专利申请人此前的专利申请CN201210186485.9(此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分)中披露了基于该蛋白的靶向人血清白蛋白结合分子的具体序列，以及部分可变区。本实施例则披露了采用本发明得到这类新型结合分子的技术细节及更多可变区域。最后，1k1g是产生拟抗体能力未知的非抗体类蛋白。

>1fna

RDLEVVAATPTSLLISWDAPAVTVRYYRITYGETGGNSPVQEFTVPGSKSTATISGLKPGVDYTITVYAVTGRGDSPASSKPISINYRTEI(SEQ ID NO 15)

>1k1g

TRVSDKVMIPQDEYPEINFVGLLIGPRGNTLKNIEKECNAKIMIRGKGSVKEGKVGRKDGQMLPGEDEPLHALVTANTMENVKKAVEQIRNILKQGIETPEDQNDLRKMQLRELARLNGTLR(SEQ ID NO 16)

>1hms

VDAFLGTWKLVDSKNFDDYMKSLGVGFATRQVASMTKPTTIIEKNGDILTLKTHSTFKNTEISFKLGVEFDETTADDRKVKSIVTLDGGKLVHLQKWDGQETTLVRELIDGKLILTLTHGTAVCTRTYEKE(SEQ ID NO 17)

通过分析单元320鉴定这三个模板蛋白的可变元件。经鉴定1fna(SEQ ID NO 15)的一个可变区是在第72至81个氨基酸之间，1k1g(SEQ ID NO:16)的一些可变区包括第10至15个氨基酸之间和第45至68个氨基酸之间。1hms(SEQ ID NO:17)的一些可变区包括第12至38个氨基酸之间、第67至71个氨基酸之间、第86至91个氨基酸之间和第96至101个氨基酸之间。

靶点系统100和NLP系统200的运行过程与实施例1相似，并输出如表2所示的NLP多肽序列至设计系统400。设计系统400所设计的多个蛋白变体，经实验系统500合成，这三个蛋白模板和NLP多肽形成的融合蛋白与血清白蛋白结合能力的测试结果(部分)如图9所示，HSA是人血清白蛋白，BSA是牛血清白蛋白，NaHCO₃是阴性对照。

本实施例中产生的具有人血清白蛋白靶向结合能力的蛋白变体如下：

表4具有人血清白蛋白靶向结合能力的蛋白变体

而上述三个蛋白模板1fna(¹⁰Fn3)、1hms和1k1g都比较适合于噬菌体展示方法。如图10所示，与1fna(¹⁰Fn3)类似，1hms和1k1g均能够通过噬菌体展示方法很好地表达，从而可以进一步建立文库进行拟抗体筛选。

实施例4：1hms模板蛋白的BMT文库的建立和多轮筛选

以所得的对血清白蛋白具有靶向结合能力的1hms变体作为模板，通过随机突变所述之可变区及其他部位的特定残基，建立大容量噬菌体文库。

1.含尿嘧啶的噬菌粒模板的制备

从新制备的平板上挑取一个含目标质粒的CJ236单菌落，接种到1ml含100μg/ml氨苄青霉素的2YT培养基中，37℃振摇培养6小时(直至培养物变浑浊)。加入辅助噬菌体M13K07(～20μl)，使其在培养液中的最终滴度为10¹⁰pfu/ml，孵育10分钟，然后转移至预热的含100μg/ml氨苄青霉素和0.25μg/ml尿苷的30ml 2×YT培养基中，于37℃剧烈振摇下培养过夜。

2.噬菌体沉淀

将培养物转移至无菌的50ml离心管中，于4℃8000rpm离心10分钟。然后将上清转移至新的含6ml 20％PEG8000/2.5M NaCl的无菌50ml离心管中，充分混匀。室温放置5分钟。于4℃8000rpm离心10分钟。弃上清，短暂离心，用移液器移去剩余的上清。用1ml TBS重悬噬菌粒沉淀，并转移至微量离心管中。于最高转速离心2分钟，去除不溶物。将上清转移至新的含200μl PEG/NaCl的微量离心管中，充分混匀，冰浴10分钟。离心10分钟。弃上清，短暂离心，用移液器移去所有液体。用1ml TBS重悬沉淀。分别用对数期(0.6-0.9)的XL-1Blue和CJ236细胞测定噬菌粒的滴度。两个滴度的差异应大于10⁴。使用CJ236细胞测得的滴度应为10¹²-10¹⁴/ml。

3.U-ss DNA的制备

使用QIAprep Spin M13 Kit纯化U-ss DNA。取1μl样品跑琼脂糖凝胶电泳。

4.寡核苷酸磷酸化

按如下体系混合：0.3nmol(～5μg)寡核苷酸(BMT文库)，3μl 10X T4多聚核苷酸激酶反应缓冲液，1.5μl 10mM ATP，0.5μl T4多聚核苷酸激酶(5U)。加水至终体积30μl。37℃孵育2小时。65℃热灭活15分钟。贮存于-80℃。

5.Kunkel反应

按如下比例混合：3-6μl U-ssDNA(对于文库制备，用量为1μg)，3μl磷酸化寡核苷酸(6-9pmol)(对于文库，用量可增加至30pmol)，1μl 10×退火缓冲液(终浓度为：20mMTris-Cl(pH7.4)，2mM MgCl₂，50mM NaCl)，终体积为10μl(如需要可加水补充至终体积)。可根据实际情况扩大反应体系。同时设立不加引物的对照管。退火PCR程序为：98℃，2min；70℃，5min；37℃，30min。然后置于冰上。对于合成反应，将下列组分加至退火混合物中(仍置于冰上)：1μl 10×合成缓冲液(终浓度为：0.4mM等量混合的dNTP，0.75mM ATP，17.5mMTris-Cl(pH7.4)，3.75mM MgCl₂，1.5mM DTT)，1μl T4 DNA连接酶(用T7稀释缓冲液(20mM磷酸钾缓冲液，pH7.4，1mM DTT，0.1mM EDTA，50％甘油)稀释2倍)，1μl NEB T7 DNA聚合酶(用T7稀释缓冲液稀释至0.5U/μl)。合成反应体系可根据退火反应体系相应地同比例放大。充分混匀，短暂离心，37℃孵育30分钟。75℃热灭活15分钟，冷却至室温。取1μl样品跑琼脂糖凝胶电泳。用0.5μl样品转化XL-1Blue或DH5α感受态细胞。次日，比较含引物反应管和对照管(不含引物)的菌落数。如果比例是～10:1或更大，则反应很可能是成功的。用模板特异引物做菌落PCR检测野生型和突变体的比例(～10个菌落)。

6.电转化以制备dsDNA

使用

SV Gel and PCR Clean-Up System纯化Kunkel产物。将纯化后的Kunkel产物以及2个2mm电击杯冰上放置5分钟以上。取一半的已纯化预冷Kunkel产物与350μl SS-320电转感受态细胞混合，冰浴5分钟，然后转移至预冷的电击杯中。对于剩余的kunkel产物，准备进行另外一个组转化。用p-1000自动移液器取好1ml SOC。2,500V电击感受态细胞(BTX ECM395)。～4ms后会听到嘟嘟声。立即加入预先取好的SOC培养基。重悬细胞，并转移至250ml三角瓶中。取1ml SOC培养基到空电击杯中，充分重悬剩余细胞，将细胞悬液合并至三角瓶中。再洗一次电击杯，合并细胞悬液。对于另外一组Kunkel产物与SS-320电转感受态细胞混合物，重复上述过程，并将细胞悬液转移至同一三角瓶中。加入19ml SOC培养基，最终体积约为25ml。37℃振摇培养45分钟。取1μl细胞悬液，与99μl水混合，分别将1μl稀释后的细胞悬液(需要先在平板上加100μl水，然后将1μl稀释后的细胞悬液加到水中，涂匀)和剩余的细胞悬液(～99μl)涂到含氨苄青霉素的LB平板上。37℃过夜培养。次日，数菌落数，然后得到滴度(数菌落数适宜的平板)。例如，如果在涂1μl 100倍稀释菌液的平板上得到40个菌落，则滴度是：40x10²x25000＝1.0x 10⁸个总单克隆数。

7.噬菌粒制备

使用500ml 2×YT+氨苄青霉素+0.2mM IPTG+10¹²pfu辅助噬菌体(～3ml)作为培养基接种上步中电击转化并复苏后的菌液，37℃振摇过夜。次日制备噬菌粒。制备噬菌粒的方法基本同本实施例中第2步，即PEG/NaCl二次沉淀法。

8.SS-320电转感受态细胞的制备

接种SS-320到20ml含10μl Tc储存液(10mg/ml)的2×YT培养基中，37℃振摇过夜。冰上预冷1mM HEPES、2个500ml无菌离心瓶、3个2mm电击杯和3个扣紧盖子的微量离心管。37℃预热500ml超级肉汤培养基，然后加入5ml SS-320过夜预培养物。37℃振摇培养。当OD₆₆₀接近0.8时(约需2-3小时)，将培养物至于冰上预冷10分钟。转移培养物至2个预冷的500ml离心瓶中(每个约250ml)。2℃，5,000rpm离心5分钟。弃上清。采用冰上旋转瓶子的方法用少量(～20ml)冰冷的1mM HEPES重悬细胞。用冰冷的1mM HEPES补充至约250ml。再次离心并弃上清。采用冰上旋转瓶子的方法用少量(～20ml)冰冷的1mM HEPES重悬细胞。用冰冷的1mMHEPES补充至250ml。再次离心并弃上清。采用冰上旋转瓶子的方法用少量(～20ml)冰冷的水重悬细胞。将两个瓶子中的细胞悬液合并至一个瓶子。用冰冷的水漂洗空的瓶子，并合并至细胞悬液。用冰冷的水补充至300ml。再次离心并弃上清。将离心瓶置于冰上。在冰上倾斜瓶子以使细胞沉淀与水尽量分离。用移液器移去瓶子底部的上清，并弃之。加入300μl冰冷的水，重悬细胞(总体积约为～1000μl)。将电转感受态细胞分装至3个预冷的微量离心管中，每管350μl。

注：超级肉汤培养基(500ml)的配制是通过混合425ml去离子水、12g酵母提取物、6g胰蛋白胨和25ml 10％甘油，高压灭菌，然后加入50ml高压灭菌的磷酸钾溶液(0.17MKH₂PO₄，0.72M K₂HPO₄)。

结果：

用于Kunkel突变的U-ss DNA的量约为10～15μg，Kunkel突变后得到的cccDNA(共价闭合环状DNA)的量约为25μg，Kunkel突变产物的电泳图如图11所示。用于电转化的cccDNA的量约为20μg。电转化后得到的总转化子数为1.25×10⁹个。

未纯化噬菌体上清的滴度为3.06×10¹⁰/ml，纯化并浓缩30倍后噬菌体上清的滴度为8.6×10¹¹/ml，纯化回收率为94％。使用未纯化噬菌体上清的噬菌体ELISA结果如表5所示。

表5 1hms模板蛋白的BMT文库的噬菌体ELISA结果

转化平板的测序结果：

将转化得到的平板直接进行测序，测序结果为：两个环区均正确突变的比例为3/5；有1/5的克隆A环区正确突变，但B环区没有突变；另外1/5的克隆出现了错误突变。

感染平板的测序结果：

将突变后并感染了噬菌体的样品平板进行测序，测序结果为：两个环区均正确突变的比例为3/9；有1/9的克隆B环区正确突变，但A环区没有突变；有3/9的克隆A环区正确突变，但B环区没有突变；有1/9的克隆出现了错误突变。

多轮筛选方法

1.检测噬菌体本身是否和靶蛋白结合：用100ul 0.5uM TBS稀释的靶蛋白包被MaxiSorp微孔板(以已知与噬菌体结合的靶蛋白作为阳性对照)。用不含靶蛋白的包被缓冲液包被阴性对照孔。样品使用不展示外源蛋白的噬菌体。室温孵育1小时。用TBST(含0.1％吐温20的TBS)洗一次。用200ul封闭液(含0.5％BSA的TBS)室温封闭1小时，或4℃封闭过夜。用TBST洗一次。加入100ul用封闭液稀释100倍的噬菌体溶液(10⁸-10⁹个噬菌体)，室温孵育40分钟。用TBST洗5次。加入50ul用封闭液稀释2500倍的抗噬菌体HRP抗体，室温孵育30分钟。用TBST洗5次。用TBS洗2次。加入50ul TMB，室温孵育5-10分钟，直至出现蓝色。加入50ul2M H2SO4终止反应，蓝色变为黄色。测OD450处的吸光值。如果靶蛋白的信号是阴性对照的10倍以上，则该靶蛋白不能被用于筛选(显色10分钟后TMB的最终信号值应当小于0.2)。

2.生物素标记靶蛋白，并检测其生物素化是否可被DTT剪切。

HPDP-生物素储存液：在1.0ml溶剂(如DMF)中加入2.2mg HPDP-生物素，得到4mM的HPDP-生物素储存液。为了确保溶剂的完全溶解，将混合物加热至37℃，并轻柔地涡旋或超声。将储存液分装后冷冻贮存。

反应缓冲液：PBS+1mM EDTA

生物素标记HSA：将2mg HSA溶解于1ml PBS/EDTA缓冲液中。混合5ul HPDP-生物素储存液和95ul DMSO，然后加入到1ml HSA溶液中。涡旋混匀，然后室温孵育2小时。使用反应缓冲液平衡的脱盐柱对反应混合物进行脱盐。

3.测定结合生物素标记靶蛋白所需要的链霉亲和素磁珠的量：取150ul链霉亲和素顺磁颗粒(Promega,Z5481/2)。用TBS洗磁珠2次，每次150ul TBS。将磁珠分为100ul和50ul两份。收集磁珠。在每个管中加入10ul 10-20uM的靶蛋白溶液，室温旋转混合15分钟。收集磁珠，并保留上清(样品分别记为2-50和2-100)。在含100ul磁珠的管子中加入含100mMDTT的20mM Tris(pH8)溶液，室温旋转混合10分钟。收集磁珠，并保留上清(样品记为3-100)。在磁珠中加入12.5ul 1X SDS PAGE样品缓冲液，煮沸5分钟。取上清(样品4)。跑SDS-PAGE。样品1：原始蛋白溶液；样品2：2-50,2-100，未与磁珠结合的蛋白；样品3：DTT洗脱下来的蛋白；样品4：DTT洗脱后仍然结合在磁珠上的蛋白。比较各样品条带。估计磁珠所能结合的靶蛋白的量。检测DTT剪切反应。如果100ul磁珠不能结合如此多的靶蛋白，则可通过比较样品2-50和2-100估计磁珠的合适用量。

4.第1轮筛选(手动筛选)：在第1轮筛选中，首先将靶蛋白与磁珠结合，然后再加入噬菌体。由于需要使用大量的(1ml)噬菌体库样品溶液，因此采用手动法筛选。准备对数期的XL-1细胞。取1ml链霉亲和素磁珠，置于微量管中。将微量管在磁力架上放置～1分钟，移弃上清。加入1ml TBS，重悬磁珠，在磁力架上放置1分钟，移弃上清。重复洗涤1次。然后用1ml TBS重悬磁珠。在微量管中混合1nmol生物素标记的靶蛋白(100ul的10uM靶蛋白贮存液)和洗涤2次的链霉亲和素磁珠。与噬菌体混合后，靶蛋白的终浓度为1uM。孵育结合15分钟。然后将管子放在磁力架上。放置～1分钟直至上清变清澈。移弃上清。加入终浓度为5uM的生物素，孵育5分钟。使用磁力架用500ul TBST洗2次。弃上清。在靶蛋白-磁珠复合物中加入10¹²～10¹³噬菌体(用1ml TBST/BSA(0.5％)重悬)。混匀，孵育15分钟。弃上清，用1mlTBST洗2次。用0.5ml TBS重悬磁珠。保留0.2ml磁珠悬液作为备份(以备扩增失败时使用)，4℃储存。在剩余的～0.3ml磁珠悬液中，加入3ml对数期的XL-1细胞。感染20分钟。将感染后的混合物转移至30ml 2xYT+氨苄青霉素(Ap)+30μl辅助噬菌体(最终效价为～10⁸/ml)+0.2mM IPTG，37℃过夜震荡培养。用PEG/NaCl沉淀2次制备噬菌体，最后用300ul TBS重悬噬菌体沉淀。

5.第2轮筛选：从第2轮开始，开始采用溶液捕获法，筛选时使用KingFisher磁珠纯化仪。开始筛选前，配制洗脱液(必须现配现用)，100ul/样品：20mM Tris(pH8),100mM DTT(4ul 0.5M Tris，1.54mg DTT/100ul)。配制结合液：混合60ul噬菌体溶液、10pmol的生物素标记靶蛋白(可剪切的生物素化)和10ul的50mg/ml BSA，用TBS补充至终体积100ul。靶蛋白终浓度为100nM。在筛选后的洗脱液中，加入1.2ml对数期的XL-1细胞。室温感染20分钟，然后进入下一轮的噬菌体扩增步骤。将感染后的混合物转移至30ml 2×YT+Ap+30ul辅助噬菌体(最终效价为～10⁸/ml)+0.2mM IPTG培养基中，37℃震荡培养过夜。PEG/NaCl沉淀两次制备噬菌体，最后用300ul TBS重悬。

6.第3轮筛选：除结合液的配制方法和扩增步骤略有不同外，第3轮的筛选方法与第2轮相同。配制结合液(该步骤与第2轮不同)：混合10ul噬菌体溶液、2pmol的生物素标记靶蛋白(可剪切的生物素化)和10ul的50mg/ml BSA，用TBS补充至终体积100ul。靶蛋白终浓度为20nM。感染100ul对数期的XL-1细胞。加入2ml 2×YT+Ap+2ul辅助噬菌体+0.2mM IPTG培养基，37℃培养过夜。将剩余的洗脱液保存在4℃。

7.第4轮筛选(仅检测富集度)

取33ul培养液上清，加入2pmol生物素标记的靶蛋白(可剪切的生物素化)和10ul的50mg/ml BSA，用TBS补充至终体积100ul。靶蛋白终浓度为20nM。同时设立不含靶蛋白的阴性对照孔。阴性对照孔应当与含靶蛋白的样品孔相连。用10ul溶液感染100ul对数期的XL-1细胞。梯度稀释并涂平板。必须至少得到24个分离良好的克隆用于测序。

8.扩增单克隆(48个克隆/天)：从效价测定平板上选取24个单克隆。分别接种到150ul 2xYT+Ap(100μg/ml)培养基中。培养3小时后，加入150μl 2xYT+Ap+0.3μl辅助噬菌体+0.4mM IPTG培养基。培养过夜。5000rpm离心10分钟(使用96孔板吊篮转子)。转移50ul上清至新的96孔板中。分别在有或没有靶蛋白的情况下进行KingFisher噬菌体ELISA(这些样品应当并排排列)。使用5ul噬菌体上清。

对于含有游离半胱氨酸且需要保持还原状态的靶蛋白(如雌激素受体)，生物素化前封闭游离的半胱氨酸残基。加入0.1ml对数期的XL-1细胞。室温感染20分钟，然后加入2ml2xYT+Ap(+0.2mM IPTG)+2ul辅助噬菌体培养基。

实施例5:GLP1受体激动剂表达载体的构建和融合蛋白的表达

将融合蛋白Ex4-1fna-sab1、Ex4-1hms-sab1和Ex4-1x5j-sab1的核酸序列克隆到pET-32a(+)表达载体中，与Thioredoxin(Trx)共表达生成Trx-融合蛋白，以增加可溶表达水平。

将含表达载体的BL21(DE3)冻存菌株置于冰上冰浴融化少许，使用接种环，划线活化菌株于含100μg/ml氨苄青霉素的LB琼脂培养基上，37℃孵育过夜。挑选活化的单克隆细菌于30ml含100μg/ml氨苄青霉素的LB培养基中，置于37℃摇床中200rpm振摇培养过夜。按照2％的接种量，将隔夜培养的细菌培养物接种到1升含有100μg/ml氨苄青霉素的LB培养基中，37℃200rpm振摇，直到600nm光密度(OD₆₀₀)达到0.5。将培养物室温放置，降温至25℃，加入诱导剂异丙基-β-D-硫代半乳糖苷(IPTG)至终浓度0.5mM。将加入IPTG后的细菌培养物置于25℃摇床中，200rpm振摇培养4小时，以诱导在大肠杆菌中的胞内表达。表达结果见图12。

实施例6:纯化带有Trx标签的融合蛋白

以6000xg转速离心10分钟收获大肠杆菌细胞，加入20ml上样缓冲液(50mM磷酸钠，0.5M氯化钠，20mM咪唑，pH7.4)，随后加入溶菌酶和蛋白酶抑制剂苯甲基磺酰氟(PMSF)分别至终浓度0.2mg/ml和1mM。冰上孵育一小时，菌悬液间歇超声破碎2分钟。15000xg离心蛋白悬液1小时，收集上清，并以0.45μm微孔滤膜过滤。以10倍柱体积的上样缓冲液预平衡预装在一次性柱中的3ml的Ni-NTA树脂，将经过过滤的蛋白溶液缓慢上柱结合，收集流出液重新上柱于Ni-NTA树脂。上样结束后，使用上样缓冲液缓慢洗涤Ni-NTA柱直至无蛋白脱出。使用洗脱缓冲液(50mM磷酸钠，0.5M氯化钠，0.5M咪唑，pH7.4)洗脱结合蛋白，每2ml收集1管洗脱液。测定各管280nm光密度(OD₂₈₀)。SDS-PAGE结果如图13所示，电泳结果显示纯化样品的分子量与蛋白的预期大小一致。

实施例7:融合蛋白的酶切

固定金属离子亲和色谱纯化后的带有Trx标签的融合蛋白(Ex-1fna-sab1、Ex4-1hms-sab1和Ex4-1x5j-sab1)，透析于透析缓冲液(10mM Tris，30mM氯化钠，2mM CaCl₂，20mM L-Arg HCl，20mM L-Glu HCl，pH8.0)中，4℃透析过夜。酶切时加入不同量的重组肠激酶(Enterokinase，简称EK，GenScript)，室温过夜。SDS-PAGE检测融合蛋白在不同EK酶用量条件下的酶切效果，结果如图14所示。

实施例8：酶切后，纯化融合蛋白

将酶切后的融合蛋白采用透析法把原有的透析缓冲液(10mM Tris，30mM氯化钠，2mM CaCl₂，20mM L-Arg HCl，20mM L-Glu HCl，pH8.0)更换为新透析缓冲液(40mM Na₂HPO₄，20mM L-Arg HCl，20mM L-Glu HCl，pH7.4)。以10倍柱体积的新透析缓冲液预平衡预装在一次性柱中的3ml的Ni-NTA树脂，将经过过滤的蛋白溶液缓慢上柱结合，收集流出液，即为酶切后的融合蛋白。测定目标蛋白在280nm处的光密度(OD₂₈₀)。SDS-PAGE结果如图15所示，显示纯化样品的分子量与蛋白的预期质量一致。

实施例9:融合蛋白的GLP1受体激动活性与Ex4相似

通过如下实验判断融合蛋白所保留的功能分子活性(详见：以GLP-1受体为靶点的药物筛选细胞模型的建立和应用。环奕、申竹芳《药学学报》2009，44(3)：309-313)。此文献全篇以参考合并(incorporation by reference)的方式成为本申请的一部分。实验步骤简述如下：首先构建含GLP1受体信号通路调控的特异应答原件(RIP-CRE)6拷贝序列及报告基因E-GFP的重组载体Peak12RIP-CRE6X GFP。将该载体转染胰岛NIT-1细胞株，该细胞模型在GLP1类似物刺激下激活表达报告基因。然后使用不同浓度(1X10^-11、1X10^-10、1X10^-9、1X10^-8、1X10^-7、1X10^-6 M)的融合蛋白刺激，刺激48小时后通过荧光检测酶标仪检测不同浓度药物刺激后的荧光值改变。为避免由于细胞状态、检测加样及读数时间延误造成的不同实验批次造成的实验误差，引入内参基因合并靶基因的双报告基因检测方法，荧光检测结果为靶基因荧光读数值/内参基因荧光读数值。阳性药对照为：艾赛纳肽注射液(礼来公司)。

表6融合蛋白的GLP1受体激动活性

上表结果显示，融合蛋白样品活性随浓度增加而增强，具有显著的量效关系。其中一个指标为半数有效浓度(EC50)，另一个指标为在激动剂达到1.5倍激活效能时对应的浓度(EC1.5)。以上结果显示，融合蛋白样品与阳性药的量效曲线接近平行，活性相仿，证明人源蛋白基结合分子模板与功能分子(Exendin-4)融合后，没有对功能分子的原有活性造成显著降低。

实施例10:测试Ex4-1fna-sab1与人血清白蛋白的结合能力

包被：使用Nunc MaxiSorp微孔板，每孔包被50μl用包被缓冲液(50mM NaHCO3，pH9)配制的5μg/ml的HSA溶液，4℃孵育过夜。同时用不含靶点蛋白的溶液包被，作为阴性对照孔。用PBST洗一次。

封闭：每孔加入200μl用PBS配制的封闭液，在湿润盒子中4℃孵育过夜或室温孵育2-4小时。用PBS洗一次。

加样品：加入50μl用PBST或乙酸钠(pH 5.5)稀释的融合蛋白样品，在回转摇床上室温孵育1小时。用PBST洗3次。

加一抗：加入50μl 1000倍稀释的Flag标签抗体溶液，在回转摇床上室温孵育40分钟。用PBST洗3次。

加二抗：加入50μl稀释的HRP标记的二抗溶液(用PBST稀释1000倍)，在回转摇床上室温孵育40分钟。用PBST洗5次，然后用PBS洗2次。

检测：加入50μl 1step turbo-TMB-ELISA，室温孵育直至出现蓝色。加入50μl的2MH₂SO₄终止反应。使用酶标仪测定450nm处的的吸光值。

试剂配制：

PBS：0.1M的磷酸盐缓冲液，pH7.4.

PBST：含0.1％吐温20的PBS溶液。

封闭液:含1％Ficoll 400的PBS溶液。

结果：如图16所示，和阴性对照蛋白(即可变区未修饰的模板蛋白)相比，Ex4-1fna-sab1与人血清白蛋白具有较强的结合能力，并且pH为5.5时，其结合能力基本不受影响。

实施例11:Ex4-1fna-sab1和Ex4一样在正常生理血糖浓度下不会降低血糖而引起不良反应

实验动物：昆明种小白鼠，体重22-24g，雌雄各半。

取健康小鼠50只，随机分为对照组、艾赛那肽给药组(1.3ug/kg)和Ex4-1fna-sab1给药组(64ug/kg、128ug/kg和320ug/kg)。对照组给予等体积磷酸盐缓冲液。禁食12小时后，皮下注射相应药物或生理盐水，测量给药后0、0.5、1、2、4、8、12和24小时的血糖值。

由图17可见，Ex4-1fna-sab1组在三个给药剂量下的各时间点血糖值，与磷酸盐缓冲液(PBS)对照组和Ex4对照组比较，没有显著区别，不会对正常小鼠产生低血糖的不良影响。

实施例12:Ex4-1fna-sab1(与Ex4不同)在小鼠中的降糖效果能持续到12小时后

实验动物：昆明种小白鼠，体重22-24g，雌雄各半。

实验1：取健康小鼠18只，随机分为对照组(磷酸盐缓冲液)、艾赛那肽给药组(1.3ug/kg，即0.31nmol/kg)和Ex4-1fna-sab1给药组(320ug/kg，即21.33nmol/kg)。禁食12小时后测定血糖值并皮下给药。给药2小时后灌胃给予1.5g/kg的葡萄糖溶液，测定灌糖前30分钟、灌糖后0.5、15、30、60和120分钟的血糖值(见图18)。

实验2：取健康小鼠18只，随机分为对照组(磷酸盐缓冲液)、艾赛那肽给药组(1.3ug/kg，即0.31nmol/kg)和Ex4-1fna-sab1给药组(320ug/kg，即21.33nmol/kg)。禁食12小时后测定血糖值并皮下给药。给药12小时后灌胃给予1.5g/kg的葡萄糖溶液，测定灌糖前30分钟、灌糖后0.5、15、30、60和120分钟的血糖值(见图19)。

比较以上两组实验(给药2小时后的降糖效果和给药12小时后的降糖效果)的血糖曲线下面积(图20)可见，Ex4和Ex4-1fna-sab1在给药2小时后均具有显著的降糖效果(p<0.05)，而在给药12小时后，只有Ex4-1fna-sab1仍然具有显著的降糖效果(p<0.05)。

实施例13:EX4及其衍生物在小鼠血浆中的药代动力学研究

实验材料：Exendin-4(Heloderma suspectum)酶联试剂盒(PhoenixPharmaceuticals公司，目录号EK-070-94)；ICR小鼠血浆；

Performa血糖仪(罗氏公司)。

实验动物：雄性ICR小鼠

实验方法：

用950ml蒸馏水稀释20×分析缓冲液，得到1×分析缓冲液，用于稀释该试剂盒中的其他所有试剂及样品。用分析缓冲液稀释EX4衍生物，使样品浓度分别为0.5、2.5、5、10、25和50ng/mL。1μl工作液与9μl空白血浆混合，作为标准液。用40μl分析缓冲液稀释小鼠血浆，按照酶联试剂盒说明书进行定量分析。

取10只小鼠，分为艾赛那肽(Ex4)对照组(1.3ug/kg，即0.31nmol/kg)和Ex4-1fna-sab1给药组(320ug/kg，即21.33nmol/kg)。禁食10小时后，各组小鼠皮下给药0.08、0.25、0.5、1、2、4、6、10、24和48小时后取30-40ul血，利用酶联试剂盒及先前建立的工作曲线测定血样中Ex4浓度。图21是Ex4对照组的PK曲线。图22是Ex4-1fna-sab1的PK曲线。

此实验结果表明，Ex4-1fna-sab1在皮下给药后约0.5小时达到血药浓度峰值，之后迅速下降，在4小时后进入明显的平台期，浓度约为15ng/ml(约1nM，是该药物EC50浓度的2倍)，并持续至48小时乃至更久，因此可以解释其在小鼠中给药12小时后(实施例12)仍然具有显著的降糖效果。而Ex4对照药物的血药浓度在给药6小时即迅速下降至几乎完全清除的状态(0.5ng/ml，约0.1nM，远低于其EC50浓度)。按照一级消除动力学计算，Ex4的消除半衰期为14.19小时，Ex4-1fna-sab1的消除半衰期为25.85小时。

实施例14:Ex4-1fna-sab1在比格犬中的降糖效果能维持至少5天

实验动物：比格犬，体重13-16kg。

实验1：取健康动物2只，分为对照组(等体积磷酸盐缓冲液)和Ex4-1fna-sab1给药组(1mg/kg)。禁食12小时后静脉注射给药，令其自由活动、进食约12小时后，再次禁食12小时，即给药24小时(1天)后，灌胃给予4g/kg的葡萄糖溶液，测定灌糖前30分钟、灌糖后5、10、20、30、45、60和120分钟的血糖值。

实验2：取健康动物2只，分为对照组(等体积磷酸盐缓冲液)和Ex4-1fna-sab1给药组(1mg/kg)。禁食12小时后静脉注射给药，令其自由活动、进食约60小时后，再次禁食12小时，即给药72小时(3天)后，灌胃给予4g/kg的葡萄糖溶液，测定灌糖前30分钟、灌糖后5、10、20、30、45、60和120分钟的血糖值。

实验3：取健康动物2只，分为对照组(等体积磷酸盐缓冲液)和Ex4-1fna-sab1给药组(1mg/kg)。禁食12小时后静脉注射给药，令其自由活动、进食约108小时后，再次禁食12小时，即给药120小时(5天)后，灌胃给予4g/kg的葡萄糖溶液，测定灌糖前30分钟、灌糖后5、10、20、30、45、60和120分钟的血糖值。

以上三组实验的结果如图23所示。实验结果表明，Ex4-1fna-sab1给药的动物，在口服葡萄糖后，未出现对照组动物的血糖急剧升高的峰值曲线，证明产生了显著的降糖效果，而这一降糖效果可以维持至少5天。

实施例15:Ex4-1fna-sab1在比格犬中的药代动力学研究

实验动物：比格犬，体重13-16kg。

取健康动物1只，禁食12小时后静脉注射给药(20ug/kg)，0.08、1、4、12、24、48、72、96和144小时后取30-40ul血，用EIA Kit测定血样中Ex4-1fna-sab1的浓度(也就是Exendin-4的浓度，因为EIA Kit识别的是Ex4-1fna-sab1融合蛋白的Ex-4(即Exending-4)部分)。测试结果如图24所示。

实验结果表明，Ex4-1fna-sab1在犬注射给药4小时后进入明显的平台期，浓度约为20-30ng/ml(1.5-2nM，约是该药物IC50浓度的3倍以上)，并持续至144小时乃至更久，因此可以解释其在比格犬中给药144小时后(实施例14)仍然具有显著的降糖效果。

表7本专利中出现的序列

SEQUENCE LISTING

<110> 北京华金瑞清生物医药技术有限公司

<120> 一种改造非抗体类蛋白产生结合分子的方法、所产生的产品和一种长效GLP-1受体激动剂

<160> 43

<170> BiSSAP 1.2

<210> 1

<211> 107

<212> PRT

<213> Homo sapiens

<400> 1

Gly Ser Ser Gly Ser Ser Gly Pro Met Met Pro Pro Val Gly Val Gln

1 5 10 15

Ala Ser Ile Leu Ser His Asp Thr Ile Arg Ile Thr Trp Ala Asp Asn

20 25 30

Ser Leu Pro Lys His Gln Lys Ile Thr Asp Ser Arg Tyr Tyr Thr Val

35 40 45

Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys Asn Ala Asn

50 55 60

Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro Asn Thr Leu

65 70 75 80

Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser Ser Thr Trp

85 90 95

Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu

100 105

<210> 2

<211> 20

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 2

Glu Val Arg Ser Phe Cys Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys

1 5 10 15

Pro Leu Arg Gly

20

<210> 3

<211> 20

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 3

Arg Ala Pro Glu Ser Phe Val Cys Tyr Trp Glu Thr Ile Cys Phe Glu

1 5 10 15

Arg Ser Glu Gln

20

<210> 4

<211> 11

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 4

Glu Met Cys Tyr Phe Pro Gly Ile Cys Trp Met

1 5 10

<210> 5

<211> 20

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 5

Gln Arg Gln Met Val Asp Phe Cys Leu Pro Gln Trp Gly Cys Leu Trp

1 5 10 15

Gly Asp Gly Phe

20

<210> 6

<211> 18

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 6

Arg Leu Ile Glu Asp Ile Cys Leu Pro Arg Trp Gly Cys Leu Trp Glu

1 5 10 15

Asp Asp

<210> 7

<211> 20

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 7

Gly Glu Trp Trp Glu Asp Ile Cys Leu Pro Arg Trp Gly Cys Leu Trp

1 5 10 15

Glu Glu Glu Asp

20

<210> 8

<211> 12

<212> PRT

<213> Artificial Sequence

<220>

<223> 对给定靶点具有靶向结合能力的非线性多肽（NLP）

<400> 8

Asn Val Cys Leu Pro Lys Trp Gly Cys Leu Trp Glu

1 5 10

<210> 9

<211> 111

<212> PRT

<213> Artificial Sequence

<220>

<223> 靶向结合血清白蛋白的1x5j变体

<400> 9

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Val Arg Ser Phe Cys

20 25 30

Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Arg Tyr

35 40 45

Tyr Thr Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys

50 55 60

Asn Ala Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro

65 70 75 80

Asn Thr Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser

85 90 95

Ser Thr Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

100 105 110

<210> 10

<211> 102

<212> PRT

<213> Artificial Sequence

<220>

<223> 靶向结合血清白蛋白的1x5j变体

<400> 10

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Met Cys Tyr Phe Pro

20 25 30

Gly Ile Cys Trp Met Arg Tyr Tyr Thr Val Arg Trp Lys Thr Asn Ile

35 40 45

Pro Ala Asn Thr Lys Tyr Lys Asn Ala Asn Ala Thr Thr Leu Ser Tyr

50 55 60

Leu Val Thr Gly Leu Lys Pro Asn Thr Leu Tyr Glu Phe Ser Val Met

65 70 75 80

Val Thr Lys Gly Arg Arg Ser Ser Thr Trp Ser Met Thr Ala His Gly

85 90 95

Thr Thr Phe Glu Leu Ser

100

<210> 11

<211> 109

<212> PRT

<213> Artificial Sequence

<220>

<223> 靶向结合血清白蛋白的1x5j变体

<400> 11

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Arg Leu Ile Glu Asp Ile

20 25 30

Cys Leu Pro Arg Trp Gly Cys Leu Trp Glu Asp Asp Arg Tyr Tyr Thr

35 40 45

Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys Asn Ala

50 55 60

Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro Asn Thr

65 70 75 80

Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser Ser Thr

85 90 95

Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

100 105

<210> 12

<211> 142

<212> PRT

<213> Artificial Sequence

<220>

<223> 靶向结合血清白蛋白的1x5j蛋白变体

<400> 12

Met Gly His His His His His His His His His His Ser Ser Asp Tyr

1 5 10 15

Lys Asp Asp Asp Asp Lys Gly Glu Asn Leu Tyr Phe Gln Gly Ser Ser

20 25 30

Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser His

35 40 45

Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Val Arg Ser Phe Cys Thr

50 55 60

Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Arg Tyr Tyr

65 70 75 80

Thr Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys Asn

85 90 95

Ala Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro Asn

100 105 110

Thr Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser Ser

115 120 125

Thr Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

130 135 140

<210> 13

<211> 428

<212> DNA

<213> Artificial Sequence

<220>

<221> source

<222> 1..428

<223> /mol_type="unassigned DNA"

/note="靶向结合血清白蛋白的1x5j蛋白变体的DNA序列"

/organism="Artificial Sequence"

<400> 13

atgggccatc atcaccatca tcaccaccat caccatagca gcgactacaa agacgacgat 60

gacaaaggtg aaaacctgta cttccaggga tccagcggcc caatgatgcc gccagtgggc 120

gtgcaggcaa gcattctgag ccatgatacc attcgtatta cctgggcgga tgaggtgcgt 180

agcttttgca ccgattggcc ggcagaaaaa agctgcaaac cgctgcgtgg ccgttattac 240

acggtgcgtt ggaaaaccaa cattccggca aacacgaaat acaaaaacgc gaacgcgacc 300

accctgagct atctggttac gggcctgaag ccgaatacgc tgtatgagtt cagcgtgatg 360

gtgaccaaag gccgtcgtag cagcacctgg agcatgaccg cgcatggcac gacctttgaa 420

ctgagcta 428

<210> 14

<211> 5665

<212> DNA

<213> Artificial Sequence

<220>

<221> source

<222> 1..5665

<223> /mol_type="unassigned DNA"

/note="靶向结合血清白蛋白的1x5j蛋白变体的载体序列"

/organism="Artificial Sequence"

<400> 14

atccggatat agttcctcct ttcagcaaaa aacccctcaa gacccgttta gaggccccaa 60

ggggttatgc tagttattgc tcagcggtgg cagcagccaa ctcagcttcc tttcgggctt 120

tgttagcagc cggatctcag tggtggtggt ggtggtgctc gagttactag ctcagttcaa 180

aggtcgtgcc atgcgcggtc atgctccagg tgctgctacg acggcctttg gtcaccatca 240

cgctgaactc atacagcgta ttcggcttca ggcccgtaac cagatagctc agggtggtcg 300

cgttcgcgtt tttgtatttc gtgtttgccg gaatgttggt tttccaacgc accgtgtaat 360

aacggccacg cagcggtttg cagctttttt ctgccggcca atcggtgcaa aagctacgca 420

cctcatccgc ccaggtaata cgaatggtat catggctcag aatgcttgcc tgcacgccca 480

ctggcggcat cattgggccg ctggatccct ggaagtacag gttttcacct ttgtcatcgt 540

cgtctttgta gtcgctgcta tggtgatggt ggtgatgatg gtgatgatgg cccatggtat 600

atctccttct taaagttaaa caaaattatt tctagagggg aattgttatc cgctcacaat 660

tcccctatag tgagtcgtat taatttcgcg ggatcgagat ctcgatcctc tacgccggac 720

gcatcgtggc cggcatcacc ggcgccacag gtgcggttgc tggcgcctat atcgccgaca 780

tcaccgatgg ggaagatcgg gctcgccact tcgggctcat gagcgcttgt ttcggcgtgg 840

gtatggtggc aggccccgtg gccgggggac tgttgggcgc catctccttg catgcaccat 900

tccttgcggc ggcggtgctc aacggcctca acctactact gggctgcttc ctaatgcagg 960

agtcgcataa gggagagcgt cgagatcccg gacaccatcg aatggcgcaa aacctttcgc 1020

ggtatggcat gatagcgccc ggaagagagt caattcaggg tggtgaatgt gaaaccagta 1080

acgttatacg atgtcgcaga gtatgccggt gtctcttatc agaccgtttc ccgcgtggtg 1140

aaccaggcca gccacgtttc tgcgaaaacg cgggaaaaag tggaagcggc gatggcggag 1200

ctgaattaca ttcccaaccg cgtggcacaa caactggcgg gcaaacagtc gttgctgatt 1260

ggcgttgcca cctccagtct ggccctgcac gcgccgtcgc aaattgtcgc ggcgattaaa 1320

tctcgcgccg atcaactggg tgccagcgtg gtggtgtcga tggtagaacg aagcggcgtc 1380

gaagcctgta aagcggcggt gcacaatctt ctcgcgcaac gcgtcagtgg gctgatcatt 1440

aactatccgc tggatgacca ggatgccatt gctgtggaag ctgcctgcac taatgttccg 1500

gcgttatttc ttgatgtctc tgaccagaca cccatcaaca gtattatttt ctcccatgaa 1560

gacggtacgc gactgggcgt ggagcatctg gtcgcattgg gtcaccagca aatcgcgctg 1620

ttagcgggcc cattaagttc tgtctcggcg cgtctgcgtc tggctggctg gcataaatat 1680

ctcactcgca atcaaattca gccgatagcg gaacgggaag gcgactggag tgccatgtcc 1740

ggttttcaac aaaccatgca aatgctgaat gagggcatcg ttcccactgc gatgctggtt 1800

gccaacgatc agatggcgct gggcgcaatg cgcgccatta ccgagtccgg gctgcgcgtt 1860

ggtgcggata tctcggtagt gggatacgac gataccgaag acagctcatg ttatatcccg 1920

ccgttaacca ccatcaaaca ggattttcgc ctgctggggc aaaccagcgt ggaccgcttg 1980

ctgcaactct ctcagggcca ggcggtgaag ggcaatcagc tgttgcccgt ctcactggtg 2040

aaaagaaaaa ccaccctggc gcccaatacg caaaccgcct ctccccgcgc gttggccgat 2100

tcattaatgc agctggcacg acaggtttcc cgactggaaa gcgggcagtg agcgcaacgc 2160

aattaatgta agttagctca ctcattaggc accgggatct cgaccgatgc ccttgagagc 2220

cttcaaccca gtcagctcct tccggtgggc gcggggcatg actatcgtcg ccgcacttat 2280

gactgtcttc tttatcatgc aactcgtagg acaggtgccg gcagcgctct gggtcatttt 2340

cggcgaggac cgctttcgct ggagcgcgac gatgatcggc ctgtcgcttg cggtattcgg 2400

aatcttgcac gccctcgctc aagccttcgt cactggtccc gccaccaaac gtttcggcga 2460

gaagcaggcc attatcgccg gcatggcggc cccacgggtg cgcatgatcg tgctcctgtc 2520

gttgaggacc cggctaggct ggcggggttg ccttactggt tagcagaatg aatcaccgat 2580

acgcgagcga acgtgaagcg actgctgctg caaaacgtct gcgacctgag caacaacatg 2640

aatggtcttc ggtttccgtg tttcgtaaag tctggaaacg cggaagtcag cgccctgcac 2700

cattatgttc cggatctgca tcgcaggatg ctgctggcta ccctgtggaa cacctacatc 2760

tgtattaacg aagcgctggc attgaccctg agtgattttt ctctggtccc gccgcatcca 2820

taccgccagt tgtttaccct cacaacgttc cagtaaccgg gcatgttcat catcagtaac 2880

ccgtatcgtg agcatcctct ctcgtttcat cggtatcatt acccccatga acagaaatcc 2940

cccttacacg gaggcatcag tgaccaaaca ggaaaaaacc gcccttaaca tggcccgctt 3000

tatcagaagc cagacattaa cgcttctgga gaaactcaac gagctggacg cggatgaaca 3060

ggcagacatc tgtgaatcgc ttcacgacca cgctgatgag ctttaccgca gctgcctcgc 3120

gcgtttcggt gatgacggtg aaaacctctg acacatgcag ctcccggaga cggtcacagc 3180

ttgtctgtaa gcggatgccg ggagcagaca agcccgtcag ggcgcgtcag cgggtgttgg 3240

cgggtgtcgg ggcgcagcca tgacccagtc acgtagcgat agcggagtgt atactggctt 3300

aactatgcgg catcagagca gattgtactg agagtgcacc atatatgcgg tgtgaaatac 3360

cgcacagatg cgtaaggaga aaataccgca tcaggcgctc ttccgcttcc tcgctcactg 3420

actcgctgcg ctcggtcgtt cggctgcggc gagcggtatc agctcactca aaggcggtaa 3480

tacggttatc cacagaatca ggggataacg caggaaagaa catgtgagca aaaggccagc 3540

aaaaggccag gaaccgtaaa aaggccgcgt tgctggcgtt tttccatagg ctccgccccc 3600

ctgacgagca tcacaaaaat cgacgctcaa gtcagaggtg gcgaaacccg acaggactat 3660

aaagatacca ggcgtttccc cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc 3720

cgcttaccgg atacctgtcc gcctttctcc cttcgggaag cgtggcgctt tctcatagct 3780

cacgctgtag gtatctcagt tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg 3840

aaccccccgt tcagcccgac cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc 3900

cggtaagaca cgacttatcg ccactggcag cagccactgg taacaggatt agcagagcga 3960

ggtatgtagg cggtgctaca gagttcttga agtggtggcc taactacggc tacactagaa 4020

ggacagtatt tggtatctgc gctctgctga agccagttac cttcggaaaa agagttggta 4080

gctcttgatc cggcaaacaa accaccgctg gtagcggtgg tttttttgtt tgcaagcagc 4140

agattacgcg cagaaaaaaa ggatctcaag aagatccttt gatcttttct acggggtctg 4200

acgctcagtg gaacgaaaac tcacgttaag ggattttggt catgaacaat aaaactgtct 4260

gcttacataa acagtaatac aaggggtgtt atgagccata ttcaacggga aacgtcttgc 4320

tctaggccgc gattaaattc caacatggat gctgatttat atgggtataa atgggctcgc 4380

gataatgtcg ggcaatcagg tgcgacaatc tatcgattgt atgggaagcc cgatgcgcca 4440

gagttgtttc tgaaacatgg caaaggtagc gttgccaatg atgttacaga tgagatggtc 4500

agactaaact ggctgacgga atttatgcct cttccgacca tcaagcattt tatccgtact 4560

cctgatgatg catggttact caccactgcg atccccggga aaacagcatt ccaggtatta 4620

gaagaatatc ctgattcagg tgaaaatatt gttgatgcgc tggcagtgtt cctgcgccgg 4680

ttgcattcga ttcctgtttg taattgtcct tttaacagcg atcgcgtatt tcgtctcgct 4740

caggcgcaat cacgaatgaa taacggtttg gttgatgcga gtgattttga tgacgagcgt 4800

aatggctggc ctgttgaaca agtctggaaa gaaatgcata aacttttgcc attctcaccg 4860

gattcagtcg tcactcatgg tgatttctca cttgataacc ttatttttga cgaggggaaa 4920

ttaataggtt gtattgatgt tggacgagtc ggaatcgcag accgatacca ggatcttgcc 4980

atcctatgga actgcctcgg tgagttttct ccttcattac agaaacggct ttttcaaaaa 5040

tatggtattg ataatcctga tatgaataaa ttgcagtttc atttgatgct cgatgagttt 5100

ttctaagaat taattcatga gcggatacat atttgaatgt atttagaaaa ataaacaaat 5160

aggggttccg cgcacatttc cccgaaaagt gccacctgaa attgtaaacg ttaatatttt 5220

gttaaaattc gcgttaaatt tttgttaaat cagctcattt tttaaccaat aggccgaaat 5280

cggcaaaatc ccttataaat caaaagaata gaccgagata gggttgagtg ttgttccagt 5340

ttggaacaag agtccactat taaagaacgt ggactccaac gtcaaagggc gaaaaaccgt 5400

ctatcagggc gatggcccac tacgtgaacc atcaccctaa tcaagttttt tggggtcgag 5460

gtgccgtaaa gcactaaatc ggaaccctaa agggagcccc cgatttagag cttgacgggg 5520

aaagccggcg aacgtggcga gaaaggaagg gaagaaagcg aaaggagcgg gcgctagggc 5580

gctggcaagt gtagcggtca cgctgcgcgt aaccaccaca cccgccgcgc ttaatgcgcc 5640

gctacagggc gcgtcccatt cgcca 5665

<210> 15

<211> 91

<212> PRT

<213> Homo sapiens

<400> 15

Arg Asp Leu Glu Val Val Ala Ala Thr Pro Thr Ser Leu Leu Ile Ser

1 5 10 15

Trp Asp Ala Pro Ala Val Thr Val Arg Tyr Tyr Arg Ile Thr Tyr Gly

20 25 30

Glu Thr Gly Gly Asn Ser Pro Val Gln Glu Phe Thr Val Pro Gly Ser

35 40 45

Lys Ser Thr Ala Thr Ile Ser Gly Leu Lys Pro Gly Val Asp Tyr Thr

50 55 60

Ile Thr Val Tyr Ala Val Thr Gly Arg Gly Asp Ser Pro Ala Ser Ser

65 70 75 80

Lys Pro Ile Ser Ile Asn Tyr Arg Thr Glu Ile

85 90

<210> 16

<211> 122

<212> PRT

<213> Homo sapiens

<400> 16

Thr Arg Val Ser Asp Lys Val Met Ile Pro Gln Asp Glu Tyr Pro Glu

1 5 10 15

Ile Asn Phe Val Gly Leu Leu Ile Gly Pro Arg Gly Asn Thr Leu Lys

20 25 30

Asn Ile Glu Lys Glu Cys Asn Ala Lys Ile Met Ile Arg Gly Lys Gly

35 40 45

Ser Val Lys Glu Gly Lys Val Gly Arg Lys Asp Gly Gln Met Leu Pro

50 55 60

Gly Glu Asp Glu Pro Leu His Ala Leu Val Thr Ala Asn Thr Met Glu

65 70 75 80

Asn Val Lys Lys Ala Val Glu Gln Ile Arg Asn Ile Leu Lys Gln Gly

85 90 95

Ile Glu Thr Pro Glu Asp Gln Asn Asp Leu Arg Lys Met Gln Leu Arg

100 105 110

Glu Leu Ala Arg Leu Asn Gly Thr Leu Arg

115 120

<210> 17

<211> 131

<212> PRT

<213> Homo sapiens

<400> 17

Val Asp Ala Phe Leu Gly Thr Trp Lys Leu Val Asp Ser Lys Asn Phe

1 5 10 15

Asp Asp Tyr Met Lys Ser Leu Gly Val Gly Phe Ala Thr Arg Gln Val

20 25 30

Ala Ser Met Thr Lys Pro Thr Thr Ile Ile Glu Lys Asn Gly Asp Ile

35 40 45

Leu Thr Leu Lys Thr His Ser Thr Phe Lys Asn Thr Glu Ile Ser Phe

50 55 60

Lys Leu Gly Val Glu Phe Asp Glu Thr Thr Ala Asp Asp Arg Lys Val

65 70 75 80

Lys Ser Ile Val Thr Leu Asp Gly Gly Lys Leu Val His Leu Gln Lys

85 90 95

Trp Asp Gly Gln Glu Thr Thr Leu Val Arg Glu Leu Ile Asp Gly Lys

100 105 110

Leu Ile Leu Thr Leu Thr His Gly Thr Ala Val Cys Thr Arg Thr Tyr

115 120 125

Glu Lys Glu

130

<210> 18

<211> 102

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1fna蛋白变体

<400> 18

Val Ser Ser Val Pro Thr Lys Leu Glu Val Val Ala Ala Thr Pro Thr

1 5 10 15

Ser Leu Leu Ile Ser Trp Asp Ala Ser Ser Ser Ser Val Ser Tyr Tyr

20 25 30

Arg Ile Thr Tyr Gly Glu Thr Gly Gly Asn Ser Pro Val Gln Glu Phe

35 40 45

Thr Val Pro Gly Ser Lys Ser Thr Ala Thr Ile Ser Gly Leu Lys Pro

50 55 60

Gly Val Asp Tyr Thr Ile Thr Val Tyr Ala Glu Val Arg Ser Phe Cys

65 70 75 80

Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Pro Ile

85 90 95

Ser Ile Asn Tyr Arg Thr

100

<210> 19

<211> 90

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1fna蛋白变体

<400> 19

Val Ser Ser Val Pro Thr Lys Leu Glu Val Val Ala Ala Thr Pro Thr

1 5 10 15

Ser Leu Leu Ile Ser Trp Asp Ala Ser Ser Ser Ser Val Ser Tyr Tyr

20 25 30

Arg Ile Thr Tyr Gly Glu Thr Gly Gly Asn Ser Pro Val Gln Glu Phe

35 40 45

Thr Val Pro Gly Ser Lys Ser Thr Ala Thr Ile Ser Gly Leu Lys Pro

50 55 60

Gly Val Asp Tyr Thr Ile Thr Val Tyr Ala Thr Asp Trp Pro Ala Glu

65 70 75 80

Lys Ser Pro Ile Ser Ile Asn Tyr Arg Thr

85 90

<210> 20

<211> 116

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1k1g蛋白变体

<400> 20

Thr Arg Val Ser Asp Lys Val Met Ile Pro Gln Asp Glu Tyr Pro Glu

1 5 10 15

Ile Asn Phe Val Gly Leu Leu Ile Gly Pro Arg Gly Asn Thr Leu Lys

20 25 30

Asn Ile Glu Lys Glu Ser Asn Ala Lys Ile Met Ile Arg Gly Lys Gly

35 40 45

Ser Val Lys Glu Gly Thr Asp Trp Pro Ala Glu Lys Ser Gln Met Leu

50 55 60

Pro Gly Glu Asp Glu Pro Leu His Ala Leu Val Thr Ala Asn Thr Met

65 70 75 80

Glu Asn Val Lys Lys Ala Val Glu Gln Ile Arg Asn Ile Leu Lys Gln

85 90 95

Gly Ile Glu Thr Pro Glu Asp Gln Asn Asp Leu Arg Lys Met Gln Leu

100 105 110

Arg Glu Leu Ala

115

<210> 21

<211> 113

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1k1g蛋白变体

<400> 21

Thr Arg Val Ser Asp Lys Val Met Ile Pro Gln Asp Glu Tyr Pro Glu

1 5 10 15

Ile Asn Phe Val Gly Leu Leu Ile Gly Pro Arg Gly Asn Thr Leu Lys

20 25 30

Asn Ile Glu Lys Glu Ser Asn Ala Lys Ile Met Ile Arg Gly Lys Gly

35 40 45

Ser Val Lys Glu Gly Leu Pro Gln Trp Gly Gln Met Leu Pro Gly Glu

50 55 60

Asp Glu Pro Leu His Ala Leu Val Thr Ala Asn Thr Met Glu Asn Val

65 70 75 80

Lys Lys Ala Val Glu Gln Ile Arg Asn Ile Leu Lys Gln Gly Ile Glu

85 90 95

Thr Pro Glu Asp Gln Asn Asp Leu Arg Lys Met Gln Leu Arg Glu Leu

100 105 110

Ala

<210> 22

<211> 128

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1k1g蛋白变体

<400> 22

Thr Arg Val Ser Asp Lys Val Met Ile Pro Gln Asp Glu Tyr Pro Glu

1 5 10 15

Ile Asn Phe Val Gly Leu Leu Ile Gly Pro Arg Gly Asn Thr Leu Lys

20 25 30

Asn Ile Glu Lys Glu Ser Asn Ala Lys Ile Met Ile Arg Gly Lys Gly

35 40 45

Ser Val Lys Glu Gly Glu Val Arg Ser Phe Cys Thr Asp Trp Pro Ala

50 55 60

Glu Lys Ser Cys Lys Pro Leu Arg Gly Gln Met Leu Pro Gly Glu Asp

65 70 75 80

Glu Pro Leu His Ala Leu Val Thr Ala Asn Thr Met Glu Asn Val Lys

85 90 95

Lys Ala Val Glu Gln Ile Arg Asn Ile Leu Lys Gln Gly Ile Glu Thr

100 105 110

Pro Glu Asp Gln Asn Asp Leu Arg Lys Met Gln Leu Arg Glu Leu Ala

115 120 125

<210> 23

<211> 118

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1k1g蛋白变体

<400> 23

Thr Arg Val Ser Asp Lys Val Met Ile Pro Gln Asp Glu Tyr Pro Glu

1 5 10 15

Ile Asn Phe Val Gly Leu Leu Ile Gly Pro Arg Gly Asn Thr Leu Lys

20 25 30

Asn Ile Glu Lys Glu Ser Asn Ala Lys Ile Met Ile Arg Gly Lys Gly

35 40 45

Ser Val Lys Glu Gly Arg Leu Ile Glu Asp Ile Cys Leu Pro Arg Trp

50 55 60

Gly Cys Leu Trp Glu Asp Asp Gln Met Leu Pro Gly Glu Asp Glu Pro

65 70 75 80

Leu His Ala Leu Val Thr Ala Asn Thr Met Glu Asn Val Lys Lys Ala

85 90 95

Val Glu Gln Ile Arg Asn Ile Leu Lys Gln Gly Ile Glu Thr Pro Glu

100 105 110

Asp Gln Asn Asp Leu Arg

115

<210> 24

<211> 124

<212> PRT

<213> Artificial Sequence

<220>

<223> 具有人血清白蛋白靶向结合能力的1hms蛋白变体

<400> 24

Val Asp Ala Phe Leu Gly Thr Trp Lys Leu Val Glu Val Arg Ser Phe

1 5 10 15

Cys Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Thr

20 25 30

Thr Ile Ile Glu Lys Asn Gly Asp Ile Leu Thr Leu Lys Thr His Ser

35 40 45

Thr Phe Lys Asn Thr Glu Ile Ser Phe Lys Leu Gly Val Glu Phe Asp

50 55 60

Glu Thr Thr Ala Asp Asp Arg Lys Val Lys Ser Ile Val Thr Leu Asp

65 70 75 80

Gly Gly Lys Leu Val His Leu Gln Lys Trp Asp Gly Gln Glu Thr Thr

85 90 95

Leu Val Arg Glu Leu Ile Asp Gly Lys Leu Ile Leu Thr Leu Thr His

100 105 110

Gly Thr Ala Val Cys Thr Arg Thr Tyr Glu Lys Glu

115 120

<210> 25

<211> 39

<212> PRT

<213> Heloderma suspectum

<400> 25

His Gly Glu Gly Thr Phe Thr Ser Asp Leu Ser Lys Gln Met Glu Glu

1 5 10 15

Glu Ala Val Arg Leu Phe Ile Glu Trp Leu Lys Asn Gly Gly Pro Ser

20 25 30

Ser Gly Ala Pro Pro Pro Ser

35

<210> 26

<211> 31

<212> PRT

<213> Homo sapiens

<400> 26

His Ala Glu Gly Thr Phe Thr Ser Asp Val Ser Ser Tyr Leu Glu Gly

1 5 10 15

Gln Ala Ala Lys Glu Phe Ile Ala Trp Leu Val Lys Gly Arg Gly

20 25 30

<210> 27

<211> 102

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 27

Val Ser Ser Val Pro Thr Lys Leu Glu Val Val Ala Ala Thr Pro Thr

1 5 10 15

Ser Leu Leu Ile Ser Trp Asp Ala Ser Ser Ser Ser Val Ser Tyr Tyr

20 25 30

Arg Ile Thr Tyr Gly Glu Thr Gly Gly Asn Ser Pro Val Gln Glu Phe

35 40 45

Thr Val Pro Gly Ser Lys Ser Thr Ala Thr Ile Ser Gly Leu Lys Pro

50 55 60

Gly Val Asp Tyr Thr Ile Thr Val Tyr Ala Glu Val Arg Ser Phe Cys

65 70 75 80

Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Pro Ile

85 90 95

Ser Ile Asn Tyr Arg Thr

100

<210> 28

<211> 91

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 28

Val Ser Ser Val Pro Thr Lys Leu Glu Val Val Ala Ala Thr Pro Thr

1 5 10 15

Ser Leu Leu Ile Ser Trp Asp Ala Ser Ser Ser Ser Val Ser Tyr Tyr

20 25 30

Arg Ile Thr Tyr Gly Glu Thr Gly Gly Asn Ser Pro Val Gln Glu Phe

35 40 45

Thr Val Pro Gly Ser Lys Ser Thr Ala Thr Ile Ser Gly Leu Lys Pro

50 55 60

Gly Val Asp Tyr Thr Ile Thr Val Tyr Ala Val Thr Asp Trp Pro Ala

65 70 75 80

Glu Lys Ser Pro Ile Ser Ile Asn Tyr Arg Thr

85 90

<210> 29

<211> 124

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 29

Val Asp Ala Phe Leu Gly Thr Trp Lys Leu Val Glu Val Arg Ser Phe

1 5 10 15

Cys Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Thr

20 25 30

Thr Ile Ile Glu Lys Asn Gly Asp Ile Leu Thr Leu Lys Thr His Ser

35 40 45

Thr Phe Lys Asn Thr Glu Ile Ser Phe Lys Leu Gly Val Glu Phe Asp

50 55 60

Glu Thr Thr Ala Asp Asp Arg Lys Val Lys Ser Ile Val Thr Leu Asp

65 70 75 80

Gly Gly Lys Leu Val His Leu Gln Lys Trp Asp Gly Gln Glu Thr Thr

85 90 95

Leu Val Arg Glu Leu Ile Asp Gly Lys Leu Ile Leu Thr Leu Thr His

100 105 110

Gly Thr Ala Val Cys Thr Arg Thr Tyr Glu Lys Glu

115 120

<210> 30

<211> 111

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 30

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Val Arg Ser Phe Cys

20 25 30

Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Arg Tyr

35 40 45

Tyr Thr Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys

50 55 60

Asn Ala Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro

65 70 75 80

Asn Thr Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser

85 90 95

Ser Thr Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

100 105 110

<210> 31

<211> 102

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 31

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Met Cys Tyr Phe Pro

20 25 30

Gly Ile Cys Trp Met Arg Tyr Tyr Thr Val Arg Trp Lys Thr Asn Ile

35 40 45

Pro Ala Asn Thr Lys Tyr Lys Asn Ala Asn Ala Thr Thr Leu Ser Tyr

50 55 60

Leu Val Thr Gly Leu Lys Pro Asn Thr Leu Tyr Glu Phe Ser Val Met

65 70 75 80

Val Thr Lys Gly Arg Arg Ser Ser Thr Trp Ser Met Thr Ala His Gly

85 90 95

Thr Thr Phe Glu Leu Ser

100

<210> 32

<211> 109

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 32

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Arg Leu Ile Glu Asp Ile

20 25 30

Cys Leu Pro Arg Trp Gly Cys Leu Trp Glu Asp Asp Arg Tyr Tyr Thr

35 40 45

Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys Asn Ala

50 55 60

Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro Asn Thr

65 70 75 80

Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser Ser Thr

85 90 95

Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

100 105

<210> 33

<211> 111

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 33

Ser Gly Pro Met Met Pro Pro Val Gly Val Gln Ala Ser Ile Leu Ser

1 5 10 15

His Asp Thr Ile Arg Ile Thr Trp Ala Asp Glu Val Arg Ser Phe Cys

20 25 30

Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Arg Tyr

35 40 45

Tyr Thr Val Arg Trp Lys Thr Asn Ile Pro Ala Asn Thr Lys Tyr Lys

50 55 60

Asn Ala Asn Ala Thr Thr Leu Ser Tyr Leu Val Thr Gly Leu Lys Pro

65 70 75 80

Asn Thr Leu Tyr Glu Phe Ser Val Met Val Thr Lys Gly Arg Arg Ser

85 90 95

Ser Thr Trp Ser Met Thr Ala His Gly Thr Thr Phe Glu Leu Ser

100 105 110

<210> 34

<211> 118

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 34

Leu Val Pro Thr Ser Pro Pro Lys Asp Val Thr Val Val Thr Asp Trp

1 5 10 15

Pro Ala Glu Lys Ser Lys Thr Ile Ile Val Asn Trp Gln Pro Pro Ser

20 25 30

Glu Ala Asn Gly Lys Ile Thr Gly Tyr Ile Ile Tyr Tyr Ser Thr Glu

35 40 45

Val Arg Ser Phe Cys Thr Asp Trp Pro Ala Glu Lys Ser Cys Lys Pro

50 55 60

Leu Arg Gly Trp Val Ile Glu Pro Val Val Gly Asn Arg Leu Thr His

65 70 75 80

Gln Ile Gln Glu Leu Thr Leu Asp Thr Pro Tyr Tyr Phe Lys Ile Gln

85 90 95

Ala Arg Asn Ser Lys Gly Met Gly Pro Met Ser Glu Ala Val Gln Phe

100 105 110

Arg Thr Pro Lys Ala Ser

115

<210> 35

<211> 103

<212> PRT

<213> Artificial Sequence

<220>

<223> 可以靶向结合血清白蛋白的分子

<400> 35

Ser Ala Pro Arg Asp Val Val Ala Ser Leu Val Ser Thr Arg Phe Ile

1 5 10 15

Lys Leu Thr Trp Arg Thr Pro Glu Val Arg Ser Phe Cys Thr Asp Trp

20 25 30

Pro Ala Glu Lys Ser Cys Lys Pro Leu Arg Gly Thr Tyr Ser Val Phe

35 40 45

Tyr Thr Lys Glu Gly Ile Ala Arg Glu Arg Val Glu Asn Thr Ser His

50 55 60

Pro Gly Glu Met Gln Val Thr Ile Gln Asn Leu Met Pro Ala Thr Val

65 70 75 80

Tyr Ile Phe Arg Val Met Ala Gln Asn Lys His Gly Ser Gly Glu Ser

85 90 95

Ser Ala Pro Leu Arg Val Glu

100

<210> 36

<211> 4

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 36

Leu Ala Ala Ala

1

<210> 37

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 37

(Gly Gly Gly Gly Ser)n (n=1-6)

1 5

<210> 38

<211> 7

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 38

(Gly Gly Ser Gly Gly Gly Ser)n (n=1-5)

1 5

<210> 39

<211> 6

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 39

Ala (Glu Ala Ala Ala Lys)n Ala (n=2-5)

1 5

<210> 40

<211> 6

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 40

(Pro Glu Ala Pro Thr Asp)n (n=1-5)

1 5

<210> 41

<211> 4

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 41

Ile Glu Gly Arg

1

<210> 42

<211> 5

<212> PRT

<213> Artificial Sequence

<220>

<223> 连接多肽

<400> 42

Phe Asn Pro Arg Gly (Pro/Ala/Ser)

1 5

<210> 43

<211> 45

<212> PRT

<213> Artificial Sequence

<220>

<223> Exendin-4变体

<400> 43

His His Gly Glu Gly Thr Phe Thr Ser Asp Leu Ser Lys Gln Met Glu

1 5 10 15

Glu Glu Ala Val Arg Leu Phe Ile Glu Trp Leu Lys Asn Gly Gly Pro

20 25 30

Ser Ser Gly Ala Pro Pro Ser Lys Lys Lys Lys Lys Lys

35 40 45

Claims

1.一种鉴定一个蛋白模板产生拟抗体潜力的方法，包括：(i)初步选择某蛋白，拟抗体蛋白的大小通常在5kDa到20kDa之间，且具有已知的三维结构信息；(ii)用该蛋白本身的结构信息来鉴定该蛋白中可以引入变化而又基本不影响该蛋白结构的一或多个区域，称为可变区，从而鉴定该蛋白模板产生拟抗体的潜力，其中，(ii)的具体方法为：

a)通过查询蛋白质结构分类数据库SCOP或CATH，获得一或多个与该蛋白结构相似的其他蛋白，和该蛋白组成一个蛋白结构组；

b)利用隐马氏模型对蛋白结构组的Cα结构谱进行描述；隐马氏模型的每一个节点有三种状态：同源保守状态、随机空间状态和缺失状态；这三种状态遵守三维正态分布；

c)在隐马氏模型下，任一蛋白的三维空间结构Xj都可以视为：遵循一定的图谱G出现的随机路径A，按照一定的发射概率产生的随机变量Y，通过一定的旋转R和平移v操作，而产生的随机三维点阵；其中随机路径过程中所涉及的联合概率或条件概率由Forward或Viterbi算法得出；利用MonteCarlo随机抽样方法来更新隐马氏模型的G、A、Y、R、v等未知参数直至收敛，得到最终的蛋白结构谱；

d)按c)中的方法随机抽样至少100次；对于每次抽样检查该蛋白结构的每个残基所对应的节点状态，(1)如果节点状态对应随机空间状态，标记该残基为属于潜在可变区；(2)如果节点状态对应同源保守状态，而该残基的空间位置大大偏离所对应的同源保守状态所对应发射概率分布则标记该残基为属于潜在可变区；其中的大大偏离是指发射概率小于0.05；在总共至少100次抽样中，被标记为属于潜在可变区的累计次数超过95％，则被最终视为可变区。

2.权利要求1的方法，并进一步包括用该蛋白本身的序列信息来优先选择权利要求1所鉴定的可变区及引进的突变氨基酸类型，具体方法为：

(i)选择一或多个与该蛋白序列相似的蛋白，和该蛋白组成一个蛋白组；具体方法为：首先，将目标蛋白的序列作为查询序列，利用位点特异迭代BLAST算法搜索SWISS-PROT数据库，得到多个相似序列的比对结果，由此建立一个位置特异的分值矩阵；其次，将该分值矩阵作为查询序列，继续利用BLAST算法搜索SWISS-PROT数据库，以找到新的相似蛋白序列，并更新分值矩阵；此过程被反复迭代直至不再有新的相似序列被发现；

(ii)对所述蛋白组进行多序列比对，建立系统发育树，利用Consurf软件计算每个位点的进化速率并给各位点的保守性打分，取保守型分值大于1作为筛选标准，得到符合条件的快速进化位点；

(iii)用第(ii)步得到的位点的分数来优先选择可变区；即分数越低的位点越有可能属于可变区，从而被优先选择；

(iv)根据快速进化位点打分表中相同位置的残基类型，可优先选择引进的突变氨基酸类型。

3.权利要求1或2的方法，并进一步包括：鉴定该蛋白模板产生拟抗体的潜力后验证该蛋白模板产生拟抗体的潜力，其验证方法包括：(i)在所鉴定可变区中引入点突变，插入一或多个可以参与形成蛋白模板与其他蛋白相互作用的界面并呈现非线性结构，或者可以自身呈现非线性结构的多肽，或以一或多个所述多肽的部分或全部取代所述可变区，然后分析所形成的在可变区引入上述变化的蛋白变体的性能，其中，该蛋白变体的性能好坏验证了所述鉴定该蛋白模板产生拟抗体的潜力，或(ii)将所述蛋白模板克隆到常用的蛋白展示方法的展示载体中，并在所鉴定的可变区中插入随机寡核苷酸从而建立一个所述蛋白模板的可变区被随机多肽部分或全部取代的文库，然后用常用的蛋白展示方法来从所建文库中筛选对于一或多个给定靶点有亲和力的蛋白，称为“融合蛋白”；其中所筛出的融合蛋白的性能好坏验证了该蛋白模板产生拟抗体的潜力。

4.权利要求3的方法，其中蛋白展示是以下中的一种:(i)噬菌体展示；(ii)酵母展示；(iii)mRNA展示；和(iv)核糖体展示。

5.权利要求3的方法，其中所分析的变体蛋白或融合蛋白的性能包括：(i)热稳定性，(ii)酶稳定性，(iii)溶解性，(iv)是否具有引入多肽的原有的与其靶点的亲和力，和(v)表达水平。

6.一种制作拟抗体的方法，包括：权利要求1或2的方法，并进一步包括在一或多个所鉴定的可变区中引入点突变，或者插入一或多个多肽，或者以一或多个所述多肽的一部分或全部来部分或全部取代所述可变区。

7.权利要求6的方法，其中的多肽是可以参与形成蛋白模板与其他蛋白相互作用的界面并呈现非线性结构，或者可以自身呈现非线性结构的多肽。

8.权利要求6或7的方法，进一步包括将一或多个所鉴定的可变区用与对应可变区长短接近的所述多肽的部分或全部取代所述可变区。

9.权利要求6或7的方法，其中所插入的多肽来源于以下之一:(i)自身能够形成环状结构并具有靶向结合能力的多肽；(ii)抗体互补决定区的一部分；(iii)两个互相作用的天然蛋白之间的结合界面的一部分。

10.权利要求6或7的方法，进一步包括用以下方法之一获得或者制作所述多肽：(i)选择一或多个已知的和某靶点蛋白结合的多肽；(ii)通过蛋白展示来筛选能和某靶点相结合的多肽；(iii)筛选双硫键非线性多肽；(iv)制作某一靶点的抗体，然后按照该抗体的互补决定区的部分或全部序列来制作一或多段多肽；和(v)从两个互相作用的天然蛋白之间的结合界面选择一段作为所述多肽。

11.权利要求10的方法，其中蛋白展示是以下方法中的一种：(i)噬菌体展示；(ii)酵母展示；(iii)mRNA展示；和(iv)核糖体展示。

12.权利要求6或7的方法，进一步包括改变可变区之外，即不可变区，来进一步改进所制拟抗体。

13.权利要求12的方法，其中对不可变区的改变包括：(i)将不可变区的N端或C端序列进行增删，(ii)将所述N端或C端改造为适合表达宿主的序列，和(iii)将不可变区中连接二级结构的连接区的残基替换为侧链较短的残基。

14.权利要求13的方法，其中侧链较短的残基是甘氨酸、丙氨酸和丝氨酸。

15.根据权利要求6至14中任一权利要求所述的方法获得的拟抗体，其序列是以下序列之一：(i)SEQ ID NO:9；(ii)SEQ ID NO:18；(iii)SEQ ID NO:19；(iv)SEQ ID NO:24；(v)SEQ ID NO:27。

16.一个分离的核酸分子，其编码权利要求15中的任何一个拟抗体。

17.一个表达载体，其包含权利要求16的核酸分子。

18.一个表达载体，其表达权利要求15中的任何一个拟抗体。

19.一个高分子，包括以下两部分：

(i)一段有生物功能的多肽或蛋白，其序列是SEQ ID NO:25；

(ii)一个可与血清白蛋白靶向结合的拟抗体，其序列是以下序列之一：(a)SEQ ID NO:9；

(b)SEQ ID NO:24；(c)SEQ ID NO:27。

20.权利要求19的高分子，在所述生物功能多肽和所述拟抗体之间进一步包括一个连接分子，该连接分子为分子量在300Da到5,500Da之间的多肽,该多肽由天然或非天然氨基酸组成。

21.权利要求20的高分子，其中连接分子的多肽由天然氨基酸组成。

22.权利要求21的高分子，其中形成多肽的天然氨基酸是能够形成蛋白质的天然氨基酸。

23.权利要求22的高分子，其中形成多肽的天然氨基酸是由遗传密码直接编码的天然氨基酸。

24.权利要求23的高分子，其中的多肽序列是以下序列之一：(a)SEQ ID NO:36；(b)SEQID NO:37；(c)SEQ ID NO:38；(d)SEQ ID NO:39；(e)SEQ ID NO:40；(f)SEQ ID NO:41；和(g)SEQ ID NO:42。

25.权利要求20的高分子，其中所述的生物功能多肽、拟抗体和连接分子以融合蛋白形式连在一起。

26.权利要求19的高分子，在所述生物功能多肽和所述拟抗体之间进一步包括一个连接分子，该连接分子为分子量在300到5,500之间的非多肽分子。

27.权利要求26的高分子，其中的连接分子是以下分子之一或任何组合：聚乙二醇、聚丙二醇、乙烯乙二醇、丙烯乙二醇、聚氧乙烯、聚氨酯、聚磷腈、多糖、右旋糖酐、聚乙烯醇、聚乙烯基吡咯烷酮、聚乙烯基乙基醚、聚丙烯酰胺、聚丙烯、聚氰基、脂质聚合物、几丁质、透明质酸和肝素。

28.一个分离的核酸分子，其编码权利要求19-27任一项所述的高分子中的多肽或蛋白。

29.一个表达载体，其包含权利要求28中的核酸分子。

30.一个表达载体，其表达权利要求19-27任一项所述的高分子中的多肽或蛋白。

31.一种药物或疫苗，其包含权利要求15中的任何一个拟抗体，或者权利要求19-27中的任何一个高分子，或者权利要求16或28中的任何一个核酸分子，或者权利要求17-18、29-30中的任何一个表达载体。