KR102110725B1

KR102110725B1 - Ｔａｌ 이펙터-매개된 ｄｎａ 변형

Info

Publication number: KR102110725B1
Application number: KR1020197002716A
Authority: KR
Inventors: 다니엘 에프. 보이타스; 아담 보그다노브; 펭 장; 미쉘 크리스티안; 토마스 서막; 클래리스 라우어 슈미트; 에린 도일; 리 왕
Original assignee: 리전츠 오브 더 유니버스티 오브 미네소타; 아이오와 스테이트 유니버시티 리서치 파운데이션, 인코퍼레이티드
Priority date: 2009-12-10
Filing date: 2010-12-10
Publication date: 2020-05-13
Also published as: CN106834320B; EP3456826A1; DK2510096T3; US11274294B2; US20140335618A1; ES2527997T5; BR112012014080A2; EP2816112A1; DK2510096T4; JP6526612B2; ES2696825T3; EP3456826B1; AU2010327998A2; PL2510096T5; US20200102550A1; US8586363B2; EP2510096B1; US10619153B2; AU2010327998B2; US20110145940A1

Abstract

본 발명은, 유전자 표적화 (예를 들어, 전사 활성화제-유사 이펙터 뉴클레아제 ("TALENS")를 이용한 유전자 표적화)와 관련된 물질 및 방법이 제공된다.

Description

ＴＡＬ 이펙터-매개된 ＤＮＡ 변형 {TAL EFFECTOR-MEDIATED DNA MODIFICATION}

관련 출원에 대한 상호-참조

본 출원은 2009년 12월 10일 출원된 미국 가출원 일련 번호 61/285,324, 2010년 6월 7일 출원된 미국 가출원 일련 번호 61/352,108, 및 2010년 7월 22일 출원된 미국 가출원 일련 번호 61/366,685로부터의 우선권의 이득을 주장하며, 이들 모두는 그 전문이 본원에 참조로 포함된다.

연방 정부가 후원하는 연구에 대한 성명

본 발명은 국립 과학 재단 (National Science Foundation)에 의해 지급된 연구비 번호 0820831 및 0504304 하에 정부 지지로 수행되었다. 정부는 본 발명에 특정 권리를 갖는다.

기술 분야

본 발명은 유전자 표적화를 위한 방법, 및 특히 전사 활성화제-유사 (TAL) 이펙터 서열의 사용을 포함하는 방법에 관한 것이다.

상동성 재조합 (유전자 표적화)을 통해 염색체를 변형하는 능력은 생물학자들이 오랫동안 추구해온 목표이다. 식물에서, 예를 들어, 유전자 표적화는 식물 유전자의 기능을 식별하는데 도움이 될 수 있으며, 작물 개선을 위한 새로운 가능성을 연다. 예를 들어, 유전자 표적화로 변경된 오일 또는 탄수화물 프로파일을 갖는 종자, 향상된 영양 질을 갖는 음식, 또는 질환 및 스트레스에 대해 증가된 내성을 갖는 식물을 포함하는 고가의 작물을 생산하기 위한 대사적 경로를 재조정하기 위해 요구되는 유전적 수술을 수행하는 것이 가능하다. 동물 (예를 들어, 포유동물)에서, 유전자 표적화는 질환의 치료를 위해 사용될 수 있다. 예를 들어, 유전자 표적화는 다양한 유형의 돌연변이로 인해 결손이 있는 유전자에서 교정을 조작하기 위해 사용될 수 있다. 상기 유전자 표적화를 위한 효율적인 방법은 달성하기 어려웠다.

속 산토모나스 (Xanthomonas)에서의 식물 병원성 세균의 TAL 이펙터는 질환에서 중요한 역할을 하거나, 또는 숙주 DNA에 결합하고, 이펙터-특이적 숙주 유전자를 활성화시킴으로써 방어를 촉발시킨다 (예를 들어, 문헌 [Gu et al. (2005) Nature 435:1122]; [Yang et al. (2006) Proc. Natl. Acad. Sci. USA 103:10503]; [Kay et al. (2007) Science 318:648]; [Sugio et al. (2007) Proc. Natl. Acad. Sci. USA 104:10720]; 및 [Romer et al. (2007) Science 318:645]를 참조함). 특이성은 불완전한, 전형적으로 34개 아미노산 반복물의 이펙터-가변 수에 의존한다 (문헌 [Schornack et al. (2006) J. Plant Physiol. 163:256]). 다형태는 주로 본원에 반복 가변-이중잔기 (RVD)로서 지칭된 반복 위치 12 및 13에 존재한다.

본 발명은 TAL 이펙터의 RVD는 1개 RVD 대 1개 뉴클레오티드의 직접적인, 선형 방식으로 일부 동의성을 갖고, 명백한 맥락 의존 없이 그들의 표적 부위의 뉴클레오티드에 상응한다는 사실을 부분적으로 기반으로한다. 이 놀라운 발견은 새로운 표적 특이적 TAL 이펙터에 대한 표적 부위 예측을 가능하게 하는 단백질-DNA 인식을 위한 신규한 기전을 나타낸다. 본원에 기재된 바와 같이, 이들 단백질은 게놈 조작에서 상동성 재조합을 용이하게 할 수 있는 표적화된 키메라 뉴클레아제로서 연구 및 생명공학에 유용할 수 있다 (예를 들어, 식물에서 바이오연료 또는 바이오재생품 (biorenewables)에 대해 유용한 특성을 첨가하거나 또는 증대시키기 위함). 이들 단백질은 또한 예를 들어, 전사 인자로서, 그리고 특히 매우 높은 수준의 특이성을 요구하는 치료적 적용, 예를 들어 비제한적인 예로서 병원체 (예를 들어, 바이러스)에 대한 치료제로서 유용할 수 있다.

하나의 측면에서, 본 발명은 (a) 표적 DNA 서열을 함유하는 세포를 제공하는 단계; 및 (b) (i) 이중 가닥 DNA를 변형시킬 수 있는 DNA 변형 효소 도메인, 및 (ii) 표적 DNA 서열에서 특정 뉴클레오티드 서열에 조합으로 결합하는 다수의 전사 활성화제-유사 (TAL) 이펙터 반복 서열을 포함하는 TAL 이펙터 도메인을 포함하는 TAL 이펙터-DNA 변형 효소를 세포 내로 도입시켜 TAL 이펙터-DNA 변형 효소가 세포 또는 그의 자손에서 특정 뉴클레오티드 서열 내 또는 그에 인접한 표적 DNA를 변형시키는 단계를 포함하는, 세포의 유전 물질을 변형시키는 방법을 특징으로 한다. 방법은 표적 DNA 서열의 적어도 일부분에 상동성인 서열을 포함하는 핵산을 세포에 제공하여 상동성 재조합이 표적 DNA 서열과 핵산 사이에 일어나도록 하는 단계를 추가로 포함할 수 있다. 세포는 진핵생물 세포, 포유동물 세포, 식물 세포, 또는 원핵생물 세포일 수 있다. 표적 DNA는 염색체 DNA일 수 있다. 도입은 TAL 이펙터-DNA 변형 효소를 코딩하는 벡터로 세포를 형질감염시킴, 단백질로서 TAL 이펙터-DNA 변형 효소를 세포 내로 기계적으로 주입함, 박테리아 유형 III 분비 시스템에 의해 단백질로서 TAL 이펙터-DNA 변형 효소를 세포 내로 전달함, 또는 전기천공에 의해 단백질로서 TAL 이펙터-DNA 변형 효소를 세포 내로 도입함을 포함할 수 있다. DNA 변형 효소는 엔도뉴클레아제 (예를 들어, 유형 II 제한 엔도뉴클레아제, 예를 들어 FokI)일 수 있다.

표적 DNA 내의 특정 뉴클레오티드 서열에 결합하는 TAL 이펙터 도메인이 10개 이상의 DNA 결합 반복물, 및 바람직하게는 15개 이상의 DNA 결합 반복물을 포함할 수 있다. 각각의 DNA 결합 반복물은 표적 DNA 서열에서 염기쌍의 인식을 결정하는 반복 가변-이중잔기 (RVD)를 포함하며 표적 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 RVD는 C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N* (여기서, *는 RVD의 제2 위치에서의 갭을 나타냄); T를 인식하기 위한 HG; T를 인식하기 위한 H* (여기서, *는 RVD의 제2 위치에서의 갭을 나타냄); T를 인식하기 위한 IG; G를 인식하기 위한 NK; C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; 및 T를 인식하기 위한 YG 중 하나 이상을 포함할 수 있다. 각각의 DNA 결합 반복물은 표적 DNA 서열에서 염기쌍의 인식을 결정하는 RVD를 포함하며 표적 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 RVD는 C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; T를 인식하기 위한 YG; 및 G를 인식하기 위한 NK 중 하나 이상을 포함하고, C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N* (여기서, *는 RVD의 제2 위치에서의 갭을 나타냄); T를 인식하기 위한 HG; T를 인식하기 위한 H* (여기서, *는 RVD의 제2 위치에서의 갭을 나타냄); 및 T를 인식하기 위한 IG 중 하나 이상을 포함할 수 있다.

또다른 측면에서, 본 발명은 (1) 선택된 뉴클레오티드 서열의 제1 뉴클레오티드에 특이적인 반복 가변-이중잔기 (RVD)를 갖는 제1 TAL 이펙터 DNA 결합 반복 도메인을 코딩하는 뉴클레오티드 서열을 포함하는 스타터 플라스미드를 PspXI로 선형화하며, 상기 제1 TAL 이펙터 DNA 결합 반복 도메인은 그의 3' 말단에서 고유 PspXI 부위를 갖는 것인 단계; (2) 선택된 뉴클레오티드 서열의 다음 뉴클레오티드(들)에 특이적인 RVD를 갖는 하나 이상의 TAL 이펙터 DNA 결합 반복 도메인을 코딩하는 DNA 모듈을 스타터 플라스미드 PspXI 부위에 라이게이션하며, 상기 DNA 모듈은 XhoI 점성 말단을 갖는 것인 단계; 및 (3) 핵산이 선택된 뉴클레오티드 서열에 결합할 수 있는 TAL 이펙터를 코딩할 때까지 단계 (1) 및 (2)를 반복하는 단계를 포함하는, 선택된 뉴클레오티드 서열에 특이적인 TAL 이펙터를 코딩하는 핵산을 생성시키는 방법을 특징으로 한다. 방법은 라이게이션 후 PspXI 부위에서 DNA 모듈의 배향을 결정하는 단계를 추가로 포함할 수 있다. 방법은 단계 (1) 및 (2)를 1회 내지 30회 반복하는 단계를 추가로 포함할 수 있다.

또다른 측면에서, 본 발명은 (a) 세포의 게놈에서 제1 뉴클레오티드 서열을 확인하는 단계; 및 (b) (i) 제1 고유 뉴클레오티드 서열에 조합으로 결합하는 다수의 DNA 결합 반복물, 및 (ii) 제1 뉴클레오티드 서열 내 또는 그에 인접한 위치에서 이중 가닥 절단을 생성시키는 엔도뉴클레아제를 포함하는 전사 활성화제-유사 이펙터 엔도뉴클레아제 (TALEN)를 코딩하는 핵산을 합성하는 단계를 포함하며, 상기 각각의 DNA 결합 반복물은 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 포함하며 표적 DNA에서 1개의 염기쌍의 인식을 담당하고, 상기 TALEN은 하기 RVD: C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N*; T를 인식하기 위한 HG; T를 인식하기 위한 H*; T를 인식하기 위한 IG; G를 인식하기 위한 NK; C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; 및 T를 인식하기 위한 YG 중 하나 이상을 포함하는, TALEN을 코딩하는 핵산을 생성시키는 방법을 특징으로 한다.

TALEN은 하기 RVD: C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; T를 인식하기 위한 YG; 및 G를 인식하기 위한 NK 중 하나 이상을 포함하고, C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N*; T를 인식하기 위한 HG; T를 인식하기 위한 H*; 및 T를 인식하기 위한 IG 중 하나 이상을 포함할 수 있다.

제1 뉴클레오티드 서열은 하기 기준 중 적어도 하나를 충족할 수 있다: i) 최소 15개의 염기 길이이고, 5'에서 3'로 배향되며, 이때 T는 5' 말단에서의 부위 바로 앞에 존재함; ii) 제1 (5') 위치에 T를 갖지 않거나 제2 위치에 A를 갖지 않음; iii) 최종 (3') 위치에서 T로 끝나고 최종 위치 옆에 G를 갖지 않음; 및 iv) 0 내지 63％ A, 11 내지 63％ C, 0 내지 25％ G, 및 2 내지 42％ T의 염기 조성을 가짐.

방법은 세포의 게놈에서 제1 뉴클레오티드 서열 및 제2 뉴클레오티드 서열을 확인하는 단계를 포함하며, 상기 제1 및 제2 뉴클레오티드 서열은 상기 기재된 기준 중 적어도 하나를 충족하고 15 내지 18개의 염기쌍에 의해 분리되는 것을 포함할 수 있다. 엔도뉴클레아제는 제1 및 제2 뉴클레오티드 서열 사이의 이중 가닥 절단을 생성시킬 수 있다.

또다른 실시양태에서, 본 발명은 엔도뉴클레아제 도메인 및 표적 DNA에 특이적인 TAL 이펙터 DNA 결합 도메인을 포함하고, 하기 RVD: C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N*; T를 인식하기 위한 HG; T를 인식하기 위한 H*; T를 인식하기 위한 IG; G를 인식하기 위한 NK; C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; 및 T를 인식하기 위한 YG 중 하나 이상을 포함하며, 상기 DNA 결합 도메인은 다수의 DNA 결합 반복물을 포함하고, 각각의 DNA 결합 반복물은 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 포함하며 표적 DNA에서 1개의 염기쌍의 인식을 담당하는 것인 TALEN을 특징으로 한다. TALEN은 하기 RVD: C를 인식하기 위한 HA; C를 인식하기 위한 ND; C를 인식하기 위한 HI; G를 인식하기 위한 HN; G를 인식하기 위한 NA; G 또는 A를 인식하기 위한 SN; T를 인식하기 위한 YG; 및 G를 인식하기 위한 NK 중 하나 이상을 포함할 수 있고, C를 인식하기 위한 HD; T를 인식하기 위한 NG; A를 인식하기 위한 NI; G 또는 A를 인식하기 위한 NN; A 또는 C 또는 G 또는 T를 인식하기 위한 NS; C 또는 T를 인식하기 위한 N*; T를 인식하기 위한 HG; T를 인식하기 위한 H*; 및 T를 인식하기 위한 IG 중 하나 이상을 포함할 수 있다. 엔도뉴클레아제 도메인은 유형 II 제한 엔도뉴클레아제 (예를 들어, FokI)로부터 유래된 것일 수 있다.

또다른 측면에서, 본 발명은 엔도뉴클레아제 도메인 및 TAL 이펙터 도메인을 포함하며, 아미노산 서열이 서열 33 내지 서열 55, 서열 72 및 서열 73으로 이루어진 군으로부터 선택된 것인 TALEN을 특징으로 한다.

본 발명은 또한 유전자 변형의 도입이 필요한 표적 DNA 서열을 포함하는 진핵생물 세포를 제공하는 단계; 엔도뉴클레아제 도메인 및 표적 DNA 서열에 결합하는 TAL 이펙터 도메인을 포함하는 TALEN으로 표적 DNA 서열 내의 이중 가닥 전단을 생성시키는 단계; 및 이중 가닥 절단이 일어난 세포 또는 그의 자손으로부터 동물을 생성시키는 단계를 포함하는, 동물을 생성시키는 방법을 특징으로 한다. 방법은 표적 DNA의 적어도 일부분에 상동성인 서열을 포함하는 외인성 핵산을 세포 내로 도입하며, 이때 도입은 세포 또는 그의 자손에서 외인성 핵산과 표적 DNA 서열 사이에 상동성 재조합이 일어나도록 하는 조건 하에서 이루어지는 것인 단계; 및 상동성 재조합이 일어난 세포 또는 그의 자손으로부터 동물을 생성시키는 단계를 추가로 포함할 수 있다. 동물은 포유동물일 수 있다. 유전적 변형은 치환, 삽입, 또는 결실을 포함할 수 있다.

또다른 측면에서, 본 발명은 예비선택된 유전자 변형의 도입이 필요한 표적 DNA 서열을 포함하는 식물 세포를 제공하는 단계; 엔도뉴클레아제 도메인 및 표적 DNA 서열에 결합하는 TAL 이펙터 도메인을 포함하는 TALEN으로 표적 DNA 서열 내의 이중 가닥 절단을 생성시키는 단계; 및 이중 가닥 절단이 일어난 세포 또는 그의 자손으로부터 식물을 생성시키는 단계를 포함하는, 식물을 생성시키는 방법을 특징으로 한다. 방법은 표적 DNA 서열의 적어도 일부분에 상동성인 서열을 포함하는 외인성 핵산을 식물 세포 내로 도입하며, 이때 도입은 세포 또는 그의 자손에서 외인성 핵산과 표적 DNA 서열 사이에 상동성 재조합이 일어나도록 하는 조건 하에서 이루어지는 것인 단계; 및 상동성 재조합이 일어난 세포 또는 그의 자손으로부터 식물을 생성시키는 단계를 추가로 포함할 수 있다.

또다른 측면에서, 본 발명은 선택된 DNA 표적 서열을 표적으로 하는 TAL 이펙터 엔도뉴클레아제를 코딩하는 핵산을 세포 내로 도입하는 단계; 세포 내에서 TAL 이펙터 엔도뉴클레아제의 발현을 유도하는 단계; 및 선택된 DNA 표적 서열이 돌연변이를 나타내는 세포를 확인하는 단계를 포함하는, 세포에서의 표적화된 유전자 재조합 방법을 특징으로 한다. 돌연변이는 유전 물질의 결실, 유전 물질의 삽입, 및 유전 물질의 결실 및 삽입 둘 다로 이루어진 군으로부터 선택될 수 있다. 방법은 세포 내로 공여자 DNA를 도입하는 단계를 추가로 포함할 수 있다. 세포는 곤충 세포, 식물 세포, 어류 세포, 또는 포유동물 세포일 수 있다.

또다른 측면에서, 본 발명은 다수의 DNA 결합 반복물을 갖는 DNA 결합 도메인을 포함하는 TAL 이펙터를 코딩하는 핵산을 생성시키는 단계를 포함하며, 상기 각각의 DNA 결합 반복물은 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 포함하며 표적 DNA에서 1개의 염기쌍의 인식을 담당하고, 상기 생성은 A, C 또는 G에 대한 특이성을 갖는 변이 0번째 DNA 결합 반복 서열을 코딩하는 핵산을 혼입시켜 결합 부위의 -1 위치에서 T에 대한 요구를 제거하는 것인, 표적 DNA에 대한 향상된 표적화 능력을 갖는 TAL 이펙터를 생성시키는 방법을 특징으로 한다.

또다른 측면에서, 본 발명은 다수의 DNA 결합 반복물을 갖는 DNA 결합 도메인을 포함하는 TAL 이펙터를 코딩하는 핵산을 생성시키는 단계를 포함하며, 상기 각각의 DNA 결합 반복물은 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 포함하며 표적 DNA에서 1개의 염기쌍의 인식을 담당하고, 상기 생성은 G에 대한 향상된 특이성을 갖는, RN, R*, NG, NH, KN, K*, NA, NT, DN, D*, NL, NM, EN, E*, NV, NC, QN, Q*, NR, NP, HN, H*, NK, NY, SN, S*, ND, NW, TN, T*, NE, NF, YN, Y*, 및 NQ (여기서, *은 RVD의 제2 위치에서의 갭을 나타냄)로 이루어진 군으로부터 선택된 RVD를 함유하는 TAL 이펙터 DNA 결합 도메인을 코딩하는 하나 이상의 핵산을 혼입시킴을 포함하는 것인, 표적 DNA에 대한 향상된 표적화 능력을 갖는 TAL 이펙터를 생성시키는 방법을 특징으로 한다.

본 발명은 또한 전사 활성화제-유사 (TAL) 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하는 폴리펩티드를 합성하는 단계를 포함하며, 상기 반복 단위는 표적 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 초가변 영역은 (a) C/G의 인식을 위한 HD; (b) A/T의 인식을 위한 NI; (c) T/A의 인식을 위한 NG; (d) C/G 또는 A/T 또는 T/A 또는 G/C의 인식을 위한 NS; (e) G/C 또는 A/T의 인식을 위한 NN; (f) T/A의 인식을 위한 IG; (g) C/G의 인식을 위한 N; (h) C/G 또는 T/A의 인식을 위한 HG; (i) T/A의 인식을 위한 H; 및 (j) G/C의 인식을 위한 NK로 이루어진 군으로부터 선택된 구성원을 포함하는 것인, 표적 DNA 서열에서 1개 이상의 염기쌍을 선택적으로 인식하는 폴리펩티드를 제조하는 방법을 특징으로 한다. 또한, 본 발명은 상기 방법에 의해 제조된 폴리펩티드, 및 상기 방법에 의해 제조된 폴리펩티드에 대한 코딩 서열을 포함하는 DNA를 특징으로 한다. 또한 상기-언급된 DNA에 작동가능하게 연결된 프로모터를 포함하는 발현 카세트, 및 발현 카세트를 포함하는 비-인간 숙주 세포를 특징으로 한다. 또다른 측면에서, 본 발명은 발현 카세트를 포함하는, 형질전환된 비-인간 유기체를 특징으로 한다.

또다른 측면에서, 본 발명은 TAL 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하는 폴리펩티드를 제작하는 단계를 포함하며, 상기 반복 단위는 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 초가변 영역은 (a) C/G의 인식을 위한 HD; (b) A/T의 인식을 위한 NI; (c) T/A의 인식을 위한 NG; (d) C/G 또는 A/T 또는 T/A 또는 G/C의 인식을 위한 NS; (e) G/C 또는 A/T의 인식을 위한 NN; (f) T/A의 인식을 위한 IG; (g) C/G의 인식을 위한 N; (h) C/G 또는 T/A의 인식을 위한 HG; (i) T/A의 인식을 위한 H; 및 (j) G/C의 인식을 위한 NK로 이루어진 군으로부터 선택된 구성원을 포함하는 것인, 폴리펩티드에 의해 DNA 서열에서 염기쌍을 선택적으로 인식하는 방법을 특징으로 한다.

본 발명은 또한 TAL 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하는 폴리펩티드를 함유하는 세포를 제공하며, 상기 반복 단위는 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 초가변 영역은 (a) C/G의 인식을 위한 HD; (b) A/T의 인식을 위한 NI; (c) T/A의 인식을 위한 NG; (d) C/G 또는 A/T 또는 T/A 또는 G/C의 인식을 위한 NS; (e) G/C 또는 A/T의 인식을 위한 NN; (f) T/A의 인식을 위한 IG; (g) C/G의 인식을 위한 N; (h) C/G 또는 T/A의 인식을 위한 HG; (i) T/A의 인식을 위한 H; 및 (j) G/C의 인식을 위한 NK로 이루어진 군으로부터 선택된 구성원을 포함하는 것인, 세포에서 표적 유전자의 발현을 조절하는 방법을 특징으로 한다.

또다른 측면에서, 본 발명은 TAL 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하며, 상기 반복 단위는 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 초가변 영역은 (a) C/G의 인식을 위한 HD; (b) A/T의 인식을 위한 NI; (c) T/A의 인식을 위한 NG; (d) C/G 또는 A/T 또는 T/A 또는 G/C의 인식을 위한 NS; (e) G/C 또는 A/T의 인식을 위한 NN; (f) T/A의 인식을 위한 IG; (g) C/G의 인식을 위한 N; (h) C/G 또는 T/A의 인식을 위한 HG; (i) T/A의 인식을 위한 H; 및 (j) G/C의 인식을 위한 NK로 이루어진 군으로부터 선택된 구성원을 포함하는 것인, 폴리펩티드를 특징으로 한다. 본 발명은 또한 상기-언급된 폴리펩티드에 대한 코딩 서열을 포함하는 DNA를 특징으로 한다.

또다른 측면에서, 본 발명은 TAL 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하는 폴리펩티드에 의해 염기쌍이 특이적으로 인식될 수 있게 표적 DNA 서열에 위치한 염기쌍을 포함하도록 변형되며, 상기 반복 단위는 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 초가변 영역에 의한 선택적 및 결정적 인식을 받기 위해 염기쌍은 (a) HD에 의해 인식되는 C/G; (b) NI에 의해 인식되는 A/T; (c) NG에 의해 인식되는 T/A; (d) NS에 의해 인식되는 CT 또는 A/T 또는 T/A 또는 G/C; (e) NN에 의해 인식되는 G/C 또는 A/T; (f) IG에 의해 인식되는 T/A; (g) N에 의해 인식되는 C/G 또는 T/A; (h) HG에 의해 인식되는 T/A; (i) H에 의해 인식되는 T/A; 및 (j) NK에 의해 인식되는 G/C로 이루어진 군으로부터 선택된 것인, DNA를 특징으로 한다. 또한 상기-언급된 DNA를 포함하는 벡터, DNA를 포함하는 비-인간 숙주 세포, 및 DNA를 포함하는, 형질전환된 비-인간 유기체를 특징으로 한다.

또다른 측면에서, 본 발명은 TAL 이펙터로부터 유래된 1개 이상의 반복 단위를 포함하는 반복 도메인을 포함하는 폴리펩티드에 의해 선택적으로 인식되는 표적 DNA 서열을 포함하는 DNA를 제조하는 방법이며, 상기 반복 단위는 표적 DNA 서열에서 염기쌍의 인식을 결정하는 초가변 영역을 포함하며 표적 DNA 서열에서 1개의 염기쌍의 인식을 담당하고, 상기 방법은 (a) HD에 의해 인식되는 C/G; (b) NI에 의해 인식되는 A/T; (c) NG에 의해 인식되는 T/A; (d) NS에 의해 인식되는 CT 또는 A/T 또는 T/A 또는 G/C; (e) NN에 의해 인식되는 G/C 또는 A/T; (f) IG에 의해 인식되는 T/A; (g) N에 의해 인식되는 C/G 또는 T/A; (h) HG에 의해 인식되는 T/A; (i) H에 의해 인식되는 T/A; 및 (j) NK에 의해 인식되는 G/C로 이루어진 군으로부터 선택된, 반복 단위에 의해 인식될 수 있는 염기쌍을 포함하는 DNA를 합성하는 단계를 포함하는 것인, 제조 방법을 특징으로 한다.

또다른 측면에서, 본 발명은 식물 세포의 유전 물질을 변형시키기 위한 방법을 특징으로 한다. 방법은 (a) 식물 세포에 (i) 식물 세포에 존재하는 상응하는 표적 뉴클레오티드 서열에 대한 뉴클레오티드 서열의 하나 이상의 변형을 포함하는 변형된 표적 뉴클레오티드 서열을 포함하는 제1 재조합 핵산을 도입시키는 단계 (여기서 표적 뉴클레오티드 서열은 서열-특이적 TAL 이펙터 엔도뉴클레아제 (TALEN)에 대한 인식 부위를 추가로 포함함); (ii) 서열-특이적 전사 활성화제-유사 (TAL) 이펙터 엔도뉴클레아제를 코딩하는 뉴클레오티드 서열을 포함하는 제2 재조합 핵산을 도입시키는 단계; (b) 식물 세포를 함유하는 식물을 생성하는 단계; (c) 표적 뉴클레오티드 서열에서의 재조합에 대해 식물, 또는 그의 자손으로부터 수득된 세포, 종자, 또는 조직을 분석하는 단계를 포함할 수 있다. 방법은 식물 세포에 (iii) 선별 마커를 코딩하는 뉴클레오티드 서열을 포함하는 제3 재조합 핵산을 도입하는 단계; 및 식물 또는 그의 자손이 선별 마커를 발현하는지 결정하는 단계를 추가로 포함할 수 있다. 방법은 선별 마커의 부재에 대해 식물 또는 그의 자손을 스크리닝하는 단계를 추가로 포함할 수 있다. 선별 마커를 코딩하는 뉴클레오티드 서열은 식물 세포에 대해 내인성인 서열에 유사하거나 또는 동일한 서열의 한 측면 또는 두 측면 모두에 위치하거나 또는 위치하지 않을 수 있다 (예를 들어, 제2 서열-특이적 뉴클레아제에 대한 절단 부위의 서열). 선별 마커를 코딩하는 뉴클레오티드 서열은 서열-특이적 재조합효소에 대한 인식 부위의 두 측면 모두에 위치할 수 있다. 방법은 선별 마커의 부재에 대해 이종 교배의 자손을 스크리닝하는 단계를 포함하거나 또는 포함하지않고 식물을 이종 교배시키는 단계를 추가로 포함할 수 있다. 제1 및 제2 재조합 핵산은 식물 세포에 동시에 도입될 수 있다. 하나 또는 두 개 모두의 재조합 핵산은 도입 단계 전에 선형화될 수 있다. 제1 및 제2 재조합 핵산은 동일 구조체 내에 존재할 수 있다.

또다른 측면에서, 본 발명은 세포의 유전 물질을 변형하기 위한 또다른 방법을 특징으로 한다. 상기 방법은 상동성 재조합 발생을 목적으로 하는 염색체 표적 DNA 서열을 함유하는 1차 세포를 제공하는 것, 이중 가닥 DNA를 절단할 수 있는 엔도뉴클레아제 도메인을 포함하는 TALEN, 및 세포에서 표적 DNA 내의 특정 뉴클레오티드 서열에 조합으로 결합하는 다수의 TAL 이펙터 반복 서열을 포함하는 TAL 이펙터 도메인을 제공하는 것; 및 TALEN이 세포에서 표적 DNA 서열 내부 또는 표적 DNA 서열에 인접한 뉴클레오티드 서열의 가닥 모두를 절단하도록 세포에서 TALEN과 표적 DNA 서열을 접촉시키는 것을 포함할 수 있다. 상기 방법은 또한 상동성 재조합이 표적 DNA 서열 및 핵산 사이에서 발현하도록 적어도 표적 DNA의 일부와 상동성인 서열을 포함하는 핵산을 제공하는 것을 포함할 수 있다. 상기 표적 DNA 서열은 세포에 대해서 내인성일 수 있다. 세포는 식물 세포, 포유동물 세포, 생선 세포, 곤충 세포 또는 시험관내 배양을 위해 이들 유기체로부터 유래된 세포주 또는 살아있는 조직으로부터 직접 흡수된 1차 세포 및 시험관내 배양을 위해 수립된 세포일 수 있다. 접촉은 TALEN 코딩 서열을 포함하는 벡터로 세포를 형질감염시키는 것, 및 세포에서 TALEN 단백질을 발현시키는 것, 세포로 TALEN 단백질을 기계적으로 주입하는 것, 박테리아 유형 III 분비 시스템을 사용하여 세포로 TAL 이펙터 엔도뉴클레아제 단백질을 전달하는 것, 또는 전기천공에 의해서 세포로 TALEN 단백질을 도입하는 것을 포함할 수 있다. 엔도뉴클레아제 도메인은 유형 II 제한 엔도뉴클레아제 (예를 들어, FokI)로부터 유래할 수 있다. 표적 DNA 내에서 특정 뉴클레오티드 서열에 결합하는 TAL 이펙터 도메인은 10 이상의 DNA 결합 반복물, 보다 바람직하게는 15 이상의 DNA 결합 반복물을 포함할 수 있다. 세포는 임의의 원핵 또는 진핵 유기체로부터 유래할 수 있다.

또다른 측면에서, 본 발명은 특이적 위치에서 DNA를 절단할 수 있는 서열 특이적 TALEN를 고안하기 위한 방법을 특징으로 한다. 상기 방법은 이중 가닥 절단을 도입하는 것을 목적으로 하는 제2 뉴클레오티드 서열에 인접한 제1 고유 내인성 염색체 뉴클레오티드 서열을 확인하는 것; 및 (a) 제1 고유 내인성 염색체 뉴클레오티드 서열에 조합으로 결합하는 다수의 DNA 결합 반복 도메인, 및 (b) 제2 뉴클레오티드 서열에서 이중 가닥 절단을 생성하는 엔도뉴클레아제를 포함하는 서열 특이적 TALEN을 고안하는 것을 포함할 수 있다.

본 발명은 또한 특정한 DNA 서열에 대해서 특이적인 TAL 이펙터 DNA 결합 도메인 및 엔도뉴클레아제 도메인을 포함하는 TALEN을 특징으로 한다. TALEN은 또한 정제 태그를 포함할 수 있다. 엔도뉴클레아제 도메인은 유형 II 제한 엔도뉴클레아제 (예를 들어, FokI)로부터 유래할 수 있다.

또다른 측면에서, 본 발명은 목적한 핵산이 도입되는, 유전적으로 변형된 동물을 생성하기 위한 방법을 특징으로 한다. 상기 방법은 핵산 도입을 목적으로 하는 내인성 염색체 표적 DNA 서열을 포함하는 1차 세포를 제공하는 것; 내인성 염색체 표적 DNA 서열에 결합하는 TAL 이펙터 도메인 및 엔도뉴클레아제 도메인을 포함하는 TALEN을 갖는 내인성 염색체 표적 DNA 서열 내에서 이중 가닥 절단을 생성하는 것; 상동성 재조합이 외인성 핵산 및 내인성 염색체 표적 DNA 사이에서 발생하는 것을 허용하는 조건 하에서 적어도 내인성 염색체 표적 DNA의 일부와 상동성인 서열을 포함하는 외인성 핵산을 1차 세포로 도입하는 것; 및 상동성 재조합이 발생하는 1차 세포로부터 동물을 생성하는 것을 포함할 수 있다. 동물은 포유동물일 수 있다. 동종 서열은 상동성 재조합 후 유전자를 방해하는 뉴클레오티드 서열, 상동성 재조합 후 유전자를 대체하는 뉴클레오티드 서열, 상동성 재조합 후 점 돌연변이를 유전자로 도입하는 뉴클레오티드 서열 및 상동성 재조합 후 조절 부위를 도입하는 뉴클레오티드 서열로 이루어진 군으로부터 선택된 뉴클레오티드 서열일 수 있다.

또다른 측면에서, 본 발명은 목적한 핵산이 도입되는, 유전적으로 변형된 식물을 생성하기 위한 방법을 특징으로 한다. 상기 방법은 핵산 도입을 목적으로 하는 내인성 표적 DNA 서열을 포함하는 식물 세포를 제공하는 것; 내인성 표적 뉴클레오티드 서열에 결합하는 TAL 이펙터 도메인 및 엔도뉴클레아제 도메인을 포함하는 TALEN을 갖는 내인성 표적 DNA 서열 내에서 이중 가닥 절단을 생성하는 것; 상동성 재조합이 외인성 핵산 및 내인성 표적 DNA 사이에서 발생하는 것을 허용하는 조건 하에서 적어도 내인성 표적 DNA의 일부와 상동성인 서열을 포함하는 외인성 핵산을 식물 세포로 도입하는 것; 및 상동성 재조합이 발생하는 식물 세포로부터 식물을 생성하는 것을 포함할 수 있다.

또다른 측면에서, 본 발명은 세포에서 표적화된 유전자 재조합에 대한 방법을 특징으로 한다. 상기 방법은 선택된 DNA 표적 서열에 표적화된 TALEN을 코딩하는 핵산 분자를 세포로 도입하는 것; 세포 내에서의 TALEN의 발현을 유도하는 것; 및 선택된 DNA 표적 서열이 돌연변이를 나타내는 세포를 확인하는 것을 포함할 수 있다. 돌연변이는 유전 물질의 결실, 유전 물질의 삽입, 및 유전 물질의 결실 및 삽입 둘 다로 이루어진 군으로부터 선택될 수 있다. 상기 방법은 또한 공여자 DNA를 세포로 도입하는 것을 포함할 수 있다. 세포는 곤충 세포, 식물 세포, 생선 세포, 또는 포유동물 세포일 수 있다.

또다른 측면에서, 본 발명은 (1) 선택된 뉴클레오티드 서열의 제1 뉴클레오티드에 대해 특이적인 RVD를 갖는 제1 TAL 이펙터 DNA 결합 반복 도메인 (여기서 제1 TAL 이펙터 DNA 결합 반복 도메인은 그의 3' 말단에서 고유 PspXI 부위를 갖음)을 코딩하는 뉴클레오티드 서열을 포함하는 스타터 플라스미드를 선택하는 단계; (2) PspXI로 스타터 플라스미드를 선형화하는 단계; (3) 선택된 뉴클레오티드 서열의 다음 뉴클레오티드(들)에 대해 특이적인 RVD를 갖는 하나 이상의 TAL 이펙터 DNA 결합 반복 도메인을 코딩하는 DNA 모듈 (여기서 DNA 모듈은 XhoI 점착성 말단을 가짐)을 PspXI 부위로 라이게이션하는 단계; 및 (4) 핵산이 선택된 뉴클레오티드 서열에 결합할 수 있는 TALEN을 코딩할 때까지 단계 (2) 및 (3)을 반복하는 단계를 포함하는 서열 특이적 TALEN을 코딩하는 핵산을 생성하기 위한 방법을 특징으로 한다. 일부 경우에서, 상기 방법은 또한 단계 (3)에서 라이게이션한 다음, PspXI 부위에서 DNA 모듈의 배향을 검사하는 단계를 포함할 수 있다.

달리 정의되지 않는다면, 본원에 사용된 모든 기술 및 과학 용어는 본 발명과 관련되는 당업자에 의해서 통상적으로 이해되는 것과 동일한 의미를 갖는다. 본원에 기재된 것들과 유사하거나 또는 등가의 물질 및 방법이 본 발명을 수행하기 위해 사용될 수 있지만, 적합한 방법 및 물질이 하기에 기재되어 있다. 본원에 언급된 모든 공보, 특허 출원, 특허, 및 다른 참고문헌은 그의 전문이 참고로 포함되어 있다. 충돌하는 경우에, 정의를 비롯한 본 명세서에 의해 조절될 것이다. 또한 물질, 방법 및 예가 예시로만 되어 있고, 제한하기 위함은 아니다.

본 발명의 하나 이상의 실시양태의 세부사항은 하기 첨부되어 있는 도 및 기술에 나타나 있다. 본 발명의 다른 특징, 목적 및 이점은 기술 및 도로부터, 및 청구항으로부터 명백할 것이다.

도 1a 내지 1d는 TAL 이펙터-DNA 인식 암호를 도시한다. 도 1a는 반복 영역 (오픈 박스), 및 RVD를 밑줄친 대표적 반복 서열 (서열 1)을 나타낸 총칭적 TAL 이펙터의 다이아그램이다. 도 1b는 다양한 TAL 이펙터 RVD 및 표적 유전자 프로모터 서열 (서열 2 내지 11)에 대한 최상의 패턴 매치 (낮은 엔트로피 정렬)를 보여주는 다이아그램이다. 별표 (*)는 잔기 13에서의 결실을 나타낸다. 도 1c는 B의 정렬, 및 모든 벼 프로모터를 40 개의 추가의 산토모나스 오리자에(X. oryzae) TAL 이펙터로 스캐닝하여 얻어진 추가 10 개 정렬에서, 각각의 이펙터에 대해 감염 동안 하류 유전자가 활성화되는 최상의 정렬을 유지하는 RVD-뉴클레오티드 연합을 보여주는 다이아그램이다. 도 1d는 20 개의 TAL 이펙터 표적 부위에 대한 플랭킹 뉴클레오티드 빈도를 보여주는 다이아그램이다. 위치는 표적 부위의 5' 말단에 대한 것이고, N은 표적 부위의 길이이다. 로고(Logo)는 웹로고(WebLogo)를 사용하여 얻었다.
도 2a 및 2b는 OsHen1이 산토모나스 오리자에 속 오리지콜라(oryzicola) 균주 BLS256의 Tal1c에 의해 활성화되는 증거를 제공한다. 도 2a는 BLS256 마커 교환 돌연변이체 M51, 공란의 코스미드 벡터 (ev)를 보유하는 M51, tal1a, tal1b 및 tal1c를 함유하는 코스미드 pIJF92를 보유하는 M51, 및 야생형 (WT) 균주와 함께 접종한지 24시간 후, 벼 잎에서 참고용 액틴 유전자와 비교하여 OsHen1의 전사체 과다를 보여주는 반-정량 RT-PCR 결과의 영상이다. 도 2b는 마커-함유 XmaI 단편의 구조 및 말단 서열결정에 의해 M51에서의 단일 마커 교환 돌연변이의 맵핑(mapping)을 기재로 한 개략도이다. 코스미드 pIJF92에 함유된 게놈 영역, 구조된 단편의 배위 및 BLS256 게놈 단편의 배위를 제시한다.
도 3은 참고용 AvrBs3 아미노산 서열 (서열 12)이다.
도 4는 참고용 AvrBs3 핵산 서열 (서열 13)이다.
도 5는 TAL 뉴클레아제 발현 벡터의 맵(map)이다.
도 6은 표적 리포터 플라스미드의 맵이다.
도 7은 TAL 뉴클레아제의 구성양식의 개략도이다. TAL DNA 결합 도메인의 인식 부위는 대문자로 나타내어지고, 스페이서 서열은 소문자로 나타낸다.
도 8은 AvrBs3 인식 도메인의 17개 및 반쪽의 탠덤(tandem) 반복물의 아미노산 서열 (서열 31)이다. 위치 12 및 13에서의 초가변 아미노산을 네모 칸으로 표시하였다.
도 9는 TAL 효과를 시험하기 위한 효모 검정에 대한 반응식을 나타낸 다이아그램이다.
도 10은 AvrBs3 TAL 뉴클레아제의 효모 검정 결과를 나타낸 도표이다.
도 11은 단일, 이중 또는 삼중 AsvBs3 반복 모듈 및 클로닝 벡터의 개략적인 대표도를 보여주는 다이아그램이다.
도 12a 및 12b는 대표적인 단일 TAL 이펙터 반복물 (도 12a), 및 대부분의 TAL 이펙터에서 반복 영역의 말단에 존재하는 대표적인 절단형(truncated) 반복물 (도 12b)을 도시한다. 뉴클레오티드 및 코딩된 아미노산 서열은 제시된 바와 같다. N은 RVD를 코딩하는 뉴클레오티드를 나타내며, 이는 "XX"로 제시된다. 숫자는 아미노산 위치에 대해 부여된다. 서열은 tal1c로부터 취해진다.
도 13은 tal1c 유전자, 및 반복 영역이 단일의 절단형 반복물로 감소되어 M, MscI 부위; S, SphI 부위도 또한 제시한 pCS487을 야기하는 프로세스를 도시하는 개략도이다.
도 14는 pCS487의 최초의 절단형 반복물의 말단에 번역에 의해 침묵 돌연변이를 도입하여 PspXI 및 XhoI 부위를 생성하여 pCS489를 얻는 것을 도시하는 개략도이다. 최초 반복물 (서열 21) 및 돌연변이된 반복물 (서열 23)에서의 코돈 18-21의 서열을 나타내었다. 코딩된 아미노산 서열 (서열 22)은 돌연변이에 의해 변화되지 않는다. 돌연변이된 뉴클레오티드를 이탤릭체로 표기하였다.
도 15는 관문 진입 벡터 pENTR-D (인비트로젠(Invitrogen), 캘리포니아주 칼스배드 소재)에서 반복 영역을 가지지 않는 tal1c의 N- 및 C-말단부만을 코딩하는 카나마이신 내성 플라스미드인 pCS488의 맵이다.
도 16은 RVD NI를 가진 반복물을 코딩하는 pCS493으로 지칭되는 단일 반복 스타터 플라스미드의 맵이다. pCS494, pCS495 및 pCS496으로 지정된 3 개의 다른 플라스미드는, 그들이 코딩하는 RVD (우측에 제시됨)를 제외하고는 동일하였다.
도 17a는 RVD NI를 가진 단일 반복 모듈에 대한 뉴클레오티드 및 코딩된 아미노산 서열을 도시한다. 5' XhoI 상용성 응집 말단, MscI 부위, 및 3' PspXI/XhoI 상용성 응집 말단에 밑줄을 쳤다. RVD 및 이를 코딩하는 뉴클레오티드는 볼드체로 표기하였다. 각각 HD, NI 및 NG를 코딩하는 RVD 코딩 서열을 제외하고 제시된 것과 동일한 3 개의 다른 반복 모듈을 제작하였다. 도 17b는 도 17a에 제시된 반복 코딩 서열을 함유하는, pCS502로 지칭되는 단일 반복 모듈 플라스미드의 맵이다. pCS503, pCS504 및 pCS505로 지정된 플라스미드를 또한 생성하였고, 이들은 그들이 코딩하는 RVD (우측에 제시됨)를 제외하고는 pCS502와 동일하였다.
도 18a는 RVD NI를 가진 단일 반복 모듈에 대한 뉴클레오티드 및 코딩된 아미노산 서열을 도시하며, 여기서, 뉴클레오티드 치환 (이탤릭체)은 PspXI/XhoI 부위로의 라이게이션 후 5' 말단에서 XhoI 부위의 재구성을 방지하고, 내부의 MscI 부위를 파괴한다. RVD 및 이를 코딩하는 뉴클레오티드는 볼드체로 표기하였다. 각각 HD, NI 및 NG를 코딩하는 RVD 코딩 서열을 제외하고 제시된 것과 동일한 3 개의 추가적 반복 모듈을 제작하였다. 도 18b는 추가 반복 모듈의 단일 반복 모듈 플라스미드로의 순차적 라이게이션에 의해 조립된 3 개의 반복 모듈의 개략도이다. 제1 반복물의 MscI 부위 및 3' 말단에서의 PspXI 부위가 유일하게 남아있고, 전체 모듈은 2 개의 XhoI 부위에 의해 플랭킹된다.
도 19는 완전한 세트의 1-, 2- 및 3-반복 모듈 플라스미드 목록이다.
도 20은 반복물의 임의의 서열을 tal1c "주쇄"로 조립하여 맞춤형(custom) TAL 이펙터 유전자를 생성하는데 사용될 수 있는 방법의 단계를 도시하는 순서도이다.
도 21a 및 21b는 제시된 뉴클레오티드 서열을 표적화하는 TAL 엔도뉴클레아제의 제작에서 반복 모듈의 조립체를 도시하는 개략도이다. 도 21a에서, pCS519, pCS524, pCS537, pCS551, pCS583 및 pCS529로 지정된 플라스미드로부터의 반복 모듈이 pCS493으로 지정된 스타터 플라스미드의 서열에 순차적으로 부가되어, pMAT55, pMAT56, pMAT57, pMAT58, pMAT59 및 pMAT60으로 지정된 플라스미드를 야기한다. 도 21b에서는, pCS530, pCS533, pCS522 및 pCS541로 지정된 플라스미드로부터의 반복 모듈이 pMAT1로 지정된 플라스미드의 서열에 순차적으로 부가되어 pMAT61, pMAT62, pMAT63 및 pMAT64로 지정된 플라스미드를 야기한다.
도 22a는 TAL 이펙터 단백질의 개략도이다. BamHI 단편 (B로 표기함)은 FokI 엔도뉴클레아제의 촉매 도메인에 융합하여 TALEN을 생성한다. N, N-말단부; NLS, 핵 위치 신호; B, BamHI 부위; AD, 산성 활성화 도메인. 도 22b는 TAL 이펙터 AvrBs3 및 PthXo1과 함께 제작된 TALEN의 활성을 나타낸 도표이다. Avr-FokI, AvrBs3 TALEN; Pth-FokI, PthXo1 TALEN; 촉매적으로 불활성 형태의 FokI에의 Avr-FokI 및 Pth-FokI, AvrBs3 및 PthXo1 융합 (문헌 [Bitinaite et al. (1998) Proc. Natl. Acad. Sci. USA 95:10570-10575]); ZFN, Zif268 DNA 결합 도메인을 함유하는 아연 핑거(zinc finger) 뉴클레아제 (문헌 [Porteus and Baltimore (2003) Science 300:763]).
도 23은 참고용 PthXo1 아미노산 서열 (서열 31)이다.
도 24는 참고용 PthXo1 핵산 서열 (서열 32)이다.
도 25는 pFZ85 벡터의 다이아그램이다.
도 26은 avrBs3_TALEN의 아미노산 서열 (서열 33)을 나타낸다.
도 27은 pthXo1_TALEN의 아미노산 서열 (서열 34)을 나타낸다.
도 28a는 스페이서 길이가 상이한 표적에 대한 AvrBs3 및 PthXo1 TALEN의 활성을 나타내는 도표이다. ZFN, Zif268-유래된 아연 핑거 뉴클레아제. 도 28b는 이종이량체성 TALEN의 활성을 나타내는 도표이다. PthXo1-FokI 및 AvrBs3-FokI 발현 벡터, 및 머리-꼬리 방향에서 15 bp 분리한 각각에 대한 인식 부위로 이루어진 표적을 갖는 플라스미드를 함유하는 효모에서의 활성을 나타내었다 (Avr-FokI, Pth-FokI). 또한, 개별적 표적에 대한 AvrBs3 (Avr-FokI) 및 PthXo1 (Pth-FokI) TALEN 각각 및 Zif268 (ZFN)의 활성이 참고용으로 제시되었다. 음성 대조군으로서, Avr-FokI, Pth-FokI에 대한 표적 부위 플라스미드만을 함유하는 효모 배양액을 LacZ 활성에 대해 검정하였다 ((-)로 표기함).
도 29a는 개체의 맞춤형 TALEN의 RVD 서열 및 이들의 각각의 DNA 인식 서열을 나타낸 표이다. 도 29b는 맞춤형 TALEN의 활성을 나타낸 도표이다. (-), 표적 부위 플라스미드만을 가지는 음성 대조군; ZFN, 아연 핑거 뉴클레아제 양성 대조군.
도 30은 20 개 표적 및 TAL 이펙터 쌍의 말단부에서의 뉴클레오티드 및 RVD 빈도를 묘사한 것이다.
도 31은 골든 게이트(Golden Gate) 클로닝 시스템의 개략도이다 (문헌 [Engler et al. (2008) PLoS One 3:e3647]; 및 [Engler et al. (2009) PLoS One 4:e5553]).
도 32a 및 32b는 본원에 기재된 바와 같은 골든 게이트 클로닝 접근을 사용하여 맞춤형 TAL 이펙터 반복 코딩 어레이의 조립 및 클로닝을 위한 일련의 58 개 플라스미드를 도시한다. tet, 플라스미드 선별을 위한 마커인 테트라시클린 내성 유전자; spec, 플라스미드 선별을 위한 마커인 스펙티노마이신 내성 유전자; amp, 플라스미드 선별을 위한 마커인 암피실린 내성 유전자.
도 33은 도 32에 제시된 플라스미드 세트를 사용하여 골든 게이트 접근에 의해 맞춤형 TAL 이펙터 반복 코딩 어레이를 조립하고 클로닝하는 방법에 대한 개략도이다. 예시 목적상, 임의의 반복 어레이의 조립체를 나타내었다. spec, 플라스미드 선별을 위한 마커인 스펙티노마이신 내성 유전자; amp, 플라스미드 선별을 위한 마커인 암피실린 내성 유전자.
도 34a 내지 34u는 본원 실시예 9에 기재된 바와 같이 생성된 TALEN의 아미노산 서열을 나타낸다. 도 34a, 텔로머라제-TALEN124; 도 34b, 그리드락(gridlock)-TALEN105; 도 34c, adh1-TALEN58; 도 34d, adh1-TALEN63; 도 34e, adh1-TALEN68; 도 34f, adh1-TALEN73; 도 34g, adh1-TALEN89; 도 34h, 그리드락-TALEN106; 도 34i, adh1-TALEN64; 도 34j, adh1-TALEN69; 도 34k, adh1-TALEN74; 도 34l, tt4-TALEN90; 도 34m, 텔로머라제-TALEN121; 도 34n, 텔로머라제-TALEN126; 도 34o, 그리드락-TALEN107; 도 34p, 그리드락-TALEN117; 도 34q, 텔로머라제-TALEN131; 도 34r, 텔로머라제-TALEN136; 도 34s, adh1-TALEN60; 도 34t, tt4-TALEN85; 도 34u, 그리드락-TALEN102.
도 35는 증가하는 길이 (9-, 10-, 12-, 13-, 15-, 16-, 17-, 또는 18 mer)의 맞춤형 TALEN 단량체를 사용한 효모 검정에 의해 측정된 TALEN 활성을 나타내는 도표이다. TALEN은 제시된 바와 같이, 아라비돕시스(Arabidopsis) 및 제브라피쉬(zebrafish) 유전자에 대해 표적화되었다.
도 36a는 두 쌍의 TALEN에 의해 표적화된, 아라비돕시스 ADH1 유전자와 상이한 2 개의 DNA 표적 서열을 보여주는 다이아그램이다. 도 36b는 아라비돕시스 ADH1 유전자를 표적화하는 기능적 TALEN 쌍에 대한 효모 검정 데이타를 나타낸 도표이다.
도 37a는 아라비돕시스 원형질체에서 TALEN-유도되는 돌연변이를 탐지하기 위해 사용되는 제한 엔도뉴클레아제 검정의 개략도이다. 도 37b는 제한 엔도뉴클레아제 검정에서 소화되지 않은 DNA로부터의 9 개의 클론 서열을 나타낸다. 클론들 중 6 개는 비-상동성 말단-결합 (NHEJ)에 의해 도입된 돌연변이체를 갖는다.
도 38a는 다수의 계통발생학적으로 구별되는 TAL 이펙터, 산토모나스 가르드네리(Xanthomonas gardneri)로부터의 AvrHah1, 산토모나스 캄페스트리스(X. campestris) 속 베시카토리아(vesicatoria)로부터의 AvrBs3, 산토모나스 오리자에 속 오리자에로부터의 PthXo1, 산토모나스 시트리(X. citri)로부터의 PthA, 및 산토모나스 오리자에 속 오리지콜라로부터의 Tal1c의 제0 반복 서열을 보여준다. 다형성 위치를 네모 칸으로 표시하였다. 도 38b는 PthXo1의 제0 및 제1 반복물을 보여주는 개략도이다. "제0" 반복물은 제1 반복물 바로 앞에 위치하고, 35％ 동일성을 나타내며, 유사한 예측되는 2차 구조를 갖는다. 제1 반복물의 RVD 및 제0 반복물의 유사한 후보 잔기에 밑줄을 쳤다. ^*, 간격; H, 나선; E, 연장됨. 구조는 JPred를 사용하여 예측하였다 (문헌 [Cole et al. (2008) Nucl. Acids Res. 36:W197-W201]).
도 39는 제시된 바와 같이 V5-태깅된 TAL 이펙터 단백질 AvrBs3, PthXo1 및 Tal1c를 코딩하는 플라스미드로 형질감염된 인간 배아 신장 293T 세포로부터 단리한 다음 마우스-항V5 항체를 사용하여 면역검출한 총 단백질의 웨스턴 블럿을 나타낸다. 면역표지된 액틴이 각 레인에서 동등한 로딩에 대해 대조군으로서 제시된다.
도 40a는 TALEN HPRT-3254-17의 아미노산 서열을 나타내고, 도 40b는 TALEN HPRT-3286-20r의 아미노산 서열을 나타낸다.
도 41a는 인간 염색체 HPRT 유전자에서 TALEN-표적화된 부위를 보여주는 개략도이다. HPRT-3254-17 및 HPRT-3286-20r TALEN에 대한 결합 부위, 상기 부위들 사이의 스페이서 내 Bpu10I 부위, 및 영역의 증폭에 대한 프라이머 부위를 나타내었다. 하단의 배위는 코딩 서열의 제1 뉴클레오티드로부터의 염기쌍들의 거리를 제공한다. 도 41b는 템플레이트로서 TALEN-처리된 세포 및 미처리된 세포로부터 단리된 게놈 DNA를 사용한, 도 41a에 제시된 영역의 PCR 증폭에 대한 생성물의 Bpu10I 소화 결과를 나타낸다. 게놈 DNA는 증폭 전에 Bpu10I와 함께 소화된다. DNA 단편은 아가로스 겔 전기영동법에 의해 분리되고, 에티디움 브로마이드를 사용하여 가시화된다.

본 특허 출원은 TAL 이펙터에 의해 매개된 서열 특이적 DNA 인식과 관련한 물질 및 방법을 제공한다. 본원에 기재된 바와 같이, TAL 이펙터의 1차 아미노산 서열은 이들이 결합하는 뉴클레오티드 서열에 영향을 미친다. 본 발명자들은 TAL 이펙터 아미노산 서열과 그의 DNA 표적 서열 간의 관계가 지정적임에 따라, TAL 이펙터에 대한 표적 부위를 예측할 수 있고, 또한 TAL 이펙터의 맞춤화(customization)가 특정 뉴클레오티드 서열에의 결합을 가능케 한다는 것을 발견하였다. 이러한 예측 및 맞춤화는 다수 목적상 이용될 수 있다. 일례에서, 특정 TAL 이펙터 서열은 엔도뉴클레아제 서열에 융합될 수 있어, 특이적 DNA 서열에의 엔도뉴클레아제의 표적화, 및 표적화된 서열에서 또는 그 근처에서 DNA의 후속적 절단을 가능케 한다. DNA의 절단 (즉, 이중 가닥 파쇄)은 상동성 재조합의 빈도를 급격하게 증가시킬 수 있다. 따라서, TALEN을, 특정 표적 DNA 서열과의 서열 유사성 정도가 높은 서열을 갖는 DNA 구조체와 조합하여 사용하여 복합체 게놈에서 부위 지정 돌연변이생성을 용이하게 할 수 있으며, 즉, 유전자 기능을 녹아웃(knock out) 또는 변경시킬 수 있거나, 또는 다른 서열에 유전자를 매우 정확하게 그리고 고효율로 부가할 수 있다.

따라서, 본원에서 제공되는 대상 물질에는, 특히, 유전적으로 변형된 유기체 (식물, 진균, 초파리류, 선충류, 제브라피쉬, 마우스, 다른 포유동물 및 인간을 포함하나 이들로 제한되지는 않음)를 제조하기 위한 물질 및 방법이 포함된다. 상기 방법은 예를 들어, 세포를 다수의 재조합 핵산으로 형질감염시키는 것을 포함할 수 있다. 예를 들어, 세포 (예를 들어, 진핵생물 세포)는, 세포 내에서 발견되는 상응하는 표적 뉴클레오티드 서열에 대한 변경을 포함하는 공여자 뉴클레오티드 서열을 함유하는 제1 재조합 핵산 구조체, 및 TAL-뉴클레아제를 코딩하는 제2 재조합 핵산 구조체로 형질전환될 수 있다. 일부 실시양태에서, 세포는 또한 선별 마커를 코딩하는 제3 재조합 핵산 구조체로 형질전환될 수 있다. 공여자 핵산 구조체로부터의 핵산 서열은 본원에 기재된 바와 같이, 형질전환된 세포의 게놈 내로 혼입될 수 있다. 예를 들어, 본원에 기재된 방법을 사용하여 생성된 식물 세포는 성장하여 그의 게놈 내로 혼입된 변경된 공여자 뉴클레오티드 서열을 가진 식물을 생성할 수 있다. 상기 식물로부터의 종자를 사용하여, 예를 들어 변형되지 않은 식물에 대해 변경된 성장 특성 (예를 들어, 다양한 생물 및 비-생물 스트레스에 대해 증가된 내성 또는 저항성), 변경된 외관 (예를 들어, 변경된 색 또는 높이), 또는 변경된 조성 (예를 들어, 증가 또는 감소된 수준의 탄소, 질소, 오일, 단백질, 탄수화물 (예를 들어, 당 또는 전분), 아미노산, 지방산 또는 2차 대사산물)과 같은 표현형을 가진 식물을 생성할 수 있다.

폴리뉴클레오티드 및 폴리펩티드

단리된 핵산 및 폴리펩티드가 본원에 제공된다. 용어 "핵산" 및 "폴리뉴클레오티드"는 상호교환되어 사용되고, 핵산 유사체를 함유하는 cDNA, 게놈 DNA, 합성 (예를 들어, 화학적으로 합성됨) DNA, 및 DNA (또는 RNA)를 포함하는, RNA 및 DNA 둘 다를 지칭한다. 폴리뉴클레오티드는 임의의 3차원적 구조를 가질 수 있다. 핵산은 이중 가닥 또는 단일 가닥일 수 있다 (즉, 센스 가닥 또는 안티센스 단일 가닥). 폴리뉴클레오티드의 비제한적인 예에는 유전자, 유전자 단편, 엑손, 인트론, 메신저 RNA (mRNA), 운반 RNA, 리보솜 RNA, 리보자임, cDNA, 재조합 폴리뉴클레오티드, 분지화된 폴리뉴클레오티드, 플라스미드, 벡터, 임의의 서열의 단리된 DNA, 임의의 서열의 단리된 RNA, 핵산 프로브, 및 프라이머 뿐만 아니라 핵산 유사체가 포함된다.

본 발명의 폴리펩티드 (예를 들어, 비제한적인 예로서의 TAL 이펙터-DNA 변형 효소)는, 예를 들어 상기 폴리펩티드를 코딩한 벡터를 사용하거나, 소노포레이션 또는 전기 천공 또는 이들의 파생 기술과 같은 임의의 세포 투과 기술과 관련되거나 조합된 전달 벡터를 사용하여 폴리펩티드 그 자체로서 세포 내로 도입될 수 있다.

본원에 사용된 것으로서, "단리된"은, 핵산에 관련된 경우, 게놈에서의 핵산의 한쪽면 또는 양쪽면을 일반적으로 플랭크한 핵산을 포함하는, 게놈, 예를 들어 식물 게놈에 존재하는 다른 핵산으로부터 분리된 핵산을 지칭한다. 또한, 비천연 발생 서열이 자연에서 발견되지 않고 천연 발생 게놈에 바로 인접하는 서열을 갖지 않기 때문에, 핵산에 대해 본원에 사용된 것으로서의 용어 "단리된"은 임의의 비천연 발생 서열을 포함한다.

일반적으로, 하나의 핵산 서열에서 천연-발생 게놈에서의 DNA 분자가 제거되거나 존재하지 않는 직접적인 플랭킹이 발견되는 경우, 단리된 핵산은, 예를 들어 DNA 분자일 수 있다. 따라서, 단리된 핵산은 다른 서열뿐만 아니라 벡터, 자체적으로 복제되는 플라스미드, 바이러스 (예를 들어, 파라레트로바이러스, 레트로바이러스, 렌티바이러스, 아데노바이러스, 또는 헤르페스 바이러스), 또는 원핵생물 또는 진핵생물의 게놈 DNA로 혼입되는 DNA와는 별도로, 분리된 분자 (예를 들어, 화학적으로 합성된 핵산, 또는 PCR 또는 제한 엔도뉴클레아제 처치에 의해 제조된 cDNA 또는 게놈 DNA 단편)로서 존재하는 DNA 분자를 비제한적으로 포함한다. 또한, 단리된 핵산은 혼성 또는 융합 핵산의 일부인 DNA 분자와 같은 재조합 핵산을 포함할 수 있다. 예를 들어, cDNA 모음 또는 게놈 모음, 또는 게놈 DNA 제한 소화를 함유하는 겔 슬라이스 내의, 수백 내지 수백만개의 다른 핵산이 존재하는 핵산은 단리된 핵산으로 고려되지 않아야 한다.

핵산은, 예를 들어 화학적 합성 또는 중합효소 연쇄 반응 (PCR)에 의해 제조될 수 있다. PCR은 표적 핵산이 증폭되는 절차 또는 기술을 지칭한다. PCR은 전체 게놈 DNA 또는 전체 세포 RNA로부터의 서열을 포함하는, DNA 및 RNA로부터의 특이적 서열을 증폭시키는데에 사용될 수 있다. 다양한 PCR 방법이, 예를 들어 문헌 [PCR Primer: A Laboratory Manual, Dieffenbach and Dveksler, eds., Cold Spring Harbor Laboratory Press, 1995]에 기재되어 있다. 일반적으로, 증폭되어야 하는 템플레이트의 반대 가닥에 대한 서열과 동일하거나 유사한 올리고뉴클레오티드 프라이머를 디자인하기 위해 관심이 있거나 그렇지 않은 영역의 말단으로부터의 서열 정보가 이용된다. 또한, 부위-특정 뉴클레오티드 서열 변형이 템플레이트 핵산으로 도입될 수 있음으로써 다양한 PCR 전략이 가능하다.

또한, 단리된 핵산은 돌연변이생성에 의해 수득될 수 있다. 예를 들어, 공여자 핵산 서열은 PCR을 통한 올리고뉴클레오티드-지정된 돌연변이생성 및 부위-지정된 돌연변이생성을 비롯한 표준 기술을 이용하여 돌연변이가 될 수 있다. 문헌 [Short Protocols in Molecular Biology, Chapter 8, Green Publishing Associates and John Wiley & Sons, edited by Ausubel et al., 1992]을 참조한다.

본원에 사용된 것으로서의 용어 "폴리펩티드"는 번역후 변형 (예를 들어, 인산화반응 또는 글리코실화반응)에 상관없이 2개 이상의 서브유닛 아미노산의 화합물을 지칭한다. 서브유닛은, 펩티드 결합 또는 다른 결합, 예를 들어 에스테르 또는 에테르 결합에 의해 연결될 수 있다. 용어 "아미노산"은 D/L 광학 이성질체를 포함하는, 천연 및/또는 비천연 또는 합성 아미노산을 지칭한다.

폴리펩티드에 대한 "단리된" 또는 "정제된" 것으로서, 이것은 일반적으로 자연에서 함께 발견되는 세포 성분 (예를 들어, 다른 폴리펩티드, 지질, 탄수화물, 및 핵산)으로부터 어느 정도까지 분리되는 것을 의미한다. 정제된 폴리펩티드는 비환원 폴리아크릴아미드 겔을 기재로 한 단일 주요 밴드를 생성할 수 있다. 정제된 폴리펩티드는 약 75％ 이상 순수할 수 있다 (예를 들어, 80％, 85％, 90％, 95％, 97％, 98％, 99％ 이상, 또는 100％ 순수할 수 있음). 정제된 폴리펩티드는, 예를 들어 화학적 합성에 의해 또는 숙주 세포 또는 트랜스제닉 식물에서의 제조합 생성물에 의해, 천연 공급원으로부터의 추출에 의해 수득될 수 있고, 예를 들어 친화성 크로마토그래피, 면역침강법, 크기 배제 크로마토그래피, 및 이온 교환 크로마토그래피를 이용하여 정제될 수 있다. 정제의 정도는 컬럼 크로마토그래피, 폴리아크릴아미드 겔 전기영동, 또는 고성능 액체 크로마토그래피를 포함하나, 이에 제한되지 않는 임의의 적절한 방법을 이용하여 측정될 수 있다.

재조합 구조체

또한, 재조합 핵산 구조체 (예를 들어, 벡터)가 본원에서 제공된다. "벡터"는 삽입된 절편의 복제를 발생시키기 위한, 또다른 DNA 절편이 도입될 수 있는 레플리콘, 예를 들어 플라스미드, 파지, 또는 코스미드이다. 일반적으로, 벡터는 적절한 제어 요소와 관련되어 있을 때 복제될 수 있다. 적합한 벡터 주쇄에는, 예를 들어 플라스미드, 바이러스, 인공 염색체, BAC, YAC, 또는 PAC와 같은, 당업계에서 일반적으로 사용되는 것들이 포함된다. 용어 "벡터"는 클로닝 및 발현 벡터 뿐만 아니라 바이러스 벡터 및 통합 벡터를 포함한다. "발현 벡터"는 하나 이상의 발현 제어 서열을 포함하는 벡터이고, "발현 제어 서열"은 또다른 DNA 서열의 전사 및/또는 번역을 제어 및 조절하는 DNA 서열이다. 적합한 발현 벡터는, 예를 들어 박테리오파지, 바큘로바이러스, 담배 모자이크 바이러스, 헤르페스 바이러스, 거대세포바이러스, 레트로바이러스, 우두 바이러스, 아데노바이러스, 및 아데노-부속 바이러스로부터 유래된 플라스미드 및 바이러스 벡터를 비제한적으로 포함한다. 수많은 벡터 및 발현 시스템은 노바젠(Novagen) (미국 위스콘신주 매디슨 소재), 클론텍(Clontech) (미국 캘리포니아주 팔로 알토 소재), 스트라테이진(Stratagene) (미국 캘리포니아주 라 졸라 소재), 및 인비트로젠/라이프 테크놀로지 (미국 캘리포니아주 칼즈배드 소재)와 같은 기업으로부터 상업적으로 입수가능하다.

용어 "조절 영역", "제어 요소", 및 "발현 제어 서열"은 전사 또는 번역 개시 및 속도, 및 전사체 또는 폴리펩티드 생성물의 안정성 및/또는 이동성에 영향을 주는 뉴클레오티드 서열을 지칭한다. 조절 영역에는 코딩 서열, 예를 들어 분비 신호, 핵 위치 서열 (NLS) 및 프로테아제 절단 부위 내에 잔류할 수 있는, 프로모터 서열, 인핸서 서열, 반응 요소, 단백질 인식 부위, 유도성 요소, 프로모터 제어 요소, 단백질 결합 서열, 5' 및 3' 비번역 영역 (UTR), 전하 출발 부위, 종결 서열, 아데닐산중합반응 서열, 인트론, 및 다른 조절 영역이 포함되나, 이에 제한되지는 않는다.

본원에 사용된 것으로서, "작동가능하게 연결된"은, 유전 구조체로 혼입되어 발현 제어 서열이 관심이 있는 코딩 서열의 발현을 효과적으로 제어하는 것을 의미한다. RNA 중합효소가 RNA (mRNA이더라도)로 코딩 서열을 전사할 수 있고, 이어서 코딩 서열에 의해 코딩된 단백질로 번역될 수 있는 경우, 코딩 서열은 "작동가능하게 연결되고", 세포 내의 발현 제어 서열의 "조절 하에" 있게 된다. 따라서, 조절 영역은 변형된 표적 핵산을 발현하도록 요망되는 식물 세포, 식물, 또는 식물 조직에서의 전사를 조정하거나, 예를 들어 조절하거나, 용이하게 하거나, 또는 진행시킬 수 있다.

프로모터는, 일반적으로 전사가 출발하는 지점 (일반적으로, RNA 중합효소 II에 대한 개시 부위에 인접함)에서의 100개의 뉴클레오티드 상류 내에서 DNA 분자의 영역으로 이루어지는 발현 제어 서열이다. 프로모터는 전사를 개시하고 조정하는 RNA 중합효소 및 다른 단백질의 인식 및 결합과 연관되어 있다. 코딩 서열을 프로모터의 제어 하에 두기 위해, 일반적으로 프로모터의 1 내지 약 50 개의 뉴클레오티드 하류 사이에 폴리펩티드의 번역 리딩 프레임의 번역 개시 부위를 위치시키는 것이 필요하다. 그러나, 프로모터는 번역 출발 부위의 약 5,000개 정도로 많은 뉴클레오티드 상류, 또는 전사 출발 부위의 약 2,000개 정도로 많은 뉴클레오티드 상류에 위치할 수 있다. 프로모터는, 일반적으로 적어도 코어 (기본) 프로모터를 포함한다. 프로모터는, 또한 상류 요소와 같은 하나 이상의 제어 요소를 포함할 수 있다. 상기 요소는 상류 활성화 영역 (UAR) 및, 임의로, 합성 상류 요소와 같은 폴리뉴클레오티드의 전사에 영향을 주는 다른 DNA 서열을 포함한다.

포함되어야 하는 프로모터의 선택은 효능, 선택성, 유도성, 원하는 발현 수준, 및 세포 또는 조직 특이성을 포함하나, 이에 제한되지 않는 다양한 인자에 따라 달라진다. 예를 들어, 특정 조직, 기관, 및 세포 유형에서 단독적으로 또는 주로 전사를 부여하는 조직-, 기관- 및 세포-특이적 프로모터가 각각 사용될 수 있다. 일부 실시양태에서, 영양 조직, 예를 들어 줄기, 유조직, 기본분열조직, 관다발, 형성층, 체관부, 피층, 경정분열조직, 측면 생장점, 근단분열조직, 측면 뿌리 생장점, 잎원기, 잎살, 또는 잎 표피에 특이적인 프로모터가 적합한 조절 영역일 수 있다. 일부 실시양태에서, 근본적으로 종자에 특이적인 프로모터 ("종자-선호 프로모터")가 유용할 수 있다. 종자-특이적 프로모터는 종자가 발달하는 동안 내배유 및 떡잎 조직에서 작동가능하게 연결된 핵산의 전사를 촉진시킬 수 있다. 별법으로, 구성 프로모터는 식물 발달을 통틀어 식물의 대부분 또는 모든 조직에서 작동가능하게 연결된 핵산의 전사를 촉진시킬 수 있다. 프로모터의 다른 군에는, 유도성 프로모터, 예를 들어 화학 작용제, 발달 자극, 또는 환경 자극과 같은 외부 자극에 반응하는 전사를 부여하는 프로모터가 포함되나, 이에 제한되지는 않는다.

기본 프로모터는 전사 개시에서 요구되는 전사 복합체의 조립에 필요한 최소 서열이다. 기본 프로모터는, 종종 전사 개시의 부위로부터의 약 15 내지 약 35개의 뉴클레오티드에 위치할 수 있는 "TATA 박스(TATA box)" 요소를 포함한다. 기본 프로모터는, 또한 "CCAAT 박스(CCAAT box)" 요소 (일반적으로, 서열 CCAAT) 및/또는 GGGCG 서열을 포함할 수 있고, 이것은 전사 출발 부위로부터의, 약 40 내지 약 200개의 뉴클레오티드, 일반적으로 약 60 내지 약 120개의 뉴클레오티드 상류에 위치할 수 있다.

본원에 제공된 핵산 구조체에 포함될 수 있는 프로모터의 비제한적인 예로는 꽃양배추 모자이크 바이러스 (CaMV) 35S 전사 개시 영역, 아그로박테리움 튜미펙션즈(Agrobacterium tumefaciens)의 T-DNA로부터 유래된 1' 또는 2' 프로모터, 문헌 [Busk ((1997) Plant J. 11:1285-1295)]에 기재된 옥수수 잎-특이적 유전자로부터의 프로모터, 옥수수 및 다른 종으로부터의 kn1-관련 유전자, 및 옥수수 유비퀴틴-1 프로모터와 같은 다양한 식물 유전자로부터의 전사 개시 영역이 포함된다.

5' 비번역 영역 (UTR)이 전사되지만, 번역되지 않고 전사체의 출발 부위와 번역 개시 코돈 사이에 놓이며, +1 뉴클레오티드를 포함할 수 있다. 3' UTR은 번역 종결 코돈과 전사체의 말단 사이에 위치할 수 있다. UTR은 mRNA 메세지 안정성 또는 번역 감쇠의 증가와 같은 특정 기능을 가질 수 있다. 3' UTR의 예로는 아데닐산중합반응 신호 및 전사 종결 서열이 포함되나, 이에 제한되지는 않는다. 코딩 영역의 3'-말단에서의 아데닐산중합반응 영역은, 또한 코딩 서열에 작동가능하게 연결될 수 있다. 아데닐산중합반응 영역은 천연 유전자, 다양한 다른 식물 유전자, 또는 아그로박테리움 T-DNA로부터 유래될 수 있다.

또한, 본원에 제공된 벡터는, 예를 들어 복제의 개시점 및/또는 스캐폴드 부착 영역 (SAR)을 포함할 수 있다. 또한, 발현 벡터는 발현된 폴리펩티드의 조작 또는 검출 (예를 들어, 정제 또는 편재화)을 용이하게 하기 위해 고안된 태그 서열을 포함할 수 있다. 태그 서열, 예를 들어 녹색 형광 단백질 (GFP), 글루타티온 S-전달효소 (GST), 폴리히스티딘, c-myc, 혈구응집소, 또는 플래그(Flag)™ 태그 (코닥(Kodak), 미국 코네티컷주 뉴헤이븐 소재) 서열은, 일반적으로 코딩된 폴리펩티드와 함께 융합된 것으로서 발현된다. 상기 태그는 카르복실 또는 아미노 말단부를 포함하는 폴리펩티드 내의 임의의 곳에 도입될 수 있다.

"전달 벡터" 또는 "전달 벡터들"로서, 이것은 세포를 접촉시키거나 본 발명에 필요한 세포 또는 세포 이하의 구획 제제/화학물질 및 분자 (단백질 또는 핵산)를 내부로 전달하는, 본 발명에서 사용될 수 있는 임의의 전달 벡터를 의도하고자 하는 것이다. 이것은 리포솜 전달 벡터, 바이러스 전달 벡터, 약물 전달 벡터, 화학물질 운반체, 중합체 운반체, 리포플렉스, 폴리플렉스, 덴드리머, 마이크로버블 (초음파 조영제), 나노입자, 에멀젼 또는 다른 적절한 이동 벡터를 포함하나, 이에 제한되지는 않는다. 이러한 전달 벡터는 분자, 화학물질, 거대분자 (유전자, 단백질), 또는 다이아토스(Diatos)에 의해 개발된 플라스미드, 펩티드와 같은 다른 벡터가 전달되도록 한다. 이러한 경우, 전달 벡터는 분자 운반체이다. "전달 벡터" 또는 "전달 벡터들"로서, 이것은 또한 형질감염을 수행하는 전달 방법을 의도하고자 하는 것이다.

용어 "벡터" 또는 "벡터들"은 연결된 또다른 핵산을 수송할 수 있는 핵산 분자를 지칭한다. 본 발명에서의 "벡터"에는 바이러스 벡터, 플라스미드, 염색체, 비염색체, 반-합성 또는 합성 핵산으로 이루어질 수 있는 RNA 벡터 또는 선형 또는 환형 DNA 또는 RNA 분자가 포함되지만, 이에 제한되지는 않는다. 바람직한 벡터는, 이들과 연결된 핵산을 자율 증식 (에피솜 벡터)하고/거나 발현할 수 있는 것들이다 (발현 벡터). 대다수의 적합한 벡터는 당업자에게 공지되어 있고, 상업적으로 이용가능하다.

바이러스 벡터에는 레트로바이러스, 아데노바이러스, 파르보바이러스 (예를 들어, 아데노의존성 바이러스), 코로나바이러스, 음성 가닥 RNA 바이러스, 예를 들어 오르토믹소바이러스 (예를 들어, 인플루엔자 바이러스), 랍도바이러스 (예를 들어, 광견병 및 수포성 구내염 바이러스), 파라믹소바이러스 (예를 들어, 홍역 및 센다이(Sendai)), 양성 가닥 RNA 바이러스, 예를 들어 피코르나바이러스 및 알파바이러스, 및 아데노바이러스, 헤르페스바이러스를 포함하는 이중-가닥 DNA 바이러스 (예를 들어, 단순헤르페스바이러스 유형 1 및 2, 에프스타인-바 바이러스, 거대세포바이러스), 및 폭스바이러스 (예를 들어, 백시니아, 계두 및 카나리폭스)가 포함된다. 다른 바이러스에는, 예를 들어 노워크 바이러스, 토가바이러스, 플라비바이러스, 레오바이러스, 파포바바이러스, 헤파드나바이러스, 및 간염 바이러스가 포함된다. 레트로바이러스의 예에는 조류 백혈병 육종, 포유동물 C-유형, B-유형 바이러스, D 유형 바이러스, HTLV-BLV 군, 렌티바이러스, 스푸마바이러스가 포함된다 (문헌 [Coffin, J. M., Retroviridae: The viruses and their replication, In Fundamental Virology, Third Edition, B. N. Fields, et al., Eds., Lippincott-Raven Publishers, Philadelphia, 1996]).

"렌티바이러스 벡터"로서, 이것은 HIV-기반 렌티바이러스 벡터를 의미하고, 이들의 상대적으로 큰 포장 능력, 감소된 면역원성, 및 고효율로 넓은 범위의 상이한 세포 유형에 대해 안정하게 형질도입을 하는 이들의 능력 때문에, 이들은 유전자 전달에 매우 유망하다. 렌티바이러스 벡터는, 일반적으로 3개 (포장, 외피 및 운반)를 초과하는 플라스미드를 생산자 세포로 후속적으로 일시적 형질감염시켜 생성한다. HIV와 마찬가지로, 렌티 바이러스는 세포 표면 상의 수용체와 함께 바이러스 표면 당단백질의 상호작용을 통해 표적 세포로 들어간다. 입구에서, 바이러스 RNA의 역전사가 일어나고, 이것은 바이러스 역전사효소 복합체에 의해 매개된다. 역전사의 생성물은 이중 가닥 선형 바이러스 DNA이고, 이것은 감염된 세포의 DNA에서의 바이러스 통합을 위한 기질이다. 상기 렌티바이러스 벡터는 "비-통합" 또는 "통합"일 수 있다.

"통합 렌티바이러스 벡터 (또는 LV)"로서, 이것은 비제한적인 예로서 표적 세포의 게놈을 통합할 수 있는 상기 벡터를 의미한다.

이와 반대로 "비-통합 렌티바이러스 벡터 (또는 NILV)"로서, 이것은 바이러스 인터그라제의 작용을 통해 표적 세포의 게놈을 통합하지 않는 효율적인 유전자 전달 벡터를 의미한다.

바람직한 벡터의 하나의 유형은, 에피솜, 즉 과잉-염색체 복제를 할 수 있는 핵산이다. 바람직한 벡터는, 이들과 연결된 핵산을 자율 증식 (에피솜 벡터)하고/거나 발현할 수 있는 것들이다. 작동가능하게 연결된 유전자의 발현을 지정할 수 있는 벡터는 본원에서 "발현 벡터"로서 지칭된다. 본 발명에 따른 벡터에는 YAC (효모 인공 염색체), BAC (인조 박테리아), 바큘로바이러스 벡터, 파지, 파지미드, 코스미드, 바이러스 벡터, 플라스미드, 염색체, 비염색체, 반-합성 또는 합성 DNA로 이루어질 수 있는 RNA 벡터 또는 선형 또는 환형 DNA 또는 RNA 분자가 포함되나, 이에 제한되지는 않는다. 일반적으로, 이들의 벡터 형태가 염색체에 결합하지 않는 경우, 흔히 재조합 DNA 기술에 유용한 발현 벡터는, 일반적으로 환형 이중 가닥 DNA 루프를 지칭하는 "플라스미드"의 형태이다. 대다수의 적합한 벡터가 당업자에게 공지되어 있다. 벡터에는 선택적인 마커, 예를 들어 네오마이신 인산전달효소, 히스티디놀 탈수소효소, 디히드로엽산 환원효소, 히그로마이신 인산전달효소, 단순헤르페스 바이러스 티미딘 키나아제, 아데노신 디아미나제, 글루타민 신시타제, 및 진핵생물 세포 배양을 위한 하이포산틴-구아닌 포스포리보실 전달효소; 에스. 세레비시아를 위한 TRP1; 테트라사이클린, 이. 콜리에서의 리팜피신 또는 암피실린 내성이 포함된다. 바람직하게, 상기 벡터는 발현 벡터이고, 여기서 관심이 있는 폴리펩티드를 코딩하는 서열은 적절한 전하 및 번역 제어 요소 하에 위치하여 상기 폴리펩티드의 제조 또는 합성을 가능하게 한다. 따라서, 상기 폴리뉴클레오티드는 발현 카세트로 구성된다. 보다 특히, 본 벡터는 복제 기점, 상기 코딩 폴리뉴클레오티드와 작동가능하게 연결된 프로모터, 리보솜 결합 부위, RNA-스플라이싱 부위 (게놈 DNA를 사용하는 경우), 폴리아데닐화 부위 및 전사 종결 부위를 포함한다. 또한, 인핸서 또는 사일렌서 요소를 포함할 수 있다. 프로모터의 선택은 폴리펩티드가 발현하는 세포에 따라 달라질 것이다. 적합한 프로모터에는 조직 특이적 및/또는 유도성 프로모터가 포함된다. 유도성 프로모터의 예로는 중금속 수준 증가에 의해 유도되는 진핵생물 금속티오닌 프로모터, 이소프로필-β-D-티오갈락토-피라노시드 (IPTG)에 반응하여 유도되는 원핵생물 lacZ 프로모터, 및 온도 증가에 의해 유도되는 진핵생물 열 충격 프로모터가 있다. 조직 특이적 프로모터의 예로는 골격근 크레아틴 키나제, 전립선-특이적 항원 (PSA), α-항트립신 프로테아제, 인간 표면활성제 (SP) A 및 B 단백질, β-카제인 및 산성 유청 단백질 유전자가 있다.

유도성 프로모터는 병원균 또는 스트레스, 보다 바람직하게는 저온, 열, UV 광 또는 높은 이온 농도와 같은 스트레스에 의해 유도될 수 있다 (문헌 [Potenza et al. (2004) In vitro Cell Dev Biol 40:1-22]에서 검토됨). 유도성 프로모터는 화학물질에 의해 유도될 수 있다 (문헌 [Moore et al. (2006)]; [Padidam (2003)]; [Wang et al. (2003)]; 및 [Zuo and Chua (2000)]에서 검토됨).

전달 벡터 및 벡터는 임의의 세포 투과 기술, 예컨대 소노포레이션 또는 전기천공, 또는 이러한 기술로부터 유도된 기술과 관련되거나 조합될 수 있다.

하나 초과의 조절 영역, 예를 들어 인트론, 인핸서, 상류 활성화 영역 및 유도성 요소가 재조합 폴리뉴클레오티드에 존재할 수 있다는 것을 알 것이다.

재조합 핵산 구조체는 세포 (예를 들어, 식물 세포 또는 동물 세포)의 형질전환에 적합한 벡터로 삽입되는 폴리뉴클레오티드 서열을 포함할 수 있다. 재조합 벡터는, 예를 들어 표준 재조합 DNA 기술을 이용하여 만들어질 수 있다 (예를 들어, 문헌 [Sambrook et al. (1989) Molecular Cloning: A Laboratory Manual, 2nd ed., Cold Spring Harbor Laboratory, Cold Spring Harbor, NY] 참조).

본원에 기재된 재조합 핵산 서열은 비정통 (즉, 무작위, 비-상동성, 비 부위-특이적) 재조합을 통해 세포의 게놈에 통합될 수 있거나, 또는 본원에 기재된 재조합 핵산 서열은 상동성 재조합을 통해 세포의 게놈에 통합되도록 개조될 수 있다. 상동성 재조합을 통한 통합을 위해 개조된 핵산 서열은 양쪽 측면에서 내인성 표적 뉴클레오티드와 유사하거나 동일한 서열로 플랭킹되어, 내인성 표적 뉴클레오티드 서열을 함유하는 게놈 내 특정 부위에서의 재조합 핵산의 통합을 용이하게 한다. 상동성 재조합을 통한 통합을 위해 개조된 핵산 서열은 또한 서열-특이적 뉴클레아제에 대한 인식 부위를 포함할 수 있다. 다르게는, 서열-특이적 뉴클레아제에 대한 인식 부위가 형질전환될 세포의 게놈에 위치할 수 있다. 하기에 기재된 공여자 핵산 서열이 통상 상동성 재조합을 통한 통합을 위해 개조된다.

몇몇 실시양태에서, 선별 마커를 코딩하는 핵산이 또한 상동성 재조합을 통해 통합되도록 개조되어, 양쪽 측면에서 식물 게놈 내 내인성 서열 (예를 들어, 서열-특이적 뉴클레아제에 대한 절단 부위에서의 내인성 서열)과 유사하거나 동일한 서열로 플랭킹될 수 있다. 몇몇 경우에, 선별 마커에 대한 코딩 서열을 함유하는 핵산은 또한 서열-특이적 뉴클레아제에 대한 인식 부위를 포함할 수 있다. 이러한 실시양태에서, 서열-특이적 뉴클레아제에 대한 인식 부위는 공여자 핵산 서열 내에 함유된 것과 동일하거나 상이할 수 있다 (즉, 공여자 핵산 서열과 동일한 뉴클레아제에 의해 인식되거나 또는 공여자 핵산 서열과 상이한 뉴클레아제에 의해 인식될 수 있다).

몇몇 경우에, 재조합 핵산 서열은 부위-특이적 재조합을 통해 세포의 게놈에 통합되도록 개조될 수 있다. 본원에서 사용된 "부위-특이적" 재조합은, 핵산 서열이 재조합 핵산 서열과 게놈 서열 사이의 상동성에 의해서가 아니라, 특이적 핵산 서열을 인식하고 이들 부위 사이에서 DNA 가닥의 상호 교환을 촉매하는 재조합 효소의 작용에 의해서 게놈 내 특정 부위(들)에 대해 표적화된 경우에 일어나는 재조합을 지칭한다. 따라서, 부위-특이적 재조합은 2개의 규정된 뉴클레오티드 서열의 효소-매개된 절단 및 라이게이션을 지칭한다. 임의의 적합한 부위-특이적 재조합 시스템 (예를 들어, Cre-lox 시스템 또는 FLP-FRT 시스템 포함)을 이용할 수 있다. 이러한 실시양태에서, 공여자 뉴클레오티드 서열 및 뉴클레아제-코딩 서열, 및 몇몇 경우에 선별 마커 서열 뿐만 아니라 재조합 효소를 코딩하는 핵산을 세포에 도입할 수 있다. 예를 들어, 미국 특허 제4,959,317호를 참조한다.

서열-특이적 엔도뉴클레아제

서열-특이적 뉴클레아제 및 서열-특이적 엔도뉴클레아제를 코딩하는 재조합 핵산이 본원에서 제공된다. 서열-특이적 엔도뉴클레아제는 TAL 이펙터 DNA 결합 도메인 및 엔도뉴클레아제 도메인을 포함할 수 있다. 따라서, 이러한 서열-특이적 엔도뉴클레아제를 코딩하는 핵산은 뉴클레아제로부터의 뉴클레오티드 서열과 연결된 서열-특이적 TAL 이펙터로부터의 뉴클레오티드 서열을 포함할 수 있다.

TAL 이펙터는 병원균에 의해 식물 세포로 주입된 식물 병원성 박테리아의 단백질이며, 이들은 핵으로 이동해 전사 인자로서 기능하여 특정 식물 유전자를 작동시킨다. TAL 이펙터의 주요 아미노산 서열은 이들이 결합하는 뉴클레오티드 서열을 명시한다. 따라서, 표적 부위는 TAL 이펙터에 대해 예상될 수 있고, TAL 이펙터는 또한 본원에 기재된 바와 같이 특정 뉴클레오티드 서열과의 결합 목적을 위해 조작 및 생성될 수 있다.

뉴클레아제 또는 뉴클레아제의 일부, 통상 유형 II 제한 엔도뉴클레아제, 예컨대 FokI로부터의 비특이적 절단 도메인을 코딩하는 서열이 TAL 이펙터-코딩 핵산 서열과 융합된다 (문헌 [Kim et al. (1996) Proc. Natl. Acad. Sci. USA 93:1156-1160]). 다른 유용한 엔도뉴클레아제에는, 예를 들어 HhaI, HindIII, NotI, BbvCI, EcoRI, BglI 및 AlwI이 포함될 수 있다. 몇몇 엔도뉴클레아제 (예를 들어, FokI)는 이량체로서만 기능한다는 사실이 TAL 이펙터의 표적 특이성을 향상시키는 데 이용될 수 있다. 예를 들어, 각각의 FokI 단량체가 상이한 DNA 표적 서열을 인식하는 TAL 이펙터 서열과 융합될 수 있는 몇몇 경우에, 2개의 인식 부위가 근접한 경우에만 불활성 단량체가 함께 기능 효소를 생성한다. 뉴클레아제를 활성화하는 데 DNA 결합이 필요함에 따라 고도로 부위-특이적인 제한 효소가 생성될 수 있다.

본원에서 제공되는 서열-특이적 TALEN은 세포에 존재하는 미리 선택된 표적 뉴클레오티드 서열 내 특정 서열을 인식할 수 있다. 따라서, 몇몇 실시양태에서, 표적 뉴클레오티드 서열을 뉴클레아제 인식 부위에 대해 스캐닝할 수 있고, 특정 뉴클레아제를 표적 서열에 기초하여 선택할 수 있다. 다른 경우에, TALEN을 특정 세포 서열을 표적화하도록 조작할 수 있다. 목적하는 TALEN을 코딩하는 뉴클레오티드 서열을 임의의 적합한 발현 벡터에 삽입할 수 있고, 하나 이상의 발현 제어 서열과 연결할 수 있다. 예를 들어, 뉴클레아제 코딩 서열을 형질전환될 식물의 종에서 엔도뉴클레아제의 구성적 발현을 유도할 포로모터 서열과 작동가능하게 연결할 수 있다. 다르게는, 엔도뉴클레아제 코딩 서열을 조건식 발현 (예를 들어, 특정 영양 조건 하에서의 발현)을 유도할 프로모터 서열과 작동가능하게 연결할 수 있다. 예를 들어, 콜리플라워 모자이크 바이러스 35S 프로모터가 구성적 발현에 사용될 수 있다. 다른 구성적 프로모터에는, 제한 없이, 노팔린 신타제 프로모터, 유비퀴틴 프로모터 및 액틴 프로모터가 포함된다. 몇몇 실시양태에서, 인공 에스트로겐-유도된 프로모터가 조건식 발현에 사용될 수 있고, 식물이 에스트로겐에 노출될 때 높은 수준의 전사가 이루어질 수 있다. 사용될 수 있는 다른 조건식 프로모터에는, 예를 들어 열-유도성 열 충격 유전자 프로모터 및 광-조절된 프로모터, 예컨대 리불로스 비스포스페이트 카르복실라제의 대형 서브유닛을 코딩하는 유전자로부터의 프로모터가 포함된다.

치료 목적을 위해, 본 발명의 TAL 이펙터-DNA 변형 효소 및 제약상 허용되는 부형제를 치료 유효량으로 투여한다. 투여되는 양이 생리학상 유의한 경우에 이러한 조합물은 "치료 유효량"으로 투여된다고 칭해진다. 작용제의 존재가 수용자의 생리를 검출가능하게 변화시키는 경우에 작용제는 생리학상 유의하다. 본 맥락에서, 작용제의 존재가 표적 질환의 하나 이상의 증상의 중증도를 감소시키고 병변 또는 이상의 게놈 교정을 감소시키는 경우에 작용제는 생리학상 유의하다. 표적화 DNA 및/또는 TAL 이펙터-DNA 변형 효소를 코딩하는 핵산을 포함하는 벡터를 다양한 방법 (예를 들어, 주입, 직접 흡수, 발사체 충격, 리포솜, 전기천공)에 의해 세포 내로 도입할 수 있다. TAL 이펙터-DNA 변형 효소는 발현 벡터를 이용하여 세포에서 안정하게 또는 일시적으로 발현될 수 있다. 진핵생물 세포 내 발현 기술은 당업계에 널리 공지되어 있다 (문헌 [Current Protocols in Human Genetics: Chapter 12 "Vectors For Gene Therapy"and Chapter 13 "Delivery Systems for Gene Therapy"] 참조).

본 발명의 한 추가 측면에서, TAL 이펙터-DNA 변형 효소는 실질적으로 비-면역원성이고, 즉, 유해 면역 반응을 거의 또는 전혀 일으키지 않는다. 이러한 종류의 유해한 면역 반응을 완화시키거나 없애는 다양한 방법이 본 발명에 따라 이용될 수 있다. 바람직한 실시양태에서, TAL 이펙터-DNA 변형 효소는 N-포르밀 메티오닌을 실질적으로 함유하지 않는다. 원치 않는 면역 반응을 피하는 또다른 방식은 TAL 이펙터-DNA 변형 효소를 폴리에틸렌 글리콜 ("PEG") 또는 폴리프로필렌 글리콜 ("PPG") (바람직하게는, 평균 분자량 (MW)이 500 내지 20,000 달톤인 것)과 접합시키는 것이다. 문헌 [Davis et al (US 4,179,337)]에 기재된 바와 같이, PEG 또는 PPG와의 접합은, 예를 들어 항-바이러스 활성을 갖는 비-면역원성, 생리학상 활성, 수용성 TAL 이펙터-DNA 변형 효소 접합체를 제공할 수 있다. 또한, 폴리에틸렌-폴리프로필렌 글리콜 공중합체를 이용하는 유사한 방법이 문헌 [Saifer et al. (US 5,006,333)]에 기재되어 있다.

공여자 벡터

공여자 뉴클레오티드 서열을 포함하는 재조합 핵산이 또한 본원에서 제공된다. 공여자 뉴클레오티드 서열은 형질전환될 세포의 게놈 내에서 내인성으로 발견되는 미리 선택된 표적 뉴클레오티드 서열과 관련하여 하나 이상의 변형 (즉, 치환, 결실 또는 삽입)을 갖는 변이체 서열을 포함할 수 있다 (본원에서 "변형된 표적 뉴클레오티드 서열"로도 지칭됨). 공여자 핵산 내 변이체 서열은 통상 양쪽 측면에서 세포 내 내인성 표적 뉴클레오티드 서열과 유사하거나 동일한 서열로 플랭킹된다. 플랭킹 서열은 임의의 적합한 길이를 가질 수 있고, 통상 50개 이상의 뉴클레오티드 길이 (예를 들어, 50개 이상의 뉴클레오티드, 75개 이상의 뉴클레오티드, 100개 이상의 뉴클레오티드, 200개 이상의 뉴클레오티드, 250개 이상의 뉴클레오티드, 300개 이상의 뉴클레오티드, 500개 이상의 뉴클레오티드, 750개 이상의 뉴클레오티드, 1000개 이상의 뉴클레오티드, 약 50개 내지 약 5000개의 뉴클레오티드, 약 100개 내지 2500개의 뉴클레오티드, 약 100개 내지 약 1000개의 뉴클레오티드, 약 100개 내지 500개의 뉴클레오티드, 약 200개 내지 약 500개의 뉴클레오티드, 또는 약 250개 내지 400개의 뉴클레오티드)이다. 따라서, 변이체 서열의 양쪽 측면의 재조합 공여자 핵산 구조체와 내인성 표적 사이에서 상동성 재조합이 일어날 수 있고, 그 결과 생성된 세포 게놈은 예를 들어 동일한 유전자로부터의 내인성 서열의 환경 내에서 변이체 서열을 함유한다. 공여자 뉴클레오티드 서열은 게놈 내 임의의 적합한 서열을 표적화하도록 생성될 수 있다. 예를 들어, 식물에서 공여자 뉴클레오티드 서열은 지질 생합성 유전자, 탄수화물 생합성 유전자, 종자 저장 단백질 유전자, 질환 또는 해충 내성 유전자, 스트레스 허용성 유전자, 내건성 유전자 또는 항-영양 생성 유전자에 대해 표적화될 수 있다. 또한, 공여자 뉴클레오티드 서열은 본원에 기재된 바와 같이 서열-특이적 뉴클레아제에 대한 인식 부위를 함유한다.

선별 마커

본원에서 제공되는 방법 중 몇몇은 선별가능한 또는 스크리닝가능한 마커를 코딩하는 제3 재조합 핵산의 사용을 포함한다. 선별가능한 형질을 유발하는 폴리펩티드를 코딩하는 뉴클레오티드 서열을 하나 이상의 발현 제어 서열을 함유하는 발현 벡터에 혼입할 수 있다. 예를 들어, 발현 벡터는 형질전환될 식물 세포에서 구성적 발현을 유도할 포로모터 서열과 작동가능하게 연결된 선별 마커를 코딩하는 서열을 포함할 수 있다. 적합한 선별 마커에는, 제한 없이, 항생제, 예컨대 카나마이신, G418, 블레오마이신, 암피실린 또는 히그로마이신, 또는 제초제, 예컨대 글루포시네이트, 클로로술푸론 또는 포스피노트리신에 대한 내성을 부여하는 폴리펩티드가 포함될 수 있다.

식물에서의 사용에 대한 실시양태에서, 예를 들어 선별 마커는 성장점 또는 분열조직을 억제하는 제초제, 예컨대 이미다졸리논 또는 술포닐우레아에 대한 내성을 부여할 수 있다. 상기 범주에서 예시적인 폴리펩티드는, 예를 들어 미국 특허 제5,767,366호 및 동 제5,928,937호에 기재된 바와 같은 돌연변이체 ALS 및 AHAS 효소를 코딩한다. 미국 특허 제4,761,373호 및 동 제5,013,659호는 다양한 이미다졸리논 또는 술폰아미드 제초제에 내성이 있는 식물에 관한 것이다. 미국 특허 제4,975,374호는 글루타민 신세타제 (GS)를 억제하는 것으로 공지된 제초제, 예를 들어 포스피노트리신 및 메티오닌 술폭시민에 의한 억제에 내성이 있는 돌연변이체 GS를 코딩하는 유전자를 함유하는 식물 세포 및 식물에 관한 것이다. 미국 특허 제5,162,602호는 시클로헥산디온 및 아릴옥시페녹시프로판산 제초제에 의한 억제에 내성이 있는 식물을 개시한다. 상기 내성은 변경된 아세틸 보조효소 A 카르복실라제 (ACCase)에 의해 부여된다.

또한, 글리포세이트 (상품명 라운드업(Roundup)(등록상표)으로 판매됨)에 대한 내성을 위한 폴리펩티드는 식물에서의 사용에 적합하다. 예를 들어, 미국 특허 제4,940,835호 및 제4,769,061호를 참조한다. 미국 특허 제5,554,798호는 트랜스제닉 글리포세이트 내성 옥수수 식물을 개시하며, 여기서 내성은 변형된 5-에놀피루빌-3-포스포시키메이트 (EPSP) 신타제에 의해 부여된다. 이러한 폴리펩티드는 글리포세이트 염, 예컨대 트리메틸술포늄 염, 이소프로필아민 염, 나트륨 염, 칼륨 염 및 암모늄 염을 제한 없이 포함하는 글리포세이트 제초제 조성물에 대한 내성을 부여할 수 있다. 예를 들어, 미국 특허 제6,451,735호 및 제6,451,732호를 참조한다.

또한, 포스포노 화합물, 예컨대 글루포시네이트 암모늄 또는 포스피노트리신, 및 피리디녹시 또는 페녹시 프로피온산 및 시클로헥손에 대한 내성을 위한 폴리펩티드가 적합하다. 예를 들어, 유럽 공보 제0 242 246호, 및 또한 미국 특허 제5,879,903호, 제5,276,268호 및 제5,561,236호를 참조한다.

다른 제초제에는 광합성을 억제하는 것들, 예컨대 트리아진 및 벤조니트릴 (니트릴라제)이 포함된다. 예를 들어, 미국 특허 제4,810,648호를 참조한다. 다른 제초제에는 2,2-디클로로프로피온산, 세톡시딤, 할록시포프, 이미다졸리논 제초제, 술포닐우레아 제초제, 트리아졸로피리미딘 제초제, s-트리아진 제초제 및 브로목시닐이 포함된다. 또한, 프로톡스 효소(protox enzyme)에 대한 내성을 부여하는 제초제가 적합하다. 예를 들어, 미국 특허 공보 제20010016956호 및 미국 특허 제6,084,155호를 참조한다.

몇몇 실시양태에서, 선별 마커를 코딩하는 재조합 핵산을 적합화시켜 부위-특이적 재조합에 의해 세포 (예를 들어, 식물 세포 또는 동물 세포)의 게놈으로 통합시킬 수 있다. 예를 들어, 선별 마커를 코딩하는 서열을 예를 들어 Cre 또는 FLP와 같은 재조합효소에 대한 인식 서열에 의해 플랭킹할 수 있다. 다른 실시양태에서, 선별 마커를 코딩하는 재조합 핵산을 동종 재조합에 의한 식물 게놈으로의 통합을 위해 적합화시킬 수 있다. 이러한 핵산에서, 선별 마커를 코딩하는 서열을, 재조합 핵산이 도입되는 식물 세포의 게놈 내에서 발견되는 내인성 뉴클레오티드 서열과 유사하거나 또는 동일한 서열에 의해 플랭킹할 수 있다. 내인성 서열 중 적어도 하나는 서열-특이적 뉴클레아제에 대한 절단 부위일 수 있다. 또한, 선별 마커를 코딩하는 핵산은 서열-특이적 뉴클레아제에 대한 인식 부위를 함유할 수 있다. 뉴클레아제는 공여자 뉴클레오티드 서열에 표적화되는 것과 동일한 서열-특이적 뉴클레아제, 또는 공여자 뉴클레오티드 서열에 표적화되는 것과 상이한 서열-특이적 뉴클레아제일 수 있다. 또 다른 실시양태에서, 선별 마커를 코딩하는 재조합 핵산은 비적합 재조합에 의한 식물 세포의 게놈으로의 통합을 위해 적합화될 수 있다. 통상적으로, 이러한 핵산은 본원에서 기재된 것과 같은 동종 또는 부위-특이적 재조합에 적합화된 핵산 내에 함유되어 있는 플랭킹 서열 및 뉴클레아제 인식 부위가 없다.

방법

하나 이상의 본원에서 제공되는 구조체를 사용하여 세포를 형질전환시키고/거나 DNA 변형 효소를 세포에 도입하여, 유전자 변형 유기체 (예를 들어, 식물 또는 동물)이 생성되도록 할 수 있다. 따라서, 본원에서 기재된 핵산 및/또는 폴리펩티드를 함유하는 유전자 변형 유기체 및 세포 또한 제공된다. 몇몇 실시양태에서, 형질전환된 세포는 그의 게놈으로 통합된 재조합 핵산 구조체를 가지며, 즉 안정적으로 형질전환될 수 있다. 통상적으로, 안정적으로 형질전환된 세포는 각 세포 분열에 대한 도입된 핵산 서열을 보유한다. 구조체는 상동성 방식으로 통합되어 형질전환된 세포에 내인성인 뉴클레오티드 서열이 구조체로 대체되도록 할 수 있으며, 여기서 구조체는 내인성 서열에 대응하는 서열을 함유하지만, 내인성 서열에 대하여 하나 이상의 변형을 함유한다. 이러한 변형된 내인성 서열을 함유하는 식물 또는 동물을 본원에서 "유전자 변형 유기체" (GMO)로 지칭할 수 있지만, 변형된 내인성 서열은 트랜스진으로 여겨지지 않는다는 것을 주목해야 한다. 또한, 구조체는 부적합 방식으로 통합되어 형질전환된 세포의 게놈으로 무작위로 통합되도록 할 수 있다.

별법으로, 세포는 일시적으로 형질전환되어 구조체가 그의 게놈으로 통합되지 않도록 할 수 있다. 예를 들어, TALEN 코딩 서열을 함유하는 플라스미드 벡터를 세포로 도입하여, TALEN 코딩 서열이 발현되지만 벡터는 게놈에 안정적으로 통합되지 않도록 할 수 있다. 통상적으로, 일시적으로 형질전환된 세포는 각 세포 분열에 대한 도입된 핵산 구조체 중 일부 또는 전부를 손실하여, 도입된 핵산이 충분한 수의 세포 분열 후의 딸 세포에서 검출될 수 없도록 할 수 있다. 그럼에도 불구하고, TALEN 코딩 서열의 발현은 공여자 서열 및 내인성 표적 서열 사이의 동종 재조합을 달성하는데 충분하다. 일시적으로 형질전환되고 안정적으로 형질전환된 세포 둘 다 본원에서 기재된 방법에 유용할 수 있다.

특히 유전자 변형 식물 세포에 대하여, 본원에서 기재된 방법에서 사용되는 세포는 전체 식물의 부분 또는 전부를 구성할 수 있다. 이러한 식물은 성장 챔버, 온실 또는 야외 중 하나에서 고려 중인 종에 적합한 방식으로 성장시킬 수 있다. 유전자 변형 식물을 특정 목적을 위해 요구되는 것과 같이 교배시켜, 예를 들어 재조합 핵산을 다른 계통으로 도입하거나, 재조합 핵산을 다른 종에 전달하거나, 또는 다른 원하는 형질을 추가로 선별할 수 있다. 별법으로, 유전자 변형 식물을 이러한 기법이 가능한 종에 대해 영양 번식시킬 수 있다. 자손에는 특정 식물 또는 식물 계통의 후손이 포함된다. 식물의 자손에는 F₁, F₂, F₃, F₄, F₅, F₆ 및 후속 세대 식물에서 형성된 종자, 또는 BC₁, BC₂, BC₃ 및 후속 세대 식물에서 형성된 종자, 또는 F₁BC₁, F₁BC₂, F₁BC₃ 및 후속 세대 식물에서 형성된 종자가 포함된다. 유전자 변형 식물에 의해 생성된 종자를 성장시키고, 이후 자가교배 (또는 이종교배 및 자가교배)시켜 핵산 구조체에 동종접합인 종자를 얻을 수 있다.

유전자 변형 세포 (예를 들어, 식물 세포 또는 동물 세포)는 필요하다면 현탁 배양물 또는 조직 또는 기관 배양물에서 성장시킬 수 있다. 본원에서 제공되는 방법의 목적상, 고체 및/또는 액체 조직 배양 기법을 사용할 수 있다. 고체 배지를 사용하는 경우에, 세포를 배지에 바로 위치시키거나, 또는 필터 필름 상에 위치시키고 이후 배지와 접촉하도록 위치시킬 수 있다. 액체 배지를 사용하는 경우에, 세포를 액체 배지와 접촉하는 부유 장치, 예를 들어 다공성 막에 위치시킬 수 있다. 통상적으로, 고체 배지는 액체 배지에 한천을 첨가하여 제조된다. 예를 들어, 고체 배지는 한천, 및 적합한 농도의 옥신, 예를 들어 2,4-디클로로페녹시아세트산 (2,4-D) 및 적합한 농도의 시토키닌, 예를 들어 키네틴을 함유하는 무라시게 및 스쿡(Murashige and Skoog; MS) 배지일 수 있다.

세포는 하나의 재조합 핵산 구조체 또는 복수개 (예를 들어, 2, 3, 4 또는 5개)의 재조합 핵산 구조체로 형질전환될 수 있다. 복수개의 구조체가 이용되는 경우에, 이들은 동시에 또는 순차적으로 형질전환될 수 있다. 광범위한 종의 형질전환을 위한 기법은 당업계에 알려져 있다. 본원에서 기재된 폴리뉴클레오티드 및/또는 재조합 백터는 전기천공, 미세주입 및 유전자총(biolistic) 방법을 비롯한 여러 알려진 방법 중 어느 하나를 사용하여 숙주의 게놈으로 도입할 수 있다. 별법으로, 폴리뉴클레오티드 또는 벡터를 적합한 T-DNA 플랭킹 영역과 조합하고, 이를 통상적인 아그로박테리움 투메파키엔스(Agrobacterium tumefaciens) 숙주 벡터에 도입할 수 있다. 바이너리 벡터(binary vector)의 무력화(disarming) 및 사용을 포함한 이러한 아그로박테리움 투메파키엔스-매개된 형질전환 기법은 당업계에 잘 알려져 있다. 다른 유전자 전달 및 형질전환 기법에는 칼슘 또는 PEG를 통한 원형질체 형질전환, 노출된 DNA의 전기천공-매개된 흡수, 리포솜-매개된 형질감염, 전기천공, 바이러스 벡터-매개된 형질전환, 및 미세사 충격(microprojectile bombardment)이 포함된다 (예를 들어, 미국 특허 제5,538,880호, 제5,204,253호, 제5,591,616호 및 제6,329,571호 참조). 식물 세포 또는 조직 배양물을 형질전환을 위한 수용자 조직으로서 사용하는 경우에, 식물은 당업자들에게 알려진 기법을 사용하여 형질전환된 배양물로부터 재생될 수 있다.

몇몇 실시양태에서, DNA 변형 효소 (예를 들어, TALEN)를 세포로 직접 도입할 수 있다. 예를 들어, 기계적 주입, 박테리아 유형 III 분비 시스템을 통한 전달, 전기천공, 또는 아그로박테리움 매개된 전달에 의해 폴리펩티드를 세포로 도입할 수 있다. 아그로박테리움 VirB/D4 수송 시스템, 및 핵단백질 T 복합체의 식물 세포에의 전달을 매개하기 위한 그의 용도의 논의에 대하여, 예를 들어 문헌 [Vergunst et al. (2000) Science 290:979-982]을 참조한다.

추가적으로 식물에 대하여, 본원에서 기재된 폴리뉴클레오티드, 벡터 및 폴리펩티드를 홍화, 자주개자리, 대두, 커피, 아마란스, 평지씨 (고 에루크산 및 캐놀라), 땅콩 또는 해바라기와 같은 쌍떡잎식물, 및 또한 기름 야자, 사탕수수, 바나나, 수단그라스(sudangrass), 옥수수, 밀, 호밀, 보리, 귀리, 벼, 기장 또는 수수와 같은 외떡잎식물을 비롯한 여러 외떡잎식물 및 쌍떡잎식물 및 식물 세포 시스템으로 도입할 수 있다. 겉씨식물, 예컨대 전나무 및 소나무 또한 적합하다.

따라서, 본원에서 기재된 방법은 예를 들어 마그니오랄레스(Magniolales), 일리시알레스(Illiciales), 라우랄레스(Laurales), 피페랄레스(Piperales), 아리스토치알레스(Aristochiales), 님파에알레스(Nymphaeales), 라눈쿠랄레스(Ranunculales), 파페베랄레스(Papeverales), 사라세니아케아이(Sarraceniaceae), 트로코덴드랄레스(Trochodendrales), 하마멜리달레스(Hamamelidales), 유코미알레스(Eucomiales), 레이트네리알레스(Leitneriales), 미리칼레스(Myricales), 파갈레스(Fagales), 카수아리날레스(Casuarinales), 카리오필랄레스(Caryophyllales), 바탈레스(Batales), 폴리고날레스(Polygonales), 플룸바지날레스(Plumbaginales), 딜레니알레스(Dilleniales), 테알레스(Theales), 말발레스(Malvales), 우르티칼레스(Urticales), 레시티달레스(Lecythidales), 비올랄레스(Violales), 살리칼레스(Salicales), 카파랄레스(Capparales), 에리칼레스(Ericales), 디아펜살레스(Diapensales), 에베날레스(Ebenales), 프리무랄레스(Primulales), 로살레스(Rosales), 파발레스(Fabales), 포도스테말레스(Podostemales), 할로라갈레스(Haloragales), 미르탈레스(Myrtales), 코르날레스(Cornales), 프로테알레스(Proteales), 산탈레스(Santales), 라플레시알레스(Rafflesiales), 셀라스트랄레스(Celastrales), 유포르비알레스(Euphorbiales), 람날레스(Rhamnales), 사핀달레스(Sapindales), 유글란달레스(Juglandales), 게라니알레스(Geraniales), 폴리갈랄레스(Polygalales), 움벨랄레스(Umbellales), 겐티아날레스(Gentianales), 폴레모니알레스(Polemoniales), 라미알레스(Lamiales), 플란타지날레스(Plantaginales), 스크로풀라리알레스(Scrophulariales), 캄파누랄레스(Campanulales), 루비알레스(Rubiales), 딥사칼레스(Dipsacales) 및 아스테랄레스(Asterales) 목에 속하는 쌍떡잎식물에 이용할 수 있다. 또한, 본원에서 기재된 방법은 알리스마탈레스(Alismatales), 히드로차리탈레스(Hydrocharitales), 나자달레스(Najadales), 트리우리달레스(Triuridales), 콤멜리날레스(Commelinales), 에리오카우랄레스(Eriocaulales), 레스티오날레스(Restionales), 포알레스(Poales), 준칼레스(Juncales), 시페랄레스(Cyperales), 티팔레스(Typhales), 브로멜리알레스(Bromeliales), 진기베랄레스(Zingiberales), 아레칼레스(Arecales), 시클란탈레스(Cyclanthales), 판다날레스(Pandanales), 아랄레스(Arales), 릴리알레스(Lilliales) 및 오르치달레스(Orchidales) 목에 속하는 것과 같은 외떡잎식물, 또는 겉씨식물문, 예를 들어 피날레스(Pinales), 징코알레스(Ginkgoales), 시카달레스(Cycadales) 및 네탈레스(Gnetales)에 속하는 식물에 이용할 수 있다.

방법은 아트로파(Atropa), 알세오다프네(Alseodaphne), 아나카르디움(Anacardium), 아라치스(Arachis), 벨리쉬미에디아(Beilschmiedia), 브라시카(Brassica), 카르타무스(Carthamus), 코쿠루스(Cocculus), 크로톤(Croton), 쿠쿠미스(Cucumis), 시트러스(Citrus), 시트룰루스(Citrullus), 캅시쿰(Capsicum), 카타란투스(Catharanthus), 코코스(Cocos), 코페아(Coffea), 쿠쿠르비타(Cucurbita), 다우쿠스(Daucus), 두구에티아(Duguetia), 에스크스콜지아(Eschscholzia), 피쿠스(Ficus), 프라가리아(Fragaria), 글라우시움(Glaucium), 글리신(Glycine), 고시피움(Gossypium), 헬리안투스(Helianthus), 히비어(Hevea), 히오시아무스(Hyoscyamus), 락투카(Lactuca), 란돌피아(Landolphia), 리눔(Linum), 리트세아(Litsea), 리코페르시콘(Lycopersicon), 루피누스(Lupinus), 마니호트(Manihot), 마조라나(Majorana), 말루스(Malus), 메디카고(Medicago), 니코티아나(Nicotiana), 올레아(Olea), 파르테니움(Parthenium), 파파베르(Papaver), 페르세아(Persea), 파세올루스(Phaseolus), 피스타치아(Pistacia), 피숨(Pisum), 피루스(Pyrus), 프루누스(Prunus), 라파누스(Raphanus), 리치누스(Ricinus), 세네치오(Senecio), 시노메니움(Sinomenium), 스테파니아(Stephania), 시나피스(Sinapis), 솔라눔(Solanum), 테오브로마(Theobroma), 트리폴리움(Trifolium), 트리고넬라(Trigonella), 비치아(Vicia), 빈카(Vinca), 비티스(Vitis) 및 비그나(Vigna) 속 쌍떡잎식물; 알리움(Allium), 안드로포곤(Andropogon), 아라그로스티스(Aragrostis), 아스파라거스(Asparagus), 아베나(Avena), 시노돈(Cynodon), 엘라에리스(Elaeis), 페스투카(Festuca), 페스투로리움(Festulolium), 헤테로칼리스(Heterocallis), 호르데움(Hordeum), 렘나(Lemna), 롤리움(Lolium), 무사(Musa), 오리자(Oryza), 파니쿰(Panicum), 판네세툼(Pannesetum), 플레움(Phleum), 포아(Poa), 세칼레(Secale), 소르굼(Sorghum), 트리티쿰(Triticum) 및 제아(Zea) 속 외떡잎식물; 또는 아비에스(Abies), 쿤닝하미아(Cunninghamia), 피세아(Picea), 피누스(Pinus) 및 프세우도추가(Pseudotsuga) 속 겉씨식물로부터의 종을 비롯하여 광범위한 식물 종에 걸쳐 사용될 수 있다.

형질전환된 세포, 캘러스, 조직 또는 식물은 특정 형질 또는 활성에 대한 유전자조작된 세포, 예를 들어 마커 유전자 또는 항생제 내성 유전자에 의해 코딩된 세포의 선별 또는 스크리닝에 의해 확인 및 단리될 수 있다. 이러한 스크리닝 및 선별 방법은 당업자들에게 잘 알려져 있다. 추가적으로, 물리적 및 생화학적 방법을 사용하여 형질전환체를 확인할 수 있다. 이에는 폴리뉴클레오티드의 검출을 위한 써던(Southern) 분석 또는 PCR 증폭; RNA 전사체의 검출을 위한 노던 블럿(Northern blot), S1 RNase 보호, 프라이머-신장 또는 RT-PCR 증폭; 폴리펩티드 및 폴리뉴클레오티드의 효소 또는 리보자임 활성의 검출을 위한 효소 검정; 및 폴리펩티드의 검출을 위한 단백질 겔 전기영동, 웨스턴 블럿(Western blot), 면역침강 및 효소-결합 면역검정이 포함된다. 또한, 제자리 하이브리드화(in situ hybridization), 효소 염색 및 면역염색과 같은 다른 기법을 사용하여 폴리펩티드 및/또는 폴리뉴클레오티드의 존재 또는 발현을 검출할 수 있다. 모든 언급된 기법을 수행하기 위한 방법은 잘 알려져 있다. 식물 세포로 안정적으로 도입되는 폴리뉴클레오티드는 예를 들어 표준 육종 기법을 사용하여 다른 식물로 도입할 수 있다.

본 발명의 문맥상, "진핵생물 세포"는 하기 열거된 유기체로부터 유래되고 시험관내 배양을 위해 수립된 진균, 효모, 식물 또는 동물 세포 또는 세포주를 의미한다. 보다 바람직하게는, 진균은 아스페르길루스(Aspergillus), 페니실리움(Penicillium), 아크레모니움(Acremonium), 트리코데르마(Trichoderma), 크리소스포리움(Chrysosporium), 모르티에렐라(Mortierella), 클루이베로미세스(Kluyveromyces) 또는 피치아(Pichia) 속의 진균일 수 있다. 보다 바람직하게는, 진균은 아스페르길루스 니게르(Aspergillus niger), 아스페르길루스 니둘란스(Aspergillus nidulans), 아스페르길루스 오리자에(Aspergillus oryzae), 아스페르길루스 테레누스(Aspergillus terreus), 페니실리움 크리소게눔(Penicillium chrysogenum), 페니실리움 키트리눔(Penicillium citrinum), 아크레모니움 크리소게눔(Acremonium chrysogenum), 트리코데르마 레세이(Trichoderma reesei), 모르티에렐라 알피네(Mortierella alpine), 크리소스포리움 루크노웬세(Chrysosporium lucknowense), 클루이베로미세스 락티스(Kluyveromyces lactis), 피치아 파스토리스(Pichia pastoris) 또는 피치아 키페르리(Pichia ciferrii) 종의 진균일 수 있다.

본 발명에서, 식물은 아라비도스피스(Arabidospis), 니코티아나, 솔라눔, 락투카, 브라시카, 오리자, 아스파라거스, 피숨, 메디카고, 제아, 호르데움, 세칼레, 트리티쿰, 캅시쿰, 쿠쿠미스, 쿠쿠르비타, 시트룰루스, 시트러스 또는 소르굼 속의 식물일 수 있다. 보다 바람직하게는, 식물은 아라비도스피스 탈리아나(Arabidospis thaliana), 니코티아나 타바쿰(Nicotiana tabaccum), 솔라눔 리코페르시쿰(Solanum lycopersicum), 솔라눔 투베로숨(Solanum tuberosum), 솔라눔 멜론게나(Solanum melongena), 솔라눔 에스쿨렌툼(Solanum esculentum), 락투카 살리바(Lactuca saliva), 브라시카 나푸스(Brassica napus), 브라시카 올레라세아(Brassica oleracea), 브라시카 라파(Brassica rapa), 오리자 글라베르리마(Oryza glaberrima), 오리자 사티바(Oryza sativa), 아스파라거스 오피시날리스(Asparagus officinalis), 피숨 사티붐(Pisum sativum), 메디카고 사티바(Medicago sativa), 제아 마이스(Zea mays), 호르데움 불가레(Hordeum vulgare), 세칼레 세레알(Secale cereal), 트리티쿰 아에스티붐(Triticum aestivum), 트리티쿰 두룸(Triticum durum), 캅시쿰 사티부스(Capsicum sativus), 쿠쿠르비타 페포(Cucurbita pepo), 시트룰루스 라나투스(Citrullus lanatus), 쿠쿠미스 멜로(Cucumis melo), 시트러스 아우란티폴리아(Citrus aurantifolia), 시트러스 막시마(Citrus maxima), 시트러스 메디카(Citrus medica) 또는 시트러스 레티쿨라타(Citrus reticulata) 종의 식물일 수 있다.

본 발명에서, 동물 세포는 호모(Homo), 라투스(Rattus), 무스(Mus), 수스(Sus), 보스(Bos), 다니오(Danio), 카니스(Canis), 펠리스(Felis), 에쿠스(Equus), 살모(Salmo), 온코린쿠스(Oncorhynchus), 갈루스(Gallus), 멜레아그리스(Meleagris), 드로소필라(Drosophila) 또는 카에노라브디티스(Caenorhabditis) 속의 세포일 수 있으며; 보다 바람직하게는, 동물 세포는 호모 사피엔스(Homo sapiens), 라투스 노르베기쿠스(Rattus norvegicus), 무스 무스쿨루스(Mus musculus), 수스 스크로파(Sus scrofa), 보스 타우루스(Bos taurus), 다니오 레리오(Danio rerio), 카니스 루푸스(Canis lupus), 펠리스 카투스(Felis catus), 에쿠스 카발루스(Equus caballus), 온코린쿠스 미키스(Oncorhynchus mykiss), 갈루스 갈루스(Gallus gallus) 또는 멜레아그리스 갈로파보(Meleagris gallopavo) 종의 세포일 수 있으며; 동물 세포는 비-제한적인 예로서 살모 살라르(Salmo salar), 경골 어류 또는 제브라피시 종으로부터의 어류 세포일 수 있다. 본 발명에서의 동물 세포는 또한 비-제한적인 예로서 드로소필라 멜라노가스테르(Drosophila melanogaster)로부터의 곤충 세포일 수 있으며; 동물 세포는 또한 비-제한적인 예로서 카에노라브디티스 엘레간스(Caenorhabditis elegans)로부터의 벌레 세포일 수 있다.

본 발명에서, 세포는 식물 세포, 포유동물 세포, 어류 세포, 곤충 세포, 또는 시험관내 배양을 위해 상기 유기체들로부터 유래된 세포주 또는 생 조직으로부터 바로 얻고 시험관내 배양용으로 확립된 1차 세포일 수 있다. 비제한적인 예로서, 세포주는 CHO-K1 세포; HEK293 세포; Caco2 세포; U2-OS 세포; NIH 3T3 세포; NSO 세포; SP2 세포; CHO-S 세포; DG44 세포; K-562 세포, U-937 세포; MRC5 세포; IMR90 세포; Jurkat 세포; HepG2 세포; HeLa 세포; HT-1080 세포; HCT-116 세포; Hu-h7 세포; Huvec 세포; Molt 4 세포로 이루어진 군으로부터 선택될 수 있다.

이러한 모든 세포주는, 흥미있는 유전자 또는 단백질의 생성, 발현, 정량화, 검출 및 연구를 위한 세포주 모델을 제공하도록 본 발명의 방법에 의해 변형될 수 있으며, 이러한 모델은 또한 다양한 분야, 예컨대 비제한적인 예로서 화학, 바이오연료, 치료학 및 농경학에서의 연구 및 제조에서 흥미로운 생물학적으로 활성인 분자를 스크리닝하는 데 사용될 수 있다.

본 발명은 또한 예를 들어 항-바이러스 치료에서, 예를 들어 세포 내 유전 물질을 변경하기 위해, 유전자 발현을 조절하기 위해, 그리고 병원성 서열을 표적화하기 위해 TAL 이펙터 내의 서열-특이적 DNA 결합 도메인을 이용하는 방법을 제공한다. 예를 들어, 일부 실시양태에서, 본 발명은 세포 유전 물질을 변형시키는 방법을 제공한다. 일부 실시양태에서, 상기 방법은 TAL 이펙터 DNA 결합 도메인을 함유하는 폴리펩티드, 또는 이러한 폴리펩티드를 코딩하는 핵산을 세포 내로 도입하는 것을 포함한다. TAL 이펙터 DNA 결합 도메인은 DNA 변형 효소 (예를 들어, 엔도뉴클레아제)의 일부분 또는 모든 부분에 융합될 수 있다. 일부 실시양태에서, 상기 방법은 2종 이상의 재조합 핵산을 세포 내로 도입하는 것을 포함한다. 제1 재조합 핵산은, 세포에서 발견되는 예비선별된 해당 표적 뉴클레오티드 서열에 대한 하나 이상의 변형 (즉, 치환, 결실 또는 삽입)을 포함하는 공여자 뉴클레오티드 서열을 함유한다. 공여자 뉴클레오티드 서열은 내인성 표적 뉴클레오티드 서열로 상동성 재조합되어, 내인성 서열 또는 그의 일부분이 공여자 서열 또는 그의 일부분으로 대체되도록 할 수 있다. 표적 뉴클레오티드 서열은 전형적으로 서열-특이적 TALEN을 위한 인식 부위를 포함한다. 일부 경우에, 표적 뉴클레오티드 서열은 2종 이상의 별개의 TALEN을 위한 인식 부위 (예를 들어, 별개의 DNA 서열 결합 특이성을 갖는 TALEN이 사용될 수 있도록, 별개인 2종의 대향 표적 서열)를 포함할 수 있다. 이러한 경우에, DNA 절단의 특이성은 오직 하나의 표적 서열 (또는 동일한 표적 서열의 다수의 복사물)이 사용되는 경우에 비해 증가할 수 있다.

제2 재조합 핵산은 표적 뉴클레오티드 서열 내 인식 부위에 결합하는 서열 특이적 TALEN을 코딩하는 뉴클레오티드 서열을 함유한다. 일부 경우에, 공여자 뉴클레오티드 서열, 및 서열-특이적 뉴클레아제를 코딩하는 뉴클레오티드 서열은 동일한 핵산 구조체에 함유될 수 있다. 별법으로, 공여자 뉴클레오티드 서열 및 TALEN 코딩 서열은 별개의 구조체에 함유될 수 있거나, 또는 TALEN 폴리펩티드는 생성되어 세포 내로 바로 도입될 수 있다.

일부 실시양태에서, 선별 마커를 코딩하는 뉴클레오티드 서열을 함유하는 제3 재조합 핵산이 또한 사용될 수 있다. 제2 및 제3 재조합 핵산은 내인성 서열로 재조합되어 세포의 게놈 내로 통합될 수 있다. 이러한 재조합 사건은 변칙적 (즉, 무작위적)일 수 있거나, 또는 이들은 상동성 재조합을 통해 또는 부위-특이적 재조합을 통해 발생할 수 있다. 재조합 핵산들은 동시에 또는 순차적으로 세포 내로 형질전환될 수 있고, 형질전환 전에 선형화될 수 있다.

세포가 식물 세포인 경우, 본원에 제공된 방법은 소정의 단계들, 예컨대 형질전환된 세포를 함유하는 식물을 생성시키는 단계, 상기 식물의 자손을 생성시키는 단계, 선별 마커 (포함되는 경우)를 발현시키는 식물을 선별 또는 스크리닝하는 단계, 선별된 식물의 자손을 생성시키는 단계, 및 식물 (예를 들어, 조직, 종자, 전구 세포 또는 식물 전체) 또는 식물의 자손을 표적 뉴클레오티드 서열에서의 재조합에 대해 시험하는 단계를 추가로 포함할 수 있다. 일부 경우에, 상기 방법은 선별된 식물체를 이종교배시켜 선별 마커를 제거하는 단계, 및/또는 선별되거나 이종교배된 식물을 서열-특이적 뉴클레아제의 부재에 대해 스크리닝하는 단계를 포함할 수 있다.

일부 실시양태에서, 본 발명은 세포, 예를 들어 원핵생물 세포, 동물 세포 또는 식물 세포의 유전 물질을 변형시키는 방법을 제공한다. 상기 방법은, 세포 내 존재하는 해당 표적 뉴클레오티드 서열에 대한 하나 이상의 뉴클레오티드 서열 내 변형을 포함하는 변형된 표적 뉴클레오티드 서열, 뿐만 아니라 서열-특이적 TALEN을 위한 인식 부위를 함유하는 제1 재조합 핵산, 및 서열-특이적 TALEN을 코딩하는 뉴클레오티드 서열을 함유하는 제2 재조합 핵산을 세포 내로 도입시키는 것을 포함할 수 있다. 세포가 식물 세포인 경우, 상기 세포를 함유하는 식물이 생성될 수 있고, 상기 식물 (또는 그의 자손)로부터 얻은 세포, 종자 또는 조직은 표적 뉴클레오티드 서열에서의 재조합에 대해 분석될 수 있다. 제1 및 제2 재조합 핵산은 동시에 또는 연속적으로 세포 내로 형질전환될 수 있고, 하나 또는 둘 모두는 형질전환 전에 선형화될 수 있다. 일부 경우에, 제1 및 제2 재조합 핵산은 동일한 구조체에 존재할 수 있다.

일부 경우에, 상기 방법은 또한 선별 마커를 코딩하는 뉴클레오티드 서열을 함유하는 제3 재조합 핵산을 세포 내로 도입시키고, 세포, 세포로부터 생성된 유기체 또는 이들의 자손이 선별 마커를 발현시키는지의 여부를 결정하는 것을 포함할 수 있다. 상기 방법은 세포, 유기체 또는 이들의 자손을 선별 마커의 부재에 대해 스크리닝하는 것을 포함할 수 있다. 선별 마커를 코딩하는 뉴클레오티드 서열은, 제2 서열-특이적 뉴클레아제에 대한 절단 부위에서의 세포에 내인성인 뉴클레오티드 서열과 유사하거나 동일한 뉴클레오티드 서열, 또는 서열-특이적 재조합효소를 위한 인식 부위의 양 측면에 위치하거나 또는 측면에 위치하지 않을 수 있다. 일부 경우에, 상기 방법은 또한 유기체를 이종교배시키는 단계를 포함할 수 있다. 이종교배된 자손은 선별 마커의 부재에 대해 스크리닝될 수 있다.

본 발명은 또한, 표적 DNA 서열, 예를 들어 염색체, 미토콘드리아 또는 엽록체 서열 (상동성 재조합이 발생하는 것이 요구됨)을 함유하는 세포를 제공하는 것, 표적 DNA 서열 내 특정 뉴클레오티드 서열에 조합으로 결합하는 복수의 TAL 이펙터 반복물을 갖는 TAL 이펙터 도메인 및 DNA 변형 효소 도메인 (예를 들어, 엔도뉴클레아제 도메인)을 함유하는 TALEN을 제공하는 것, 표적 DNA의 적어도 일부분에 상동성인 서열을 함유하는 핵산을 제공하는 것, 및 세포 내 표적 DNA 서열을 TAL 엔도뉴클레아제와 접촉시켜 세포 내 표적 DNA 서열 내 또는 그에 인접한 뉴클레오티드 서열의 이중 가닥이 절단되도록 하는 것을 포함하는, 세포 (예를 들어, 식물 세포 또는 동물 세포)의 유전 물질을 변형시키는 방법을 제공한다. 이러한 절단은 표적 DNA 서열에서의 상동성 재조합의 빈도를 향상시킬 수 있다. 표적 DNA 서열은 세포에 내인성일 수 있다. 상기 방법은 TAL 엔도뉴클레아제를 코딩하는 cDNA를 함유하는 벡터를 세포 내로 도입시키는 것 및 세포 내 TAL 엔도뉴클레아제 단백질을 발현시키는 것을 포함할 수 있다. 일부 경우에, TAL 엔도뉴클레아제 단백질 그 자체가, 예를 들어 기계적 주입에 의해, 박테리아 유형 III 분비 시스템을 통한 전달에 의해, 전기천공에 의해 또는 아그로박테리움(Agrobacterium) 매개된 전달을 통해 세포 내로 도입될 수 있다.

본원에 기재된 방법은 다양한 상황에서 사용될 수 있다. 농업분야에서, 예를 들어 본원에 기재된 방법은 표적 부위에서의 상동성 재조합을 촉진시켜, 이전에 통합된 형질전이 유전자 (예를 들어, 제초제 내성 형질전이 유전자)를 식물 계통, 종 또는 잡종으로부터 제거하는 데 유용하다. 본원에 기재된 방법은 또한 내인성 유전자를 변형시켜 상기 유전자에 의해 코딩된 효소가 제초제 내성을 수여하도록, 예를 들어 내인성 5-에놀피루빌 시키메이트-3-포스페이트 (EPSP) 신타제 유전자를 변형시켜 변형된 효소가 글리포세이트 제초제에 대한 내성을 수여하도록 사용될 수 있다. 또 다른 예로서, 본원에 기재된 방법은 식물 또는 포유동물의 대사 경로 (예를 들어, 지방산 생합성)에서 1종 이상의 내인성 유전자에 대한 조절 영역에서의 상동성 재조합을 촉진시켜, 이러한 유전자의 발현이 목적하는 방식으로 변형되도록 하는 데 유용하다. 본원에 기재된 방법은 동물 (예를 들어, 래트 또는 마우스)에서, 대사 경로 및 내부 신호전달 경로 (비제한적인 예임)에 관여하는 흥미있는 1종 이상의 내인성 유전자, 예컨대 세포-표면 마커를 코딩하는 유전자, 특정 질환에 연결되는 것으로 확인된 유전자, 및 동물 세포의 특정 표현형을 담당하는 것으로 공지되어 있는 임의의 유전자에서의 상동성 재조합을 촉진시키는 데 유용하다.

본 발명은 또한 특정 DNA 서열과 상호작용할 수 있는 서열-특이적 TAL 이펙터 (예를 들어, 특이적 위치에서 DNA를 절단시킬 수 있는 TALEN)를 고안하는 방법을 제공한다. 상기 방법은, TAL 이펙터 결합 (예를 들어, 이중 가닥 절단의 도입이 요구되는 제2 뉴클레오티드 서열에 인접한 서열)을 갖는 것이 요구되는 표적 뉴클레오티드 서열 (예를 들어, 내인성 염색체 서열, 미토콘드리아 DNA 서열 또는 엽록체 DNA 서열)을 확인하는 것, 및 표적 서열에 조합으로 결합하는 복수의 DNA 결합 반복물을 함유하는 서열 특이적 TAL 이펙터를 고안하는 것을 포함할 수 있다. 본원에 기재된 바와 같이, TAL 이펙터는 이들이 DNA와 상호작용하는 특이성을 결정하는 다수의 불완전한 반복물을 포함한다. 각각의 반복물은 반복물의 잔기 12 및 13에서의 특정 디-아미노산 서열에 따라, 단일 염기에 결합한다. 따라서, TAL 이펙터 내 반복물을 (예를 들어, 표준 기술 또는 본원에 기재된 기술을 이용하여) 조작함으로써, 특정 DNA 부위가 표적화될 수 있다. 이러한 조작된 TAL 이펙터는 예를 들어, 특정 DNA 서열에 표적화된 전사 인자로서 사용될 수 있다. 포괄적인 TAL 이펙터의 다이어그램은 도 1a (반복 영역은 개방된 박스형태(open box)로 나타내고, 대표적인 반복 서열 (서열 1) 내의 RVD는 밑줄로 나타냄)에 나타내었다.

RVD 및 이들의 상응하는 표적 뉴클레오티드의 예는 하기 표 1A에 나타내었다 (PCT 공보번호 WO2010/079430호를 또한 참조함).

<표 1A>

*은 RVD의 제2 위치에서의 아미노산 잔기의 결핍에 상응하는, 반복 서열 내의 갭을 나타냄.

다른 RVD 및 이들의 상응하는 표적 뉴클레오티드는 하기 표 1B에 나타내었다.

<표 1B>

서열-특이적 DNA 절단을 갖는 것이 요구되는 경우, 예를 들어 서열-특이적 TALEN은, (a) 내인성 염색체 뉴클레오티드 서열에 조합으로 결합하는 복수의 DNA 결합 반복 도메인 및 (b) 제2 뉴클레오티드 서열에서 이중 가닥 절단을 생성시키는 엔도뉴클레아제를 함유하도록 고안될 수 있다. 이러한 서열-특이적 DNA 절단은 본원에 기재된 바와 같이 상동성 재조합을 향상시키는 데 유용할 수 있다. TALEN에 대한 다른 용도에는, 예를 들어 바이러스에 대한 치료제로서의 용도가 포함된다. TALEN은 특정 바이러스 서열을 표적화하여 바이러스 DNA를 절단하고 독성을 감소시키거나 없애도록 조작될 수 있다.

본원에 제공된 물질 및 방법은, 표적화된 방식으로 특정 유전자의 서열을 변형시키는 데 사용될 수 있다. 하나의 유전자는, 조작된 TAL 이펙터가 표적화될 수 있는 복수의 서열을 함유할 수 있다. 그러나, 본원에 기재된 바와 같이, 특정 표적 서열은 보다 효과적으로 표적화될 수 있다. 예를 들어, 실시예 9에 제시된 바와 같이, 특정한 특징을 갖는 서열은 TAL 이펙터에 의해 보다 효과적으로 표적화될 수 있다. 따라서, 본원에 제공된 방법은 특정 기준을 충족하는 표적 서열을 확인하는 것을 포함할 수 있다. 이들은, i) 15개 염기의 최소 길이 및 5'에서 3'로의 방향 (5' 말단의 바로 앞 부위에 T)을 갖고; ii) 제1 (5') 위치에 T를 갖지 않거나 또는 제2 위치에 A를 갖지 않고; iii) 마지막 (3') 위치에서 T로 종결되고 마지막 위치 옆에 G를 갖지 않고; iv) 0 내지 63％ A, 11 내지 63％ C, 0 내지 25％ G 및 2 내지 42％ T의 염기 조성물을 갖는 서열을 포함한다.

본원에 기재된 TALEN은 일반적으로 이량체로서 작용하기 때문에, 본원에 제공된 방법의 특정 실시양태는 세포에서 제1 게놈 뉴클레오티드 서열 및 제2 게놈 뉴클레오티드 서열을 확인하는 것을 포함할 수 있으며, 여기서 제1 및 제2 뉴클레오티드 서열은 상기 기재된 기준 중 하나 이상을 충족시키고 15-18 bp로 분리된다. 특정 경우에서, 하나의 TALEN 폴리펩티드는 각각의 뉴클레오티드 서열에 결합할 수 있고, TALEN에 함유된 엔도뉴클레아제는 15-18 bp 스페이서 내에서 절단될 수 있다.

본 발명은 목적하는 핵산이 도입된 유전적으로 변형된 동물의 발생 방법을 또한 제공한다. 이러한 방법은 핵산을 도입하는 것이 바람직한 내인성 염색체 표적 DNA 서열을 함유하는 세포를 수득하고, 세포를 TALEN으로 도입하여 내인성 염색체 표적 DNA 서열 내에 이중 가닥 절단을 발생시키고, 내인성 염색체 표적 DNA의 적어도 일부와 상동성인 서열을 함유하는 외인성 핵산을 세포로 도입하고 (여기서, 도입은 외인성 핵산과 내인성 염색체 표적 DNA 사이에서 발생하는 상동성 재조합을 가능하게 하는 조건하에 수행함), 상동성 재조합이 발생한 1차 세포로부터 동물을 발생시키는 것을 포함할 수 있다. 상동성 핵산은, 예를 들어 상동성 재조합 후 유전자에 지장을 주는 뉴클레오티드 서열, 상동성 재조합 후 유전자를 대체하는 뉴클레오티드 서열, 상동성 재조합 후 점 돌연변이를 유전자로 도입시키는 뉴클레오티드 서열, 또는 상동성 재조합 후 조절 부위를 도입하는 뉴클레오티드 서열을 포함할 수 있다.

본원에 제공된 방법은 또한 목적하는 핵산이 도입된 유전적으로 변형된 식물을 발생시키기 위해 사용될 수 있다. 이러한 방법은 핵산을 도입하는 것이 바람직한 내인성 표적 DNA 서열을 함유하는 식물 세포를 수득하고, 내인성 표적 DNA 서열 내에 이중 가닥 절단을 발생시키는 TALEN을 도입하고, 내인성 표적 DNA의 적어도 일부와 상동성인 서열을 함유하는 외인성 핵산을 식물 세포로 도입하고 (여기서, 도입은 외인성 핵산과 내인성 염색체 표적 DNA 사이에서 발생하는 상동성 재조합을 가능하게 하는 조건하에 수행함), 상동성 재조합이 발생한 식물 세포로부터 식물을 발생시키는 것을 포함할 수 있다.

본원에서 제공된 TALEN-촉진 상동성 재조합 방법에 의해 발생된 세포 중의 DNA는 이러한 방법을 겪지 않은 세포와 비교해서 변형되고, 변형된 DNA를 함유하는 세포는 "유전적으로 변형된"으로 지칭한다. 그러나, 이러한 변형이 상동성 재조합을 포함하고 트랜스진의 불규칙 통합을 포함하지 않기 때문에, 이러한 세포를 함유하는 유기체는 조절 목적에 고려되는 GMO가 아님을 유념하길 바란다. 따라서, 본원에 기재된 TALEN-촉진 방법을 사용하여 유전적 변형을 발생시키는 것은, 예를 들어 이들과 연관된 시간 및 비용을 회피할 수 있음과 함께 표준 조절 절차라는 점에서 유리할 것이다.

본원에 제공된 바와 같이, 표적화된 유전자 재조합의 다른 방법은 선택된 DNA 표적 서열로 표적화된 TALEN을 코딩하는 핵산 분자를 세포 (예를 들어, 식물 세포, 곤충 세포, 경골 어류 세포, 또는 동물 세포)로 도입하고, 세포 내에서 TALEN의 발현을 유도하고, 돌연변이 (예를 들어, 유전 물질의 결실, 유전 물질의 삽입, 유전 물질의 결실 및 삽입 모두)를 나타내는 선택된 DNA 표적 서열의 재조합 세포를 확인하는 것을 포함할 수 있다. 공여자 DNA를 또한 세포로 도입할 수 있다.

특정 실시양태에서, 단량체 TALEN을 사용할 수 있다. 본원에 기재된 TALEN은 전형적으로 두 TAL 이펙터 도메인이 각각 FokI 제한 효소의 촉매 도메인에 융합되도록 스페이서를 사용하여 이연 (bipartite) 인식 부위에 걸쳐 이량체로서 기능하고, 각각의 생성된 TALEN을 위한 DNA 인식 부위는 스페이서 서열로 분리되고, 각각의 TALEN 단량체가 인식 부위로 결합되는 것은 FokI의 이량체화를 가능하게 하고 스페이서 내에 이중 가닥 파괴를 생성한다 (예를 들어, 문헌 [Moscou and Bogdanove (2009) Science 326:1501] 참조). 그러나, 단일 TAL 이펙터가 이량체화가 기능하는 것을 요구하지 않는 뉴클레아제에 융합되도록 단량체 TALEN이 또한 제작될 수 있다. 예를 들어, 하나의 이러한 뉴클레아제는 두 단량체가 단일 폴리펩티드로서 발현되는 FokI의 단일-사슬 변이체이다 (문헌 [Minczuk et al. (2008) Nucleic Acids Res. 36:3926-3938]). 다른 자연 발생 또는 조작된 단량체 뉴클레아제가 또한 이러한 역할로서 작용할 수 있다. 단량체 TALEN을 위해 사용되는 DNA 인식 도메인은 자연 발생 TAL 이펙터로부터 유래될 수 있다. 별법으로, DNA 인식 도메인은 특이적 DNA 표적을 인식하기 위해 조작될 수 있다. 조작된 단일-사슬 TALEN은 이들이 단지 하나의 조작된 DNA 인식 도메인을 필요로 하기 때문에 구조체에 용이할 수 있으며 알맞게 사용될 수 있다.

특정 실시양태에서, 이량체 DNA 서열-특이적 뉴클레아제는 상이한 두 DNA 결합 도메인 (예를 들어, 하나의 TAL 이펙터 결합 도메인 및 분자의 또다른 유형으로부터의 하나의 결합 도메인)을 사용하여 발생할 수 있다. 상기 기재된 바와 같이, 본원에 기재된 TALEN은 전형적으로 스페이서를 사용하여 이연 인식 부위에 걸쳐 이량체로서 작용한다. 이러한 뉴클레아제 구조는 또한 예를 들어 하나의 TALEN 단량체 및 하나의 징크 핑거 뉴클레아제 단량체로부터 발생된 표적-특이적 뉴클레아제를 위해 사용될 수 있다. 이러한 경우에, TALEN 및 징크 핑거 뉴클레아제 단량체를 위한 DNA 인식 부위는 적절한 길이의 스페이서로 분리될 수 있다. 두 단량체의 결합은 FokI의 이량체화를 가능하게 하고 스페이서 서열 내에 이중 가닥 파괴를 생성할 수 있다. 징크 핑거 이외의 DNA 결합 도메인, 예컨대 호메오도메인, myb 반복물 또는 류신 지퍼가 또한 FokI에 융합되고 TALEN 단량체와의 파트너로 작용하여 기능적 뉴클레아제를 생성할 수 있다.

특정 실시양태에서, TAL 이펙터는 다른 단백질 도메인 (예를 들어, 비-뉴클레아제 단백질 도메인)을 특정 뉴클레오티드 서열로 표적화하는데 사용될 수 있다. 예를 들어, TAL 이펙터는 제한 없이 DNA 상호작용 효소 (예를 들어, 메틸라제, 토포이소머라제, 인터그라제, 트랜스포사제, 또는 리가제), 전사 활성화제 또는 리프레서로부터의 단백질 도메인, 또는 다른 단백질, 예컨대 히스톤과 상호작용하거나 이를 변형시키는 단백질에 연결될 수 있다. 이러한 TAL 이펙터 융합의 적용에는, 예를 들어 후생적 조절 요소의 생성 또는 변형, DNA에서의 부위-특이적 삽입, 결실, 또는 회복의 생성, 유전자 발현 제어, 및 염색질 구조의 변형이 포함된다.

특정 실시양태에서, 표적 서열의 스페이서는 TALEN 특이성 및 활성을 조정하도록 변화시키거나 선택할 수 있다. 스페이서를 사용하여 이연 인식 부위에 걸쳐 이량체로서 작용하는 TALEN에 대해 본원에 나타낸 결과는 TALEN이 스페이서 길이의 범위에 걸쳐 작용할 수 있고, TALEN의 활성이 스페이서 길이에 따라 다양함을 나타낸다. 예를 들어, 하기 실시예 6을 참조하기 바란다. 스페이서 길이의 융통성은 스페이서 길이가 높은 특이성으로 특정 서열 (예를 들어, 게놈에서)을 표적화하기위해 선택될 수 있음을 나타낸다. 또한, 여러 스페이서 길이에서 관찰되는 활성의 변화는 스페이서 길이가 목적하는 수준의 TALEN 활성을 달성하도록 선택될 수 있음을 나타낸다.

특정 실시양태에서, TALEN 활성은 DNA 결합 도메인(들) 내의 반복물의 수 및 조성을 변화시킴으로써 조정할 수 있다. 본원의 실시예 7에 기재된 바와 같이, 예를 들어 PthXoI-기초 TALEN은 AvrBs3-기초 TALEN 보다 큰 활성을 나타낸다. PthXoI는 이의 반복물의 수 및 RVD 조성 모두에서 AvrBs3와 상이하다. 또한, 이들 단백질을 위한 자연 발생 DNA 인식 부위는 문헌 [Moscou and Bogdanove] (상기)에 의해 기재된 TAL 이펙터 DNA 암호를 기초로 예시된 각각의 인식 서열로부터의 이들의 일탈과 상이하다. 또한, 길이가 동일하나 (12 RVD) 이들의 활성이 상이한 여러 RVD 조성의 몇몇 맞춤형 TALEN, 및 13 RVD 맞춤형 TALEN은 12 RVD 맞춤형 TALEN 보다 높은 활성을 갖는다. 따라서, TALEN은 중요한 DNA 서열을 인식하도록 조작될 수 있을 뿐만 아니라, (1) 반복물의 수는 활성을 조정하기 위해 변화시킬 수 있고, (2) 여러 결합 부위는 활성의 여러 수준을 달성하도록 선택될 수 있으며, (3) RVD의 조성 및 (암호에 따른) 표적 부위에 대한 이들의 적합도를 TALEN 활성을 조정하기 위해 변화시킬 수 있다.

TALEN이 이종이량체 형태로 존재하는 경우, 예를 들어 TAL 이펙터 도메인 및 FokI 뉴클레아제 촉매 도메인 각각을 포함하는 상이한 두 단량체와 함께, RVD는 두 TAL 이펙터 도메인 각각에서 등수로 발견될 수 있거나, 또는 각각의 도메인은 여러 많은 RVD를 나타낼 수 있다. 예를 들어, 22 RVD 전체가 특정 이종이량체 TALEN에서 DNA를 결합시키기 위해 사용되는 경우, 11 반복물은 두 TAL 이펙터 도메인 각각에서 발견될 수 있으며; 별법으로, 10 반복물은 두 TAL 이펙터 도메인 중 하나에서 발견될 수 있고 12는 나머지에서 발견될 수 있다. 본 발명은 또한 단량체로서 작용하는 DNA 변형 효소 도메인이 있는 TALEN을 포함한다. 이러한 경우에, 모든 RVD는 단량체 효소에 융합하는 단일 TAL 이펙터 도메인에서 발견될 수 있다. 이러한 경우, 효과적인 결합을 가지기 위해, RVD의 수는 상응하는 이량체 TALEN에서 발견될 RVD의 총 수에 상응해야 한다. 예를 들어, 상이한 두 TAL 이펙터 도메인 (이량체 TALEN의 경우)상에 10 반복물을 갖는 대신에, 하나는 단일 TAL 이펙터 도메인 (단량체 TALEN의 경우)에서 20 반복물을 가질 것이다.

본 발명의 추가의 측면에서, 이량체 또는 단량체 TALEN 내의 반복물의 총 수는 14 이상이다. 본 발명의 또다른 추가의 측면에서, 이량체 또는 단량체 TALEN 내의 반복물의 총 수는 20 이상이다. 본 발명의 또다른 추가의 측면에서, 이량체 또는 단량체 TALEN 내의 반복물의 총 수는 24 이상이다. 본 발명의 또다른 추가의 측면에서, 이량체 또는 단량체 TALEN 내의 반복물의 총 수는 30 이상이다.

본 특허 출원은 또한 표적 DNA를 위한 향상된 표적화 능력을 갖는 TAL 이펙터 단백질의 발생 방법을 제공한다. 방법은, 예를 들어 각각의 반복물이 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 함유하는 다수의 DNA 결합 반복물이 있는 DNA 결합 도메인을 갖는 TAL 이펙터를 코딩하는 핵산을 발생시키는 것을 포함할 수 있으며, 여기서 각각의 DNA 결합 반복물은 표적 DNA에서 하나의 염기쌍의 인식을 담당한다. 하기 실시예 12에 기재된 바와 같이, 결합 부위의 위치 -1에서 T에 대한 요건의 완화는 조작된 TAL 이펙터 단백질의 표적화 능력을 증진시킬 수 있다. 따라서, TAL 이펙터를 코딩하는 핵산의 발생은 A, C, 또는 G에 대해 특이성을 갖는 변이체 제0 DNA 결합 반복 서열을 코딩하는 핵산을 도입하는 것을 포함하여 결합 부위의 위치 -1에서 T에 대한 요건을 제거할 수 있다.

또한, 본원에서 방법은 표적 DNA에 대한 향상된 표적화 능력을 갖는 TAL 이펙터의 발생을 제공한다. 이러한 방법은 각각의 반복물이 표적 DNA에서 염기쌍의 인식을 결정하는 RVD를 함유하는 다수의 DNA 결합 반복물을 갖는 DNA 결합 도메인을 포함하는 TAL 이펙터를 코딩하는 핵산의 발생을 포함할 수 있다. 하기 실시예 12에 기재된 바와 같이, NN (G를 인식하는 가장 일반적인 RVD)의 특이성은 일반적으로 약한 것으로 나타나고 문맥에서 다양할 수 있으나, 특정 RVD는 G에 대해 향상된 특이성을 가질 수 있다. 따라서, 본원에 제공된 방법은 G에 대해 보다 확고한 특이성을 가질 수 있는 교호 RVD를 사용하는 것을 포함할 수 있다. 예를 들어, RN, R^*, NG, NH, KN, K^*, NA, NT, DN, D^*, NL, NM, EN, E^*, NV, NC, QN, Q^*, NR, NP, HN, H^*, NK, NY, SN, S^*, ND, NW, TN, T^*, NE, NF, YN, Y^*, 및 NQ로 이루어진 군으로부터 선택된 1종 이상의 RVD를 사용할 수 있으며, 여기서 별표 (*)는 RVD의 제2 위치에서의 간극을 나타낸다.

제조품

본 발명은, 예를 들어 TALEN을 코딩하는 핵산 분자, TALEN 폴리펩티드, 이러한 핵산 분자 또는 폴리펩티드를 함유하는 조성물, 또는 TAL 엔도뉴클레아제 조작된 세포주를 함유하는 제조품을 또한 제공한다. 이러한 물품은, 예를 들어 연구 도구로서, 또는 치료상으로 사용될 수 있다.

특정 실시양태에서, 제조품은 본원에 제공된 방법을 사용하여 발생된 식물로부터의 종자를 포함할 수 있다. 종자는 당업계에 공지된 수단을 사용하여 컨디셔닝될 수 있고 당업계에 널리 공지된 포장재를 사용하여 포장되어 제조품을 제조할 수 있다. 종자의 포장은 라벨, 예를 들어 포장재를 안전하게 하는 택 또는 라벨, 포장재상에 인쇄된 라벨 또는 포장재 내에 삽입된 라벨을 가질 수 있다. 라벨은 포장 내에 함유된 종자가 유전적으로 변형된 식물의 작물을 생성할 수 있음을 나타낼 수 있고, 변형되지 않은 식물에 비해 유전적 변형에 의해 변경된 특징을 기재할 수 있다.

다른 정의

- 폴리펩티드 서열 중 아미노산 잔기 또는 서브유닛은 하나의 문자 코드에 따라 본원에 명시되는데, 예를 들어 Q는 Gln 또는 글루타민 잔기를 의미하고, R은 Arg 또는 아르기닌 잔기를 의미하고 D는 Asp 또는 아스파르트산 잔기를 의미한다.

- 아미노산 치환은 하나의 아미노산 잔기를 또다른 것으로 대체하는 것을 의미하며, 예를 들어 펩티드 서열에서 아르기닌 잔기를 글루타민 잔기로 대체하는 것이 아미노산 치환이다.

- 뉴클레오티드는 다음과 같이 명시된다: 하나의 문자 코드가 뉴클레오시드의 염기를 명시하는데 사용된다: a는 아데닌이고, t는 티민이고, c는 시토신이고, g는 구아닌이다. 변성된 뉴클레오티드에 대해, r은 g 또는 a (퓨린 뉴클레오티드)를 나타내고, k는 g 또는 t를 나타내고, s는 g 또는 c를 나타내고, w는 a 또는 t를 나타내고, m은 a 또는 c를 나타내고, y는 t 또는 c (피리미딘 뉴클레오티드)를 나타내고, d는 g, a, 또는 t를 나타내고, v는 g, a 또는 c를 나타내고, b는 g, t 또는 c를 나타내고, h는 a, t 또는 c를 나타내고, n은 g, a, t 또는 c를 나타낸다.

- 용어 "DNA 변형 효소"는 DNA 변형 (절단, 공유 상호작용, 수-매개 상호작용...)의 수준이 어떻든지 세포의 유전 물질을 변형시킬 수 있는 임의의 단백질을 지칭한다. DNA-상호작용 단백질 (예를 들어, 메틸라제, 토포이소머라제, 인터그라제, 트랜스포사제, 또는 리가제), 전사 활성화제 또는 리프레서, 다른 단백질, 예컨대 히스톤, 및 뉴클레아제는 "DNA 변형 효소"의 의미에 포함되도록 의도된다. TAL 이펙터-DNA 변형 효소에 포함되는 경우, DNA 변형 효소는 DNA 변형 효소 도메인으로서 지칭된다.

- 용어 "뉴클레아제"는 엑소뉴클레아제 및 엔도뉴클레아제를 포함하도록 의도된다.

- 용어 "엔도뉴클레아제"는 DNA 또는 RNA 분자, 바람직하게는 DNA 분자 내의 핵산 사이의 결합의 가수분해 (절단)를 촉매화할 수 있는 임의의 야생형 또는 변이체 효소를 지칭한다. 엔도뉴클레아제의 비제한적인 예에는 유형 II 제한 엔도뉴클레아제, 예컨대 FokI, HhaI, HindIII, NotI, BbvCI, EcoRI, BglI, 및 AlwI가 포함된다. 전형적으로 약 12-45 염기쌍 (bp), 보다 바람직하게는 14-45 bp 길이의 폴리뉴클레오티드 인식 부위를 갖는 경우 엔도뉴클레아제는 거의 절단되지 않은 엔도뉴클레아제를 또한 포함한다. 거의 절단되지 않은 엔도뉴클레아제는 규정된 좌위에서 DNA 이중 가닥 파괴 (DSB)를 유도함으로써 HR을 유의하게 증가시킨다 (문헌 [Rouet, Smih et al. 1994; Rouet, Smih et al. 1994; Choulika, Perrin et al. 1995; Pingoud and Silva 2007]). 거의 절단되지 않은 엔도뉴클레아제는 예를 들어 자동 유도 엔도뉴클레아제 (문헌 [Paques and Duchateau 2007]), 제한 효소, 예컨대 FokI의 촉매 도메인을 사용하여 조작된 징크-핑거 도메인의 융합으로부터 생성된 상상의 징크-핑거 뉴클레아제 (ZFN) (문헌 [Porteus and Carroll 2005]) 또는 화학적 엔도뉴클레아제 (문헌 [Eisenschmidt, Lanio et al. 2005; Arimondo, Thomas et al. 2006; Simon, Cannata et al. 2008])일 수 있다. 화학적 엔도뉴클레아제에서, 화학적 또는 펩티드 절단기는 핵산의 중합체 또는 특이적 표적 서열을 인식하는 또다른 DNA와 접합하여, 이에 따라 특이적 서열에 절단 활성을 표적화한다. 화학적 엔도뉴클레아제는 특이적 DNA 서열에 결합하는 것으로 공지된 오르토페난트롤린, DNA 절단 분자, 및 삼중나선-형성 올리고뉴클레오티드 (TFO)의 접합과 유사한 합성 뉴클레아제를 또한 포함한다 (문헌 [Kalish and Glazer 2005]). 이러한 화학적 엔도뉴클레아제는 본 발명에 따른 용어 "엔도뉴클레아제"에 포함된다. 이러한 엔도뉴클레아제의 예에는 I- Sce I, I- Chu I, I- Cre I, I- Csm I, PI- Sce I, PI-Tli I, PI- Mtu I, I- Ceu I, I- Sce II, I- Sce III, HO, PI- Civ I, PI- Ctr I, PI-Aae I, PI- Bsu I, PI- Dha I, PI- Dra I, PI- Mav I, PI- Mch I, PI- Mfu I, PI- Mfl I, PI-Mga I, PI- Mgo I, PI-Min I, PI- Mka I, PI- Mle I, PI- Mma I, PI- Msh I, PI- Msm I, PI- Mth I, PI- Mtu I, PI- Mxe I, PI- Npu I, PI- Pfu I, PI- Rma I, PI- Spb I, PI-Ssp I, PI- Fac I, PI- Mja I, PI- Pho I, PI-Tag I, PI-Thy I, PI- Tko I, PI- Tsp I, I-MsoI이 포함된다.

본 발명에 따른 엔도뉴클레아제는 전사 활성화제-유사 (TAL) 이펙터 엔도뉴클레아제 (TALEN)의 부분일 수 있다.

- "TALEN"은 전사 활성화제-유사 (TAL) 이펙터 결합 도메인 및 엔도뉴클레아제 도메인을 포함하는 단백질을 의도하며, 여기서 두 도메인의 융합은 "단량체 TALEN"을 초래한다. 특정 단량체 TALEN은 그 자체로 기능적일 수 있고 다른 것들은 또다른 단량체 TALEN과의 이량체화를 필요로 한다. 두 단량체 TALEN이 동일한 경우 이량체화는 동종이량체 TALEN을 초래하거나, 또는 단량체 TALEN이 상이한 경우 이종이량체 TALEN을 초래할 수 있다. 예를 들어 두 단량체 TALEN의 RVD 수가 상이한 경우 및/또는 1종 이상의 RVD의 함량 (즉, 아미노산 서열)이 상이한 경우 이들은 상이하다. "TAL 이펙터-DNA 변형 효소"는 전사 활성화제-유사 이펙터 결합 도메인 및 DNA-변형 효소 도메인을 포함하는 단백질을 의도한다.

"변이체"는 "변이체" 단백질, 즉 자연에서 자연적으로 존재하지 않고 유전자 조작 또는 불규칙 돌연변이생성에 의해 수득되는 단백질, 즉 조작된 단백질을 의도한다. 이러한 변이체 단백질은 예를 들어 야생형의 자연적으로 발생하는 단백질의 아미노산 서열 중 1종 이상의 잔기를 상이한 아미노산으로 치환함으로써 수득될 수 있다. 상기 치환(들)은 예를 들어 부위-지정된 돌연변이생성 및/또는 불규칙 돌연변이생성에 의해 도입될 수 있다.

"세포" 또는 "세포들"은 임의의 살아있는 원핵생물 또는 진핵생물 세포, 시험관내 배양을 위한 이들 유기체로부터 유래된 세포주, 동물 또는 식물 기원 1차 세포를 의도한다.

"1차 세포" 또는 "1차 세포들"은 살아있는 조직 (즉, 생검 물질)으로부터 직접 취한 세포 및 매우 적은 개체수 배가 (doubling)를 겪은 시험관내 성장을 위해 설정된 세포를 의도하고, 따라서 연속 발암성 또는 인공적으로 불멸하게 한 세포주에 비해 이들로부터 유래된 조직의 주요 기능적 성분 및 특징이 보다 대표적이다. 따라서 이들 세포는 이들이 지칭하는 생체내 상태에 대해 보다 가치있는 모델을 나타낸다.

- "상동성"은 또다른 것과 충분한 동일성을 가져서 서열 사이에 상동성 재조합을 초래하는 서열, 보다 바람직하게는 95% 이상, 바람직하게는 97%, 보다 바람직하게는 99%의 동일성을 갖는 서열을 의도한다.

- "동일성"은 2개의 핵산 분자 또는 폴리펩티드 사이의 서열 동일성을 가리킨다. 비교 목적으로 배열할 수 있는 각 서열에서의 위치를 비교하여 동일성을 결정할 수 있다. 비교된 서열 중 한 위치가 동일한 염기로 점유되는 경우, 그 분자는 그 위치에서 동일하다. 핵산 또는 아미노산 서열 사이의 유사성 또는 동일성의 정도는 핵산 서열에 의해 공유되는 위치에서의 동일하거나 또는 매칭되는 뉴클레오티드의 수의 함수이다. 2개의 서열 사이의 동일성을 계산하기 위해서 다양한 정렬 알고리즘 및/또는 프로그램 (GCG 서열 분석 패키지의 일부로서 이용가능한 FASTA 또는 BLAST (위스콘신 대학, 미국 와이오밍주 매디슨 소재)를 포함함)을 사용할 수 있고, 예를 들어 디폴트 설정으로 사용할 수 있다.

- "돌연변이"는 폴리뉴클레오티드 (cDNA, 유전자) 또는 폴리펩티드 서열 중 하나 이상의 뉴클레오티드/아미노산의 치환, 결실, 삽입을 의미한다. 상기 돌연변이는 유전자의 코딩 서열 또는 그의 조절 서열에 영향을 미칠 수 있다. 또한, 게놈 서열의 구조 또는 코딩된 mRNA의 구조/안정성에 영향을 미칠 수 있다.

- "유전자"는 특이적 단백질 또는 단백질의 절편을 코딩하는 염색체를 따라 선형 방식으로 배열된 DNA의 절편으로 구성되는 유전의 기본 단위를 의미한다. 유전자는 전형적으로 프로모터, 5' 비번역 영역, 하나 이상의 코딩 서열 (엑손), 임의로는 인트론, 3' 비번역 영역을 포함한다. 유전자는 종결자, 개선제 및/또는 사일렌서 (silencer)를 추가로 포함할 수 있다.

- 용어 "관심 유전자"는 공지되거나 또는 추정되는 유전자 생성물을 코딩하는 임의의 뉴클레오티드 서열을 가리킨다.

- 본원에 사용된 용어 "좌위"는 염색체 상 DNA 서열 (예를 들어, 유전자)의 특이적 물리적 위치이다. 용어 "좌위"는 보통 염색체 상 표적 서열의 특이적 물리적 위치를 가리킨다.

- "융합 단백질"은 별개 단백질을 고유하게 코딩하는 2개 이상의 유전자를 연결하는 것에 있는 당업계에 잘 공지된 과정의 결과를 의미하고, 상기 "융합 유전자"의 번역은 고유 단백질 각각으로부터 유래된 기능적 특성을 갖는 단일 폴리펩티드로 귀결된다.

- "촉매 도메인"은 상기 효소의 활성 부위를 함유하는 효소의 단백질 도메인 또는 모듈을 의미하고; 활성 부위는 기재의 촉매 작용이 일어나는 상기 효소의 일부를 의미한다. 효소뿐만 아니라 그의 촉매 도메인은 이들이 촉매하는 반응에 따라 분류되고 명명된다. 효소 위원회 번호 (EC 번호)는 이들이 촉매하는 화학 반응에 기초한, 효소에 대한 수적 분류 제도이다 (월드 와이드 웹; chem.qmul.ac.uk/iubmb/enzyme/). 본 발명의 범위에서, 임의의 촉매 도메인은 파트너로서 사용될 수 있고, TAL 이펙터 도메인에 융합되어 TAL 이펙터-DNA 변형 효소로 귀결되는 키메라 융합 단백질을 발생시킬 수 있다. 이러한 촉매 도메인의 비제한적 예는 MmeI, EsaSSII, CstMI, NucA, EndA 에쉐리히아 콜라이 (Escherichia coli), NucM, EndA 스트렙토코커스 뉴모니아 (Streptococcus pneumonia), SNase 스타필로코커스 아우레우스 (Staphylococcus aureus), SNase 스타필로코서스 하이쿠스 (Staphylococcus hyicus), SNase 시겔라 플렉스네리 (shigella flexneri), 바실러스 수브틸리스 (Bacillus subtilis) yncB, 엔도데옥시리보뉴클레아제I 장내박테리아 파지 T7 (EndodeoxyribonucleaseI Enterobacteria phage T7), EndoG 보빈 (bovine), ttSmr DNA 미스매치 수선 단백질 mutS, 메트나제 (Metnase)의 절단 도메인일 수 있다.

본 발명의 프랙티스는, 다르게 명시되지 않는 한, 당업계의 범위에 포함되는 세포생물학, 세포 배양, 분자생물학, 트랜스제닉 생물학, 미생물학, 재조합 DNA 및 면역학의 통상의 기술을 이용할 것이다. 이러한 기술들은 문헌에 자세하게 설명되어 있다. 예를 들어, 문헌 [Current Protocols in Molecular Biology (Ausubel, 2000, Wiley and son Inc, Library of Congress, USA)]; [Molecular Cloning: A Laboratory Manual, Third Edition, (Sambrook et al, 2001, Cold Spring Harbor, New York: Cold Spring Harbor Laboratory Press)]; [Oligonucleotide Synthesis (M. J. Gait ed., 1984)]; 미국 특허 제4,683,195호; [Nucleic Acid Hybridization (Harries and Higgins eds. 1984)]; [Transcription and Translation (Hames and Higgins eds. 1984)]; [Culture of Animal Cells (Freshney, Alan R. Liss, Inc., 1987)]; [Immobilized Cells and Enzymes (IRL Press, 1986); [Perbal, A Practical Guide to Molecular Cloning (1984)]; [the series, Methods in Enzymology (Abelson and Simon, eds.-in-chief, Academic Press, Inc., New York), 구체적으로 Vols.154 및 155 (Wu et al. eds.) and Vol. 185, "Gene Expression Technolog" (Goeddel, ed.)]; [Gene Transfer Vectors For Mammalian Cells (Miller and Calos eds., 1987, Cold Spring Harbor Laboratory)]; [Immunochemical Methods in Cell and Molecular Biology (Mayer and Walker, eds., Academic Press, London, 1987)]; [Handbook of Experimental Immunology, Vols. I-IV (Weir and Blackwell, eds., 1986)]; 및 [Manipulating the Mouse Embryo, (Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y., 1986)]을 참조한다.

본 발명의 상기 적힌 기재는 임의의 당업자가 동일한 것을 제조하고 사용할 수 있도록 하는 제조 및 사용의 방식 및 과정을 제공하고, 이것은 특히 원래의 기재의 일부를 구성하는 부가된 청구범위의 주제를 위해서 제공된다.

상기 사용된 어구 "~로 이루어진 군으로부터 선택된", "~로부터 선택된" 등은 명시된 재료의 혼합물도 포함한다.

수치 한정 또는 범위가 본원에 언급된 경우, 단점 (endpoint)이 포함된다. 또한, 수치 한정 및 범위 내의 모든 값 및 하위범위는 명시적으로 기재된 것과 같이 구체적으로 포함된다.

상기 기재는 당업자가 본 발명을 제조하고 사용할 수 있도록 제시되고, 특정 적용 및 그의 요건의 맥락에서 제공된다. 바람직한 실시양태에 대한 다양한 변형은 당업자들에게 용이하게 명백할 것이고 본원에 정의된 일반적인 원칙은 본 발명의 취지 및 범위에서 벗어나지 않고 기타 실시양태 및 적용범위에 적용될 수 있다. 따라서, 본 발명은 제시된 실시양태에 제한되는 것이 아니라 본원에 개시된 원칙 및 특징과 일치하는 가장 넓은 범위에 부합될 것이다.

본 발명을 일반적으로 기재하였고, 설명의 목적으로만 본원에 제공된 일부 특이적 실시예를 참조하여 추가로 해석될 수 있으며, 본 발명은 다르게 명시되지 않는 한 청구범위에 기재된 본 발명의 범위를 제한하지 않는 하기 실시예에 추가로 기재되어 있다.

실시예

실시예 1 - 암호는 TAL 이펙터-DNA 인식을 지배한다

TAL 표적 부위 중 RVD와 인접 뉴클레오티드 사이에 1 대 1 선형 상관관계가 존재하는지 여부를 결정하기 위해서, 10개의 TAL 이펙터 각각에 대해 공지된 표적 유전자의 예상된 프로모터 영역 (즉, 주석이 있는 번역 개시 부위 바로 직전 1,000 bp)을 RVD-뉴클레오티드 회합 중 엔트로피 (무질서도)를 최소화하는 정렬에 대한 TAL 이펙터 RVD 서열로 스캔하였다. 엔트로피를 정량화하기 위해서 하기 식을 사용하였고, 여기서 R은 이펙터에 대한 RVD 세트이고, D는 4개의 뉴클레오티드 (A, C, G, T)의 세트이고, f_ij는 i번째 RVD가 j번째 뉴클레오티드와 회합하는 관찰된 주기를 나타낸다.

다중 저 엔트로피 부위가 각각의 프로모터에 존재하였다. 그러나, 이펙터 AvrBs3에 대해, 단지 하나만 활성화에 충분하고 필요한 것으로 앞서 확인된 54 bp upa20 프로모터 단편으로 매핑하였고, 이것은 AvrBs3에 의해 직접적으로 활성화되는 유전자에 공통적인 UPA 박스와 일치하였다 ([Kay et al.(상기 문헌)]). 또한, 이펙터 PthXo1 및 AvrXa27에 대해, 단지 하나의 부위만 그의 각각의 표적의 활성화된 대립유전자 및 비-활성화된 대립유전자인 Os8N3 및 Xa27 사이의 다형성과 각각 중첩되었다. 상기 3개 부위에서의 정렬을 가로질러, RVD-뉴클레오티드 회합은 일관되어 있었고, 따라서 나머지 정렬을 이들 회합을 기준으로 선택하여 TAL 이펙터-표적 쌍 당 정확히 한 부위로 귀결되었다 (도 1b 및 표 2). 각각의 부위는 T로 시작하였다 (도 1d).

RVD-뉴클레오티드 회합에 의해 부여되는 특이성을 평가하기 위해서, 10개의 최소 엔트로피 TAL 이펙터-표적 부위 정렬을 가로질러 관찰된 모든 RVD-뉴클레오티드 회합의 빈도에 기초하여 가중 행렬을 우선 생성하였다 (도 1b). 이후, 가중 행렬을 사용하여 벼에서 각각 불필요하지 않은 유전자 모델, 벼 병원체 산토모나스 오리자에 (Xanthomonas oryzae)의 5개의 TAL 이펙터 (AvrXa27, PthXo1, PthXo6, PthXo7 및 Tal1c)에 대한 최고의 매치를 위해서 오리자 사티바 속 자포니카 cv. 니폰베어 (Oryza sativa spp. japonica cv. Nipponbare; Osa1, Release 6.0, rice.plantbiology.msu.edu)의 프로모터 영역, 번역 개시에 선행하는 1,000 bp를 스캔하였다. AvrXa27의 경우, Xa27의 서열 상류 (GenBank 접근 번호 AY986492)가 포함되었다. 상기 상류 서열은 니폰베어 중 존재하지 않았다. 관찰된 회합 빈도는 90％에 편중되었고, 나머지 10％는 모든 가능한 회합의 빈도에 동등하게 분배되었다. 도 1b에서 RVD-뉴클레오티드 회합 빈도로부터 유래된 빈도 스코어의 음의 log로 취해진 가중 행렬 스코어 (y 축)를 사용하여 정렬의 순위를 매겼다. 따라서, 스코어가 낮을수록, 매치는 더 양호하였다. PthXo1, PthXo6, PthXo7 및 Tal1c의 경우, 실험적으로 식별된 표적 유전자는 최고 또는 거의 최고의 매치였다. 더 양호한 매치는 T에 의해 선행되지 않았거나, 표적을 식별하기 위해서 사용된 마이크로검정 상에 나타나지 않았거나, 또는 인트론 및 EST 증거가 없었다. 역 상보체 프로모터 서열을 스캔하여 공지된 표적에 대해 전방향 부위보다 양호하지 않은 스코어링 (scoring) 정렬을 산출하였다. 상기 결과는 TAL 이펙터가 양성 가닥에 결합하는 것을 시사하지 않았으나, 이들이 양성 가닥에 대해 전방향에서 기능하는 것을 나타냈다. 5번째 이펙터, AvrXa27의 공지된 표적은 질환 내성 유전자 Xa27 ([Gu et al. (상기 문헌)])이었다. 상기 매치에 대한 더욱 좋지 못한 등급 (5,368)은 보정되거나, 또는 최근의 차선의 숙주 적응을 반영한 것일 수 있다. 더 양호한 스코어링 부위는 발병에 대한 AvrXa27에 의해 표적화된 유전자를 포함하는 것으로 예상되었다.

가중 행렬을 다시 사용하여, 40개의 추가의 X. 오리자에 TAL 이펙터가 있는 모든 벼 프로모터를 스캔하고 공공 마이크로검정 데이타 (PLEXdb.org, 접근 번호 OS3)에 기초하여 감염 중 하류 유전자가 활성화되는 최고의 정렬을 유지함으로써 10개의 추가 정렬을 수득하였다 (표 3). 초기 설정과 함께, T는 각 부위에 선행하였고, 역-가닥 부위는 더 양호하게 스코어링되지 않았다. 총 20개 정렬의 RVD-뉴클레오티드 회합 빈도를 도 1c에 제시하였다. 이들은 놀랍게도 단순한 암호를 구성하였다.

20개의 TAL 이펙터 뉴클레오티드 정렬의 확장된 세트 중 RVD-뉴클레오티드 빈도를 사용하여 새로운 가중 행렬을 생성하였고, 컴퓨터 스크립트를 파이톤 (Python) v2.5 (www.python.org)로 기재하였다. 상기 스크립트를 사용하여 관찰된 RVD-뉴클레오티드 회합 대 비관찰된 RVD-뉴클레오티드 회합에 대한 사용자-정의가능한 가중 인자가 있는 특정 TAL 이펙터에 매치하기 위한 임의의 컬렉션의 DNA 서열을 스캔할 수 있었다. 문헌 [Moscou and Bogdanove (상기 문헌)]을 참조한다.

암호에 일부 동의성이 존재하였다. 강한 회합은 대부분의 결합 친화성의 이유가 되는 앵커 (anchor)를 나타낼 수 있고, 약한 회합은 유연성의 척도를 제공한다. 그 대신에, 이웃 효과 (neighbor effect)가 연관될 수 있다. RVD 상에 양 측면에 조건화된 모든 RVD의 뉴클레오티드 회합 빈도를 측정하고 이들을 총 관찰된 빈도와 비교함으로써, 즉 이웃 RVD에 따라 RVD-뉴클레오티드 쌍형성을 좌측 또는 우측으로 구분하고, 구분된 각 쌍의 상대적인 빈도를 해당 쌍에 대한 전체 빈도와 비교함으로써 후자의 가능성을 조사하였다. 이웃에 의해 구분된 RVD-뉴클레오티드 회합의 빈도는 총 관찰된 빈도로부터 유의하게 벗어나지 않았으며, 이는 회합이 전후 관계와 무관하다는 것을 시사하였다.

20개의 표적 부위를 플랭킹하는 서열은 -1에서 T를 제외하고 보호된 뉴클레오티드를 드러내지 않았으나, 이들은 상기 부위에 이어서 C가 풍부하였고, 전체적으로 G가 부족하였다 (도 1d). 거의 예외 없이, 부위는 주석이 있는 전사 개시의 60 bp 상류 내에서 시작하였고, 번역 개시에 87 bp보다 더 가까이 존재하지 않았다 (표 2 및 표 3). RVD/뉴클레오티드 회합을 지배하는 추가의 규칙을 실시예 4 및 5에 기재하였다.

상기 결과로, 게놈 중 TAL 이펙터 표적의 예측 및 표적의 제작이 이제 가능해졌다. 부위를 예측하는 능력은 질환에서 중요한 숙주 유전자를 식별하는 것을 촉진시킬 것이다. 표적을 제작하는 능력은 보호된 또는 다중 TAL 이펙터에 반응성인 오래가는 내성 유전자를 설계하기 위한 장래성을 갖는다. 본원에 기재된 것과 같이, 임의적인 유전자 활성화에 대한 TAL 이펙터의 맞춤화 또는 DNA 변형에 대한 융합된 단백질의 표적화도 또한 가능하다.

<표 2>

<표 3>

실시예 2 - TALEN은 효모에서 기능할 수 있다

플라스미드 제작: BamHI를 갖는 플라스미드로부터 소화시켜 TAL 이펙터의 단백질 코딩 서열, AvrBs3을 수득하였다. 반복 도메인을 주로 코딩하는 DNA 단편을 SphI로 절단하였다. AvrBs3의 아미노산 서열을 GENBANK 접근 번호 P14727 및 서열 12 (도 3), 및 접근 번호 X16130 및 서열 13 하의 핵산 서열 (도 4) 하에 발견할 수 있었다. 도 4에서, BamHI 및 SphI 부위는 굵게 밑줄로 표시하였다. AvrBs3 BamHI 및 SphI 단편을 FokI 뉴클레아제 도메인을 코딩하는 서열에 인접한 뉴클레아제 발현 벡터 pDW1789_TAL로 클로닝하였다 (도 5). AvrBs3 표적 부위를 표적 리포터 플라스미드로 클로닝하기 위해서, 그 사이에 18 bp 스페이서 서열이 있는, 반전된 방향으로 배열된 2개의 AvrBs3 인식 부위를 함유하고, 5' 및 3' 말단에 각각 BglII 및 SpeI 돌출부 (overhang)가 있는 2개의 상보적 DNA 올리고 (oligo)를 합성하였다. 6, 9, 12 및 15 bp 스페이서 길이가 있는 인식 부위를 갖는 기타 리포터 플라스미드를 제조하였다. 어닐링된 DNA 올리고를 BglII 및 SpeI와 소화되는 리포터 플라스미드, pCP5로 클로닝하였다 (도 6).

효모 검정: 표적 리포터 플라스미드를 효모 균주 YPH499 (MAT a 균주)로 형질전환하고, 형질전환주를 트립토판이 결여된 완전 합성 배지 (SC-W)에 대해 선택하였다. TALEN 발현 플라스미드를 YPH500 (MAT α 균주)으로 형질전환하고; 형질전환주를 히스티딘이 결여된 SC 배지 (SC-H) 상에 평판 배양하였다. 표적 리포터 플라스미드를 갖는 효모 집락 및 TALEN 발현 플라스미드를 갖는 집락을 각각 액체 SC-W 및 SC-H 배지 중에서 30℃에서 밤새 배양하였다. 배양균을 동일한 OD₆₀₀으로 조정하고, 각각의 200 ㎕를 200 ㎕ YPD 배지에 혼합 첨가하였다. 혼합물을 30℃에서 4시간 동안 인큐베이션하여 효모 균주 중 2종을 교배시켰다. 혼합된 배양균을 스핀다운(spin down)시키고 5 ml SC-W-H 매질 중에서 30℃에서 밤새 또는 OD₆₀₀이 0.5 내지 1의 범위에 도달할 때까지 재현탁시켰다. 세포를 수확하고 양적 β-갈락토시다아제 검정을 기재된 바와 같이 실행하였다 (문헌 [Townsend et al. (2009) Nature 459:442-445]).

결과: TAL-FokI 융합은 TAL DNA 인식 도메인 및 비특이적 FokI DNA 절단 도메인으로 이루어진 부위-특이적 뉴클레아제이다. TAL DNA 인식 도메인은 상이한 DNA 서열을 결합시키도록 조작할 수 있다. 본원의 실시예 1에 기재된 바와 같이, DNA 결합 도메인의 신규한 부류인 TAL 이펙터에 대한 DNA 인식 특이성이 해독되었다. 특히, TAL 이펙터의 DNA 결합 도메인은 특이적 DNA 서열을 인식하고 결합할 수 있는 다양한 수의 34개 아미노산의 탠덤(tandem) 반복물을 함유한다. 반복물의 아미노산 서열은 반복물의 12 및 13 위치에서 2개의 인접한 고도의 가변 잔기를 제외하고는 보존된다. 상기 위치는 함께 하나의 반복물에서 하나의 뉴클레오티드까지, DNA 결합 부위에서의 개별 뉴클레오티드를 명시한다. TALEN의 구조는 도 7에 도시되어 있다. TALEN은 각 단량체가, FokI 엔도뉴클레아제로부터의 비특이적 절단 도메인에 융합되는 조작된 TAL DNA 인식 반복물로 구성되는 이량체로 작용한다. DNA 인식 반복물은 관심 게놈 내의 표적 DNA 서열을 결합시키도록 조작할 수 있다. TAL 뉴클레아제 단량체는 스페이서 서열에 의해 분리되는 2개의 DNA 반쪽 부위 중 하나에 결합한다. 이러한 스페이싱은 FokI 단량체가 이량체화되고 반쪽 부위 사이의 스페이서 서열 내에 이중 가닥 DNA 파손 (DSB)을 생성하는 것을 가능케 한다.

TAL 이펙터 DNA 인식 도메인의 잠재성을 탐구하기 위해, FokI 뉴클레아제 도메인과 융합될 때 천연 TAL 이펙터가 뉴클레아제로서 작용할 수 있는지를 결정하기 위한 실험을 수행하였다. TAL 뉴클레아제 발현 구조체 및 표적 리포터 구조체를 사용하여 효모 기재 검정을 수행하였다. 도 5에 도시된 바와 같이, 뉴클레아제 발현 구조체의 주쇄는 효모 TEF1 프로모터의 제어하에 N-말단 핵 위치 신호 (NLS) 및 FokI 뉴클레아제 도메인을 함유한다. 몇몇의 제한 부위는 FokI 뉴클레아제 도메인 및 NLS 모티프 사이에 위치하여 다양한 TAL 이펙터의 클로닝을 용이하게 한다. 표적 리포터 구조체는 도 6에 도시된 바와 같이 코딩 서열이 125 bp 복제된 분열된 lacZ 리포터 유전자를 갖는다. 복제는 TAL DNA 결합 도메인에 의해 인식되는 (2개의 반쪽 부위 및 스페이서 서열로 구성되는) 표적 서열 및 URA3 유전자를 플랭킹한다. TALEN이 표적 부위에서 DNA 이중 가닥 파손 (DSB)을 결합시키고 생성하는 경우, 효모 내의 이러한 파손은 주로 단일 가닥 어닐링을 통해 복제된 lacZ 서열 사이의 상동성 재조합에 의해 복구된다 (문헌 [Haber (1995) Bioessays 17:609]). 재조합은 작용성 lacZ 유전자의 재구성 및 URA3의 손실 (5-플루오로오로트산 내성을 부여함)을 일으킨다. lacZ 효소 활성을 측정하여 TALEN의 상대적인 절단 활성을 측정하였다.

본 연구에서, 서열 31 (도 8)에 나열된 중심 뉴클레아제 반복 영역을 갖는, 천연 TAL 이펙터인 AvrBs3을 뉴클레아제 발현 벡터로 클로닝하고, 18 bp 스페이서 서열을 갖는 AvrBs3 표적 부위 (역 배향으로 배열된 2개의 결합 부위)를 표적 리포터 벡터로 클로닝하였다. 도 9에 도시되고 상기 기재된 계획을 사용하여 효모 검정을 실행하였다. 결과는 AvrBs3 뉴클레아제 플라스미드 및 표적 리포터 플라스미드 둘 다를 이용하여 형질전환된 효모 세포로부터의 lacZ 활성이 표적 리포터 플라스미드만을 함유하는 효모 세포 대조군보다 유의하게 더 높음 (15.8배 더 높음)을 나타내었다 (도 10). 주로 반복 도메인을 코딩하는 SphI 단편만으로 제조된 뉴클레아제 융합물에 대한 활성이 관측되지 않았다. 이는 TALEN 활성에 있어 DNA 결합 도메인 이외의 서열이 요구됨을 나타내었다. 스페이서 길이가 6 및 9 bp인 리포터 플라스미드도 또한 활성을 나타내는데 실패하였으며, 이는 2개의 결합 부위 사이의 공간이 FokI를 이량체화시키는데 결정적임을 나타낸다. 이러한 데이터는 AvrBs3 TAL 뉴클레아제가 효모 내의 그의 동족 표적 서열을 절단하는 부위-특이적 뉴클레아제로서 작용할 수 있음을 나타낸다.

실시예 3 - 맞춤화된 TALEN을 위한 TAL 이펙터 반복물의 모듈식 조립

4개의 개별 TAL 이펙터 반복물 각각의 102개의 염기쌍에 상응하고, 각각 상이한 뉴클레오티드를 명시하는 상보적 올리고뉴클레오티드를, 개별적으로 또는 모든 순열 내의 2개 및 3개 반복물의 조합으로, 합성하고, 어닐링하고, 고카피(high copy) 박테리아 클로닝 벡터로 클로닝하여 표준 제한 소화 및 라이게이션 기법을 사용하여 4개의 단일, 16개의 이중 및 64개의 삼중 반복 모듈을 수득한다 (예를 들어, 도 11에 도시됨). 원하는 TAL 이펙터 코딩 서열을 특징적인 마지막 반쪽 반복물을 제외한 중심 반복 영역이 결여된 tal1c 유전자의 절단형을 함유하는 게이트웨이-레디 고카피 박테리아 클로닝 벡터(Gateway-ready high copy bacterial cloning vector)에 적절한 모듈을 순차적으로 도입함으로써 조립한다. 예를 들어, 18개의 반복 TAL 이펙터 코딩 서열은 5개의 삼중 모듈 및 1개의 이중 모듈을 절단형 tal1c 벡터에 순차적으로 도입함으로써 조립할 수 있다.

실시예 4 - TAL 이펙터 반복물의 모듈식 조립을 위한 시스템

맞춤형 TAL 이펙터 코딩 유전자를 생성하기 위한 플라스미드 및 방법을 개발하였다. TAL 이펙터의 기능적 특이성은 본원에 기재된 바와 같이 반복물 내의 RVD에 의해 결정되었고; 반복물 및 다른 경우에 단백질 내의 다른 다형체는 드물고 기능적 특이성에 있어 중요하지 않다. 따라서, 임의의 TAL 이펙터 유전자의 반복 영역을 원하는 RVD를 함유하는 반복물로 대체하여 맞춤형 TAL 이펙터 유전자를 생성할 수 있다. RVD 외부의 반복 서열은 컨센서스(consensus) 서열에 매치된다 (하기 참조). DNA 단편 코딩 TAL 이펙터 반복물은 1개, 2개 또는 3개의 반복물을 코딩하는 모듈로 순차적으로 조립되고, 모듈은 TAL 이펙터 유전자로 클로닝되며, 이로부터 원래의 반복물이 제거된다. 각 코딩된 반복물은, 마지막 (반쪽) 반복물을 제외하곤, 서열 LTPAQVVAIASXXGGKQALETVQRLLPVLCQDHG (서열 18; 도 12a)를 갖는다. 마지막 (반쪽) 반복물은 서열 LTPAQVVAIASXXGGKQALES (서열 20; 도 12b)를 갖는다. 두 서열 모두에서, "XX"는 RVD의 위치를 나타낸다. 모듈식 반복물에서 사용되는 RVD는 NI, HD, NN 및 NG였으며, 이는 각각 A, C, G 및 T에의 결합을 명시한다. 하기 기재된 실험에서, 그의 반복물이 제거된 산토모나스 오리자에 병원형 오리지콜라(Xanthomonas oryzae pv. oryzicola) 균주 BLS256의 tal1c 유전자를 맞춤형 TAL 이펙터 유전자 제작용 "주쇄"로 사용하였다.

본원에 기재된 방법은 5가지 성분을 포함하였다: (1) 단일 반복 스타터 플라스미드의 생성; (2) 단일 반복 모듈 플라스미드의 생성; (3) 다중 반복 모듈의 생성; (4) 완전한 일련의 1개, 2개 및 3개의 반복 모듈 플라스미드의 생성; 및 (5) 맞춤형 TAL 이펙터 코딩 서열의 조립.

단일 반복 스타터 플라스미드를 생성하기 위해, tal1c 유전자를 MscI로 소화시키고 다시 라이게이션하여 제1 반복물의 제1 부분 및 마지막 절단형 반복물의 마지막 부분을 제외한 전체 반복 영역을 제거하여, pCS487로 지정된 플라스미드를 얻었다 (도 13). 생성된 유전자는 RVD NI를 코딩하였고, 대부분의 TAL 이펙터 유전자와 마찬가지로, 반복 영역을 플랭킹하는 2개의 SphI 부위를 함유하였다. 상기 유전자는 XhoI 부위를 함유하지 않았다.

이어서, 번역 잠재성 돌연변이를 pCS487에 도입하여 특유의 PspXI 부위를 생성하였으며, 이는 코돈 19 및 20에 집중된 특유의 XhoI 부위를 포함한다. 상기 돌연변이는 도 14에 묘사하였으며, 이는 코돈 18 내지 21에 대한 고유 및 변경된 뉴클레오티드 서열을 나타내고 (각각 서열 21 및 서열 23), 이들 둘 다는 아미노산 서열 ALES (서열 22)를 코딩한다. 생성된 플라스미드는 pCS489로 지정하였다.

추가 돌연변이생성에 의해, RVD HD, NN 및 NG의 3개의 추가 구조체를 생성하여 각각 pCS490, pCS491 및 pCS492로 지정된 플라스미드를 생성하였다. 변형된 반복 영역을 포함하는 SphI 단편은 pCS489, pCS490, pCS491 및 pCS492에서 pCS488로 지정된 카나마이신 내성 플라스미드로 전달하였으며 (도 15), 이는 게이트웨이 진입 벡터 pENTR-D (인비트로젠, 미국 캘리포니아주 칼스배드 소재) 내의 반복 영역이 없는 tal1c의 N- 및 C-말단 부분만을 코딩한다. 상기 전달은 각각 pCS493 (도 16), pCS494, pCS495 및 pCS496으로 지정된 단일 반복 스타터 플라스미드를 생성하였다. 절단형 반복물 내의 PspXI/XhoI 부위는 상기 플라스미드 내에 특유하게 남아있었다. pCS488 내의 TAL 이펙터 유전자 및 이들의 유도체 각각에 앞서 각각 원핵생물 및 진핵생물 내에서의 효율적인 번역을 위한 샤인-달가르노(Shine-Dalgarno) 및 코작(Kozak) 서열이 선행되었다.

이어서, 단일 반복 모듈 플라스미드를 제작하였다. 4개의 선택된 RVD (NI, HD, NN 및 NG) 각각에 대하여 1개의 플라스미드를 생성하였다. 각 플라스미드는 PspXI 부위에 라이게이션되는 경우 XhoI 부위를 재구성하지만 PspXI 부위는 재구성하지 않는 5' 상용성 점착 말단 및 XhoI 및 PspXI 부위를 둘 다 재구성하는 3' 상용성 점착 말단을 갖는다. 플라스미드는 돌출부가 있는 어닐링된 합성 상보적 올리고뉴클레오티드 (도 17a)를 각각 p청스크립트 SK-의 PspXI/XhoI 부위로 클로닝하여 생성하였으며, 이는 각각 pCS502 (도 17b), pCS503, pCS504 및 pCS505로 지정된 플라스미드를 생성하였다. 각 플라스미드는 특유의 재구성된 PspXI 부위에서 단일 반복 모듈의 3' 말단에서의 추가 반복물의 도입, 또는 재구성된 XhoI 부위를 사용한 반복 모듈의 절제가 가능하였다.

NI, HD, NN 및 NG 각각에 대한 추가의 단일 반복 모듈을 생성하였다. 각각은 PspXI 부위에 라이게이션되는 경우 PspXI 또는 XhoI 부위를 재구성하지 않는 5' 상용성 점착 말단, XhoI 및 PspXI 부위를 둘 다 재구성하는 3' 상용성 점착 말단, 및 내부 MscI 부위를 파괴하는 번역 잠재성 뉴클레오티드 치환체를 갖는다 (도 18a). 상기 모듈은 돌출부가 있는 합성 상보적 올리고뉴클레오티드를 어닐링하여 생성하였다. 상기 추가 단일 반복 모듈 중 임의의 것의 단일 반복 모듈 플라스미드의 특유의 PspXI/XhoI 부위 (pCS502, pCS503, pCS504 또는 pCS505)로의 라이게이트는 5' 접합부에서 신규한 XhoI 부위를 생성하지는 않았으나, 특유의 3' PspXI/XhoI 부위를 복구하여, PspXI로의 절단에 의한 더 많은 추가의 반복물의 도입을 위해 생성된 플라스미드를 선형화할 수 있었다. 상기 과정의 반복은 다중 반복물을 함유하는 모듈을 생성하였다 (도 18b). 또한, 각 전체 다중 반복 모듈을 XhoI를 사용하여 절제할 수 있었다. MscI 부위가 추가 단일 반복 모듈 내에서 파괴되었기 때문에, 초기 반복물 내의 MscI 부위는 특유하게 남아있었고, 다중 반복 모듈의 후속 서브클로닝 시 배향을 점검하기에 유용하였다.

추가의 단일 반복 모듈을 단일 반복 모듈 플라스미드로 반복적으로 클로닝하여, 단일 반복 모듈 플라스미드와 함께, pCS502 내지 pCS585로 지정된 총 84개의 플라스미드에 대해 완전한 일련의 모든 가능한 1개, 2개 및 3개의 반복 모듈을 생성하였다 (도 19). 3개 초과의 반복물 (예를 들어, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 또는 10개 초과의 반복물)을 함유하는 모듈을 동일한 방식으로 생성하였다.

이어서, 반복물의 임의의 서열을 tal1c "주쇄"로 조립하여 맞춤형 TAL 이펙터 유전자를 생성하기 위한 방법을 고안하였다. 상기 방법은

(1) 원하는 제1 반복물을 갖는 단일 반복 스타터 플라스미드 (각각 RVD NI, HD, NN 또는 NG를 코딩하는 pCS493, pCS494, pCS495 또는 pCS495)를 선택하는 단계;

(2) 플라스미드를 PspXI로 선형화하는 단계;

(3) XhoI를 사용하여 적절한 모듈 플라스미드 (pCS502 내지 pCS585)로부터 다음 반복물(들)을 위한 모듈을 단리하는 단계;

(4) 라이게이션하는 단계;

(5) MscI로의 소화에 의해 배향을 점검하고 벡터 기재 프라이머를 사용하여 3' 말단에서부터 서열을 확인하는 단계; 및

(6) 모든 반복물이 조립될 때까지 단계 2 내지 5를 반복하는 단계

를 포함하였으며, 이는 또한 도 20에 묘사되어 있다.

실시예 5 - TALEN의 모듈식 조립을 위한 플라스미드의 라이브러리

본원에 기재된 (예를 들어, 도 20에 묘사된 단계를 사용한) TALEN 반복물의 조립은 증가하는 수의 반복물을 함유하는 무수한 중간 플라스미드를 생성한다. 상기 플라스미드의 각각은 TALEN의 모듈식 조립을 위한 플라스미드 (pMAT)의 라이브러리가 생성되도록 저장한다. 예를 들어, 도 21a 및 21b는 도시된 뉴클레오티드 서열을 표적으로 할 것인 TAL 엔도뉴클레아제의 제작 시 반복 모듈의 조립을 묘사한다. 도 21a에서, pCS519, pCS524, pCS537, pCS551, pCS583 및 pCS529로 지정된 플라스미드로부터의 반복 모듈을 pCS493으로 지정된 스타터 플라스미드 내의 서열에 순차적으로 첨가하여, pMAT55, pMAT56, pMAT57, pMAT58, pMAT59 및 pMAT60으로 지정된 플라스미드를 생성하였다. 도 21b에서, pCS530, pCS533, pCS522 및 pCS541로 지정된 플라스미드로부터의 반복 모듈을 pMAT1로 지정된 플라스미드의 서열 내에 순차적으로 첨가하여, pMAT61, pMAT62, pMAT63 및 pMAT64로 지정된 플라스미드를 생성하였다.

실시예 6 - 맞춤화된 TALEN의 생성 및 시험

실시예 4 및 5에 기재된 시스템을 사용하여, TAL DNA 인식 도메인을 사용하여 특정 DNA 표적을 인식하고 절단하는 TALEN을 생성하였다 (도 22a). TALEN 작용을 평가하기 위해, LacZ 활성이 DNA 절단의 지표로 기능하는 효모 검정을 적합하게 하였다 (상기 타운센드 등의 문헌). 상기 검정에서, 표적 플라스미드 및 TALEN 발현 플라스미드를 교배에 의해 동일한 세포 내에서 함께 결합시켰다. 표적 플라스미드는 코딩 서열의 125-bp 복제된 lacZ 리포터 유전자를 가진다. 복제는 주어진 TALEN에 의해 인식되는 표적 부위를 플랭킹한다. 이중 가닥 DNA 파손이 표적 부위에서 일어날 때, 이는 작용성 lacZ 유전자를 생성하는 복제된 서열 사이의 단일 가닥 어닐링을 통해 복구되며, 작용성 lacZ 유전자의 발현은 수량화할 수 있는 판독을 제공하는 표준 β-갈락토시다아제 검정을 사용하여 측정할 수 있다 (도 22a). 상기 검정은 NHEJ에 의해 염색체 돌연변이를 생성하거나 또는 고등 진핵생물에서의 유전자 편집을 위한 상동성 재조합을 자극하기 위한 ZFN의 능력의 양호한 예측 변수인 것으로 증명되었다 (상기 타운센드 등의 문헌; 및 문헌 [Zhang et al. (2010) Proc. Natl. Acad. Sci. USA 107:12028-12033]).

2개의 잘 특성화된 TAL 이펙터 - 후추 병원균 산토모나스 캄페스트리스 병원형 베시카토리아(Xanthomonas campestris pv. vesicatoria)로부터의 AvrBs3 및 쌀 병원균 엑스. 오리자에 병원형 오리자에(X. oryzae pv. oryzae)로부터의 PthXo1을 사용하였다 (문헌 [Bonas et al. (1989) Mol. Gen. Genet. 218:127-136]; 및 [Yang et al. (2006) Proc. Natl. Acad. Sci. USA 103:10503-10508]). AvrBs3의 아미노산 서열은 젠뱅크 수탁 번호 P14727 및 서열 12 하에서 (도 3), 및 핵산 서열은 수탁 번호 X16130 및 서열 13 하에서 (도 4) 찾을 수 있다. PthXo1의 아미노산 서열은 젠뱅크 수탁 번호 ACD58243 및 서열 31 (도 23) 하에서, 핵산 서열은 수탁 번호 CP000967, 유전자 ID 6305128, 및 서열 32 (도 24) 하에서 찾을 수 있다. 젠뱅크 수탁 번호 ACD58243 하의 PthXo1의 아미노산 서열은 출발 코돈의 주석오류로 인해 N-말단에서 절단된다. 완전한 서열은 도 23에 나타내었다.

AvrBs3 및 PthXo1 둘 다의 반복 도메인은 보존된 SphI 단편 내에 완전히 코딩된다 (도 4 및 24). TAL 이펙터 코딩 유전자도 또한 둘 다 반복 도메인을 위한 코딩 서열을 포함하는 BamHI 제한 단편 및 그 이전에 287개의 아미노산 및 그 이후에 231개의 아미노산을 갖는다 (도 4 및 24; 또한 도 22a 참조). BamHI 단편이 없는 것은 TAL 이펙터 전하 활성화 도메인이다. SphI 단편 및 BamHI 단편은 둘 다 뉴클레아제 발현 벡터 pFZ85 내에 존재하는 FokI를 코딩하는 DNA 단편으로 융합하였다 (도 25). AvrBs3 및 PthXo1에 의해 코딩된 FokI 뉴클레아제 및 BamHI 단편 사이의 융합 단백질은 도 26 및 27에 서열 33 및 34로 제공하였다.

절단하기 위해서 FokI 단량체는 이량체화되어야 하지만, 2개의 DNA 인식 부위 사이의 적절한 스페이서 길이가 불명확하였다. 아연 핑거 어레이가 4-7 아미노산 링커에 의해 FokI로부터 분리되는 ZFN의 경우, 2개의 인식 부위 사이의 전형적인 스페이서는 5-7 bp이다 (문헌 [Handel et al. (2009) Mol. Ther. 17:104-111]). 예를 들어, 235개의 아미노산이 본원에 사용되는 BamHI TALEN 구조체 내의 FokI로부터 반복 도메인을 분리하기 때문에, BamHI 및 SphI 구조체 둘 다에 대해 다양한 스페이서 길이 (6, 9, 12, 15 및 18 bp)를 사용하였다. 양성 대조군으로서, 쥐 전사 인자 Zif268로부터 유래된 DNA 결합 도메인을 갖는 잘 특성화된 아연 핑거 뉴클레아제 (문헌 [Porteus and Baltimore (2003) Science 300:763])를 사용하였다. 음성 대조군으로서, TAL 이펙터 도메인을 촉매 불활성 FokI 변이체에 융합하거나 비동족 DNA 표적에 대해 시험하였다.

밤새 배양한 200 ㎕ 중의 TALEN 발현 또는 표적 플라스미드를 함유하는 반수 세포 유형을 YPD 배지에서 30℃에서 교배하였다. 4시간 후, YPD 배지를 5 ml의 선택적 배치로 교체하고 밤새 30℃에서 인큐베이션하였다. 교배된 배양균을 용균시키고, ONPG 기질을 첨가하고, 96-웰 플레이트 판독기를 사용하여 415 nm에서 흡광도를 읽었다 (상기 타운센드 등의 문헌). β-갈락토시다아제 수준을 기질 절단 속도의 함수로서 계산하였다. 2개의 인식 부위를 분리하는 15 bp 스페이서를 갖는 표적 리포터 구조체에 대해 얻어진 결과는 도 22b에 도시하였다. 원칙적으로 반복 어레이를 코딩하는 SphI 단편으로부터 유도된 모든 뉴클레아제 발현 구조체는 활성을 나타내는데 실패하였으며, 이는 반복 어레이 내의 아미노산 서열에 더하여 일정 아미노산 서열이 작용에 요구됨을 나타낸다 (도 22b). 그러나, BamHI 단편으로부터 유래된 AvrBs3 및 PthXo1 TALEN 둘 다에 대해 왕성한 활성이 관측되었다 (도 22b). PthXo1 TALEN의 활성은 ZFN 양성 대조군의 활성에 가까웠다. 활성은 작용성 FokI 도메인을 필요로 하였고 주어진 TALEN에 의해 인식되는 DNA 표적에 대해 특이적이었다.

FokI를 가장 효율적으로 이량체화할 수 있는 스페이서 길이를 확인하기 위해, TAL 이펙터 결합 부위 사이의 다양한 거리 (12 및 30 bp 사이의 11개의 길이 변형)를 시험하도록 실험을 또한 수행하였다 (도 28a). 두 효소는 모두 2개의 최적의 스페이서 길이 - 15 bp에서 하나 및 21 bp (AvrBs3) 또는 24 bp (PthXo1)에서 다른 하나를 나타내었다. PthXo1의 경우, 13 bp 이상의 모든 시험된 스페이서 길이에 대해 활성이 관측되었다. AvrBs3의 경우에 일부 스페이서 길이는 활성을 나타내지 않았으나, 이는 스페이서 길이가 특정 TALEN에 있어 결정적임을 시사한다.

상기 실험에서는 스페이서 둘 중 한 측면에서 반대편에 위치한 2개의 동일한 인식 서열에 결합하는, 동종이량체 TALEN의 활성을 시험하였다. 이러한 회귀성 부위는 게놈 표적에서 자연적으로 잘 일어나지 않기 때문에, 실험은 TALEN이 이종이량체로서 기능할 수 있는지 여부를 시험하는 것으로 수행되었다. AvrBs3 및 PthXo1 인식 부위는 15 bp 스페이서 둘 중 한 측면 상에서 헤드 투 테일(head to tail) 배열로 배치되었다. AvrBs3 및 PthXo1 TALEN 각각 및 Zif268의 이들의 각 표적 상에서의 활성이 대조군으로 측정되었다. 음성 대조군으로서, 이종이량체 부위에 대해 표적 부위 플라스미드만을 갖는 효모 배양은 LacZ 활성에 대해서 검정하였다. 이종이량체 TALEN의 결과 활성은 2개의 동종이량체 효소에 대해 관찰된 활성의 평균을 계산하였다 (도 28b).

반복 도메인이 TALEN을 임의의 염색체 서열에 표적화되도록 조립될 수 있는지 여부를 시험하기 위해서, 아라비돕시스로부터의 ZFN-ADH1 및 제브라피시(zebrafish)로부터의 그리드락(gridlock)과의 돌연변이생성에 대해 앞서 표적화된 2개의 유전자가 선택되었다 (문헌 [Foley et al. (2009) PLoS One 4:e4348; 및 Zhang et al., 상기 문헌] 참조). 5'T 만큼 앞서고, 문헌 [Moscou 및 Bogdanove (상기 문헌)]에 의해 밝혀진 TAL 이펙터 결합 부위의 조성과 유사한 뉴클레오티드 조성을 갖는 코딩 영역에서 12 내지 13 bp 서열에 대해 조사가 수행되었다. ADH1 및 그리드락에서, 이러한 부위는 평균 7 내지 9 bp마다 발생하였다. ADH1에서 4개의 12 bp 부위가 (염색체 유전자 서열의 360, 408, 928 및 975 위치에서) 선택되고, 그리드락에서 1개의 13bp 부위가 (염색체 유전자 서열의 2356 위치에서; 도 29a) 선택되었다. 천연 TAL 이펙터로부터 가장 풍부한 RVD를 사용하여, TAL 이펙터 반복 도메인이 이들 표적을 인식하도록 제작하였다 (A에 대해서 NI, C에 대해서 HD, G에 대해서 NN 및 T에 대해서 NG). 맞춤형 TALEN을 제작하기 위해서, 이들 RVD를 갖는 반복물을 개별적으로 합성하여 실시예 4 및 5에 기재된 바와 같이 1, 2 또는 3개의 반복물의 모듈로 조립시켰다. 이들 모듈은 오리지널 반복물이 제거된 tal1c 유전자의 유도체 (문헌 [Moscou 및 Bogdanove, 상기 문헌] 참조)로 순차적으로 라이게이션되고, 이들 조작된 TAL 이펙터로부터의 BamHI 단편은 pFZ85에서 FokI의 촉매 도메인을 코딩하는 서열로 융합되었다 (도 25). 아라비돕시스로부터의 ADH1 및 제브라피시 그리드락 유전자에 표적화된 5개의 맞춤형 TALEN이 생성되었다.

이종이량체 TALEN이 자연 발생 DNA 표적에서 절단을 지시하도록 제작될 필요가 있는 것으로 인식되어 있음에도 불구하고, 생성된 맞춤형 TALEN을 동종이량체 TALEN으로서 효모 검정에서 시험하였다 (즉, 동일한 DNA 결합 부위는 16 내지 18 bp 스페이서의 둘 중 한 측면에서 역 배열로 2벌화됨). 스페이서 길이는 다음으로 이웃하는 (및 반대하는) 후보 부위의 3' 말단으로부터 15 bp 가장 가까운 거리를 기준으로 선택되었다. 16 bp 스페이서가 ADH1-360-12, ADH1-408-12r에, 18 bp 스페이서가 ADH1-928-12, ADH1-975-12r 및 그리드락-2356-13r에 사용되었다. 효모 검정은 상기한 바와 같이 수행하였다.

ADH1-360-12 및 그리드락-2356-13r TALEN에 대해서 강건한 뉴클레아제 활성이 관찰되었다 (도 29b). ADH1-928-12 TALEN은 보통의 활성 (그럼에도 음성 대조군을 상당히 뛰어넘음)을 가졌다. 양성 결과를 주는 각각의 TALEN에 대해서, 뉴클레아제 활성은 동족 표적에 대해 특이적이었다. 이들 결과는 신규한 기능적 TALEN이 맞춤화된 반복 도메인의 조립에 의해 생성될 수 있음을 나타낸다.

실시예 7 - 자연 발생 표적 및 TAL 이펙터 쌍은 뉴클레오티드 및 RVD 조성에서 전반적인 위치 치우침을 나타낸다

문헌 [Moscou 및 Bogdanove, 상기 문헌]에 의해 분석된 20개의 쌍을 이룬 표적 및 TAL 이펙터를 전반적인 조성 치우침, 및 뉴클레오티드 또는 RVD 빈도에 미치는 위치 영향에 대해서 평가하였다. (양성 가닥에서의) 부위는 일반적으로 A- 및 C-풍부, 및 G-부족으로 관찰되었다. A의 평균 백분율은 31 ± 16％ (표준 편차 1)이었다. C의 평균 백분율은 37 ± 13％이었다. G의 평균 백분율은 9 ± 8％이고, T의 평균 백분율은 22 ± 10％이었다. 배열 길이는 변하기 때문에, 위치 영향의 분석은 각 말단에서 5개의 위치로 한정되었다. 두드러지게는, 표적 서열에서 치우침은 위치 1 및 3에서 A에 대해 및 T에 대항하여 명백하였고, 위치 N 및 가능하게는 2에서 T에 대해 명백하였다. G는 위치 N-1에서 특히 드물었다. 이러한 치우침은 이펙터에서 RVD를 매칭시킴으로써 반영되었고, 위치 1 및 3에서 NI가 가장 일반적이었고, 위치 1에서 NG는 없었으며, 위치 N에서 거의 항상 NG가 있었고, 위치 N-1에서는 NN이 드물게 있었다 (도 30).

실시예 8 - 맞춤형 TAL 이펙터 반복 어레이의 신속 조립 및 클로닝을 위한 방법 및 시약

골든 게이트(Golden Gate) 클로닝 방법 (문헌 [Engler et al. (2008), 상기 문헌; 및 Engler et al. (2009), 상기 문헌] 참조)에서는 인식 부위의 외부를 절단하여 다수의 DNA 단편의 순차배열된 라이게이션에 대해 동시에 맞춤형 돌출부를 생성하는 유형 IIS 제한 엔도뉴클레아제 (예를 들어 BsaI)의 능력을 이용하였다. 이 방법을 사용하여, 몇몇의 DNA 단편이 단일 반응에서 특이적 순서로 어레이로 융합되고, 바람직한 목적지 벡터로 클로닝될 수 있었다 (도 31).

맞춤형 TAL 이펙터 반복을 코딩하는 어레이를 조립하기 위한 방법 및 시약은 골든 게이트 시스템을 기초로 진행되었다. BsaI 부위가 TAL 이펙터 반복 코딩 서열의 둘 중 한 부위 상에 위치하는 경우, 절단에 의해 4-bp 돌출부가 측면에 위치하는 반복 단편이 유리되었다. 절단 부위가 서열-특이적이지 않기 때문에, 엇갈림(staggering)에 의해, 반복 클론은 순차배열된 상보적 돌출부 (점착 말단)로 유리되어, 다중-반복 어레이의 순차배열된 조립을 가능하게 할 수 있다.

58개 플라스미드의 라이브러리 (도 32a 및 32b)를 생성하여 최대 10개의 반복 단위의 동시 조립이 "서브어레이"되도록 하고, 후속하여 이들 서브어레이 1, 2 또는 3개의 동시 조립이 마지막 절단형 반복물과 함께 완전한 맞춤형 어레이가 되도록 하였다. 4개 단편의 엇갈림 세트 (셋트에서 각각의 단편은 4개의 가장 보편적인 RVD인, HD, NG, NI 및 NN 중 상이한 하나로 반복 모듈을 코딩함) 10개가 총 40개의 플라스미드에 대해 테트라시클린 내성 유전자를 운반하는 벡터로 합성되고 클로닝되었다. 20개 아미노산의 종말 절단형 TAL 이펙터 반복을 코딩한 단편 (각 단편은 4개의 가장 보편적인 RVD 중 상이한 하나를 코딩함) 4개를 더 스펙티노마이신 내성 유전자를 운반하는 상이한 벡터로 합성하고 클로닝하여, "최후 반복 플라스미드"로 지정된 플라스미드가 4개 더 수득되었다 (도 32a). 엇갈림 셋트에서 모든 단편들은 벡터에서 BsaI 부위가 측면에 위치함으로써, BsaI에 의한 절단으로 상이한 점착 말단을 갖는 단편을 유리시켜, 적절한 순서로 조립되도록 하였다; 즉, 예를 들어 반복 모듈 1에 대해 단편의 3' 말단에서의 돌출부는 반복 모듈 2에 대해 단편의 5' 말단에서의 돌출부에만 상보적이고, 반복 모듈 2의 3' 말단에서의 돌출부는 반복 모듈 3의 5' 말단에서의 돌출부에만 상보적이었다. 최후 반복 플라스미드에서의 단편은 상이한 유형 IIS 제한 엔도뉴클레아제인 Esp3I에 대한 부위가 측면에 위치하였다. 이하에서 기재하는 14개의 추가의 플라스미드는 목적지 벡터로서 제작되어 조립된 서브어레이를 수용하였다.

제1 목적지 벡터인 플라스미드 pFUS_A를 제작하여 21개 이하의 반복물 (마지막 절단형 반복물을 계산함)의 최종 어레이로 조립되는 10개의 반복물의 제1 서브어레이를 수용하였다. BsaI에 의한 절단이 제1 반복 모듈의 5' 말단에서의 돌출부에 상보적인 한 측면에서의 돌출부 및 10번째 반복 모듈의 3' 말단에서의 돌출부에 상보적인 다른 측면에서의 돌출부를 생성하도록 pFUS_A를 제작하였다. 이러한 최종 어레이로 조립되는 10개 이하의 반복물의 제2 서브어레이를 수용하기 위해, 목적지 벡터 플라스미드 pFUS_B1, pFUS_B2, pFUS_B3, pFUS_B4, pFUS_B5, pFUS_B6, pFUS_B7, pFUS_B8, pFUS_B9 및 pFUS_B10을 제작하여, BsaI에 의해 절단될 때 제1 반복 모듈의 5' 말단 및 상응하는 숫자의 위치에 대한 반복 모듈의 3' 말단에서의 돌출부에 각각 상보적인 돌출부를 가졌다 (예를 들어, 서브어레이의 3' 말단에 대한 pFUS_B6 돌출부는 위치 6에 대한 4개의 반복 모듈 단편의 돌출부에 매칭됨). 플라스미드 pFUS_A 및 pFUS_B 시리즈에서 클로닝된 어레이는 벡터에서 Esp3I 부위가 측면에 위치하고, Esp3I에 의해 절단되어 유리될 때, 어레이는 고유의 상보적 돌출부를 가져 이들이 마지막 절단형 반복물 단편과 함께 순차적으로 목적지 벡터 pTAL (반복 영역을 손실하는 TALEN을 코딩함)로 라이게이션되도록 하였다. Esp3I에 의한 절단이, 제1의 10개의 반복 서브어레이의 5' 말단에서의 돌출부에 상보적인 하나의 말단에서의 돌출부 및 마지막 절단형 반복물 단편의 3' 말단에서의 돌출부에 상보적인 다른 말단에서의 돌출부로 인해 올바른 위치에서 및 올바른 배열로 반복 어레이의 삽입을 가능하게 하도록, pTAL를 제작하였다 (도 33).

최종 2개의 목적 벡터 플라스미드인 pFUS_A30A 및 pFUS_A30B를 제작하여 22 내지 31개의 반복물의 최종 어레이로 조립되는 제1 및 제2의 10개의 반복 서브어레이를 수용하였다. 어레이가 pFUS_B 벡터로부터의 제3의 어레이 및 최후의 반복 플라스미드로부터의 마지막 절단형 반복물 단편과 함께 순차적으로 라이게이션되고, Esp3I에 의한 절단과 유사하게 pTAL로 유리되도록, pFUS_A30A 및 pFUS_A30B를 제작하여 Esp3I에 의한 절단에 의해 적절한 상보적 돌출부를 갖는 어레이가 유리되었다 (도 32).

모든 목적지 벡터는 유형 IIS 제한 엔도뉴클레아제 부위들 사이에서 클로닝된 LacZ 유전자를 가져, 재조합을 위한 블루-화이트 스크리닝을 가능하게 하였다. 암피실린 내성에 대한 유전자를 운반하는 pTAL를 제외하고는, 모든 목적지 벡터는 스펙티노마이신 내성에 대한 유전자를 운반하였다.

이들 시약을 사용하여 맞춤형 TAL 이펙터 반복 어레이를 신속하게 제작하기 위해, 이하의 방법이 확립되었다. 제1 단계에서, 10개 이하의 반복물의 필요한 서브어레이에 대한 적절한 개별 RVD 모듈 플라스미드를 하나의 튜브에서 적절한 목적지 벡터와 함께 혼합하였다. T4 DNA 라이게이즈 및 BsaI 엔도뉴클레아제를 첨가하고, 반응을 PCR 기계에서 37 ℃에서 5분 및 16 ℃에서 10분 (2개의 효소에 대해 각각 최적의 온도임)의 10 사이클 동안 인큐베이션하였다. 이어서 반응 혼합물을 PLASMID-SAFE™ 뉴클레아제로 처리하여, 생체 내 재조합에 의한 더 짧은 불완전 어레이의 클로닝을 방지하기 위해 모든 선형 dsDNA 단편을 가수분해한 다음, 혼합물을 사용하여 화학적으로 적격인 대장균 세포를 형질전환시켰다. 얻어진 재조합 플라스미드는 단리되었고, 올바른 구조체가 확인되었다. 이어서, 제2 단계에서, 제1 단계로부터 확인된 플라스미드를 적합한 최후 반복 플라스미드 및 pTAL와 함께 혼합하고, 절단 및 라이게이션 반응 사이클을 제1 단계에서와 같이 수행하였다. 최종적으로, 반응 생성물을 대장균에 도입하고, 전장 최종 어레이 구조체를 단리하고 확인하였다. 프로토콜은 일주일 내에 한 사람에 의해 완료될 수 있었다.

표 4A의 TALEN 85, 102 및 117 뿐 아니라 이하 실시예 14에 기재되는 TALEN HPRT-3254-17 및 HPRT-3286-20r에 대한 발현 구조체는 본 실시예에 기재된 방법 및 시약을 사용하여 제조하였다.

pTAL에 클로닝된 반복 어레이는 반복 영역이 측면에 있는 SphI 제한 엔도뉴클레아제 보존 부위를 사용하여 다른 TAL 이펙터 유전자 환경으로 쉽게 서브클로닝된다.

실시예 9 - 맞춤형 TALEN 데이터는 RVD 수와 활성 간의 "규칙" 및 상관관계에 대한 초기 지지를 나타낸다

실시예 6은 TALEN DNA 결합 도메인을 조작하여 고유의 DNA 서열을 인식할 수 있도록 수행된 실험을 기재하였다. 기재한 바와 같이, 이들 맞춤형 TALEN은 아라비돕시스 ADH1 및 제브라피시 그리드락 유전자에서의 부위를 인식하였다. 추가의 맞춤형 TAL 이펙터 DNA 결합 도메인을 조작하여, 이들 유전자에서의 부위뿐 아니라 아라비돕시스로부터의 TT4 유전자 및 제브라피시로부터의 텔로머라제에서의 부위도 인식하였다 (문헌 [Foley et al., 상기 문헌; 및 Zhang et al., 상기 문헌]참조). 이들 맞춤형 TALEN은 실시예 3, 4 및 8에 기재한 방법을 사용하여 제조하였다. 맞춤형 TALEN을 조작하는데 있어서, 관찰된 조성 및 위치 치우침이 디자인 원칙 또는 "규칙"으로 채택되었다. 먼저, 5'T 만큼 앞서고 길이가 적어도 15 bp인 코딩 영역에서 서열에 대해 조사를 수행하였고, 상기 언급된 평균값과 일치하는 뉴클레오티드 조성을 가졌다. 특이적으로, A 0 내지 63％, C 11 내지 63％, G 0 내지 25％, T 2 내지 42％인 이들 부위만이 선택되었다. 이러한 부위는 평균적으로 7 내지 9 bp 마다 발생하였다. 이어서 상기 기재한 관찰된 위치 치우침에 대해 확인된 부위가 선택되었다. 이러한 셋트로부터, 각 유전자에서 결합 부위 2쌍은 길이가 15 내지 19 bp이고, 15 내지 18 bp만큼 분리되어, 조작된 TALEN의 결합이 FokI이 이량체화되도록 하는 것으로 확인되었다. 모듈식 조립 방법 (실시예 3 및 4)은 부분 길이의 구조체를 생성하였다.

총 21개의 중간 및 전체 길이 TALEN이 16개의 뉴클레오티드 서열 (각각은 9개의 반복물 또는 그보다 긴 어레이를 가짐)을 표적화하도록 디자인되었다. 이들 TALEN의 아미노산 서열이 도 34a 내지 34u (서열 35 내지 55)에서 제공된다. 이들 21개의 TALEN을 실시예 2 및 6에 기재된 효모 검정을 사용하여 DNA를 절단하는 이들의 능력에 대해 시험하였다. 활성 데이터는 도 35에 나타내고, 표 4A에서 요약하였다.

중간의 부분 길이의 TALEN 중 일부는 뉴클레오티드 조성 및 말단 T에 대한 규칙을 위반하는 표적에 상응하였다. 표 4A는 각 TALEN에 대해, 길이, 이들 2가지 규칙에의 순응성, 및 ZFN268의 활성과 비교한 활성을 나타내었다. 결과는 RVD 어레이의 길이가 증가하면 얻어진 TALEN의 활성이 증가하는 일반적인 경향을 나타내었다. 이는, DNA 표적이 생체 내에서 인식될 수 있기 전에 필요한 최소의 수의 RVD가 존재한다는 것을 암시한다. 추가로, 규칙에의 순응성이 중요한 것으로 나타났다. 검출가능한 활성을 나타내지 않는 6개의 TALEN 중에서, 2개는 표적 조성 규칙을 위반하였고, 2개는 NG에서 종결되지 않았으며, 다른 것은 2개의 규칙 모두를 위반하였다 (하나는 2개의 규칙 모두를 준수하였음). ZFN268의 활성이 25％ 미만인 8개의 TALEN 중 3개는 규칙 중 하나를 위반하였고, ZFN268 활성이 25 내지 50％인 4개의 TALEN 중 하나는 NG에서 종결되는 RVD 서열을 갖지 않았다. ZFN268 활성이 50％ 이상인 TALEN이 모든 규칙을 준수하며, 동일한 길이의 TALEN에 대해서는 규칙을 위반하는 것들이 일반적으로 순종적 어레이보다 활성이 낮은 것으로 인식되었다. 길이에 있어서 (규칙을 위반하지 않는 중간체의 경우에도) 전체적인 경향에 부합하면, 상응하는 전장의 TALEN은 더 높은 활성을 가졌다 (표 4A 및 도 35). 동일한 표적 상에서 TALEN 길이 차이로 인한 스페이서의 변이는 이러한 관찰에 기여할 수 있으나, 일부 범위의 스페이서 길이는 용인된다 (문헌 [Christian et al., 상기 문헌] 참조).

데이터에 있어서 어느 정도의 복합성이 명백하다. 예를 들어, 활성은 동일한 길이의 순종적 TALEN 중에서도 다르며, 일부 짧은 어레이는 적당히 높은 활성을 갖고, 순종적인 일부 긴 어레이는 활성을 거의 또는 전혀 갖지 않는다 (표 4B). 그럼에도 불구하고, 결과는 1) 일반적으로 반복물의 수가 많을수록 높은 활성이 얻어지고, 2) 조성 및 위치 치우침 규칙에의 순응성은 활성에 있어 중요하다는 결론을 뒷받침한다. 따라서, 아래의 디자인 원칙이 유도된다.

·TAL 이펙터 결합 부위는 최소로 염기 15개의 길이가 되고, 5'에서부터 5' 말단에서의 부위에 바로 앞서 T를 갖는 3'으로 배열되도록 디자인된다.

·부위는 제1 (5') 위치에서 T를 갖거나 제2 위치에서 A를 가질 수 없다.

·부위는 T (3')에서 종결되어야 하며, 최후 위치 바로 옆에는 G를 가질 수 없다.

·부위의 염기 조성은 특정 범위 (평균±표준 편차 2) 내에 속해야 한다: A 0 내지 63％, C 11 내지 63％, G 0 내지 25％ 및 T 2 내지 42％.

<표 4A>

<표 4B>

실시예 10 - 이종이량체성 TALEN 쌍은 효모 검정에서 그의 의도된 자연 발생 표적 서열을 절단한다

실시예 2, 6 및 9의 데이터는 맞춤형 TALEN이 신규 표적 DNA 서열을 인식하도록 조작될 수 있다는 것을 나타낸다. 동종이량체성 표적 부위를 인식한 개별 TALEN 단량체를 사용하여 맞춤형 TALEN에 대한 효모 활성 데이터를 모았다. 즉, TALEN의 표적 서열을 15-18 bp 스페이서의 어느 한 측면 상에 역방향으로 복제하였다. 그러나, 내인성 염색체 서열의 절단은 일반적으로 2종의 상이한 맞춤형 TALEN이 스페이서의 어느 한 측면 상의 2개의 상이한 서열을 인식하는 것을 요구하였다. 실시예 6에 기재된 바와 같이, 효모 검정에서 상응하는 키메라 표적 부위를 사용하여 AvrBs3 및 PthXo1 TALEN에 대해 함께 이러한 능력을 나타내었다. 본 발명자들은 2종의 상이한 맞춤형 TALEN이 자연 발생 DNA 서열을 인식하고 절단할 수 있는가를 시험하였다. 실시예 2에 기재된 효모 검정을 이용하여, 아라비돕시스 ADH1 유전자에서 2개의 상이한 표적 서열을 절단하도록 설계된 맞춤형 TALEN을 이들 표적에 대한 활성에 대해 검정하였다. 표적 부위 및 상응하는 TALEN의 DNA 서열을 도 36a에 나타내었다. TALEN의 아미노산 서열을 도 34에 제공하였다. 효모 검정에서 얻은 베타-갈락토시다제 활성을 도 36b에 나타낸 그래프에 플롯팅하였다. TALEN의 자연 발생 표적 서열에 대한 활성은 음성 대조보다 유의하게 높았으며, 이는 TALEN이 내인성 표적 DNA 서열을 인식하고 절단하도록 조작될 수 있다는 것을 나타내었다.

실시예 11 - TALEN은 아라비돕시스에서 천연 유전자를 절단하고, 비정밀 비상동 말단-연결에 의해 돌연변이를 도입한다

아라비돕시스 ADH1 유전자에서 표적 서열을 인식하도록 설계된 활성 TALEN 쌍 중 하나를 시험하여, 염색체 DNA에 결합하고 이를 절단하고 돌연변이화시킬 수 있는가를 결정하였다. 이러한 쌍 (pTALEN 69 및 74)을 포함하는 개별 ADH1 TALEN 각각을, 구성적(constitutive) 35S 프로모터의 제어하에 TALEN을 위치시키는 식물 발현 벡터 pFZ14로 클로닝하였다 (문헌 [Zhang et al., supra]). 그 후, 생성된 구조체를 전기천공에 의해 아라비돕시스 원형질체로 도입하였다. 48시간 후, 게놈 DNA를 단리하고 Tth111l로 소화시켰다. Tth111l 절단 부위는 2개의 TALEN 인식 부위 사이의 스페이서 서열에 위치하였다 (도 37a). TALEN에 의한 염색체 DNA의 절단은 비정밀 비상동 말단-연결 (NHEJ)에 의해 돌연변이를 도입할 것으로 예상되었으나, 이는 실패로 Tth111l에 의해 절단되는 결과를 가져왔다. 그 후, TALEN 인식 부위를 포함하는 375 bp 단편을 PCR 증폭시켰다. PCR 생성물을 Tth111l로 다시 소화시켜, TALEN-매개된 NHEJ에 의해 변형되지 않은 남아있는 게놈 DNA의 대부분을 제거하였다. 그 후, 소화 생성물을 아가로스 겔 상에서 실행시켰다. 절단되지 않은 PCR 생성물을 관찰하였고, 이러한 절단되지 않은 PCR 생성물은 내인성 표적 서열에서 뉴클레아제 활성 (이 경우에 TALEN 활성)의 특징이다 (문헌 [Zhang et al., supra]). 비절단 DNA를 클로닝하고 DNA 서열분석에 의해 분석하였다. 9종의 독립적 클론의 서열분석은 6종이 NHEJ에 의해 도입된 돌연변이를 함유한다는 것을 나타내었다 (도 37b). 그러므로, TALEN은 내인성 염색체 좌위를 절단하고, DNA 이중 가닥 파열 및 돌연변이를 도입하였다.

실시예 12 - 표적화 능력의 향상

TAL 이펙터 DNA 암호의 코어에서, 4종의 가장 흔한 RVD 각각은 회합 빈도에 기초하여 4종의 뉴클레오티드에 대한 명백한 1-대-1 특이성을 갖는다. 이는 HD, NG 및 NI에 대해 현저하게 그러하나, NN에 대해서는 덜 그러하다 (도 1c). NN은 G와는 가장 빈번하게, 그러나 A와는 거의 보통정도로, 및 C 또는 T와는 이따금 회합한다. 13 RVD 서열에서 4개의 위치에 NN을 갖는 무작위로 조립된 TAL 이펙터에 대해, 인공 표적 중 모든 상응하는 위치에 G를 갖는 것은 최고 활성을 제공하였다 (문헌 [Boch et al. (2009) Science 326:1509-1512]). 활성을 감소시켰으나 폐지시키지는 않았고, C 및 T는 검출가능한 활성을 제거하였다. 24 RVD 이펙터 PthXo1에 대한 결합 부위에서 가장 첫번째 위치에서 G가 C, T 또는 A로 치환된 경우, 활성의 극적 손실이 관찰되었으며, 이는 NN이다 (문헌 [Romer et al. (2010) New Phytol. 187:1048-1057]). 그러나, 이는 훨씬 더 짧은 AvrHah1 (14 RVD)이 A와 정렬된 NN으로 개시하고, 23 RVD 이펙터 PthXo6이 위치 4-6에 일렬로 3개의 NN (각각이 A와 정렬됨)을 갖으나, 이들 단백질 양자 모두는 고도로 활성이라는 관찰과는 대조적이었다 (문헌 [Schornack et al. (2008) New Phytol. 179:546-556]; 및 [Romer et al., supra] 참조). 그러므로 G에 대한 NN의 특이성은 일반적으로 약한 것으로 보이고, 정도는 다양할 수 있다.

TAL 이펙터 표적 부위 바로 앞의 티민의 관찰된 불변성은 여러 이펙터에 대한 요구사항이다 [문헌 [Boch et al., supra]; [Romer et al., supra]; 및 [Romer et al. (2009) Plant Physiol. 150:1697-1712]]. TAL 이펙터에서 반복 영역 바로 앞의 아미노산 서열 (고도로 보존됨) (도 38a)은 아미노산 서열 및 예측된 이차 구조 양자 모두에서 반복물과 유의한 유사성을 공유한다 (도 38b 및 문헌 [Bodganove et al. (2010) Curr. Opin. Plant Biol. 13:394-401]). "0^th" 반복물이라고 불리는 이러한 서열이 결합 부위의 위치 -1에 있는 T에 대한 요구사항에 대한 기본이고, RVD-동족 위치에 있는 잔기 (도 38b)가 뉴클레오티드를 특정한다는 것을 가정하였다.

이들 발견에 기초하여, G에 대한 높은 특이성을 갖는 반복물을 혼입시킴으로써, 그리고 -1에 있는 T에 대한 요구사항을 완화시킴으로써 조작된 TAL 이펙터 단백질에 대한 표적화 능력이 향상될 수 있다는 것을 가정하였다. NN이 나타내는 것보다 G에 대한 더 강한 특이성에 대해 신규하고 희귀한 RVD를 시험하고, 흔한 RVD를 갖는 0^th 반복물의 RVD-동족 잔기를 대체하여 실험을 개시하였다.

G에 대한 강한 특이성에 대한 신규하고 희귀한 RVD: 상기 개시된 모듈 (예를 들어, 실시예 4 참조)은 4종의 뉴클레오티드 염기 (각각 A, C, G 및 T)에 대한 결합을 특정하기 위해 4종의 특정 RVD (NI, HD, NN 및 NG)를 사용하였다. 다른 RVD를 함유하는 반복물이 또한 유용할 수 있고, NI, HD, NN 및 NG와 비교하여 4종의 염기에 대한 증가된 특이성 및/또는 친화성을 가질 수 있다. G에 대한 특이성의 개선을 위해, 신규하고 희귀한 RVD를 코딩하는 여러 반복물을 제작하였다. 희귀한 RVD NK, HN 및 NA가 G와 회합하였으며, 이는 N이 잔기 중 하나 또는 나머지 다른 하나만큼 중요할 수 있다는 것을 제안하였다 (도 1c). 그러므로, 표 5에 나타낸 RVD를 갖는 반복물을 코딩하는 유도체의 광범위한 세트를 제작하였다. 좌측 컬럼은 위치 12에 극성 아미노산 (R, K, D, E, Q, H, S, T 또는 Y) 및 위치 13에 N을 갖는 RVD를 나열한다. 우측 컬럼은 RVD의 제2 위치에 17종의 다른 아미노산 (G, L, V, R, K, D, E, Q, H, T, M, C, P, Y, W 또는 F) 중 임의의 것과 제1 위치에 N의 조합을 나열한다. N 없이 더 큰 특이성의 가능성을 설명하기 위해, 위치 12에 극성 아미노산 (R, K, D, E, Q, H, S, T 또는 Y) 및 위치 13에 갭 (*)을 갖는 반복물을 또한 제조하였다 (가운데 컬럼).

TAL 이펙터의 전사 활성화 활성에 대한 정량적 리포터 유전자 기반 검정에서, 예컨대 니코티아나 벤타미아나(Nicotiana benthamiana)에서 GUS 또는 이중 루시페라제 리포터 기반, 아그로박테리움(Agrobacterium)-매개된 일과성 발현 검정, 또는 상기 기재된 사카로미세스 세레비시아에(Saccharomyces cerevisiae)에서 lacZ 리포터 기반 TALEN 검정 (예를 들어, 실시예 2 참조)에서의 기능에 대해 신규 인공 RVD를 시험하였다. 시험되는 RVD를 함유하는 반복물 모듈을 활성의 측정가능한 및 미포화(sub-saturation) 수준으로 TAL 이펙터 또는 TALEN으로 혼입시키고, 상응하는 위치에 모든 4종의 뉴클레오티드의 통합된 과돌연변이를 갖는 DNA 표적 세트에 대한 활성의 차이에 대해 생성된 단백질을 시험하였다. 구체적으로, 식물내 및 효모 검정에서 최소로 활성이고 3개의 첨가된 반복물에서 미스매치에 대해 반응성인 PthXo1 변이체(들)로 개시하여, 각각의 신규하고 희귀한 반복물 (세가지 동의체에서)을 함유하는 TALEN을, 상응하는 위치 각각에 G를 갖는 표적에 대해 생체내에서 시험하였다. 증가된 활성을 나타내는 임의의 것에 대해, 특이성을 확인하기 위해, 상기 위치에 다른 뉴클레오티드로 과돌연변이된 표적으로 검정을 반복하였다.

<표 5>

^aN^*, NG 및 NS nt 회합 빈도는 공지되어 있다. 별표는 RVD에서 2^nd 위치 (즉, 컨센서스(consensus) 반복 서열의 13^th 위치)에 상응하는 갭을 나타낸다.

위치 -1에 T의 특이성을 완화시키기 위한 0 ^th 반복물의 RVD -동족 위치에 대한 흔한 RVD 치환: 0^th 반복물 및 반복 컨센서스 서열의 이차 구조 예측 및 정렬은 0^th 반복물에 KR^* (별표는 갭을 나타냄)에 의해 차지된 위치가 RVD와 동족이고, 따라서 -1에 T를 특정하는 잔기였다는 것을 제안하였다. KR 및 별도로 R^*에 대한 HD, NG, NI 및 NN의 치환을 갖는 PthXo1의 변이체를 상기 기재된 Tal1c "주쇄" 구조체에 제작하였다. 위치 -1에 상응하는 뉴클레오티드, 즉 C, T, A 및 G 각각을 갖는 표적을 이용하여, 이들 변이체의 활성을 식물내 및 효모 검정에서 야생형 이펙터에 대해 비교하였다. 0^th 반복물의 위치 11에 K에 대해 치환된, 컨센서스 반복 서열의 위치 11에 있는 잔기인 S를 갖는 PthXo1의 추가 변이체를 제작하였다. 그리고, 0^th 반복물 (표 6)의 위치 15에 V에 대한, 컨센서스 반복 서열의 위치 16에 있는 잔기인 K의 치환과 조합된 이러한 치환을 갖는 다른 변이체를 제작하였다. TAL 이펙터 활성에 대한 근위 TATA 박스를 포함시킬 수 있었다. 또한, -1에 T가 TATA 박스의 일부인 것으로 보이는 AvrBs3과 달리, PthXo1 결합 부위에 가장 가까운 TATA 박스가 46 bp 하류이고, -1에서 변형에 의해 동요되지 않을 것이기 때문에, PthXo1은 이러한 실험에 유용하였다.

상기 변형이 G에 대한 향상된 표적화 또는 T가 아닌 뉴클레오티드보다 앞에 있는 서열을 표적화하는 증가된 능력을 초래하지 않는다면, 인공 RVD의 보다 포괄적인 세트를 G 특이성에 대해 시험하고, 흔한 RVD가 아닌 치환을 0^th 반복물에 대해 시험하였다.

<표 6>

후보물질 및 치환된 RVD는 진한 글자이다. 다른 치환 또는 변형은 밑줄이다. 별표는 컨센서스 반복 서열에 대해 상대적인 갭을 나타낸다.

^†서열

실시예 13 - 신규 예측된 뉴클레오티드 특이적 RVD

표 1A 및 1B에 나열된 RVD가 RVD 중 제2 아미노산 잔기 (즉, 전체 반복물 중 13^th)에 의해 그룹화된 경우, RVD의 제1 위치에 아미노산과 상관없이 RVD에 의해 특정된 뉴클레오티드(들)와 아미노산의 거의 완전한 상관관계가 있었다는 것이 관찰되었다 (표 7). 그러므로, 갭 (별표에 의해 나타냄)에서 종결되는 RVD는 C 또는 T, 또는 T를 특정하고; D에서 종결되는 RVD는 C를 특정하고; G에서 종결되는 RVD는 T를 특정하고; N에서 종결되는 RVD는 G 또는 A, 또는 G를 특정한다. 또한, RVD의 위치 1에 아미노산이 H, I, N, S 또는 Y인 것으로 관찰되었다. 이들 관찰은 RVD 특이성이 제1 위치에 잔기가 H, I, N, S 또는 Y인 것과 독립적으로 제2 위치에 잔기에 의해 결정된다는 것을 제안하였다. 그러므로, 제1 위치에 잔기 H, I, S, N 또는 Y와 제2 위치에서 관찰된 잔기를 조합하는 여러 신규 (즉, 아직 관찰되지 않은) RVD에 대해 특이성이 예측되었다. 그러므로, I^*, S^* 및 Y^*는 C 또는 T, 또는 T를 특정하는 것으로 예측되고; ID, SD 및 YD는 C를 특정하는 것으로 예측되고; SG는 T를 특정하는 것으로 예측되고; IN 및 YN은 G 또는 A, 또는 G를 특정하는 것으로 예측되었다. 또한, NK의 관찰된 특이성에 기초하여 제2 위치에 K 대신에 오직 하나가 존재하였으나, HK, IK, SK 및 YK가 G를 특정하는 것으로 예측되었다.

실시예 2 및 11에 기재된 바와 같이 정량적 TAL 이펙터 및 TALEN 활성 검정에서 기능 및 특이성에 대해 이들 신규 RVD를 시험하고 기존 RVD와 비교하였다.

<표 7¹>

¹ 별표는 갭을 나타낸다. 유사 특이성을 갖는 RVD 그룹을 굵은선으로 테두리 표시하였다.

실시예 14 - 맞춤형 TALEN은 동물 세포에서 내인성 표적을 절단하고, 비정밀 비상동 말단-연결에 의해 돌연변이를 도입한다

동물 세포에서 표적화된 돌연변이생성을 위해 TALEN을 사용할 수 있는가를 시험하기 위해, 먼저 TAL 이펙터 AvrBs3, PthXo1 및 Tal1c의 발현을 인간 배아 신장 (HEK) 293T 세포에서 시험하였다. AvrBs3, PthXo1 및 Tal1c 코딩 유전자로부터 정지 코돈을 제거하고, 단백질 면역검출을 위해 V5 에피토프를 코딩하는 벡터에서 하류 서열을 갖는 프레임에서 포유동물 발현 벡터 pcDNA3.2/V5-DEST (미국 캘리포니아주 칼스배드에 소재한 인비트로젠(Invitrogen))로 유전자를 서브클로닝하였다. pcDNA3.2/V5-DEST는 구성적 인간 사이토메갈로바이러스 (CMV) 프로모터의 제어하에 TAL 이펙터 유전자를 위치시켰다. 생성된 플라스미드로 리포펙타민(Lipofectamine) 2000 (인비트로젠)을 사용하여 HEK 293T 세포를 개별적으로 형질감염시키고, 24시간 후, 세포의 각각의 형질감염된 배치(batch)로부터 총 단백질을 단리하고, 폴리아크릴아미드 겔 전기영동법, 웨스턴 블럿팅 및 마우스 항-V5 항체를 이용한 면역표지로 처리하였다. 슈퍼시그널 위트 피코 케미루미네슨트 키트(SuperSignal Weat Pico Chemiluminescent kit) (써모사이언티픽, 인크.(ThermoScientific, Inc.))를 이용하여 염소 항-마우스 항체-양고추냉이 퍼옥시다제 접합체로 표지된 단백질을 검출하였다. 액틴의 면역표지화 및 검출에 의해 등가의 로딩을 확인하였다. 각각의 TAL 이펙터 단백질을 명백한 분해 없이 검출가능하게 발현시켰다 (도 39).

다음, 내인성 인간 HPRT 유전자 및 소위 HPRT-3254-17 및 HPRT-3286-20r에서 서열을 표적화하도록 한 쌍의 TALEN을 실시예 9에 기재된 바와 같이 설계하였다 (도 40a 및 도 40b). 실시예 8에 기재된 골든 게이트(Golden Gate) 클로닝-기반 방법 및 시약을 이용하여 플라스미드 pTALEN141 코딩 HPRT-3254-17 및 플라스미드 pTALEN142 코딩 HPRT-3286-20r을 제작하였다. 그 후, TALEN 유전자를 포유동물 발현 벡터 pCDNA3.1(-) (인비트로젠, 인크.)로 서브클로닝하여 (여기서 상기 벡터는 상기 유전자를 구성적 CMV 프로모터의 제어하에 위치시킴), 플라스미드 pTALEN141M 및 pTALEN 142M을 수득하였다. 그 후, HEK 293T 세포를 pTALEN141M 및 pTALEN142M 양자 모두 함께 및 별도로 음성 대조로서 pCDNA3.1(-)로 형질감염시켰다. 72시간 후, 게놈 DNA를 단리하고, 제한 엔도뉴클레아제 Bpu10I로 소화시켰다. Bpu10I 부위는 HPRT에서 HPRT-3254-17 및 HPRT-3286-20r 결합 부위를 분리시키는 스페이서 내에 존재하였다 (도 41a). Bpu10I 소화 후, TALEN-처리된 샘플 및 대조 샘플 양자 모두로부터 TALEN-표적화된 부위를 스패닝하는 244 bp 단편을 증폭시키기 위해 PCR을 이용하였다. 샘플 양자 모두로부터 예상된 단편을 증폭시켰으며, 이는 게놈 DNA의 Bpu10I 소화가 불완전하였다는 것을 나타내었다. 그러나, Bpu10I에 의한 PCR 생성물의 후속적 소화는 대조 샘플로부터 증폭된 생성물의 완전 절단을 초래하였으나, TALEN 처리된 샘플로부터 생성물의 불완전 절단을 초래하였다 (도 41b). TALEN-처리된 샘플 중 절단-내성 PCR 생성물의 존재는 HPRT에서 의도된 표적에 TALEN-매개된 이중 가닥 파열의 비상동 말단 연결에 의한 불완전 복구의 결과로서 내인성 Bpu10I 부위가 생체내에서 돌연변이되었다는 증거를 제공한다. 그러므로, TALEN을 포유동물 세포에서 표적화된 돌연변이생성을 위해 사용할 수 있다.

기타 실시양태

본 발명은 그의 상세한 설명과 함께 기재되었으나, 상기 기재는 첨부된 특허청구범위에 의해 한정되는 본 발명의 범위를 예시하는 것으로 의도되며 이를 제한하는 것으로 의도되지 않는 것으로 이해된다. 다른 측면, 장점 및 변형은 하기 특허청구범위 내에 포함된다.

SEQUENCE LISTING <110> Regents of the University of Minnesota Iowa State University Research Foundation, Inc. <120> TAL EFFECTOR-MEDIATED DNA MODIFICATION <130> 09531/0305WO1 <140> PCT/US2010/059932 <141> 2010-12-10 <150> 61/366,685 <151> 2010-07-22 <150> 61/352,108 <151> 2010-06-07 <150> 61/285,324 <151> 2009-12-10 <160> 93 <170> FastSEQ for Windows Version 4.0 <210> 1 <211> 34 <212> PRT <213> Artificial Sequence <220> <223> generic sequence <400> 1 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly <210> 2 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 2 agaagaagag acccata 17 <210> 3 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 3 atataaacct aaccatcc 18 <210> 4 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 4 atataaacct gacccttt 18 <210> 5 <211> 14 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 5 atataaacct ctct 14 <210> 6 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 6 atataaacct aacca 15 <210> 7 <211> 14 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 7 ataaacctaa ccat 14 <210> 8 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 8 gcatctcccc ctactgtaca ccac 24 <210> 9 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 9 ataaaaggcc ctcaccaacc cat 23 <210> 10 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 10 ataatcccca aatcccctcc tc 22 <210> 11 <211> 16 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 11 ccccctcgct tccctt 16 <210> 12 <211> 1164 <212> PRT <213> Xanthomonas euvesicatoria <400> 12 Met Asp Pro Ile Arg Ser Arg Thr Pro Ser Pro Ala Arg Glu Leu Leu 1 5 10 15 Pro Gly Pro Gln Pro Asp Gly Val Gln Pro Thr Ala Asp Arg Gly Val 20 25 30 Ser Pro Pro Ala Gly Gly Pro Leu Asp Gly Leu Pro Ala Arg Arg Thr 35 40 45 Met Ser Arg Thr Arg Leu Pro Ser Pro Pro Ala Pro Ser Pro Ala Phe 50 55 60 Ser Ala Gly Ser Phe Ser Asp Leu Leu Arg Gln Phe Asp Pro Ser Leu 65 70 75 80 Phe Asn Thr Ser Leu Phe Asp Ser Leu Pro Pro Phe Gly Ala His His 85 90 95 Thr Glu Ala Ala Thr Gly Glu Trp Asp Glu Val Gln Ser Gly Leu Arg 100 105 110 Ala Ala Asp Ala Pro Pro Pro Thr Met Arg Val Ala Val Thr Ala Ala 115 120 125 Arg Pro Pro Arg Ala Lys Pro Ala Pro Arg Arg Arg Ala Ala Gln Pro 130 135 140 Ser Asp Ala Ser Pro Ala Ala Gln Val Asp Leu Arg Thr Leu Gly Tyr 145 150 155 160 Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Arg Ser Thr Val 165 170 175 Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala His 180 185 190 Ile Val Ala Leu Ser Gln His Pro Ala Ala Leu Gly Thr Val Ala Val 195 200 205 Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu Ala 210 215 220 Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala 225 230 235 240 Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp 245 250 255 Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val 260 265 270 Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn 275 280 285 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 290 295 300 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 305 310 315 320 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 325 330 335 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 340 345 350 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 355 360 365 Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 370 375 380 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 385 390 395 400 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 405 410 415 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 420 425 430 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala 435 440 445 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 450 455 460 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 465 470 475 480 Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 485 490 495 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 500 505 510 Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 515 520 525 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 530 535 540 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 545 550 555 560 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 565 570 575 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 580 585 590 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 595 600 605 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 610 615 620 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn 625 630 635 640 Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val 645 650 655 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 660 665 670 Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 675 680 685 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 690 695 700 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 705 710 715 720 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 725 730 735 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 740 745 750 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 755 760 765 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 770 775 780 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 785 790 795 800 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 805 810 815 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 820 825 830 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 835 840 845 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 850 855 860 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 865 870 875 880 Gly Arg Pro Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp 885 890 895 Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys 900 905 910 Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His 915 920 925 Ala Pro Ala Leu Ile Lys Arg Thr Asn Arg Arg Ile Pro Glu Arg Thr 930 935 940 Ser His Arg Val Ala Asp His Ala Gln Val Val Arg Val Leu Gly Phe 945 950 955 960 Phe Gln Cys His Ser His Pro Ala Gln Ala Phe Asp Asp Ala Met Thr 965 970 975 Gln Phe Gly Met Ser Arg His Gly Leu Leu Gln Leu Phe Arg Arg Val 980 985 990 Gly Val Thr Glu Leu Glu Ala Arg Ser Gly Thr Leu Pro Pro Ala Ser 995 1000 1005 Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys 1010 1015 1020 Pro Ser Pro Thr Ser Thr Gln Thr Pro Asp Gln Ala Ser Leu His Ala 1025 1030 1035 1040 Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His 1045 1050 1055 Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp 1060 1065 1070 Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ser Phe Glu Val Arg Val 1075 1080 1085 Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys 1090 1095 1100 Arg Pro Arg Thr Ser Ile Gly Gly Gly Leu Pro Asp Pro Gly Thr Pro 1105 1110 1115 1120 Thr Ala Ala Asp Leu Ala Ala Ser Ser Thr Val Met Arg Glu Gln Asp 1125 1130 1135 Glu Asp Pro Phe Ala Gly Ala Ala Asp Asp Phe Pro Ala Phe Asn Glu 1140 1145 1150 Glu Glu Leu Ala Trp Leu Met Glu Leu Leu Pro Gln 1155 1160 <210> 13 <211> 4366 <212> DNA <213> Xanthomonas euvesicatoria <400> 13 gaattcaagg tgtcaaaaag cgataggcgg aattatagat gtacttgtat gaacttatca 60 acgccagttt agtgaacggg ttcgacaaag cgaaaccaac acccaggcgc gaaagccttg 120 cgccgcaatg ctttccggca atgtgaccca gggcattgac cgaaacggcg taggaatttc 180 ggaacacgac ggtaggggaa tgctctaccg cccggctacg caaaagcact ctcgcctgcc 240 agacgcgcca ctgcgtggaa ttggccgtta tgtccgctgg cggcctcgcc gccgtagtgc 300 ttgcagcgca gccttgaatg atcgaacatc aaacatcact gtttgatagg tcgatcatga 360 catcgcccat ttcgagggtc ggcagggatt cgtgtaaaaa acagccaaaa gtgagctaac 420 tcgctgtcag cacagaaatt tttcacaacc ttctgccgat cctccatgcg ggtccgtgat 480 cgccttcatg tctgcgcctc accctggtcg tcgagggttg ccaggatcac ccgaagttgt 540 gtactgccat gcggcctcgg aagctatgta ggaaccacag accgctagtc tggaggcgac 600 catgtaaaga ggtatgcctg atggatccca ttcgttcgcg cacaccaagt cctgcccgcg 660 agcttctgcc cggaccccaa cccgatgggg ttcagccgac tgcagatcgt ggggtgtctc 720 cgcctgccgg cggccccctg gatggcttgc ccgctcggcg gacgatgtcc cggacccggc 780 tgccatctcc ccctgccccc tcacctgcgt tctcggcggg cagcttcagt gacctgttac 840 gtcagttcga tccgtcactt tttaatacat cgctttttga ttcattgcct cccttcggcg 900 ctcaccatac agaggctgcc acaggcgagt gggatgaggt gcaatcgggt ctgcgggcag 960 ccgacgcccc cccacccacc atgcgcgtgg ctgtcactgc cgcgcggccg ccgcgcgcca 1020 agccggcgcc gcgacgacgt gctgcgcaac cctccgacgc ttcgccggcc gcgcaggtgg 1080 atctacgcac gctcggctac agccagcagc aacaggagaa gatcaaaccg aaggttcgtt 1140 cgacagtggc gcagcaccac gaggcactgg tcggccatgg gtttacacac gcgcacatcg 1200 ttgcgctcag ccaacacccg gcagcgttag ggaccgtcgc tgtcaagtat caggacatga 1260 tcgcagcgtt gccagaggcg acacacgaag cgatcgttgg cgtcggcaaa cagtggtccg 1320 gcgcacgcgc tctggaggcc ttgctcacgg tggcgggaga gttgagaggt ccaccgttac 1380 agttggacac aggccaactt ctcaagattg caaaacgtgg cggcgtgacc gcagtggagg 1440 cagtgcatgc atggcgcaat gcactgacgg gtgcccccct gaacctgacc ccggagcagg 1500 tggtggccat cgccagccac gatggcggca agcaggcgct ggagacggtg cagcggctgt 1560 tgccggtgct gtgccaggcc catggcctga ccccgcagca ggtggtggcc atcgccagca 1620 atggcggtgg caagcaggcg ctggagacgg tgcagcggct gttgccggtg ctgtgccagg 1680 cccatggcct gaccccgcag caggtggtgg ccatcgccag caatagcggt ggcaagcagg 1740 cgctggagac ggtgcagcgg ctgttgccgg tgctgtgcca ggcccatggc ctgaccccgg 1800 agcaggtggt ggccatcgcc agcaatggcg gtggcaagca ggcgctggag acggtgcagc 1860 ggctgttgcc ggtgctgtgc caggcccatg gcctgacccc ggagcaggtg gtggccatcg 1920 ccagcaatat tggtggcaag caggcgctgg agacggtgca ggcgctgttg ccggtgctgt 1980 gccaggccca tggcctgacc ccggagcagg tggtggccat cgccagcaat attggtggca 2040 agcaggcgct ggagacggtg caggcgctgt tgccggtgct gtgccaggcc catggcctga 2100 ccccggagca ggtggtggcc atcgccagca atattggtgg caagcaggcg ctggagacgg 2160 tgcaggcgct gttgccggtg ctgtgccagg cccatggcct gaccccggag caggtggtgg 2220 ccatcgccag ccacgatggc ggcaagcagg cgctggagac ggtgcagcgg ctgttgccgg 2280 tgctgtgcca ggcccatggc ctgaccccgg agcaggtggt ggccatcgcc agccacgatg 2340 gcggcaagca ggcgctggag acggtgcagc ggctgttgcc ggtgctgtgc caggcccatg 2400 gcctgacccc gcagcaggtg gtggccatcg ccagcaatgg cggtggcaag caggcgctgg 2460 agacggtgca gcggctgttg ccggtgctgt gccaggccca tggcctgacc ccggagcagg 2520 tggtggccat cgccagcaat agcggtggca agcaggcgct ggagacggtg caggcgctgt 2580 tgccggtgct gtgccaggcc catggcctga ccccggagca ggtggtggcc atcgccagca 2640 atagcggtgg caagcaggcg ctggagacgg tgcagcggct gttgccggtg ctgtgccagg 2700 cccatggcct gaccccggag caggtggtgg ccatcgccag ccacgatggc ggcaagcagg 2760 cgctggagac ggtgcagcgg ctgttgccgg tgctgtgcca ggcccatggc ctgaccccgg 2820 agcaggtggt ggccatcgcc agccacgatg gcggcaagca ggcgctggag acggtgcagc 2880 ggctgttgcc ggtgctgtgc caggcccatg gcctgacccc ggagcaggtg gtggccatcg 2940 ccagccacga tggcggcaag caggcgctgg agacggtgca gcggctgttg ccggtgctgt 3000 gccaggccca tggcctgacc ccgcagcagg tggtggccat cgccagcaat ggcggcggca 3060 ggccggcgct ggagacggtg cagcggctgt tgccggtgct gtgccaggcc catggcctga 3120 ccccggagca ggtggtggcc atcgccagcc acgatggcgg caagcaggcg ctggagacgg 3180 tgcagcggct gttgccggtg ctgtgccagg cccatggcct gaccccgcag caggtggtgg 3240 ccatcgccag caatggcggc ggcaggccgg cgctggagag cattgttgcc cagttatctc 3300 gccctgatcc ggcgttggcc gcgttgacca acgaccacct cgtcgccttg gcctgcctcg 3360 gcggacgtcc tgcgctggat gcagtgaaaa agggattgcc gcacgcgccg gccttgatca 3420 aaagaaccaa tcgccgtatt cccgaacgca catcccatcg cgttgccgac cacgcgcaag 3480 tggttcgcgt gctgggtttt ttccagtgcc actcccaccc agcgcaagca tttgatgacg 3540 ccatgacgca gttcgggatg agcaggcacg ggttgttaca gctctttcgc agagtgggcg 3600 tcaccgaact cgaagcccgc agtggaacgc tccccccagc ctcgcagcgt tgggaccgta 3660 tcctccaggc atcagggatg aaaagggcca aaccgtcccc tacttcaact caaacgccgg 3720 atcaggcgtc tttgcatgca ttcgccgatt cgctggagcg tgaccttgat gcgcctagcc 3780 caatgcacga gggagatcag acgcgggcaa gcagccgtaa acggtcccga tcggatcgtg 3840 ctgtcaccgg tccctccgca cagcaatcgt tcgaggtgcg cgttcccgaa cagcgcgatg 3900 cgctgcattt gcccctcagt tggagggtaa aacgcccgcg taccagtatc gggggcggcc 3960 tcccggatcc tggtacgccc acggctgccg acctggcagc gtccagcacc gtgatgcggg 4020 aacaagatga ggaccccttc gcaggggcag cggatgattt cccggcattc aacgaagagg 4080 agctcgcatg gttgatggag ctattgcctc agtgaggctc agtcggtgac tacctgagcg 4140 tcggcaggga ttggtgtaag taacctttac tgacagcgag ttagcccact tttggctgtt 4200 ttttacacaa atccctgcct cccctctggt tgcaccacac ccgtacacca agcgcggcgg 4260 cgaagcaggc accgagtggt tccgctgcgg tgttgcgttc cctaaccagg gcggtggcta 4320 tacgctcaag ctgcgcaccg tcccggtggc gatcgacgac gaaatg 4366 <210> 14 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 14 tatataaacc taaccatcct cacaacttca agttatcgga tggttaggtt tatata 56 <210> 15 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 15 tatataaacc taaccatccg ataacttgaa gttgtgagga tggttaggtt tatata 56 <210> 16 <211> 1373 <212> PRT <213> Xanthomonas euvesicatoria <400> 16 Met Asp Pro Ile Arg Ser Arg Thr Pro Ser Pro Ala Arg Glu Leu Leu 1 5 10 15 Pro Gly Pro Gln Pro Asp Arg Val Gln Pro Thr Ala Asp Arg Gly Gly 20 25 30 Ala Pro Pro Ala Gly Gly Pro Leu Asp Gly Leu Pro Ala Arg Arg Thr 35 40 45 Met Ser Arg Thr Arg Leu Pro Ser Pro Pro Ala Pro Ser Pro Ala Phe 50 55 60 Ser Ala Gly Ser Phe Ser Asp Leu Leu Arg Gln Phe Asp Pro Ser Leu 65 70 75 80 Leu Asp Thr Ser Leu Leu Asp Ser Met Pro Ala Val Gly Thr Pro His 85 90 95 Thr Ala Ala Ala Pro Ala Glu Cys Asp Glu Val Gln Ser Gly Leu Arg 100 105 110 Ala Ala Asp Asp Pro Pro Pro Thr Val Arg Val Ala Val Thr Ala Ala 115 120 125 Arg Pro Pro Arg Ala Lys Pro Ala Pro Arg Arg Arg Ala Ala Gln Pro 130 135 140 Ser Asp Ala Ser Pro Ala Ala Gln Val Asp Leu Arg Thr Leu Gly Tyr 145 150 155 160 Ser Gln Gln Gln Gln Glu Lys Ile Lys Pro Lys Val Gly Ser Thr Val 165 170 175 Ala Gln His His Glu Ala Leu Val Gly His Gly Phe Thr His Ala His 180 185 190 Ile Val Ala Leu Ser Arg His Pro Ala Ala Leu Gly Thr Val Ala Val 195 200 205 Lys Tyr Gln Asp Met Ile Ala Ala Leu Pro Glu Ala Thr His Glu Asp 210 215 220 Ile Val Gly Val Gly Lys Gln Trp Ser Gly Ala Arg Ala Leu Glu Ala 225 230 235 240 Leu Leu Thr Val Ala Gly Glu Leu Arg Gly Pro Pro Leu Gln Leu Asp 245 250 255 Thr Gly Gln Leu Val Lys Ile Ala Lys Arg Gly Gly Val Thr Ala Val 260 265 270 Glu Ala Val His Ala Ser Arg Asn Ala Leu Thr Gly Ala Pro Leu Asn 275 280 285 Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 290 295 300 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 305 310 315 320 His Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly 325 330 335 Gly Lys Gln Ala Leu Glu Thr Met Gln Arg Leu Leu Pro Val Leu Cys 340 345 350 Gln Ala His Gly Leu Pro Pro Asp Gln Val Val Ala Ile Ala Ser Asn 355 360 365 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 370 375 380 Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 385 390 395 400 Ser His Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 405 410 415 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala 420 425 430 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 435 440 445 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val 450 455 460 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 465 470 475 480 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp 485 490 495 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Lys Gln Ala Leu Glu Thr 500 505 510 Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro 515 520 525 Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu 530 535 540 Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Thr His Gly Leu 545 550 555 560 Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln 565 570 575 Ala Leu Glu Thr Val Gln Gln Leu Leu Pro Val Leu Cys Gln Ala His 580 585 590 Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly 595 600 605 Lys Gln Ala Leu Ala Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln 610 615 620 Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly 625 630 635 640 Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu 645 650 655 Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser 660 665 670 Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro 675 680 685 Val Leu Cys Gln Ala His Gly Leu Thr Gln Val Gln Val Val Ala Ile 690 695 700 Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu 705 710 715 720 Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val 725 730 735 Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln 740 745 750 Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln 755 760 765 Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr 770 775 780 Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Gln 785 790 795 800 Glu Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu 805 810 815 Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu 820 825 830 Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln 835 840 845 Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His 850 855 860 Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly 865 870 875 880 Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln 885 890 895 Asp His Gly Leu Thr Leu Ala Gln Val Val Ala Ile Ala Ser Asn Ile 900 905 910 Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu 915 920 925 Cys Gln Ala His Gly Leu Thr Gln Asp Gln Val Val Ala Ile Ala Ser 930 935 940 Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro 945 950 955 960 Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile 965 970 975 Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu 980 985 990 Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Leu Asp Gln Val Val 995 1000 1005 Ala Ile Ala Ser Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 1010 1015 1020 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 1025 1030 1035 1040 Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu Thr Val 1045 1050 1055 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asn 1060 1065 1070 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Lys Gln Ala Leu Glu Ser 1075 1080 1085 Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr 1090 1095 1100 Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Met 1105 1110 1115 1120 Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Leu Ile Arg Arg 1125 1130 1135 Val Asn Arg Arg Ile Gly Glu Arg Thr Ser His Arg Val Ala Asp Tyr 1140 1145 1150 Ala Gln Val Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro 1155 1160 1165 Ala Tyr Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg Asn 1170 1175 1180 Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala 1185 1190 1195 1200 Arg Gly Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu 1205 1210 1215 Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln 1220 1225 1230 Thr Pro Asp Gln Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg 1235 1240 1245 Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Gly Ala 1250 1255 1260 Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser 1265 1270 1275 1280 Ala Gln His Ser Phe Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu 1285 1290 1295 His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Gly 1300 1305 1310 Gly Gly Leu Pro Asp Pro Gly Thr Pro Ile Ala Ala Asp Leu Ala Ala 1315 1320 1325 Ser Ser Thr Val Met Trp Glu Gln Asp Ala Ala Pro Phe Ala Gly Ala 1330 1335 1340 Ala Asp Asp Phe Pro Ala Phe Asn Glu Glu Glu Leu Ala Trp Leu Met 1345 1350 1355 1360 Glu Leu Leu Pro Gln Ser Gly Ser Val Gly Gly Thr Ile 1365 1370 <210> 17 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> synthetic <220> <221> misc_feature <222> 34, 35, 36 <223> n = CAT or CAC or AAC or AAT <220> <221> misc_feature <222> 37, 38, 39 <223> n = GAC or GAT or GGA or GGC or GGG or GGT or TCA or TCC or TCG or TCT or AGC or AGT or ATA or ATC or ATT <400> 17 ctgaccccgg cacaggtggt ggccatcgcc agcnnnnnng gcggcaagca ggcgctggag 60 acggtgcagc ggctgttgcc ggtgctgtgc caggaccatg gc 102 <210> 18 <211> 34 <212> PRT <213> Artificial Sequence <220> <223> synthetic <220> <221> VARIANT <222> 12, 13 <223> Xaa = His Asp or Asn Gly or Asn Ser or Asn Ile <400> 18 Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Xaa Xaa Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 20 25 30 His Gly <210> 19 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> synthetic <220> <221> misc_feature <222> 34, 35, 36 <223> n = CAT or CAC or AAC or AAT <220> <221> misc_feature <222> 37, 38, 39 <223> n = GAC or GAT or GGA or GGC or GGG or GGT or TCA or TCC or TCG or TCT or AGC or AGT or ATA or ATC or ATT <400> 19 ctgaccccgg cacaggtggt ggccatcgcc agcnnnnnng gcggcaagca ggcgctcgag 60 agc 63 <210> 20 <211> 21 <212> PRT <213> Artificial Sequence <220> <223> synthetic <220> <221> VARIANT <222> 12, 13 <223> Xaa = His Asp or Asn Gly or Asn Ser or Asn Ile <400> 20 Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Xaa Xaa Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Ser 20 <210> 21 <211> 12 <212> DNA <213> Xanthomonas oryzae <400> 21 gcgctggaga gc 12 <210> 22 <211> 4 <212> PRT <213> Xanthomonas oryzae <400> 22 Ala Leu Glu Ser 1 <210> 23 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> synthetic <400> 23 gcgctcgagt cc 12 <210> 24 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> synthetic <400> 24 tcgagacggt gcagcggctg ttgccggtgc tgtgccagga ccatggcctg accccggacc 60 aagtggtggc catcgccagc aacattggcg gcaagcaagc gc 102 <210> 25 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> synthetic <400> 25 tcgagcgctt gcttgccgcc aatgttgctg gcgatggcca ccacttggtc cggggtcagg 60 ccatggtcct ggcacagcac cggcaacagc cgctgcaccg tc 102 <210> 26 <211> 35 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 26 Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu 1 5 10 15 Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln 20 25 30 Ala Leu Glu 35 <210> 27 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> synthetic <400> 27 tcgaaacggt gcagcggctg ttgccggtgc tgtgccagga ccatggcctg accccggacc 60 aagtggtggc tatcgccagc aacattggcg gcaagcaagc gc 102 <210> 28 <211> 102 <212> DNA <213> Artificial Sequence <220> <223> synthetic <400> 28 tcgagcgctt gcttgccgcc aatgttgctg gcgatagcca ccacttggtc cggggtcagg 60 ccatggtcct ggcacagcac cggcaacagc cgctgcaccg tt 102 <210> 29 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 29 atcaagattc tcttcact 18 <210> 30 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> target sequence <400> 30 cccagaagta aacat 15 <210> 31 <211> 598 <212> PRT <213> Xanthomonas oryzae <400> 31 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 35 40 45 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 50 55 60 Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn 65 70 75 80 Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 85 90 95 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 100 105 110 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 115 120 125 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 130 135 140 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala 145 150 155 160 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 165 170 175 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 180 185 190 Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 195 200 205 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 210 215 220 Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 225 230 235 240 Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 245 250 255 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 260 265 270 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 275 280 285 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 290 295 300 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 305 310 315 320 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 325 330 335 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn 340 345 350 Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val 355 360 365 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 370 375 380 Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 385 390 395 400 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 405 410 415 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 420 425 430 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val 435 440 445 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 450 455 460 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 465 470 475 480 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 485 490 495 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 500 505 510 Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala 515 520 525 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 530 535 540 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 545 550 555 560 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 565 570 575 His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala Ser Asn Gly Gly 580 585 590 Gly Arg Pro Ala Leu Glu 595 <210> 32 <211> 4122 <212> DNA <213> Xanthomonas oryzae <400> 32 atggatccca ttcgttcgcg cacgccaagt cctgcccgcg agcttctgcc cggaccccaa 60 ccggataggg ttcagccgac tgcagatcgg gggggggctc cgcctgctgg cggccccctg 120 gatggcttgc ccgctcggcg gacgatgtcc cggacccggc tgccatctcc ccctgcgccc 180 tcgcctgcgt tctcggcggg cagcttcagc gatctgctcc gtcagttcga tccgtcgctt 240 cttgatacat cgcttcttga ttcgatgcct gccgtcggca cgccgcatac agcggctgcc 300 ccagcagagt gcgatgaggt gcaatcgggt ctgcgtgcag ccgatgaccc gccacccacc 360 gtgcgtgtcg ctgtcactgc cgcgcggccg ccgcgcgcca agccggcccc gcgacggcgt 420 gcggcgcaac cctccgacgc ttcgccggcc gcgcaggtgg atctacgcac gctcggctac 480 agtcagcagc agcaagagaa gatcaaaccg aaggtgggtt cgacagtggc gcagcaccac 540 gaggcactgg tgggccatgg gtttacacac gcgcacatcg ttgcgctcag ccgacacccg 600 gcagcgttag ggaccgtcgc tgtcaagtat caggacatga tcgcggcgtt accagaggcg 660 acacacgaag acatcgttgg tgtcggcaaa cagtggtccg gcgcacgcgc cctggaggcc 720 ttgctcacgg tggcgggaga gttgagaggt ccaccgttac agttggacac aggccaactt 780 gtcaagattg caaaacgtgg cggcgtgacc gcagtggagg cagtgcatgc atcgcgcaat 840 gcactgacgg gtgcccccct gaacctgacc ccggcacagg tggtggccat cgccagcaat 900 aacggtggca agcaggcgct ggagacggtg cagcggctgt tgccggtgct gtgccaggcc 960 catggcctga ccccggcgca ggtggtggcc atcgccagcc acgatggcgg caagcaggca 1020 ctggagacga tgcagcggct gttgccggtg ctgtgccagg cccatggcct gcccccggac 1080 caggtggtgg ccatcgccag caatattggc ggcaagcagg cgctggagac ggtgcagcgg 1140 ctgttgccgg tgctctgcca ggcccatggc ctgaccccgg accaggtggt ggccatcgcc 1200 agccatggcg gcggcaagca ggcgctggag acggtgcagc ggctgttgcc ggtgctctgc 1260 caggcccatg gcctgacccc ggaccaggtg gtggccatcg ccagccacga tggcggcaag 1320 caggcgctgg agacggtgca gcggctgttg ccggtgctgt gccaggccca tggcctgacc 1380 ccggaccagg tggtggccat cgccagcaat ggcggcggca agcaggcgct ggagacggtg 1440 cagcggctgt tgccggtgct gtgccaggcc catggtctga ccccggacca ggtggtggcc 1500 atcgccagca atggcggcaa gcaggcgctg gagacggtgc agcggctgtt gccggtgctg 1560 tgccaggccc atggcctgac cccggaccag gtggtggcca tcgccagcca cgatggcggc 1620 aagcaggcgc tggagacggt gcagcggctg ttgccggtgc tgtgccagac ccatggtctg 1680 accccggcgc aggtggtggc catcgccagc cacgatggcg gcaagcaggc gctggagacg 1740 gtgcagcagc tgttgccggt gctgtgccag gcccatggcc tgaccccgga ccaggtggtg 1800 gccatcgcca gcaatattgg cggcaagcag gcgctagcga cggtgcagcg gctgttgccg 1860 gtgctgtgcc aagcccatgg cctgaccccg gaccaggtgg tggccatcgc cagcaatggc 1920 ggcggcaagc aggcgctgga gacggtgcag cggctgttgc cggtgctgtg ccaggcccat 1980 ggcctgaccc cggaccaggt ggtggccatc gccagcaatg gcggcggcaa gcaggcgctg 2040 gagacggtgc agcggctgtt gccggtgctg tgccaggccc atggtctgac ccaggtgcag 2100 gtggtggcca tcgccagcaa tattggcggc aagcaggcgc tggagacggt gcagcggctg 2160 ttgccggtgc tgtgccaggc ccatggcctg accccggcgc aggtggtggc catcgccagc 2220 cacgatggcg gcaagcaggc gctggagacg gtgcagcggc tgttgccggt gctgtgccag 2280 gcccatggcc tgaccccgga ccaagtggtg gccatcgcca gcaatggcgg cggcaagcag 2340 gcgctggaga cggtgcagcg gctgttgccg gtgctgtgcc aggcccatgg cctgacccag 2400 gagcaggtgg tggccatcgc cagcaataac ggcggcaagc aggcgctgga gacggtgcag 2460 cggctgttgc cggtgctgtg ccaggcccat ggcctgaccc cggaccaggt ggtggccatc 2520 gccagcaatg gcggcggcaa gcaggcgctg gagacggtgc agcggctgtt gccggtgctg 2580 tgccaggccc atggtctgac cccggcgcag gtggtggcca tcgccagcaa tattggcggc 2640 aagcaggcgc tggagacggt gcagcggctg ttgccggtgc tgtgccagga ccatggcctg 2700 accctggcgc aggtggtggc catcgccagc aatattggcg gcaagcaggc gctggagacg 2760 gtgcagcggc tgttgccggt gctgtgccag gcacatggcc tgacccagga ccaggtggtg 2820 gccatcgcca gcaatattgg cggcaagcag gcgctggaga cggtgcagcg gctgttgccg 2880 gtgctgtgcc aggaccatgg cctgaccccg gaccaggtcg tggccatcgc cagcaatatt 2940 ggcggcaagc aggcgctgga gacggtgcag cggctgttgc cggtgctgtg ccaggaccat 3000 ggcctgaccc tggaccaggt ggtggccatc gccagcaatg gcggcaagca ggcgctggag 3060 acggtgcagc ggctgttgcc ggtgctgtgc caggaccatg gactgacccc ggaccaggtc 3120 gtggccatcg ccagcaatag tggcggcaag caggcgctgg agacggtgca gcggctgttg 3180 ccggtgctgt gccaggacca tggcctgacc ccgaaccagg tggtggccat cgccagcaat 3240 ggcggcaagc aggcgctgga gagcattgtt gcccagttat ctcgccctga tccggcgttg 3300 gccgcgttga ccaacgacca cctcgtcgcc ttggcctgcc tcggcggacg tcctgccatg 3360 gatgcagtga aaaagggatt gccgcacgcg ccggaattga tcagaagagt caatcgccgt 3420 attggcgaac gcacgtccca tcgcgttgcc gactacgcgc aagtggttcg cgtgctggag 3480 tttttccagt gccactccca cccagcgtac gcatttgatg aggccatgac gcagttcggg 3540 atgagcagga acgggttggt acagctcttt cgcagagtgg gcgtcaccga actcgaagcc 3600 cgcggtggaa cgctcccccc agcctcgcag cgttgggacc gtatcctcca ggcatcaggg 3660 atgaaaaggg ccaaaccgtc ccctacttca gctcaaacac cggatcaggc gtctttgcat 3720 gcattcgccg attcgctgga gcgtgacctt gatgcgccta gcccaatgca cgagggagat 3780 cagacagggg caagcagccg taaacggtcc cgatcggatc gtgctgtcac cggcccctcc 3840 gcacagcact ctttcgaggt gcgcgttccc gaacagcgcg atgcgctgca tttgcccctc 3900 agctggaggg taaaacgccc gcgtaccagg atcgggggcg gcctcccgga tcctggtacg 3960 cccatcgctg ccgacctggc agcgtccagc accgtgatgt gggaacaaga tgcggccccc 4020 ttcgcagggg cagcggatga tttcccggca ttcaacgaag aggagctcgc atggttgatg 4080 gagctattgc ctcagtcagg ctcagtcgga gggacgatct ga 4122 <210> 33 <211> 1341 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 33 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Ser Arg Thr 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Gly Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Pro Pro Ala Gly Gly Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Met Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Gln Phe Asp Pro Ser Leu Phe Asn Thr Ser Leu Phe Asp Ser 100 105 110 Leu Pro Pro Phe Gly Ala His His Thr Glu Ala Ala Thr Gly Glu Trp 115 120 125 Asp Glu Val Gln Ser Gly Leu Arg Ala Ala Asp Ala Pro Pro Pro Thr 130 135 140 Met Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Lys Tyr Gln Asp Met Ile Ala Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Ala Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Val Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Leu Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Val Glu Ala Val His Ala Trp Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Glu Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 405 410 415 Pro Glu Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 435 440 445 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala 465 470 475 480 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val Leu Cys 500 505 510 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Ala Leu Leu Pro Val 530 535 540 Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Ala Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 675 680 685 Pro Glu Gln Val Val Ala Ile Ala Ser Asn Ser Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 705 710 715 720 Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 740 745 750 His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His Asp Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Glu Gln Val Val Ala 850 855 860 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 865 870 875 880 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Gln Gln Val 885 890 895 Val Ala Ile Ala Ser Asn Gly Gly Gly Arg Pro Ala Leu Glu Ser Ile 900 905 910 Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn 915 920 925 Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp 930 935 940 Ala Val Lys Lys Gly Leu Pro His Ala Pro Ala Leu Ile Lys Arg Thr 945 950 955 960 Asn Arg Arg Ile Pro Glu Arg Thr Ser His Arg Val Ala Asp His Ala 965 970 975 Gln Val Val Arg Val Leu Gly Phe Phe Gln Cys His Ser His Pro Ala 980 985 990 Gln Ala Phe Asp Asp Ala Met Thr Gln Phe Gly Met Ser Arg His Gly 995 1000 1005 Leu Leu Gln Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg 1010 1015 1020 Ser Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln 1025 1030 1035 1040 Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Thr Gln Thr 1045 1050 1055 Pro Asp Gln Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp 1060 1065 1070 Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser 1075 1080 1085 Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala 1090 1095 1100 Gln Gln Ser Phe Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His 1105 1110 1115 1120 Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Ser Ile Gly Gly 1125 1130 1135 Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu 1140 1145 1150 Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His 1155 1160 1165 Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg 1170 1175 1180 Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr 1185 1190 1195 1200 Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr 1205 1210 1215 Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala 1220 1225 1230 Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln 1235 1240 1245 Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn 1250 1255 1260 Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu 1265 1270 1275 1280 Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg 1285 1290 1295 Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu 1300 1305 1310 Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu 1315 1320 1325 Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1330 1335 1340 <210> 34 <211> 1542 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 34 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Met 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Pro Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu 530 535 540 Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser 545 550 555 560 His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro 565 570 575 Val Leu Cys Gln Thr His Gly Leu Thr Pro Ala Gln Val Val Ala Ile 580 585 590 Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Gln Leu 595 600 605 Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val 610 615 620 Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Ala Thr Val Gln 625 630 635 640 Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln 645 650 655 Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr 660 665 670 Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro 675 680 685 Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu 690 695 700 Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu 705 710 715 720 Thr Gln Val Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln 725 730 735 Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His 740 745 750 Gly Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser His Asp Gly Gly 755 760 765 Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln 770 775 780 Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly 785 790 795 800 Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu 805 810 815 Cys Gln Ala His Gly Leu Thr Gln Glu Gln Val Val Ala Ile Ala Ser 820 825 830 Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro 835 840 845 Val Leu Cys Gln Ala His Gly Leu Thr Pro Asp Gln Val Val Ala Ile 850 855 860 Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu 865 870 875 880 Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Pro Ala Gln Val Val 885 890 895 Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln 900 905 910 Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Leu Ala Gln 915 920 925 Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr 930 935 940 Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala His Gly Leu Thr Gln 945 950 955 960 Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu 965 970 975 Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu 980 985 990 Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln 995 1000 1005 Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His 1010 1015 1020 Gly Leu Thr Leu Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Lys 1025 1030 1035 1040 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 1045 1050 1055 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ser Gly 1060 1065 1070 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 1075 1080 1085 Gln Asp His Gly Leu Thr Pro Asn Gln Val Val Ala Ile Ala Ser Asn 1090 1095 1100 Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro 1105 1110 1115 1120 Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala 1125 1130 1135 Cys Leu Gly Gly Arg Pro Ala Met Asp Ala Val Lys Lys Gly Leu Pro 1140 1145 1150 His Ala Pro Glu Leu Ile Arg Arg Val Asn Arg Arg Ile Gly Glu Arg 1155 1160 1165 Thr Ser His Arg Val Ala Asp Tyr Ala Gln Val Val Arg Val Leu Glu 1170 1175 1180 Phe Phe Gln Cys His Ser His Pro Ala Tyr Ala Phe Asp Glu Ala Met 1185 1190 1195 1200 Thr Gln Phe Gly Met Ser Arg Asn Gly Leu Val Gln Leu Phe Arg Arg 1205 1210 1215 Val Gly Val Thr Glu Leu Glu Ala Arg Gly Gly Thr Leu Pro Pro Ala 1220 1225 1230 Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala 1235 1240 1245 Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Ala Ser Leu His 1250 1255 1260 Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met 1265 1270 1275 1280 His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser 1285 1290 1295 Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg 1300 1305 1310 Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val 1315 1320 1325 Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser 1330 1335 1340 Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu 1345 1350 1355 1360 Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu 1365 1370 1375 Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met 1380 1385 1390 Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly 1395 1400 1405 Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp 1410 1415 1420 Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu 1425 1430 1435 1440 Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln 1445 1450 1455 Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro 1460 1465 1470 Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys 1475 1480 1485 Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys 1490 1495 1500 Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met 1505 1510 1515 1520 Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn 1525 1530 1535 Asn Gly Glu Ile Asn Phe 1540 <210> 35 <211> 1035 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 35 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala 595 600 605 Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His 610 615 620 Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val 625 630 635 640 Lys Lys Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg 645 650 655 Arg Ile Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val 660 665 670 Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala 675 680 685 Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val 690 695 700 Gln Leu Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly 705 710 715 720 Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser 725 730 735 Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp 740 745 750 Gln Thr Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp 755 760 765 Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg 770 775 780 Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln 785 790 795 800 Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro 805 810 815 Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu 820 825 830 Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu 835 840 845 Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr 850 855 860 Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu 865 870 875 880 Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly 885 890 895 Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val 900 905 910 Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser 915 920 925 Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr 930 935 940 Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp 945 950 955 960 Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val 965 970 975 Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn 980 985 990 His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu 995 1000 1005 Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val 1010 1015 1020 Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1025 1030 1035 <210> 36 <211> 1069 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 36 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Ser Ile 625 630 635 640 Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn 645 650 655 Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp 660 665 670 Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val 675 680 685 Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala 690 695 700 His Val Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala 705 710 715 720 His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly 725 730 735 Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg 740 745 750 Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln 755 760 765 Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr 770 775 780 Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp 785 790 795 800 Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser 805 810 815 Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala 820 825 830 Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His 835 840 845 Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly 850 855 860 Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu 865 870 875 880 Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His 885 890 895 Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg 900 905 910 Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr 915 920 925 Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr 930 935 940 Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala 945 950 955 960 Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln 965 970 975 Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn 980 985 990 Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu 995 1000 1005 Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg 1010 1015 1020 Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu 1025 1030 1035 1040 Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu 1045 1050 1055 Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1060 1065 <210> 37 <211> 1137 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 37 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala 705 710 715 720 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 725 730 735 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe 740 745 750 Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val 755 760 765 Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln Cys His 770 775 780 Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 785 790 795 800 Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 805 810 815 Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 820 825 830 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 835 840 845 Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser 850 855 860 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 865 870 875 880 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 885 890 895 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 900 905 910 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 915 920 925 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 930 935 940 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 945 950 955 960 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 965 970 975 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 980 985 990 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 995 1000 1005 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1010 1015 1020 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1025 1030 1035 1040 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1045 1050 1055 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1060 1065 1070 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1075 1080 1085 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1090 1095 1100 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1105 1110 1115 1120 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1125 1130 1135 Phe <210> 38 <211> 1137 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 38 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala 705 710 715 720 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 725 730 735 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe 740 745 750 Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val 755 760 765 Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln Cys His 770 775 780 Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 785 790 795 800 Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 805 810 815 Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 820 825 830 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 835 840 845 Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser 850 855 860 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 865 870 875 880 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 885 890 895 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 900 905 910 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 915 920 925 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 930 935 940 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 945 950 955 960 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 965 970 975 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 980 985 990 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 995 1000 1005 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1010 1015 1020 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1025 1030 1035 1040 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1045 1050 1055 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1060 1065 1070 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1075 1080 1085 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1090 1095 1100 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1105 1110 1115 1120 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1125 1130 1135 Phe <210> 39 <211> 1137 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 39 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 690 695 700 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala 705 710 715 720 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 725 730 735 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe 740 745 750 Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val 755 760 765 Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln Cys His 770 775 780 Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 785 790 795 800 Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 805 810 815 Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 820 825 830 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 835 840 845 Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser 850 855 860 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 865 870 875 880 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 885 890 895 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 900 905 910 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 915 920 925 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 930 935 940 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 945 950 955 960 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 965 970 975 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 980 985 990 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 995 1000 1005 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1010 1015 1020 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1025 1030 1035 1040 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1045 1050 1055 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1060 1065 1070 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1075 1080 1085 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1090 1095 1100 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1105 1110 1115 1120 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1125 1130 1135 Phe <210> 40 <211> 1137 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 40 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala 705 710 715 720 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 725 730 735 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe 740 745 750 Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val 755 760 765 Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln Cys His 770 775 780 Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 785 790 795 800 Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 805 810 815 Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 820 825 830 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 835 840 845 Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser 850 855 860 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 865 870 875 880 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 885 890 895 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 900 905 910 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 915 920 925 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 930 935 940 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 945 950 955 960 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 965 970 975 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 980 985 990 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 995 1000 1005 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1010 1015 1020 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1025 1030 1035 1040 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1045 1050 1055 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1060 1065 1070 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1075 1080 1085 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1090 1095 1100 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1105 1110 1115 1120 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1125 1130 1135 Phe <210> 41 <211> 1137 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 41 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala 705 710 715 720 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 725 730 735 Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe 740 745 750 Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val 755 760 765 Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln Cys His 770 775 780 Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 785 790 795 800 Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 805 810 815 Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 820 825 830 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 835 840 845 Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser 850 855 860 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 865 870 875 880 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 885 890 895 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 900 905 910 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 915 920 925 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 930 935 940 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 945 950 955 960 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 965 970 975 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 980 985 990 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 995 1000 1005 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1010 1015 1020 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1025 1030 1035 1040 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1045 1050 1055 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1060 1065 1070 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1075 1080 1085 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1090 1095 1100 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1105 1110 1115 1120 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1125 1130 1135 Phe <210> 42 <211> 1171 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 42 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 725 730 735 Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Arg Asp Pro Ala 740 745 750 Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly 755 760 765 Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro 770 775 780 Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu Arg Thr Ser His 785 790 795 800 Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu Glu Phe Phe Gln 805 810 815 Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala Met Thr Gln Phe 820 825 830 Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val 835 840 845 Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg 850 855 860 Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser 865 870 875 880 Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu His Ala Phe Ala 885 890 895 Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly 900 905 910 Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala 915 920 925 Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu 930 935 940 Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro 945 950 955 960 Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln 965 970 975 Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys 980 985 990 Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg 995 1000 1005 Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe 1010 1015 1020 Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys 1025 1030 1035 1040 Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val 1045 1050 1055 Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly 1060 1065 1070 Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn 1075 1080 1085 Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val 1090 1095 1100 Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr 1105 1110 1115 1120 Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala 1125 1130 1135 Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala 1140 1145 1150 Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu 1155 1160 1165 Ile Asn Phe 1170 <210> 43 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 43 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 44 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 44 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 45 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 45 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 46 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 46 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 47 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 47 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 48 <211> 1239 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 48 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu Ser Arg 805 810 815 Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val Ala Leu 820 825 830 Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys Gly Leu 835 840 845 Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile Ala Glu 850 855 860 Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg Val Leu 865 870 875 880 Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp Glu Ala 885 890 895 Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu Phe Arg 900 905 910 Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu Pro Pro 915 920 925 Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met Lys Arg 930 935 940 Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr Ser Leu 945 950 955 960 His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro 965 970 975 Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg 980 985 990 Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val Glu Val 995 1000 1005 Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser Trp Arg 1010 1015 1020 Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile 1025 1030 1035 1040 Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu 1045 1050 1055 Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu Leu Ile 1060 1065 1070 Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met Lys Val 1075 1080 1085 Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His Leu Gly 1090 1095 1100 Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile 1105 1110 1115 1120 Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn 1125 1130 1135 Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu Glu Asn 1140 1145 1150 Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr 1155 1160 1165 Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly His Phe 1170 1175 1180 Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile Thr Asn 1185 1190 1195 1200 Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly Gly Glu 1205 1210 1215 Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg Lys Phe 1220 1225 1230 Asn Asn Gly Glu Ile Asn Phe 1235 <210> 49 <211> 1273 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 49 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu 835 840 845 Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val 850 855 860 Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys 865 870 875 880 Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile 885 890 895 Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg 900 905 910 Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp 915 920 925 Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu 930 935 940 Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu 945 950 955 960 Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met 965 970 975 Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr 980 985 990 Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro 995 1000 1005 Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg 1010 1015 1020 Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val 1025 1030 1035 1040 Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser 1045 1050 1055 Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp 1060 1065 1070 Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys 1075 1080 1085 Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu 1090 1095 1100 Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met 1105 1110 1115 1120 Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His 1125 1130 1135 Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser 1140 1145 1150 Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly 1155 1160 1165 Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu 1170 1175 1180 Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys 1185 1190 1195 1200 Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly 1205 1210 1215 His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile 1220 1225 1230 Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly 1235 1240 1245 Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg 1250 1255 1260 Lys Phe Asn Asn Gly Glu Ile Asn Phe 1265 1270 <210> 50 <211> 1273 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 50 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu 835 840 845 Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val 850 855 860 Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Met Asp Ala Val Lys Lys 865 870 875 880 Gly Leu Pro His Ala Pro Glu Leu Ile Arg Arg Val Asn Arg Arg Ile 885 890 895 Gly Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala Gln Val Val Arg 900 905 910 Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala Tyr Ala Phe Asp 915 920 925 Glu Ala Met Thr Gln Phe Gly Met Ser Arg Asn Gly Leu Val Gln Leu 930 935 940 Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg Gly Gly Thr Leu 945 950 955 960 Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met 965 970 975 Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Ala 980 985 990 Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro 995 1000 1005 Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg 1010 1015 1020 Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val 1025 1030 1035 1040 Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser 1045 1050 1055 Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp 1060 1065 1070 Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys 1075 1080 1085 Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu 1090 1095 1100 Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met 1105 1110 1115 1120 Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His 1125 1130 1135 Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser 1140 1145 1150 Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly 1155 1160 1165 Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu 1170 1175 1180 Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys 1185 1190 1195 1200 Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly 1205 1210 1215 His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile 1220 1225 1230 Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly 1235 1240 1245 Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg 1250 1255 1260 Lys Phe Asn Asn Gly Glu Ile Asn Phe 1265 1270 <210> 51 <211> 1273 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 51 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala Gln Leu 835 840 845 Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His Leu Val 850 855 860 Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val Lys Lys 865 870 875 880 Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg Arg Ile 885 890 895 Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val Val Arg 900 905 910 Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala Phe Asp 915 920 925 Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val Gln Leu 930 935 940 Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly Thr Leu 945 950 955 960 Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser Gly Met 965 970 975 Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp Gln Thr 980 985 990 Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp Ala Pro 995 1000 1005 Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg Lys Arg 1010 1015 1020 Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln Ala Val 1025 1030 1035 1040 Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro Leu Ser 1045 1050 1055 Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu Pro Asp 1060 1065 1070 Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu Lys Lys 1075 1080 1085 Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr Ile Glu 1090 1095 1100 Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu Glu Met 1105 1110 1115 1120 Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly Lys His 1125 1130 1135 Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val Gly Ser 1140 1145 1150 Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser Gly Gly 1155 1160 1165 Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr Val Glu 1170 1175 1180 Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp Trp Lys 1185 1190 1195 1200 Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val Ser Gly 1205 1210 1215 His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn His Ile 1220 1225 1230 Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu Ile Gly 1235 1240 1245 Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val Arg Arg 1250 1255 1260 Lys Phe Asn Asn Gly Glu Ile Asn Phe 1265 1270 <210> 52 <211> 1307 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 52 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn 785 790 795 800 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala 865 870 875 880 Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His 885 890 895 Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp Ala Val 900 905 910 Lys Lys Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val Asn Arg 915 920 925 Arg Ile Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala His Val 930 935 940 Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala His Ala 945 950 955 960 Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly Leu Val 965 970 975 Gln Leu Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg Tyr Gly 980 985 990 Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser 995 1000 1005 Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp 1010 1015 1020 Gln Thr Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp 1025 1030 1035 1040 Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg 1045 1050 1055 Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln 1060 1065 1070 Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro 1075 1080 1085 Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu 1090 1095 1100 Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu 1105 1110 1115 1120 Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr 1125 1130 1135 Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu 1140 1145 1150 Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly 1155 1160 1165 Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val 1170 1175 1180 Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser 1185 1190 1195 1200 Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr 1205 1210 1215 Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp 1220 1225 1230 Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val 1235 1240 1245 Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn 1250 1255 1260 His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu 1265 1270 1275 1280 Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val 1285 1290 1295 Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1300 1305 <210> 53 <211> 1341 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 53 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Asn Asn Asn Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 865 870 875 880 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 885 890 895 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile 900 905 910 Val Ala Gln Leu Ser Arg Arg Asp Pro Ala Leu Ala Ala Leu Thr Asn 915 920 925 Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Leu Asp 930 935 940 Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Phe Ile Arg Arg Val 945 950 955 960 Asn Arg Arg Ile Ala Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala 965 970 975 His Val Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala 980 985 990 His Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg His Gly 995 1000 1005 Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu Phe Glu Ala Arg 1010 1015 1020 Tyr Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln 1025 1030 1035 1040 Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr 1045 1050 1055 Pro Asp Gln Thr Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp 1060 1065 1070 Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser 1075 1080 1085 Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala 1090 1095 1100 Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His 1105 1110 1115 1120 Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly 1125 1130 1135 Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu 1140 1145 1150 Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His 1155 1160 1165 Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg 1170 1175 1180 Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr 1185 1190 1195 1200 Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr 1205 1210 1215 Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala 1220 1225 1230 Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln 1235 1240 1245 Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn 1250 1255 1260 Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu 1265 1270 1275 1280 Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg 1285 1290 1295 Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu 1300 1305 1310 Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu 1315 1320 1325 Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1330 1335 1340 <210> 54 <211> 1341 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 54 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 865 870 875 880 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 885 890 895 Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile 900 905 910 Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn 915 920 925 Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Met Asp 930 935 940 Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Leu Ile Arg Arg Val 945 950 955 960 Asn Arg Arg Ile Gly Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala 965 970 975 Gln Val Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala 980 985 990 Tyr Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg Asn Gly 995 1000 1005 Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg 1010 1015 1020 Gly Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln 1025 1030 1035 1040 Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr 1045 1050 1055 Pro Asp Gln Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp 1060 1065 1070 Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser 1075 1080 1085 Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala 1090 1095 1100 Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His 1105 1110 1115 1120 Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly 1125 1130 1135 Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu 1140 1145 1150 Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His 1155 1160 1165 Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg 1170 1175 1180 Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr 1185 1190 1195 1200 Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr 1205 1210 1215 Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala 1220 1225 1230 Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln 1235 1240 1245 Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn 1250 1255 1260 Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu 1265 1270 1275 1280 Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg 1285 1290 1295 Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu 1300 1305 1310 Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu 1315 1320 1325 Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1330 1335 1340 <210> 55 <211> 1341 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 55 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 865 870 875 880 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 885 890 895 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Ser Ile 900 905 910 Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn 915 920 925 Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Met Asp 930 935 940 Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Leu Ile Arg Arg Val 945 950 955 960 Asn Arg Arg Ile Gly Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala 965 970 975 Gln Val Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala 980 985 990 Tyr Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg Asn Gly 995 1000 1005 Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg 1010 1015 1020 Gly Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln 1025 1030 1035 1040 Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr 1045 1050 1055 Pro Asp Gln Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp 1060 1065 1070 Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser 1075 1080 1085 Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala 1090 1095 1100 Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His 1105 1110 1115 1120 Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly 1125 1130 1135 Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu 1140 1145 1150 Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His 1155 1160 1165 Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg 1170 1175 1180 Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr 1185 1190 1195 1200 Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr 1205 1210 1215 Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala 1220 1225 1230 Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln 1235 1240 1245 Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn 1250 1255 1260 Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu 1265 1270 1275 1280 Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg 1285 1290 1295 Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu 1300 1305 1310 Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu 1315 1320 1325 Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1330 1335 1340 <210> 56 <211> 51 <212> DNA <213> Arabidopsis <400> 56 tatcaagatt ctcttcactt ctctctgtca caccgatgtt tacttctggg a 51 <210> 57 <211> 50 <212> DNA <213> Arabidopsis <400> 57 tccggatgct cctcttgaca aggtctgtat tgtcagttgt ggtttgtcta 50 <210> 58 <211> 48 <212> DNA <213> Arabidopsis <400> 58 ccggatgctc ctcttgacaa ggtctgtatt gtcagttgtg gtttgtct 48 <210> 59 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 59 ccggatgctc ctcttgacaa ttgtcagttg tggtttgtct 40 <210> 60 <211> 43 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 60 ccggatgctc ctcttgacaa gtattgtcag ttgtggtttg tct 43 <210> 61 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 61 ccggatgctc ctcttgacaa ttgtggtttg tct 33 <210> 62 <211> 43 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 62 ccggatgctc ctcttgacaa ggattgtcag ttgtggtttg tct 43 <210> 63 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 63 ccggatgctc ctcttgacaa attgtcagtt gtggtttgtc t 41 <210> 64 <211> 44 <212> DNA <213> Artificial Sequence <220> <223> modified Arabidopsis <400> 64 ccggatgctc ctcttgacaa ggtattgtca gttgtggttt gtct 44 <210> 65 <211> 34 <212> PRT <213> Xanthomonas gardneri <400> 65 Leu Asp Thr Gly Gln Leu Phe Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Val Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 66 <211> 34 <212> PRT <213> Xanthomonas campestris <400> 66 Leu Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Val Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 67 <211> 34 <212> PRT <213> Xanthomonas oryzae <400> 67 Leu Asp Thr Gly Gln Leu Val Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Val Glu Ala Val His Ala Ser Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 68 <211> 34 <212> PRT <213> Xanthomonas citri <400> 68 Leu Asp Thr Gly Gln Leu Leu Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Val Glu Ala Val His Ala Trp Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 69 <211> 34 <212> PRT <213> Xanthomonas oryzae <400> 69 Leu Asp Thr Gly Gln Leu Val Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Met Glu Ala Val His Ala Ser Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 70 <211> 34 <212> PRT <213> Xanthomonas oryzae <400> 70 Leu Asp Thr Gly Gln Leu Val Lys Ile Ala Lys Arg Gly Gly Val Thr 1 5 10 15 Ala Met Glu Ala Val His Ala Ser Arg Asn Ala Leu Thr Gly Ala Pro 20 25 30 Leu Asn <210> 71 <211> 34 <212> PRT <213> Xanthomonas oryzae <400> 71 Leu Thr Pro Ala Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 1 5 10 15 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Ala 20 25 30 His Gly <210> 72 <211> 1307 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 72 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 515 520 525 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 785 790 795 800 Gly Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu Ser Ile Val Ala 865 870 875 880 Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala Ala Leu Thr Asn Asp His 885 890 895 Leu Val Ala Leu Ala Cys Leu Gly Gly Arg Pro Ala Met Asp Ala Val 900 905 910 Lys Lys Gly Leu Pro His Ala Pro Glu Leu Ile Arg Arg Val Asn Arg 915 920 925 Arg Ile Gly Glu Arg Thr Ser His Arg Val Ala Asp Tyr Ala Gln Val 930 935 940 Val Arg Val Leu Glu Phe Phe Gln Cys His Ser His Pro Ala Tyr Ala 945 950 955 960 Phe Asp Glu Ala Met Thr Gln Phe Gly Met Ser Arg Asn Gly Leu Val 965 970 975 Gln Leu Phe Arg Arg Val Gly Val Thr Glu Leu Glu Ala Arg Gly Gly 980 985 990 Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp Arg Ile Leu Gln Ala Ser 995 1000 1005 Gly Met Lys Arg Ala Lys Pro Ser Pro Thr Ser Ala Gln Thr Pro Asp 1010 1015 1020 Gln Ala Ser Leu His Ala Phe Ala Asp Ser Leu Glu Arg Asp Leu Asp 1025 1030 1035 1040 Ala Pro Ser Pro Met His Glu Gly Asp Gln Thr Arg Ala Ser Ser Arg 1045 1050 1055 Lys Arg Ser Arg Ser Asp Arg Ala Val Thr Gly Pro Ser Ala Gln Gln 1060 1065 1070 Ala Val Glu Val Arg Val Pro Glu Gln Arg Asp Ala Leu His Leu Pro 1075 1080 1085 Leu Ser Trp Arg Val Lys Arg Pro Arg Thr Arg Ile Trp Gly Gly Leu 1090 1095 1100 Pro Asp Pro Ile Ser Arg Ser Gln Leu Val Lys Ser Glu Leu Glu Glu 1105 1110 1115 1120 Lys Lys Ser Glu Leu Arg His Lys Leu Lys Tyr Val Pro His Glu Tyr 1125 1130 1135 Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser Thr Gln Asp Arg Ile Leu 1140 1145 1150 Glu Met Lys Val Met Glu Phe Phe Met Lys Val Tyr Gly Tyr Arg Gly 1155 1160 1165 Lys His Leu Gly Gly Ser Arg Lys Pro Asp Gly Ala Ile Tyr Thr Val 1170 1175 1180 Gly Ser Pro Ile Asp Tyr Gly Val Ile Val Asp Thr Lys Ala Tyr Ser 1185 1190 1195 1200 Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala Asp Glu Met Gln Arg Tyr 1205 1210 1215 Val Glu Glu Asn Gln Thr Arg Asn Lys His Ile Asn Pro Asn Glu Trp 1220 1225 1230 Trp Lys Val Tyr Pro Ser Ser Val Thr Glu Phe Lys Phe Leu Phe Val 1235 1240 1245 Ser Gly His Phe Lys Gly Asn Tyr Lys Ala Gln Leu Thr Arg Leu Asn 1250 1255 1260 His Ile Thr Asn Cys Asn Gly Ala Val Leu Ser Val Glu Glu Leu Leu 1265 1270 1275 1280 Ile Gly Gly Glu Met Ile Lys Ala Gly Thr Leu Thr Leu Glu Glu Val 1285 1290 1295 Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn Phe 1300 1305 <210> 73 <211> 1409 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 73 Met Ala Ser Ser Pro Pro Lys Lys Lys Arg Lys Val Ser Trp Lys Asp 1 5 10 15 Ala Ser Gly Trp Ser Arg Met His Ala Asp Pro Ile Arg Pro Arg Arg 20 25 30 Pro Ser Pro Ala Arg Glu Leu Leu Pro Gly Pro Gln Pro Asp Arg Val 35 40 45 Gln Pro Thr Ala Asp Arg Gly Val Ser Ala Pro Ala Gly Ser Pro Leu 50 55 60 Asp Gly Leu Pro Ala Arg Arg Thr Val Ser Arg Thr Arg Leu Pro Ser 65 70 75 80 Pro Pro Ala Pro Ser Pro Ala Phe Ser Ala Gly Ser Phe Ser Asp Leu 85 90 95 Leu Arg Pro Phe Asp Pro Ser Leu Leu Asp Thr Ser Leu Leu Asp Ser 100 105 110 Met Pro Ala Val Gly Thr Pro His Thr Ala Ala Ala Pro Ala Glu Trp 115 120 125 Asp Glu Ala Gln Ser Ala Leu Arg Ala Ala Asp Asp Pro Pro Pro Thr 130 135 140 Val Arg Val Ala Val Thr Ala Ala Arg Pro Pro Arg Ala Lys Pro Ala 145 150 155 160 Pro Arg Arg Arg Ala Ala Gln Pro Ser Asp Ala Ser Pro Ala Ala Gln 165 170 175 Val Asp Leu Arg Thr Leu Gly Tyr Ser Gln Gln Gln Gln Glu Lys Ile 180 185 190 Lys Pro Lys Val Arg Ser Thr Val Ala Gln His His Glu Ala Leu Val 195 200 205 Gly His Gly Phe Thr His Ala His Ile Val Ala Leu Ser Gln His Pro 210 215 220 Ala Ala Leu Gly Thr Val Ala Val Thr Tyr Gln His Ile Ile Thr Ala 225 230 235 240 Leu Pro Glu Ala Thr His Glu Asp Ile Val Gly Val Gly Lys Gln Trp 245 250 255 Ser Gly Ala Arg Ala Leu Glu Ala Leu Leu Thr Asp Ala Gly Glu Leu 260 265 270 Arg Gly Pro Pro Leu Gln Leu Asp Thr Gly Gln Leu Val Lys Ile Ala 275 280 285 Lys Arg Gly Gly Val Thr Ala Met Glu Ala Val His Ala Ser Arg Asn 290 295 300 Ala Leu Thr Gly Ala Pro Leu Asn Leu Thr Pro Ala Gln Val Val Ala 305 310 315 320 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 325 330 335 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 340 345 350 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 355 360 365 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 370 375 380 Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu 385 390 395 400 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 405 410 415 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 420 425 430 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 435 440 445 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Asn Gly Gly Lys 450 455 460 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 465 470 475 480 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 485 490 495 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 500 505 510 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn 515 520 525 Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 530 535 540 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 545 550 555 560 Ser Asn Asn Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 565 570 575 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 580 585 590 Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 595 600 605 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 610 615 620 Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val 625 630 635 640 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 645 650 655 Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala Leu Glu 660 665 670 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 675 680 685 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys Gln Ala 690 695 700 Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly 705 710 715 720 Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly Gly Lys 725 730 735 Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp 740 745 750 His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser Asn Ile Gly 755 760 765 Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val Leu Cys 770 775 780 Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala Ser His 785 790 795 800 Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu Pro Val 805 810 815 Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala Ile Ala 820 825 830 Ser Asn Ile Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg Leu Leu 835 840 845 Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val Val Ala 850 855 860 Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val Gln Arg 865 870 875 880 Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp Gln Val 885 890 895 Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu Thr Val 900 905 910 Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr Pro Asp 915 920 925 Gln Val Val Ala Ile Ala Ser His Asp Gly Gly Lys Gln Ala Leu Glu 930 935 940 Thr Val Gln Arg Leu Leu Pro Val Leu Cys Gln Asp His Gly Leu Thr 945 950 955 960 Pro Asp Gln Val Val Ala Ile Ala Ser Asn Gly Gly Gly Lys Gln Ala 965 970 975 Leu Glu Ser Ile Val Ala Gln Leu Ser Arg Pro Asp Pro Ala Leu Ala 980 985 990 Ala Leu Thr Asn Asp His Leu Val Ala Leu Ala Cys Leu Gly Gly Arg 995 1000 1005 Pro Ala Met Asp Ala Val Lys Lys Gly Leu Pro His Ala Pro Glu Leu 1010 1015 1020 Ile Arg Arg Val Asn Arg Arg Ile Gly Glu Arg Thr Ser His Arg Val 1025 1030 1035 1040 Ala Asp Tyr Ala Gln Val Val Arg Val Leu Glu Phe Phe Gln Cys His 1045 1050 1055 Ser His Pro Ala Tyr Ala Phe Asp Glu Ala Met Thr Gln Phe Gly Met 1060 1065 1070 Ser Arg Asn Gly Leu Val Gln Leu Phe Arg Arg Val Gly Val Thr Glu 1075 1080 1085 Leu Glu Ala Arg Gly Gly Thr Leu Pro Pro Ala Ser Gln Arg Trp Asp 1090 1095 1100 Arg Ile Leu Gln Ala Ser Gly Met Lys Arg Ala Lys Pro Ser Pro Thr 1105 1110 1115 1120 Ser Ala Gln Thr Pro Asp Gln Ala Ser Leu His Ala Phe Ala Asp Ser 1125 1130 1135 Leu Glu Arg Asp Leu Asp Ala Pro Ser Pro Met His Glu Gly Asp Gln 1140 1145 1150 Thr Arg Ala Ser Ser Arg Lys Arg Ser Arg Ser Asp Arg Ala Val Thr 1155 1160 1165 Gly Pro Ser Ala Gln Gln Ala Val Glu Val Arg Val Pro Glu Gln Arg 1170 1175 1180 Asp Ala Leu His Leu Pro Leu Ser Trp Arg Val Lys Arg Pro Arg Thr 1185 1190 1195 1200 Arg Ile Trp Gly Gly Leu Pro Asp Pro Ile Ser Arg Ser Gln Leu Val 1205 1210 1215 Lys Ser Glu Leu Glu Glu Lys Lys Ser Glu Leu Arg His Lys Leu Lys 1220 1225 1230 Tyr Val Pro His Glu Tyr Ile Glu Leu Ile Glu Ile Ala Arg Asn Ser 1235 1240 1245 Thr Gln Asp Arg Ile Leu Glu Met Lys Val Met Glu Phe Phe Met Lys 1250 1255 1260 Val Tyr Gly Tyr Arg Gly Lys His Leu Gly Gly Ser Arg Lys Pro Asp 1265 1270 1275 1280 Gly Ala Ile Tyr Thr Val Gly Ser Pro Ile Asp Tyr Gly Val Ile Val 1285 1290 1295 Asp Thr Lys Ala Tyr Ser Gly Gly Tyr Asn Leu Pro Ile Gly Gln Ala 1300 1305 1310 Asp Glu Met Gln Arg Tyr Val Glu Glu Asn Gln Thr Arg Asn Lys His 1315 1320 1325 Ile Asn Pro Asn Glu Trp Trp Lys Val Tyr Pro Ser Ser Val Thr Glu 1330 1335 1340 Phe Lys Phe Leu Phe Val Ser Gly His Phe Lys Gly Asn Tyr Lys Ala 1345 1350 1355 1360 Gln Leu Thr Arg Leu Asn His Ile Thr Asn Cys Asn Gly Ala Val Leu 1365 1370 1375 Ser Val Glu Glu Leu Leu Ile Gly Gly Glu Met Ile Lys Ala Gly Thr 1380 1385 1390 Leu Thr Leu Glu Glu Val Arg Arg Lys Phe Asn Asn Gly Glu Ile Asn 1395 1400 1405 Phe <210> 74 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 74 Lys Ile Ala Lys Arg Gly Gly Val 1 5 <210> 75 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 75 Lys Ile Ala Asn Gly Gly Gly Val 1 5 <210> 76 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 76 Lys Ile Ala Asn Ile Gly Gly Val 1 5 <210> 77 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 77 Lys Ile Ala His Asp Gly Gly Val 1 5 <210> 78 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 78 Lys Ile Ala Asn Asn Gly Gly Val 1 5 <210> 79 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 79 Lys Ile Ala Lys Arg Gly Gly Val 1 5 <210> 80 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 80 Lys Ile Ala Ser Asn Gly Gly Gly Val 1 5 <210> 81 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 81 Lys Ile Ala Ser Asn Ile Gly Gly Val 1 5 <210> 82 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 82 Lys Ile Ala Ser His Asp Gly Gly Val 1 5 <210> 83 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 83 Lys Ile Ala Ser Asn Asn Gly Gly Val 1 5 <210> 84 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 84 Lys Ile Ala Lys Arg Gly Gly Val 1 5 <210> 85 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 85 Lys Ile Ala Lys Asn Gly Gly Gly Val 1 5 <210> 86 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 86 Lys Ile Ala Lys Asn Ile Gly Gly Val 1 5 <210> 87 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 87 Lys Ile Ala Lys His Asp Gly Gly Val 1 5 <210> 88 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 88 Lys Ile Ala Lys Asn Asn Gly Gly Val 1 5 <210> 89 <211> 8 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 89 Lys Ile Ala Lys Arg Gly Gly Val 1 5 <210> 90 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 90 Lys Ile Ala Ser Asn Gly Gly Gly Lys 1 5 <210> 91 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 91 Lys Ile Ala Ser Asn Ile Gly Gly Lys 1 5 <210> 92 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 92 Lys Ile Ala Ser His Asp Gly Gly Lys 1 5 <210> 93 <211> 9 <212> PRT <213> Artificial Sequence <220> <223> synthetic <400> 93 Lys Ile Ala Ser Asn Asn Gly Gly Lys 1 5

Claims

서열-특이적 엔도뉴클레아제를 코딩하는 재조합 핵산을 포함하는 발현 벡터이며, 여기서 상기 재조합 핵산은 프로모터 서열에 작동가능하게 연결된, 뉴클레아제를 코딩하는 뉴클레오티드 서열에 연결된 서열-특이적 TAL 이펙터를 코딩하는 뉴클레오티드 서열을 포함하고, 상기 벡터는 플라스미드인 발현 벡터.
제1항에 있어서, 상기 뉴클레아제가 유형 II 제한 엔도뉴클레아제인 발현 벡터.
제2항에 있어서, 상기 뉴클레아제가 FokI인 발현 벡터.
제1항에 있어서, 상기 서열-특이적 TAL 이펙터를 코딩하는 뉴클레오티드 서열이, 특이적 DNA 서열을 인식하고 결합할 수 있는 고도의 가변 잔기를 갖는 다수의 탠덤(tandem) 반복물을 코딩하며, 여기서 상기 고도의 가변 잔기는 각 반복물의 N-말단으로부터의 아미노산 위치 12 및 13에 위치하는 것인 발현 벡터.
제4항에 있어서, 상기 반복물이 AvrBs3의 중심 영역으로부터 선택된 34개 아미노산 반복물인 발현 벡터.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 서열-특이적 TAL 이펙터를 코딩하는 뉴클레오티드 서열이, 절단된(truncated) tal 유전자를 함유하는 게이트웨이-레디 고카피 박테리아 클로닝 벡터(Gateway-ready high copy bacterial cloning vector)에 TAL 이펙터 반복물을 코딩하는 서열을 순차적으로 도입함으로써 조립된 것이며, 여기서 절단된 tal 유전자에는 중심 반복 영역은 결여되어 있으나 특징적인 마지막 반쪽 반복물은 함유되어 있는 것인 발현 벡터.
제1항 내지 제5항 중 어느 한 항에 따른 재조합 핵산을 전사시키는 단계, 또는 상기 재조합 핵산을 전사 및 번역시키는 단계를 포함하는, 서열-특이적 엔도뉴클레아제 메신저 RNA (mRNA) 또는 단백질을 생성하는 방법.
제7항의 방법에 의해 얻을 수 있으며, 상기 재조합 핵산에 의해 코딩되는 뉴클레아제가 FokI인 서열-특이적 엔도뉴클레아제 mRNA.
제1항 내지 제5항 중 어느 한 항에 따른 재조합 핵산 또는
상기 재조합 핵산을 전사시키는 단계, 또는 상기 재조합 핵산을 전사 및 번역시키는 단계를 포함하는 방법에 의해 생성된 mRNA
를 포함하는 치료 조성물.
제9항에 있어서, 바이러스 질환의 치료에 사용하기 위한 치료 조성물.
세포에서의 표적화된 유전자 재조합을 위한 시험관내 방법이며,
(a) 제1항 내지 제5항 중 어느 한 항에 따른 재조합 핵산 또는 상기 재조합 핵산으로부터 전사된 mRNA를 단리된 세포 내로 도입하는 단계이며,
여기서 상기 mRNA는 선택된 DNA 표적 서열을 표적으로 하는 TAL 이펙터 엔도뉴클레아제를 코딩하고 상기 재조합 핵산에 의해 코딩되는 뉴클레아제는 FokI인 단계,
(b) 상기 세포 내에서 TAL 이펙터 엔도뉴클레아제의 발현을 유도하는 단계, 및
(c) 선택된 DNA 표적 서열이 돌연변이를 나타내는 세포를 확인하는 단계
를 포함하고, 인간의 생식 계열 유전자 정체성은 변형시키지 않는 것인 시험관내 방법.
제11항에 있어서, 단계 (c)에서의 상기 돌연변이가 유전 물질의 결실, 유전 물질의 삽입, 또는 둘 다로 이루어진 군으로부터 선택되는 것인 시험관내 방법.
제11항에 있어서, 상기 세포가 곤충 세포, 식물 세포, 어류 세포 또는 포유동물 세포인 시험관내 방법.