인간 게놈
Human genome인간 게놈은 인간을 위한 완전한 핵산 서열 세트로, 세포핵의 23개 염색체 쌍 내와 개별 미토콘드리아 내에서 발견되는 작은 DNA 분자 내에서 DNA로 인코딩됩니다. 이것들은 보통 핵 게놈과 미토콘드리아 게놈으로 분리되어 취급됩니다.[1] 인간 게놈에는 단백질을 코딩하는 DNA 서열과 단백질을 코딩하지 않는 다양한 종류의 DNA가 모두 포함됩니다. 후자는 리보솜 RNA, 전달 RNA, 리보자임, 작은 핵 RNA 및 여러 유형의 조절 RNA에 대한 DNA 코딩과 같이 번역되지 않은 RNA에 대한 DNA 코딩을 포함하는 다양한 범주입니다. 또한 프로모터 및 관련 유전자 조절 요소, 스캐폴딩 영역, 텔로미어, 중심체 및 복제 기원과 같은 구조적 및 복제 역할을 수행하는 DNA, 삽입된 바이러스 DNA, 비기능적 유사 유전자 및 단순하고 매우 반복적인 서열을 포함합니다. 인트론은 비코딩 DNA의 큰 비율을 차지합니다. 이 비부호화 DNA 중 일부는 유사유전자와 같은 비기능성 정크 DNA이지만 정크 DNA의 총량에 대해서는 확실한 합의가 이루어지지 않고 있습니다.
2022년 DNA 염기서열 분석으로 인간 유전체의 염기서열이 완전히 밝혀졌지만 아직 완전히 파악되지는 않았습니다. 전부는 아니지만 대부분의 유전자는 높은 처리량의 실험적 접근법과 생물정보학적 접근법의 조합으로 확인되었지만, 이들의 단백질 및 RNA 제품의 생물학적 기능을 추가로 설명하기 위해서는 여전히 많은 작업이 필요합니다(특히 완전한 CHM13v2.0 서열의 주석은 여전히 진행[2] 중입니다).
인간 게놈의 크기
2003년, 과학자들은 인간 게놈 전체의 85%를 시퀀싱했다고 보고했지만, 2020년 현재 적어도 8%는 여전히 누락되었습니다.[citation needed] 2021년, 과학자들은 완전한 여성 게놈의 염기서열을 분석했다고 보고했습니다. (즉, Y 염색체가 없습니다.)[3][4] 이 서열은 19,969개의 단백질 코딩 서열을 확인하여 게놈의 약 1.5%를 차지하고, 총 63,494개의 유전자를 확인했으며, 대부분은 비코딩 RNA 유전자입니다.[4] 게놈은 조절 DNA 서열, LINE, SINE, intron 및 아직 기능이 결정되지 않은 서열로 구성됩니다. 다른 세포주에서 약 62.5 x 10개의6 염기쌍으로 구성되어 있고 모든 수컷에서 발견되는 인간 Y 염색체는 2022년 1월에 완전히 염기서열이 밝혀졌습니다.[5]
표준 참조 유전체의 현재 버전은 GRCh38.p14(2023년 7월)입니다. 그것은 22개의 상염색체와 X염색체의 사본 1개와 Y염색체의 사본 1개로 구성되어 있습니다. 약 31억 개의 염기쌍(3.1Gb 또는 3.1 x 10bp9)이 포함되어 있습니다.[6] 이것은 여러 개인의 데이터를 기반으로 한 복합 게놈의 크기를 나타내지만 반수체 염색체 세트에 있는 DNA의 일반적인 양을 잘 나타냅니다. 대부분의 인간 세포는 이배체이기 때문에 두 배의 DNA를 포함하고 있습니다.
2023년 인간 판게놈 참조 초안이 발표되었습니다.[7] 다양한 민족성을 가진 사람들의 47개 유전체를 기반으로 합니다.[7] 더 넓은 표본에서 더 많은 생물 다양성을 포착하기 위한 개선된 참조 계획이 진행 중입니다.[7]
인간 개체의 유전체 간에는 상당한 차이가 있지만(단일 뉴클레오티드 변이로[8] 인한 0.1% 정도, 인델을 고려할 때 0.6% 정도),[9] 이는 인간과 가장 가까운 살아있는 친척인 보노보스와 침팬지 사이의 차이보다 상당히 작습니다(~1).1% 고정 단일 nucleot 측면 변형 및 인델 포함 시 4%).
분자조직 및 유전자 함량
인간 참조 유전체의 전체 길이는 특정 개인의 서열을 나타내지 않습니다. 게놈은 22쌍의 염색체로 구성되어 있는데, 이 염색체는 상염색체라고 불리며, 암컷은 23번째, 수컷은 (XY) 성염색체로 구성되어 있습니다. 이 염색체들은 모두 세포핵 안에 들어 있는 커다란 선형 DNA 분자들입니다. 현재 버전의 인간 참조 유전체에는 각 상염색체의 사본 1개와 두 개의 성염색체(X와 Y)의 사본 1개가 포함되어 있습니다. DNA의 총 양은 31억 개의 염기쌍(3.1Gb)입니다.[12]
단백질 코딩 유전자
단백질 코딩 서열은 인간 게놈의 가장 널리 연구되고 가장 잘 알려진 구성 요소를 나타냅니다. 이러한 서열은 궁극적으로 모든 인간 단백질의 생산으로 이어지지만, 여러 생물학적 과정(예: DNA 재배열 및 대체 pre-mRNA 스플라이싱)은 단백질 코딩 유전자의 수보다 더 많은 고유한 단백질의 생산으로 이어질 수 있습니다.
인간 게놈에는 19,000개에서 20,000개 사이의 단백질 코딩 유전자가 포함되어 있습니다. [13][14][15][16] 이 유전자들은 평균 10개의 인트론을 포함하고 있으며 인트론의 평균 크기는 약 6kb(6,000bp)입니다.[17] 이는 단백질 코딩 유전자의 평균 크기가 약 62kb이고 이러한 유전자가 게놈의 약 40%를 차지한다는 것을 의미합니다.[18]
엑손 서열은 성숙한 mRNA의 양쪽 끝에 있는 코딩 DNA와 번역되지 않은 영역(UTR)으로 구성됩니다. 코딩 DNA의 총 양은 게놈의 약 1-2%입니다.[19][17]
많은 사람들이 DNA를 코딩하는 것이 게놈의 가장 중요한 기능적 구성 요소라는 생각에 따라 게놈을 코딩 DNA와 비코딩 DNA로 나눕니다. 인간 게놈의 약 98-99%가 비코딩 DNA입니다.
비코딩 유전자
비코딩 RNA 분자는 세포, 특히 단백질 합성과 RNA 처리의 많은 반응에서 많은 필수적인 역할을 합니다. 비코딩 RNA는 tRNA, 리보솜 RNA, 마이크로RNA, snRNA 및 약 60,000개의 긴 비코딩 RNA(lncRNA)를 포함하는 기타 비코딩 RNA 유전자를 포함합니다.[20][21][22][23] 보고된 lncRNA 유전자의 수는 계속 증가하고 있고 인간 게놈의 정확한 수는 아직 정의되지 않았지만, 그 중 많은 수가 비기능적이라고 주장되고 있습니다.[24]
많은 ncRNA는 유전자 조절과 발현에 중요한 요소입니다. 비코딩 RNA는 후성유전학, 전사, RNA 스플라이싱 및 번역 기계에도 기여합니다. 유전자 조절 및 질병에서 RNA의 역할은 미개척 게놈 복잡성의 새로운 잠재적 수준을 제공합니다.[25]
유사유전자
유사유전자는 종종 유전자 복제에 의해 생성되는 단백질 코딩 유전자의 비활성 사본으로, 비활성화 돌연변이의 축적을 통해 기능하지 않게 되었습니다. 인간 게놈의 유사 유전자 수는 약 13,000개이며,[26] 일부 염색체의 경우 기능성 단백질 코딩 유전자 수와 거의 같습니다. 유전자 복제는 분자 진화 과정에서 새로운 유전 물질이 생성되는 주요 메커니즘입니다.
예를 들어, 후각 수용체 유전자 계열은 인간 게놈에서 가장 잘 문서화된 유사 유전자의 예 중 하나입니다. 이 과에 속하는 유전자의 60% 이상은 인간의 비기능성 유사유전자입니다. 이에 비해 생쥐 후각 수용체 유전자 계열의 유전자는 20%에 불과합니다. 연구에 따르면 가장 밀접하게 관련된 영장류들은 모두 비례적으로 더 적은 수의 유사 유전자를 가지고 있기 때문에 이것은 종별 특성이라고 합니다. 이 유전자 발견은 다른 포유류에 비해 인간의 후각이 덜 날카롭다는 것을 설명하는 데 도움이 됩니다.[27]
조절 DNA 염기서열
인간 게놈은 유전자 발현을 조절하는 데 중요한 다양한 조절 서열을 가지고 있습니다. 보수적인 추정치는 이러한 서열이 유전체의 8%를 구성한다는 것을 나타내지만,[28] ENCODE 프로젝트의 외삽은 유전체의 20-40[29]%[30]가 유전자 조절 서열임을 나타냅니다. 비코딩 DNA의 일부 유형은 단백질을 암호화하지는 않지만, 유전자가 발현되는 시기와 장소를 조절하는 유전자 "스위치"입니다(증강제라고 함).[31]
규제 시퀀스는 1960년대 후반부터 알려져 있습니다.[32] 인간 유전체에서 조절 서열을 처음 확인한 것은 재조합 DNA 기술에 의존했습니다.[33] 나중에 게놈 시퀀싱의 출현으로 이러한 서열의 식별은 진화적 보존에 의해 추론될 수 있었습니다. 예를 들어, 영장류와 쥐 사이의 진화적 분기는 7,000만년에서 9,000만년 전에 발생했습니다.[34] 따라서 보존된 비암호화 서열을 식별하는 유전자 서열의 컴퓨터 비교는 유전자 조절과 같은 임무에서 유전자 서열의 중요성을 나타내는 지표가 될 것입니다.[35]
다른 유전체는 복어 유전체와 같이 보존 유도 방법을 돕기 위해 동일한 의도로 시퀀싱되었습니다.[36] 그러나 규제 시퀀스는 빠른 속도로 진화하는 동안 사라지고 다시 진화합니다.[37][38][39]
2012년 현재, DNA와 조절 단백질 사이의 상호작용을 ChIP-Seq 기술에 의해 찾는 것, 또는 DNA가 히스톤에 의해 포장되지 않는 갭(DNase 과민성 부위)으로 이동하고 있으며, 이들은 모두 조사된 세포 유형에서 활성 조절 서열이 어디에 있는지를 알려줍니다.[28]
반복적인 DNA 염기서열
반복적인 DNA 서열은 인간 게놈의 약 50%를 구성합니다.[40]
인간 게놈의 약 8%는 탠덤 DNA 배열 또는 탠덤 반복, 여러 개의 인접한 사본을 갖는 낮은 복잡성 반복 서열(예: "CAGCAGCAG...")[41]로 구성됩니다. 탠덤 서열은 2개의 뉴클레오티드에서 수십 개의 뉴클레오티드에 이르기까지 다양한 길이를 가질 수 있습니다. 이러한 서열은 밀접한 관련이 있는 개인들 사이에서도 매우 다양하기 때문에 계보 DNA 검사와 법의학 DNA 분석에 사용됩니다.[42]
10개 미만의 뉴클레오티드(예: 디뉴클레오티드 반복(AC))n의 반복 서열을 마이크로위성 서열이라고 합니다. 미세위성 서열 중 트리뉴클레오티드 반복은 단백질에 대한 유전자의 코딩 영역 내에서 발생하고 유전적 장애를 초래할 수 있기 때문에 특히 중요합니다. 예를 들어, 헌팅턴병은 인간 염색체 4번에 있는 헌팅틴 유전자 내의 삼뉴클레오티드 반복(CAG)n의 확장에서 비롯됩니다. 텔로미어(선형 염색체의 끝)는 서열의 미세위성 헥사뉴클레오티드 반복(TTAGGG)으로 끝납니다.n[citation needed]
더 긴 서열의 탠덤 반복(10-60 뉴클레오티드 길이의 반복 서열 배열)을 미니위성이라고 합니다.[43]
숙주 게놈 내의 다른 위치에서 자신의 사본을 복제하고 삽입할 수 있는 DNA 서열인 전위 유전 요소는 인간 게놈의 풍부한 구성 요소입니다. 가장 풍부한 트랜스포존 계통인 Alu는 약 5만 개의 활성 사본을 가지고 있으며,[44] 유전자 내 및 유전자 간 영역에 삽입할 수 있습니다.[45] 다른 계통인 LINE-1은 게놈당 약 100개의 활성 복사본을 가지고 있습니다(사람마다 그 수가 다릅니다).[46] 오래된 트랜스포존의 비기능성 유물과 함께 전체 인간 DNA의 절반 이상을 차지합니다.[47] 때때로 "점프 유전자"라고 불리는 트랜스포존은 인간 게놈을 조각하는 데 중요한 역할을 했습니다. 이러한 서열 중 일부는 내인성 레트로바이러스, 즉 유전체에 영구적으로 통합되어 현재 후속 세대로 전달되는 바이러스 서열의 DNA 사본을 나타냅니다.
인간 게놈 내의 모바일 요소는 Alu 요소를 포함한 LTR 레트로트랜스포존(전체 게놈의 8.3%), SINE(전체 게놈의 20.4%), SVA(SINE-VNTR-Alu) 및 Class II DNA 트랜스포존(전체 게놈의 2.9%)으로 분류할 수 있습니다.
정크 DNA
유전학자, 진화생물학자, 분자생물학자가 각기 다른 정의와 방법을 사용하기 때문에 게놈의 "기능적" 요소를 구성하는 것이 무엇인지에 대한 합의는 없습니다.[48][49] 용어의 모호성으로 인해 다양한 학파가 등장했습니다.[50] 진화론적 정의에서 "기능적" DNA는 코딩이든 비코딩이든 유기체의 적합성에 기여하므로 음의 진화적 압력에 의해 유지되는 반면 "비기능적" DNA는 유기체에 이점이 없으므로 중립적인 선택적 압력을 받습니다. 이러한 유형의 DNA는 정크 DNA로[51][52] 설명되어 왔습니다. 유전적 정의에서 "기능적인" DNA는 표현형에 의해 DNA 분절이 나타나는 방법과 관련이 있고 "비기능적인" 것은 유기체에 대한 기능 상실 효과와 관련이 있습니다.[48] 생화학적 정의에서 "기능적" DNA는 분자 생성물(예: 비코딩 RNA) 및 유전자 또는 유전체 조절에서 기계적 역할을 갖는 생화학적 활성(예: 세포 유형, 상태 및 분자 과정과 같은 세포 수준 활성에 영향을 미치는 DNA 서열)을 지정하는 DNA 서열과 관련이 있습니다.[53][48] 기능적 DNA의 양에 대한 문헌의 합의는 없습니다. "기능"이 이해되는 방식에 따라 인간 게놈의 최대 90%가 기능적이지 않은 DNA([54]정크 DNA)일 가능성이 높기 때문입니다.[55] 정크 DNA가 미래에 기능을 획득하여 진화에 역할을 할 수도 있지만,[56] 이는 매우 드물게 일어날 가능성이 있습니다.[51] 마지막으로 생물체에 해롭고 음의 선택적 압력을 받는 DNA를 가비지 DNA라고 합니다.[52]
시퀀싱
최초의 인간 게놈 서열은 2001년 2월 인간 게놈 프로젝트와[57] 셀레라 코퍼레이션에 의해 거의 완전한 초안 형태로 출판되었습니다.[58] 2004년 인간 게놈 프로젝트의 염기서열 분석 작업은 유전체 염기서열 초안을 발표하면서 발표되었는데, 이는 염기서열에 341개의 갭만을 남겨 당시 사용 가능한 기술로 염기서열을 분석할 수 없는 매우 반복적이고 다른 DNA를 나타냅니다.[59] 인간 게놈은 모든 척추동물 중에서 처음으로 이렇게 거의 완성된 서열로, 2018년 현재 100만 명이 넘는 개별 인간의 이배체 게놈이 차세대 서열 분석을 통해 결정되었습니다.[60]
이러한 데이터는 생물 의학, 인류학, 포렌식 및 기타 과학 분야에서 전 세계적으로 사용됩니다. 이러한 유전체 연구는 질병의 진단과 치료의 발전을 이끌었고, 인간 진화를 포함한 생물학의 많은 분야에서 새로운 통찰력을 얻었습니다.[citation needed]
2018년까지 총 유전자 수는 최소 46,831개,[61] 마이크로 RNA 유전자는 2300개로 증가했습니다.[62] 2018년 인구 조사에서 참조 서열에 포함되지 않은 또 다른 3억 개의 인간 게놈 염기를 발견했습니다.[63] 전체 유전체 서열을 획득하기 전에 인간 유전자 수에 대한 추정치는 50,000에서 140,000 사이였습니다(이러한 추정치가 비단백질 코딩 유전자를 포함하는지 여부에 대해 가끔 모호함).[64] 유전체 서열 품질과 단백질 코딩 유전자 식별 방법이 향상됨에 따라,[59] 인식된 단백질 코딩 유전자의 수는 19,000–20,000개로 떨어졌습니다.[65]
2022년 텔로미어-텔로미어(T2T) 컨소시엄은 X 염색체(2020년)와 22개의 상염색체(2021년 5월)의 모든 공백을 [4]메우며 인간 여성 게놈의 완전한 서열을 보고했습니다.[4][66] 이전에 시퀀싱되지 않은 부분에는 감염에 적응하고 생존하는 데 도움이 되는 면역 반응 유전자와 약물 반응 예측에 중요한 유전자가 포함되어 있습니다.[67] 완성된 인간 게놈 서열은 또한 개별 유기체로서의 인간 형성과 인간이 서로와 다른 종들 사이에서 어떻게 다른지에 대한 더 나은 이해를 제공할 것입니다.[67]
2001년 인간 게놈 프로젝트의 '완성'이 발표됐지만,[68] 전체 염기서열의 약 5~10%가 미확정 상태로 남아 수백 개의 공백이 남아 있었습니다. 누락된 유전자 정보는 대부분 반복적인 이종색소 영역과 중심체와 텔로미어 근처에 있었지만 일부 유전자를 암호화하는 유색소 영역도 있었습니다.[69] 이전에 시퀀싱되지 않은 다른 50개 영역에 걸친 서열이 결정되었을 때 2015년에는 160개의 유색성 갭이 남아 있었습니다.[70] 2020년에야 인간 염색체, 즉 X 염색체의 진정한 완전한 텔로미어 대 텔로미어 서열이 결정되었습니다.[71] 인간 상염색체인 8번 염색체의 첫 완전한 텔로미어 대 텔로미어 서열이 1년 후에 이어졌습니다.[72] 완전한 인간 게놈(Y 염색체 없음)은 2021년에 발표되었고, Y 염색체는 2022년 1월에 발표되었습니다.[4][3][73]
2023년 인간 판게놈 참조 초안이 발표되었습니다.[7] 다양한 민족성을 가진 사람들의 47개 유전체를 기반으로 합니다.[7] 더 넓은 표본에서 더 많은 생물 다양성을 포착하기 위한 개선된 참조 계획이 진행 중입니다.[7]
인간의 유전체 변이
인간 참조 유전체
일란성 쌍둥이를 제외한 모든 인간은 유전체 DNA 서열에 상당한 변화를 보입니다. 인간 참조 유전체(HRG)는 표준 서열 참조로 사용됩니다.
인간 참조 게놈과 관련하여 몇 가지 중요한 사항이 있습니다.
- HRG는 반수체 서열입니다. 각 염색체는 한 번씩 표시됩니다.
- HRG는 복합 시퀀스이며, 실제 인간 개체에는 해당되지 않습니다.
- HRG는 오류, 모호성 및 알 수 없는 "갭"을 수정하기 위해 주기적으로 업데이트됩니다.
- HRG는 결코 "이상적인" 또는 "완벽한" 인간 개인을 대표하지 않습니다. 단순히 비교 목적으로 사용되는 표준화된 표현 또는 모델입니다.
게놈 참조 컨소시엄은 HRG 업데이트를 담당합니다. 버전 38은 2013년 12월에 출시되었습니다.[74]
인간 유전자 변이 측정
인간의 유전적 변이에 대한 대부분의 연구는 염색체를 따라 개별 염기의 치환인 단일 뉴클레오티드 다형성(SNPs)에 초점을 맞추고 있습니다. 대부분의 분석에서는 SNP가 균일한 밀도로 발생하지는 않지만 유색 인간 게놈에서 평균적으로 1000개의 염기쌍 중 1개가 발생한다고 추정합니다. 따라서 대부분의 유전학자들은 이것이 어느 정도 자격을 갖추었지만, "인종에 관계없이 우리 모두는 유전적으로 99.9% 동일하다"는 대중적인 진술을 따릅니다.[75] 예를 들어, 유전체의 훨씬 더 큰 부분이 현재 카피 수 변화에 관여하는 것으로 생각됩니다.[76] 국제합맵 프로젝트는 인간 게놈의 SNP 변이를 목록화하기 위한 대규모 공동 작업을 수행하고 있습니다.[citation needed]
특정 유형의 작은 반복 서열의 유전체 유전자좌와 길이는 사람마다 매우 다양한데, 이는 DNA 지문과 DNA 친자확인 검사 기술의 근간입니다. 총 수억 개의 염기쌍을 가진 인간 게놈의 이질적인 부분은 또한 인간 집단 내에서 상당히 가변적인 것으로 생각됩니다 (그들은 너무 반복적이고 너무 길어서 현재의 기술로는 정확한 서열을 밝힐 수 없습니다). 이러한 영역은 유전자를 거의 포함하지 않으며, 중요한 표현형 효과가 반복 또는 헤테로크로마틴의 전형적인 변이에서 기인하는지 여부는 불분명합니다.
배우자 생식 세포의 대부분의 총체적인 게놈 돌연변이는 아마도 불가결한 배아를 낳을 것입니다. 그러나 많은 인간의 질병은 대규모 게놈 이상과 관련이 있습니다. 다운 증후군, 터너 증후군 및 기타 여러 질병은 전체 염색체의 비연속적인 기능으로 인해 발생합니다. 암세포는 염색체와 염색체 팔의 유배체를 가지고 있는 경우가 많지만, 유배체와 암의 인과관계는 아직 밝혀지지 않았습니다.
인간 유전체 변이 매핑
게놈 서열은 게놈의 모든 DNA 염기의 순서를 나열하는 반면, 게놈 지도는 랜드마크를 식별합니다. 게놈 지도는 게놈 서열보다 덜 상세하고 게놈 주위를 탐색하는 데 도움이 됩니다.[77][78]
변주 지도의 예로는 국제합지도 프로젝트에서 개발 중인 합지도가 있습니다. HapMap은 "인간 DNA 염기서열 변이의 일반적인 패턴을 설명할" 인간 게놈의 하플로타입 지도입니다.[79] 단일 DNA 문자 또는 염기를 포함하는 게놈의 소규모 변이 패턴을 카탈로그화합니다.
연구원들은 2008년 5월, 인간 게놈 전체에 걸친 대규모 구조적 변이에 대한 최초의 서열 기반 지도를 네이처지에 발표했습니다.[80][81] 대규모 구조적 변이는 DNA 염기 수가 수천 개에서 수백만 개에 이르는 사람들 간의 게놈 차이입니다. 어떤 것은 게놈 서열의 증가 또는 손실이고 다른 것은 서열의 증가를 다시 배열하는 것으로 나타납니다. 이러한 변형에는 특정 유전자에 대한 개인이 가지고 있는 사본 수의 차이, 삭제, 위치 이동 및 반전이 포함됩니다.
구조변화
구조적 변이는 점 돌연변이가 아닌 인간 게놈의 더 큰 부분에 영향을 미치는 유전적 변이를 말합니다. 종종, 구조적 변형(SV)은 삭제, 복제, 삽입, 반전 및 기타 재배열과 같은 50개의 염기쌍(bp) 이상의 변형으로 정의됩니다. 구조적 변이의 약 90%는 비코딩 삭제이지만 대부분의 개인은 이러한 삭제가 천 개 이상 있습니다. 삭제 크기는 수십 개의 염기쌍에서 수만 개의 bp에 이릅니다.[82] 평균적으로, 개인은 예를 들어 엑손을 삭제하는 등 코딩 영역을 변경하는 ~3개의 희귀한 구조적 변형을 가지고 있습니다. 약 2%의 개인이 초희귀 메가베이스 규모의 구조적 변형, 특히 재배열을 가지고 있습니다. 즉, 염색체 내에서 수백만 개의 염기쌍이 반전될 수 있으며, 초희귀는 개인이나 가족에게만 발견되므로 매우 최근에 발생했다는 것을 의미합니다.[82]
인간 게놈 전체의 SNP 빈도
단일 뉴클레오티드 다형성(SNPs)은 인간 게놈 전체에서 균질하게 발생하지 않습니다. 실제로 유전자 간 SNP 빈도에는 엄청난 다양성이 존재하며, 이는 유전자 간의 다른 선택적 압력뿐만 아니라 유전체 간의 다른 돌연변이 및 재조합 속도를 반영합니다. 그러나 SNP에 대한 연구는 코딩 영역에 치우쳐 있으며, 그로부터 생성된 데이터는 유전체 전체에 걸친 SNP의 전체 분포를 반영하지 못할 것으로 보입니다. 따라서 SNP 컨소시엄 프로토콜은 코딩 영역에 대한 편향이 없는 SNP를 식별하도록 설계되었으며 컨소시엄의 100,000개 SNP는 일반적으로 인간 염색체에 걸친 서열 다양성을 반영합니다. SNP 컨소시엄은 2001년 1분기 말까지 유전체 전체에서 확인된 SNP의 수를 300,000개로 확대하는 것을 목표로 하고 있습니다.[83]
비코딩 서열의 변화 및 코딩 서열의 동의어 변화는 일반적으로 비동의어 변화보다 더 일반적이며, 이는 아미노산 동일성을 지시하는 위치에서 더 큰 선택적 압력 감소 다양성을 반영합니다. 전이 변화는 전이보다 더 흔하며, CpG 디뉴클레오티드가 가장 높은 돌연변이율을 보이며, 아마도 탈아미노화로 인한 것으로 추정됩니다.[citation needed]
개인 유전체
개인 유전체 서열은 한 사람의 DNA를 구성하는 화학적 염기쌍의 (거의) 완전한 서열입니다. 단일 뉴클레오티드 다형성(SNPs)과 같은 유전자 변이로 인해 의료 치료가 사람마다 다른 영향을 미치기 때문에 개인 유전자 분석은 개인 유전자형에 따른 개인 맞춤형 의료 치료로 이어질 수 있습니다.[84]
최초로 결정된 개인 유전체 서열은 2007년 크레이그 벤터(Craig Venter)의 것이었습니다. 개인 유전체는 DNA 샘플을 제공한 자원봉사자의 신원을 보호하기 위해 공공 인간 유전체 프로젝트에서 시퀀싱되지 않았습니다. 그 서열은 다양한 집단의 여러 지원자의 DNA에서 파생되었습니다.[85] 그러나 Venter가 주도하는 Celera Genomics 게놈 시퀀싱 노력 초기에 복합 샘플 시퀀싱에서 단일 개인의 DNA를 사용하는 것으로 전환하기로 결정했으며 나중에 Venter 자신인 것으로 밝혀졌습니다. 따라서 2000년에 발표된 Celera 인간 게놈 서열은 주로 한 사람의 게놈 서열이었습니다. 초기 복합물 유래 데이터의 후속 대체와 이배체 서열의 결정은 원래 보고된 반수체 서열이 아닌 두 염색체 세트를 모두 나타내는 최초의 개인 유전체의 방출을 가능하게 했습니다.[86] 2008년 4월, 제임스 왓슨의 것도 완성되었습니다. 2009년 스티븐 퀘이크(Stephen Quake)는 자신의 디자인인 헬리스코프(Heliscope)의 시퀀서에서 파생된 자신의 게놈 서열을 발표했습니다.[87] 유안 애슐리(Euan Ashley)가 이끄는 스탠포드(Stanford) 팀은 퀘이크(Quake)의 게놈에 구현된 인간 게놈의 의학적 해석을 위한 프레임워크를 발표하고 처음으로 게놈에 기반한 전체 의학적 결정을 내렸습니다.[88] 그 팀은 일루미나의 개인 유전체 염기서열 분석 프로그램의 일부로 염기서열을 분석한 최초의 가족인 서부 가족으로 접근하는 방법을 더욱 확장했습니다.[89] 그 이후로 데스몬드 투투(Desmond Tutu)[91][92]와 팔레오-에스키모(Paleo-Eskimo)의 게놈 서열을 [90]포함한 수백 개의 개인 게놈 서열이 공개되었습니다.[93] 2012년에는 1092개의 유전체 중 2개의 패밀리 트리오의 전체 유전체 서열이 공개되었습니다.[8] 2013년 11월, 한 스페인 가족은 크리에이티브 커먼즈 퍼블릭 도메인 라이선스에 따라 4개의 개인 엑솜 데이터 세트(유전체의 약 1%)를 공개적으로 사용할 수 있도록 했습니다.[94][95] 개인 유전체 프로젝트(2005년 시작)는 유전체 서열과 그에 상응하는 의학적 표현형을 공개적으로 사용할 수 있는 몇 안 되는 프로젝트 중 하나입니다.[96][97]
개별 유전체의 시퀀싱은 이전에는 인식되지 않았던 유전적 복잡성의 수준을 더욱 드러냈습니다. 개인 유전체학은 SNP뿐만 아니라 구조적 변이에 기인한 인간 유전체의 상당한 수준의 다양성을 밝히는 데 도움이 되었습니다. 그러나 이러한 지식을 질병 치료 및 의료 분야에 적용하는 것은 시작에 불과합니다.[98] 엑솜 시퀀싱은 엑솜이 유전체 서열의 1%에 불과하지만 질병에 크게 기여하는 돌연변이의 약 85%를 차지하기 때문에 유전 질환 진단을 돕는 도구로 점점 인기를 얻고 있습니다.[99]
인간 녹아웃
인간의 경우 유전자 녹아웃은 이형접합 또는 동형접합 기능 상실 유전자 녹아웃으로 자연적으로 발생합니다. 이러한 녹아웃은 특히 이질적인 유전적 배경 내에서 구별하기 어려운 경우가 많습니다. 또한 저주파에서 발생하기 때문에 찾기가 어렵습니다.
첫 사촌 결혼 비율이 높은 국가와 같이 친밀감이 높은 인구는 동형 접합 유전자 녹아웃의 가장 높은 빈도를 나타냅니다. 이러한 개체군에는 파키스탄, 아이슬란드 및 아미쉬 개체군이 포함됩니다. 부모 관련성이 높은 이 집단들은 인간의 특정 유전자의 기능을 결정하는 데 도움을 주는 인간 녹아웃 연구의 대상이 되었습니다. 특정 녹아웃을 구별함으로써, 연구자들은 녹아웃된 유전자를 특성화하는 것을 돕기 위해 이 개인들의 표현형 분석을 사용할 수 있습니다.
특정 유전자의 녹아웃은 유전 질환을 유발하거나 잠재적으로 유익한 영향을 미치거나 표현형 효과가 전혀 나타나지 않을 수도 있습니다. 그러나 녹아웃의 표현형 효과와 인간에 대한 효과를 결정하는 것은 어려울 수 있습니다. 녹아웃을 특성화하고 임상적으로 해석하는 데 어려움이 있는 것은 DNA 변이체의 호출, 단백질 기능의 중단(주석) 결정, 모자이크식이 표현형에 미치는 영향의 양을 고려하는 것입니다.[100]
인간 녹아웃을 조사한 주요 연구 중 하나는 파키스탄 심근경색 위험 연구입니다. APOC3 유전자에 대한 이형 접합 기능 상실 유전자 녹아웃을 보유한 개인은 돌연변이가 없는 개인에 비해 고지방 식사를 섭취한 후 혈중 중성지방이 낮은 것으로 밝혀졌습니다. 그러나 APOC3 유전자의 동형 접합 기능 상실 유전자 녹아웃을 가진 개인은 기능성 APOC3 단백질을 생성하지 않기 때문에 지방 부하 테스트 후 혈액에서 가장 낮은 수준의 트리글리세리드를 나타냈습니다.[101]
인간의 유전적 장애
인간 생물학의 대부분의 측면은 유전적(유전적) 요소와 비유전적(환경적) 요소를 모두 포함합니다. 일부 유전적 변이는 자연에서 의학적이지 않은 생물학적 측면(키, 눈 색깔, 특정 화합물의 맛이나 냄새를 맡을 수 있는 능력 등)에 영향을 미칩니다. 더욱이, 일부 유전적 장애는 적절한 환경적 요인(식이와 같은)과 결합하여 질병을 유발할 뿐입니다. 이러한 주의사항으로 유전적 장애는 유전체 DNA 서열 변이로 인한 임상적으로 정의된 질병으로 설명될 수 있습니다. 가장 단순한 경우에, 그 장애는 단일 유전자의 변이와 관련이 있을 수 있습니다. 예를 들어, 낭포성 섬유증은 CFTR 유전자의 돌연변이에 의해 발생하며, 1,300개 이상의 다른 돌연변이가 알려져 있는 백인 인구에서 가장 흔한 열성 질환입니다.[102]
특정 유전자의 질병을 유발하는 돌연변이는 대개 유전자 기능 측면에서 심각하고 다행히 드물어 유전적 장애도 마찬가지로 개별적으로 드문 경우입니다. 그러나 유전적 장애를 유발하기 위해 다양한 유전자가 존재하기 때문에, 종합적으로 볼 때, 특히 소아과 의학에서 알려진 의학적 상태의 중요한 구성 요소를 구성합니다. 분자적으로 특징지어지는 유전 질환은 근본적인 원인 유전자가 확인된 질환입니다. 현재 OMIM 데이터베이스에는 약 2,200개의 그러한 장애가 주석이 달려 있습니다.[102]
유전 질환에 대한 연구는 종종 가족 기반 연구를 통해 수행됩니다. 특히 핀란드, 프랑스-캐나다, 유타, 사르데냐 등과 같은 소위 설립자 인구의 경우에는 인구 기반 접근법이 사용되는 경우가 있습니다. 유전 질환의 진단 및 치료는 일반적으로 임상/의학 유전학 교육을 받은 유전학자-물리학자에 의해 수행됩니다. 인간 게놈 프로젝트의 결과는 유전자 관련 질환에 대한 유전자 검사의 가용성을 높이고, 결국 치료법을 개선할 가능성이 있습니다. 부모는 유전병에 대한 검진을 받고, 그 결과, 유전의 가능성, 그리고 자손의 유전을 피하거나 개선하는 방법에 대해 상담을 받을 수 있습니다.
완전한 여분의 염색체 또는 누락된 염색체부터 단일 뉴클레오티드 변화에 이르기까지 다양한 종류의 DNA 서열 변이가 있습니다. 일반적으로 인간 개체군에서 자연적으로 발생하는 유전적 변이는 표현형적으로 중립적이며, 즉, 개인의 생리학에 감지할 수 있는 영향이 거의 또는 전혀 없는 것으로 추정됩니다(진화 기간 동안 정의된 적합성에는 부분적인 차이가 있을 수 있음). 유전적 장애는 알려진 모든 유형의 서열 변이에 의해 발생할 수 있습니다. 새로운 유전 질환을 분자적으로 특성화하기 위해서는 특정 유전체 서열 변이와 조사 중인 임상 질환 사이의 인과 관계를 확립할 필요가 있습니다. 이러한 연구는 인간 분자 유전학의 영역을 구성합니다.
Human Genome and International HapMap Project의 등장으로 당뇨병, 천식, 편두통, 조현병 등과 같은 많은 일반적인 질병 상태에 대한 미묘한 유전적 영향을 탐구할 수 있게 되었습니다. 특정 유전자의 유전자 서열 변이와 이러한 질병 중 일부 사이에 일부 인과 관계가 이루어졌지만, 종종 일반 언론에서 많은 홍보와 함께 일반적으로 이러한 질병은 원인이 복잡하기 때문에 일반적으로 유전적 장애 그 자체로 간주되지 않습니다. 많은 다른 유전적 및 환경적 요인을 포함합니다. 따라서 특정 질병을 유전 질환이라고 불러야 하는지 여부에 대해 특정 경우에 이견이 있을 수 있습니다.
추가적으로 언급되는 유전 질환은 칼만 증후군 및 파이퍼 증후군(유전자 FGFR1), 푹스 각막이상증(유전자 TCF4), 허쉬스프룽병(유전자 RET 및 FECH), 바데트-비들 증후군 1(유전자 CCDC28B 및 BBS1), 바데트-비들 증후군 10(유전자 BBS10), 파시오스카풀루머성 근이영양증 2형(유전자 D4Z4 및 SMCHD1)입니다.[103]
게놈 시퀀싱은 유전자 장애를 초래할 돌연변이를 보다 정확하게 찾기 위해 게놈을 특정 위치로 좁힐 수 있게 되었습니다. 또한 NGS(Next Generation Sequencing)라고 하는 새로운 시퀀싱 절차를 사용할 수 있는 유전체 시퀀싱과 동시에 CNV(복사 수 변이체) 및 단일 뉴클레오티드 변이체(SNV)를 검출할 수 있습니다.[104] 이것은 게놈의 약 1-2% 정도의 작은 부분만을 분석합니다. 이 시퀀싱 결과는 Usher 증후군, 망막 질환, 청각 장애, 당뇨병, 뇌전증, Lee 질병, 유전성 암, 신경 근육 질환, 일차 면역 결핍, 중증 복합 면역 결핍(SCID) 및 미토콘드리아 질환을 포함한 유전 질환의 임상 진단에 사용될 수 있습니다. NGS는 또한 임신 전에 질병의 보균자를 식별하는 데 사용할 수 있습니다. 이번 염기서열 분석에서 검출 가능한 질병은 Tay-Sachs병, Bloom 증후군, Gaucher병, Canavan병, 가족성 자율성 장애, 낭포성 섬유증, 척추 근위축증, fragile-X 증후군 등입니다. Next Genome Sequencing은 특정 민족 집단에서 더 널리 퍼진 질병을 구체적으로 찾기 위해 좁혀질 수 있습니다.[106]
무질서 | 유행 | 염색체 또는 유전자 관련 |
---|---|---|
염색체 상태 | ||
다운증후군 | 1:600 | 21번 염색체 |
클라인펠터 증후군 | 1:500–1000 수컷 | 추가 X염색체 |
터너 증후군 | 1:2000 여자 | X염색체 소실 |
겸상적혈구빈혈 | 아프리카 일부 지역에서 출생 50명 중 1명; 다른 곳에서는 더 희귀함 | β-글로빈(염색체 11번) |
블룸증후군 | 1:48000 아슈케나지 유대인 | BLM |
암 | ||
유방암/난소암(감수성) | 이러한 암 종류의 경우 ~5% | BRCA1, BRCA2 |
FAP(유전성 비 용종성 대장균) | 1:3500 | APC |
린치 증후군 | 전체 장암의 5-10% | MLH1, MSH2, MSH6, PMS2 |
판코니 빈혈 | 1:13000 출생 | FANCC |
신경학적 조건 | ||
헌팅턴병 | 1:20000 | 헌팅틴 |
알츠하이머병 - 조기 발병 | 1:2500 | PS1, PS2, APP |
테이삭스 | 아슈케나지 유대인의 1:3600 출생 | 헥사 유전자(염색체 15번) |
카나반병 | 동유럽 유대인 혈통 2.5% | ASPA 유전자(염색체 17번) |
가족성 자율성 장애 | 발견 이후 전 세계적으로 알려진 600건의 사례 | IKBKAP 유전자(염색체 9번) |
취약 X 증후군 | 남자 1.4:10000, 여자 0.9:10000 | FMR1 유전자(X염색체 상) |
점막지방증 IV형 | 아슈케나지 유대인 1:90~1:100 | MCOLN1 |
기타조건 | ||
낭포성 섬유증 | 1:2500 | CFTR |
뒤첸 근위축 | 1:3500 소년들 | 디스트로핀 |
베커 근위축 | 1.5–6:100,000 남성 | DMD |
베타탈라세미아 | 1:100000 | HBB |
선천성 부신 비대증 | 아메리카 원주민과 유픽 에스키모인 1:280 1:15,000 미국계 백인 | CYP21A2 |
글리코겐 저장병 I형 | 1:100,000명의 미국 출생자 | G6PC |
메이플 시럽 소변병 | 1:180000 in the U.S. 메노나이트/아미 공동체 1:176 오스트리아 1시 25분 | BCKDHA, BCKDHB, DBT, DLD |
니만-픽병, SMPD1 관련 | 전 세계적으로 1,200건 | SMPD1 |
어셔 증후군 | 1:23000 in the U.S. 노르웨이 1:28000 독일 1:12 500 | CDH23, CLRN1, DFNB31, GPR98, MYO7A, PCDH15, USH1C, USH1G, USH2A |
진화
−10 — – −9 — – −8 — – −7 — – −6 — – −5 — – −4 — – −3 — – −2 — – −1 — – 0 — | (Ar. 라미두스) |