비부호화
Non-coding DNA비코드 DNA 배열은 단백질 배열을 부호화하지 않는 유기체의 DNA 성분이다.일부 비코드 DNA는 기능성 비코드 RNA 분자(예: 전달 RNA, 마이크로RNA, piRNA, 리보솜 RNA 및 조절 RNA)로 전사된다.비부호화 DNA 분율의 다른 기능 영역에는 유전자 발현을 제어하는 조절 배열, 비계 부착 영역, DNA 복제의 기원, 동원체 및 텔로미어가 포함됩니다.인트론, 의사유전자, 유전자간 DNA, 트랜스포존과 바이러스의 단편과 같은 일부 영역은 대부분 기능하지 않는 것으로 보인다.기능하지 않는 것으로 보이는 이 영역들은 많은 진핵생물들의 게놈의 대부분을 차지하고 있고 많은 과학자들은 그것들이 정크 DNA라고 생각한다.
코드화되지 않은 게놈 DNA의 비율
박테리아에서 코딩 영역은 일반적으로 게놈의 88%를 차지한다.나머지 12%는 대부분 비암호화 유전자와 조절 배열로 구성되는데, 이는 거의 모든 박테리아 게놈이 [1]기능을 가지고 있다는 것을 의미한다.진핵생물에서 DNA를 코드하는 양은 보통 게놈의 훨씬 작은 부분인데, 왜냐하면 진핵생물 게놈은 원핵생물에서 발견되지 않는 많은 양의 반복적인 DNA를 포함하고 있기 때문이다.인간 게놈은 1%에서 2% 사이의 코드 DNA를 [2][3]포함하고 있다. (기능 코드 엑손의 수와 인간 게놈의 전체 크기에 대한 논쟁이 있기 때문에 정확한 숫자는 알려지지 않았다.)이는 인간 게놈의 98-99%가 비코드 DNA로 구성되고 비코드 유전자와 조절 염기서열과 같은 많은 기능적 요소들이 포함된다는 것을 의미한다.
진핵 생물의 게놈 크기는 심지어 밀접하게 연관된 배열들 사이에서도 넓은 범위에 걸쳐 달라질 수 있습니다.이 수수께끼 같은 관찰은 원래 "C"가 반수체 게놈 [4]크기를 나타내는 C-값 패러독스로 알려져 있었다.그 역설은 대부분의 차이가 유전자 수가 아니라 반복적인 DNA의 팽창과 수축에 의한 것이라는 발견으로 해결되었다.일부 연구자들은 이 반복적인 DNA가 대부분 정크 DNA라고 추측했다.게놈 크기의 변화에 대한 이유는 여전히 밝혀지고 있으며 이 문제는 C-값 [5]에니그마라고 불립니다.
이것은 유전자의 수가 상대적으로 일정해 보이기 때문에 유전자의 수가 복잡성에 대한 인식된 개념과 상관관계가 없는 것으로 보인다는 관찰로 이어졌습니다 - 이 문제는 G-값 [6]패러독스라고 불립니다.예를 들어, 단세포 폴리카오스 두비움(이전의 아메바 두비아)의 게놈은 인간의 [7]200배 이상의 DNA를 포함하고 있는 것으로 보고되었다.복어 타키푸구 루브리프 게놈은 인간 게놈의 약 8분의 1 크기에 불과하지만, 비슷한 수의 유전자를 가진 것으로 보인다.유전자는 복어 게놈의 약 30%를 차지하며 코드 DNA는 약 10%이다(비코드 DNA = 90%).복어 게놈의 크기가 줄어든 것은 인트론의 길이와 덜 반복적인 [8][9]DNA의 감소 때문이다.
방광엽 식물인 심실성 지바는 대부분의 식물에 [10][11]비해 매우 작은 핵 게놈(100.2Mb)을 가지고 있다.그것은 크기가 [11]1,500 Mb인 조상들의 게놈에서 진화한 것으로 보인다.방광우리의 게놈은 다른 식물과 거의 같은 수의 유전자를 가지고 있지만, DNA를 코드하는 총량은 [10][11]게놈의 약 30%에 이른다.(어느 종이도 정확한 숫자는 알 수 없지만 유전자 수와 코딩 영역의 평균 크기를 통해 추정할 수 있습니다.)
게놈의 나머지 부분(70% 비코드 DNA)은 촉진제와 [10]다른 식물 종에 비해 짧은 조절 배열로 구성됩니다.이 유전자들은 인트론을 포함하고 있지만 인트론 수가 적고 다른 식물 [10]게놈의 인트론보다 작다.리보솜 RNA [11]유전자의 많은 복제를 포함한 비부호화 유전자가 있다.게놈은 또한 [11]예상대로 텔로미어 배열과 동원체를 포함하고 있다.다른 진핵생물에서 볼 수 있는 반복적인 DNA의 대부분은 다른 식물의 혈통이 갈라진 이후 방광아지의 게놈에서 삭제되었다.방광와트 게놈의 약 59%는 트랜스포존 관련 배열로 구성되지만, 게놈이 다른 게놈보다 훨씬 작기 때문에,[11] 이것은 이 DNA의 양을 상당히 감소시킨다.원본 2013년 기사의 저자들은 동물의 코드화되지 않은 DNA(암흑 물질)에 추가적인 기능적 요소가 있다는 주장은 식물 [10]게놈에는 적용되지 않는 것으로 보인다고 지적한다.
뉴욕 타임즈 기사에 따르면, 이 종의 진화 과정에서, "... 목적을 달성하지 못한 유전적인 쓰레기들은 사라졌고, 필요한 것들은 [12]보관되었다"고 한다.그것은 인간의 게놈은 90% 이상의 정크 [13]DNA인 반면, 방광우리의 게놈은 대부분 기능 유전자와 그 조절 시스템으로 구성되어 있기 때문이다.이번 연구를 주도한 연구자 중 한 명인 버팔로 대학의 빅터 앨버트는 이렇게 말합니다.
- 알버트 박사는 "큰 이야기는 방광우트의 유전물질 중 3퍼센트만이 소위 '정크' DNA라는 것이다"라고 말했다."어떤 이유에서인지, 이 식물은 식물 게놈을 구성하는 대부분의 물질을 제거했습니다.즉, 다양한 세포, 장기, 조직, 꽃을 가진 완벽한 다세포 식물을 만들 수 있고, 쓰레기 없이도 만들 수 있다는 것입니다.쓰레기는 [14]필요 없습니다.
코드화되지 않은 DNA 배열 유형
비부호화 유전자
두 가지 종류의 유전자가 있다: 단백질을 코드하는 유전자와 암호화하지 않는 [15]유전자이다.비부호화 유전자는 비부호화 DNA의 중요한 부분이며 그들은 전달 RNA와 리보솜 RNA를 위한 유전자를 포함한다.이 유전자들은 1960년대에 발견되었다.원핵생물 게놈은 많은 다른 비암호화 RNA의 유전자를 포함하고 있지만 비암호화 RNA 유전자는 진핵생물에서 훨씬 더 흔하다.
진핵 생물의 비부호화 유전자의 전형적인 종류는 작은 핵 RNA, 작은 핵 RNA, 마이크로 RNA, 짧은 간섭 RNA, PIWI-상호작용 RNA, 그리고 긴 비부호화 RNA를 포함한다.또한, 촉매 RNA를 [16]생성하는 많은 독특한 RNA 유전자가 있습니다.
비암호화 유전자는 원핵생물[17] 게놈의 몇 퍼센트에 불과하지만 진핵생물 [18]게놈에서는 훨씬 더 높은 비율을 나타낼 수 있다.인간의 경우, 비암호화 유전자는 게놈의 최소 6%를 차지하는데, 이는 리보솜 RNA [citation needed]유전자의 복사본이 수백 개가 있기 때문이다.단백질 코드 유전자는 게놈의 약 38%를 차지하는데, 이는 유전자가 큰 [citation needed]인트론을 포함하고 있기 때문에 코드 영역보다 훨씬 높은 비율이다.
인간 게놈에 있는 비암호화 유전자의 총 수는 논란의 여지가 있다.어떤 과학자들은 약 5,000개의 비부호화 유전자가 있다고 생각하는 반면, 다른 과학자들은 10만 개 이상이 있을 수 있다고 믿는다.그 차이는 주로 lncRNA [19]유전자의 수에 대한 논쟁에 기인한다.
발기인과 규제 요소
촉진제는 전사가 시작되는 유전자의 5' 말단 근처에 있는 DNA 세그먼트입니다.그들은 RNA 중합효소가 결합해서 RNA 합성을 시작하는 부위이다.모든 유전자는 비암호화 촉진제를 가지고 있다.
조절 요소는 근처 유전자의 전사를 제어하는 부위입니다.이들은 거의 항상 전사인자가 DNA에 결합하는 시퀀스이며 이러한 전사인자는 전사인자(활성화인자)를 활성화하거나 전사인자(억제인자)를 억제할 수 있습니다.규제 요소는 1960년대에 발견되었고, 그 일반적인 특성은 1970년대에 박테리아와 [citation needed]박테리오파지의 특정 전사 인자를 연구함으로써 밝혀졌다.
촉진제와 조절 염기서열은 풍부한 종류의 비코드 DNA를 나타내지만 그것들은 대부분 비교적 짧은 염기서열의 집합으로 구성되어 있어 게놈의 큰 부분을 차지하지 않는다.포유류의 게놈에 있는 조절 DNA의 정확한 양은 가짜 전사인자 결합 부위와 기능적인 부위를 구별하는 것이 어렵기 때문에 불분명하다.전형적인 DNA 결합 단백질의 결합 특성은 1970년대에 특징지어졌으며, 전사 인자의 생화학적인 특성은 큰 게놈을 가진 세포에서 대부분의 결합 부위가 우연하고 생물학적 기능을 [citation needed]하지 않을 것이라고 예측한다.
많은 조절 배열은 보통 유전자의 전사 시작 부위의 상류인 프로모터 근처에서 발생합니다.일부는 유전자 내에서 발생하고 일부는 전사 종료 부위의 하류에 위치한다.진핵생물에서는 프로모터 영역으로부터 상당한 거리에 위치한 조절 배열이 있습니다.이러한 원거리 조절 시퀀스는 종종 강화제라고 불리지만, 다른 전사 인자 결합 [20][21]부위와 구별되는 강화제의 엄격한 정의는 없습니다.
인트론
인트론은 전구체 RNA 배열로 전사되지만, 궁극적으로 성숙한 RNA로 가는 과정에서 RNA 스플라이싱에 의해 제거되는 유전자의 부분이다.인트론은 단백질 코드 유전자와 비코드 유전자의 두 가지 유형 모두에서 발견됩니다.그들은 원핵생물에 존재하지만 진핵생물의 [citation needed]게놈에서 훨씬 더 흔하다.
그룹 I과 그룹 II의 침입자는 존재할 때 게놈의 극히 일부만을 차지한다.스플라이소좀 인트론(그림 참조)은 진핵생물에서만 발견되며 게놈의 상당 부분을 나타낼 수 있다.예를 들어, 인간의 경우, 단백질 코드 유전자의 침입자는 게놈의 37%를 차지한다.그것을 약 1% 코드 배열과 결합하면 단백질 코드 유전자가 인간 게놈의 약 39%를 차지한다는 것을 의미한다.비부호화 유전자의 총수에 대해 상당한 논란이 있기 때문에 비부호화 유전자에 대한 계산은 더 복잡하다. 하지만 잘 정의된 예만 들어보면 비부호화 유전자가 [22][2]게놈의 최소 6%를 차지한다는 것을 의미한다.
따라서, 유전자는 인간 게놈의 45%를 차지하고 있으며, 이것의 대부분은 인트론에서 비암호화 DNA이다.
대부분의 인트론 DNA가 정크 DNA라고 믿을 만한 이유가 있다.
미번역 영역
표준 생화학 및 분자생물학 교과서는 유전자의 5' 말단과 번역 개시 코돈 사이에 위치한 mRNA의 비부호화 뉴클레오티드를 기술한다.이러한 영역을 5'-미번역 영역 또는 5'-UTR이라고 합니다.유전자의 말단에서 3'-미번역 영역 (3'-UTRs)이라고 불리는 유사한 영역이 발견됩니다.5'-UTR 및 3'UTR은 박테리아에서는 매우 짧지만 진핵생물에서는 수백 개의 뉴클레오티드 길이가 될 수 있다.변환 개시(5'-UTR)와 전사 종료(3'-UTR)를 제어하는 짧은 요소뿐만 아니라 mRNA 안정성, 처리 및 세포의 [23][24][25]다른 영역을 대상으로 하는 조절 요소를 포함할 수 있습니다.
레플리케이션의 발신기지
DNA 합성은 복제의 기원이라고 불리는 특정 장소에서 시작됩니다.이것들은 DNA 복제 기계들이 조립되고 DNA 합성을 시작하기 위해 DNA가 풀리는 게놈의 영역이다.대부분의 경우 복제는 복제 원본에서 양방향으로 진행됩니다.
복제 기원의 주요 특징은 특정 개시 단백질이 결합되어 있는 배열이다.일반적인 복제 기원은 약 100-200개의 염기쌍의 DNA를 포함한다. 원핵생물들은 염색체 또는 플라스미드당 하나의 복제 기원을 가지고 있지만, 보통 진핵생물 염색체에는 여러 개의 기원이 있다.인간 게놈은 게놈의 [26][27][28]약 0.3%에 해당하는 약 10만 개의 복제 기원을 포함하고 있다.
센트로미어
동원체는 세포가 분열할 때 딸세포로 분리하기 위해 새로 복제된 염색체에 방추섬유가 달라붙는 부위다.각각의 진핵생물 염색체는 응축된 중합성 염색체의 수축된 영역으로 보이는 기능성 동원체를 가지고 있다.중심체 DNA는 각각의 중심체가 수백만 개의 염기쌍이 될 수 있기 때문에 종종 게놈의 상당한 부분을 차지하는 많은 반복적인 DNA 배열로 구성됩니다.예를 들어, 인간의 경우, 24개의 모든 동원체의 배열이 결정되었고[29] 그것들은 게놈의 약 6%를 차지한다.하지만,[30] 개인마다 중심체 DNA의 총량에 상당한 변화가 있기 때문에 이 모든 비암호화 DNA가 필수적이라고는 생각되지 않는다.동원체는 거의 반세기 동안 알려진 기능적 비부호화 DNA 배열의 또 다른 예이며, 그것은 DNA를 암호화하는 것보다 더 풍부할 가능성이 있다.
텔로미어
텔로미어는 염색체 끝에 있는 반복적인 DNA의 영역으로, DNA 복제 중 염색체 열화로부터 보호를 제공합니다.최근의 연구는 텔로미어가 그 자체의 안정성을 돕는 기능을 한다는 것을 보여준다.텔로미어 반복 함유 RNA(TERRA)는 텔로미어에서 유래한 전사물이다.TERRA는 텔로머라아제 활성을 유지하고 염색체의 [31]말단을 연장하는 것으로 나타났다.
비계 부착부위
원핵유전체와 핵유전체 게놈은 모두 단백질 결합 DNA의 큰 고리로 구성되어 있다.진핵생물에서, 루프의 염기는 비계 부착 영역이라고 불리며, 그들은 루프를 안정시키기 위해 RNA/단백질 복합체와 결합하는 DNA의 연장선으로 구성되어 있다.인간 게놈에는 약 100,000개의 루프가 있으며 각각의 루프는 약 100bp의 DNA로 구성되어 있다.SARs에 전념하는 DNA의 총량은 인간 [32]게놈의 약 0.3%를 차지한다.
유사 유전자
유사유전자는 대부분 돌연변이로 인해 기능하지 않게 된 이전 유전자이지만 기능유전자(가공된 유사유전자)에 의해 생성된 RNA에서 파생된 비활성 DNA 서열을 지칭하기도 한다.의사유전자는 음성선택에 의해 제거되기 때문에 원핵생물 게놈에서 코드화되지 않은 DNA의 극히 일부일 뿐이다.하지만, 몇몇 진핵생물에서, 유사 유전자는 선택이 그것들을 제거할 만큼 강력하지 않기 때문에 축적될 수 있습니다.
인간 게놈에는 단백질 코드 유전자에서 파생된 약 15,000개의 유사 유전자와 비코드 [33]유전자에서 파생된 알려지지 않은 숫자가 포함되어 있다.그것들은 이전의 인트론 서열을 포함하고 있기 때문에 게놈의 상당 부분(~5%)을 포함할 수 있다.
의사유전자는 정의상 정크 DNA이며 정크 [34]DNA에서 예상대로 중성 속도로 진화한다. 몇몇 이전의 의사유전자는 두 번째로 기능을 획득했고 이것은 일부 과학자들이 대부분의 의사유전자가 아직 발견되지 않은 [35]기능을 가지고 있기 때문에 정크유전자가 아니라고 추측하게 한다.
시퀀스, 트랜스포존 및 바이러스 요소 반복
트랜스포존과 역트랜스포존은 이동성 유전 요소이다.긴 산란 핵 원소(LINE)와 짧은 산란 핵 원소(SINE)를 포함하는 역산란 반복 배열은 많은 종에서 게놈 배열의 많은 부분을 차지한다.짧은 핵원소로 분류되는 알루 배열은 인간 게놈에서 가장 풍부한 이동 원소이다.SINE이 일부 단백질 부호화 [36][37][38]유전자의 전사 제어를 하는 몇 가지 예가 발견되었다.
내인성 레트로바이러스 배열은 레트로바이러스 게놈을 생식세포의 게놈으로 역전사한 산물이다.이러한 역전사 배열 내의 돌연변이는 바이러스 [39]게놈을 비활성화할 수 있다.
인간 게놈의 8% 이상이 레트로포존에서 파생된 42% 이상의 분율 중 일부로서 (대부분 부패한) 내인성 레트로바이러스 배열로 구성되고, 다른 3%는 DNA 트랜스포존의 잔재임을 확인할 수 있다.현재 설명되지 않은 나머지 절반의 게놈은 무작위 돌연변이가 그들을 알아볼 [40]수 없게 만들 정도로 오래 전에 (2억 년 이상) 활동했던 전이성 요소에서 기원을 찾을 것으로 예상된다.적어도 두 종류의 식물의 게놈 크기 변화는 대부분 역트랜스포존 [41][42]배열의 결과이다.
반복성이 높은 DNA
고도로 반복적인 DNA는 여러 번 연속적으로 반복되는 짧은 길이의 DNA로 구성됩니다.반복 세그먼트는 보통 2bp에서 10bp 사이이지만 더 긴 세그먼트가 알려져 있습니다.고도로 반복적인 DNA는 원핵생물에서는 드물지만 진핵생물, 특히 게놈이 큰 생물에서는 흔하다.그것은 때때로 위성 DNA라고 불린다.
고도로 반복적인 DNA의 대부분은 동원체와 텔로미어에서 발견되며(위 참조), 일부는 중복될 수 있지만 대부분은 기능적이다.다른 유의한 부분은 ATC와 같은 단순 반복의 짧은 연장으로 구성된 짧은 탠덤 반복(STR; 마이크로 위성이라고도 함)에 존재한다.인간 게놈에는 약 35만 개의 STR이 있으며 그것들은 평균 약 25번의 반복 [43][44]길이로 게놈 전체에 흩어져 있다.
STR 반복 횟수의 변화는 그들이 유전자 안에 있을 때 유전적인 질병을 야기할 수 있지만, 이러한 영역의 대부분은 반복 횟수가 개인마다 상당히 다를 수 있는 비기능적인 정크 DNA인 것으로 보인다.이것이 바로 이러한 길이 차이가 DNA 지문 채취에 광범위하게 사용되는 이유입니다.
정크 DNA
"정크 DNA"는 "발달, 생리학, 또는 다른 유기체 수준의 [45]능력에서 기능적인 역할을 하지 않는 모든 DNA 배열"을 폭넓게 언급합니다."정크 DNA"라는 용어는 1960년대에 [46][45]인기를 끌었다.T에 의하면. 라이언 그레고리, 정크 DNA의 본질은 1972년 유전체 생물학자인 데이비드 코밍스에 의해 명확하게 논의되었고, 그는 이 용어를 모든 비암호화 DNA에 [47]적용했다.이 용어는 같은 해 Susumu Ohno에 의해 공식화되었는데, Susumu Ohno는 [9]유해한 돌연변이에 의한 돌연변이 부하가 일반적인 돌연변이율로 예상할 수 있는 기능적 궤적의 수에 상한을 두고 있다고 지적했다.오노는 포유류의 게놈이 3만 위치 이상 선택되면 돌연변이 부하의 "비용"이 피할 수 없는 체력 저하를 초래하고 결국 멸종할 것이라는 가설을 세웠다.인간의 게놈은 약 20,000개의[citation needed] (단백질 코드화) 유전자를 포함하고 있어 이 예측은 여전히 강력하다.오노 이론의 또 다른 근거는 1971년 [48]C-값 역설로 불렸던 유전체 크기가 서로 다를 수 있다는 관측이었다.
1970년대 후반 이후, 대형 게놈에서 코드화되지 않은 DNA의 대부분은 트랜스포저블 요소의 이기적인 증폭에서 기원을 찾는 것이 분명해졌고, 1980년 W. 포드 둘리틀과 카르멘 사피엔자는 네이처 저널에 다음과 같이 썼다: "특정 DNA, 또는 DNA의 클래스가 증명되지 않은 표현형 기능의 진화를 보여줄 수 있을 때.유전체 생존을 보장하는 전략(전위 등)이 있으면 [49]그 존재에 대한 다른 설명이 필요하지 않다.정크 DNA의 양은 이러한 요소들의 증폭 속도와 기능하지 않는 DNA가 [citation needed]손실되는 속도에 따라 달라질 것으로 예상된다.또 다른 원인은 [citation needed]중복으로 인한 기능 상실에 따른 게놈 복제이다.'네이처'지의 같은 호에서 레슬리 오르겔과 프란시스 크릭은 정크 DNA가 "특이성이 거의 없고 유기체에 선택적 이점을 거의 또는 전혀 주지 않는다"[50]고 썼다.이 용어는 주로 대중 과학 및 과학 출판물에서 구어체로 사용되며, 그 함축된 의미가 코드화되지 않은 [51]DNA의 생물학적 기능에 대한 관심을 지연시켰을 수 있다는 주장이 제기되어 왔다.
"정크 DNA"라는 용어는 완전한 비기능성에 대한 강한 선험적 가정을 불러일으킬 수 있으며, 일부는 "비코드 DNA"[47]와 같은 보다 중립적인 용어를 사용할 것을 권장하고 있다.그러나 위에서 문서화된 바와 같이, 조절, 비부호화 유전자, 복제의 기원, 텔로미어, 동원체 및 염색질 조직 사이트(SARs)와 같은 잘 정의된 기능을 가진 비부호화 DNA의 상당한 부분이 있다.반면 정크 DNA는 기능이 없는 DNA이기 때문에 정크 DNA와 코드화되지 않은 DNA를 동일시하는 데 충돌이 있는 것으로 보인다.
인코딩 프로젝트
DNA 요소 백과사전(ENCODE) 프로젝트는 직접적인 생화학적 접근을 통해 인간 게놈 DNA의 최소 80%가 "전사, 전사 인자 연관성, 염색질 구조, 그리고 히스톤 수정"[52]과 같은 생화학적 활동을 가지고 있다는 것을 밝혀냈다.비록 이것이 많은 기능적 비부호화 [53][54]영역을 발견한 이전 수십 년간의 연구로 인해 반드시 예상된 것은 아니었지만, 일부 과학자들은 생화학적 활동을 생물학적 [55][48][56][45][57]기능과 혼동한다는 결론을 비판했다.비교 유전체학에 기초한 인간 게놈의 생물학적 기능 분율 추정치는 8~15%[58][59][60]이다.그러나, 다른 사람들은 코드화되지 않은 DNA가 후생유전학적 활동과 유전자 상호작용의 복잡한 네트워크에 관여하는 것으로 밝혀지고 [54][59][61][62]진화발달생물학에서 탐구되기 때문에 그것의 제한된 범위 때문에 비교 유전체학으로부터의 추정치에만 의존하는 것을 반대한다.게놈 영역의 생물학적 기능의 일관된 한 가지 지표는 유전자 영역의 염기서열이 선택을 정제함으로써 유지되는지 여부이다(또는 염기서열의 돌연변이가 유기체에 유해한 경우).이 정의에 따르면 게놈의 90%가 '정크'다.그러나 일부는 '정크'가 '쓰레기'[63]가 아니며 '정크 DNA'에 의해 생성되는 기능하지 않는 전사의 큰 몸체가 기능적 요소를 진화시킬 수 있다고 강조한다.[64][65]
그 결과의 의미는 다른 [55]과학자들에 의해 논쟁되어 왔는데, 그들은 게놈의 부분들이 전사 인자에 접근하기 쉽거나 그들의 전사가 생화학적 기능을 가지고 있고 그들의 전사가 선택적으로 유리하다는 것을 보장하지 않는다고 주장한다.결국, 전사 인자가 전형적으로 전체 [66]게놈에서 발견되는 짧은 염기서열에 결합한다는 것을 고려할 때, 게놈의 비기능적인 부분은 전사될 수 있다.
또한, ENCODE 이전의 훨씬 낮은 기능 추정치는 포유류의 [48][56][45][57]계통에 걸친 게놈 보존 추정치에 기초했다.인간 게놈의 광범위한 전사 및 접합은 제대로 보존되지 않은 기능 [59]서열을 놓칠 수 있는 게놈 보존 외에 유전 기능의 또 다른 지표로 논의되어 왔다.게다가, 겉으로 보이는 정크 DNA의 대부분은 후생유전학적 조절에 관여하고 있으며 복잡한 [54][61][62]유기체의 발달에 필요한 것으로 보인다.유전학적 접근은 유기체에 물리적으로 나타나지 않는 기능적 요소를 놓칠 수 있다, 진화적 접근은 심지어 밀접하게 관련된 종의 게놈이 상당히 다르기 때문에 정확한 다종 배열 사용의 어려움을 겪는다, 그리고 생화학적 접근은 높은 재현성을 가지고 있지만, 생화학적 접근과 함께, 생화학적 특징 d.o 항상 자동으로 [59]기능을 나타내는 것은 아니다.켈리스 외 연구진은 전사 적용범위의 70%가 세포당 1개의 전사 미만이었다고 지적했다(따라서 가짜 배경 전사에 기초할 수 있다.반면, 그들은 인간 DNA의 12~15%가 기능적 제약을 받을 수 있으며, 혈통 특이적 제약을 포함할 경우 여전히 과소평가될 수 있다고 주장했다.궁극적으로 유전학, 진화학 및 생화학적 접근은 모두 인간 [59]생물학과 질병에서 기능할 수 있는 영역을 식별하기 위해 상호 보완적인 방식으로 사용될 수 있다.일부 비평가들은 적절한 귀무 가설만을 참고하여 기능성을 평가할 수 있다고 주장해왔다.이 경우, 귀무 가설은 보존이나 생화학적 활동에 기초하더라도 게놈의 이러한 부분들은 기능하지 않고 분자 진화와 생화학에 대한 우리의 일반적인 이해에 기초해 그러한 영역에서 예상되는 특성을 가지고 있다는 것이다.이러한 비판에 따르면, 문제의 영역이 귀무 가설에서 예상된 것보다 더 많은 기능을 가진 것으로 나타날 때까지, 일시적으로 [67]비기능적인 것으로 라벨링해야 한다.
게놈 전체 연관 연구(GWAS) 및 비코딩 DNA
게놈 전체 연관 연구(GWAS)는 대립 유전자와 표현형 및 질병과 같은 관찰 가능한 특성 사이의 연관성을 확인합니다.대부분의 연관성은 단핵 다형성(SNP)과 검사되는 특성 사이의 것이며, 이러한 SNP의 대부분은 비기능적 DNA에 위치한다.이 협회는 이 형질을 담당하는 DNA 영역을 매핑하는 데 도움을 주는 연결을 확립하지만 질병이나 표현형 [68][69][70][71][72]차이를 일으키는 돌연변이를 반드시 식별하지는 않습니다.
특징과 밀접하게 연관된 SNP는 원인 돌연변이를 식별할 가능성이 가장 높은 것이다.(관련성을 긴밀연계불균형이라고 합니다.)이러한 다형성의 약 12%는 코딩 영역에서 발견되고, 약 40%는 인트론에서 발견되며, 나머지 대부분은 조절 [69]시퀀스를 포함한 유전자 간 영역에서 발견됩니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Kirchberger PC, Schmidt ML, and Ochman H (2020). "The ingenuity of bacterial genomes". Annual Review of Microbiology. 74: 815–834. doi:10.1146/annurev-micro-020518-115822. PMID 32692614. S2CID 220699395.
- ^ a b Piovesan A, Antonaros F, Vitale L, Strippoli P, Pelleri MC, Caracausi M (2019). "Human protein-coding genes and gene feature statistics in 2019". BMC Research Notes. 12 (1): 315. doi:10.1186/s13104-019-4343-8. PMC 6549324. PMID 31164174.
- ^ Omenn GS (2021). "Reflections on the HUPO Human Proteome Project, the Flagship Project of the Human Proteome Organization, at 10 Years". Molecular & Cellular Proteomics. 20: 100062. doi:10.1016/j.mcpro.2021.100062. PMC 8058560. PMID 33640492.
- ^ Thomas CA (1971). "The genetic organization of chromosomes". Annual Review of Genetics. 5: 237–256. doi:10.1146/annurev.ge.05.120171.001321. PMID 16097657.
- ^ Elliott TA, Gregory TR (2015). "What's in a genome? The C-value enigma and the evolution of eukaryotic genome content". Phil. Trans. R. Soc. B. 370 (1678): 20140331. doi:10.1098/rstb.2014.0331. PMC 4571570. PMID 26323762. S2CID 12095046.
- ^ Hahn MW, Wray GA (2002). "The g-value paradox". Evolution and Development. 4 (2): 73–75. doi:10.1046/j.1525-142X.2002.01069.x. PMID 12004964. S2CID 2810069.
- ^ Gregory TR, Hebert PD (April 1999). "The modulation of DNA content: proximate causes and ultimate consequences". Genome Research. 9 (4): 317–324. doi:10.1101/gr.9.4.317. PMID 10207154. S2CID 16791399.
- ^ Aparicio S, Chapman J, Stupka E, Putnam N, Chia JM, Dehal P, Christoffels A, Rash S, Hoon S, Smit A (2002). "Whole-genome shotgun assembly and analysis of the genome of Fugu rubripes". Science. 297 (5585): 1301–1310. Bibcode:2002Sci...297.1301A. doi:10.1126/science.1072104. PMID 12142439. S2CID 10310355.
- ^ a b Ohno, S (1972). "So much 'junk' DNA in our genome". Brookhaven Symposia in Biology. 23: 366–70. OCLC 101819442. PMID 5065367.
- ^ a b c d e Ibarra-Laclette E, Lyons E, Hernández-Guzmán G, Pérez-Torres CA, Carretero-Paulet L, Chang TH, Lan T, Welch AJ, Juárez MJ, Simpson J, et al. (2013). "Architecture and evolution of a minute plant genome". Nature. 498 (7452): 94–98. Bibcode:2013Natur.498...94I. doi:10.1038/nature12132. PMC 4972453. PMID 23665961. S2CID 18219754.
- ^ a b c d e f Lan T, Renner T, Ibarra-Laclette E, Farr KM, Chang TH, Cervantes-Pérez SA, Zheng C, Sankoff D, Tang H, and Purbojati RW (2017). "Long-read sequencing uncovers the adaptive topography of a carnivorous plant genome". Proceedings of the National Academy of Sciences. 114 (22): E4435–E4441. doi:10.1073/pnas.1702072114. PMC 5465930. PMID 28507139.
- ^ Klein, Joanna. "Genetic Tidying Up Made Humped Bladderworts Into Carnivorous Plants". New York Times. Retrieved May 30, 2022.
- ^ Hsu, Charlotte (February 23, 2015). "Carnivorous plant packs big wonders into tiny genome" (Press release). Buffalo, NY, USA: University of Buffalo. Retrieved May 31, 2022.
- ^ Hsu C, and Stolte D (May 13, 2013). "Carnivorous Plant Throws Out 'Junk' DNA" (Press release). Tucson, AZ, USA: University of Arizona. Retrieved May 29, 2022.
- ^ Kampourakis K (2017). Making sense of genes. Cambridge UK: Cambridge University Press. ISBN 978-1-107-12813-2.[페이지 필요]
- ^ Cech TR, Steitz JA (2014). "The Noncoding RNA Revolution - Trashing Old Rules to Forge New Ones". Cell. 157 (1): 77–94. doi:10.1016/j.cell.2014.03.008. PMID 24679528. S2CID 14852160.
- ^ Rogozin, I. B. (1 October 2002). "Congruent evolution of different classes of non-coding DNA in prokaryotic genomes". Nucleic Acids Research. 30 (19): 4264–4271. doi:10.1093/nar/gkf549. PMC 140549. PMID 12364605.
- ^ Bielawski, J.P.; Jones, C. (2016). "Adaptive Molecular Evolution: Detection Methods". Encyclopedia of Evolutionary Biology. pp. 16–25. doi:10.1016/B978-0-12-800049-6.00171-2. ISBN 978-0-12-800426-5.
- ^ Ponting CP, and Haerty W (2022). "Genome-Wide Analysis of Human Long Noncoding RNAs: A Provocative Review". Annual Review of Genomics and Human Genetics. 23. doi:10.1146/annurev-genom-112921-123710. PMID 35395170. S2CID 248049706.
- ^ Compe E, Egly JM (2021). "The Long Road to Understanding RNAPII Transcription Initiation and Related Syndromes". Annual Review of Biochemistry. 90: 193–219. doi:10.1146/annurev-biochem-090220-112253. PMID 34153211. S2CID 235595550.
- ^ Visel A, Rubin EM, Pennacchio LA (September 2009). "Genomic views of distant-acting enhancers". Nature. 461 (7261): 199–205. Bibcode:2009Natur.461..199V. doi:10.1038/nature08451. PMC 2923221. PMID 19741700.
- ^ Harrow J, Frankish A, Gonzalez JM, Tapanari E, Diekhans M, Kokocinski F, Aken BL, Barrell D, Zadissa A, Searle S (2012). "GENCODE: the reference human genome annotation for The ENCODE Project". Genome Research. 22 (9): 1760–1774. doi:10.1101/gr.135350.111. PMC 3431492. PMID 22955987.
- ^ Alberts B, Bray D, Lewis J, Raff M, Roberts K, Watson JD (1994). Molecular Biology of the Cell, 3rd edition. London, UK: Garland Publishing Inc.[페이지 필요]
- ^ Lewin B (2004). Genes VIII. Upper Saddle River, NJ, USA: Pearson/Prentice Hall.[페이지 필요]
- ^ Moran L, Horton HR, Scrimgeour KG, Perry MD (2012). Principles of Biochemistry Fifth Edition. Upper Saddle River, NJ, USA: Pearson.[페이지 필요]
- ^ Leonard AC, Méchali M (2013). "DNA replication origins". Cold Spring Harbor Perspectives in Biology. 5 (10): a010116. doi:10.1101/cshperspect.a010116. PMC 3783049. PMID 23838439.
- ^ Urban JM, Foulk MS, Casella C, Gerbi SA (2015). "The hunt for origins of DNA replication in multicellular eukaryotes". F1000Prime Reports. 7: 30. doi:10.12703/P7-30. PMC 4371235. PMID 25926981.
- ^ Prioleau M, MacAlpine DM (2016). "DNA replication origins—where do we begin?". Genes & Development. 30 (15): 1683–1697. doi:10.1101/gad.285114.116. PMC 5002974. PMID 27542827.
- ^ Altemose N, Logsdon GA, Bzikadze AV, Sidhwani P, Langley SA, Caldas GV, et al. (2021). "Complete genomic and epigenetic maps of human centromeres". Science. 376 (6588): 56. doi:10.1126/science.abl4178.