미국 워싱턴대학과 Agilent Technologies사가 희귀질환에 대한 exome sequencing을 차세대 시퀀서(NGS; Next Generation Sequencer)로 수행했다고 보고했다. 생명의 유전정보 전체세트는 유전자(gene), 또는 유전정보의 전체라는 의미에서 게놈(genome)이라고 부르는데, exome이라는 것은 exon(엑손)의 전체를 가리킨다. 인간과 같은 진핵생물의 유전자에는 엑손과 인트론이 존재하는데 실제 mRNA로 전사되어 단백질 서열이 되는 부분은 exon이며, 게놈의 모든 유전자 안에 있는 모든 exon을 가리키는 새로운 생물학 용어로 exome이 등장하게 되었다[1].
이번 연구에서는 12명의 exome을 조사했는데, 8명의 HapMap 정상인 샘플과 4명의 Freeman-Sheldon syndrome(or distal arthrogryposis type 2A)[2] 환자를 조사했고 그 결과 Freeman-Sheldon syndrome(FSS)의 원인유전자로 알려진 MYH3유전자만이 정상인과 환자 사이에서 차이를 보인다는 것을 확인했다. 정확하게 범인을 잡아냈다는 의미. 조금 더 자세하게 말하자면, FSS를 가진 4 명의 모든 환자들 exome에서 적어도 하나 이상의 non-synonymous cSNP, splice-site disruption 또는 coding indel (insertion or deletion; 삽입 또는 결실)이 확인되었지만 dbSNP과 8명의 HapMap exome들에서는 이러한 돌연변이가 없었던 유일한 유전자가 MYH3 였다.
한 사람의 전체 게놈은 30억 염기쌍이지만 exome이 되면 3천만 염기쌍 정도의 정보가 된다. NGS 덕분에 게놈 시퀀싱이 상당히 싸게 되었다고는 하더라도 아직 높은 비용이기 때문에 이러한 exome 시퀀싱으로 전체 게놈에서 중요하다고 여긴 1% 정도의 서열정보를 우선 낮은 비용으로 얻을 수 있었고, 그게 희귀질환의 원인유전자를 구분해내는 정보력을 가지고 있었다는데 의미가 있다. 실제 사용한 NGS는 Illumina GA2 platform이였으며, Illumina의 ELAND를 사용해서 reference human genome(hg18)에 맞추어 봤고, Maq도 사용했다. cSNP을 확인하는 과정에서는 NCBI와 UCSC 데이터베이스를 기반으로 PolyPhen Grid Gateway를 사용해서 non-synonymous SNPs를 예측했다.
연구에서는 한 사람 당 평균 약 6.4기가베이스의 서열 데이터를 얻었고 각 exome에 대해서 51 times coverage였으며, 각 exome은 평균 17,272 coding SNPs를 가지고 있었다. 이 중에서 92%는 SNP의 공용데이터베이스인 dbSNP v129에 이미 등록되어 있었다. HapMap 샘플은 Coriell Repositories에서 분양을 받아 서열을 결정했고, 그 데이터는 NCBI Short Read Archive(SRA)에 accession SRP000910 으로 등록되었다[3]. 참고로 NCBI SRA에서는 각 연구에 대해서 ERP나 SRP 번호를 붙이고, 샘플에 대해서는 SRS, 실험에 대해서는 SRX, Run에 대해서는 SRR 번호를 붙여서 분류한다. Freeman-Sheldon syndrome 환자들에서 확인된 변이정보는 NCBI dbGaP에 accession number phs000204로 등록되었다.
[1] exome: all protein-coding regions. 게놈의 단백질 코드 영역 전체를 가리키며, 약 18만 개 정도의 exon들이 포함된다고 여겨진다.
[2] Freeman-Sheldon syndrome (FSS; OMIM #193700): distal arthrogryposis type 2A라고도 불리며 MYH3 유전자의 돌연변이에 의한 우성 희귀질환. 우성이라는 말은 대립유전자에서 한쪽의 돌연변이 allele 만으로 질병을 일으키기에 충분하다는 의미.
[3] NCBI Short Read Archive(SRA): www.ncbi.nlm.nih.gov/Traces/sra/
참고로, 제임스 왓슨의 게놈 프로젝트(James Watson's Personal Genome Sequence)는 SRP000095 로 등록되어 있다.
Nature. 2009 Aug 16. [Epub ahead of print]
Targeted capture and massively parallel sequencing of 12 human exomes.
Ng SB, Turner EH, Robertson PD, Flygare SD, Bigham AW, Lee C, Shaffer T, Wong M, Bhattacharjee A, Eichler EE, Bamshad M, Nickerson DA, Shendure J.
Department of Genome Sciences.
Genome-wide association studies suggest that common genetic variants explain only a modest fraction of heritable risk for common diseases, raising the question of whether rare variants account for a significant fraction of unexplained heritability. Although DNA sequencing costs have fallen markedly, they remain far from what is necessary for rare and novel variants to be routinely identified at a genome-wide scale in large cohorts. We have therefore sought to develop second-generation methods for targeted sequencing of all protein-coding regions ('exomes'), to reduce costs while enriching for discovery of highly penetrant variants. Here we report on the targeted capture and massively parallel sequencing of the exomes of 12 humans. These include eight HapMap individuals representing three populations, and four unrelated individuals with a rare dominantly inherited disorder, Freeman-Sheldon syndrome (FSS). We demonstrate the sensitive and specific identification of rare and common variants in over 300 megabases of coding sequence. Using FSS as a proof-of-concept, we show that candidate genes for Mendelian disorders can be identified by exome sequencing of a small number of unrelated, affected individuals. This strategy may be extendable to diseases with more complex genetics through larger sample sizes and appropriate weighting of non-synonymous variants by predicted functional impact.
'Biology' 카테고리의 다른 글
유전자를 알면 우리가 얻게 되는 것은? (0) | 2013.04.15 |
---|---|
항원과 항체 (0) | 2012.10.11 |
PI3K/AKT/GSK3b (b-catenin signaling activates AKT.) (0) | 2012.06.29 |