척추동물 게놈 주석 프로젝트

척추동물 게놈 주석(VEGA) 데이터베이스는 연구자들이 게놈의 특정 영역을 찾고 유전자 또는 척추동물 ^[1]게놈 영역에 주석을 달 수 있도록 지원하는 생물학적 데이터베이스입니다.VEGA 브라우저는 Ensembl의 웹 코드와 인프라스트럭처를 기반으로 하며 과학계에 ^[2]^[3]알려진 척추동물 유전자의 공개 큐레이션을 제공합니다.VEGA 웹사이트는 척추동물의 게놈에 대한 최신 정보를 유지하기 위해 자주 업데이트되며, 발표된 모든 척추동물의 게놈 또는 게놈 ^[4]영역에 대해 일관되게 고품질의 주석을 제시하려고 시도합니다.VEGA는 Wellcome Trust Sanger Institute에 의해 개발되었으며 ZFIN(Zebrafish Information Network), Havana Group 및 ^[1]^[5]GenBank와 같은 다른 주석 데이터베이스와 긴밀하게 연계되어 있습니다.수동 주석은 현재 자동화된 ^[5]방법보다 스플라이스 변형, 의사 유전자, 폴리아데닐화 특징, 비부호화 영역 및 복잡한 유전자 배치를 식별하는 데 더 정확하다.

역사

척추동물 게놈 주석(VEGA) 데이터베이스는 웰컴 트러스트 생어 연구소에 의해 2004년에 처음 공개되었다.인간, 마우스, 제브라피쉬의 게놈 염기서열의 수동 주석을 볼 수 있도록 설계되었으며, 게놈 염기서열 분석 센터의 인간 ^[6]염색체 주석을 저장하는 중앙 캐시입니다.게놈 데이터의 수동 주석은 정확한 기준 유전자 세트를 생성하는 데 매우 유용하지만 자동 방법에 비해 비용이 많이 들기 때문에 모델 유기체로 제한되었다.WTSI(^[7]Wellcome Trust Sanger Institute)에서 개발한 주석 도구를 사용하여 이 격차를 메우고 있습니다.이러한 도구는 리모트로 사용할 수 있기 때문에 커뮤니티 주석 ^[8]콜라보레이션을 실행할 수 있습니다.아바나와 베가 프로젝트는 웰컴 생거 연구소의 제니퍼 해로우 박사에 의해 운영되었다.VEGA는 2017년 2월부터 아카이브되었으며, 2017년 6월 아바나 팀은 EMBL-EBI로 이전하였다.

인간 게놈

베가 데이터베이스는 대부분의 게놈 배열 센터가 인간 염색체에 ^[6]대한 주석을 저장하는 중앙 저장소이다.최초 VEGA 출판 이후 인간 유전자 위치 주석이 달린 숫자는 2배 이상 증가한 49,000개(2012년 9월 발표)를 기록했으며, 이 중 20,000개 이상이 단백질 ^[6]^[9]코딩일 것으로 예상된다.Consensence-Coding Sequence(CCDS; 컨센서스 코드 시퀀스) 협업 및 ENCODE 프로젝트의 전체 게놈 확장의 일부인 Havana Group은 인간 게놈에 대해 완전히 수동으로 주석을 달았다. 이는 VEGA 데이터베이스에서 참조,^[10]^[11] 비교 분석 및 시퀀스 검색에 사용할 수 있다.최종 VEGA 릴리즈는 2017년 2월(릴리스 68)로, VEGA는 더 이상 업데이트되지 않는 아카이브 사이트가 되었습니다.

기타척추동물

VEGA 데이터베이스는 개별 척추동물 게놈 데이터베이스의 정보를 결합하여 연구자들이 쉽게 접근하고 비교 분석할 수 있도록 합니다.WTSI(Wellcome Trust Sanger Institute)의 인간 및 척추동물 분석 및 주석(Havana) 팀은 Otherlace/ZMap 게놈 ^[12]주석 도구를 사용하여 인간, 마우스 및 제브라피쉬 게놈에 수동으로 주석을 추가합니다.Otherlace 수동 주석 시스템은 수동 주석 데이터를 저장하고 그래픽 인터페이스인 Zmap을 지원하는 관계형 데이터베이스로 구성되며 Ensembl ^[8]스키마를 기반으로 합니다.

제브라피시

제브라피쉬 게놈은 완전한 염기서열 분석과 수작업으로 주석을 ^[13]달고 있습니다.Zebrafish 게놈에는 현재 18,454개의 주석이 달린 VEGA 유전자가 있으며, 이 중 16,588개가 단백질 코드화 유전자로 추정됩니다(2012년 9월,^[14] 발표).

마우스

마우스 게놈에는 현재 23,322개의 주석이 달린 VEGA 유전자가 있으며, 이 중 14,805개가 단백질 코드화 유전자로 추정된다(2012년 6월, 발표).^[15]수동 주석을 위해 선택한 위치는 게놈 전체에 걸쳐 있지만 일부 영역은 다른 영역보다 더 많은 초점을 받았습니다.2번, 4번, 11번, X번 염색체, 완전히 주석이 달렸습니다.이번 베가 릴리즈에 나타난 주석은 2012년 3월 19일에 촬영된 데이터 프리즈에서 나온 것이며, 유전자 구조는 Ensembl 릴리즈 67에 나타난 통합 마우스 유전자 세트에 제시되어 있다.Vega는 또한 마우스 녹아웃 ^[15]프로그램에서 생성된 인공 궤적을 보여줍니다.

돼지.

돼지 게놈은 현재 2,842개의 VEGA 유전자에 주석을 달았고, 이 중 2,264개는 단백질 코드화 유전자로 추정되었다(2012년 9월,^[16] 발표).돼지 백혈구 항원복합체(SLA)로도 알려진 돼지 주요 조직적합성복합체(MHC)는 2.4Mb의 아중심 염색체 7(SSC7p1.1-q1.1) 영역에 걸쳐 있다.돼지 MHC는 면역 반응의 제어와 다양한 질병에 대한 민감성에 ^[16]관여하며 조직적합성에 있어 독특한 역할을 한다.X-WTSI 염색체와 Y-WTSI 염색체는 ^[16]현재 아바나에 의해 주석이 붙여지고 있다.

개, 침팬지, 왈라비, 고릴라

개 게놈에는 현재 45개의 주석이 달린 VEGA 유전자가 있으며, 이 중 29개는 단백질 코드 유전자로 추정된다(2005년 2월, 발표).^[17]침팬지 게놈은 현재 124개의 주석이 달린 VEGA 유전자를 가지고 있으며, 이 중 52개는 단백질 코드화 유전자로 추정된다(2012년 1월 ^[18]발표).왈라비 게놈에는 현재 193개의 주석이 달린 VEGA 유전자가 있으며 이 중 76개는 단백질 코드 유전자로 추정된다(2009년 3월,^[19] 발표).고릴라 게놈에는 현재 324개의 주석이 달린 VEGA 유전자가 있으며, 이 중 176개는 단백질 코드 유전자로 추정된다(2009년 3월,^[20] 발표).

비교 분석

VEGA는 전체 게놈 외에 다른 브라우저와 달리 다른 척추동물의 게놈, 인간 하플로타입 및 쥐 변종에서 관심 있는 작은 완성 영역도 표시합니다.현재 이것은 다른 인간 하플로타입의 주요 조직적합성 복합체(MHC)의 완성된 시퀀스와 주석을 포함하고 있으며, 개와 돼지는 [후자는 현재 Ensembl Pre!^[21]에서 매우 제한된 형태로만 이용 가능하다.또한 IDD(인슐린 의존성 당뇨병) 후보 영역과 2개 이상의 돼지 ^[6]영역의 마우스 NOD(비비비만성 당뇨병) 균주 주석이 있다.

베가는 다른 종 또는 다른 하플로타입/주류의 특정 게놈 영역 간의 비교 쌍 분석을 포함합니다.이것은 많은 모든 게놈 대 모든 게놈 비교가 ^[22]수행되는 앙상블과는 대조적이다.베가에서의 분석에는 다음이 포함됩니다.

1. LastZ를 사용한 게놈 배열 식별.2. Ensembl 유전자 트리 파이프라인을 이용한 오르솔로그 쌍의 예측.파이프라인이 계통수를 생성하지만, Vega 비교 분석의 범위가 한정되어 있기 때문에 반드시 불완전하고 결과적으로 웹사이트 3에 정형어만 표시됩니다.다른 인간 하플로타입 또는 마우스 변종에서 대립 유전자의 수동 식별.

분석에는 ^[22]5가지 세트가 있습니다.

1. MHC 영역은 개, 돼지, 고릴라, 침팬지, 왈라비, 쥐 및 8개의 인간 하플로타입 간에 비교되었습니다.

개 염색체 12-MHC

고릴라 염색체 6-MHC

침팬지 염색체 6-MHC

왈라비 염색체 2-MHC

Sscrofa 10.2의 돼지 염색체 7(24.7Mb~29.8Mbp)

돼지 염색체 7-MHC

마우스 염색체 17(33)3 Mbp ~38.9 Mbp)

인간 기준 어셈블리의 6번 염색체(28Mbp ~ 34Mbp)

인간 COX, QBL, APD, DBB, MANN, MCF 및 SSTO 하플로타입의 6번 염색체 MHC 영역(전체 길이 염색체 단편)

2. 돼지, 고릴라 및 사람의 LRC 영역 비교(9가지 하플로타입):

돼지 염색체 6(53)6 Mbp ~54.0 Mbp)

고릴라 염색체 19-LRC

인간 염색체 19q13.4(54)6Mbp~55.6Mbp).

COX_1, COX_2, PGF_1, PGF_2, DM1A, DM1B, MC1A 및 MC1B 하플로타입(전체 길이 염색체 단편).

6개의 마우스 염색체(1, 3, 4, 6, 11 및 17)의 인슐린 의존성 당뇨병(Idd) 영역은 CL57BL/6 기준과 하나 이상의 DL 비-Obese Diabetic(NOD), CORI-29 NOD 및 129주 간에 비교되었다.상세한 것에 대하여는, 여기를 참조해 주세요.

3. 이 비교에 사용된 CL57BL/6 레퍼런스 어셈블리의 영역은 다음과 같습니다.

Idd3.1: 염색체 3, AC117584.11을 AC115749.12로 복제

Idd4.1: 11번 염색체, AL596185.12에서 AL663042.5로 복제

Idd4.2: 11번 염색체, AL663082.5에서 AL604065.7로 복제

Idd4.2Q: 염색체 11, AL596111.7을 AL645695로 복제.18

Idd5.1: 염색체 1, AL683804.15를 AL645534로 복제.20

Idd5.3: 염색체 1, AC100180.12에서 AC101699.9로 복제

Idd5.4: 염색체 1, AC123760.9에서 AC109283.8로 복제

Idd6.1 + Idd62: 6번 염색체, AC164704.4에서 AC164090.3으로 복제

Idd6.3: 염색체 6, AC171002.2에서 AC163356.2로 복제

Idd9.1: 4번 염색체, AL627093.17에서 AL670959.8로 복제

Idd9.1M: 4번 염색체, AL611963.24에서 AL669936.12로 복제

Idd9.2: 4번 염색체, CR788296.8에서 AL626808.28로 복제

Idd9.3: 4번 염색체, AL607078.26에서 AL606967.14로 복제

Idd10.1: 염색체 3, AC167172.3을 AC131184.4로 복제

Idd16.1: 염색체 17, AC125141.4에서 AC167363.3으로 복제

Idd18.1: 3번 염색체, AL845310.4를 AL683824.8로 복제

Idd18.2: 염색체 3, AC123057.4에서 AC129293.9로 복제

4. 3개의 특정 지역 간의 비교:

돼지 염색체 17(58)2 Mbp~67.4 Mbp)

인간 염색체 20q13.13-q13.33(45)8 Mbp ~62.4 Mbp)

마우스 염색체 2(168.3Mbp~179.0Mbp)

5. 전장 생쥐와 인간 염색체 3쌍의 쌍 비교:

인간 1번 염색체와 쥐 4번 염색체

인간 17번 염색체와 마우스 11번 염색체

인간 X염색체와 마우스 X염색체

레퍼런스

^ ^a ^b "Vega Genome Browser". Wellcome Sanger Institute. Retrieved 30 October 2012.
^ Searle, S. M.J.; Gilbert, J; Iyer, V; Clamp, M (1 May 2004). "The Otter Annotation System". Genome Research. 14 (5): 963–970. doi:10.1101/gr.1864804. PMC 479127. PMID 15123593.
^ Hubbard, T.; Barker, D; Birney, E; Cameron, G; Chen, Y; Clark, L; Cox, T; Cuff, J; Curwen, V (1 January 2002). "The Ensembl genome database project". Nucleic Acids Research. 30 (1): 38–41. doi:10.1093/nar/30.1.38. PMC 99161. PMID 11752248.
^ Loveland, J. (1 January 2005). "VEGA, the genome browser with a difference". Briefings in Bioinformatics. 6 (2): 189–193. doi:10.1093/bib/6.2.189. PMID 15975227.
^ ^a ^b Ashurst, J. L.; Chen, CK; Gilbert, JG; Jekosch, K; Keenan, S; Meidl, P; Searle, SM; Stalker, J; Storey, R (17 December 2004). "The Vertebrate Genome Annotation (Vega) database". Nucleic Acids Research. 33 (Database issue): D459–D465. doi:10.1093/nar/gki135. PMC 540089. PMID 15608237.
^ ^a ^b ^c ^d Wilming, L. G.; Gilbert, J. G. R.; Howe, K.; Trevanion, S.; Hubbard, T.; Harrow, J. L. (23 December 2007). "The vertebrate genome annotation (Vega) database". Nucleic Acids Research. 36 (Database): D753–D760. doi:10.1093/nar/gkm987. PMC 2238886. PMID 18003653.
^ "Wellcome Trust Sanger Institute".
^ ^a ^b Loveland, J. E.; Gilbert, J. G. R.; Griffiths, E.; Harrow, J. L. (20 March 2012). "Community gene annotation in practice". Database. 2012: bas009. doi:10.1093/database/bas009. PMC 3308165. PMID 22434843.
^ "Human Genome".
^ Birney, Ewan; et al. (14 June 2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature. 447 (7146): 799–816. Bibcode:2007Natur.447..799B. doi:10.1038/nature05874. PMC 2212820. PMID 17571346.
^ Ashurst, Jennifer L.; Collins, John E. (1 September 2003). "Geneannotation: Prediction Andtesting". Annual Review of Genomics and Human Genetics. 4 (1): 69–88. doi:10.1146/annurev.genom.4.070802.110300. PMID 14527297.
^ "Havana Project".
^ Sprague, J. (1 January 2006). "The Zebrafish Information Network: the zebrafish model organism database". Nucleic Acids Research. 34 (90001): D581–D585. doi:10.1093/nar/gkj086. PMC 1347449. PMID 16381936.
^ "Zebrafish Genome".
^ ^a ^b "Mouse Genome".
^ ^a ^b ^c "Pig Genome".
^ "Dog Genome".
^ "Chimpanzee Genome".
^ "Wallaby Genome".
^ "Gorilla Genome".
^ "Pre!Ensembl".
^ ^a ^b "Comparative Analysis".

외부 링크

[vega.sanger-1] "Vega Genome Browser". Wellcome Sanger Institute. Retrieved 30 October 2012.

[2] Searle, S. M.J.; Gilbert, J; Iyer, V; Clamp, M (1 May 2004). "The Otter Annotation System". Genome Research. 14 (5): 963–970. doi:10.1101/gr.1864804. PMC 479127. PMID 15123593.

[3] Hubbard, T.; Barker, D; Birney, E; Cameron, G; Chen, Y; Clark, L; Cox, T; Cuff, J; Curwen, V (1 January 2002). "The Ensembl genome database project". Nucleic Acids Research. 30 (1): 38–41. doi:10.1093/nar/30.1.38. PMC 99161. PMID 11752248.

[4] Loveland, J. (1 January 2005). "VEGA, the genome browser with a difference". Briefings in Bioinformatics. 6 (2): 189–193. doi:10.1093/bib/6.2.189. PMID 15975227.

[Ashurst2004-5] Ashurst, J. L.; Chen, CK; Gilbert, JG; Jekosch, K; Keenan, S; Meidl, P; Searle, SM; Stalker, J; Storey, R (17 December 2004). "The Vertebrate Genome Annotation (Vega) database". Nucleic Acids Research. 33 (Database issue): D459–D465. doi:10.1093/nar/gki135. PMC 540089. PMID 15608237.

[Wilming2007-6] Wilming, L. G.; Gilbert, J. G. R.; Howe, K.; Trevanion, S.; Hubbard, T.; Harrow, J. L. (23 December 2007). "The vertebrate genome annotation (Vega) database". Nucleic Acids Research. 36 (Database): D753–D760. doi:10.1093/nar/gkm987. PMC 2238886. PMID 18003653.

[WTSI-7] "Wellcome Trust Sanger Institute".

[Loveland2012-8] Loveland, J. E.; Gilbert, J. G. R.; Griffiths, E.; Harrow, J. L. (20 March 2012). "Community gene annotation in practice". Database. 2012: bas009. doi:10.1093/database/bas009. PMC 3308165. PMID 22434843.

[VEGA_Database:_Human-9] "Human Genome".

[10] Birney, Ewan; et al. (14 June 2007). "Identification and analysis of functional elements in 1% of the human genome by the ENCODE pilot project". Nature. 447 (7146): 799–816. Bibcode:2007Natur.447..799B. doi:10.1038/nature05874. PMC 2212820. PMID 17571346.

[11] Ashurst, Jennifer L.; Collins, John E. (1 September 2003). "Geneannotation: Prediction Andtesting". Annual Review of Genomics and Human Genetics. 4 (1): 69–88. doi:10.1146/annurev.genom.4.070802.110300. PMID 14527297.

[Havana_Group-12] "Havana Project".

[13] Sprague, J. (1 January 2006). "The Zebrafish Information Network: the zebrafish model organism database". Nucleic Acids Research. 34 (90001): D581–D585. doi:10.1093/nar/gkj086. PMC 1347449. PMID 16381936.

[Zebrafish_Genome-14] "Zebrafish Genome".

[Mouse_Genome-15] "Mouse Genome".

[Pig_Genome-16] "Pig Genome".

[Dog_Genome-17] "Dog Genome".

[Chimpanzee_Genome-18] "Chimpanzee Genome".

[Wallaby_Genome-19] "Wallaby Genome".

[Gorilla_Genome-20] "Gorilla Genome".

[Pre!_Ensembl-21] "Pre!Ensembl".

[Comparative_Analysis_VEGA-22] "Comparative Analysis".

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

Search