앙상블 게놈 데이터베이스 프로젝트

Ensembl genome database project
앙상블 게놈 데이터베이스 프로젝트.
Ensembl logo.png Ensembl release58 sgcb screenshot.png
내용
묘사앙상블
연락
연구소
주요 인용문예이츠 외 (2020)[1]
접근
웹 사이트www.ensembl.org

앙상블 게놈 데이터베이스 프로젝트는 유럽생물정보학연구소의 과학 프로젝트로 유전학자, 분자생물학자 및 우리 종과 다른 척추동물모델 [2][3][4]유기체의 게놈을 연구하는 다른 연구원들에게 중앙 집중화된 자원을 제공합니다.앙상블은 게놈 정보를 검색하기 위해 잘 알려진가지 게놈 브라우저 중 하나입니다.

비슷한 데이터베이스와 브라우저는 NCBI와 캘리포니아 대학 산타크루즈(UCSC)에 있습니다.

역사

인간 게놈은 약 20,000-25,000개의 유전자를 코드하는 30억 개의 염기쌍으로 구성되어 있다.그러나 게놈만으로는 개별 유전자의 위치와 관계를 확인할 수 없는 한 거의 쓸모가 없다.한 가지 방법은 수동 주석으로, 과학자 팀은 과학 저널과 공공 데이터베이스의 실험 데이터를 사용하여 유전자를 찾으려 한다.그러나 이것은 느리고 힘든 작업입니다.자동 주석으로 알려진 대안은 컴퓨터의 힘을 [5][6]이용하여 단백질DNA의 복잡한 패턴 매칭을 하는 것이다.Ensembl 프로젝트는 인간 게놈 프로젝트의 임박한 완료에 대한 대응으로 1999년에 시작되었습니다. 초기 목표는 인간 게놈에 자동으로 주석을 달아 이 주석을 이용 가능한 생물학적 데이터와 통합하고 이 모든 지식을 공개적으로 [2]제공하는 것입니다.

Ensembl 프로젝트에서 시퀀스 데이터는 유전자 주석 시스템(Perl로 작성된 소프트웨어 "파이프라인" 집합)에 공급되며, 이 시스템은 예측된 유전자 위치 세트를 생성하고 후속 분석 및 표시를 위해 MySQL 데이터베이스에 저장합니다.앙상블은 이러한 데이터를 세계 연구 커뮤니티에서 자유롭게 이용할 수 있도록 합니다.Ensembl 프로젝트에서 생성된 모든 데이터와 코드를 다운로드할 [7]수 있으며, 원격 액세스를 허용하는 공용 데이터베이스 서버도 있습니다.또한 Ensembl 웹사이트는 많은 데이터를 컴퓨터로 만들어 시각적으로 표시합니다.

시간이 지남에 따라 프로젝트는 추가적인 종(쥐, 초파리, 제브라피쉬주요 모델 생물 포함)과 유전자 변형 및 규제 특징 등 광범위한 게놈 데이터를 포함하도록 확장되었습니다.2009년 4월부터 자매 프로젝트인 앙상블 게놈은 앙상블의 범위를 무척추동물 [8][9]메타조아, 식물, 곰팡이, 박테리아, 그리고 원생동물로 확장하여 유전자에 분류학적, 진화적 맥락을 제공하는 데 초점을 맞추고 있으며, 원래의 프로젝트는 척추동물에 초점을 맞추고 있다.

2020년 현재, Ensembl은 Ensembl과 Ensembl Genemes 데이터베이스 모두에서 50,000개 이상의 게놈을 지원하며, 사용자가 게놈 주석 데이터를 보다 빠르게 이용할 수 있도록 설계된 새로운 웹사이트인 Rapid Release와 SARS-CoV-2 참조 게놈에 액세스하는 새로운 웹사이트인 COVID-19같은 몇 가지 혁신적인 기능을 추가했다.

게놈 데이터 표시

인간 게놈에 맞춘 유전자 SGCB

Ensembl 개념의 중심은 참조 게놈에 대한 유전자 및 기타 게놈 데이터의 정렬에 대한 그래픽 뷰를 자동으로 생성하는 능력입니다.이것들은 데이터 트랙으로 표시되며, 개별 트랙을 켜고 끌 수 있어 사용자는 자신의 연구 관심사에 맞게 디스플레이를 맞춤화할 수 있습니다.또한 이 인터페이스를 통해 사용자는 영역을 확대하거나 게놈을 따라 어느 방향으로든 이동할 수 있습니다.

다른 디스플레이는 전체 핵형에서 DNA 및 아미노산 배열의 텍스트 기반 표현에 이르기까지 다양한 분해능 수준의 데이터를 보여주거나 다양한 종에 걸쳐 유사한 유전자(호몰로지)의 나무와 같은 다른 유형의 디스플레이를 보여준다.그래픽스는 표 형식의 디스플레이로 보완되며 많은 경우 FASTA 등의 다양한 표준 파일 형식으로 페이지에서 직접 데이터를 내보낼 수 있습니다.

BAM, BED, PSL지원되는 형식의 적절한 파일을 업로드하여 외부에서 생성된 데이터를 디스플레이에 추가할 수도 있습니다.

그래픽스는 표준 Perl 그래픽스 디스플레이 라이브러리인 GD에 기반한 커스텀 Perl 모듈 스위트를 사용하여 생성됩니다.

대체 접근 방식

Ensembl은 웹사이트 외에도 유전자, 단백질 등 생물학적 객체를 모델링하는 REST API와 Perl[10] API(애플리케이션 프로그래밍 인터페이스)를 제공하여 간단한 스크립트를 작성하여 관심 데이터를 검색할 수 있도록 하고 있다.웹 인터페이스에서 데이터를 표시하기 위해 내부적으로 동일한 API가 사용됩니다.코어 API, 컴파라 API(비교 유전체 데이터용), 바리에이션 API(SNP, SNV, CNV 등에 액세스하기 위한), 기능 유전체 API(규제 데이터에 액세스하기 위한) 등의 섹션으로 나뉩니다.Ensembl 웹사이트는 API 설치사용 방법에 대한 광범위한 정보를 제공합니다.

이 소프트웨어를 사용하여 공용 MySQL 데이터베이스에 액세스할 수 있으므로 대량의 데이터 세트를 다운로드할 필요가 없습니다.사용자는 직접 SQL 쿼리를 사용하여 MySQL에서 데이터를 가져오도록 선택할 수도 있지만, 이를 위해서는 현재 데이터베이스 스키마에 대한 광범위한 지식이 필요합니다.

대규모 데이터셋은 BioMart 데이터 마이닝 툴을 사용하여 검색할 수 있습니다.복잡한 쿼리를 사용하여 데이터셋을 다운로드하기 위한 웹 인터페이스를 제공합니다.

마지막으로, 전체 MySQL 데이터베이스와 일부 선택된 데이터 세트를 다른 형식으로 다운로드하는 데 사용할 수 있는 FTP 서버가 있습니다.

현종

주석이 달린 게놈은 가장 완전하게 배열된 척추동물과 선택된 모델 유기체를 포함한다.모두 진핵생물이지만 원핵생물은 없다.2022년 현재 등록된 종은 271종이며,[11] 다음을 포함한다.

종.
챠다타 젖꼭지 우아르콘토글리에스 영장류 앙골라콜로부스, 검은코다람쥐원숭이, 검은코원숭이, 보노보, 부시베이비, 카푸친, 침팬지, 흔한마모셋, 코크렐시파카, 게먹이마카크, 드릴, 인간마카크, 쥐여우원숭이, 젤라다, 황금코원숭이, 녹색, 오랑우탄원숭이, 올리브원숭이que, sooty mangabey, tarsier, Ugandan red colobus
스칸덴티아 나무쥐
글리레스(로드엔트 + 라고모형) 알제리쥐, 알파인마못, 아메리카비버, 북극땅다람쥐, 브라질기니피그, 중국햄스터, 다마랜드두더지쥐, 다우리안땅다람쥐, 유라시아붉은다람쥐, 황금햄스터, 땅다람쥐, 캥거루쥐, 소이집트저보아, 긴꼬리친칠라, 몽골저빌, , 벌거벗은두더지쥐, 북미산두더지쥐, , 피카, 대초원 들쥐, 토끼, 류큐쥐, 랫드쥐, 스텝쥐, 13줄무늬 땅다람쥐, 갈리산 위쪽 맹두더지쥐
로라시아테리아 알파카, 아메리카흑곰, 아메리카밍크, 아메리카밍크, 아라비아낙타, 아시아흑곰, 벨루가고래, 청고래, 차코안페커리, 캘리포니아바다사자, 캐나다 링스, 고양이, , 딩고, 개, 돌고래, 국내산 야크, 당나귀, 염소, 대왕팬더, 대왕관박쥐, 고슴도치, , 표범, 표범, 레저 고슴도치, 레저, 미카터, 미카타, 미카타, 미카타, 미카타, 미카타, 미카타, 미카타, 미카타, 미카타, 미카타, 미크로뱃, 나홀, 북극곰, 돼지, 붉은 여우, , 랫드류, 시베리아 사향노루, 향유고래, 시베리아 호랑이, 바키타, 야생야크, 야크, 사슴
아프로테리아 코끼리, 히락스, 텐렉
크세나트라 아르마딜로, 나무늘보
유대목 보통 웜뱃, 코알라, 주머니쥐, 태즈메이니아 데빌, 왈라비
모노렘 오리너구리과
파충류 아르헨티나산 흑백테구, 푸른고리바다거북, 중앙수염드래곤, 중국산 연각거북, 일반거북, 사막거북, 동부갈색뱀, 소금물악어, 구드의 가시거북, 녹색아놀레, 인도코브라, 코모도드래곤, 도장거북, 핀타섬거북, 세발톱거북 상자거북, 투아타라, 서아프리카 진흙거북
새들 아프리카 타조, 벵골핀치, 청관오리, 청관오리, 부엉이, 굴부엉이, , 닭(붉은 정글폴), 닭(모성 레그혼층), 닭(모성 흰 레그혼층), 칠레 티나무, 목걸이 파리캐처, 카나리아, 커먼 케스트렐, 오리, 동부버즈, 오리, 동부 에뮬리부엉이올빼미, 참새매, 금독수리, 황금꿩, 황금칼라마나킨, 굴디안핀치, 큰물고기, 투구기니폴, 인도공작, 메추리, 카카포, 작은물고기, 청둥오리, 중땅핀치, 뉴칼레도니아 까마귀, 북부물고기, 오카리부엉이, 오리엔탈부엉이, 오리엔탈부엉이, 핑크발 거위, 반지목 , 러프, 적갈색 뚜껑의 개코원숭이, 실버아이, 작은 핀치, 스푼부리 도요새, 스위슨부리 개코원숭이, 백조거위, 칠면조, 흰목참새, 노란부리 아마존, 제부, 얼룩말 핀치
진양서류 리산가시 두꺼비, 제노푸스 트로피컬리스
텔레포스트 아마존 몰리, 아시아 아로와나, 대서양 청어, 대서양 연어, 발란 크라세, 바라문디 퍼치, 바이콜라 댐셀피시, 블라인드 바벨, 블루 틸라피아, 뭉툭한 코딱지, 갈색 송어, 버튼의 마우스브루더, 채널 블레니, 채널 메기, 중국 레메다카, 치누크 연어, 코딱지, 코딱지, 코딱지, 코딱지, 코딱지일반적인 잉어, 상아, 상아, 전기뱀장어, 코끼리 상어, 유럽산 배스, 길시어, 금붕어, 구피, 먹물고기, 뿔금선바벨, 후첸, 인도산 유리어, 인도산 메다카, 일본 메다카, 자바니, 주렁이, 대형 민어, 산낙어, 산낙어, 청어, 산낙어꼬리 시클리드, 마코베치클리드, 맹그로브 리불루스, 멕시코 테트라, 미다스 치클리드, 몬테레이 플래티피쉬, 마미호그, 나일 틸라피아, 북방 파이크, 바다 개복치, 오렌지 크라운피쉬, 오비큘라 카디널피쉬, 파라모르롭스 킹슬레, 페리프탈머스 매그나투스, 솔기, 솔기, 솔기, 솔시클리드, 솔기, 솔기, 솔기, 솔시콘sh, round goby, sailfin molly, sheepshead molly, shiamese fighting fish, spinny chromis, spinny chromis, spiny chromis, spiny chromis, scheelback, tyleback, traodon, tigleback, traodon, traodon, tigron, tigron, tigle be, time, te, te, trahorse, trahse, te, tron에브라피시), 오리시아스라티페스(메다카), 가스테우스 아큘라투스(스틸백), 얼룩말 음부나, 지그재그 뱀장어
사이클로스토마타 페트로미존 마리누스(바다 칠성장어)
튜네틱스 시오나 창자, 시오나 창자
무척추동물 곤충들 드로소필라멜라노가스터(초파리), 아노펠레스감비아(모기), 이집트이집트이데스(모기)
케노하브디시스엘레건스
효모균 사카로미세스세레비시아에(제빵 효모)

오픈 소스/미러

Ensembl 프로젝트의 모든 데이터 부분은 오픈 액세스이며 모든 소프트웨어는 오픈 소스이며 CC BY 4.0 라이선스로 과학 커뮤니티에서 자유롭게 사용할 수 있습니다.현재 Ensembl 데이터베이스 웹 사이트 4개의 다른 위치 전 세계적으론 서비스의 개선을 위해 그대로 나타난다.

공식 미러 사이트
영국(상어 연구소) ----- 메인 웹사이트
US West(Amazon AWS) ----미국 서부 해안의 클라우드 기반 거울
US East(Amazon AWS) ----미국 동부 해안의 클라우드 기반 거울
아시아(Amazon AWS) ----싱가포르 클라우드 기반 거울

「 」를 참조해 주세요.

레퍼런스

  1. ^ Yates A. D.; et al. (January 2020). "Ensembl 2020". Nucleic Acids Res. 48 (D1): D682–D688. doi:10.1093/nar/gkz966. PMC 7145704. PMID 31691826.
  2. ^ a b Hubbard, T. (1 January 2002). "The Ensembl genome database project". Nucleic Acids Research. 30 (1): 38–41. doi:10.1093/nar/30.1.38. PMC 99161. PMID 11752248.
  3. ^ Flicek P, Amode MR, Barrell D, et al. (November 2010). "Ensembl 2011". Nucleic Acids Res. 39 (Database issue): D800–D806. doi:10.1093/nar/gkq1064. PMC 3013672. PMID 21045057.
  4. ^ Flicek P, Aken BL, Ballester B, et al. (January 2010). "Ensembl's 10th year". Nucleic Acids Res. 38 (Database issue): D557–62. doi:10.1093/nar/gkp972. PMC 2808936. PMID 19906699.
  5. ^ Davis, Charles Patrick (29 March 2021). "Medical definition of Genome Annotation". Archived from the original on 14 June 2021. Retrieved 7 August 2022.
  6. ^ Curwen, Val; Eyras, Eduardo; Andrews, T. Daniel; Clarke, Laura; Mongin, Emmanuel; Searle, Steven M. J.; Clamp, Michele (May 2004). "The Ensembl automatic gene annotation system". Genome Research. 14 (5): 942–950. doi:10.1101/gr.1858004. ISSN 1088-9051. PMID 15123590.
  7. ^ Ruffier, Magali; Kähäri, Andreas; Komorowska, Monika; Keenan, Stephen; Laird, Matthew; Longden, Ian; Proctor, Glenn; Searle, Steve; Staines, Daniel; Taylor, Kieron; Vullo, Alessandro; Yates, Andrew; Zerbino, Daniel; Flicek, Paul (January 2017). "Ensembl core software resources: storage and programmatic access for DNA sequence and genome annotation". Database. 2017 (1): bax020. doi:10.1093/database/bax020. PMC 5467575. PMID 28365736.
  8. ^ Hubbard, T. J. P.; Aken, B. L.; Ayling, S.; Ballester, B.; Beal, K.; Bragin, E.; Brent, S.; Chen, Y.; Clapham, P.; Clarke, L.; Coates, G. (January 2009). "Ensembl 2009". Nucleic Acids Research. 37 (Database issue): D690–697. doi:10.1093/nar/gkn828. ISSN 1362-4962. PMC 2686571. PMID 19033362.
  9. ^ Howe, Kevin L.; Contreras-Moreira, Bruno; De Silva, Nishadi; Maslen, Gareth; Akanni, Wasiu; Allen, James; Alvarez-Jarreta, Jorge; Barba, Matthieu; Bolser, Dan M.; Cambell, Lahcen; Carbajo, Manuel (8 January 2020). "Ensembl Genomes 2020-enabling non-vertebrate genomic research". Nucleic Acids Research. 48 (D1): D689–D695. doi:10.1093/nar/gkz890. ISSN 1362-4962. PMC 6943047. PMID 31598706.
  10. ^ Stabenau A, McVicker G, Melsopp C, Proctor G, Clamp M, Birney E (February 2004). "The Ensembl Core Software Libraries". Genome Research. 14 (5): 929–933. doi:10.1101/gr.1857204. PMC 479122. PMID 15123588.
  11. ^ "Species List". uswest.ensembl.org. Retrieved 5 August 2022.

외부 링크