시퀀스 읽기 보관

Sequence Read Archive
시퀀스 읽기 보관
Database.png
내용
설명FASTQ 시퀀스
BAM 데이터
유기체전부
연락처
리서치센터국립생명공학정보센터
유럽생물정보연구소
일본 디엔에이 데이터 뱅크
접근
웹사이트www.ncbi.nlm.nih.gov/sra/
www.ebi.ac.uk/ena/
trace.ddbj.nig.ac.jp/dra/index_e.html

시퀀스 읽기 아카이브(SRA, 이전에 짧은 읽기 아카이브로 알려진 SRA)는 DNA 시퀀싱 데이터에 대한 공개 저장소를 제공하는 생물정보학 데이터베이스로, 특히 고투과 시퀀싱에 의해 생성된 "짧은 읽기"는 일반적으로 길이가 1,000 기본 쌍보다 작다.[1]아카이브는 국제 뉴클레오티드 시퀀스 데이터베이스 공동작업(International Nucleotide Sequence Database Collaboration, INSDC)의 일부로서, NCBI, 유럽 생물정보연구소(EBI), 일본 DNA 데이터 뱅크(DBJ)의 공동작업으로 운영된다.null

아카이브는 RNA-SeqChip-Seq 연구가 생산한 데이터의 저장소와 인간 마이크로바이옴 프로젝트, 1000 게놈 프로젝트 등 대규모 연구를 제공하기 위해 2007년 국립생명공학정보센터(NCBI)가 설립했다.[1][2]원래 '짧은 읽기 아카이브'라고 불리던 이 명칭은 향후 시퀀싱 기술이 더 긴 시퀀스 읽기를 생산할 수 있을 것이라는 기대에서 바뀌었다.[3]null

SRA는 2008년 이후 급속도로 성장했다.[4]2011년 현재 대부분의 SRA 시퀀스 데이터는 Illumina의 게놈 분석기에 의해 생성되었다.[5]

Sequence Read Archive에 축적된 데이터의 양이 급속도로 증가하고 있다.2010년 9월 현재, SRA의 65%는 인간 유전체 시퀀스였으며, 또 다른 16%는 인간의 메타게놈 시퀀스 읽기 관련이었다.[6]이 데이터의 대부분은 1000개의 게놈 프로젝트를 통해 축적되었다.2011년 6월, SRA에 포함된 데이터는 DNA의 100테라바제를 볼륨으로 통과시켰다.[2]null

SRA에 제출된 파일에 대해 선호하는 데이터 형식BAM 형식이며, 정렬된 읽기와 정렬되지 않은 읽기를 모두 저장할 수 있다.[6]내부적으로 SRA는 3개의 INSDC 멤버 데이터베이스 모두에서 사용되는 NCBI SRA 툴킷에 의존하여 유연한 데이터 압축, API 액세스 및 FASTQ와 같은 다른 포맷으로의 변환을 제공한다.[5]null

NCBI는 2011년 2월 자금감축으로 NCBI SRA를 폐쇄하겠다는 계획을 발표했다.[2][7]그러나 EBI와 DDBJ는 SRA를 계속 지원하겠다고 발표했다.[8]2011년 10월, NCBI는 SRA에 대한 자금후원의 지속을 발표했다.[2]null

SRA의 데이터 증착은 대부분의 자금 조달 기관과 개방형 액세스 저널에 의해 의무화된다.네이처 퍼블리싱 그룹 저널은 DNA와 RNA 시퀀싱 데이터를 SRA를 통해 이용할 수 있도록 요구하고 있다.[9]null

참고 항목

참조

  1. ^ a b Wheeler, DL; Barrett, T; Benson, DA; Bryant, SH; Canese, K; Chetvernin, V; Church, DM; Dicuccio, M; Edgar, R; Federhen, S; Feolo, M; Geer, LY; Helmberg, W; Kapustin, Y; Khovayko, O; Landsman, D; Lipman, DJ; Madden, TL; Maglott, DR; Miller, V; Ostell, J; Pruitt, KD; Schuler, GD; Shumway, M; Sequeira, E; Sherry, ST; Sirotkin, K; Souvorov, A; Starchenko, G; Tatusov, RL; Tatusova, TA; Wagner, L; Yaschenko, E (Jan 2008). "Database resources of the National Center for Biotechnology Information". Nucleic Acids Research. 36 (Database issue): D13-21. doi:10.1093/nar/gkm1000. PMC 2238880. PMID 18045790.
  2. ^ a b c d Galperin, M. Y.; Fernandez-Suarez, X. M. (5 December 2011). "The 2012 Nucleic Acids Research Database Issue and the online Molecular Biology Database Collection". Nucleic Acids Research. 40 (D1): D1–D8. doi:10.1093/nar/gkr1196. PMC 3245068. PMID 22144685.
  3. ^ Ostell, Jim (2009). "NCBI's Sequence Read Archive: A Core Enabling Infrastructure". Bio IT World. Retrieved 2013-01-08.
  4. ^ "NCBI SRA Overview". NCBI. 1 Jan 2013. Retrieved 2013-01-08.
  5. ^ a b Kodama, Y.; Shumway, M.; Leinonen, R. (2011). "The sequence read archive: explosive growth of sequencing data". Nucleic Acids Research. 40 (D1): D54–D56. doi:10.1093/nar/gkr854. ISSN 0305-1048. PMC 3245110. PMID 22009675.
  6. ^ a b Leinonen R; Sugawara H; Shumway M (January 2011). "The sequence read archive". Nucleic Acids Res. 39 (Database issue): D19–21. doi:10.1093/nar/gkq1019. PMC 3013647. PMID 21062823.
  7. ^ GB Editorial Team (Mar 22, 2011). "Closure of the NCBI SRA and implications for the long-term future of genomics data storage". Genome Biology. 12 (3): 402. doi:10.1186/gb-2011-12-3-402. PMC 3129670. PMID 21418618.
  8. ^ "DDBJ will continue Sequence Raw Data Archiving". www.ddbj.nig.ac.jp. Retrieved 2 September 2014.
  9. ^ "Availability of data and materials : authors and referees @ npg". www.nature.com. Retrieved 2 September 2014.

외부 링크