MG-라스트
MG-RAST이 글은 광고처럼 쓰인 내용을 담고 있다.(2021년 7월)(이를 과 시기 |
| 원본 작성자 | 미국 샌디에이고 주립대 시카고 대학교 아르곤 국립 연구소 |
|---|---|
| 개발자 | F. 마이어, D. 파아만, M. D'Souza, R.올슨, E.M. 글래스, M. 쿠발, T. 파치안, A. 로드리게스, R. 스티븐스, A.Wilke, J. Wilkening, R.A. Edwards |
| 초기 릴리즈 | 2008; 전 |
| 안정적 해제 | 4.0 / 2016년 11월 15일; 전 |
| 유형 | 생물정보학 |
| 웹사이트 | http://metagenomics.anl.gov/ |
MG-RAST는 메타게놈의 자동 계통생성 및 기능분석을 제안하는 오픈소스 웹 애플리케이션 서버다.[1]그것은 또한 메타게놈 데이터의 가장 큰 저장고 중 하나이다.명칭은 서브시스템스 테크놀로지를 이용한 메타게놈 속성 주석(Metagenomic Rapid Annotations)의 약칭이다.파이프라인은 뉴클레오티드와 아미노산 수준 모두의 데이터베이스에 대한 시퀀스 비교를 수행함으로써 메타게놈에 속하는 시퀀스에 대한 기능 할당을 자동으로 생성한다.애플리케이션은 분석 중인 메타게놈의 계통적 및 기능적 할당뿐만 아니라 서로 다른 메타게놈을 비교하기 위한 도구를 제공한다.프로그래밍 방식 액세스를 위한 RESTful API도 제공한다.
이 서버는 시카고 대학의 Argonne National Laboratory에 의해 만들어지고 유지 관리되었다.2016년 12월 29일 이 시스템은 15만개 이상의 데이터 집합에서 60테라바제-페어(terabase-pares)의 데이터를 분석하였다.분석된 데이터 세트 중 일반인이 이용할 수 있는 데이터 세트는 2만3000개 이상이다.
현재, 계산 자원은 아르곤네 국립 연구소의 DOE 마젤란 클라우드, 아마존 EC2 웹 서비스, 그리고 다수의 전통적인 클러스터들에 의해 제공되고 있다.
배경
MG-RAST는 메타게놈 시퀀스 데이터의 분석과 저장을 위한 무료 공공 자원을 확보하기 위한 노력의 일환으로 개발되었다.이 서비스는 메타게놈 분석의 주요 병목 현상 중 하나인 데이터 주석을 위한 고성능 컴퓨팅의 가용성을 제거한다.[2]
메타게놈 연구와 메타트랜스펙토믹 연구는 대규모 데이터셋의 처리를 수반하므로 계산적으로 비용이 많이 드는 분석을 요구할 수 있다.오늘날 과학자들은 최근 몇 년 동안 염기서열 분석 비용이 급격히 감소했기 때문에 그러한 양의 데이터를 생성할 수 있다.이러한 사실은 한계요인을 컴퓨팅 비용으로 이동시켰다. 예를 들어, 메릴랜드 대학의 최근 연구에서는 그들의 CLOVR 메타게놈 분석 파이프라인을 사용하여 테라베이스당 500만 달러 이상의 비용을 추정했다.[3]시퀀스 데이터 집합의 크기와 수가 계속 증가함에 따라, 데이터 집합의 분석과 관련된 비용은 계속해서 증가할 것이다.
또한 MG-RAST는 메타게놈 데이터의 리포지토리 도구로도 작동한다.메타데이터 수집과 해석은 게놈학 및 메타게놈학 연구에 필수적이며, 이와 관련된 과제는 이 정보의 교환, 큐레이션 및 배포를 포함한다.MG-RAST 시스템은 Genomics Standards Consortium이 고안한 최소 체크리스트 표준과 확장된 바이오메이트 전용 환경 패키지를 얼리 어답터로서 데이터 제출 시 메타데이터 캡처를 위한 사용이 간편한 업로더를 제공하고 있다.[4]
메타게놈 데이터 분석을 위한 파이프라인
MG-RAST 애플리케이션은 여러 생물정보학 도구를 조합하여 메타게놈 및 앰피콘 시퀀스의 자동화된 품질 제어, 주석, 비교 분석 및 보관 서비스를 제공한다.이 애플리케이션은 메타게놈 데이터를 분석하기 위해 제작됐지만 엠프리콘(16S, 18S, ITS) 시퀀스와 메타트랜스크립토메(RNA-seq) 시퀀스 처리도 지원한다.현재 MG-RAST는 진핵생물의 코딩 영역을 예측할 수 없으므로 진핵 메타게놈 분석에는 제한적으로 사용된다.[5]
MG-RAST의 파이프라인은 5단계로 나눌 수 있다.
데이터 위생
품질 관리 및 아티팩트 제거를 위한 단계 포함.첫째, 질 낮은 부위를 SolexaQA를 사용하여 다듬고 부적절한 길이를 나타내는 판독치를 제거한다.폐기 단계는 메타게놈 및 메타트랜스크립트 데이터셋 처리의 경우에 포함된다.이후 DRISEE(중복 읽기 추론 오류 추정)를 사용하여 ADR(인공 중복 읽기) 측정을 기반으로 샘플 시퀀싱 오류를 평가한다.마지막으로, 파이프라인은 Bowtie 얼라이너를 사용하여 판독치를 선별하고 모델 유기체 게놈(플라이, 마우스, 소, 인간 포함)에 근접하게 일치하는 판독치를 제거할 수 있는 가능성을 제공한다.
피쳐 추출
MG-RAST는 기계 학습 접근방식인 FragGeneScan을 사용하여 유전자 시퀀스를 식별한다.리보솜 RNA 시퀀스는 축소된 버전의 실바 데이터베이스에 대한 초기 BLAR 검색을 통해 식별된다.
피쳐 주석
MG-RAST는 유전자의 투입 기능과 주석을 식별하기 위해 QIIME에서 UCLUST 구현을 이용하여 90% ID 수준에서 단백질 군집을 구축한다.유사도 분석을 위해 각 군집의 가장 긴 시퀀스를 선택한다.유사도 분석은 sBLAT(BLAR 알고리즘이 OpenMP를 사용하여 병렬화되는)를 통해 계산한다.이 검색은 GenBank, SEED, IMG, UniProt, KEG 및 에그NOGs 데이터베이스의 시퀀스를 중복되지 않게 통합하는 M5nr에서 파생된 단백질 데이터베이스를 기준으로 계산된다.[6]
rRNA 시퀀스와 관련된 읽기는 97% ID로 클러스터링된다.각 클러스터의 가장 긴 시퀀스가 대표적으로 선택되며, M5rna 데이터베이스에 대한 BLAR 검색에 사용되며, SIVA, Greengenes, RDP가 통합된다.
프로파일 생성
데이터는 여러 데이터 제품에 통합되어 있다.가장 중요한 것은 유사성 파일의 피벗 및 집계된 버전을 나타내는 풍요로움 프로파일이다.
데이터 로딩
마지막으로 획득한 풍요로움 프로파일이 각 데이터베이스에 로드된다.
MG-RAST 파이프라인 세부 단계
| MG-RAST 파이프라인 | 설명 |
|---|---|
| qc_properties | 품질 관리 통계 생성 |
| 전처리하다 | 사전 처리, FASTQ 데이터에서 낮은 품질의 영역을 잘라내기 위해 |
| 부조화 | k-mer 접근법을 사용한 엽총 메타게놈 데이터 폐기 |
| 스크린을 하다 | 모델 유기체(플라이, 마우스, 소, 사람)의 게놈과 거의 일치하는 읽기 제거 |
| rna 검출 | 감소된 RNA 데이터베이스에 대해 BLAR를 검색하여 리보솜 RNA 식별 |
| rna 군집화 | 그런 다음 rRNA 유사 읽기가 97% ID로 클러스터링됨 |
| rna sims blarly. rna sims blar | M5rna 데이터베이스에 대해 가장 긴 클러스터 대표에 대한 BLAR 유사성 검색 |
| 유전적 표시 | 기계 학습 접근방식, FragGeneScan은 DNA 시퀀스의 코딩 영역을 예측한다. |
| aa 필터링 | 여과단백질 |
| aa 군집화 | uclust를 사용하여 단백질을 90% ID 수준으로 클러스터링 |
| aa는 노골적으로 말하다. | 단백질 식별을 위한 BLAR 유사도 분석 |
| aa는 주석을 달다. | M5nr의 단백질 데이터베이스에 대한 시퀀스 유사성 |
| rna sims 주석 | M5rna의 RNA 데이터베이스에 대한 시퀀스 유사성 |
| 색인 심 Seq. | 데이터 소스와 유사한 색인 시퀀스 |
| md5 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| 함수 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| 유기체 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| lca 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| 온톨로지 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| 소스 주석 요약 | 요약 보고서 md5 주석, 함수 주석, 유기체 주석, LCAa 주석, 온톨로지 주석 및 소스 주석 생성 |
| md5 요약 부하 | 프로젝트에 요약 보고서 로드 |
| 함수 요약 부하 | 프로젝트에 요약 보고서 로드 |
| 유기체 요약 하중 | 프로젝트에 요약 보고서 로드 |
| lca 요약 부하 | 프로젝트에 요약 보고서 로드 |
| 온톨로지 요약 부하 | 프로젝트에 요약 보고서 로드 |
| 완성된 무대 | |
| 업무 완료를 통지하다 | 이메일을 통해 사용자에게 알림 보내기 |
MG-RAST 유틸리티
메타게놈 분석 외에도 MG-RAST는 데이터 검색에도 사용할 수 있다.메타게놈 프로필과 데이터 세트의 시각화 또는 비교는 매우 다양한 모드에서 구현될 수 있다. 웹 인터페이스는 구성, 시퀀스 품질, 기능성 또는 샘플 유형과 같은 기준에 따라 데이터를 선택할 수 있고 통계적 추론과 생태학적 분석을 계산하는 몇 가지 방법을 제공한다.메타게놈의 프로파일은 바카르트, 나무, 스프레드시트 같은 테이블, 히트맵, PCoA, 희귀액션 플롯, 순환채용 플롯, KEG 지도를 사용하여 시각화하고 비교할 수 있다.
참고 항목
참조
- ^ Meyer, F; Paarmann, D; D'Souza, M; Olson, R; Glass, EM; Kubal, M; Paczian, T; Rodriguez, A; Stevens, R; Wilke, A; Wilkening, J; Edwards, RA (2008). "The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes". BMC Bioinformatics. 9 (1): 386. doi:10.1186/1471-2105-9-386. ISSN 1471-2105. PMC 2563014. PMID 18803844.
- ^ Meyer, F.; Paarmann, D.; D'Souza, M.; Olson, R.; Glass, EM; Kubal, M.; Paczian, T.; Rodriguez, A.; Stevens, R. (2008-01-01). "The metagenomics RAST server – a public resource for the automatic phylogenetic and functional analysis of metagenomes". BMC Bioinformatics. 9: 386. doi:10.1186/1471-2105-9-386. ISSN 1471-2105. PMC 2563014. PMID 18803844.
- ^ Angiuoli, Samuel V.; Matalka, Malcolm; Gussman, Aaron; Galens, Kevin; Vangala, Mahesh; Riley, David R.; Arze, Cesar; White, James R.; White, Owen (2011-01-01). "CloVR: A virtual machine for automated and portable sequence analysis from the desktop using cloud computing". BMC Bioinformatics. 12: 356. doi:10.1186/1471-2105-12-356. ISSN 1471-2105. PMC 3228541. PMID 21878105.
- ^ Field, Dawn; Amaral-Zettler, Linda; Cochrane, Guy; Cole, James R.; Dawyndt, Peter; Garrity, George M.; Gilbert, Jack; Glöckner, Frank Oliver; Hirschman, Lynette (2011-06-21). "The Genomic Standards Consortium". PLOS Biology. 9 (6): e1001088. doi:10.1371/journal.pbio.1001088. ISSN 1545-7885. PMC 3119656. PMID 21713030.
- ^ Keegan, Kevin P.; Glass, Elizabeth M.; Meyer, Folker (2016-01-01). MG-RAST, a Metagenomics Service for Analysis of Microbial Community Structure and Function. Methods in Molecular Biology. Vol. 1399. pp. 207–233. doi:10.1007/978-1-4939-3369-3_13. ISBN 978-1-4939-3367-9. ISSN 1940-6029. PMID 26791506.
- ^ Wilke, Andreas; Harrison, Travis; Wilkening, Jared; Field, Dawn; Glass, Elizabeth M.; Kyrpides, Nikos; Mavrommatis, Konstantinos; Meyer, Folker (2012-01-01). "The M5nr: a novel non-redundant database containing protein sequences and annotations from multiple sources and associated tools". BMC Bioinformatics. 13: 141. doi:10.1186/1471-2105-13-141. ISSN 1471-2105. PMC 3410781. PMID 22720753.