연산유전체학
Computational genomics및 통계 계산적 분석의 사용 게놈 순서 및 관련 모두 DNA와 RNA순서뿐만 아니라 다른"post-genomic" 데이터를 포함하여 data,[2]에서 생물학을 해독하기에(종종 부정확하게에 계산 genetics[1]이라고 표현했다.)전산 유전체학 말한다(즉, 실험 데이터 기술로 얻는 g이 필요한enome 유전체 DNA 미세 분석과 같은 시퀀스. 이러한 것들은 유전자의 기능을 이해하기 위한 계산적 접근법 및 통계적 접근법과 결합하여 이 분야를 흔히 계산적 및 통계적 유전학/유전체학이라고도 한다. 이와 같이 계산 유전체학은 생물정보학 및 계산생물학의 하위집합으로 간주될 수 있으나, 한 종의 DNA가 분자 수준과 그 이상의 생물학을 어떻게 통제하는지에 대한 원리를 이해하기 위해 (개별 유전자가 아닌) 전체 게놈을 사용하는 것에 초점을 두고 있다. 현재 방대한 생물학적 데이터 집합이 풍부해짐에 따라, 계산 연구는 생물학적 발견에 가장 중요한 수단 중 하나가 되었다.[3]
역사
계산 유전체학의 뿌리는 생물정보학의 뿌리와 공유된다. 1960년대 동안, 국립 생물의학 연구 재단의 Margaret Dayhoff와 다른 사람들은 진화 연구를 위해 동음이의 단백질 서열 데이터베이스를 수집했다.[4] 그들의 연구는 특정 단백질이 아미노산 염기서열을 기반으로 다른 단백질로 변화하는데 필요한 진화적 변화를 알아내는 계통생성 나무를 개발했다. 이로 인해 그들은 한 단백질이 다른 단백질과 연관될 가능성을 평가하는 점수 매트릭스를 만들게 되었다.
1980년대부터 게놈 서열 데이터베이스가 기록되기 시작했지만, 이는 유전자 정보의 데이터베이스를 검색하고 비교하는 형태로 새로운 난제를 제시했다. 구글이나 위키백과 같은 웹사이트에서 사용되는 텍스트 검색 알고리즘과 달리 유전적 유사성의 섹션을 검색하려면 단순히 동일하지 않고 비슷한 문자열을 찾아야 한다. 이에 따라 데이호프의 초기 연구에서 도출한 채점 매트릭스를 이용해 아미노산 시퀀스 세트를 서로 비교하는 동적 프로그래밍 알고리즘인 니들만-운슈 알고리즘이 개발됐다. 후에, 발파 알고리즘은 유전자 시퀀스 데이터베이스의 빠르고 최적화된 검색을 수행하기 위해 개발되었다. 블라스트와 그 파생상품은 아마도 이러한 목적을 위해 가장 널리 사용되는 알고리즘일 것이다.[5]
컴퓨터 유전체학(computational genomics)이라는 문구의 등장은 1990년대 중후반 완전 서열화된 게놈의 이용 가능성과 일치한다. 연산유전체학 연례회의의 첫 번째 회의는 1998년 게놈연구소(TIGR)의 과학자들에 의해 조직되었는데, 이 전문성을 위한 포럼을 제공하고, 이 과학영역을 게놈학이나 계산생물학의 보다 일반적인 분야와 효과적으로 구분하였다.[citation needed] MEDLINE 추상화에 따르면 과학 문헌에서 이 용어를 처음 사용한 것은 핵산 연구소에서 불과 1년 전이었다.[6] 헬리코박터균과 위궤양의 연관성을 공동발견한 노벨상 수상자인 배리 마샬의 기조강연이 2006년 마지막 컴퓨터 게노믹스 컨퍼런스가 열렸다. 2014년 현재 이 분야의 선도 컨퍼런스는 인텔리전트 시스템즈 for Molecular Biology(ISMB)와 LECOMB(Research in Computing Molecular Biology)가 있다.
컴퓨터 보조 수학(Mathematica 또는 Mattlab과 같은 제품 사용)의 발달로 엔지니어, 수학자, 컴퓨터 과학자가 이 영역에서 활동을 시작할 수 있게 되었고, 전체 게놈 비교부터 유전자 표현 분석까지 사례 연구와 실증 실험의 공개 모음이 증가하고 있다.[7] 이를 통해 시스템과 제어, 정보이론, 문자열 분석, 데이터 마이닝 등 다양한 아이디어의 도입이 증가했다. 컴퓨터 접근법이 연구와 강의의 표준 주제가 되고, 두 가지 주제에 능통한 학생들이 지난 몇 년 동안 만들어진 여러 과목에서 형성되기 시작할 것으로 기대된다.
생물학에 대한 계산 유전체학 연구의 기여
생물학에 대한 계산 유전체학 연구의 기여는 다음과 같다.[3]
- 셀룰러 신호 네트워크 제안
- 게놈 진화의 메커니즘을 제안
- 몇몇 포유류와 척추동물 종과의 비교 유전체학 기법을 사용하여 모든 인간 유전자의 정확한 위치를 예측한다.
- 초기 배아 발달과 관련이 있는 보존 유전자를 예측하다.
- 반복된 시퀀스 모티브와 조직별 유전자 표현 사이의 잠재적 연관성 발견
- 유별나게 빠른 진화를 거친 게놈의 영역을 측정하다.
게놈비교
계산 도구는 게놈 시퀀스의 유사성을 평가하기 위해 개발되었다. 그 중 일부는 평균 뉴클레오티드 아이덴티티와 같은 선형 기반 거리들이다.[8] 이 방법들은 계산적으로 느리지만 매우 구체적이다. 정렬이 없는 다른 방법에는 통계적 접근법과 확률론적 접근법이 포함된다. 한 예로, mash를 이용한 확률론적 접근법이 있다.[9] 이 방법에서, 숫자 k가 주어지면, 게놈 시퀀스는 가능한 k-mer에 임의 해시함수를 통해 더 짧은 스케치로 변형된다. 예를 들어, = {\인 경우 크기 4의 스케치가 생성되며 다음과 같은 해시 함수가 지정된다.
(AA,0) (AC,8) (AT,2) (AG,14) (CA,6) (CC,13) (CT,5) (CG,4) (GA,15) (GC,12) (GT,10) (GG,1) (TA,3) (TC,11) (TT,9) (TG,7)
순서의 스케치
CTGACCTTAGGGGACTATGATGACGACCAT
크기 2의 k-mer 중 가장 작은 해시 값인 {0,1,2}이다. 그런 다음 이러한 스케치를 비교하여 해당 시퀀스의 공유 k-mer(Jaccard 인덱스)의 비율을 추정한다. 해시 값이 이진수라는 것은 주목할 필요가 있다. 실제 게놈 설정에서 유용한 k-mer 사이즈는 14~21이며, 스케치의 크기는 1000 정도일 것이다.[9]
이 방법은 시퀀스의 크기를 수백 배라도 줄이고 정렬되지 않은 방식으로 비교함으로써 시퀀스의 유사성을 추정하는 시간을 크게 단축한다.
게놈 데이터의 군집화
군집화 데이터는 게놈 표본의 통계적 분석을 단순화하는 데 사용되는 도구다. 예를 들어 저자들은[10] 생체합성 유전자 군집(BGC)의 시퀀스 유사성 네트워크를 분석하기 위한 도구(BiG-SCAPE)를 개발했다. 생합성 유전자 군집의 연속적인 군집화 계층에서는 자동화된 도구 BiG-MAP에서 중복 데이터를 필터링하고 유전자 군집합을 식별하기 위해 사용된다. 이 도구는 마이크로바이옴 표본에서 BGC의 풍부함과 표현 수준을 프로파일링한다.
생합성 유전자 군집
생체정보학 도구는 메타게놈 데이터로부터 마이크로바이옴 표본에 있는 이런 종류의 유전자 군집의 풍부함과 발현을 예측하고 결정하기 위해 개발되었다.[12] 메타게놈 데이터의 크기가 상당하기 때문에 필터링과 군집화는 이러한 도구의 중요한 부분이다. 이러한 과정은 Minhash와 같은 차원성 감소 [9]기법과 k-medoids와 친화력 전파와 같은 군집화 알고리즘으로 구성될 수 있다. 또한 그것들을 비교하기 위해 몇 가지 지표와 유사점이 개발되었다.
생합성 유전자 군집(BGC)을 위한 게놈 채굴은 천연물 발견에 필수적인 부분이 됐다. 20만 미생물 게놈은 현재 공개적으로 이용할 수 있으며 풍부한 신화학에 대한 정보를 보유하고 있다. 이 방대한 게놈 다양성을 탐색하는 한 가지 방법은 동종 BGC의 비교 분석을 통해 대사물의 존재나 생물학적 활동에 부합할 수 있는 교차 종 패턴을 식별할 수 있다. 그러나 현재의 도구는 이러한 BGC를 유전자 군집화군(GCF)으로 분류하는 데 사용되는 값비싼 네트워크 기반 접근방식으로 인한 병목 현상에 의해 방해받고 있다. BiG-SLCE(BiG-Synthetic Genes Super-Linear Clustering Engine)는 방대한 수의 BGC를 클러스터링하도록 설계된 도구다. BiG-SLiCE는 유클리드 공간에서 이들을 대표함으로써 BGC를 비선형, 근선형으로 GCF로 묶을 수 있다.
Satria 12. 알, 2021[13]BiG-SLiCE을 가로질러 분류학을 가로질러 미지의 생합성의 잠재력을 확인할 2차 대사 다양성의 세계 지도를 재 구함으로써 이러한 분석의 유용성을 보여 주고 이 검색 가능한 글로벌 interc 건설에 대한 첫 걸음을 제공한다 새로운 가능성 자연 제품 발견을 가속화하기를 드러냈다.onneBGC의 cted 네트워크 더 많은 게놈들이 연구되지 않은 세금에서 서열화됨에 따라, 그들의 잠재적으로 새로운 화학작용을 강조하기 위해 더 많은 정보를 캐낼 수 있다.[13]
참고 항목
참조
- ^ 세계보건기구(WHO)의 유전학 및 유전체학 정의
- ^ Koonin EV (March 2001). "Computational genomics". Current Biology. 11 (5): R155–8. doi:10.1016/S0960-9822(01)00081-1. PMID 11267880. S2CID 17202180.
- ^ a b "Computational Genomics and Proteomics at MIT". Archived from the original on 2018-03-22. Retrieved 2006-12-29.
- ^ Mount D (2000). Bioinformatics, Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press. pp. 2–3. ISBN 978-0-87969-597-2.
- ^ Brown TA (1999). Genomes. Wiley. ISBN 978-0-471-31618-3.
- ^ Wagner A (September 1997). "A computational genomics approach to the identification of gene networks". Nucleic Acids Research. 25 (18): 3594–604. doi:10.1093/nar/25.18.3594. PMC 146952. PMID 9278479.
- ^ Cristianini N, Hahn M (2006). Introduction to Computational Genomics. Cambridge University Press. ISBN 978-0-521-67191-0.
- ^ Konstantinidis KT, Tiedje JM (2005). "Genomic insights that advance the species definition for prokaryotes". Proc Natl Acad Sci U S A. 102: 2567–72.
- ^ a b c Ondov B, Treangen T, Melsted P, Mallonee A, Bergman N, Koren S, Phillippy A (2016). "Mash: fast genome and metagenome distance estimation using MinHash". Genome Biology. 17 (32): 14. doi:10.1186/s13059-016-0997-x. PMC 4915045. PMID 27323842.
- ^ Navarro-Muñoz J, Selem-Mojica N, Mullowney M, Kautsar S, Tryon J, Parkinson E, De Los Santos E, Yeong M, Cruz-Morales P, Abubucker S, Roeters A, Lokhorst W, Fernandez-Guerra A, Dias-Cappelini L, Goering A, Thomson R, Metcalf W, Kelleher N, Barona-Gomez F, Medema M (2020). "A computational framework to explore large-scale biosynthetic diversity". Nat Chem Biol. 16 (1): 60–68. doi:10.1038/s41589-019-0400-9. PMC 6917865. PMID 31768033.
- ^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: an automated pipeline to profile metabolic gene cluster abundance and expression in microbiomes": 32. doi:10.1101/2020.12.14.422671.
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말) - ^ Pascal-Andreu V, Augustijn H, van den Berg K, van der Hooft J, Fischbach M, Medema M (2020). "BiG-MAP: an automated pipeline to profile metabolic gene cluster abundance and expression in microbiomes". bioRxiv: 32. doi:10.1101/2020.12.14.422671.
- ^ a b Kautsar, Satria A; van der Hooft, Justin J J; de Ridder, Dick; Medema, Marnix H (13 January 2021). "BiG-SLiCE: A highly scalable tool maps the diversity of 1.2 million biosynthetic gene clusters". GigaScience. 10 (1): giaa154. doi:10.1093/gigascience/giaa154. PMC 7804863. PMID 33438731.
외부 링크
- 하버드 확장 학교 생물물리학 101, Genomics and Computing Biology, http://www.courses.fas.harvard.edu/~bphys101/1901/1901/1906.101
- Bristol 대학교 컴퓨터 유전체학 과정, http://www.computational-genomics.net/