DNA 염기서열 이론
DNA sequencing theoryDNA 염기서열 이론은 DNA 염기서열에서 특정 뉴클레오티드의 순서를 결정하기 위한 분석적 토대를 마련하려고 시도하는 광범위한 작업이다. 실무적인 측면은 프로젝트 성과 예측, 실험 결과 문제 해결, 시퀀스 편향 및 소프트웨어 처리 알고리즘의 영향과 같은 요소 특성화, 다양한 시퀀싱 방법의 상호 비교 등을 중심으로 전개된다. 이런 의미에서 시스템 엔지니어링이나 운영 연구의 한 분야로 볼 수 있다. 비록 종종 특정한 문제에 대해서도 수학적 계산이 행해지지만, 영구적인 작업 보관소는 주로 수학적이다. DNA분석이론은 DNA염기서열 분석 이론(예:염기서열 정렬)과 혼동해서는 안 된다 염기서열. 출판물은[1] 때때로 세심한 구분을 하지 않지만, 후자는 주로 알고리즘 문제에 관심을 갖는다. 염기서열 이론은 수학, 생물학, 시스템 공학의 요소들을 바탕으로 하기 때문에 학제간 융합성이 높다. 그 주제는 계산 생물학의 맥락 안에서 연구될 수 있다.
이론 및 시퀀싱 전략
커버링 문제로서의 시퀀싱
DNA 염기서열의 모든 주요 방법은 DNA의 작은 조각들을 읽고 그 후에 조립이나 참조에 대한 정렬을 통해 원래의 DNA 표적을 유추하기 위해 이러한 데이터를 재구성하는 것에 의존한다. 이러한 방법들에 공통되는 추상화는 수학적 커버링 문제의 그것이다.[2] 예를 들어 대상을 나타내는 선 세그먼트와 작은 세그먼트를 대상의 임의 위치에 "드롭"하는 후속 프로세스를 상상할 수 있다. 적절한 커버리지가 누적될 때(예: 공백이 남아 있지 않을 때) 대상은 "순서"로 간주된다.
덮개의 추상적인 특성은 수학자들에 의해 1세기 이상 연구되어 왔다.[3] 그러나 이러한 결과를 직접 적용하는 것은 일반적으로 가능하지 않았다. 특히 확률 분포에 대한 폐쇄형 수학적 해법은 쉽게 평가될 수 없는 경우가 많다. 즉, 그것들은 DNA 염기서열의 특징적인 매개변수에 대해 지나치게 많은 양의 컴퓨터 시간을 수반한다. 스티븐스의 구성이 그러한 예 중 하나이다.[4] 순수 수학의 관점에서 얻은 결과 역시 시퀀싱 단편, 이중 변형, 에지 효과, 표적 다중성의 검출 가능한 중복과 같은 시퀀싱에서 실제로 중요한 요인을 설명하지 않는다. 그 결과 응용 수학의 철학에 따라 시퀀싱 이론의 개발이 더 진행되었다. 특히 문제 중심적이었고 근사치, 시뮬레이션 등을 편법적으로 활용했다.
기초 확률 이론에서 도출된 초기 사용
가장 초기 결과는 기초 확률론에서 직접 찾을 수 있다. 및 을(를) 각각 조각 길이와 대상 길이로 하여 위의 프로세스를 모형화한다고 가정합시다. 특정 조각 하나를 사용하여 대상의 특정 를 "커버링"할 확률은 L/ 이다 (는 L 이(가) 종종 유효하지만 모든 실제 사례에 대해서는 유효하지 않을 것으로 가정한다.) 따라서 대상의 특정 위치를 포함하지 않는 단일 파편의 은 - / G [ - / N 조각에 대해 따라서 적어도 하나의 파편으로 목표물의 특정 위치를 덮을 확률은 다음과 같다.
이 방정식은 처음에 플라스미드 라이브러리의 특성을 나타내기 위해 사용되었지만,[5] 변형된 형태로 나타날 수 있다. 대부분의 에서 N 을(를) 충분히 근사하게.
여기서 = / G 을(를) 이중화라고 한다. 위치가 조각으로 덮인 평균 횟수를 나타내는 중복성의 중요성에 유의하십시오. 또한 대상의 모든 위치에 대한 적용 프로세스를 고려할 때, 이 확률은 대상 적용 범위의 일부인랜덤 변수 의 예상 값과 동일하다는 점에 유의하십시오. 최종 결과는,
"포함 뒷면" 추정기로 널리 사용되고 있으며, 모든 프로젝트에 대한 커버리지가 중복성의 함수인 범용 곡선을 따라 진화한다고 예측한다.
랜더-워터맨 이론
1988년 에릭 랜더와 마이클 워터먼은 틈새의 관점에서 커버 문제를 검토하는 중요한 논문을[6] 발표했다. 이른바 지도화 문제에 초점을 맞췄지만 시퀀싱에 대한 추상화는 대동소이하다. 그들은 "대규모" 게놈 배열의 초기부터 표준 이론으로 채택된 많은 유용한 결과를 제공했다.[7] 그들의 모델은 또한 인간 게놈 프로젝트를 설계하는데 사용되었고 DNA 염기서열 분석에서 중요한 역할을 계속 하고 있다.
궁극적으로 시퀀싱 프로젝트의 주요 목표는 모든 격차를 줄이는 것이므로, "갭 관점"은 시퀀싱 모델을 개발하는 논리적 근거가 되었다. 이 모델에서 더 자주 사용되는 결과 중 하나는 시퀀싱된 조각의 수를 고려할 때 예상되는 콘티그 수입니다. 중첩을 탐지해야 하는 등 본질적으로 '떨어지는' 수열의 양을 소홀히 하면 그 이론이 성립한다.
1995년에 Roach는[8] 이 이론에 대한 개선점을 발표하여, 목표 게놈의 염기서열을 완전하게 배열하는 것이 목표인 염기서열 프로젝트에 적용할 수 있도록 하였다. 마이클 웬들과 밥 워터스턴은[9] 스티븐스의 방법에 근거하여 두 모델 모두 낮은 커버리지 맵핑이나 시퀀싱 프로젝트와 같이 콘티그 수가 상당할 때 유사한 결과를 얻었다고 확인했다.[4] 1990년대에 시퀀싱 프로젝트가 급증하고 프로젝트가 완료에 가까워지면서 낮은 커버리지 근사치가 불충분해졌고, 정확한 로치 모델이 필요했다. 그러나 염기서열화 비용이 떨어지면서 염기서열화 프로젝트의 매개변수가 경험적으로 직접 테스트하기 쉬워졌고, 전략적 유전체학에 대한 관심과 자금 지원도 줄어들었다.
랜더-워터맨 이론의 기본 아이디어는 지도 제작 기법의 특정한 변화에 대한 많은 추가 결과를 가져왔다.[10][11][12] 그러나 기술 발전으로 지도화 이론은 고도로 연구된 모델 유기체(예: 효모, 파리, 쥐, 인간)가 아닌 유기체를 제외하고는 대부분 쓸모없게 되었다.
주차전략
순서를 정하는 주차 전략은 연석을 따라 차를 주차하는 과정과 유사하다. 각 자동차는 시퀀싱된 클론이며, 연석은 게놈 목표물이다.[13] 시퀀싱된 각 복제본을 선별하여 후속 시퀀싱된 복제본이 이전에 시퀀싱된 복제본을 겹치지 않도록 한다. 이 전략에서는 시퀀싱 작업이 중복되지 않는다. 그러나 주차된 차량 사이의 간격과 마찬가지로 시퀀싱되지 않은 간격은 시퀀싱된 클론 사이에 누적된 클론 길이보다 작다. 이런 격차를 해소하는 데는 상당한 비용이 들 수 있다.
페어 와이즈 엔드 시퀀싱
1995년에 로치 외 연구진은 시뮬레이션을 통해 Edwards와 Caskey가 앞서 탐구한 일련의 전략의 일반화를 제안하고 시연했다.[14][15] 이 전유전자 염기서열 분석법은 셀레라가 이를 인간 게놈에 적용하기 전에 셀레라에 의해 옹호되고 여러 모델 유기체의 염기서열을 분석하는 데 사용되면서 엄청난 인기를 얻게 되었다. 오늘날 대부분의 시퀀싱 프로젝트는 종종 페어링 엔드 시퀀싱이라고 불리는 이 전략을 채택한다.
포스트 휴먼 게놈 프로젝트 발전
DNA 염기서열의 물리적 프로세스와 프로토콜은 계속 진화해 왔으며, 주로 생물 화학적 방법, 계측, 자동화 기법의 진보에 의해 주도되었다. 현재 DNA 염기서열이 메타게노믹스와 의학(암) 염기서열화 등 도로 안에서의 광범위한 문제가 발생하고 있다. 이러한 시나리오에는 고전 이론이 설명하지 않는 중요한 요소들이 있다. 최근의 작업은 이러한 문제들 중 일부의 영향을 해결하는 데 초점을 맞추기 시작했다. 수학의 수준은 그에 비례하여 더 정교해진다.
대형 삽입 시퀀싱의 다양한 아티팩트
생물학자들은 매우 반복적이고 본질적으로 순서가 불가능한 유전체 영역을 필터링하는 방법을 개발했다. 이러한 절차들은 게놈들이 대부분 그러한 DNA로 구성되는 유기체들에게 중요하다. 예를 들어 옥수수와 같은. 그들은 수많은 작은 섬들의 연속적인 DNA 생성물을 생산한다. 웬들과 바르바주크는[16] 필터링과 소위 "에지 효과"로 인해 대상의 "갑"을 설명하기 위해 랜더-워터맨 이론에 대한 연장을 제안했다. 후자는 위치별 샘플링 바이어스로서, 예를 들어 단자 베이스 위치는 내부 의 L 스타일과 반대로 커버될 이 1/ G 스타일 1/에 불과하다. < 의 경우 고전적인 Lander-Waterman 이론은 여전히 좋은 예측을 제시하지만, 더 높은 중복성을 위해 역학적으로 변화한다.
현대적 시퀀싱 방법은 일반적으로 더 큰 파편의 양쪽 끝의 순서를 지정하는데, 이는 노보 조립체에 대한 연결 정보와 기준 시퀀스에 대한 정렬 확률을 향상시켜 준다. 연구원들은 일반적으로 긴 데이터 길이(읽기 길이)가 매우 큰 DNA 표적에 대한 성능을 향상시킨다고 믿는다. 이는 분포 모델의 예측과 일치한다.[17] 그러나 Wendl은[18] 작은 조각들이 선형 분자의 가장자리 효과를 줄이기 때문에 작고 선형적인 목표물에 더 나은 커버리지를 제공한다는 것을 보여주었다. 이러한 발견은 DNA 필터링 절차의 생산물의 염기서열화에 시사하는 바가 있다. 읽기-페어링과 단편적 크기는 분명히 거대하고 전유전자적인 클래스 목표치에 대해 무시할 수 있는 영향을 미친다.
개별 및 모집단 시퀀싱
예를 들어 암 연구에서 시퀀싱이 의학에서 중요한 도구로 떠오르고 있다. 여기서 이형 돌연변이를 감지하는 능력이 중요하며 이는 디플로이드 게놈의 염기서열을 획득해야만 가능하다. 개인 서열을 분석하기 위한 선구적인 노력에서,[19] 각각 크레이그 벤터와 짐 왓슨을 서열화한 [20]레비 외와 휠러 외는 게놈에서 두 개의 대립을 모두 다루는 모델을 개략적으로 설명했다. 웬델과 윌슨은[21] 각 대립과 임의의 플로이드를 임의의 숫자로 덮을 수 있는 보다 일반적인 이론을 따랐다. 이러한 결과는 그러한 프로젝트에 필요한 데이터의 양이 기존의 haploid 프로젝트보다 상당히 높다는 일반적인 결론을 지적한다. 일반적으로 최소 30배 이상의 중복성, 즉 평균 30회 시퀀스 판독으로 확장된 각 뉴클레오티드(nucleotide)가 현재 표준화되고 있다.[22] 그러나 어떤 게놈 이벤트를 발견하느냐에 따라 요건은 훨씬 더 커질 수 있다. 예를 들어, 소위 "불규칙한 읽기 쌍 방법"에서, 읽기 쌍 사이의 거리가 예상보다 큰 경우 DNA 삽입을 유추할 수 있다. 계산 결과 1% 임계값에서 거짓 양성 오류를 방지하려면 약 50배 이상의 중복이 필요한 것으로 나타났다.[23]
차세대 염기서열의 출현으로 대규모 인구 염기서열화(Genome) 프로젝트(예: 인구집단의 변화를 특징짓는 1000개 게놈 프로젝트)도 실현 가능해졌다. 일반적인 변동을 쉽게 포착할 수 있지만, 희귀한 변동은 설계 난제를 야기한다. 즉, 표본 그룹에 변종이 없는 유의미한 시퀀스 중복 위험을 가진 표본이 너무 적지만, 광중복 위험을 가진 대형 표본은 실제로 표본 그룹에 있는 읽기 집합에서 변종을 포착하지 못한다. Wendl과 Wilson은[24] 주어진 매개변수 집합에 대한 발견 확률을 최대화하는 간단한 최적화 규칙 집합을 보고한다. 예를 들어 희귀한 알레르기를 최소 두 번 이상 관찰(가능성을 제거하기 위해서는 표본 크기에 상관없이 4배 미만의 중복성을 사용해야 한다.
메타게놈 배열
차세대 계측기는 또한 현재 전체 미교육 메타게놈 커뮤니티의 염기서열을 가능하게 하고 있다. 시퀀싱 시나리오는 여기서 더 복잡하고 주어진 프로젝트에 대한 설계 이론을 구성하는 다양한 방법이 있다. 반면 Wendl(알. 평균 contig 크기나 완전히 사회에서 주어진 드문 소설 유기체가 회복되는 확률에 대한 분석 보고 예를 들어, Stanhope[25]순서의 양이 사회의 각 소설 유기체로부터 주어진 크기의 적어도 하나의 contig을 얻기 위하여 필요한 경우, 확률론적 모델을 발달시켰습니다.[26] 반대로 후퍼 외는 감마 분포에 기초한 반감광 모델을 제안한다.[27]
제한 사항
DNA 염기서열 이론은 종종 모형의 특정 무작위 변수가 독립적이고 동일한 분포라는 가정을 불러일으킨다. 예를 들어, Lander-Waterman 이론에서, 시퀀싱된 파편은 게놈의 각 영역을 커버할 확률은 동일하고 모든 파편은 서로 독립적이라고 가정한다. 실제로 시퀀싱 프로젝트는 복제 가능 영역의 차이, 시퀀싱 이상 징후, 대상 시퀀스(임의가 아닌)의 편향, 소프트웨어 의존 오류 및 편향 등 다양한 유형의 편향에 따라 달라진다. 일반적으로 이론은 잠재된 편견을 노출하기에 충분한 데이터가 생성되었다는 점까지 관찰에 잘 동의할 것이다.[21] 염기 대상 시퀀스와 관련된 편향의 종류는 시퀀스 자체를 선험적으로 알 수 없기 때문에 특히 모델링하기가 어렵다. 이것은 일종의 캐치-22 (논리) 문제를 나타낸다.
참고 항목
참조
- ^ Waterman, Michael S. (1995). Introduction to Computational Biology. Boca Raton: Chapman and Hall/CRC. ISBN 978-0-412-99391-6.
- ^ Hall, P. (1988). Introduction to the Theory of Coverage Processes. New York: Wiley. ISBN 978-0-471-85702-0.
- ^ Solomon, H. (1978). Geometric Probability. Philadelphia: Society for Industrial and Applied Mathematics. ISBN 978-0-898-71025-0.
- ^ a b Stevens WL (1939). "Solution to a Geometrical Problem in Probability". Annals of Eugenics. 9 (4): 315–320. doi:10.1111/j.1469-1809.1939.tb02216.x.
- ^ Clarke L, Carbon J (1976). "A colony bank containing synthetic Col-El hybrid plasmids representative of the entire E. coli genome". Cell. 9 (1): 91–99. doi:10.1016/0092-8674(76)90055-6. PMID 788919. S2CID 2535372.
- ^ Lander ES, Waterman MS (1988). "Genomic mapping by fingerprinting random clones: a mathematical analysis". Genomics. 2 (3): 231–239. doi:10.1016/0888-7543(88)90007-9. PMID 3294162.
- ^ Fleischmann RD; et al. (1995). "Whole-genome random sequencing and assembly of haemophilus influenzae Rd". Science. 269 (5223): 496–512. Bibcode:1995Sci...269..496F. doi:10.1126/science.7542800. PMID 7542800.
- ^ Roach JC (1995). "Random subcloning". Genome Research. 5 (5): 464–473. doi:10.1101/gr.5.5.464. PMID 8808467.
- ^ Wendl MC, Waterston RH (2002). "Generalized gap model for bacterial artificial chromosome clone fingerprint mapping and shotgun sequencing". Genome Research. 12 (12): 1943–1949. doi:10.1101/gr.655102. PMC 187573. PMID 12466299.
- ^ Arratia R; et al. (1991). "Genomic mapping by anchoring random clones: a mathematical analysis". Genomics. 11 (4): 806–827. CiteSeerX 10.1.1.80.8788. doi:10.1016/0888-7543(91)90004-X. PMID 1783390.
- ^ Port E; et al. (1995). "Genomic mapping by end-characterized random clones: a mathematical analysis". Genomics. 26 (1): 84–100. CiteSeerX 10.1.1.74.4380. doi:10.1016/0888-7543(95)80086-2. PMID 7782090.
- ^ Zhang MQ, Marr TG (1993). "Genome mapping by nonrandom anchoring: a discrete theoretical analysis". Proceedings of the National Academy of Sciences. 90 (2): 600–604. Bibcode:1993PNAS...90..600Z. doi:10.1073/pnas.90.2.600. PMC 45711. PMID 8421694.
- ^ Roach JC; et al. (2000). "Parking strategies for genome sequencing". Genome Research. 10 (7): 1020–1030. doi:10.1101/gr.10.7.1020. PMC 310895. PMID 10899151.
- ^ Roach JC, Boysen C, Wang K, Hood L (1995). "Pairwise end sequencing: a unified approach to genomic mapping and sequencing". Genomics. 26 (2): 345–353. doi:10.1016/0888-7543(95)80219-C. PMID 7601461.
{{cite journal}}: CS1 maint : 복수이름 : 작성자 목록(링크) - ^ Edwards, A.; Caskey, T. (1991). Closure strategies for random DNA sequencing. Vol. 3. A Companion to Methods in Enzymology. pp. 41–47.
- ^ Wendl MC, Barbazuk WB (2005). "Extension of Lander–Waterman Theory for sequencing filtered DNA libraries". BMC Bioinformatics. 6: article 245. doi:10.1186/1471-2105-6-245. PMC 1280921. PMID 16216129.
- ^ Wendl MC (2006). "Occupancy modeling of coverage distribution for whole genome shotgun DNA sequencing". Bulletin of Mathematical Biology. 68 (1): 179–196. doi:10.1007/s11538-005-9021-4. PMID 16794926. S2CID 23889071.
- ^ Wendl MC (2006). "A general coverage theory for shotgun DNA sequencing". Journal of Computational Biology. 13 (6): 1177–1196. doi:10.1089/cmb.2006.13.1177. PMID 16901236.
- ^ Levy S; et al. (2007). "The diploid genome sequence of an individual human". PLOS Biology. 5 (10): article e254. doi:10.1371/journal.pbio.0050254. PMC 1964779. PMID 17803354.
- ^ Wheeler DA; et al. (2008). "The complete genome of an individual by massively parallel DNA sequencing". Nature. 452 (7189): 872–876. Bibcode:2008Natur.452..872W. doi:10.1038/nature06884. PMID 18421352.
- ^ a b Wendl MC, Wilson RK (2008). "Aspects of coverage in medical DNA sequencing". BMC Bioinformatics. 9: article 239. doi:10.1186/1471-2105-9-239. PMC 2430974. PMID 18485222.
- ^ Ley TJ; et al. (2008). "DNA sequencing of a cytogenetically normal acute myeloid leukaemia genome". Nature. 456 (7218): 66–72. Bibcode:2008Natur.456...66L. doi:10.1038/nature07485. PMC 2603574. PMID 18987736.
- ^ Wendl MC, Wilson RK (2009). "Statistical aspects of discerning indel-type structural variation via DNA sequence alignment". BMC Genomics. 10: article 359. doi:10.1186/1471-2164-10-359. PMC 2748092. PMID 19656394.
- ^ Wendl MC, Wilson RK (2009). "The theory of discovering rare variants via DNA sequencing". BMC Genomics. 10: article 485. doi:10.1186/1471-2164-10-485. PMC 2778663. PMID 19843339.
- ^ Stanhope SA (2010). "Occupancy modeling maximum contig size probabilities and designing metagenomics experiments". PLOS ONE. 5 (7): article e11652. Bibcode:2010PLoSO...511652S. doi:10.1371/journal.pone.0011652. PMC 2912229. PMID 20686599.
- ^ Wendl MC; et al. (2012). "Coverage theories for metagenomic DNA sequencing based on a generalization of Stevens' theorem". Journal of Mathematical Biology. 67 (5): 1141–1161. doi:10.1007/s00285-012-0586-x. PMC 3795925. PMID 22965653.
- ^ Hooper SD; et al. (2010). "Estimating DNA coverage and abundance in metagenomes using a gamma approximation". Bioinformatics. 26 (3): 295–301. doi:10.1093/bioinformatics/btp687. PMC 2815663. PMID 20008478.