DNA 결합 부위

DNA binding site

DNA 결합 부위는 다른 분자들이 결합할 수 있는 DNA에서 발견되는 결합 부위의 일종이다.DNA 결합 부위는 (1) DNA 서열(예: 게놈)의 일부분이고 (2) DNA 결합 단백질에 의해 결합된다는 점에서 다른 결합 부위와 구별된다.DNA 결합 부위는 종종 전사 인자로 알려진 전문 단백질과 연관되어 있으며, 따라서 전사 조절과 관련이 있다.특정 전사 인자의 DNA 결합 부위의 합을 그 cistrome이라고 한다.DNA 결합 사이트는 또한 제한 효소, 사이트별 재조합(사이트별 재조합 참조), 메틸전달효소와 같은 다른 단백질의 표적을 포함한다.[1]null

따라서 DNA 결합 부위는 하나 이상의 DNA 결합 단백질 또는 단백질 복합체에 의해 구체적으로 결합되는 짧은 DNA 시퀀스(일반적으로 4~30 염기쌍 길이, 재결합 부위의 경우 최대 200bp)로 정의할 수 있다.일부 바인딩 사이트는 빠른 진화 변화를 겪을 가능성이 있는 것으로 보고되었다.[2]null

DNA 결합 부위의 유형

DNA 결합 부위는 생물학적 기능에 따라 분류할 수 있다.따라서 우리는 전사 인자 구속 사이트, 제한 사이트 및 재결합 사이트를 구별할 수 있다.일부 저자들은 바인딩 사이트도 가장 편리한 표현 방식에 따라 분류할 수 있다고 제안했다.[3]한편, 제한 사이트는 일반적으로 합의 순서에 의해 대표될 수 있다.이는 대부분 동일한 시퀀스를 대상으로 하며 덜 유사한 시퀀스에 대해 제한 효율성이 갑자기 감소하기 때문이다.한편, 주어진 전사 인자에 대한 DNA 결합 부위는 대개 모두 다르며, 서로 다른 결합 부지에 대한 전사 인자의 친화도 정도가 다르다.이로 인해 컨센서스 시퀀스를 사용하여 전사 계수 바인딩 사이트를 정확하게 나타내기 어렵고, 일반적으로 위치 특정 주파수 매트릭스(PSFM)를 사용하여 표시되는데, 이러한 매트릭스는 시퀀스 로고를 사용하여 그래픽으로 묘사되는 경우가 많다.그러나 이 주장은 부분적으로 자의적이다.제한 효소는 전사 인자와 마찬가지로 서로 다른 부지에 대해 날카롭지만 점진적인 범위의 친화력을 생성하므로 PSFM으로 가장 잘 표현된다.마찬가지로 현장 고유 재조합도 서로 다른 대상 사이트에 대해 다양한 범위의 친화력을 보여준다.[5][6]null

역사 및 주요 실험 기법

박테리오파지 람다[7] 생물학적 실험과 대장균 라크 피연산자의 조절에 관한 실험에서 DNA 결합 부위와 유사한 무언가의 존재가 의심되었다.[8]DNA 결합 부위는 DNA 염기서열 기법의 출현과 함께 마침내 두 시스템 모두에서 확인되었다.이때부터 많은 전사 인자, 제한 효소, 현장 고유 재조합에 대한 DNA 결합 부위가 풍부한 실험 방법을 사용하여 발견되었다.역사적으로, DNA 결합 사이트를 발견하고 분석하기 위한 실험 기법은 DNAse 발자국을 측정하는 분석과 EMSA(Electrophosetic Mobility Shift Assay)이다.그러나 DNA 마이크로레이와 빠른 시퀀싱 기법의 개발로 Chip Chip-Seq와 같은 결합 사이트의 생체내 식별을 위한 새롭고 대규모 병렬 방법이 개발되었다.[12]특정 DNA 결합 부위에 단백질과 다른 분자의 결합 친화력을[13] 정량화하기 위해 생체물리학적 방법인 마이크로스케일 열포레시스[14](Microphal Thermophoresis)를 사용한다.null

데이터베이스

바인딩 사이트를 결정하는 데 사용되는 실험 기법의 다양한 특성 및 대부분의 유기체 및 전사 요인의 패치 적용 범위 때문에 DNA 바인딩 사이트에 대한 중앙 데이터베이스(National Center for Biological Information)가 없다.NCBI는 기준 시퀀스(RefSeq)에서 DNA 결합 사이트 주석을 고려하지만, 대부분의 제출은 이 정보를 생략한다.더욱이 효율적인 DNA 결합 사이트 예측 도구(대부분의 거짓 양성률이 실리코 모티브 탐색/사이트 검색 방법과 관련되는 경우가 많다)를 생산하는 생물정보학의 제한적인 성공으로 인해 서열화된 게놈에서 이러한 특징들을 계산적으로 주석을 달려는 체계적인 노력이 없었다.null

그러나 실험적으로 보고되고 때로는 계산적으로 예측하여 서로 다른 유기체의 서로 다른 전사 인자에 대한 사이트를 결합하는 몇 개의 민간 및 공공 데이터베이스가 있다.다음은 사용 가능한 데이터베이스의 비소진 표입니다:

이름 유기체 출처 접근 URL
플랜트레그맵 165종의 식물(예: 아라비도피스 탈리아나, 오리자 사티바, 제아 메이 등)null 전문가 큐레이션 및 투영 공공의 [1]
재스퍼 척추동물, 식물, 곰팡이, 파리, 벌레 문헌 지원을 통한 전문가 큐레이션 공공의 [2]
CIS-BP 모든 유카리오테스 실험적으로 도출된 모티브와 예측 공공의 [3]
콜렉TF 원핵생물 문학 큐레이션 공공의 [4]
레그프레시즈 원핵생물 전문가 큐레이션 공공의 [5]
레그트랜스베이스 원핵생물 전문가/문학 큐레이션 공공의 [6]
레귤론DB 대장균 전문가 큐레이션 공공의 [7]
프로도리아어 원핵생물 전문가 큐레이션 공공의 [8]
수혈 포유류 전문가/문학 큐레이션 공용/개인용 [9]
TRED 인간, 쥐, 쥐 컴퓨터 예측, 수동 큐레이션 공공의 [10]
DBSD 드로소필라 종 문학/전문가 큐레이션 공공의 [11]
호코모코 휴먼, 마우스 문학/전문가 큐레이션 공공의 [12],[13]
메트모티프 휴먼, 마우스 전문가 큐레이션 공공의 [14]

DNA 결합 부위의 표현

일반적으로 DNA 결합 모티브라고 불리는 DNA 결합 부위의 집합은 일치된 순서에 의해 표현될 수 있다.이 표현은 작지만 상당한 양의 정보를 무시하는 비용을 부담하는 장점이 있다.[15]바인딩 사이트를 보다 정확하게 표현하는 방법은 위치별 주파수 매트릭스(PSFM)를 통해서이다.이러한 행렬은 DNA 결합 모티브의 각 위치에서 각 베이스의 빈도에 대한 정보를 제공한다.[3]PSFM은 일반적으로 위치 독립성에 대한 암묵적 가정(DNA 결합 현장의 서로 다른 위치가 현장 기능에 독립적으로 기여함)으로 구상되지만, 이 가정은 일부 DNA 결합 사이트에 대해 논란이 있었다.[16]PSFM의 주파수 정보는 정보 이론의 틀에서 공식적으로 해석될 수 있으며,[17] 시퀀스 로고로서 그래픽으로 표현된다.null

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 1 0 1 5 32 5 35 23 34 14 43 13 34 4 52 3
C 50 1 0 1 5 6 0 4 4 13 3 8 17 51 2 0
G 0 0 54 15 5 5 12 2 7 1 1 3 1 0 1 52
T 5 55 1 35 14 40 9 27 11 28 9 32 4 1 1 1
합계 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56 56

Prodoric에 저장된 56개의 LexA 바인딩 사이트에서 파생된 전사적 억제기 LexA의 PSFM.상대 주파수는 각 셀의 카운트를 총 카운트(56)로 나누어 얻는다.

바인딩 사이트 검색 및 검색

생물정보학에서는 알려진 DNA 결합 모티브(사이트 검색 문제)의 추가 구성원을 찾는 것과 기능적으로 연관된 시퀀스(시퀀스 모티브 검색 문제)의 모음에서 새로운 DNA 결합 모티브를 발견하는 것(시퀀스 모티브 검색 문제)이라는 두 가지 DNA 결합 사이트에 관한 문제를 구분할 수 있다.[18]바인딩 사이트를 검색하기 위해 다양한 방법이 제안되었다.대부분 정보이론의 원리에 의존해 이용 가능한 웹서버(엘라보이나)(Munch)를 보유하고 있는 반면, 다른 저자들은 인공신경망기계학습 방법에 의존해 왔다.[3][19][20]시퀀스 모티브 탐색에도 다양한 알고리즘이 이용 가능하다.이러한 방법은 일련의 시퀀스가 기능상의 이유로 결합 모티브를 공유한다는 가설에 의존한다.결합 모티브 발견 방법은 대략 열거적, 결정론적, 확률적으로 나눌 수 있다.[21]MEME[22] Consensus는 결정론적 최적화의 고전적인 사례인 반면, Gibbs sampler[24] DNA 결합 모티브 발견을 위한 순전히 확률적인 방법의 전통적인 구현이다.이러한 방법의 또 다른 예는 대칭이 있는 약한 TFBS 사이트로 집중된 SeSiMCMC이다[25].열거적 방법은 흔히 바인딩 사이트의 정규 표현 표현에 의존하지만, PSFM과 정보 이론 방법에 따른 공식 처리는 결정론적 방법과 확률론적 방법 모두에 대한 선택 표현이다.예를 들어 욕심 많은 최적화와 서브샘플링을 결합한 ChipMunk와[26] 같은 하이브리드 방식도 PSFM을 사용한다.최근의 염기서열 분석의 발전으로 DNA 결합 모티브 발견에 대한 비교 유전체학 접근법이 도입되었는데, 필로기브스가 이를 예시하고 있다.[27][28]null

결합 사이트 검색과 모티브 발견을 위한 더 복잡한 방법은 염기 쌓기와 DNA 염기 간의 다른 상호작용에 의존하지만, DNA의 결합 사이트에 일반적으로 사용할 수 있는 작은 표본 크기 때문에, 그 효율성은 여전히 완전히 이용되지 않는다.그러한 도구의 예는 ULPB이다[29].

참고 항목

참조

  1. ^ Halford E.S.; Marko J.F. (2004). "How do site-specific DNA-binding proteins find their targets?". Nucleic Acids Research. 32 (10): 3040–3052. doi:10.1093/nar/gkh624. PMC 434431. PMID 15178741.
  2. ^ Borneman, A.R.; Gianoulis, T.A.; Zhang, Z.D.; Yu, H.; Rozowsky, J.; Seringhaus, M.R.; Wang, L.Y.; Gerstein, M. & Snyder, M. (2007). "Divergence of transcription factor binding sites across related yeast species". Science. 317 (5839): 815–819. Bibcode:2007Sci...317..815B. doi:10.1126/science.1140748. PMID 17690298. S2CID 21535866.
  3. ^ a b c Stormo GD (2000). "DNA binding sites: representation and discovery". Bioinformatics. 16 (1): 16–23. doi:10.1093/bioinformatics/16.1.16. PMID 10812473.
  4. ^ Pingoud A, Jeltsch A (1997). "Recognition and Cleavage of DNA by Type-II Restriction Endonucleases". European Journal of Biochemistry. 246 (1): 1–22. doi:10.1111/j.1432-1033.1997.t01-6-00001.x. PMID 9210460.
  5. ^ Gyohda A, Komano T (2000). "Purification and characterization of the R64 shufflon-specific recombinase". Journal of Bacteriology. 182 (10): 2787–2792. doi:10.1128/JB.182.10.2787-2792.2000. PMC 101987. PMID 10781547.
  6. ^ Birge, E.A. (2006). "15: Site Specific Recombination". Bacterial and Bacteriophage Genetics (5th ed.). Springer. pp. 463–478. ISBN 978-0-387-23919-4.
  7. ^ Campbell A (1963). "Fine Structure Genetics and its Relation to Function". Annual Review of Microbiology. 17 (1): 2787–2792. doi:10.1146/annurev.mi.17.100163.000405. PMID 14145311.
  8. ^ Jacob F, Monod J (1961). "Genetic regulatory mechanisms in the synthesis of proteins". Journal of Molecular Biology. 3 (3): 318–356. doi:10.1016/S0022-2836(61)80072-7. PMID 13718526.
  9. ^ Gilbert W, Maxam A (1973). "The nucleotide sequence of the lac operator". Proceedings of the National Academy of Sciences of the United States of America. 70 (12): 3581–3584. Bibcode:1973PNAS...70.3581G. doi:10.1073/pnas.70.12.3581. PMC 427284. PMID 4587255.
  10. ^ Maniatis T, Ptashne M, Barrell BG, Donelson J (1974). "Sequence of a repressor-binding site in the DNA of bacteriophage lambda". Nature. 250 (465): 394–397. Bibcode:1974Natur.250..394M. doi:10.1038/250394a0. PMID 4854243. S2CID 4204720.
  11. ^ Nash H. A. (1975). "Integrative recombination of bacteriophage lambda DNA in vitro". Proceedings of the National Academy of Sciences of the United States of America. 72 (3): 1072–1076. Bibcode:1975PNAS...72.1072N. doi:10.1073/pnas.72.3.1072. PMC 432468. PMID 1055366.
  12. ^ Elnitski L, Jin VX, Farnham PJ, Jones SJ (2006). "Locating mammalian transcription factor binding sites: a survey of computational and experimental techniques". Genome Research. 16 (12): 1455–1464. doi:10.1101/gr.4140006. PMID 17053094.
  13. ^ Baaske P, Wienken CJ, Reineck P, Duhr S, Braun D (Feb 2010). "Optical Thermophoresis quantifies Buffer dependence of Aptamer Binding". Angew. Chem. Int. Ed. 49 (12): 2238–41. doi:10.1002/anie.200903998. PMID 20186894. S2CID 42489892. Lay summaryPhsyorg.com. {{cite journal}}:Cite는 사용되지 않는 매개 변수를 사용한다. lay-url=(도움말)
  14. ^ Wienken CJ; et al. (2010). "Protein-binding assays in biological liquids using microscale thermophoresis". Nature Communications. 1 (7): 100. Bibcode:2010NatCo...1..100W. doi:10.1038/ncomms1093. PMID 20981028.
  15. ^ Schneider T.D. (2002). "Consensus sequence Zen". Applied Bioinformatics. 1 (3): 111–119. PMC 1852464. PMID 15130839.
  16. ^ Bulyk M.L.; Johnson P.L.; Church G.M. (2002). "Nucleotides of transcription factor binding sites exert interdependent effects on the binding affinities of transcription factors". Nucleic Acids Research. 30 (5): 1255–1261. doi:10.1093/nar/30.5.1255. PMC 101241. PMID 11861919.
  17. ^ Schneider TD, Stormo GD, Gold L, Ehrenfeucht A (1986). "Information content of binding sites on nucleotide sequences". Journal of Molecular Biology. 188 (3): 415–431X. doi:10.1016/0022-2836(86)90165-8. PMID 3525846.
  18. ^ Erill I; O'Neill MC (2009). "A reexamination of information theory-based methods for DNA-binding site identification". BMC Bioinformatics. 10 (1): 57. doi:10.1186/1471-2105-10-57. PMC 2680408. PMID 19210776.
  19. ^ Bisant D, Maizel J (1995). "Identification of ribosome binding sites in Escherichia coli using neural network models". Nucleic Acids Research. 23 (9): 1632–1639. doi:10.1093/nar/23.9.1632. PMC 306908. PMID 7784221.
  20. ^ O'Neill M.C. (1991). "Training back-propagation neural networks to define and detect DNA-binding sites". Nucleic Acids Research. 19 (2): 133–318. doi:10.1093/nar/19.2.313. PMC 333596. PMID 2014171.
  21. ^ Bailey T.L. (2008). "Discovering sequence motifs". Bioinformatics (PDF). Methods in Molecular Biology. Vol. 452. pp. 231–251. doi:10.1007/978-1-60327-159-2_12. ISBN 978-1-58829-707-5. PMID 18566768.
  22. ^ Bailey T.L. (2002). "Discovering novel sequence motifs with MEME". Current Protocols in Bioinformatics. 2 (4): 2.4.1–2.4.35. doi:10.1002/0471250953.bi0204s00. PMID 18792935. S2CID 205157795.
  23. ^ Stormo GD, Hartzell GW 3rd (1989). "Identifying protein-binding sites from unaligned DNA fragments". Proceedings of the National Academy of Sciences of the United States of America. 86 (4): 1183–1187. Bibcode:1989PNAS...86.1183S. doi:10.1073/pnas.86.4.1183. PMC 286650. PMID 2919167.
  24. ^ Lawrence CE, Altschul SF, Boguski MS, Liu JS, Neuwald AF, Wootton JC (1993). "Detecting subtle sequence signals: a Gibbs sampling strategy for multiple alignment". Science. 262 (5131): 208–214. Bibcode:1993Sci...262..208L. doi:10.1126/science.8211139. PMID 8211139. S2CID 3040614.
  25. ^ Favorov, A V; M S Gelfand; A V Gerasimova; D A Ravcheev; A A Mironov; V J Makeev (2005-05-15). "A Gibbs sampler for identification of symmetrically structured, spaced DNA motifs with improved estimation of the signal length". Bioinformatics. 21 (10): 2240–2245. doi:10.1093/bioinformatics/bti336. ISSN 1367-4803. PMID 15728117.
  26. ^ Kulakovskiy, I V; V A Boeva; A V Favorov; V J Makeev (2010-08-24). "Deep and wide digging for binding motifs in ChIP-Seq data". Bioinformatics. 26 (20): 2622–3. doi:10.1093/bioinformatics/btq488. ISSN 1367-4811. PMID 20736340.
  27. ^ Das MK, Dai HK (2007). "A survey of DNA motif finding algorithms". BMC Bioinformatics. 8 (Suppl 7): S21. doi:10.1186/1471-2105-8-S7-S21. PMC 2099490. PMID 18047721.
  28. ^ Siddharthan R, Siggia ED, van Nimwegen E (2005). "PhyloGibbs: A Gibbs sampling motif finder that incorporates phylogeny". PLOS Comput Biol. 1 (7): e67. Bibcode:2005PLSCB...1...67S. doi:10.1371/journal.pcbi.0010067. PMC 1309704. PMID 16477324.
  29. ^ Salama RA, Stekel DJ (2010). "Inclusion of neighboring base interdependencies substantially improves genome-wide prokaryotic transcription factor binding site prediction". Nucleic Acids Research. 38 (12): e135. doi:10.1093/nar/gkq274. PMC 2896541. PMID 20439311.

외부 링크