위치 가중치 매트릭스

Position weight matrix
PWM은 종종 시퀀스 로고로 그래픽으로 표시됩니다.

위치추적행렬(PWM)위치추적행렬(PSWM) 또는 위치추적행렬(PSSM)이라고도 하며 일반적으로 사용되는 모티브(패턴)의 생물학적 표현이다.

PWM은 종종 기능적으로 관련이 있다고 생각되는 일련의 정렬된 시퀀스에서 파생되며, 계산 모티브를 발견하기 위한 많은 소프트웨어 도구의 중요한 부분이 되었습니다.

배경

창조.

시퀀스를 위치 확률 행렬로 변환

PWM은 알파벳 기호별로 1열(DNA 배열뉴클레오티드는 4열, 단백질 배열아미노산은 20열) 및 패턴의 각 위치별로 1열을 가진다.PWM을 구성하는 첫 번째 단계에서는 각 위치에서 각 뉴클레오티드의 발생을 계수함으로써 기본위치주파수행렬(PFM)을 작성한다.이제 PFM에서 각 위치의 이전 뉴클레오티드 카운트를 배열 수로 나누어 값을 정규화함으로써 위치확률행렬(PPM)을 생성할 수 있다.공식적으로, 길이 l의 N개의 정렬된 시퀀스의 집합 X가 주어지면, PPM M의 요소는 다음과 같이 계산된다.

여기서 i { (1, ..., N), j { (1, ...,l), k는 알파벳 기호 집합이고 I(a=k)는 a=k이면 1이고 그렇지 않으면 0인 지시 함수입니다.

예를 들어, 다음과 같은 DNA 시퀀스가 지정됩니다.

가그타악
TCGTAGT
카게토카
ACAGTCAGT
태그 부착
태그
동작
카게타쿠
TGT GAGT
AAGTAGT

대응하는 PFM은 다음과 같습니다.

따라서 결과 PPM은 다음과 같습니다.[1]

각 위치의 확률은 다른 위치와 독립적으로 계산되므로 PPM과 PWM 모두 패턴 내의 위치 간에 통계적 독립성을 가정합니다.위의 정의에서 특정 위치의 값(즉, 모든 심볼에 대한 합)의 합은 1이 됩니다.따라서 각 열은 독립적인 다항 분포로 간주할 수 있습니다.따라서 각 위치에서 관련 확률을 곱하여 PPM이 주어진 시퀀스의 확률을 쉽게 계산할 수 있습니다.예를 들어, 시퀀스 S =의 확률입니다.PPM M이 주어진 GAGGTAAAC는 다음과 같이 계산할 수 있다.

PPM을 계산할 때 값이 [2]0인 매트릭스 엔트리를 피하기 위해 의사 카운트(또는 Laplace Estimator)가 적용되는 경우가 많습니다.이는 PPM의 각 열에 디리클레 분포를 곱하는 것과 같으며 새로운 시퀀스(즉, 원래 데이터 세트의 일부가 아닌 시퀀스)에 대한 확률을 계산할 수 있습니다.위의 예에서 의사 카운트가 없는 경우, 4번째 위치에 G 또는 5번째 위치에 T가 없는 시퀀스는 다른 위치에 관계없이 0의 확률을 가집니다.

위치 확률 행렬을 위치 가중치 행렬로 변환

대부분의 경우 PWM의 요소는 로그 우도로 계산됩니다.즉, PPM 요소는 다음과 같이 배경 bb를 사용하여 변환됩니다.

PWM(왼쪽) M , \ 의 계산 방법을 나타냅니다.가장 간단한 배경 모델에서는 각 문자가 데이터 세트에 균등하게 자주 나타나는 것으로 가정합니다.즉, 알파벳의 모든 기호(뉴클레오티드는 0.25, 아미노산은 0.05)에 대한 k / }= k}의 값이다.이 변환을 위에서 PPM M에 적용하면(의사 카운트가 추가되지 않음) 다음과 같은 결과를 얻을 수 있습니다.

매트릭스 내의 - \ \ 엔트리는 특히 작은 데이터 세트를 사용하여 M을 구성할 때 의사 마운트를 추가하는 이점을 명확히 합니다.배경 모델은 각 기호에 대해 동일한 값을 가질 필요가 없습니다. 예를 들어 GC 함량이 높은 유기체를 연구할 때 C와 G의 A와 T의 에 상응하는 감소와 함께 증가할 수 있습니다.

로그 우도를 사용하여 PWM 요소를 계산하는 경우, PWM의 각 위치에서 관련 값을 곱하는 것이 아니라 더하여 시퀀스의 점수를 계산할 수 있습니다.시퀀스 점수는 시퀀스가 랜덤시퀀스와 얼마나 다른지를 나타냅니다.시퀀스가 기능 부위가 될 확률과 랜덤 부위가 될 확률이 같으면 점수는 0입니다.랜덤 사이트보다 기능 사이트일 가능성이 높은 경우 점수가 0보다 크고 기능 [1]사이트보다 랜덤 사이트일 가능성이 높은 경우 점수가 0보다 작습니다.시퀀스 점수는 물리적 프레임워크에서 해당 시퀀스의 결합 에너지로 해석될 수도 있습니다.

정보 내용

PWM의 정보 내용(IC)은 특정 PWM이 균일한 분포와 얼마나 다른지 알려주기 때문에 때때로 관심을 끌기도 합니다.

모티브의 특정 위치에서 특정 기호를 관찰하는 자가 정보는 다음과 같습니다.

PWM의 특정 요소에 대한 예상(평균) 자체 정보는 다음과 같습니다.

마지막으로, PWM의 IC는 모든 요소의 예상 자기 정보의 합입니다.

종종, 그것은 너보다는 각 문자 같은 확률(예:가정해 공부하고 있는 시퀀스의 배경 편지 주파수와 정보 내용을 계산하는데 그 GC-content DNA고온성균 범위의 65.370.8,[3]까지 따라서 ATAT의 모티프 CCGG의 주제보다 훨씬 많은 정보가 포함된 유용하다.cm이다.정보 내용에 대한 방정식은 다음과 같이 됩니다.

서 pj {\는 문자j {\ j 배경 빈도입니다.이는 Kullback-Leibler 발산 또는 상대적 엔트로피에 해당합니다.그러나 PSSM을 사용하여 게놈 염기서열을 탐색할 때(아래 참조) 이러한 균일한 보정은 실제 게놈에서 n-mer의 불균일한 분포로 인해 모티브에서 서로 다른 염기의 중요성을 과대평가하여 상당히 많은 수의 잘못된 [4]양성으로 이어질 수 있는 것으로 나타났다.

사용하다

시퀀스의 PWM 히트 스캔에는 다양한 알고리즘이 있습니다.예를 들어 ModuleMaster에 [6]실장되어 있는MATCH[5] 알고리즘이 있습니다.포섬서치 소프트웨어에는 [7]아미노산 PWM/PSSM뿐만 아니라 뉴클레오티드에 의한 신속한 데이터베이스 검색을 위한 보다 정교한 알고리즘이 구현되어 있다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b Guigo, Roderic. "An Introduction to Position Specific Scoring Matrices". bioinformatica.upf.edu. Retrieved 12 November 2013.
  2. ^ Nishida, K.; Frith, M. C.; Nakai, K. (23 December 2008). "Pseudocounts for transcription factor binding sites". Nucleic Acids Research. 37 (3): 939–944. doi:10.1093/nar/gkn1019. PMC 2647310. PMID 19106141.
  3. ^ Aleksandrushkina NI, Egorova LA (1978). "Nucleotide makeup of the DNA of thermophilic bacteria of the genus Thermus". Mikrobiologiia. 47 (2): 250–2. PMID 661633.
  4. ^ Erill I, O'Neill MC (2009). "A reexamination of information theory-based methods for DNA-binding site identification". BMC Bioinformatics. 10: 57. doi:10.1186/1471-2105-10-57. PMC 2680408. PMID 19210776.
  5. ^ Kel AE, et al. (2003). "MATCHTM: a tool for searching transcription factor binding sites in DNA sequences". Nucleic Acids Research. 31 (13): 3576–3579. doi:10.1093/nar/gkg585. PMC 169193. PMID 12824369.
  6. ^ Wrzodek, Clemens; Schröder, Adrian; Dräger, Andreas; Wanke, Dierk; Berendzen, Kenneth W.; Kronfeld, Marcel; Harter, Klaus; Zell, Andreas (9 October 2009). "ModuleMaster: A new tool to decipher transcriptional regulatory networks". Biosystems. 99 (1): 79–81. doi:10.1016/j.biosystems.2009.09.005. ISSN 0303-2647. PMID 19819296.
  7. ^ Beckstette, M.; et al. (2006). "Fast index based algorithms and software for matching position specific scoring matrices". BMC Bioinformatics. 7: 389. doi:10.1186/1471-2105-7-389. PMC 1635428. PMID 16930469.

외부 링크

  • 3PFDB – 새로운 데이터 마이닝 접근방식을 사용하여 생성된 단백질 패밀리의 가장 대표적인 PSSM 프로파일(BRP) 데이터베이스.
  • UGENE – PSS 매트릭스 설계, JASPAR, UniPROBE 및 SITECON 데이터베이스에 대한 통합 인터페이스.