패턴헌터

PatternHunter

패턴헌터시퀀스 정렬 기법을 사용하는 상용화된 호몰로지 검색 도구 소프트웨어다.그것은 세 명의 과학자들에 의해 2002년에 처음 개발되었다.빈마, 존 트램, 명리.[1]: 440 이 과학자들은 유전체학프로테오노믹스를 포함하는 연구 중에 많은 연구자들이 직면하는 문제를 해결하고자 하는 열망에 의해 추진되었다.이 과학자들은 그러한 연구들이 이후에 길어진 짧은 씨앗 일치들을 확립하는 동종학 연구에 크게 의존하고 있다는 것을 깨달았다.동질 유전자를 기술하는 것은 대부분의 진화적 연구에서 필수적인 부분이었고 유전자 가족의 진화, 영역과 가족의 관계에 대한 이해에 결정적이었다.[2]: 7 호몰로겐 유전자는 두 단백질이나 핵산 염기서열 사이에 부분이나 국소적 위치처럼 형성된 검색 도구를 통해서만 효과적으로 연구될 수 있었다.[3]: 15 동질학은 일치하는 순서인 "mismatch and 갭 점수"[4]: 164 에서 얻은 점수로 정량화되었다.

개발

예를 들어 비교 유전체학에서는 인간 게놈에서 발견되는 것과 같은 거대한 염색체를 비교할 필요가 있다.그러나 게놈 데이터의 엄청난 확장은 가능한 동종학 검색을 수행하는 방법에 곤란을 초래한다.예를 들어 씨앗 크기를 늘리면 감도가 낮아지는 반면 씨앗 크기를 줄이면 계산 속도가 줄어든다.유전자 간의 동질성을 판단하기 위해 몇 가지 시퀀스 정렬 프로그램이 개발되었다.여기에는 FASTA, 블라스트 계열, QUASAR, MUMMER, SENSEI, SIM, REPUTER 등이 포함된다.[1]: 440 다른 베이스와 베이스를 비교하는 스미스-워터맨 정렬 기술을 주로 사용하지만 너무 느리다.블라스트는 나중에 결합하여 더 긴 정렬을 형성하는 간단하고 정확한 시드 매치를 설정하여 이 기술을 개선한다.[5]: 737 그러나 긴 시퀀스를 다룰 때는 위에서 언급한 기법이 극도로 부진하여 상당한 메모리 크기를 필요로 한다.그러나 SENSI는 다른 방법보다 효율이 높지만, 그 강점이 가압되지 않은 정렬을 처리하는 데 있기 때문에 다른 형태의 정렬에서는 무능하다.반면 메가라스트의 생산품질은 품질이 떨어져 대형 시퀀스에 잘 적응하지 못한다.MUMMER와 QUASAR과 같은 기술은 접미사 트리를 채용하는데, 이 트리는 정확한 일치를 다루어야 한다.그러나 이러한 방법은 높은 유사성을 보이는 시퀀스의 비교에만 적용할 수 있다.위에서 언급한 모든 문제들은 컴퓨터에 너무 많은 자원을 소비하지 않고도 모든 종류의 시퀀스를 효율적으로 처리할 수 있는 빠르고 신뢰할 수 있는 도구의 개발이 필요하다.

접근하다

패턴헌터는 그 사이에 최적의 간격을 두고 수많은 씨앗(티니 검색 문자열)을 활용한다.종자를 채용하는 검색은 히트가 확립된 장소에서만 동질성을 결정하기 때문에 매우 빠르다.검색 문자열의 민감도는 인접한 문자열 사이의 공간의 양에 의해 크게 영향을 받는다.큰 씨앗은 고립된 호몰로지를 찾을 수 없는 반면 작은 씨앗은 계산을 지연시키는 수많은 임의의 히트를 생성한다.패턴헌터는 검색 문자열 사이에 최적의 간격을 제공함으로써 이 영역에서 미묘한 균형을 이룬다.대체 k(k = 11)자를 씨앗으로 사용하는데, 이는 연속 k자를 씨앗으로 활용하는 블라스트와 대조적이다.패턴의 첫 단계헌터 분석은 프로그램이 가장 유리한 패턴으로 표시된 k개의 교대점에서 성냥을 찾는 필터링 단계를 수반한다.[6]: 11 두 번째 단계는 LOAST와 동일한 정렬 단계다.또한 패턴으로 한 번에 두 개 이상의 시드를 사용할 수 있다.헌터. 이것은 공구의 속도를 방해하지 않고 공구의 감도를 높인다.

속도

패턴헌터는 모든 유형의 시퀀스를 분석하는 데 짧은 시간이 걸린다.현대의 컴퓨터에서는 원핵 유전자를 처리하는 데 몇 초, 아라비도시스 탈리아나 염기서열을 처리하는 데 몇 분, 그리고 인간 염색체를 처리하는 데 몇 시간이 걸릴 수 있다.[1]: 440 다른 도구와 비교할 때 패턴헌터는 블라스트와 메가 블라스트보다 약 100배 빠른 속도를 보인다.[7]이 속도는 스미스-워터맨 알고리즘에서 얻은 속도보다 3000배 높다.또한 이 프로그램은 검색 매개변수를 사용자 정의할 수 있는 사용자 친화적인 인터페이스를 가지고 있다.

민감도

민감도 측면에서 패턴으로 최적의 민감도를 얻을 수 있다.기존 블라스트 검색과 동일한 속도를 유지하면서도 사냥꾼

사양

패턴의 디자인헌터는 자바 기술을 사용한다.결과적으로, 이 프로그램은 Java 1.4 환경에 설치되었을 때 원활하게 실행된다.[7]

미래 진척도

호몰로지 검색은 시간이 많이 걸리는 매우 긴 절차다.방대한 데이터베이스 크기와 사용되는 작은 질의 때문에 번역된 DNA-단백질 검색뿐만 아니라 DNA-DNA 검색 처리에도 여전히 어려움이 남아 있다.패턴Hunter가 업그레이드된 패턴으로 개선됨DNA-단백질을 100배 더 빨리 찾아내는 헌터2 버전.그러나 패턴 개선 계획은 있다.VOLAST 페이스를 얻는 동시에 Smith - Waterman 도구의 높은 감도를 획득하는 헌터.패턴을 번역한 소설tBLASTx를 재촉하려는 헌터도 개발 단계에 있다.[4]: 174

참조

  1. ^ a b c Ma, Bin; Tromp, John; Li, Ming (2002). "PatternHunter: Faster and More Sensitive Homology Search". Bioinformatics. 18 (2): 440–445. doi:10.1093/bioinformatics/18.3.440. PMID 11934743.
  2. ^ Joseph, Jacob M. (2012). On the identification and investigation of homologous gene families, with particular emphasis on the accuracy of multidomain families (PDF) (PhD). Carnegie Mellon University.
  3. ^ Pevsner, Jonathan (2009). Bioinformatics and Functional Genomics (2nd ed.). New Jersey: Wiley Blackwell. ISBN 9780470451489.
  4. ^ a b Li, M.; Ma, B.; Kisman, D.; Tromp, J. (2003). "PatternHunter II: Highly sensitive and fast homology search". Genome Informatics. International Conference on Genome Informatics. 14: 164–175. PMID 15706531.
  5. ^ Pearson, W. R. (1991). "Searching protein sequence libraries: Comparison of the sensitivity and selectivity of the Smith-Waterman and FASTA algorithms". Genomics. 11 (3): 635–650. doi:10.1016/0888-7543(91)90071-L. PMID 1774068.
  6. ^ Zhang, Louxin. "Sequence Database Search Techniques I: Blast and PatternHunter tools" (PDF). Retrieved 6 December 2013.
  7. ^ a b "PatternHunter Brochure" (PDF). Archived from the original (PDF) on 11 December 2013. Retrieved 30 November 2013.