HH-suite
HH-suite![]() |
개발자 | 요하네스 소딩, 마이클 렘메르트, 안드레아스 비게르트, 안드레아스 하우저, 마커스 마이어, 마틴 스티네거 |
---|---|
안정적 해제 | 3.3.0 / 2020년 8월 25일 |
리포지토리 | |
기록 위치 | C++ |
운영 체제 | Unix 유사, Debian 패키지 이용[1] 가능 |
다음에서 사용 가능 | 영어 |
유형 | 생물정보학 도구 |
면허증 | GPL v3 |
웹사이트 | https://github.com/soedinglab/hh-suite |
HH-suite는 민감한 단백질 시퀀스 검색을 위한 오픈 소스 소프트웨어 패키지다.그것은 단백질 시퀀스 데이터베이스에서 유사한 단백질 시퀀스를 검색할 수 있는 프로그램을 포함하고 있다.시퀀스 검색은 알려지지 않은 단백질의 기능을 유사한 시퀀스를 가진 단백질의 기능에서 유추할 수 있는 현대 생물학의 표준 도구다.HHsearch와 HHblits는 패키지의 두 가지 주요 프로그램이며 검색 기능의 진입점이며, 후자는 더 빠른 반복이다.[2][3]HHpred는 HH-suite의 호몰로지 정보를 이용하는 단백질 구조 예측용 온라인 서버다.[4]
HH-suite는 숨겨진 마르코프 모델(HM)을 사용하여 시퀀스를 검색한다.그 이름은 HMM-HM 얼라인먼트를 수행한다는 사실에서 유래되었다.가장 인기 있는 단백질 시퀀스 매칭 방법 중, 구글 스콜라에 따르면, 이 프로그램들은 총 5000배 이상 인용되었다고 한다.[5]
배경
단백질은 생명체의 모든 과정에서 중요한 역할을 한다.그것들을 이해하는 것은 세포의 분자 과정을 이해하는 데 있어 핵심이다.이것은 질병의 기원을 이해하기 위해 특히 중요하다.그러나 약 20,000개의 인간 단백질 중 많은 부분에 대해 구조와 기능은 알려지지 않은 채로 남아 있다.많은 박테리아, 제빵사의 효모, 과일 파리, 얼룩말 물고기 또는 생쥐와 같은 모델 유기체에서 많은 단백질이 조사되어 왔으며, 실험은 종종 인간 세포보다 더 쉽게 이루어질 수 있다.아미노산의 염기서열만 알려진 단백질의 기능, 구조 또는 기타 특성을 예측하기 위해, 단백질 염기서열은 공공 데이터베이스에 있는 다른 단백질의 염기서열과 비교된다.만약 충분히 유사한 염기서열을 가진 단백질이 발견된다면, 이 두 단백질은 진화적으로 관련이 있을 가능성이 있다("동음이의").그 경우, 그들은 유사한 구조와 기능을 공유할 가능성이 있다.따라서 시퀀스가 충분히 유사하고 함수나 구조가 알려진 단백질을 시퀀스 검색으로 찾을 수 있다면 알려지지 않은 단백질의 기능, 구조, 도메인 구성 등을 예측할 수 있다.그러한 예측은 표적 검증 실험에 의한 기능이나 구조의 결정을 크게 용이하게 한다.
시퀀스 검색은 생물학자들이 그 시퀀스로부터 알려지지 않은 단백질의 기능을 유추하기 위해 자주 행해진다.이를 위해, 단백질의 순서는 공공 데이터베이스에 있는 다른 단백질의 순서와 비교되며, 그 기능은 가장 유사한 순서의 순서에서 추론된다.종종 주석을 단 함수가 있는 시퀀스는 이러한 검색에서 찾을 수 없다.이 경우 더 원격으로 관련되는 단백질이나 단백질 계열을 식별하기 위해서는 보다 민감한 방법이 필요하다.이러한 관계로부터 단백질의 기능, 구조, 도메인 구성에 대한 가설을 유추할 수 있다.HHsearch는 데이터베이스를 통해 단백질 시퀀스로 검색을 수행한다.HHPred 서버와 HH-suite 소프트웨어 패키지는 InterPro, Pfam, COG, SCOP 데이터베이스뿐만 아니라 단백질 데이터 뱅크와 같이 정기적으로 업데이트되는 많은 인기 있는 데이터베이스를 제공한다.
알고리즘.
단백질 탐색을 위한 현대적인 민감한 방법들은 시퀀스 프로파일을 이용한다.그것들은 프로파일 또는 HH-suite와 같은 좀 더 발전된 경우에 프로파일 간에 일치하도록 시퀀스를 비교하는 데 사용될 수 있다.[2][6][7][8]프로필과 맞춤은 PSI-BLAST 또는 HHBLIT와 같은 일치 항목에서 파생된다.위치별 점수 매트릭스(PSSM) 프로파일은 조회 시퀀스의 각 위치에 대해 20개의 아미노산에 대한 유사성 점수를 포함한다.프로파일은 관련 단백질이 함께 쓰여지는 다중 시퀀스 정렬(MSA)에서 파생되어 각 위치의 아미노산 주파수를 새로운 관련 단백질 내 아미노산 확률로 해석할 수 있으며, "유사성 점수"를 도출하는 데 사용할 수 있다.프로필은 단일 시퀀스(예: 위치별 보존 정도)보다 훨씬 더 많은 정보를 포함하기 때문에 프로필 비교 방법은 VOLAST와 같은 시퀀스 비교 방법이나 PSI-BLAST와 같은 프로필 순서 비교 방법보다 훨씬 더 강력하다.[6]
HHPred와 HHsearch는 위치별 아미노산 삽입 및 삭제 빈도를 기록하는 PSSM 시퀀스 프로파일의 확장인 프로파일 HMs(Hidden Markov model)에 의한 질의 및 데이터베이스 단백질을 나타낸다.HHsearch는 HMM의 데이터베이스를 쿼리 HMM으로 검색한다. HHsearch/HHPred는 HHBlits 프로그램을 사용하여 쿼리 순서/MSA와 관련된 시퀀스의 다중 시퀀스 정렬을 구축한다.이 정렬에서 종단 HMM이 계산된다.데이터베이스에는 PSI-BLAST를 사용하여 동일한 방식으로 사전 계산된 HMM이 포함되어 있다.HHpred와 HHsearch의 출력은 데이터베이스 일치 항목(실제 관계에 대한 E-값 및 확률 포함)과 쌍방향 쿼리-데이터베이스 시퀀스 정렬의 순위 목록이다.
2001년 이후 HH-suite의 일부인 HH-blits는 단일 질의 시퀀스 또는 MSA로부터 고품질 다중 시퀀스 정렬(MSA)을 구축하며 PSI-BLAST에서와 마찬가지로 반복적으로 작동하며 이전 라운드에서 발견된 결과를 추가해 새로운 질의 프로필을 반복적으로 구성한다.단백질 시퀀스 데이터베이스에서 도출된 사전 구축된 HMM 데이터베이스와 일치하며, 각각 관련 단백질의 "클러스터"를 나타낸다.HHBlits의 경우 그러한 일치는 HMM-HM 프로필 수준에서 이루어지며, 이는 추가적인 민감도를 부여한다.이 프리필터는 수천만 HMM을 수천 MHM과 비교하는 것을 줄여, 느린 HMM-HM 비교 과정을 가속화한다.[3]
HH-suite에는 HHblits 및 HHsearch를 사용하여 검색할 수 있는 많은 사전 구축 프로필 HMH가 제공되며, 그 중 알려진 구조를 가진 단백질 데이터 뱅크의 클러스터 버전, Pfam 단백질 제품군 정렬, SCOP 구조 단백질 도메인 등의 다양한 버전이 포함되어 있다.[9]
적용들
HHPred와 HHsearch의 적용은 단백질 구조 예측, 복합구조 예측, 기능 예측, 도메인 예측, 도메인 경계 예측, 단백질의 진화 분류 등이다.[10]
HHsearch는 흔히 호몰로지 모델링, 즉 순서만 알려진 질의 단백질 구조의 모델을 구축하기 위해 사용된다. 이를 위해 단백질 데이터 뱅크와 같이 알려진 구조를 가진 단백질의 데이터베이스는 질의 단백질과 유사한 "템플릿" 단백질을 검색한다.그러한 템플릿 단백질이 발견될 경우, 쿼리와 템플릿 단백질 시퀀스의 쌍방향 시퀀스 정렬을 기반으로 관심 단백질의 구조를 예측할 수 있다.예를 들어, 해결된 3D 구조를 가진 단백질의 PDB 데이터베이스를 통한 검색은 몇 분이 걸린다.PDB 데이터베이스에서 알려진 구조의 단백질("템플릿")과 유의미한 일치가 발견될 경우, HHpred는 사용자가 쌍방향 쿼리-템플릿 정렬부터 시작하여 MODELLER 소프트웨어를 사용한 호몰로지 모델을 구축할 수 있도록 한다.
HHPred 서버는 블라인드 단백질 구조 예측 실험에서 CASP7, 8, 9에서 가장 우수한 서버에 선정되었다.CASP9에서는 참여형 자동구조[11] 예측서버 81개 중 템플릿 기반 모델링에서 HHPredA, B, C가 1, 2, 3위를 차지했고, 147개 대상 모두에서 6, 7, 8위를 차지해 베스트 20 서버보다 훨씬 빠른 속도를 보였다.[12]CASP8에서는 HHPred가 전체 대상 7위, 단일 도메인 단백질의 서브셋 2위에 랭크된 반면, 여전히 상위권 서버보다 50배 이상 빠르다.[4]
내용물
HH-suite에는 HHsearch 및 HHblits 외에도 포맷 변환, MSA 필터링, 프로필 HMM 생성, MSA에 이차 구조 예측 추가, 프로그램 출력에서 선형 추출, 맞춤형 데이터베이스 생성을 위한 프로그램 및 perl 스크립트가 포함되어 있다.
허블릿 | (반복적으로) 쿼리 시퀀스 또는 MSA를 사용하여 HHBlits 데이터베이스를 검색 |
---|---|
hhsearch | MSA 또는 HMM 쿼리를 사용하여 HHS 검색 데이터베이스 검색 |
hhmake | 입력 MSA에서 HMM 구축 |
히필터 | 최대 시퀀스 ID, 범위 및 기타 기준에 따라 MSA 필터링 |
할린 | 두 개의 HMM/MSA에 대한 쌍방향 선형, 점 그림 등 계산 |
재포맷하다텀블링하다 | 하나 이상의 MSA 다시 포맷 |
addss.pl | MSA 또는 HHM 파일에 Psipred 예측 2차 구조 추가 |
하마케모델텀블링하다 | HHsearch 또는 HHblits 결과에서 MSA 또는 거친 3D 모델 생성 |
hhblitsdb.텀블링하다 | 사전 필터링, 패키징된 MSA/HM 및 인덱스 파일을 사용하여 HHBlits 데이터베이스 구축 |
multithread.pl | 여러 스레드를 사용하여 여러 파일에 대해 병렬로 명령 실행 |
splitfasta.pl | 다중 시퀀스 FASTA 파일을 여러 단일 시퀀스 파일로 분할 |
renumberpdb.pl | 입력 시퀀스 인덱스와 일치하도록 인덱스가 다시 번호가 매겨진 PDB 파일 |
HH-suite 버전 3의 벡터 지침을 사용하여 HHblits와 HHSearch의 HMM-HM 정렬 알고리즘이 상당히 가속화되었다.[13]
참고 항목
- 시퀀스 정렬 소프트웨어
- 단백질 구조 예측
- 포지션별 점수 매트릭스
- 다중 시퀀스 정렬
- CASP - 단백질 구조 예측 기법의 중요도 평가
- 블라스트(기본 로컬 정렬 검색 도구)
- 컨텍스트별 블라스트(CS-BLAST)
참조
- ^ 데비안 hsuite 패키지
- ^ a b Söding J (2005). "Protein homology detection by HMM-HMM comparison". Bioinformatics. 21 (7): 951–960. doi:10.1093/bioinformatics/bti125. PMID 15531603.
- ^ a b Remmert M, Biegert A, Hauser A, Söding J (2011). "HHblits: Lightning-fast iterative protein sequence searching by HMM-HMM alignment" (PDF). Nat. Methods. 9 (2): 173–175. doi:10.1038/NMETH.1818. hdl:11858/00-001M-0000-0015-8D56-A. PMID 22198341. S2CID 205420247.
- ^ a b Söding J, Biegert A, Lupas AN (2005). "The HHpred interactive server for protein homology detection and structure prediction". Nucleic Acids Research. 33 (Web Server issue): W244–248. doi:10.1093/nar/gki408. PMC 1160169. PMID 15980461.
- ^ HHPred, HHsearch, HHblits에 대한 인용구
- ^ a b Jaroszewski L, Rychlewski L, Godzik A (2000). "Improving the quality of twilight-zone alignments". Protein Science. 9 (8): 1487–1496. doi:10.1110/ps.9.8.1487. PMC 2144727. PMID 10975570.
- ^ Sadreyev RI, Baker D, Grishin NV (2003). "Profile–profile comparisons by COMPASS predict intricate homologies between protein families". Protein Science. 12 (10): 2262–2272. doi:10.1110/ps.03197403. PMC 2366929. PMID 14500884.
- ^ Dunbrack RL Jr (2006). "Sequence comparison and protein structure prediction". Current Opinion in Structural Biology. 16 (3): 374–384. doi:10.1016/j.sbi.2006.05.006. PMID 16713709.
- ^ Li, Zhaoyu. "Some Notes about HHSuite". Retrieved 3 April 2019.
- ^ Guerler A, Govindarajoo B, Zhang Y (2013). "Mapping Monomeric Threading to Protein–Protein Structure Prediction". Journal of Chemical Information and Modeling. 53 (3): 717–25. doi:10.1021/ci300579r. PMC 4076494. PMID 23413988.
- ^ 템플릿 기반 모델링 범주에 대한 공식 CASP9 결과(121개 대상)
- ^ 147개 모든 대상에 대한 공식 CASP9 결과
- ^ Steinegger M, Meier M, Mirdita M, Vöhringer H, Haunsberger S, Söding J (2019). "HH-suite3 for fast remote homology detection and deep protein annotation". BMC Bioinformatics. 20 (1): 473. doi:10.1186/s12859-019-3019-7. PMC 6744700. PMID 31521110.
외부 링크
- 괴팅겐 맥스플랑크 연구소의 소시드 연구실 - HH-수이트 개발자
- 개발자로부터 사전 컴파일된 HH-suite 이진 파일 및 데이터베이스 다운로드
- HHPred - Tuebingen에 있는 Max-Plank Institute의 무료 서버
- HHblits - Tuebingen에 있는 Max-Plank Institute의 무료 서버
- CASP 웹사이트
- CASP9 템플릿 기반 모델링 결과
- HH-수이트 데비안 패키지
- HH-수이트 우분투 패키지
- HH-suite arch Linux 사용자 저장소