호몰로지 모델링

Homology modeling
스위스 모델로 생성되고 PyMol로 렌더링된 DHRS7B 단백질의 호몰로지 모델

단백질의 비교 모델링이라고도 알려진 호몰로지 모델링아미노산 시퀀스로부터 "대상" 단백질의 원자 분해능 모델과 관련 호몰로겐 단백질의 실험적인 3차원 구조("템플릿")를 구성하는 것을 말한다. 호몰로지 모델링은 쿼리 시퀀스의 구조와 유사할 가능성이 있는 하나 이상의 알려진 단백질 구조를 식별하고, 쿼리 시퀀스의 잔여물을 템플릿 시퀀스의 잔여물에 매핑하는 정렬의 생산에 의존한다. 호몰로게이션 중 단백질 구조는 단백질 배열보다 보존성이 높은 것으로 확인되었지만, 20% 시퀀스 아이덴티티 이하로 떨어지는 배열은 매우 다른 구조를 가질 수 있다.[1]

진화적으로 연관된 단백질은 유사한 배열을 가지며 자연적으로 발생하는 균질 단백질은 유사한 단백질 구조를 가진다. 3차원 단백질 구조가 시퀀스 보존만을 근거로 하여 예상한 것보다 진화적으로 더 보존되어 있는 것으로 나타났다.[2]

그런 다음 시퀀스 정렬과 템플릿 구조를 사용하여 대상의 구조 모델을 작성한다. 단백질 구조는 DNA 시퀀스보다 보존성이 높고, 시퀀스 유사성의 검출 가능한 수준은 대개 상당한 구조적 유사성을 암시하기 때문이다.[3]

호몰로지 모델의 품질은 시퀀스 정렬 및 템플릿 구조의 품질에 따라 달라진다. 접근방식은 대상에는 있지만 템플릿에는 없는 구조 영역을 나타내는 정렬 간격(일반적으로 인델이라고 함)이 존재하며, 구조물을 해결하는 데 사용되는 실험 절차(일반적으로 X선 결정학)에서 분해능이 불량하여 발생하는 템플릿의 구조 간격에 의해 복잡해질 수 있다. 모델 품질은 시퀀스 ID가 감소함에 따라 감소한다. 일반적인 모델은 70% 시퀀스 ID에서 일치하는α C 원자 사이의 1–2 å의 루트 평균 제곱 편차를 가지지만 25% 시퀀스 ID에서는 2–4 å만 일치한다. 그러나 대상 단백질과 템플릿 단백질의 아미노산 염기서열이 완전히 다를 수 있는 루프 영역에서는 오차가 현저히 더 높다.

일반적으로 루프 모델링에 의해 템플릿 없이 구성된 모델의 영역은 일반적으로 모델의 나머지 부분보다 훨씬 덜 정확하다. 측면 체인 패킹과 위치의 오류도 아이덴티티가 감소함에 따라 증가하며, 이러한 패킹 구성의 변동은 아이덴티티가 낮은 모델 품질의 주요 원인으로 제시되어 왔다.[4] 이러한 다양한 원자 위치 오류는 유의하며 약물 설계 및 단백질-단백질 상호작용 예측과 같이 원자 분해능 데이터를 필요로 하는 목적을 위한 호몰로지 모델의 사용을 방해한다. 단백질의 2분위 구조도 하위 단위의 호몰로지 모델에서 예측하기 어려울 수 있다. 그럼에도 불구하고, 호몰로지 모델은 질의 시퀀스의 생화학에 대한 정성적 결론에 도달하는데 유용할 수 있으며, 특히 왜 특정 잔류물이 보존되어 있는지에 대한 가설을 세울 때 유용할 수 있으며, 이는 그 가설을 시험하기 위한 실험으로 이어질 수 있다. 예를 들어 보존된 잔여물의 공간적 배치는 접힘을 안정시키기 위해, 일부 작은 분자를 결합하기 위해 또는 다른 단백질이나 핵산과의 연관성을 배양하기 위해 특정 잔여물이 보존되는지 여부를 제안할 수 있다.

호몰로지 모델링은 대상과 템플릿이 밀접하게 연관되어 있을 때 고품질의 구조 모델을 생산할 수 있으며, 이는 모든 종류의 단백질 접힘에 대한 대표적인 실험 구조의 생산에 전념하는 구조 유전체학 컨소시엄의 형성에 영감을 주었다. [5] 낮은 시퀀스 아이덴티티로 악화되는 동질학 모델링의 주요 부정확성은 초기 시퀀스 정렬의 오류와 부적절한 템플릿 선택에서 비롯된다.[6] 구조 예측의 다른 방법과 마찬가지로, 동종학 모델링의 현재 관행은 단백질 구조 예측 기법의 임계 평가(CASP)로 알려진 격년제 대규모 실험에서 평가된다.

동기

호몰로지 모델링 방법은 단백질 3차 구조아미노산 시퀀스보다 보존이 잘된다는 관찰에 근거한다.[3] 따라서 순차적으로 눈에 띄게 갈라졌지만 여전히 검출 가능한 유사성을 공유하는 단백질도 전체적인 접힘, 특히 공통적인 구조적 특성을 공유하게 될 것이다. 관심 있는 모든 단백질에 대해 X선 결정학, 단백질 NMR과 같은 방법으로부터 실험 구조를 얻는 것은 어렵고 시간이 많이 걸리기 때문에, 호몰로지 모델링은 단백질의 기능에 대한 가설을 만들고 추가적인 실험 작업을 지시하는 데 유용한 구조 모델을 제공할 수 있다.

유의한 염기서열 정체성을 공유하는 단백질이 접히는 것을 공유한다는 일반적인 규칙에는 예외가 있다. 예를 들어, 현명하게 선택된 단백질의 50% 미만의 돌연변이 집합은 단백질이 완전히 다른 접힘을 채택하게 할 수 있다.[7][8] 그러나, 특히 단백질은 보통 적절하게 접어서 세포 안에서 기능을 수행해야 한다는 제약 아래 있기 때문에, 이러한 대규모 구조 재배열은 진화 과정에서 일어날 것 같지 않다. 결과적으로, 단백질의 대략 접힌 구조("위상학")는 아미노산 염기서열보다 더 오래 보존되고 해당 DNA 염기서열보다 훨씬 더 오래 보존된다. 즉, 두 단백질은 진화 관계가 너무 멀어서 신뢰성 있게 파악할 수 없더라도 유사한 접기를 공유할 수 있다. 비교를 위해, 단백질의 기능은 관련 기능을 수행하기 위해 아미노산 염기서열의 변화가 상대적으로 거의 필요하지 않기 때문에 단백질 염기서열보다 훨씬 적게 보존된다.

모델 제작 단계

동질학 모델링 절차는 템플릿 선택, 대상-템플릿 정렬, 모델 구성 및 모델 평가의 네 가지 순차적 단계로 나눌 수 있다.[3] 템플릿 식별의 가장 일반적인 방법은 시퀀스 정렬의 생산에 의존하기 때문에 처음 두 단계는 기본적으로 함께 수행되지만, 데이터베이스 검색 기법이 정렬 품질보다 속도를 우선하기 때문에 이러한 정렬의 품질이 충분하지 않을 수 있다. 이러한 프로세스는 최종 모델의 품질을 개선하기 위해 반복적으로 수행될 수 있지만, 진정한 목표 구조에 의존하지 않는 품질 평가는 여전히 개발 중에 있다.

대규모 자동화된 구조 예측에 사용하기 위해 이러한 단계의 속도와 정확성을 최적화하는 것은 구조 유전체학 이니셔티브의 핵심 요소인데, 부분적으로는 구조 유전체학의 목표가 연구에 합리적인 품질의 모델을 제공해야 하기 때문에 데이터의 결과 볼륨이 너무 커서 수동으로 처리할 수 없기 때문이다.구조 예측 전문가가 아닌 사람들.[3]

템플릿 선택 및 시퀀스 정렬

동종학 모델링의 중요한 첫 단계는 사용 가능한 최상의 템플릿 구조를 식별하는 것이다. 템플릿 식별의 가장 간단한 방법은 FASTAVOLAST와 같은 데이터베이스 검색 기법에 의해 제공되는 직렬 쌍별 시퀀스 선형에 의존한다. PSI-BLAST가 가장 일반적인 예인 다중 시퀀스 정렬에 기반한 보다 민감한 방법은 보다 먼 관련 호몰로지를 연속적으로 식별하기 위해 위치별 점수 매트릭스를 반복적으로 업데이트한다. 이러한 방법군은 더 많은 수의 잠재적 템플릿을 생산하고, 해결된 구조와 먼 관계만 있는 시퀀스에 대해 더 나은 템플릿을 식별하는 것으로 입증되었다. 접이식 인식 또는 3D-1D 정렬이라고도 [9]하는 단백질 나사산은 전통적인 호몰로지 모델링 방법에 사용될 템플릿을 식별하기 위한 검색 기법으로도 사용될 수 있다.[3] 최근의 CASP 실험은 RaptorX와 같은 일부 단백질 스레딩 방법이 예측 중인 단백질에 대해 원거리 관련 템플릿만 사용할 수 있을 때 순수 순서(프로파일) 기반 방법보다 더 민감하다는 것을 보여준다. 블라스트 검색을 수행할 때 신뢰할 수 있는 첫 번째 접근방식은 충분히 낮은 E-값으로 적중률을 식별하는 것이며, 이는 신뢰할 수 있는 호몰로지 모델을 만들기 위해 충분히 가까운 것으로 간주된다. 다른 요인들은 한계 사례에서 균형을 맞출 수 있다. 예를 들어, 템플릿은 질의 순서와 유사한 기능을 가질 수도 있고 동음이의 피연산자에 속할 수도 있다. 그러나 E-값이 좋지 않은 템플릿은 구조가 잘못되어 잘못된 모델을 생산하게 될 수도 있으므로, 일반적으로 사용 가능한 유일한 템플릿이라 하더라도 선택해서는 안 된다. 더 나은 접근방식은 1차 순서를 접이식 서버에[9] 제출하거나, 개별 접이식 서버에 대해 독립적 예측 사이의 유사성(합치성)을 확인함으로써 개선되는 합의 메타 서버에 제출하는 것이다.

종종 여러 후보 템플릿 구조는 이러한 접근방식으로 식별된다. 일부 방법은 여러 템플릿에서 보다 정확한 하이브리드 모델을 생성할 수 있지만 대부분의 방법은 단일 템플릿에 의존한다.[9][10] 따라서 후보 중에서 최적의 템플릿을 선택하는 것이 핵심 단계로, 구조의 최종 정확도에 큰 영향을 미칠 수 있다. 이 선택은 쿼리 및 템플릿 시퀀스의 유사성, 기능, 예측 쿼리 및 관찰된 템플릿 보조 구조와 같은 몇 가지 요인에 의해 유도된다. 아마도 가장 중요한 것은 정렬된 영역의 범위: 템플릿에서 예측할 수 있는 쿼리 시퀀스 구조의 부분과 결과 모델의 신뢰성이다. 따라서 때때로 단일 질의 시퀀스에 대해 여러 개의 호몰로지 모델이 생산되며, 최종 단계에서만 가장 가능성이 높은 후보가 선택된다.

데이터베이스 검색 기법에 의해 생성된 시퀀스 정렬을 후속 모델 생산의 기초로 사용할 수 있지만, 보다 정교한 접근법도 모색되었다. 한 제안은 국소 유사성이 낮은 시퀀스 지역에서 "정렬 공간"을 탐색하는 수단으로서 목표 시퀀스와 단일 식별된 템플릿 사이에 확률적으로 정의된 쌍방향 정렬의 앙상블을 생성한다.[11] 대상의 시퀀스 프로파일을 먼저 생성하고 이를 해결된 구조물의 시퀀스 프로파일과 체계적으로 비교하는 "프로파일 프로파일" 정렬. 프로파일 구조에 내재된 거친 그래프는 시퀀스의 비필수 영역에서 시퀀스 드리프트에 의해 유입되는 소음을 감소시키는 것으로 간주된다.[12]

모델생성

템플릿과 정렬이 주어진 경우, 여기에 포함된 정보를 사용하여 단백질의 각 원자에 대한 데카르트 좌표 집합으로 표현되는 표적의 3차원 구조 모델을 생성해야 한다. 모델 생성 방법의 세 가지 주요 등급이 제안되었다.[13][14]

파편 조립체

동질학 모델링의 원래 방법은 밀접하게 관련된 해결된 구조에서 확인된 보존된 구조 조각으로부터 완전한 모델의 조립에 의존했다. 예를 들어 포유류세린 프로테아제 모델링 연구에서는 등급의 모든 실험 구조물에 보존된 "핵심" 구조 영역과 일반적으로 시퀀스 차이가 대부분 국부화된 루프에 위치한 가변 영역 간의 뚜렷한 차이를 확인했다. 따라서 미해결 단백질은 먼저 보존된 코어를 구성한 다음 해결된 구조물의 다른 단백질로부터 가변 영역을 대체함으로써 모델링될 수 있었다.[15] 이 방법의 현재 구현은 주로 보존되지 않거나 템플릿이 없는 지역을 다루는 방식에 차이가 있다.[16] 가변 지역은 단편 도서관의 도움을 받아 건설되는 경우가 많다.

세그먼트 일치

세그먼트 매칭 방법은 대상을 일련의 짧은 세그먼트로 나누는데, 각 세그먼트는 단백질 데이터 뱅크에서 장착된 자체 템플릿과 일치한다. 따라서 시퀀스 정렬은 전체 단백질보다 세그먼트에 걸쳐 수행된다. 각 세그먼트에 대한 템플릿의 선택은 표적과 템플릿 사이의 분화 원자의 데르 발스 반반 반지름에서 발생하는 시퀀스 유사성, 알파 탄소 좌표의 비교 및 예측된 장력 충돌에 기초한다.[17]

공간 구속의 만족도

가장 일반적인 전류 동종학 모델링 방법은 NMR 분광법에 의해 생성된 데이터로부터 3차원 구조를 구성하는 데 필요한 계산에서 영감을 얻는다. 하나 이상의 표적-템플릿 정렬을 사용하여 각 구속장치에 대한 확률밀도함수로 변환되는 기하학적 기준을 구성한다. 주요 단백질 내부 좌표단백질 백본 거리와 이음각에 적용되는 구속장치는 단백질 내 모든 무거운 원자의 위치를 반복적으로 정제하기 위해 원래 결합 구배 에너지 최소화를 사용한 글로벌 최적화 절차의 기초가 된다.[18]

이 방법은 수용액 내 단백질 루프의 높은 유연성으로 인해 매우 어려울 수 있는 루프 모델링에 특히 적용하기 위해 극적으로 확장되었다.[19] 보다 최근의 확장은 극저온 현미경 연구에서 도출된 전자 밀도 지도에 공간 억제 모델을 적용하는데, 이 지도는 원자 분해능 구조 모델을 생성하기에 보통 충분하지 않은 저해상도 정보를 제공한다.[20] 초기 대상-템플릿 시퀀스 정렬의 부정확성 문제를 해결하기 위해 초기 구조 적합성에 기초하여 정렬을 세분화하는 반복 절차도 도입되었다.[21] 공간 구속 기반 모델링에서 가장 많이 사용되는 소프트웨어는 MODELER이며, ModBase라고 하는 데이터베이스는 ModBase로 생성된 신뢰할 수 있는 모델을 위해 구축되었다.[22]

루프 모델링

템플릿에 정렬되지 않은 대상 시퀀스의 영역은 루프 모델링에 의해 모델링되며, 이들은 주요 모델링 오류에 가장 취약하며, 대상과 템플릿의 시퀀스 ID가 낮을 때 더 높은 빈도로 발생한다. 루프 모델링 프로그램에 의해 결정된 일치하지 않는 섹션의 좌표는 일반적으로 알려진 구조물의 좌표를 단순히 복사하여 얻은 것보다 훨씬 덜 정확하다. 특히 루프가 10개 이상의 잔류물일 경우. 정확한 등뼈 구조를 위해 30° 내에서 처음 두 개의 사이드체인 다이드랄 각12, estimated)을 추정할 수 있지만, 라이신이나 아르기닌과 같은 더 긴 사이드 체인에서 발견된 이후 다이드랄 각은 예측하기 어렵기로 악명 높다. 더욱이 χ의1 작은 오류(그리고 χ의2 작은 오류)는 측면 사슬의 종단부에 있는 원자의 위치에 비교적 큰 오류를 일으킬 수 있다. 그러한 원자는 특히 활성 지점 근처에 위치할 때 기능적 중요성이 있는 경우가 많다.

모델평가

진정한 목표 구조에 대한 참조 없이 동질학 모델의 평가는 보통 통계적 잠재력 또는 물리 기반 에너지 계산의 두 가지 방법으로 수행된다. 두 방법 모두 평가 중인 모델에 대한 에너지(또는 에너지와 유사한 아날로그)의 추정치를 산출한다. 허용 가능한 컷오프를 결정하기 위해서는 독립적인 기준이 필요하다. 두 가지 방법 중 어느 것도 특히 막 단백질과 같이 PDB에서 잘 표현되지 않은 단백질 유형과 예외적으로 잘 상관관계가 없다.

통계적 잠재력은 PDB에서 알려진 구조의 단백질들 사이에서 관찰된 잔류물-재분해 접촉 빈도에 기초한 경험적 방법이다. 그들은 각각의 가능한 아미노산 사이의 쌍방향 상호작용에 확률이나 에너지 점수를 할당하고 이들 쌍방향 상호작용 점수를 전체 모델에 대한 단일 점수로 결합한다. 일부 그러한 방법에서는 모델이 전체적으로 합당한 점수를 가질 수 있지만, 모델 내에서 점수가 낮은 영역을 식별하는 잔류물별 평가도 산출할 수 있다.[23] 이러한 방법들은 구상 단백질에 종종 존재하는 소수성 코어와 용매 노출 극성 아미노산을 강조한다. 대중적인 통계 잠재력의 예로는 Prosa와 DOPE가 있다. 통계적 잠재력은 에너지 계산보다 계산적으로 더 효율적이다.[23]

물리 기반 에너지 계산은 용액의 단백질 안정성을 물리적으로 책임지는 원자간 상호작용, 특히 반 데르 발스정전기 상호작용의 포착을 목표로 한다. 이러한 계산은 분자역학 힘장을 사용하여 수행된다; 단백질은 반감기 양자역학 기반 계산에도 일반적으로 너무 크다. 이러한 방법의 사용은 단백질 접힘의 에너지 풍경 가설에 근거하고 있는데, 이는 단백질의 고유 상태도 그 에너지의 최소치라고 예측한다. 그러한 방법은 일반적으로 암묵적 용해법을 사용하며, 이는 개별 용제 분자의 명시적 표현 없이 단일 단백질 분자에 대한 용제 욕조의 연속적인 근사치를 제공한다. 모델 평가를 위해 특별히 구성된 힘 장(Eff)은 유효 힘 (Eff)으로 알려져 있으며, CHARMM의 원자 매개변수에 기초한다.[24]

매우 광범위한 모델 검증 보고서는 Radboud Universityit Nijmegen "What Check" 소프트웨어 패키지의 한 옵션인 Radboud Universityit Nijmegen "What If" 소프트웨어를 사용하여 얻을 수 있다. Radboud Universityit Nimmegen "Wh If"는 모델의 거의 200가지 과학적이고 행정적인 측면을 광범위하게 분석하여 다면 문서를 작성한다. "What Check"무료 서버로서 이용 가능하다; 그것은 또한 실험적으로 결정된 고분자의 구조를 검증하는데 사용될 수 있다.

모델 평가를 위한 한 가지 새로운 방법은 신경망과 같은 기계 학습 기법에 의존하는데, 신경망과 같은 기법은 구조를 직접 평가하거나 복수의 통계적 및 에너지 기반 방법들 간의 합의를 형성하도록 훈련될 수 있다. 더 전통적인 평가 방법의 배심원단에 대한 지원 벡터 머신 회귀 분석을 사용한 결과는 일반적인 통계, 에너지 기반 및 기계 학습 방법을 능가했다.[25]

구조 비교 방법

동질학 모델의 정확성에 대한 평가는 실험 구조를 알 때 간단하다. 두 단백질 구조를 비교하는 가장 일반적인 방법은 RMSD(root-mean-square deviation, RMSD) 측정 지표를 사용하여 두 구조에서 해당 원자가 중첩된 후 평균 거리를 측정한다. 그러나 RMSD는 코어가 본질적으로 올바르게 모델링된 모델의 정확도를 과소평가하지만, 일부 유연한 루프 영역은 부정확하다.[26] 모델링 평가 실험에 도입된 방법은 지구 거리 시험(GDT)으로 알려져 있으며, 모델에서 실험 구조물까지의 거리가 일정 거리 컷오프 아래에 있는 원자의 총 수를 측정한다.[26] 두 방법 모두 구조물에 있는 원자의 어떤 부분집합에도 사용할 수 있지만, 종종 알파 탄소 또는 단백질 백본 원자에만 적용되어 불량하게 모델링된 측면 사슬 로타미 상태로 인해 발생하는 소음을 최소화하는데, 대부분의 모델링 방법은 예측에 최적화되어 있지 않다.[27]

벤치마킹

다양한 현행 호몰로지 모델링 방법의 상대적 품질을 평가하기 위한 몇 가지 대규모 벤치마킹 노력이 이루어졌다. CASP는 여름철 2년에 한 번씩 진행되는 지역사회 전체의 예측 실험으로, 최근 실험적으로 구조가 풀렸지만 아직 발표되지 않은 다수의 시퀀스에 대해 예측팀에게 구조모델 제출을 도전한다. 협력사 CAFASP는 CASP와 병행하여 운영되나 완전 자동화 서버를 통해 생산된 모델만 평가한다. 예측 '계절'이 없는 연속적인 실험은 주로 공개적으로 이용 가능한 웹서버 벤치마킹에 초점을 맞추고 있다. 라이브벤치EVA는 PDB에서 즉시 방출되는 구조를 예측하여 참여 서버의 성능을 평가하기 위해 지속적으로 실행된다. CASP와 CAFASP는 주로 모델링에서 기술 상태에 대한 평가 역할을 하는 반면, 지속적인 평가는 공개적으로 사용할 수 있는 도구를 사용하는 비전문가 사용자가 얻을 수 있는 모델 품질을 평가하려고 한다.

정확도

호몰로지 모델링에 의해 생성된 구조물의 정확도는 타겟과 템플릿 사이의 시퀀스 ID에 크게 의존한다. 시퀀스 ID가 50%를 초과하면 모델은 신뢰성이 높은 경향이 있으며, 측면 체인 패킹과 회전 미국 상태에서의 사소한 오류만 발생하며 모델링과 실험 구조물 사이의 전체적인 RMSD는 약 1 å이다. 이 오류는 NMR에 의해 해결된 구조물의 일반적인 분해능과 비교된다. 30-50%의 ID 범위에서 오류는 더 심각할 수 있으며 종종 루프에 위치한다. 30% 이하에서는 심각한 오류가 발생하며, 때로는 기본 접힘이 잘못 예측되는 결과를 초래하기도 한다.[13] 이러한 저정체성 영역은 종종 동질성 모델링이 매우 어렵고 접힌 인식 방법보다 덜 적합할 수 있는 "황혼 영역"이라고 불린다.[28]

높은 시퀀스 아이덴티티에서, 동질학 모델링의 일차적인 오류 발생원은 모델이 기반이 되는 템플릿이나 템플릿을 선택하는 것에서 유래하는 반면, 낮은 아이덴티티는 고품질 모델의 생산을 억제하는 시퀀스 정렬에서 심각한 오류를 나타낸다.[6] 알려진 구조의 두 단백질 사이의 "최적" 구조 정렬을 현재의 모델링 방법에 대한 입력으로 사용하여 원래의 실험 구조의 상당히 정확한 재현을 만들 수 있기 때문에 품질 모델 생산의 주요 장애물은 시퀀스 정렬에 불충분하다는 의견이 제기되었다.[29]

RMSD를 실험 구조로 개선하려는 노력의 일환으로 분자역학 시뮬레이션을 실시함으로써 기존 방법으로 구축된 호몰로지 모델의 정확성을 향상시키려는 시도가 있었다. 그러나 분자 역학을 위한 시작 구조로 사용되는 호몰로지 모델은 약간 더 나쁜 구조를 생성하는 경향이 있기 때문에 현재 힘 장 매개변수화는 이 작업에 대해 충분히 정확하지 않을 수 있다.[30] 시뮬레이션 중에 상당한 구속력을 사용한 경우 약간의 개선이 관찰되었다.[31]

오류 원인

동질학 모델링에서 가장 흔하고 대규모의 두 가지 오류 발생원은 템플릿 선택 불량과 대상-템플릿 시퀀스 정렬의 부정확함이다.[6][32] 구조 정렬 또는 해결된 두 구조물의 비교에 기초하여 생성된 시퀀스 정렬을 사용하여 이 두 요인을 제어하면 최종 모델의 오류를 크게 줄일 수 있다. 이러한 "골드 표준" 정렬을 현재의 모델링 방법에 대한 입력으로 사용하여 원래 실험의 상당히 정확한 재현을 생성할 수 있다. 구조물을 [29]만들다 가장 최근의 CASP 실험의 결과는 다중 접이식 인식과 다중 정렬 검색의 결과를 수집하는 "공감" 방법이 올바른 템플릿을 식별할 가능성을 증가시킨다는 것을 시사한다. 마찬가지로, 모델 구축 단계에서 여러 템플릿을 사용하는 것이 단일 올바른 템플릿을 사용하는 것보다 더 나쁠 수 있다. b단 하나의 차선의 사용보다 낫다.[32] 하나의 템플릿만 사용하더라도 다중 정렬을 사용하고 유사성이 낮은 국소 영역을 반복적으로 정교화하여 정렬 오류를 최소화할 수 있다.[3][11] 모델 오류의 소스가 적은 것은 템플릿 구조의 오류다. PDBREPORT 데이터베이스에는 PDB에 축적된 실험(템플릿) 구조에서 대부분 매우 작지만 때로는 극적인 수백만의 오류가 나열되어 있다.

삽입 또는 삭제 돌연변이 또는 해결된 구조물의 틈새로 인해 해당 템플릿이 없는 대상 시퀀스 영역이 발생하는 동종학 모델에서 심각한 국소 오류가 발생할 수 있다. 이 문제는 여러 템플릿을 사용하여 최소화할 수 있지만, 템플릿의 간격 주변의 국소 구조가 다르고, 동일한 단백질 계열의 다른 구조에서도 한 실험 구조에서 누락된 영역이 누락될 가능성이 있어 방법이 복잡하다. 지역적 유연성이 높아 구조 결정 방식에 의한 지역 해결의 난이도가 높아지는 루프에서 누락 지역이 가장 흔하다. 일부 지침은 누락된 영역의 끝단 위치 선정에 의해 단일 템플릿으로도 제공되지만 간격이 길수록 모델링이 어렵다. 최대 9개의 잔여물의 루프는 국소 정렬이 올바른 경우 적당한 정확도로 모델링할 수 있다.[3] 비록 이 접근방식이 고립된 성공에 그쳤지만, 더 큰 영역은 종종 ab initio 구조 예측 기법을 사용하여 개별적으로 모델링된다.[33]

측면 체인의 회전 상태와 내부 패킹 배열은 백본 구조를 비교적 예측하기 쉬운 표적에서도 호몰로지 모델링에 어려움을 나타낸다. 이것은 부분적으로 수정 구조의 많은 측면 사슬이 소수성 코어 및 단백질 결정의 개별 분자 포장에서 에너지 인자의 결과로 "최적" 회전 미국 상태에 있지 않기 때문이다.[34] 이 문제를 해결하는 한 가지 방법은 패킹 상태의 로컬 저에너지 조합을 식별하기 위해 회전식 라이브러리를 검색해야 한다.[35] 대상-템플릿 시퀀스 ID가 30% 미만일 때 호몰로지 모델링이 어려운 주요 이유는 그러한 단백질의 접힘은 대체로 유사하지만 측면 체인 패킹 배열은 매우 다르기 때문이라고 제안되었다.[4]

효용

구조 모델의 사용에는 단백질-단백질 상호작용 예측, 단백질-단백질 도킹, 분자 도킹, 유기체의 게놈에서 식별유전자의 기능 주석 등이 포함된다.[36] 정확도가 낮은 호몰로지 모델도 이러한 목적에 유용할 수 있는데, 그 부정확성이 단백질 표면의 루프에 위치하는 경향이 있기 때문에, 이것은 밀접하게 연관된 단백질 사이에서도 일반적으로 더 가변적이다. 단백질의 기능적 영역, 특히 활성 부위는 보존성이 더 높고 따라서 보다 정확하게 모델링되는 경향이 있다.[13]

또한 호몰로지 모델은 구조적으로 모두 해결되지 않은 관련 단백질들 간의 미묘한 차이를 식별하는 데 사용될 수 있다. 예를 들어, 이 방법은+ Na+/K ATPase에서 양이온 결합 사이트를 식별하고 서로 다른 ATPAS의 결합 친화력에 대한 가설을 제안하는 데 사용되었다.[37] 분자역학 시뮬레이션과 함께 사용되는 호몰로지 모델은 칼륨 채널의 이온 선택성에 대한 연구에서와 같이 단백질의 운동학 및 역학에 대한 가설을 생성할 수도 있다.[38] 게놈에서 확인된 모든 단백질 코딩 부위의 대규모 자동 모델링은 효모 사카로마이오스 세레비시아이에 대해 시도되어 연구 당시 구조가 아직 결정되지 않은 단백질에 대해 거의 1000개의 품질 모델을 만들고, 236개의 효모 단백질과 다른 이전의 단백질 사이의 새로운 관계를 확인하였다.y 해결된 구조.[39]

참고 항목

참조

  1. ^ Chothia, C; Lesk, AM (1986). "The relation between the divergence of sequence and structure in proteins". EMBO J. 5 (4): 823–6. doi:10.1002/j.1460-2075.1986.tb04288.x. PMC 1166865. PMID 3709526.
  2. ^ Kaczanowski, S; Zielenkiewicz, P (2010). "Why similar protein sequences encode similar three-dimensional structures?" (PDF). Theoretical Chemistry Accounts. 125 (3–6): 643–50. doi:10.1007/s00214-009-0656-3. S2CID 95593331.
  3. ^ a b c d e f g Marti-Renom, MA; Stuart, AC; Fiser, A; Sanchez, R; Melo, F; Sali, A. (2000). "Comparative protein structure modeling of genes and genomes". Annu Rev Biophys Biomol Struct. 29: 291–325. doi:10.1146/annurev.biophys.29.1.291. PMID 10940251. S2CID 11498685.
  4. ^ a b 청시, 수비야 S. (1996년) 단백질 서열 동질학의 황혼 영역에 대한 구조적 설명. 구조 4: 1123–27.
  5. ^ Williamson AR (2000). "Creating a structural genomics consortium". Nat Struct Biol. 7 (S1(11s)): 953. doi:10.1038/80726. PMID 11103997. S2CID 35185565.
  6. ^ a b c Venclovas C, Margeleviĉius M (2005). "Comparative modeling in CASP6 using consensus approach to template selection, sequence-structure alignment, and structure assessment". Proteins. 61 (S7): 99–105. doi:10.1002/prot.20725. PMID 16187350. S2CID 45345271.
  7. ^ Dalal, S; Balasubramanian, S; Regan, L (1997). "Transmuting alpha helices and beta sheets". Fold Des. 2 (5): R71–9. doi:10.1016/s1359-0278(97)00036-9. PMID 9377709.
  8. ^ Dalal, S; Balasubramanian, S; Regan, L. (1997). "Protein alchemy: changing beta-sheet into alpha-helix". Nat Struct Biol. 4 (7): 548–52. doi:10.1038/nsb0797-548. PMID 9228947. S2CID 5608132.
  9. ^ a b c Peng, Jian; Jinbo Xu (2011). "RaptorX: Exploiting structure information for protein alignment by statistical inference". Proteins. 79: 161–71. doi:10.1002/prot.23175. PMC 3226909. PMID 21987485.
  10. ^ Peng, Jian; Jinbo Xu (April 2011). "a multiple-template approach to protein threading". Proteins. 79 (6): 1930–1939. doi:10.1002/prot.23016. PMC 3092796. PMID 21465564.
  11. ^ a b Muckstein, U; Hofacker, IL; Stadler, PF (2002). "Stochastic pairwise alignments". Bioinformatics. 18 (Suppl 2): S153–60. doi:10.1093/bioinformatics/18.suppl_2.S153. PMID 12385998.
  12. ^ Rychlewski, L; Zhang, B; Godzik, A. (1998). "Fold and function predictions for Mycoplasma genitalium proteins". Fold Des. 3 (4): 229–38. doi:10.1016/S1359-0278(98)00034-0. PMID 9710568.
  13. ^ a b c Baker, D; Sali, A (2001). "Protein structure prediction and structural genomics". Science. 294 (5540): 93–96. Bibcode:2001Sci...294...93B. doi:10.1126/science.1065659. PMID 11588250. S2CID 7193705.
  14. ^ Zhang Y (2008). "Progress and challenges in protein structure prediction". Curr Opin Struct Biol. 18 (3): 342–348. doi:10.1016/j.sbi.2008.02.004. PMC 2680823. PMID 18436442.
  15. ^ Greer, J. (1981). "Comparative model-building of the mammalian serine proteases". Journal of Molecular Biology. 153 (4): 1027–42. doi:10.1016/0022-2836(81)90465-4. PMID 7045378.
  16. ^ Wallner, B; Elofsson, A (2005). "All are not equal: A benchmark of different homology modeling programs". Protein Science. 14 (5): 1315–1327. doi:10.1110/ps.041253405. PMC 2253266. PMID 15840834.
  17. ^ Levitt, M. (1992). "Accurate modeling of protein conformation by automatic segment matching". J Mol Biol. 226 (2): 507–33. doi:10.1016/0022-2836(92)90964-L. PMID 1640463.
  18. ^ Sali, A; Blundell, TL. (1993). "Comparative protein modelling by satisfaction of spatial restraints". J Mol Biol. 234 (3): 779–815. doi:10.1006/jmbi.1993.1626. PMID 8254673.
  19. ^ Fiser, A; Sali, A. (2003). "ModLoop: automated modeling of loops in protein structures". Bioinformatics. 19 (18): 2500–1. doi:10.1093/bioinformatics/btg362. PMID 14668246.
  20. ^ Topf, M; Baker, ML; Marti-Renom, MA; Chiu, W; Sali, A. (2006). "Refinement of protein structures by iterative comparative modeling and CryoEM density fitting". J Mol Biol. 357 (5): 1655–68. doi:10.1016/j.jmb.2006.01.062. PMID 16490207.
  21. ^ John, B; Sali, A. (2003). "Comparative protein structure modeling by iterative alignment, model building and model assessment". Nucleic Acids Res. 31 (14): 3982–92. doi:10.1093/nar/gkg460. PMC 165975. PMID 12853614.
  22. ^ 우슐라 파이퍼, 나라얀 에스워, 하네스 브라베그, M. Madhusudhan, Fred Davis, Ashley C. 스튜어트, 네보즈사 미르코비치, 안드레아 로시, 마크 A. 마르티-레넘, 안드라스 피서, 벤 웹, 다니엘 그린블랫, 콘래드 황, 톰 페린, 안드레 살리. MODBASE, 주석 처리된 비교 단백질 구조 모델 및 관련 자원의 데이터베이스. 핵산 32, D217-D222, 2004.
  23. ^ a b Sippl, MJ. (1993). "Recognition of Errors in Three-Dimensional Structures of Proteins". Proteins. 17 (4): 355–62. doi:10.1002/prot.340170404. PMID 8108378. S2CID 47269654.
  24. ^ Lazaridis, T.; Karplus, M. (1999a). "Discrimination of the native from misfolded protein models with an energy function including implicit solvation". J. Mol. Biol. 288 (3): 477–487. CiteSeerX 10.1.1.17.33. doi:10.1006/jmbi.1999.2685. PMID 10329155.
  25. ^ Eramian, D; Shen, M; Devos, D; Melo, F; Sali, A; Marti-Renom, MA. (2006). "A composite score for predicting errors in protein structure models". Protein Science. 15 (7): 1653–1666. doi:10.1110/ps.062095806. PMC 2242555. PMID 16751606.
  26. ^ a b Zemla, A. (2003). "LGA – A Method for Finding 3-D Similarities in Protein Structures". Nucleic Acids Research. 31 (13): 3370–3374. doi:10.1093/nar/gkg571. PMC 168977. PMID 12824330.
  27. ^ DM. (2004)을 장착하십시오. 생물정보학: 시퀀스게놈 분석 2차 개정판 Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY.
  28. ^ Blake, JD; Cohen, FE. (2001). "Pairwise sequence alignment below the twilight zone". J Mol Biol. 307 (2): 721–35. doi:10.1006/jmbi.2001.4495. PMID 11254392.
  29. ^ a b Zhang, Y; Skolnick, J. (2005). "The protein structure prediction problem could be solved using the current PDB library". Proc. Natl. Acad. Sci. USA. 102 (4): 1029–34. Bibcode:2005PNAS..102.1029Z. doi:10.1073/pnas.0407152101. PMC 545829. PMID 15653774.
  30. ^ Koehl, P; Levitt, M. (1999). "A brighter future for protein structure prediction". Nat Struct Biol. 6 (2): 108–11. doi:10.1038/5794. PMID 10048917. S2CID 3162636.
  31. ^ Flohil, JA; Vriend, G; Berendsen, HJ. (2002). "Completion and refinement of 3-D homology models with restricted molecular dynamics: application to targets 47, 58, and 111 in the CASP modeling competition and posterior analysis". Proteins. 48 (4): 593–604. doi:10.1002/prot.10105. PMID 12211026. S2CID 11280977.
  32. ^ a b Ginalski, K. (2006). "Comparative modeling for protein structure prediction". Curr Opin Struct Biol. 16 (2): 172–7. doi:10.1016/j.sbi.2006.02.003. PMID 16510277.
  33. ^ Kryshtafovych A, Venclovas C, Fidelis K, Moult J. (2005) CASP 실험의 첫 10년 동안 진행. 단백질 61(S7):225–36.
  34. ^ Vasquez, M. (1996). "Modeling side-chain conformation". Curr Opin Struct Biol. 6 (2): 217–21. doi:10.1016/S0959-440X(96)80077-7. PMID 8728654.
  35. ^ Wilson, C; Gregoret, LM; Agard, DA. (1993). "Modeling side-chain conformation for homologous proteins using an energy-based rotamer search". J Mol Biol. 229 (4): 996–1006. doi:10.1006/jmbi.1993.1100. PMID 8445659.
  36. ^ Gopal, S; Schroeder, M; Pieper, U; Sczyrba, A; Aytekin-Kurban, G; Bekiranov, S; Fajardo, JE; Eswar, N; Sanchez, R; et al. (2001). "Homology-based annotation yields 1,042 new candidate genes in the Drosophila melanogaster genome". Nat Genet. 27 (3): 337–40. doi:10.1038/85922. PMID 11242120. S2CID 2144435.
  37. ^ Ogawa, H; Toyoshima, C. (2002). "Homology modeling of the cation binding sites of Na+K+-ATPase". Proc Natl Acad Sci USA. 99 (25): 15977–15982. Bibcode:2002PNAS...9915977O. doi:10.1073/pnas.202622299. PMC 138550. PMID 12461183.
  38. ^ Capener, CE; Shrivastava, IH; Ranatunga, KM; Forrest, LR; Smith, GR; Sansom, MSP (2000). "Homology Modeling and Molecular Dynamics Simulation Studies of an Inward Rectifier Potassium Channel". Biophys J. 78 (6): 2929–2942. Bibcode:2000BpJ....78.2929C. doi:10.1016/S0006-3495(00)76833-0. PMC 1300878. PMID 10827973.
  39. ^ Sánchez, R; Sali, A. (1998). "Large-scale protein structure modeling of the Saccharomyces cerevisiae genome". Proc Natl Acad Sci USA. 95 (23): 13597–13602. Bibcode:1998PNAS...9513597S. doi:10.1073/pnas.95.23.13597. PMC 24864. PMID 9811845.