구조유전체학

Structural genomics
단백질 데이터 뱅크의 단백질 구조의 예.

구조 유전체학은 주어진 게놈에 의해 인코딩된 모든 단백질의 3차원 구조를 설명하려고 한다. 이 게놈 기반 접근법은 실험적인 접근법과 모델링 접근법의 조합에 의한 구조 결정의 고투입 방법을 허용한다. 구조 유전체학과 전통적인 구조 예측의 주요한 차이점은 구조 유전체학이 하나의 특정한 단백질에 초점을 맞추기보다는 게놈에 의해 인코딩된 모든 단백질의 구조를 결정하려고 한다는 것이다. 전체 유전체 시퀀스를 이용할 수 있게 되면, 특히 많은 수의 서열화된 게놈과 이전에 해결된 단백질 구조의 가용성은 과학자들이 이전에 해결된 호모 구조에서 단백질 구조를 모델링할 수 있게 해주기 때문에, 실험적인 접근법과 모델링 접근법의 조합을 통해 구조 예측을 더 빨리 할 수 있다.통나무

단백질 구조는 단백질 기능과 밀접하게 연관되어 있기 때문에 구조유전체학은 단백질 기능에 대한 지식을 알릴 수 있는 잠재력을 가지고 있다. 단백질 함수를 해명하는 것 외에도 구조 유전체학을 이용해 새로운 단백질 접힘과 약물 발견의 잠재적 대상을 식별할 수 있다. 구조 유전체학에는 유전체 서열을 사용하는 실험 방법이나 알려진 구조의 단백질에 대한 시퀀스 또는 구조 호몰로지 또는 알려진 구조에 대한 호몰로지 없는 단백질에 대한 화학적 물리적 원리에 기초한 모델링 기반 접근법 등 구조 결정에 많은 접근법을 취하는 것이 포함된다.

전통적인 구조 생물학과는 달리, 구조 유전체학 노력을 통해 단백질 구조를 결정하는 것은 종종(항상 그렇지는 않지만) 단백질 기능에 관한 어떤 것이 알려지기 전에 온다. 이것은 구조 생물정보학, 즉 그것의 3D 구조로부터 단백질 기능을 결정하는 것에 새로운 도전을 제기한다.

구조 유전체학은 단백질 구조의 높은 처리량 결정을 강조한다. 이것은 구조 유전체학의 전용 중심에서 수행된다.

대부분의 구조 생물학자들이 개별 단백질이나 단백질 그룹의 구조를 추구하는 반면, 구조 유전체학의 전문가들은 게놈의 광범위한 범위에서 단백질 구조를 추구한다. 이는 대규모 복제, 표현, 정화를 의미한다. 이 접근방식의 한 가지 주요 장점은 규모의 경제다. 반면에, 일부 결과적 구조의 과학적 가치는 때때로 의문시된다. 2006년 1월의 사이언스 기사는 구조 유전체학 분야를 분석한다.[1]

단백질 구조 이니셔티브와 같은 구조 유전체학의 한 가지 장점은 과학계가 복제나 단백질과 같은 시약뿐만 아니라 새로운 구조물에 즉시 접근할 수 있다는 것이다. 단점은 이러한 구조들 중 다수가 알 수 없는 기능의 단백질로 되어 있고 그에 상응하는 간행물을 가지고 있지 않다는 것이다. 이것은 이 구조 정보를 더 넓은 연구 커뮤니티에 전달하는 새로운 방법을 필요로 한다. 구조유전체학 공동센터(JCSG)의 생물정보학 코어는 최근 고투과 구조유전체학 센터에서 나오는 단백질 구조에 주석을 달기 위한 위키 기반 접근법, 즉 TOPSAN(Open 단백질 구조 주석 네트워크)을 개발했다.

목표들

구조 유전체학의 한 가지 목표는 새로운 단백질 접힘을 확인하는 것이다. 단백질 구조 결정의 실험 방법에는 잘 표현되거나 결정되는 단백질이 필요하며, 이는 이 실험 데이터가 해명하는 단백질 접힘의 종류를 선천적으로 편향시킬 수 있다. ab initio 모델링과 같은 유전적 모델링 기반 접근방식은 실험적인 제약조건에 의해 제한되지 않기 때문에 실험적인 접근방식보다 새로운 단백질 접힘을 더 잘 식별할 수 있다.

단백질 기능은 3-D 구조에 따라 달라지며, 이러한 3-D 구조는 시퀀스보다 보존성이 높다. 따라서, 구조 유전체학의 고투과 구조 결정 방법은 단백질 기능에 대한 우리의 이해를 알릴 수 있는 잠재력을 가지고 있다. 이것은 또한 약물 발견과 단백질 공학에 잠재적인 영향을 미친다.[2] 게다가, 구조 데이터베이스에 첨가되는 모든 단백질은 데이터베이스가 알려지지 않은 다른 단백질의 동음이의 순서를 포함할 가능성을 증가시킨다. 단백질 구조 이니셔티브(PSI)는 국립보건원이 다양한 학계 및 산업계 파트너와 함께 지원하는 다각적인 노력으로, 구조 유전체학 접근법을 이용해 단백질 구조에 대한 지식을 높이고 구조 결정 방법론을 개선하는 것을 목표로 한다.

방법들

구조 유전체학은 단백질 구조를 결정하기 위해 완성된 게놈 서열을 여러 가지 방법으로 활용한다. 대상 단백질의 유전자 염기서열도 알려진 염기서열과 비교할 수 있으며, 이때 알려진 단백질 구조에서 구조 정보를 유추할 수 있다. 구조 유전체학은 다른 구조 데이터를 바탕으로 새로운 단백질 접힘을 예측하는 데 사용될 수 있다. 구조 유전체학 또한 알려지지 않은 단백질과 해결된 단백질 구조 사이의 동질학에 의존하는 모델링 기반 접근법을 취할 수 있다.

노보법.

완성된 게놈 서열은 메신저 RNA와 단백질의 서열을 포함할 가능성이 높은 유전자의 일부인 모든 개방형 판독 프레임(ORF)을 복제해 단백질로 표현할 수 있게 한다. 그런 다음 이러한 단백질은 정제되고 결정화되며, 두 가지 유형의 구조 결정 중 하나인 X선 결정학과 핵 자기 공명(NMR)을 받게 된다. 전체 게놈 염기서열은 모든 ORF를 증폭시켜 박테리아로 복제한 다음 이를 표현하기 위해 필요한 모든 프라이머를 설계할 수 있게 해준다. 이 전통적인 단백질 구조 결정법에 대한 통게놈 접근법을 사용함으로써 게놈에 의해 인코딩된 모든 단백질을 한 번에 표현할 수 있다. 이 접근방식은 게놈에 의해 암호화된 모든 단백질의 구조적 결정을 가능하게 한다.

모델링 기반 방법

ab initio 모델링

이 접근방식은 단백질 서열 데이터와 인코딩된 아미노산의 화학적 물리적 상호작용을 이용하여 단백질 구조를 해결하기 위한 호몰로지 없이 단백질의 3-D 구조를 예측한다. ab initio 모델링을 위한 매우 성공적인 방법 중 하나는 로제타 프로그램이다. 로제타는 단백질을 짧은 세그먼트로 나누고 짧은 폴리펩타이드 체인을 낮은 에너지의 국부적 순응으로 배열한다. 로제타는 공공 프로그램인 로베타를 통해 상업적 이용과 비상업적 이용이 가능하다.

시퀀스 기반 모델링

이 모델링 기법은 알려지지 않은 단백질의 유전자 염기서열과 알려진 구조를 가진 단백질 염기서열을 비교한다. 시퀀스 간 유사성의 정도에 따라 알려진 단백질의 구조를 알 수 없는 단백질의 구조를 해결하는 모델로 활용할 수 있다. 고도로 정확한 모델링은 미지의 단백질과 해결된 구조 사이에 최소 50%의 아미노산 시퀀스 아이덴티티가 필요한 것으로 간주되며, 30~50%의 시퀀스 아이덴티티는 중간정확도 모델을, 30% 미만의 시퀀스 아이덴티티는 저정확도 모델을 제공한다. 모든 구조 모티브가 한 번 이상 표현돼 알려지지 않은 단백질의 구조가 모델링으로 정확하게 풀리려면 최소 1만6000여 개의 단백질 구조가 결정돼야 할 것으로 예측됐다.[3] 그러나 이 방법의 한 가지 단점은 구조가 시퀀스보다 보존성이 뛰어나기 때문에 시퀀스 기반 모델링이 단백질 구조를 예측하는 가장 정확한 방법이 아닐 수 있다는 것이다.

스레딩

스레딩은 시퀀스 ID가 아닌 접힌 유사성에 기반한 구조 모델링. 이 방법은 멀리 연관되어 있는 단백질을 식별하는 데 도움이 될 수 있으며 분자 기능을 유추하는 데 사용될 수 있다.

구조 유전체학의 예

현재 주어진 단백질의 모든 단백질 구조를 해결하기 위한 많은 노력이 있다.

테르모토고마리마 프로테오메

구조유전체학 공동센터(JCSG)의 현재 목표 중 하나인 단백질 구조 이니셔티브(PSI)의 일부는 열성 세균인 테르모토고 마리티마의 모든 단백질 구조를 해결하는 것이다. T. 마리티마는 1,877개의 유전자로 구성된 비교적 작은 게놈과 열성 박테리아에 의해 표현된 단백질이 결정되기 쉽다는 가설을 바탕으로 구조 유전체학 대상으로 선정되었다.

레슬리 외 연구진대장균을 사용하여 T. 마티마의 모든 개방형 읽기 프레임(ORF)을 표현했다. 그리고 나서 이 단백질들은 결정화되었고 구조들은 X선 결정학을 이용하여 성공적으로 결정화된 단백질을 위해 결정되었다. 다른 구조 중에서도 이러한 구조 유전체학 접근방식은 TM0449 단백질의 구조를 결정할 수 있도록 했으며, 이는 알려진 단백질과 구조 호몰로학을 공유하지 않아 새로운 접이식을 보이는 것으로 밝혀졌다.[4]

미코박테리움 결핵 프로테오메

결핵구조유전체학 컨소시엄의 목표는 결핵을 일으키는 세균인 마이코박테리움 결핵의 잠재적 약물 표적 구조를 결정하는 것이다. 다약 내성 결핵의 문제가 커지고 있는 상황에서 결핵에 대한 새로운 약물 치료법의 개발은 특히 중요하다.

완전히 염기서열화된 M. 결핵의 게놈은 과학자들이 이러한 단백질 목표의 많은 부분을 X선 결정학에 의한 정화 및 구조 결정을 위한 표현 벡터로 복제할 수 있게 했다. 연구 결과 병원체 발생에 관여할 수 있는 세포외 단백질, 철분 조절 단백질, 현재의 약물 표적, 새로운 접힘이 있을 것으로 예측되는 단백질 등 구조 결정을 위한 표적 단백질이 다수 확인됐다. 지금까지 M. 결핵으로 인코딩된 단백질 중 708개에 대한 구조가 결정되었다.

단백질 구조 데이터베이스 및 분류

참고 항목

참조

  1. ^ Chandonia JM, Brenner SE (January 2006). "The impact of structural genomics: expectations and outcomes". Science. 311 (5759): 347–51. Bibcode:2006Sci...311..347C. doi:10.1126/science.1121018. PMID 16424331. S2CID 800902.
  2. ^ Kuhn P, Wilson K, Patch MG, Stevens RC (October 2002). "The genesis of high-throughput structure-based drug discovery using protein crystallography". Curr Opin Chem Biol. 6 (5): 704–10. doi:10.1016/S1367-5931(02)00361-7. PMID 12413557.
  3. ^ Baker D, Sali A (October 2001). "Protein structure prediction and structural genomics". Science. 294 (5540): 93–6. Bibcode:2001Sci...294...93B. doi:10.1126/science.1065659. PMID 11588250. S2CID 7193705.
  4. ^ Lesley SA, Kuhn P, Godzik A, et al. (September 2002). "Structural genomics of the Thermotoga maritima proteome implemented in a high-throughput structure determination pipeline". Proc. Natl. Acad. Sci. U.S.A. 99 (18): 11664–9. Bibcode:2002PNAS...9911664L. doi:10.1073/pnas.142413399. PMC 129326. PMID 12193646.

추가 읽기

외부 링크