단백질함수예측
Protein function prediction단백질 함수 예측 방법은 생물정보학 연구자들이 단백질에 생물학적 또는 생화학적 역할을 할당하기 위해 사용하는 기법이다.이 단백질들은 대개 유전체 서열 데이터를 바탕으로 연구되거나 예측이 잘 되지 않는 단백질들이다.이러한 예측은 종종 데이터 집약적인 계산 절차에 의해 주도된다.정보는 핵산 염기서열 동질학, 유전자 발현 프로파일, 단백질 도메인 구조, 출판물의 텍스트 마이닝, 계통학적 프로파일, 표현형 프로필, 단백질과 단백질의 상호작용에서 나올 수 있다.단백질 함수는 넓은 용어로, 단백질의 역할은 생화학적 반응의 촉매로부터 운반, 신호 전달에 이르기까지 다양하며, 단일 단백질은 복수의 과정이나 세포 경로에서 역할을 할 수 있다.[1]null
일반적으로, 기능은 "단백질에게 또는 단백질을 통해 일어나는 모든 것"[1]이라고 생각할 수 있다.Gene Ontology Consortium은 분자함수, 생물학적 과정, 세포성분의 세 가지 주요 범주로 나뉜 잘 정의된 용어의 사전을 바탕으로 함수의 유용한 분류를 제공한다.[2]연구자들은 이 데이터베이스를 단백질 이름이나 등록 번호로 조회하여 컴퓨터나 실험 증거에 근거한 관련 유전자 온톨로지(GO) 용어나 주석을 검색할 수 있다.null
미세배열 분석, RNA 간섭, 효모 투 하이브리드 시스템과 같은 기법은 단백질의 기능을 실험적으로 입증하는데 사용될 수 있지만, 염기서열 기술의 발전은 단백질이 새로운 염기서열을 이용할 수 있는 속도보다 훨씬 느리게 실험적으로 특징지을 수 있는 속도를 만들었다.[3]따라서, 이러한 유형의 주석들은 종종 한 번에 많은 유전자나 단백질에 대해 신속하게 이루어질 수 있기 때문에, 새로운 시퀀스의 주석들은 대부분 계산 방법을 통한 예측에 의해 이루어진다.첫 번째 그러한 방법은 알려진 기능을 가진 동음이의 단백질에 근거하여 기능을 추론하였다(동음이의 기반 함수 예측).문맥 기반 및 구조 기반 방법의 개발은 예측 가능한 정보를 확장시켰고, 이제 시퀀스 데이터를 기반으로 완전한 세포 경로의 그림을 얻기 위해 조합된 방법을 사용할 수 있게 되었다.[3]유전자 함수의 계산 예측의 중요성과 유병성은 GO 데이터베이스가 사용한 '증거 코드'의 분석에 의해 강조된다. 2010년 현재, 주석 중 98%가 (전자 주석에서 유입된) 코드 IEA에 기재된 반면, 실험 증거에 근거한 것은 0.6%에 불과했다.[4]null
호몰로지 기반 방법
유사한 염기서열의 단백질은 보통 동음이의어여서[5] 비슷한 기능을 가지고 있다.따라서 새로 배열된 게놈의 단백질은 관련 게놈의 유사한 단백질 순서를 이용하여 일상적으로 주석을 달게 된다.null
그러나 밀접하게 연관된 단백질들이 항상 같은 기능을 공유하는 것은 아니다.[6]예를 들어 효모 Gal1과 Gal3 단백질은 갈락토키나아제인 Gal1과 전사유도제인 Gal3와 매우 다른 기능을 진화시킨 파라로그(정체성 73%, 유사성 92%)이다.[7]null
"안전한" 함수 예측을 위한 하드 시퀀스 유사성 임계값은 없다. 거의 검출되지 않는 시퀀스 유사성의 많은 단백질은 같은 기능을 가지고 있는 반면, 다른 단백질(Gal1과 Gal3 등)은 매우 유사하지만 다른 기능을 진화시켰다.경험의 법칙으로서, 30~40% 이상 동일한 시퀀스는 대개 동일하거나 매우 유사한 기능을 갖는 것으로 간주된다.null
효소의 경우, 활성 부위에서 몇 개의 주요 잔류물만 필요로 하기 때문에 매우 다른 시퀀스들이 매우 유사한 활동을 할 수 있기 때문에 특정 기능의 예측은 특히 어렵다.이와는 대조적으로 70% 이상의 시퀀스 아이덴티티에도 불구하고, 효소 쌍의 10%는 서로 다른 기판을 가지고 있으며, 실제 효소 반응의 차이는 50% 시퀀스 아이덴티티 근처에서 드물지 않다.[8][9]null
시퀀스 모티브 기반 방법
Pfam(Protein Families Database)[10]과 같은 단백질 도메인 데이터베이스를 개발하면 쿼리 순서 내에서 알려진 도메인을 찾을 수 있어 가능한 기능에 대한 증거를 제공할 수 있다.dcGO 웹[11] 사이트는 개별 도메인과 초연속 도메인(즉, 둘 이상의 연속 도메인 조합)에 대한 주석을 포함하므로 보다 현실적인 방식으로 함수 예측을 가능하게 한다.단백질 도메인 내에서는 '모티프'로 알려진 짧은 서명이 특정 기능과 연관되어 있으며,[12] PROSITE('단백질 도메인, 패밀리, 기능 사이트 데이터베이스')와 같은 모티브 데이터베이스를 조회 시퀀스를 이용하여 검색할 수 있다.[13]예를 들어 모티브는 단백질(합성 후 단백질이 전달되는 세포 내)의 세포하 국산화 예측에 사용될 수 있다.짧은 신호 펩타이드들은 특정 단백질을 미토콘드리아와 같은 특정 장소로 유도하며, 단백질 순서에서 이러한 신호를 예측하기 위한 다양한 도구가 존재한다.[14]예를 들어, 방법이 개선됨에 따라 여러 번 갱신된 시그널P.[15]따라서 단백질의 기능 측면은 다른 전체 길이의 호몰로겐 단백질 시퀀스와 비교하지 않고 예측할 수 있다.null
구조 기반 방법
3D 단백질 구조는 일반적으로 단백질 서열보다 잘 보존되기 때문에 구조 유사성은 둘 이상의 단백질에서 유사한 기능을 나타내는 좋은 지표다.[6][12]많은 프로그램들이 단백질 자료 Bank[16]에 Twists으로 알려진 단백질 구조와 보고 비슷한 구조(예를 들어, FATCAT(가변형 구조 AlignmenT 체인 AFPs(Aligned 단편 Pairs)을 상영하기),[17]CE(조합 연장)[18]cm이고 DeepAlign(공간 근접성을 넘어 단백질 분자 구조 정렬)이 개발 되어왔다.[19]마찬가지로 유니프로트와 같은 주요 단백질 데이터베이스에는 구조 데이터베이스에 대해 주어진 단백질 시퀀스를 검색하고 알려진 구조의 관련 단백질과 연결하는 도구가 내장되어 있다.null
단백질 구조 예측
단백질 시퀀스 중 다수가 해결된 구조가 없는 상황에 대처하기 위해 먼저 시퀀스의 3D 모델을 예측한 후 구조 기반 방법을 사용하여 예측한 3D 모델을 기반으로 함수를 예측할 수 있는 RaptorX와 같은 일부 함수 예측 서버도 개발된다.많은 경우 전체 단백질 구조 대신 활성 사이트나 결합 사이트를 나타내는 특정 모티브의 3D 구조를 타겟으로 할 수 있다.[12][20][21][22][23]Mary Jo Ondrechen과 학생들이 개발한 구조 정렬 로컬 활동 사이트(SALSA) 방법은 개별 아미노산의 계산된 화학적 특성을 활용하여 지역 생화학 활성 사이트를 식별한다.촉매 사이트 아틀라스와[24] 같은 데이터베이스는 새로운 단백질 시퀀스를 사용하여 검색하여 특정 기능 사이트를 예측할 수 있도록 개발되었다.null
연산용제 매핑

단백질 함수 예측과 관련된 어려움 중 하나는 활성 부위의 발견이다.이는 단백질이 작은 분자의 결합에 의해 야기되는 순응적 변화를 겪을 때까지 형성되지 않는 특정 활성 부위(본질적으로 존재하는 부위)에 의해 복잡해진다.대부분의 단백질 구조는 정제된 단백질 결정이 필요한 X선 결정학에 의해 결정되었다.결과적으로, 기존 구조 모델은 일반적으로 정제된 단백질의 것이므로 단백질이 작은 분자와 상호작용할 때 생성되는 순응적 변화가 부족하다.[26]null
컴퓨터 용매 매핑은 단백질 표면 위로 계산적으로 '움직이는' 프로브(작은 유기 분자)가 군집화 경향이 있는 부위를 탐색하는 것을 활용한다.다수의 서로 다른 프로브가 일반적으로 다양한 단백질-프로브 순응을 얻는 것을 목표로 적용된다.생성된 군집은 군집의 평균 자유 에너지를 기준으로 순위가 매겨진다.다중 탐침을 계산적으로 매핑한 후, 상대적으로 많은 수의 군집이 형성되는 단백질 부위는 일반적으로 단백질의 활성 부위와 일치한다.[26]null
이 기법은 1996년부터 '웨트랩' 작품을 컴퓨터화한 것이다.다른 용매에 매달려 있는 동안 단백질의 구조를 확인한 다음 그 구조물을 서로 겹치는 것은 단백질의 활성 부위에서 전형적으로 유기 용매 분자(단백질이 매달려 있는 것)가 모여 있는 데이터를 생성하는 것으로 밝혀졌다.이 작업은 X선 결정학에 의해 생성된 전자 밀도 지도에서 물 분자가 보인다는 것을 깨닫는 대응으로 수행되었다.물 분자는 단백질과 상호 작용하고 있으며 단백질의 극지방에서 군집하는 경향이 있다.이로 인해 정제된 단백질 결정을 다른 용매(예: 에탄올, 이소프로판올 등)에 담가 이러한 분자들이 단백질에 어디에서 군집하는지 판단하게 되었다.용제는 근사치, 즉 이 단백질이 어떤 분자와 상호작용할 수 있는지에 기초하여 선택할 수 있다(예: 에탄올은 아미노산 세린과의 상호작용을 탐사할 수 있고 이소프로판올은 트레오닌을 탐사할 수 있다).단백질 결정이 각각의 용매에서 3차 구조를 유지하는 것이 중요하다.이 프로세스는 여러 용제에 대해 반복되며, 그 다음 이 데이터를 사용하여 단백질의 잠재적인 활성 부위를 확인할 수 있다.[27]10년 후 이 기술은 클로드펠터 외 연구진에 의해 알고리즘으로 개발되었다.null
게놈 문맥 기반 방법
단백질 함수 예측을 위한 많은 새로운 방법들은 위와 같은 순서나 구조의 비교가 아니라 새로운 유전자/단백질들과 이미 주석을 가지고 있는 유전자/단백질 사이의 어떤 종류의 상관관계에 기초한다.유전자의 국소 유전체 또는 유전체 문맥과 구조에서 유전자 기능을 예측하기 위한 몇 가지 방법이 개발되었다.
계통학적 프로파일링은 서로 다른 많은 게놈에서 존재 또는 부재 패턴이 같은 둘 이상의 단백질이 기능적 연관성을 가질 가능성이 높다는 관찰에 근거한다.[12][28]호몰로지 기반 방법은 종종 단백질의 분자 기능을 식별하기 위해 사용될 수 있는 반면, 맥락 기반 접근법은 세포 기능 또는 단백질이 작용하는 생물학적 과정을 예측하기 위해 사용될 수 있다.[3][28]예를 들어, 동일한 대사 경로에 관여하는 단백질은 게놈에 함께 존재하거나 아예 존재하지 않을 가능성이 높으며, 이러한 유전자들이 기능적인 맥락에서 함께 작용한다는 것을 시사한다.null

피연산자는 함께 전승되는 유전자의 군집이다.공동번역 자료에 근거하지만 또한 많은 박테리아에 걸쳐 종종 피연산자의 유전자의 순서가 보존된다는 사실에 근거하여 이들이 함께 행동한다는 것을 나타낸다.[29]null
유전자 융합은 두 개 이상의 유전자가 한 유기체에서 두 개 이상의 단백질을 암호화하고 진화를 통해 결합하여 다른 유기체에서 하나의 유전자가 될 때 발생한다(또는 그 반대로 유전자 핵분열은 그 반대).[3][30]예를 들어, 이 개념은 다른 게놈의 호몰로지에 대한 모든 대장균 단백질 시퀀스를 검색하고 다른 게놈의 단일 단백질에 대한 공유 호몰로지를 포함한 6000쌍 이상의 시퀀스를 찾는데 사용되어 왔으며, 이는 각 쌍들 간의 잠재적 상호작용을 나타낸다.[30]각 단백질 쌍의 두 염기서열은 호몰로호르몬이 아니기 때문에 호몰로지 기반 방법을 사용하여 이러한 상호작용을 예측할 수 없었다.null
유전자 발현 및 위치 기반 방법
원핵생물에서, 게놈에서 물리적으로 가까운 유전자의 군집은 진화를 통해 함께 보존하는 경우가 많고, 같은 피연산자에 상호 작용하거나 일부인 단백질을 인코딩하는 경향이 있다.[3]따라서 염색체 근접성은 유전자 인접법이라고도[31] 불리며 최소한 원핵생물에서 단백질 사이의 기능적 유사성을 예측하는 데 사용될 수 있다.염색체 근접성은 호모 사피엔스를 포함한 선택된 진핵 게놈의 일부 경로에도 적용되는 것으로 보여졌으며,[32] 추가 개발 유전자 인접 방법은 진핵생물의 단백질 상호작용을 연구하는 데 유용할 수 있다.[28]null
유사한 기능에 관여하는 유전자도 공동번역되는 경우가 많으므로, 비고지 단백질이 공동발현하는 단백질과 관련된 기능을 갖는다고 예측할 수 있다.[12]이 접근법을 바탕으로 개발된 연관 알고리즘에 의한 죄책감은 대량의 시퀀스 데이터를 분석하고 알려진 유전자와 유사한 표현 패턴을 가진 유전자를 식별하는 데 사용될 수 있다.[33][34]흔히 연관성 연구에 의한 죄책감 연구에서는 후보 유전자 그룹(예: 특정 질병과 연관되어 있는 것으로 알려진 유전자의 그룹)을 대상 그룹(예: 특정 질병과 연관되어 있는 것으로 알려진 유전자 그룹)과 비교하고, 데이터를 바탕으로 대상 그룹에 속할 가능성에 따라 후보 유전자의 순위를 매긴다.[35]그러나 최근 연구를 바탕으로 이러한 유형의 분석에는 몇 가지 문제가 존재한다는 것이 제시되었다.예를 들어, 많은 단백질들이 다기능적이기 때문에, 그것들을 인코딩하는 유전자들은 몇 개의 표적 그룹에 속할 수 있다.그러한 유전자는 결부 연구에 의해 죄의식에서 확인될 가능성이 높기 때문에 예측은 구체적이지 않다는 주장이다.[35]null
대체적으로 분할된 이소폼에 대한 표현 프로파일을 추정할 수 있는 RNA-seq 데이터가 축적되면서, 이소폼 수준에서 기능을 예측하고 차별화하는 기계학습 알고리즘도 개발되었다.[36]이는 기능 예측에서 새롭게 부상하는 연구 영역을 나타내며, 이질적인 대규모 유전체 데이터를 통합하여 이소폼 수준에서 기능을 추론한다.[37]null
네트워크 기반 방법
연관 유형 알고리즘에 의한 죄책감은 주어진 유전자 또는 단백질의 대상 그룹에 대한 기능적 연관 네트워크를 생성하기 위해 사용될 수 있다.[38]이러한 네트워크는 노드가 유전자/단백질을 나타내며 공유 기능의 증거를 나타내는 가장자리에 의해 서로 연결되어 있는 유전자 그룹 내에서 공유/비슷한 기능에 대한 증거를 나타내는 역할을 한다.[39]null
통합 네트워크
서로 다른 데이터 소스를 기반으로 한 여러 네트워크를 복합 네트워크로 결합할 수 있으며, 이를 예측 알고리즘에 의해 후보 유전자나 단백질의 주석을 달 수 있다.[40]예를 들어 바이오PIX 개발자IE 시스템은 해당 종에 대한 복합 기능 네트워크를 생성하기 위해 광범위한 사카로마이오스 세레비시아(예스트) 유전체 데이터를 사용했다.[41]이 자원은 생물학적 프로세스를 대표하는 알려진 네트워크의 시각화와 그 네트워크의 새로운 구성요소의 예측을 가능하게 한다.여러 데이터 소스의 통합(예: 유전체, 단백질, 단백질 상호작용 등)에 근거하여 기능을 예측하는 알고리즘이 많이 개발되었으며, 이전에 주석이 붙은 유전자에 대한 테스트는 높은 정확도를 나타낸다.[39][42]일부 함수 예측 알고리즘의 단점에는 접근성의 부족과 분석에 필요한 시간이 포함되어 있다.그러나 GeneMANIA(다중 연관 네트워크 통합 알고리즘)와 같은 보다 빠르고 정확한 알고리즘이 최근 개발되어[40] 웹상에서 공개되고 있어 향후 기능 예측의 향방을 알 수 있다.null
단백질 함수 예측을 위한 도구 및 데이터베이스
문자열: 기능 예측을 위해 다양한 데이터 소스를 통합하는 웹 도구.[43]null
VisANT: 네트워크 및 통합 시각 데이터 마이닝의 시각적 분석.[44]null
Mantis: 다수의 참조 데이터베이스를 동적으로 통합하는 컨센서스 기반 기능 예측 도구.[45]null
참고 항목
참조
- ^ a b Rost B, Liu J, Nair R, Wrzeszczynski KO, Ofran Y (December 2003). "Automatic prediction of protein function". Cellular and Molecular Life Sciences. 60 (12): 2637–50. doi:10.1007/s00018-003-3114-8. PMID 14685688. S2CID 8800506.
- ^ Ashburner M, Ball CA, Blake JA, Botstein D, Butler H, Cherry JM, Davis AP, Dolinski K, Dwight SS, Eppig JT, Harris MA, Hill DP, Issel-Tarver L, Kasarskis A, Lewis S, Matese JC, Richardson JE, Ringwald M, Rubin GM, Sherlock G (May 2000). "Gene ontology: tool for the unification of biology. The Gene Ontology Consortium". Nature Genetics. 25 (1): 25–9. doi:10.1038/75556. PMC 3037419. PMID 10802651.
- ^ a b c d e Gabaldón T, Huynen MA (April 2004). "Prediction of protein function and pathways in the genome era". Cellular and Molecular Life Sciences. 61 (7–8): 930–44. doi:10.1007/s00018-003-3387-y. PMID 15095013. S2CID 18032660.
- ^ du Plessis L, Skunca N, Dessimoz C (November 2011). "The what, where, how and why of gene ontology--a primer for bioinformaticians". Briefings in Bioinformatics. 12 (6): 723–35. doi:10.1093/bib/bbr002. PMC 3220872. PMID 21330331.
- ^ Reeck GR, de Haën C, Teller DC, Doolittle RF, Fitch WM, Dickerson RE, et al. (August 1987). ""Homology" in proteins and nucleic acids: a terminology muddle and a way out of it". Cell. 50 (5): 667. doi:10.1016/0092-8674(87)90322-9. PMID 3621342. S2CID 42949514.
- ^ a b Whisstock JC, Lesk AM (August 2003). "Prediction of protein function from protein sequence and structure". Quarterly Reviews of Biophysics. 36 (3): 307–40. doi:10.1017/S0033583503003901. PMID 15029827. S2CID 27123114.
- ^ Platt A, Ross HC, Hankin S, Reece RJ (March 2000). "The insertion of two amino acids into a transcriptional inducer converts it into a galactokinase". Proceedings of the National Academy of Sciences of the United States of America. 97 (7): 3154–9. Bibcode:2000PNAS...97.3154P. doi:10.1073/pnas.97.7.3154. PMC 16208. PMID 10737789.
- ^ Rost B (April 2002). "Enzyme function less conserved than anticipated". Journal of Molecular Biology. 318 (2): 595–608. doi:10.1016/S0022-2836(02)00016-5. PMID 12051862.
- ^ Tian W, Skolnick J (October 2003). "How well is enzyme function conserved as a function of pairwise sequence identity?". Journal of Molecular Biology. 333 (4): 863–82. CiteSeerX 10.1.1.332.4052. doi:10.1016/j.jmb.2003.08.057. PMID 14568541.
- ^ Finn RD, Mistry J, Tate J, Coggill P, Heger A, Pollington JE, Gavin OL, Gunasekaran P, Ceric G, Forslund K, Holm L, Sonnhammer EL, Eddy SR, Bateman A (January 2010). "The Pfam protein families database". Nucleic Acids Research. 38 (Database issue): D211–22. doi:10.1093/nar/gkp985. PMC 2808889. PMID 19920124.
- ^ Fang H, Gough J (January 2013). "DcGO: database of domain-centric ontologies on functions, phenotypes, diseases and more". Nucleic Acids Research. 41 (Database issue): D536–44. doi:10.1093/nar/gks1080. PMC 3531119. PMID 23161684.
- ^ a b c d e Sleator RD, Walsh P (March 2010). "An overview of in silico protein function prediction". Archives of Microbiology. 192 (3): 151–5. doi:10.1007/s00203-010-0549-9. PMID 20127480. S2CID 8932206.
- ^ Sigrist CJ, Cerutti L, de Castro E, Langendijk-Genevaux PS, Bulliard V, Bairoch A, Hulo N (January 2010). "PROSITE, a protein domain database for functional characterization and annotation". Nucleic Acids Research. 38 (Database issue): D161–6. doi:10.1093/nar/gkp885. PMC 2808866. PMID 19858104.
- ^ Menne KM, Hermjakob H, Apweiler R (August 2000). "A comparison of signal sequence prediction methods using a test set of signal peptides". Bioinformatics. 16 (8): 741–2. doi:10.1093/bioinformatics/16.8.741. PMID 11099261.
- ^ Petersen TN, Brunak S, von Heijne G, Nielsen H (September 2011). "SignalP 4.0: discriminating signal peptides from transmembrane regions". Nature Methods. 8 (10): 785–6. doi:10.1038/nmeth.1701. PMID 21959131. S2CID 16509924.
- ^ Berman HM, Westbrook J, Feng Z, Gilliland G, Bhat TN, Weissig H, Shindyalov IN, Bourne PE (January 2000). "The Protein Data Bank". Nucleic Acids Research. 28 (1): 235–42. doi:10.1093/nar/28.1.235. PMC 102472. PMID 10592235.
- ^ Ye Y, Godzik A (July 2004). "FATCAT: a web server for flexible structure comparison and structure similarity searching". Nucleic Acids Research. 32 (Web Server issue): W582–5. doi:10.1093/nar/gkh430. PMC 441568. PMID 15215455.
- ^ Shindyalov IN, Bourne PE (September 1998). "Protein structure alignment by incremental combinatorial extension (CE) of the optimal path". Protein Engineering. 11 (9): 739–47. doi:10.1093/protein/11.9.739. PMID 9796821.
- ^ Wang S, Ma J, Peng J, Xu J (March 2013). "Protein structure alignment beyond spatial proximity". Scientific Reports. 3: 1448. Bibcode:2013NatSR...3E1448W. doi:10.1038/srep01448. PMC 3596798. PMID 23486213.
- ^ Parasuram R, Lee JS, Yin P, Somarowthu S, Ondrechen MJ (December 2010). "Functional classification of protein 3D structures from predicted local interaction sites". Journal of Bioinformatics and Computational Biology. 8 Suppl 1: 1–15. doi:10.1142/s0219720010005166. PMID 21155016.
- ^ a b Wang Z, Yin P, Lee JS, Parasuram R, Somarowthu S, Ondrechen MJ (2013). "Protein function annotation with Structurally Aligned Local Sites of Activity (SALSAs)". BMC Bioinformatics. 14 Suppl 3: S13. doi:10.1186/1471-2105-14-S3-S13. PMC 3584854. PMID 23514271.
- ^ Garma LD, Juffer AH (April 2016). "Comparison of non-sequential sets of protein residues". Computational Biology and Chemistry. 61: 23–38. doi:10.1016/j.compbiolchem.2015.12.004. PMID 26773655.
- ^ Garma LD, Medina M, Juffer AH (November 2016). "Structure-based classification of FAD binding sites: A comparative study of structural alignment tools". Proteins. 84 (11): 1728–1747. doi:10.1002/prot.25158. PMID 27580869. S2CID 26066208.
- ^ Porter CT, Bartlett GJ, Thornton JM (January 2004). "The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data". Nucleic Acids Research. 32 (Database issue): D129–33. doi:10.1093/nar/gkh028. PMC 308762. PMID 14681376.
- ^ Wang G, MacRaild CA, Mohanty B, Mobli M, Cowieson NP, Anders RF, Simpson JS, McGowan S, Norton RS, Scanlon MJ (2014). "Molecular insights into the interaction between Plasmodium falciparum apical membrane antigen 1 and an invasion-inhibitory peptide". PLOS ONE. 9 (10): e109674. Bibcode:2014PLoSO...9j9674W. doi:10.1371/journal.pone.0109674. PMC 4208761. PMID 25343578.
- ^ a b Clodfelter KH, Waxman DJ, Vajda S (August 2006). "Computational solvent mapping reveals the importance of local conformational changes for broad substrate specificity in mammalian cytochromes P450". Biochemistry. 45 (31): 9393–407. doi:10.1021/bi060343v. PMID 16878974.
- ^ Mattos C, Ringe D (May 1996). "Locating and characterizing binding sites on proteins". Nature Biotechnology. 14 (5): 595–9. doi:10.1038/nbt0596-595. PMID 9630949. S2CID 20273975.
- ^ a b c Eisenberg D, Marcotte EM, Xenarios I, Yeates TO (June 2000). "Protein function in the post-genomic era". Nature. 405 (6788): 823–6. doi:10.1038/35015694. PMID 10866208. S2CID 4398864.
- ^ Okuda S, Yoshizawa AC (January 2011). "ODB: a database for operon organizations, 2011 update". Nucleic Acids Research. 39 (Database issue): D552–D555. doi:10.1093/nar/gkq1090. PMC 3013687. PMID 21051344.
- ^ a b Marcotte EM, Pellegrini M, Ng HL, Rice DW, Yeates TO, Eisenberg D (July 1999). "Detecting protein function and protein-protein interactions from genome sequences". Science. 285 (5428): 751–3. CiteSeerX 10.1.1.535.9650. doi:10.1126/science.285.5428.751. PMID 10427000.
- ^ Overbeek R, Fonstein M, D'Souza M, Pusch GD, Maltsev N (March 1999). "The use of gene clusters to infer functional coupling". Proceedings of the National Academy of Sciences of the United States of America. 96 (6): 2896–901. Bibcode:1999PNAS...96.2896O. doi:10.1073/pnas.96.6.2896. PMC 15866. PMID 10077608.
- ^ Lee JM, Sonnhammer EL (May 2003). "Genomic gene clustering analysis of pathways in eukaryotes". Genome Research. 13 (5): 875–82. doi:10.1101/gr.737703. PMC 430880. PMID 12695325.
- ^ Walker MG, Volkmuth W, Sprinzak E, Hodgson D, Klingler T (December 1999). "Prediction of gene function by genome-scale expression analysis: prostate cancer-associated genes". Genome Research. 9 (12): 1198–203. doi:10.1101/gr.9.12.1198. PMC 310991. PMID 10613842.
- ^ Klomp JA, Furge KA (July 2012). "Genome-wide matching of genes to cellular roles using guilt-by-association models derived from single sample analysis". BMC Research Notes. 5 (1): 370. doi:10.1186/1756-0500-5-370. PMC 3599284. PMID 22824328.
- ^ a b Pavlidis P, Gillis J (2012). "Progress and challenges in the computational prediction of gene function using networks". F1000Research. 1 (14): 14. doi:10.3410/f1000research.1-14.v1. PMC 3782350. PMID 23936626.
- ^ Eksi R, Li HD, Menon R, Wen Y, Omenn GS, Kretzler M, Guan Y (Nov 2013). "Systematically differentiating functions for alternatively spliced isoforms through integrating RNA-seq data". PLOS Computational Biology. 9 (11): e1003314. Bibcode:2013PLSCB...9E3314E. doi:10.1371/journal.pcbi.1003314. PMC 3820534. PMID 24244129.
- ^ Li HD, Menon R, Omenn GS, Guan Y (August 2014). "The emerging era of genomic data integration for analyzing splice isoform function". Trends in Genetics. 30 (8): 340–7. doi:10.1016/j.tig.2014.05.005. PMC 4112133. PMID 24951248.
- ^ Schwikowski, Benno; Uetz, Peter; Fields, Stanley (December 2000). "A network of protein–protein interactions in yeast". Nature Biotechnology. 18 (12): 1257–1261. doi:10.1038/82360. ISSN 1087-0156.
- ^ a b Sharan R, Ulitsky I, Shamir R (2007). "Network-based prediction of protein function". Molecular Systems Biology. 3 (88): 88. doi:10.1038/msb4100129. PMC 1847944. PMID 17353930.
- ^ a b Mostafavi S, Ray D, Warde-Farley D, Grouios C, Morris Q (2008). "GeneMANIA: a real-time multiple association network integration algorithm for predicting gene function". Genome Biology. 9 (Suppl 1): S4. doi:10.1186/gb-2008-9-s1-s4. PMC 2447538. PMID 18613948.
- ^ Myers CL, Robson D, Wible A, Hibbs MA, Chiriac C, Theesfeld CL, Dolinski K, Troyanskaya OG (2005). "Discovery of biological networks from diverse functional genomic data". Genome Biology. 6 (13): R114. doi:10.1186/gb-2005-6-13-r114. PMC 1414113. PMID 16420673.
- ^ Peña-Castillo L, Tasan M, Myers CL, Lee H, Joshi T, Zhang C, Guan Y, Leone M, Pagnani A, Kim WK, Krumpelman C, Tian W, Obozinski G, Qi Y, Mostafavi S, Lin GN, Berriz GF, Gibbons FD, Lanckriet G, Qiu J, Grant C, Barutcuoglu Z, Hill DP, Warde-Farley D, Grouios C, Ray D, Blake JA, Deng M, Jordan MI, Noble WS, Morris Q, Klein-Seetharaman J, Bar-Joseph Z, Chen T, Sun F, Troyanskaya OG, Marcotte EM, Xu D, Hughes TR, Roth FP (2008). "A critical assessment of Mus musculus gene function prediction using integrated genomic evidence". Genome Biology. 9 (Suppl 1): S2. doi:10.1186/gb-2008-9-s1-s2. PMC 2447536. PMID 18613946.
- ^ Szklarczyk D, Morris JH, Cook H, Kuhn M, Wyder S, Simonovic M, Santos A, Doncheva NT, Roth A, Bork P, Jensen LJ, von Mering C (January 2017). "The STRING database in 2017: quality-controlled protein-protein association networks, made broadly accessible". Nucleic Acids Research. 45 (D1): D362–D368. doi:10.1093/nar/gkw937. PMC 5210637. PMID 27924014.
- ^ Granger BR, Chang YC, Wang Y, DeLisi C, Segrè D, Hu Z (April 2016). "Visualization of Metabolic Interaction Networks in Microbial Communities Using VisANT 5.0". PLOS Computational Biology. 12 (4): e1004875. Bibcode:2016PLSCB..12E4875G. doi:10.1371/journal.pcbi.1004875. PMC 4833320. PMID 27081850.
- ^ Queirós P, Delogu F, Hickl O, May P, Wilmes P (June 2021). "Mantis: flexible and consensus-driven genome annotation". GigaScience. 10 (6). doi:10.1093/gigascience/giab042. PMC 8170692. PMID 34076241.
외부 링크
- dcGO 데이터베이스
- 단백질 데이터 뱅크
- 촉매 사이트 아틀라스
- 모델 보조 단백질 함수 예측을 위한 RaptorX 서버
- Blow2GO, 단백질 함수 예측 및 기능 주석(웹 페이지)을 위한 고투과 도구.