생체분자 객체 네트워크 데이터 뱅크

Biomolecular Object Network Databank

생체 분자 객체 네트워크 데이터 뱅크는 작은 분자 구조와 상호 작용에 대한 정보를 포함하는 생체 정보학 데이터 뱅크입니다.데이터 뱅크는 주어진 분자에 대해 현재 사용 가능한 정보에 대한 포괄적인 개요를 제공하기 위해 다수의 기존 데이터베이스를 통합합니다.

배경

유대
개발자크리스토퍼 호그 외, 새뮤얼 루넨펠트 연구소, 시나이 산.상업적 권리: 언리쉬드 인포매틱스
안정적 방출
BIND 4.0, SMID 제품군
유형생물정보학 도구
면허증.액세스 열기
웹사이트[1]

Blueprint Initiative는 Dr.의 연구실에서 연구 프로그램으로 시작되었습니다.토론토마운트 시나이 병원에 있는 새뮤얼 루넨펠트 연구소의 크리스토퍼 호그.2005년 12월 14일, Unlized Informationatics Limited는 Blueprint Initiative 지적 재산권에 대한 상업적 권리를 획득했습니다.여기에는 단백질 상호 작용 데이터베이스 BIND, 소분자 상호 작용 데이터베이스 SMID 및 데이터 웨어하우스 SeqHound에 대한 권한이 포함되었습니다.Unreshed Informatics는 데이터 관리 서비스 프로바이더이며 Dr.의 지도 하에 Blueprint Initiative의 관리 및 큐레이션을 감독하고 있습니다.호그.[1]

시공

BOND는 원래 Blueprint Initiative 데이터베이스뿐만 아니라 Genbank와 같은 다른 데이터베이스를 이러한 데이터 분석에 필요한 많은 도구와 통합합니다.분류법 식별자, 중복 시퀀스, 유전자 온톨로지 설명, Man 식별자의 온라인 멘델리안 상속, 보존된 도메인, 데이터베이스 상호 참조, LocusLink Identifier 및 완전한 게놈을 포함한 시퀀스에 대한 주석 링크도 사용할 수 있습니다.BOND는 데이터베이스 간 쿼리를 용이하게 하며 상호 작용 및 시퀀스 [2]데이터를 통합하는 개방형 액세스 리소스입니다.

소분자 상호작용 데이터베이스(SMID)

소분자 상호작용 데이터베이스는 단백질 도메인-소분자 상호작용을 포함하는 데이터베이스입니다.도메인 기반 접근 방식을 사용하여 쿼리 소분자와 상호 작용하는 CDD(Conserved Domain Database)에 있는 도메인 패밀리를 식별합니다.NCBI의 CDD는 단백질 패밀리(PFAM), 단순 모듈형 아키텍처 연구 도구(SMART), 직교 유전자 클러스터(COGs) 및 NCBI의 자체 큐레이션된 시퀀스와 같은 여러 다른 소스의 데이터를 통합합니다.SMID의 데이터는 알려진 단백질 결정 구조의 데이터베이스인 단백질 데이터 뱅크(PDB)에서 파생되었습니다.단백질 GI, 도메인 식별자, PDB ID 또는 SMID ID를 입력하여 SMID를 쿼리할 수 있습니다.검색 결과는 데이터베이스에서 식별된 각 상호 작용에 대한 작은 분자, 단백질 및 도메인 정보를 제공합니다.비생물학적 접촉과의 상호 작용은 일반적으로 기본적으로 선별 배제됩니다.

SMID-BLAST는 알려진 소분자 결합 부위에 주석을 달 뿐만 아니라 결정 구조가 아직 결정되지 않은 단백질의 결합 부위를 예측하기 위해 개발된 도구입니다.이 예측은 PDB에서 발견된 알려진 상호 작용의 외삽법을 기반으로 하며, 작은 분자의 관심을 가진 결정화되지 않은 단백질 사이의 상호 작용입니다.SMID-BLAST는 PDB의 알려진 작은 분자 상호 작용 테스트 세트에 대해 검증되었습니다.단백질-소분자 상호작용의 정확한 예측자로 나타났습니다. 예측된 상호작용의 60%는 PDB 주석 부착 부위와 동일하게 일치했으며, 이 중 73%는 단백질의 결합 잔류물의 80% 이상을 정확하게 식별했습니다.Hogue 등은 PDB 데이터에서 관찰되지 않은 예측의 45%가 실제로 참 [3]양성을 나타낸다고 추정했습니다.

생체 분자 상호 작용 네트워크 데이터베이스(BIND)

소개

알려진 모든 분자 상호작용을 기록하기 위한 데이터베이스의 아이디어는 원래 1990년대에 토니 포슨에 의해 제안되었고 나중에 토론토 대학의 과학자들에 의해 브리티시 컬럼비아 대학과 협력하여 개발되었습니다.생체 분자 상호 작용 네트워크 데이터베이스(BIND)의 개발은 캐나다 보건 연구소(CIHR), 게놈 캐나다,[4] 캐나다 혁신 재단 및 온타리오 연구 개발 기금의 보조금에 의해 지원되었습니다.BIND는 원래 생체분자 상호작용, 분자 복합체 및 경로에 관한 정보를 지속적으로 증가시키는 저장소로 설계되었습니다.프로테오믹스는 빠르게 발전하는 분야이기 때문에 과학 저널의 정보를 연구자들이 쉽게 이용할 수 있어야 합니다.BIND는 세포 과정에 관련된 분자 상호 작용과 경로의 이해를 촉진하고 결국 과학자들에게 발달 과정과 질병 발병에 대한 더 나은 이해를 제공할 것입니다.

BIND 프로젝트의 주요 목표는 모두가 이용할 수 있는 공개 단백질학 자원을 만드는 것, 다른 소스(PreBIND)에서 데이터 마이닝을 가능하게 하는 플랫폼을 만드는 것, 복잡한 분자 상호 작용의 시각화를 제시할 수 있는 플랫폼을 만드는 것입니다.처음부터 BIND는 개방형 액세스가 가능하며 소프트웨어를 자유롭게 배포 및 수정할 수 있습니다.현재 BIND에는 데이터 사양, 데이터베이스 및 관련 데이터 마이닝 및 시각화 도구가 포함되어 있습니다.결국, BIND가 각각의 주요 모델 유기체에서 발생하는 모든 상호 작용의 모음이 되기를 바랍니다.

데이터베이스 구조

BIND는 상호작용, 분자 복합체 및 경로의 세 가지 유형의 데이터에 대한 정보를 포함합니다.

  1. 상호 작용은 BIND의 기본 구성 요소이며 둘 이상의 개체(A 및 B)가 서로 상호 작용하는 방식을 설명합니다.그 물체들은 다양한 것들이 될 수 있습니다: DNA, RNA, 유전자, 단백질, 리간드, 또는 광자.상호 작용 항목은 분자에 대한 가장 많은 정보를 포함합니다; 그것은 분자의 이름과 동의어, 그것이 발견되는 위치(예: 세포 내의 어디, 어떤 종, 그것이 활동할 때 등), 그리고 그것의 순서 또는 그것의 순서를 찾을 수 있는 곳에 대한 정보를 제공합니다.또한 상호 작용 항목에는 결합 시험관 내 화학 역학(열역학운동학 포함)을 관찰하는 데 필요한 실험 조건이 요약되어 있습니다.
  2. BIND 항목의 두 번째 유형은 분자 복합체입니다.분자 복합체는 서로 결합할 때 안정적이고 기능을 하는 분자들의 집합체로 정의됩니다.레코드는 또한 다양한 상호 작용에서 복합체의 역할에 대한 일부 정보를 포함할 수 있으며 분자 복합체 항목은 2개 이상의 상호 작용 레코드의 데이터를 연결합니다.
  3. BIND의 세 번째 구성 요소는 경로 기록 섹션입니다.경로는 세포 과정의 조절과 관련된 상호 작용 네트워크로 구성됩니다.또한 이 섹션에는 경로와 관련된 표현형 및 질병에 대한 정보가 포함될 수 있습니다.


BIND에서 항목을 만드는 데 필요한 최소 정보는 PubMed 게시 참조와 다른 데이터베이스(: GenBank)의 항목입니다.데이터베이스 내의 각 항목은 데이터에 대한 참조/작성자를 제공합니다.BIND는 지속적으로 증가하는 데이터베이스이므로 BIND의 모든 구성 요소는 업데이트 및 [5]변경 사항을 추적합니다.

BIND는 ASN.1(Abstract Syntax Notification 1) 언어를 사용하여 작성된 데이터 사양을 기반으로 합니다.ASN.1은 NCBI에서도 Entrez 시스템을 위한 데이터를 저장할 때 사용되며, 이 BIND는 데이터 표현에 NCBI와 동일한 표준을 사용합니다.ASN.1 언어는 다른 데이터 사양 언어(: XML)로 쉽게 변환할 수 있고 복잡한 데이터를 쉽게 처리할 수 있으며 [5]단백질뿐만 아니라 모든 생물학적 상호 작용에 적용할 수 있기 때문에 선호됩니다.Bader와 Hogue(2000)는 [6]BIND에서 사용하는 ASN.1 데이터 사양에 대한 자세한 원고를 준비했습니다.

데이터 제출 및 큐레이션

데이터베이스에 대한 사용자 제출을 권장합니다.데이터베이스에 기여하려면 연락처 정보, PubMed 식별자 및 상호 작용하는 두 분자를 제출해야 합니다.레코드를 제출하는 사람은 레코드의 소유자입니다.모든 기록은 공개되기 전에 검증되며 BIND는 품질 보증을 위해 큐레이션됩니다.BIND 큐레이션에는 높은 처리량(HTP)과 낮은 처리량(LTP)의 두 가지 트랙이 있습니다.HTP 기록은 하나의 실험 방법론에서 40개 이상의 상호 작용 결과를 보고한 논문에서 나온 것입니다.HTP 큐레이터는 일반적으로 생물정보학적 배경을 가지고 있습니다.HTP 큐레이터는 실험 데이터의 스토리지 수집을 담당하며 새 게시를 기반으로 BIND를 업데이트하는 스크립트를 생성합니다.LTP 기록은 상호작용 연구에서 MSC 또는 박사 학위와 실험실 경험이 있는 개인에 의해 선별됩니다.LTP 큐레이터는 캐나다 생물정보학 워크숍을 통해 추가 교육을 받습니다.작은 분자 화학에 대한 정보는 큐레이터가 해당 주제에 대해 잘 알 수 있도록 화학자에 의해 별도로 큐레이션됩니다.BIND 큐레이션의 우선 순위는 게시된 정보를 수집하기 위해 LTP에 초점을 맞추는 것입니다.비록 HTP 연구가 한 번에 더 많은 정보를 제공하지만, 보고되는 LTP 연구가 더 많고 두 트랙에서 비슷한 수의 상호작용이 보고되고 있습니다.2004년에 BIND는 110개의 [7]저널에서 데이터를 수집했습니다.

데이터베이스 증가

BIND는 개념이 생긴 이후로 크게 성장했습니다. 실제로 2003년과 2004년 사이에 데이터베이스 항목이 10배 증가했습니다.2004년 9월까지 100,000개 이상의 상호작용 기록이 있습니다(단백질-단백질 58,266개, 유전자 4,225개, 단백질-소분자 874개, 단백질-DNA 25,857개, 생체고분자 19,348개 포함).데이터베이스에는 31,972개의 단백질, 4560개의 DNA 샘플, 759개의 RNA 샘플에 대한 서열 정보도 포함되어 있습니다.이러한 항목은 11,649개의 출판물에서 수집되었으므로 데이터베이스는 데이터의 중요한 통합을 나타냅니다.데이터베이스에 항목이 있는 유기체는 다음과 같습니다.사카로마이세스 세레비시아에, 드로소필라 멜라닌가스터, 호모 사피엔스, 무스쿨루스, 카이노하브디티스 엘레강스, 헬리코박터 파일로리, 보스타우루스, HIV-1, 갈루스 갈루스, 아라비도시스 탈리아나 및 기타.2004년 9월까지 총 901개의 세금이 포함되었으며 BIND는 BIND-Metazoa, BIND-Fungi 및 BIND-Taxroot로 [7]분할되었습니다.

데이터베이스에 포함된 정보가 지속적으로 업데이트될 뿐만 아니라 소프트웨어 자체도 여러 번 수정되었습니다.BIND 버전 1.0은 1999년에 출시되었으며 사용자 피드백을 기반으로 바인딩에 필요한 실험 조건에 대한 추가 세부 정보와 상호 작용의 세포 위치에 대한 계층적 설명을 포함하도록 수정되었습니다.버전 2.0은 2001년에 출시되었으며 다른 [5]데이터베이스에서 사용할 수 있는 정보에 연결하는 기능을 포함했습니다.버전 3.0(2002)은 물리적/생화학적 상호작용에서 유전적 [8]상호작용도 포함하도록 데이터베이스를 확장했습니다.버전 3.5(2004)에는 정보 [7]검색을 단순화하는 것을 목표로 하는 개선된 사용자 인터페이스가 포함되어 있습니다.2006년에 BIND는 생체분자 객체 네트워크 데이터베이스(BOND)에 통합되어 지속적으로 업데이트되고 개선되었습니다.

특장점

BIND는 생체 분자 상호 작용, 반응 및 경로에 대한 정보를 하나의 스키마에 포함하는 최초의 데이터베이스였습니다.또한 분자 상호 작용을 3D 표현할 수 있는 화학에 기반을 둔 최초의 온톨로지입니다.기본 화학은 분자 상호 작용을 원자 수준의 [7]분해능까지 설명할 수 있게 합니다.

과학 문헌에서 생체 분자 상호 작용 정보를 찾기 위해 데이터 마이닝을 위한 관련 시스템을 PreBind합니다.단백질의 이름 또는 등록 번호를 입력할 수 있으며 PreBIND는 문헌을 스캔하고 잠재적으로 상호작용하는 단백질 목록을 반환할 것입니다.BIND BLAST는 [7]또한 쿼리에 지정된 것과 유사한 단백질과의 상호 작용을 찾을 수 있습니다.

BIND는 다른 많은 프로테오믹스 데이터베이스에는 포함되지 않는 몇 가지 "기능"을 제공합니다.이 프로그램의 저자들은 아미노산에 발생하는 번역 후 수정을 설명하기 위해 전통적인 IUPAC 명명법의 확장을 만들었습니다.이러한 수정에는 아세틸화, 포밀화, 메틸화, 팔미토일화 등이 포함됩니다. 전통적인 IUPAC 코드의 확장은 이러한 아미노산을 서열 형태로도 표현할 수 있게 합니다.BIND는 OnGlyphs라는 고유한 시각화 도구도 사용합니다.OntoGlyphs는 유전자 온톨로지(GO)를 기반으로 개발되었으며 원래 GO 정보에 대한 링크를 제공합니다.많은 GO 용어들이 셀에서 특정 기능, 바인딩 특이성 또는 현지화를 나타내는 범주로 그룹화되었습니다.총 83개의 OntoGlyph 캐릭터가 있습니다.분자의 역할에 대한 정보(예: 세포 생리학, 이온 전달, 신호 전달)를 포함하는 34개의 기능적 OnGlyphs가 있습니다.분자가 결합하는 것(예: 리간드, DNA, 이온)을 설명하는 25개의 결합 글리프가 있습니다.다른 24개의 On Glyphs는 세포 내 분자의 위치에 대한 정보를 제공합니다(예: 핵, 세포골격).OnGlyphs를 선택하고 특정 특성을 검색 결과에서 포함하거나 제외하도록 조작할 수 있습니다.또한 OnGlyphs의 시각적 특성은 검색 [7]결과를 볼 때 패턴 인식을 용이하게 합니다.단백질 글리프는 보존된 도메인 수준에서 단백질의 구조 및 결합 특성을 그래픽으로 표현한 것입니다.단백질은 직선 수평선으로 도표화되고 글리프는 보존된 도메인을 나타내기 위해 삽입됩니다.각 글리프는 단백질 시퀀스에서 정렬의 상대적 위치와 길이를 나타내기 위해 표시됩니다.

데이터베이스 액세스

그림 1: BOND를 사용하여 얻은 시퀀스 결과의 스크린샷

데이터베이스 사용자 인터페이스는 웹 기반이며 텍스트 또는 등록 번호/식별자를 사용하여 쿼리할 수 있습니다.BOND의 다른 구성 요소와 통합된 이후, 시퀀스는 상호 작용, 분자 복합체 및 결과의 경로에 추가되었습니다.레코드에는 BIND ID, 상호 작용/복잡한/경로에 대한 설명, 게시, 업데이트 레코드, 유기체, OntoGlyphs, ProteoGlyphs 및 추가 정보를 찾을 수 있는 다른 데이터베이스에 대한 링크가 포함됩니다.BIND 레코드에는 다양한 보기 형식(: HTML, ASN.1, XML, FASTA), 결과를 내보내기 위한 다양한 형식(예: ASN.1, XML, GI 목록, PDF) 및 시각화(예: Cytoscape)가 포함됩니다.정확한 보기 및 내보내기 옵션은 검색된 데이터 유형에 따라 달라집니다.

사용자 통계

BIND 통합 이후 언리쉬드 등록자 수가 10배 증가했습니다.2006년 12월 현재 등록자는 10,000명에 조금 못 미쳤습니다.BOND의 상업용 버전의 가입자는 농업식품, 생명공학, 제약, 정보학, 재료 및 기타의 6가지 일반적인 범주로 분류됩니다.생명공학 분야는 28%의 구독을 보유하고 있는 이들 그룹 중 가장 큽니다.제약과 정보학이 각각 22%와 18%로 뒤를 이었습니다.미국은 이 구독의 69%를 보유하고 있습니다.BOND의 상용 버전에 액세스할 수 있는 다른 국가로는 캐나다, 영국, 일본, 중국, 한국, 독일, 프랑스, 인도호주있습니다.이들 국가는 모두 사용자 [2]점유율이 6% 미만으로 떨어집니다.

레퍼런스

  1. ^ Blueprint.org
  2. ^ a b BOND 언리쉬드 인포매틱스 2007년 3월 14일 웨이백 머신에 보관
  3. ^ 스나이더, K, 등..도메인 기반 소분자 결합 사이트 주석BMC 바이오 인포매틱스 7: 152 (2006)
  4. ^ BIND(genomecanada.ca )
  5. ^ a b c Bader, GD 등.BIND - 생체 분자 상호 작용 네트워크 데이터베이스.핵산 연구 29: 242-245 (2001).
  6. ^ Bader, GD, Hogue, CWV. BIND - 생체 분자 상호 작용, 분자 복합체 및 경로를 저장하고 설명하기 위한 데이터 사양입니다.생물정보학 16(5): 465-477(2000).
  7. ^ a b c d e f 알파라노, C, 기타.생체 분자 상호 작용 네트워크 데이터베이스 및 관련 도구 2005 업데이트.핵산 연구 33: D418-D424 (2005).
  8. ^ Bader, GD, et al..BIND: 생체 분자 상호 작용 네트워크 데이터베이스.핵산 연구 31: 248-250 (2003).