시퀀스 프로파일링 도구

생물정보학에서 시퀀스 프로파일링 도구는 유전자 순서, 유전자 이름 또는 키워드 입력과 관련된 정보를 제공하는 소프트웨어의 일종이다. 그러한 도구는 일반적으로 DNA, RNA 또는 단백질 서열이나 '키워드'와 같은 질의를 취하며 하나 이상의 데이터베이스에서 해당 서열과 관련된 정보를 검색한다. 요약과 집계 결과는 그렇지 않으면 컴파일하기 위해 많은 소규모 사이트를 방문하거나 직접 문헌 검색을 필요로 하는 정보를 기술하는 표준화된 형식으로 제공된다. 많은 시퀀스 프로파일링 도구는 크고 증가하는 생물정보학 데이터베이스에서 질의에 대한 정보를 찾는 과정을 단순화하는 소프트웨어 포털 또는 게이트웨이들이다. 이러한 종류의 도구에 대한 액세스는 웹 기반 또는 로컬로 다운로드 가능한 실행 파일이다.

소개 및 사용법

"후유전체학" 시대는 단백질 구조, 유전자 주석, 염기서열 정렬 및 기타 일반적인 생물정보학 작업뿐만 아니라 다량의 1차 염기서열 정보를 컴파일, 구성 및 전달하기 위한 다양한 웹 기반 도구와 소프트웨어로 부상했다.

일반적으로 데이터베이스와 서비스 제공업체의 세 가지 유형이 존재한다. 첫 번째 데이터베이스는 NCBI, ExPASy, Encancel, PDB와 같은 자금과 보조금으로 지원되는 인기 있는 공개 도메인 또는 개방형 액세스 데이터베이스를 포함한다. 두 번째 데이터베이스는 개별 연구 그룹에 의해 조직되고 편집된 더 작거나 더 구체적인 데이터베이스를 포함한다. 예로는 효모 게놈 데이터베이스, RNA 데이터베이스를 포함한다. 세 번째 및 최종 데이터베이스는 접속을 위해 지불 또는 제도적 제휴가 필요한 민간 기업 또는 기관 데이터베이스를 포함한다. 공공 데이터베이스의 세계화를 고려할 때, 해당 서비스가 '개발 중'이거나 분석의 최종 지점이 상업적 가치가 있는 경우가 아니라면, 그러한 예는 드물다.

프로파일링 접근법의 전형적인 시나리오는 특히 연구자들이 일반적으로 단일 질의나 목표 순서에 관한 여러 출처에서 도출된 정보를 결합하고자 하는 처음 두 그룹의 경우에 관련된다. 예를 들어, 사용자는 다른 종에서 관심 있는 유전자의 호몰로그를 식별하기 위해 시퀀스 정렬 및 검색 도구 VOLAS를 사용할 수 있으며, 이 결과를 사용하여 호몰로어 중 하나에 대해 해결된 단백질 구조를 찾을 수 있다. 마찬가지로, 그들은 또한 관심 유전자를 인코딩하는 mRNA의 가능한 2차 구조를 알고 싶어할 수도 있고, 회사가 그 유전자를 포함하는 DNA 구조를 판매하는지도 알고 싶어할 수도 있다. 시퀀스 프로파일링 도구는 사용자에게 투명하게 여러 개의 다른 외부 데이터베이스를 검색하는 프로세스를 렌더링하여 이와 같은 상이한 정보를 찾는 프로세스를 자동화하고 통합하는 역할을 한다.

많은 공공 데이터베이스는 다른 데이터베이스의 보완적 정보에 쉽게 접근할 수 있도록 이미 광범위하게 연결되어 있다. 예를 들어, Genbank와 PDB가 밀접하게 관련되어 있다. 그러나 특정 연구 그룹에 의해 조직되고 호스팅되는 전문 도구는 좁게 초점을 맞추거나 자주 수정되거나 공통 파일 형식의 사용자 정의 버전을 사용하기 때문에 이러한 연결 작업에 통합하기가 어려울 수 있다. 시퀀스 프로파일링 도구의 장점에는 이러한 전문 도구를 하나의 질의에 여러 개 사용하고 공통 인터페이스로 출력을 표시하는 기능, 하나의 도구 또는 데이터베이스 검색의 출력을 다른 도구의 입력으로 유도하는 기능, 호스팅 및 컴파일 의무를 네트워크에 전파하는 능력 등이 있다. 하나의 중앙집중화된 리포지토리가 아닌 연구 그룹과 기관의 역할을 담당한다.

키워드 기반 프로파일러

오늘날 웹에서 이용할 수 있는 대부분의 프로파일링 도구는 이 범주에 속한다. 사용자는 사이트/툴을 방문했을 때 키워드(예: dystrophy, 당뇨병 등) 또는 GenBank 등록 번호 PDB ID와 같은 관련 정보를 입력한다. 검색에 의한 모든 관련 적중 횟수는 각 도구의 주요 초점에 고유한 형식으로 제시된다. 키워드 검색을 기반으로 하는 프로파일링 도구는 본질적으로 생물정보학 작업에 매우 전문화된 검색 엔진으로, 따라서 구글과 같은 전통적인 검색 엔진에서 발생할 수 있는 관련 없거나 비-스콜러적인 히트들의 잡음을 제거한다. 대부분의 키워드 기반 프로파일링 도구는 기존 키워드 설명자뿐만 아니라 유연한 유형의 키워드 입력, 색인화된 데이터베이스의 등록 번호도 허용한다.

각 프로파일링 도구는 고유의 초점과 관심 영역을 가지고 있다. 예를 들어 NCBI 검색엔진 엔트레즈는 안타를 카테고리별로 구분해 단백질 구조 정보를 찾는 사용자가 해당 구조가 없는 시퀀스를 걸러낼 수 있도록 하고, 해당 주제에 관한 문헌을 숙독하는 데 관심이 있는 사용자는 유전자나 세포에서 벗어나지 않고 학술지에 게재된 논문의 추상화를 볼 수 있다.담보의 결과 PubMed Biosciences 문학 데이터베이스는 문학 검색을 위한 인기 있는 도구로, 이 서비스는 보다 일반적인 구글 스콜라(Google Scholar)와 거의 동일하다.

바이오정보 하베스터 수행과 같은 키워드 기반 데이터 집계 서비스는 사용자가 웹사이트를 방문하거나 개별 구성요소 서비스를 위한 소프트웨어를 설치할 필요가 없도록 다양한 제3자 서버의 보고서를 있는 그대로 제공한다. 이는 다양한 시퀀스 분석 및 조작 도구를 제공하는 다양한 사이트의 빠른 출현을 고려할 때 특히 매우 귀중하다. 또 다른 종합 웹 포털인 인간 단백질 참조 데이터베이스(Hprd)는 수동으로 주석 처리되고 인간 단백질에 대한 큐레이션된 항목을 포함하고 있다. 따라서 제공되는 정보는 선택적이고 포괄적이며, 질의 형식은 유연하고 직관적이다. 수동으로 큐레이션된 데이터베이스를 개발하는 장점에는 교정 자료의 제시와 특정 단백질의 책임을 떠맡는 '분자 당국'의 개념이 포함된다. 그러나 단점은 업데이트 속도가 일반적으로 느리고 매우 새 데이터나 논란이 많은 데이터를 포함하지 않을 수 있다는 것이다.

시퀀스 데이터 기반 프로파일러

일반적인 시퀀스 프로파일링 도구는 입력으로 실제 DNA, RNA 또는 단백질 시퀀스를 사용함으로써 이것을 더 나아가게 하며 사용자가 원하는 정보를 얻기 위해 다른 웹 기반 분석 도구를 방문할 수 있게 한다. 그러한 도구는 유전자 염기서열 분석기와 같은 상용 실험실 장비와 함께 일반적으로 공급되거나 분자생물학의 소프트웨어 응용 프로그램으로 판매되기도 한다. 다른 공개 데이터베이스 예에서 NCBI의 VOLAST 시퀀스 검색 보고서는 그러한 특정 정보가 존재하는 경우 자체 데이터베이스의 다른 관련 정보에 대한 링크를 제공한다.

예를 들어, 인간 염기서열이 포함된 검색된 기록에는 인간 게놈 지도에 있는 그 위치에 연결되는 별도의 링크가 실려 있다; 3-D 구조가 해결된 염기서열을 포함하는 기록에는 그것을 구조 데이터베이스와 연결하는 링크가 실려 있을 것이다. 공공 서비스 도구인 Sequerome은 제한 효소 맵, 뉴클레오티드 시퀀스에 대한 개방형 판독 프레임 분석, 이차 구조 예측과 같은 시퀀스 조작에서 고도로 구체적인 서비스를 제공하는 많은 제3자 서버/사이트에 전체 RAFT 보고서를 연결한다. 이 도구는 사용자가 수행하는 작업에 대한 연구 일지를 유지 관리할 수 있는 추가적인 이점을 제공하며, '메일', '인쇄' 또는 '저장' 기능을 사용하여 편리하게 보관할 수 있다. 따라서 서로 다른 연구 도구를 사용하여 시퀀스에 대한 연구 전체 운영이 하나의 브라우저 인터페이스 내에서 완료될 수 있다. 따라서, 시퀀스 프로파일링 도구의 미래 세대는 프로젝트 로그 및 연구 도구를 공유하고, 시퀀스 분석 또는 실험실 작업의 결과를 주석으로 첨부하며, 시퀀스 데이터 세트의 처리를 사용자 정의 및 자동화하는 연구자와 온라인으로 협업할 수 있는 능력을 포함할 것이다. 인스타섹은 사용자가 직접 시퀀스를 입력해 월드와이드웹 전체를 검색할 수 있는 구글 파워 검색 툴이다. 유일한 검색 엔진인 이 독특한 검색 엔진은 예를 들어 특정 데이터베이스를 검색하는 것과 대조적이다. 젠뱅크.

결과적으로, 사용자는 세계 어느 곳에서나 비공개 호스팅된 문서나 덜 알려진 데이터베이스의 페이지를 갖게 될 수 있다. 현재 시나리오에서는 시퀀스 기반 프로파일러의 존재는 멀고 적지만, 방대한 양의 시퀀스 데이터를 포털과 도메인 간에 교차 처리해야 할 때 이들의 핵심 역할은 명백해질 것이다.

미래 성장 및 방향

유전자 분석을 위한 생물정보학 도구의 확산은 연구자들이 그들의 연구에 관심 있는 유전자와 유전자 세트를 식별하고 분류하는데 도움을 준다. 그러나, 실질적으로 유사한 통합 및 분석 기능을 수행하는 다양한 도구들은 또한 새로운 사용자를 혼란스럽게 하고 좌절시킬 수 있다. 집적 도구에 의해 장려된 분산은 개별 연구 그룹이 그들의 산출물이 다른 연구자들에게 관심 있는 유전자나 단백질에 대한 더 큰 보고서로 수집될 것이라는 기대에서 특정한 유형의 데이터 분석 전용 전문 서버를 유지할 수 있게 한다.

마이크로 어레이 실험, 2-하이브리드 스크리닝 및 기타 고투입 생물학적 실험에 의해 생성된 데이터는 부피가 크고 손으로 분석하기 어렵다; 고도로 다양한 단백질 구조를 신속하게 해결하기 위한 구조 유전체학 공동작업의 노력 또한 시퀀스 간 통합의 필요성을 증가시킨다. 데이터베이스와 포털을 구축한다. 이러한 자극은 시퀀스 프로파일링의 보다 포괄적이고 사용자 친화적인 방법을 개발하는 것을 촉진하여 현재 유전체학 연구자들 사이에서 연구의 활발한 영역을 만들고 있다.

참고 항목

참조

Peri S, Navarro JD, Kristiansen TZ, et al. (January 2004). "Human protein reference database as a discovery resource for proteomics". Nucleic Acids Res. 32 (Database issue): D497–501. doi:10.1093/nar/gkh070. PMC 308804. PMID 14681466.
Liebel U; Kindler B; Pepperkok R (August 2004). "'Harvester': a fast meta search engine of human protein resources". Bioinformatics. 20 (12): 1962–3. doi:10.1093/bioinformatics/bth146. PMID 14988114.
Ganesan N; Bennett NF; Velauthapillai M; Pattabiraman N; Squier R; Kalyanasundaram B (August 2005). "Web-based interface facilitating sequence-to-structure analysis of BLAST alignment reports". BioTechniques. 39 (2): 186, 188. doi:10.2144/05392BM05. PMID 16116790.
Beaton J; Smith C (November 2005). "Google versus PubMed". Ann R Coll Surg Engl. 87 (6): 491–2. doi:10.1308/003588405X71207. PMC 1964102. PMID 16263030.
Hunter L; Cohen KB (March 2006). "Biomedical language processing: what's beyond PubMed?". Mol. Cell. 21 (5): 589–94. doi:10.1016/j.molcel.2006.02.012. PMC 1702322. PMID 16507357.
Ganesan N; Kalyanasundaram B; Velauthapillai M (March 2007). "Bioinformatics data profiling tools: a prelude to metabolic profiling". Pac. Symp. Biocomput.: 127–32. PMID 17990486.

Search