UCSC 게놈 브라우저
UCSC Genome Browser![]() | |
---|---|
내용 | |
설명 | UCSC 게놈 브라우저 |
연락처 | |
리서치센터 | 산타 크루즈 캘리포니아 대학교 |
실험실 | 바스킨 공과대학의 생체분자 이공계 센터 |
1차 인용 | 나바로 곤잘레스 & 알. (2021년)[1] |
접근 | |
웹사이트 | genome |
UCSC 게놈 브라우저(UCSC Genome Browser)는 캘리포니아 대학교 산타 크루즈(UCSC)가 주최하는 온라인 및 다운로드 가능한 게놈 브라우저다.[2][3][4] 그것은 다양한 척추동물과 무척추동물 종과 주요 모델 유기체의 게놈 시퀀스 데이터에 접속할 수 있는 대화형 웹사이트로, 많은 정렬된 주석들이 통합되어 있다. 브라우저는 빠른 인터랙티브 성능을 지원하도록 최적화된 그래픽 뷰어로, MySQL 데이터베이스 위에 구축된 오픈 소스 웹 기반 도구 모음으로, 다양한 레벨의 데이터를 신속하게 시각화, 검사 및 쿼리할 수 있다. 게놈 브라우저 데이터베이스, 검색 도구, 다운로드 가능한 데이터 파일 및 문서는 모두 UCSC 게놈 생물정보학 웹사이트에서 찾을 수 있다.
역사
UCSC 게놈 브라우저는 2000년 당시 대학원생이었던 짐 켄트(Jim Kent)와 샌타크루즈(Santa Cruz) 캘리포니아 대학의 컴퓨터 사이언스(현재의 생체분자공학) 교수 데이비드 하우슬러(David Haussler)가 초기 인간 게놈 프로젝트의 열매 분배를 위한 자원으로서 처음 시작했다. 하워드 휴즈의학연구소와 국립 인간 게놈연구소(NHGRI, 미국 국립보건원 중 하나)가 후원한 이 브라우저는 인간 게놈 염기서열의 첫 번째 전체 색소체 초안 어셈블리를 그래픽으로 표시했다. 오늘날 이 브라우저는 유전학자들, 분자 생물학자, 의사들뿐만 아니라 학생들과 선생님들이 유전 정보에 접근하기 위해 사용한다.
게놈
UCSC Browser는 설립 이후 몇 년 동안 모든 척추동물의 게놈 서열을 수용하도록 확장되었으며,[5] 현재 46종을 포함하여 높은 탐지 가능 유전체 서열을 이용할 수 있는 무척추동물을 선택했다. 넓은 인접 지역의 건설을 유도하기 위해 겹치는 것을 허용하려면 높은 커버리지가 필요하다. 커버리지가 적은 게놈 시퀀스는 일부 브라우저의 다중 정렬 트랙에 포함되지만, 이러한 어셈블리의 단편화된 특성으로 인해 전체 브라우저 구축에 적합하지 않다(더 아래 다중 정렬 트랙). 완전한 기능을 갖춘 게놈 브라우저로 호스트되는 종들이 표에 나와 있다.
유인원 | 인간, 개코원숭이, 보노보, 침팬지, 긴팔원숭이, 고릴라, 오랑우탄 |
---|---|
유인원이 아닌 영장류 | 야생동물, 마모셋, 쥐여우원숭이, 붉은털마카크, 다람쥐원숭이, 타르시어, 나무뒤쥐 |
비원충 포유류 | 쥐, 알파카, 아르마딜로, 고양이, 중국 햄스터, 소, 개, 돌고래, 코끼리, 페렛, 기니피그, 고슴도치, 말, 캥거루 쥐, 해우, 민크고래, 알몸 두더지-랫, 팬더, 돼지, 피카, 오리털, 토끼, 쥐, 바위 히라스, 양, 나무늘보, 다람쥐, 다람쥐, 테즈, 왈라비, 흰코비, 흰코뿔소. |
비음향 화음 | 미국 악어, 대서양 대구, 부게리가르, 닭, 실러캔스, 코끼리 상어, 푸구, 등잔, 도마뱀, 메다카, 중지느러미, 나일 틸라피아, 칠면조, 제노푸스 열대어, 얼룩말 지느러미, 제브라피쉬 |
무척추동물 | 새너하브디트 spp(5), 드로소필라 spp. (11), 꿀벌, 랜슬렛, 모기, P. 퍼시픽투스, 산토끼, 미더덕, 성게, 효모 |
바이러스 | 에볼라, 사스-CoV-2 코로나바이러스 |
어셈블리 허브로 사용자는 고유한 어셈블리를 로드할 수 있다. 예를 들어 척추동물 게놈 프로젝트 조립 허브에서 볼 수 있다.
브라우저 기능
문헌에 축적되고 있는 생물학적 시스템에 관한 방대한 데이터는 생물정보학의 도구를 이용하여 정보를 수집하고 소화할 필요가 있다. UCSC 게놈 브라우저는 mRNA 맞춤, DNA 반복 요소의 매핑, 유전자 예측, 유전자 표현 데이터, 질병 관련 데이터(질병과 유전자의 관계를 나타냄), 상업적으로 이용 가능한 유전자의 매핑 등 다양한 주석 데이터셋("추적" 및 그래픽으로 표시됨)을 제시한다. 칩(예: Illumina 및 Agilent). 디스플레이의 기본 패러다임은 게놈 서열을 수평 차원으로 보여주고, mRNA 위치의 그래픽 표현, 유전자 예측 등을 보여주는 것이다. 좌표 축을 따라 색 블록은 다양한 데이터 유형의 정렬 위치를 보여준다. 단일 좌표 축에서 이렇게 다양한 데이터 유형을 보여주는 기능은 브라우저가 데이터의 수직 통합을 위한 편리한 도구를 만든다.
특정 유전자 또는 유전체 영역을 찾기 위해 사용자는 유전자 이름, DNA 염기서열, RNA에 대한 접근 번호, 유전체 세포학 밴드의 이름(예: CR20의 짧은 팔 13의 경우 20p13) 또는 염색체 위치(유전자 BRCA1 주변의 경우 chr17:38,450,000-38,531,000)를 입력할 수 있다.
데이터를 그래픽 형식으로 표시하면 브라우저가 주석에 대한 세부 정보에 대한 링크 액세스를 제공할 수 있다. UCSC Genes 트랙의 유전자 세부 정보 페이지는 Online Mendelian Inchivistance in Man(OMIM)과 SwissProt와 같은 많은 다른 데이터 자원에서 유전자에 대한 보다 구체적인 정보에 대한 많은 링크를 제공한다.
복잡하고 방대한 데이터를 표시하기 위해 설계된 UCSC Browser는 속도에 최적화되어 있다. GenBank의 5천 5백만 RNA를 81개의 게놈 어셈블리 각각에 사전 정렬시킴으로써(46종 중 많은 종은 둘 이상의 어셈블리를 가지고 있음) 브라우저를 통해 호스팅된 종에 대한 RNA의 정렬에 즉각적으로 접근할 수 있다.

다양한 유형의 데이터의 병렬은 연구자들이 특정 질문에 대답할 데이터의 조합을 정확하게 표시할 수 있게 한다. pdf/postscript 출력 기능은 학술지에 게재할 수 있도록 카메라 준비 이미지를 내보낼 수 있다.
UCSC Browser와 다른 게놈 브라우저를 구별하는 독특하고 유용한 기능 중 하나는 디스플레이의 연속적인 가변성이다. 단일 DNA 베이스에서 전체 염색체(인간 chr1 = 2억4500만 염기, Mb)까지 모든 크기의 시퀀스를 완전한 주석 트랙으로 표시할 수 있다. 연구자들은 하나의 유전자, 하나의 엑손 또는 전체 염색체 띠를 표시할 수 있는데, 이것은 수십, 수백 개의 유전자와 많은 주석을 조합한 것을 보여준다. 편리한 드래그 앤 줌 기능을 통해 사용자는 게놈 이미지에서 원하는 영역을 선택하고 이를 확장하여 전체 화면을 점유할 수 있다.
연구자들은 또한 브라우저를 사용하여 Custom Tracks 도구를 통해 자신의 데이터를 표시할 수 있다. 이 기능을 통해 사용자는 자신의 데이터 파일을 업로드하고 참조 게놈 조립의 맥락에서 데이터를 볼 수 있다. 사용자는 또한 UCSC가 호스팅하는 데이터를 사용하여 Table Browser 도구(예: 단백질의 아미노산 시퀀스를 변경하는 SNP만)로 선택한 데이터의 하위 집합을 만들고 브라우저에 데이터의 이 특정 부분 집합을 사용자 정의 트랙으로 표시할 수 있다.
사용자 정의 트랙을 포함하는 보기를 포함하여 사용자가 작성한 브라우저 보기는 저장된 세션 도구를 통해 다른 사용자와 공유할 수 있다.
트랙스
UCSC 게놈 브라우저의 표시된 이미지 아래에는 원본 데이터와 함께 선택 및 표시할 수 있는 9가지 추가 트랙 카테고리가 있다. 이러한 범주는 매핑 및 시퀀싱, 유전자와 유전자 예측, 표현형과 문학, mRNA와 EST, 표현, 규제, 비교 유전체학, 변동 및 반복이다.
카테고리 | 설명 | 트랙의 예 |
---|---|---|
매핑 및 시퀀싱 | 표시되는 시퀀싱 스타일을 제어할 수 있다. | 베이스 포지션. Alt Map, 간격 |
유전자와 유전자 예측 | 유전자를 예측할 프로그램과 알려진 유전자를 표시할 데이터베이스. | GENCODE v24, Geneid Genes, Pfam in UCSC Gene |
표현형과 문학 | 표현형 데이터의 특정 스타일을 포함하는 데이터베이스. | OMIM 알레르, 암 유전자 엑스퍼 슈퍼 트랙 |
mRNA와 EST | 인간 특정 검색 또는 일반 모든 목적 검색을 위한 mRNA 및 EST 액세스. | 인간 EST, 기타 EST, 기타 mRNA |
표현 | 미리 결정된 시퀀스의 고유 식을 표시하십시오. | GTEx Gene, Affy U133 |
규정 | 서로 다른 연구의 성적표 작성 규제와 관련된 정보. | ENCODE 규정 슈퍼 트랙 설정, ORegAnno |
비교유전체학 | 서열화된 게놈으로 다른 동물군과의 검색 순서를 비교할 수 있다. | 보호, 반대 7 verts, 반대 30 영장류 |
변형 | 검색된 시퀀스와 알려진 변형을 비교하십시오. | 일반 SNP(150), 모든 SNP(146), 플래그 지정 SNP(144개) |
반복 | 쿼리에서 여러 종류의 반복 시퀀스를 추적할 수 있다. | RepeatMasker, Microsatellite, WM + SDust |
매핑 및 시퀀싱
이러한 트랙을 통해 게놈 좌표, 시퀀스 및 간격의 표시에 대한 사용자 제어를 할 수 있다. 연구자들은 연구의 종류와 깊이에 따라 더 많은 적용 가능한 데이터가 표시될 수 있도록 자신의 질의를 가장 잘 나타내는 트랙을 선택할 수 있는 능력을 가지고 있다. 매핑 및 시퀀싱 트랙은 특정 유전적 요소가 특정 영역에 더 널리 퍼져 있는 경우 연구자를 보여주는 백분율 기반 트랙도 표시할 수 있다.
유전자와 유전자 예측
유전자와 유전자 예측 추적은 유전자의 표시와 그 이후의 부분을 조절한다. 서로 다른 트랙을 통해 사용자는 유전자 모델, 단백질 코딩 영역, 비 코딩 RNA뿐만 아니라 다른 유전자 관련 데이터를 표시할 수 있다. 연구자들이 미리 선택된 유전자 세트와 그들의 질의를 신속하게 비교해서 알려진 유전자 세트들 사이의 상관관계를 찾을 수 있도록 해주는 수많은 트랙이 있다.
표현형과 문학
표현형과 문학 트랙은 유전자와 직접 연결된 표현형뿐만 아니라 유전적 표현형도 다룬다. 이러한 트랙의 사용은 주로 의사와 유전적 질환과 관련된 다른 전문가, 유전학 연구원, 그리고 과학과 의학 분야의 고급 학생들이 사용하는 것을 목적으로 한다. 연구자는 자연산 및 인공 아미노산 변종의 게놈 위치를 보여주는 트랙도 표시할 수 있다.
mRNA와 EST
이 트랙들은 표현된 시퀀스 태그와 메신저 RNA와 관련이 있다. EST는 일반적으로 길이가 약 500 베이스인 단일 판독 시퀀스로, 일반적으로 전사 유전자의 파편을 나타낸다. mRNA 트랙은 인간뿐만 아니라 다른 종에서도 mRNA 정렬 데이터를 표시할 수 있다. 또한 게놈과 정렬했을 때 스플라이싱의 징후를 보이는 EST 영역과 비교할 수 있는 트랙도 있다.
표현
표현 트랙은 유전 데이터를 표현된 조직 영역과 연관시키는 데 사용된다. 이를 통해 연구자는 특정 유전자나 염기서열이 신체 전체에 걸쳐 다양한 조직과 연결되어 있는지를 발견할 수 있다. 또한 식 트랙은 쿼리 영역을 표현하는 조직에 대한 일치 데이터를 표시할 수 있다.
규정
UCSC 게놈 브라우저의 규제 트랙은 게놈 내 프로모터 및 제어 영역의 표현을 제어하는 트랙의 범주다. 연구자는 게놈 브라우저에 표시 그래프를 추가하기 위해 규제 트랙을 조정할 수 있다. 이러한 표시장치는 규제 영역, 전사 계수 결합 사이트, RNA 결합 사이트, 규제 변형, 하형 및 기타 규제 요소에 대한 보다 자세한 정보를 제공한다.
비교유전체학
UCSC 게놈 브라우저는 사용자가 다른 종류의 보존 데이터를 표시할 수 있도록 한다. 사용자는 영장류, 척추동물, 포유류를 포함한 다른 트랙에서 선택할 수 있으며, 그들이 검색한 유전자 서열이 다른 종들 사이에서 어떻게 보존되는지 볼 수 있다. 비교 정렬은 종들 간의 진화 관계를 그래픽으로 보여준다. 이는 종군들 사이의 보존 영역을 시각화하고 알려지지 않은 DNA 영역의 기능적 요소에 대한 예측을 할 수 있는 연구자 모두에게 유용한 도구가 되고, 종 진화에 대한 가장 설득력 있는 주장 중 하나를 설명하기 위한 도구로서 교실 안에서도 유용하다. 인간 어셈블리의 44방향 비교 트랙은 진화 시간으로 거슬러 올라갈수록 더 적은 수의 유전체들이 남아 있다는 것을 분명히 보여주지만, 기능적으로 중요한 유전체 영역들(예: exons와 대조군 요소들, 전형적으로 인트론이 아닌 것)은 진화 시간으로 훨씬 더 오래 보존된다.
변동 데이터
많은 유형의 변동 데이터도 표시된다. 예를 들어 NCBI에서 dbSNP 데이터베이스의 각 릴리스의 전체 내용은 인간, 마우스 및 기타 게놈에 매핑된다. 여기에는 1000개의 게놈프로젝트가 dbSNP로 출시되는 즉시 그 결실이 포함된다. 다른 유형의 변동 데이터에는 CNV(복사 번호 변동 데이터)와 HapMap 프로젝트의 인간 모집단 알레르 주파수가 포함된다.
반복
게놈 브라우저의 반복 트랙을 통해 사용자는 복잡성이 적은 DNA 영역의 시각적 표현을 볼 수 있다. 반복을 순차적으로 시각화할 수 있다는 것은 게놈 브라우저에서 검색 질의에 대한 빠른 추론을 가능하게 한다. 연구자는 지정된 검색이 한 눈에 대량의 반복 시퀀스를 포함하고 있음을 신속하게 확인하고 그에 따라 검색 또는 트랙 디스플레이를 조정할 수 있다.
분석 도구
UCSC 사이트는 브라우저 데이터베이스에서 정보를 채굴하기 위한 완전한 기능의 GUI 인터페이스를 포함한 일련의 게놈 분석 도구들을 호스트하고 있으며, 또한 어떤 것이든 특징적인 게놈의 대량 시퀀스(인간 게놈 = 32억 3천만 베이스 [Gb])에서 단순히 시퀀스를 찾는 데에도 유용한 FAST 시퀀스 정렬 도구 BLAR를[6] 제공한다.
liftOver 도구는 한 어셈블리에서 다른 어셈블리로 또는 종 간에 시퀀스를 변환할 수 있도록 전체 유전자 선형을 사용한다. 게놈 그래프 도구는 사용자가 모든 염색체를 한 번에 보고 게놈 전체 연관 연구(GWAS) 결과를 표시할 수 있도록 한다. 유전자 소터는 조직의 표현 패턴과 같이 게놈 위치와 연결되지 않은 파라미터로 그룹화된 유전자를 표시한다.
오픈 소스/미러
UCSC Browser 코드 베이스는 비상업적 사용을 위한 오픈 소스이며, 많은 연구 그룹에 의해 국지적으로 미러링되어 공공 데이터의 맥락에서 데이터를 개인적으로 표시할 수 있다. UCSC Browser는 표와 같이 전세계 여러 위치에서 미러링된다.
공식 거울 사이트 |
---|
유럽 미러 - 독일 빌레펠트 대학의 UCSC에 의해 유지 관리됨 |
아시안 미러 - 일본 요코하마 RIKEN에서 UCSC에 의해 유지 관리됨 |
브라우저 코드는 UCSC 말라리아 게놈 브라우저와 아르케아 브라우저에 의해 별도의 설치에도 사용된다.
참고 항목
참조
- ^ Navarro Gonzalez, J; Zweig, AS; Speir, ML; Schmelter, D; Rosenbloom, KR; Raney, BJ; Powell, CC; Nassar, LR; Maulding, ND; Lee, CM; Lee, BT; Hinrichs, AS; Fyfe, AC; Fernandes, JD; Diekhans, M; Clawson, H; Casper, J; Benet-Pagès, A; Barber, GP; Haussler, D; Kuhn, RM; Haeussler, M; Kent, WJ (8 January 2021). "The UCSC Genome Browser database: 2021 update". Nucleic Acids Research. 49 (D1): D1046–D1057. doi:10.1093/nar/gkaa1070. ISSN 0305-1048. PMC 7779060. PMID 33221922.
- ^ Fujita PA, Rhead B, Zweig AS, Hinrichs AS, Karolchik D, Cline MS, Goldman M, Barber GP, Clawson H, Coelho A, Diekhans M, Dreszer TR, Giardine BM, Harte RA, Hillman-Jackson J, Hsu F, Kirkup V, Kuhn RM, Learned K, Li CH, Meyer LR, Pohl A, Raney BJ, Rosenbloom KR, Smith KE, Haussler D, Kent WJ (Jan 2011). "The UCSC Genome Browser database: update 2011". Nucleic Acids Res. 39 (Database issue): D876-82. doi:10.1093/nar/gkq963. PMC 3242726. PMID 20959295.
- ^ Kent WJ, Sugnet CW, Furey TS, Roskin KM, Pringle TH, Zahler AM, Haussler D (June 2002). "The human genome browser at UCSC". Genome Res. 12 (6): 996–1006. doi:10.1101/gr.229102. PMC 186604. PMID 12045153.
- ^ Kuhn, R. M.; Karolchik, D.; Zweig, A. S.; Wang, T.; Smith, K. E.; Rosenbloom, K. R.; Rhead, B.; Raney, B. J.; Pohl, A.; Pheasant, M.; Meyer, L. (2009-01-01). "The UCSC Genome Browser Database: update 2009". Nucleic Acids Research. 37 (Database): D755–D761. doi:10.1093/nar/gkn875. ISSN 0305-1048. PMC 2686463. PMID 18996895.
- ^ 여기서 "높은 탐지 범위"는 6배, 즉 게놈 크기보다 6배 많은 총 염기서열을 의미한다.
- ^ Kent, WJ. (Apr 2002). "BLAT - the BLAST-like alignment tool". Genome Res. 12 (4): 656–64. doi:10.1101/gr.229202. PMC 187518. PMID 11932250.