바리안트 콜 형식

Variant Call Format
바리안트 콜 형식
파일 이름 확장자
비디오
개발자VCF툴
최신 릴리즈
4.3
2021년 1월 13일, 18개월 전(2021-01-13)
포맷의 종류게놈 배열 형식
확장원탭 구분 값
오픈 포맷?네.
웹 사이트samtools.github.io/hts-specs/
BCF v VCF
바이너리 BCF 형식과 VCF 형식의 차이를 나타냅니다.

Variant Call Format(VCF)은 유전자 배열 변화를 저장하기 위해 생물정보학에서 사용되는 텍스트 파일의 형식을 지정합니다. 포맷은 1000 Genomes Project와 같은 대규모 유전자형식 및 DNA 염기서열 분석 프로젝트의 등장으로 개발되었습니다.GFF(General Feature Format)와 같은 기존 유전자 데이터 형식은 모든 유전자 데이터를 저장했으며, 게놈 간에 공유되기 때문에 많은 데이터가 중복됩니다.변형 호출 형식을 사용하면 변형만 참조 게놈과 함께 저장하면 됩니다.

1000 Genetomes Project는 기존 [3]스키마에 쉽게 수용되지 않는 복제와 같은 구조적 변이에 대한 자체 규격을 개발했지만, 이 표준은 현재 버전 4.[1][2]3에 있다.또한 참조 및 그 [4]품질에 일치하는 "블록"에 대한 추가 정보를 포함하는 게놈 VCF(gVCF) 확장 형식도 있습니다.파일 [5][6]편집 및 조작을 위한 도구 세트도 사용할 수 있습니다.

##파일 형식=VCFv4.3 ##fileDate=20090805 #source=myImputationProgramV3.1 ##reference=파일://seq/references/1000GenomesPilot-NCBI36.fasta ##contig=<ID=20,length=62435964,assembly=B36,md5=f126cdf8a6e0c7f379d618ff66beb2da,종="호모 사피엔스" ,homo=x> ##단계=#정보=<ID=NS, Number=1, Type=Description, Description="데이터가 있는 샘플의 수"> ##INFO=<ID=DP, 번호=1, 유형=표시, 설명="총 깊이"> ##INFO=<ID=AF, 번호=A, 유형=표시, 설명="알레알 빈도"> ##INFO=<ID=AA, 번호=1, 유형=문자열, 설명="조상 알레알레"> ##INFO=<ID=DB, 번호=0, 유형=유형, 설명="dbSNP 멤버십, 빌드 129"> #INFO=<ID=H2, 번호=0, 유형=유형, 설명="HapMap2 멤버십"> ##FILTER=<ID=q10,설명="품질 10 미만"> ##FILTER=<ID=s50,Description="데이터가 있는 샘플은 50% 미만"> #FORMAT=<ID = GT 、 Number = 1, Type = String 、 Description = "Genotype" > #FORMAT = <ID = GQ 、 Number = 1, Type = Detail, Description = "Genotype Quality" > #FORMAT = <ID = DP 、 Number = 1, Type = Details , Description = "Read Depth " > #FORMAT = <ID=DESSION, Number=2, Type=Description="하플로타입 품질"> #CHROM POS ID REF ALT Qual Filter INFORMAT NA00001 NA00002 NA00003 20 14370 rs6054257 G A 29 PASS NS=3;DP=14;AF=0.5;DB;H2 GT:GQ:DP:HQ 0:48:1:51,51 0:48:8:51,51 1/1:43:5:. 20330.T A 3 q10 NS=3;DP=11;AF=0.017 GT:GQ:DP:HQ 0 0:49:3:58,50 0 1:3:5:65,3 0/0:41:3 20 1110696 rs6040355 A G,T 67 PASS NS=2;DP=10;AF=0.333,0.667;AA=T;DB GT:GQ:DP:HQ 1 2:21:6:23,27 2 1:2:0:18, 2 2/2:35:4 20 1230237.T.47 PASS NS=3;DP=13;AA=T GT:GQ:DP:HQ 0 0:54:7:56,60 0:48:4:51,51 0/0:61:2 20 1234567 microsat1 GTC,GTT 50 PASS NS=3;DP=9;AA=GT:GQ:DP 0/1:35:4 0/2:17:2 1/1:40:3

VCF 헤더

헤더는 파일을 시작하고 파일 본문을 설명하는 메타데이터를 제공합니다.헤더 행은 # 로 시작하는 것으로 표시됩니다.헤더의 특수 키워드는 ## 로 표시됩니다.권장 키워드는 file format, fileDatereference입니다.

헤더에는 파일 본문에서 사용되는 필드(특히 INFO, FILTER 및 FORMAT)를 의미론적으로 구문론적으로 기술하는 키워드가 포함되어 있습니다(아래 참조).

VCF의 열

VCF 본문은 헤더에 이어 탭이 8개의 필수 열과 샘플에 대한 기타 정보를 기록하기 위해 사용할 수 있는 수의 임의 열로 구분됩니다.추가 열이 사용될 경우 첫 번째 선택적 열이 다음 열의 데이터 형식을 설명하는 데 사용됩니다.

이름. 간단한 설명(자세한 내용은 사양을 참조하십시오).
1 크롬 변이가 호출되는 시퀀스 이름(일반적으로 염색체).이 시퀀스는 보통 '기준 시퀀스', 즉 주어진 샘플이 변화하는 시퀀스로 알려져 있다.
2 POS 주어진 시퀀스에 대한 변동의 1 기반 위치입니다.
3 아이디 변동 식별자(예: dbSNP rs 식별자 또는 알 수 없는 경우 ")입니다. 다중 식별자는 공백 없이 세미콜론으로 구분해야 합니다.
4 참조 주어진 기준 시퀀스 상의 주어진 위치에 있는 기준 베이스(또는 지워진 경우 기준 베이스).
5 알트 이 위치의 대체 대립 유전자 목록입니다.
6 자격 주어진 대립 유전자의 추론과 관련된 품질 점수입니다.
7 필터 특정 필터 세트 중 어느 필터가 실패했는지를 나타내는 플래그 또는 모든 필터가 정상적으로 통과된 경우 PASS.
8 정보 변동을 설명하는 확장 가능한 키와 값의 쌍(필드) 리스트.몇 가지 공통 필드에 대해서는 아래를 참조하십시오.여러 필드는 세미콜론으로 구분되며 옵션 값은 다음과 같습니다.<key>=<data>[,data].
9 포맷 샘플 설명을 위한 확장 가능한 필드 리스트(옵션).몇 가지 공통 필드에 대해서는 아래를 참조하십시오.
+ 샘플 파일에 기재되어 있는 각 샘플(옵션)에 대해서, FORMAT 에 기재되어 있는 필드의 값이 지정됩니다.

[ Common INFO ]필드

다음 서브필드는 예약되어 있지만 임의 키는 허용됩니다(단,[1] 옵션).

이름. 간단한 설명
AA 조상 대립 유전자
AC 각 ALT 대립 유전자에 대해 열거된 것과 같은 순서로 유전자형의 대립 유전자 수
AF 열거된 것과 같은 순서로 각 ALT 대립 유전자의 대립 유전자 빈도(유전자형이 아닌 1차 데이터에서 추정할 때 사용)
AN 유전자형이라고 하는 대립 유전자의 총수
BQ 이 위치의 RMS 기본 품질
시가 대체 대립 유전자와 기준 대립 유전자의 정렬 방법을 설명하는 시가 스트링
DB dbSNP 멤버십
DP 전체 샘플의 결합된 깊이(예: DP=sublic)
끝. 이 기록에 기술된 변종의 끝 위치(심볼릭 대립 유전자와 함께 사용)
H2 hapmap2 멤버십
H3 hapmap3 멤버십
MQ RMS 매핑 품질(예: MQ=52)
MQ0 이 레코드를 포함하는 MAPQ == 0 읽기 수
NS 데이터가 있는 표본 수
SB 이 위치의 가닥 바이어스
체세포 암 유전체학에서 그 기록이 체세포 돌연변이임을 나타낸다
검증필 추적 실험에 의해 검증되다
1000G 1000개의 게놈 멤버십

기타 모든 정보 필드는 .vcf 헤더에 정의되어 있습니다.

[ Common FORMAT ]필드

이름. 간단한 설명
AD 각 대립 유전자의 깊이 읽기
ADF 순방향 가닥의 각 대립 유전자에 대한 깊이 읽기
ADR 역방향 가닥의 각 대립 유전자에 대한 깊이 읽기
DP 판독 깊이
EC 예상 대립 유전자 수
FT 이 유전자형이 "호출"되었는지 여부를 나타내는 필터
GL 유전자형 우도
GP 유전자형 후방 확률
GQ 조건부 유전자형 품질
GT 유전자형
본사 하플로타입 품질
MQ RMS 매핑 품질
PL 가장 가까운 정수로 반올림된 프레드 스케일 유전자형 우도
p q. 단계적 품질
PS 위상 세트

기타 형식 필드는 .vcf 헤더에 정의되어 있습니다.

VCF 파일을 분석하는 도구

공용 도구(무료):

  • Ensubbl Variant Effect Predictor(VEP).이름 그대로 VEP를 사용하면 유전자, 전사물, 단백질 배열 및 조절 영역에 대한 변종의 영향을 예측할 수 있습니다.VEP는 (1) 어떤 유전자와 트랜스크립트가 변종의 영향을 받는가, (2) 변종의 위치, (3) 변종이 단백질 배열에 미치는 영향을 예측한다.VEP에는 소규모 데이터(50Mb 미만)에 대한 온라인 인터페이스가 있으며 대규모 데이터(>=50Mb)에 대한 로컬 명령줄 도구로도 사용할 수 있습니다.사용의 머신과 호환성이 있는 소프트웨어에는, 컨테이너(Docker 등)가 필요한 경우가 있습니다.설치에는 XCode, GCC, Perlbrew, Cpanm, Homebrew, mysql,[7] DBD::mysql 등의 많은 전제 조건이 필요합니다.
  • gene.iobio.io 이 웹 툴을 사용하면 관심 유전자 목록에서 중요한 변형을 검색할 수 있습니다.그 외의 기능은,[8] Web 사이트에서 시연되고 있습니다.
  • vcf.iobio.io 변형 파일을 시각화하고 검토할 수 있습니다.아래 2개의 그림은 예시입니다.

Variant density Transition:Tranversion


  • 게놈 변이 데이터의 시각화를 위한 도구인 VIVA(VAriants의 VIsualization of VAriants)명령줄 인터페이스를 사용하거나 Jupyter [9]Notebook에서 실행할 수 있습니다.

상용 도구

이러한 도구에 의해 생성된 주석의 대부분은 예측이므로 변종의 효과를 확인하기 위해서는 여전히 임상적 증거가 필요하다.

「 」를 참조해 주세요.

  • FASTA 형식. 게놈 염기서열을 나타내는 데 사용됩니다.
  • FASTQ 형식은 DNA 시퀀서의 판독값과 품질 점수를 나타내기 위해 사용됩니다.
  • SAM 형식은 게놈 염기서열과 정렬된 게놈 염기서열 판독치를 나타내기 위해 사용됩니다.
  • GVF 형식(Genome Variation Format)은 GFF3 형식에 기반한 확장입니다.

레퍼런스

  1. ^ a b "VCF Specification" (PDF). Retrieved 20 Oct 2016.
  2. ^ "Specifications of SAM/BAM and related high-throughput sequencing file formats". GitHub. Retrieved 24 June 2014.
  3. ^ "Encoding Structural Variants in VCF (Variant Call Format) version 4.0 1000 Genomes". Retrieved 20 October 2016.
  4. ^ "GVCF - Genomic Variant Call Format". GATK. Broad Institute.
  5. ^ "VCFtools from Github.io". Retrieved 20 October 2016.
  6. ^ "BCFtools".
  7. ^ McLaren W, Gil L, Hunt SE, Riat HS, Ritchie GR, Thormann A, et al. (June 2016). "The Ensembl Variant Effect Predictor". Genome Biology. 17 (1): 122. doi:10.1186/s13059-016-0974-4. PMC 4893825. PMID 27268795.
  8. ^ Di Sera T, Velinder M, Ward A, Qiao Y, Georges S, Miller C, et al. (October 2021). "Gene.iobio: an interactive web tool for versatile, clinically-driven variant interrogation and prioritization". Scientific Reports. 11 (1): 20307. Bibcode:2021NatSR..1120307D. doi:10.1038/s41598-021-99752-5. PMC 8514592. PMID 34645894.
  9. ^ Tollefson GA, Schuster J, Gelin F, Agudelo A, Ragavendran A, Restrepo I, et al. (September 2019). "VIVA (VIsualization of VAriants): A VCF File Visualization Tool". Scientific Reports. 9 (1): 12648. doi:10.1038/s41598-019-49114-z. PMC 6718772. PMID 31477778.
  10. ^ "HTS format specifications". samtools.github.io. Retrieved 2022-02-22.
  11. ^ "Bio-IT World". www.bio-itworld.com. Retrieved 2018-10-26.

외부 링크