FASTQ 형식
FASTQ format인터넷 미디어 유형 | text/seq-na-fastq, 화학/seq-na-fastq |
---|---|
개발자 | 웰컴 트러스트 생어 연구소 |
초기 릴리즈 | ~2000 |
포맷의 종류 | 생물정보학 |
확장원 | ASCII 및 FASTA 형식 |
웹 사이트 | maq |
FASTQ 형식은 생물학적 배열(일반적으로 뉴클레오티드 배열)과 그에 대응하는 품질 점수를 모두 저장하기 위한 텍스트 기반 형식입니다.시퀀스 문자와 품질 점수 모두 간략화를 위해 각각 단일 ASCII 문자로 인코딩됩니다.
원래는 FASTA 포맷된 시퀀스와 품질 데이터를 번들하기 위해 Wellcome Trust Sanger Institute에서 개발되었지만, 최근에는 Illumina Genome [1]Analyzer와 같은 높은 처리량 시퀀싱 장치의 출력을 저장하기 위한 사실상의 표준이 되었습니다.
포맷
FASTQ 파일에는 보통 시퀀스당4 행이 사용됩니다.
- 행 1은 '@' 문자로 시작하여 시퀀스 식별자 및 옵션 설명(FASTA 제목 줄 등)이 이어집니다.
- 행 2는 미가공 시퀀스 문자입니다.
- 행 3은 '+' 문자로 시작하고 옵션으로 동일한 시퀀스 식별자(및 설명)가 다시 이어집니다.
- 4행은 2행의 시퀀스에 대한 품질 값을 인코딩하며, 시퀀스의 문자와 동일한 수의 기호를 포함해야 합니다.
단일 시퀀스를 포함하는 FASTQ 파일은 다음과 같습니다.
@SEQ_ID GATTGGGTTCAAAGTATCATAGTAGTAGTAGTTCACTCACTCAGTT +'*((**+%)%%%%%%%%).1***-+*''))**55CCF>>>>>CCCC65
품질을 나타내는 바이트는 0x21(ASCII에서는 '최저품질!') ~ 0x7e(ASCII에서는 '~')입니다.품질값 문자는 왼쪽에서 오른쪽으로 품질순서(ASCII)로 표시됩니다.
!"#$%&'()+"//0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_'abcdefijklmnopqRSTUVXYZ{}~
원래의 Sanger FASTQ 파일에서는 시퀀스 문자열과 품질 문자열을 랩(여러 줄에 걸쳐 분할)할 수도 있지만, 일반적으로[citation needed] "@"와 "+"가 마커로 잘못 선택되었기 때문에 해석을 복잡하게 만들 수 있습니다(이러한 문자는 품질 문자열에서도 발생할 수 있습니다).
일루미나 시퀀스 식별자
Illumina 소프트웨어의 시퀀스는 다음과 같은 체계적인 식별자를 사용합니다.
@HWUSI-EAS100R:6:73:941:1973#0/1
HWUSI-EAS100R | 고유 악기 이름 |
---|---|
6 | 플로우 셀 레인 |
73 | 플로우 셀 레인 내의 타일 번호 |
941 | 타일 내 클러스터의 'x' 좌표 |
1973 | 타일 내 클러스터의 'y' 좌표 |
#0 | 다중화된 샘플의 인덱스 번호(인덱스 없음의 경우 0) |
/1 | 한 쌍의 멤버 /1 또는 /2(페어 엔드 또는 짝 읽기 전용) |
1.4 이후의 Illumina 파이프라인 버전은 멀티플렉스 ID에 #0 대신 #NNNNN을 사용하는 것으로 보입니다.여기서 NNNNN은 멀티플렉스 태그의 시퀀스입니다.
Casava 1.8에서는 '@' 행의 형식이 변경되었습니다.
@EAS139:136:FC706VJ:2104:15343:197393 1:Y:18:ATCACG
EAS139 | 고유 악기 이름 |
---|---|
136 | 실행 ID |
FC706VJ | 플로우 셀 ID |
2 | 플로우 셀 레인 |
2104 | 플로우 셀 레인 내의 타일 번호 |
15343 | 타일 내 클러스터의 'x' 좌표 |
197393 | 타일 내 클러스터의 'y' 좌표 |
1 | 한 쌍의 멤버, 1 또는 2(짝 또는 짝 읽기 전용) |
Y | 판독치가 필터링된 경우(통과되지 않은 경우) Y, 그렇지 않은 경우 N |
18 | 어느 제어 비트도 켜져 있지 않은 경우 0은 짝수입니다. |
ATCACG | 지수 배열 |
최신 버전의 Illumina 소프트웨어는 샘플 시트의 샘플에 대해 인덱스 시퀀스가 명시적으로 지정되지 않은 경우 인덱스 시퀀스 대신 샘플 번호(샘플 시트의 샘플 순서로 정의됨)를 출력합니다.예를 들어, 샘플 배치의 첫 번째 샘플에 속하는 FASTQ 파일에 다음 헤더가 표시될 수 있습니다.
@EAS139:136:FC706VJ:2104:15343:197393 1:N:18:1
NCBI 시퀀스 읽기 아카이브
INSDC 시퀀스 읽기 아카이브(Sequence Read Archive)의 FASTQ 파일에는 다음과 같은 설명이 포함되어 있는 경우가 많습니다.
@SRR001666.1 071112_SLXA-EAS1_s_7:5:1:817:345 length=36 GGGGGGGGGGGTCAAATCCACCACC +SR0016661SL_1.IG9IC
이 예에서는 NCBI에 의해 할당된 식별자가 있으며 설명에는 Solexa/Ilumina의 원래 식별자(상기 설명)와 읽기 길이가 포함됩니다.시퀀싱은 페어링 엔드 모드(~500bp 삽입 크기)에서 수행되었습니다(SRR001666 참조).fastq-dump의 기본 출력 형식은 모든 기술 읽기 및 일반적으로 단일 또는 쌍으로 구성된 생물학적 읽기를 포함하는 전체 스팟을 생성합니다.
$ fastq - 802 . 9 . 0 - Z - X 2 SRR001666 SR001666 2자리 읽기 SRR001666 2자리 쓰기 @ SRR001666 . 1 071112 _ SLXA - EAS 1 _ 7 : 5 : 1 : 817 : 3472 = GGGGTGGGTIG9ICIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII >IIII / @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 길이=72 GTTCAGTAGATAGATAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGAGATAGAT1_7IBIIIIIIIIIIIII >IIII-I)8I
FASTQ의 현대적 사용에는 거의 항상 제출자가 제공한 메타데이터에 설명된 대로 스팟을 생물학적 읽기로 분할해야 합니다.
달러 -X 2SRR001666fastq-dump--SRR001666달러 머리 SRR001666_1.fastq SRR001666_2.fastq ==>에 SRR001666 Written 두곳을 두곳을 읽split-3, SRR001666_1.fastq<>== @ SRR001666.1 071112_SLXA-EAS1_s_7:5:1이어야:817년:345length=36 GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC 071112_SLXA-EAS1_s_7 +SRR001666.1:5:1이어야:817년:345length=36 IIIIIIIIIIIIIIIIIIIIIIIIIIIIII.9IG9IC @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 length=36 GTCAGTATAGAATCTGA +SRR0012SL 0662.IBI ==> SRR001666_2.fastq <== @SRR001666.1 071112_SLXA-EAS1_s_7:1:817:345 length=36 AAGTAACCTAAGTTTTTASASAGA + SRAGAIIII / @SRR001666.2 071112_SLXA-EAS1_s_7:5:1:801:338 length=36 AGCAGAAGTCGATTACGGGTTTTACAT +SR11660066.IIII-I)8I
아카이브에 있는 경우 fastq-dump는 읽기 이름을 원래 형식으로 복원하려고 시도할 수 있습니다.기본적으로 NCBI는 원래 읽기 이름을 저장하지 않습니다.
$fastq-bead - X2 SRR001666 --bead-3 --origfmt SR001666의 경우 2자리 읽기 SRR001666_1.fastq SRR001666_2.fastq ==> SRRR0016661_1.fastq <0127> SR001666의 경우 2자리 읽기IG9IC @071112_SLXA-EAS1_s_7:5:1:801:338 GTTCAGGATGACGATTATATATATATACTGA +071112_SLXA-EAS1_780:1:3:1:08 GTCAGTAGTATTATATATTATATATATATTATATATTATTATTATTATTATTATTATCTGA:TTATTATCTGAA:1:1:1:1:1S_S_S_S_S_STCTGAIBI ==> SR001666_2.fastq <== @071112_SLXA-EAS1_s_7:5:1:817:345 AAGGTTCAAATAGA +01112_SLXA1SL>IIII / @071112_SLXA-EAS1_s_7:5:1:801:338 AGCAGAAGTATATATATACGGGGTTATATATACAT +071112_SLXA-EAS1:1:580IIII-I)8I
위의 예에서는 액세스된 읽기 이름이 아닌 원래 읽기 이름이 사용되었습니다.NCBI 액세스가 실행되어 읽기가 포함됩니다.시퀀서에 의해 할당된 원본 읽기 이름은 읽기의 로컬 고유 식별자로 기능할 수 있으며 일련 번호만큼 정확하게 많은 정보를 전달할 수 있습니다.위의 ID는 실행 정보와 기하학적 좌표를 기반으로 알고리즘으로 할당되었습니다.초기 SRA 로더는 이러한 ID를 구문 분석하고 분해된 구성 요소를 내부에 저장했습니다.특정 처리 파이프라인에 의미 있는 추가 정보를 관련짓기 위해 공급업체의 원래 형식에서 자주 수정되기 때문에 NCBI는 읽기 이름 기록을 중지했습니다. 이로 인해 이름 형식 위반이 발생하여 많은 수의 전송이 거부되었습니다.읽기 이름에 대한 명확한 스키마가 없으면 읽기 일련 번호와 동일한 양의 정보를 전달하면서 고유한 읽기 ID의 기능을 유지합니다.자세한 내용과 설명은 다양한 SRA Toolkit 문제를 참조하십시오.
또한 FASTq-dump는 원래 Solexa/Ilumina 인코딩에서 이 FASTQ 데이터를 Sanger 표준으로 변환합니다(아래 인코딩 참조).이는 SRA가 형식이 아닌 NGS 정보의 저장소 역할을 하기 때문입니다.다양한 *-dump 도구는 동일한 소스에서 여러 형식으로 데이터를 생성할 수 있습니다.이를 위한 요구사항은 수년간 사용자에 의해 결정되어 왔으며, 초기 수요의 대부분은 1000 Genetomes Project에서 비롯되었습니다.
바리에이션
퀄리티
품질값 Q는 p의 정수 매핑(즉, 대응하는 베이스 콜이 잘못되었을 가능성)이다.두 개의 다른 방정식이 사용되었습니다.첫 번째는 기본 콜의 신뢰성을 평가하기 위한 표준 Sanger 변종입니다.일명 Pred 품질 점수입니다.
Sollexa 파이프라인(즉, Illumina Genome Analyzer와 함께 제공된 소프트웨어)은 확률 p가 아닌 확률 p/(1-p)를 인코딩하는 다른 매핑을 사용했습니다.
두 매핑 모두 높은 품질 값에서는 점근적으로 동일하지만 낮은 품질 수준에서는 다르다(즉, 약 p > 0.05, 또는 동등한 Q < 13).
Illumina가 실제로 어떤 지도를 사용하는지에 대해 때때로 의견 충돌이 있었다.Illumina 파이프라인 버전 1.4에 대한 사용자 가이드(부록 B, 페이지 122)에는 다음과 같이 기술되어 있습니다. "점수는 Q=10*log10(p/(1-p)) [param]으로 정의됩니다. 여기서 p는 문제의 베이스에 대응하는 베이스 콜의 확률입니다."[2]돌이켜보면 설명서의 이 항목은 오류였던 것 같습니다.Illumina 파이프라인 버전 1.5 사용자 가이드(5페이지)에는 대신 다음과 같은 설명이 나와 있습니다. "Pipeline v1.3 [sic]의 중요한 변경 사항입니다.품질 스코어링 방식이 Phred 값에 64를 추가하여 ASCII 문자로 인코딩된 Phred [즉, Sanger] 스코어링 방식으로 변경되었습니다.베이스의 Pred 는 - log { {prede입니다.e는 베이스가 [3]틀렸을 경우의 추정 확률입니다.
부호화
- Sanger 형식은 ASCII 33 ~126을 사용하여 0 ~93의 Pred 품질 점수를 인코딩할 수 있습니다(원래 읽기 데이터에서는 Pred 품질 점수가 60을 넘는 경우가 거의 없지만 어셈블리 또는 읽기 맵에서 더 높은 점수를 받을 수 있습니다).SAM [4]형식에서도 사용됩니다.seqanswers.com [5]포럼의 발표에 따르면 2011년 2월 말에 Illumina의 최신 버전(1.8)의 파이프라인 CASAVA는 Sanger 포맷으로 fastq를 직접 제작할 예정입니다.
- PacBio HiFi 읽기(일반적으로 SAM/BAM 형식으로 저장됨)는 Sanger 규칙을 사용합니다.0~93의 프레드 품질 점수는 ASCII 33~126을 사용하여 부호화된다.Raw PacBio 서브레드는 동일한 규칙을 사용하지만 일반적으로 플레이스홀더 기본 품질(Q0)을 [6]판독치의 모든 베이스에 할당합니다.
- Solexa/Ilumina 1.0 포맷은 ASCII 59~126을 사용하여 Solexa/Ilumina 품질 점수를 -5~62로 인코딩할 수 있습니다(단, 원시 읽기 데이터에서는 -5~40의 Solexa 점수만 예상됨).
- Illumina 1.3부터 Illumina 1.8 이전까지 형식은 ASCII 64~126을 사용하여 0~62의 Pred 품질 점수를 인코딩했습니다(단, 원시 읽기 데이터에서는 0~40의 Pred 점수만 예상됨).
- Illumina 1.5부터 Illumina 1.8 이전까지 Pred 점수 0 ~ 2는 약간 다른 의미를 가집니다.값 0 및 1은 더 이상 사용되지 않으며 ASCII 66 "B"로 인코딩된 값 2는 읽기 마지막에도 읽기 세그먼트 품질 제어 [7]표시기로 사용됩니다.Illumina 설명서[8](30페이지)에는 다음과 같이 명시되어 있습니다.판독치가 대부분 낮은 품질의 세그먼트(Q15 이하)로 끝나는 경우 세그먼트의 모든 품질 값은 2의 값으로 대체됩니다(Illumina의 품질 점수 텍스트 기반 인코딩에서 문자 B로 인코딩됨). 이 Q2 지표는 특정 오류율을 예측하는 것이 아니라 판독치의 특정 최종 부분을 추가 분석에 사용하지 않아야 함을 나타냅니다.또한 "B" 문자로 인코딩된 품질 점수는 다음 예시와 같이 적어도 파이프라인 버전 1.6의 읽기 내에서 내부적으로 발생할 수 있습니다.
@HWi-EAS209_0006_FC706VJ:5:58:5894:2141#ATCACG/1 TTATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATATTTTTTTTTTTTTTTTTTTTTTTTAGTTTTTTTTTTTTTTTTTTTFC706VJ:5:58:5894:2141#ATCACG/1 efcfffffcffeeffffdf' 피드]_Ba_^_[YBBBBBBBBBBBB]RTT\]][]ddddddddddddddddddddddd^bbbbBBBBBBBBBBBBBBBBBB.
이 ASCII 인코딩에 대한 대체 해석이 [9]제안되었습니다.또한 PhiX 컨트롤을 사용한 Illumina 실행에서 문자 'B'가 "알 수 없는 품질 점수"를 나타내는 것으로 관찰되었습니다.'B' 판독의 오류율은 주어진 실행의 평균 관측 점수보다 약 3 phred 점수가 낮았습니다.
- Illumina 1.8부터 품질 점수는 기본적으로 Sanger 형식(Phred+33)의 사용으로 돌아갔습니다.
미가공 판독의 경우, 스코어의 범위는 테크놀로지 및 사용하는 베이스 콜러에 따라 다르지만, 최근의 Illumina 화학의 경우 일반적으로 최대 41이 됩니다.이전에는 발견된 최대 품질 점수가 40에 불과했기 때문에 품질 값이 40보다 큰 데이터를 발견하면 다양한 스크립트와 툴이 파손됩니다.처리된 판독의 경우 점수가 더 높을 수 있습니다.예를 들어, Illumina의 Long Read Sequencing Service(이전의 Moleculo)에서 판독한 결과 품질 값 45가 관찰되었습니다.
SSSSSSSSSSSSSSSSSSSS....................................................................................................................................................................................................................................................................................................................................................................................................................................XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX23232323…………………………………………………………………………………………….JJJJJJJJJJJJJJJJJJJJJJJJJJJJJ..................LLLLLLLLLLABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_'abcdefijklmnopqRSTUVXYZ{}~33 59 64 73 104 126 0......................26......40...... - 5 ................................................................................................................................40 3 ........................................41 0..................................26......................................................................................................................................................................40 50....................................................93
S - Sanger Pred + 33, 일반적으로 raw 판독치 (0, 40) X - Solexa Solexa + 64, 통상적으로 (-5, 40)의 미가공 판독치 I - Illumina 1.3+Pred+64, raw 판독치는 일반적으로 (0, 40) J - Illumina 1.5+Pred+64, raw 판독치 일반적으로 (3, 41) (0=120, 1=20, 2=세그먼트 품질 관리 표시기(굵은 글씨) 읽기) (참고:상기의 설명을 참조해 주세요). L - Illumina 1.8+Pred+33, raw 판독치 일반적으로 (0, 41) P - PacBio Pred + 33, HiFi 판독치는 보통 (0, 93)
색공간
SOLiD 데이터의 경우 포맷을 색공간 FASTQ 시퀀스(CSFASTQ)로 변경한다.여기서 시퀀스 내의 베이스가 0, 1, 2, 3과 조합되어 시퀀스 내의 이전 베이스에 대해 베이스가 어떻게 변경되는지를 나타낸다(0: 변화 없음, 1: 전이, 2: 비보완 변환, 3: 상보 변환).[1]이 형식은 SOLiD 시퀀서가 사용하는 다른 시퀀싱 화학과 일치했습니다.초기 표현은 염기서열 시작 시에만 뉴클레오티드 염기만을 사용했지만, 이후 버전은 염기 호출 및 매핑 정확도를 개선하기 위해 주기적인 간격으로 내장된 염기를 포함했다.
CSFASTQ의 품질 값은 Sanger 형식의 품질 값과 동일합니다.정렬 도구는 선호하는 품질 값 버전이 다릅니다. 선두 뉴클레오티드에 대한 품질 점수(0으로 설정됨, 즉 '!')를 포함하는 도구도 있고 그렇지 않은 도구도 있습니다.시퀀스 읽기 아카이브에는 이 품질 점수가 포함됩니다.
FAST5 및 HDF5의 진화
FAST4 포맷은 4개의 베이스(A, C, G, T) 각각이 개별 확률을 저장했던 FASTQ 포맷의 파생상품으로 발명되었습니다.이는 "이미지에서 베이스콜까지" 차세대 시퀀스 데이터에 대한 일차 데이터 분석을 위한 오픈 소스 패키지인 Swift 베이스콜러의 일부였습니다.
FAST5 포맷은 FAST4 포맷의 확장으로 개발되었습니다.FAST5 파일은 Oxford Nanopore Technologies(ONT)[10]에 의해 정의된 특정 스키마를 가진 HDF5 파일입니다.
시뮬레이션
FASTQ 읽기 시뮬레이션은 여러 [11][12]도구를 통해 수행되었습니다.이러한 툴의 비교는,[13] 여기를 참조해 주세요.
압축
일반 압축기
Gzip 및 bzip2와 같은 범용 도구는 FASTQ를 일반 텍스트 파일로 간주하므로 압축률이 최적화되지 않습니다.NCBI의 시퀀스 읽기 아카이브는 LZ-77 방식을 사용하여 메타데이터를 인코딩합니다.일반적인 FASTQ 압축기는 일반적으로 FASTQ 파일의 개별 필드(읽기 이름, 시퀀스, 주석 및 품질 점수)를 개별적으로 압축합니다.이들 필드에는 Genozip,[14] DSRC 및 DSRC2, FQC, LFQC, Fqzcomp 및 Slimfastq가 포함됩니다.
읽는다
레퍼런스 게놈을 주변에 두는 것은 편리하다.왜냐하면 뉴클레오티드 배열 자체를 저장하는 대신 레퍼런스 게놈에 판독치를 정렬하고 위치(점수)와 불일치를 저장하면 된다.그 후 포인터는 레퍼런스 배열 순서에 따라 정렬되고 예를 들어 런렝스 부호화에 의해 부호화될 수 있다.배열된 게놈의 커버리지나 반복 함량이 높으면 압축률이 높아진다.SAM/BAM 형식과 달리 FASTQ 파일은 참조 게놈을 지정하지 않습니다.얼라인먼트 기반 FASTQ 압축기는 사용자 제공 또는 de novo 조립 참조 사용을 지원합니다. LW-FQZip은 제공된 참조 게놈을 사용하고 Quip, Leon, k-Path 및 KIC는 de novo 조립을 de Bruijn 그래프 기반 접근 방식을 사용하여 수행합니다.Genozip은[14] 사용자가 참조를 제공하는 경우 선택적으로 참조를 사용할 수 있습니다.이것은 단일 또는 여러 종류의 참조 파일일 수 있습니다.
명시적 읽기 매핑 및 de novo 어셈블리는 일반적으로 느립니다.순서 변경 기반 FASTQ 압축기는 먼저 긴 서브스트링을 공유한 후 각 클러스터의 읽기를 정렬하거나 긴 콘티그에 조립한 후 독립적으로 압축하므로 실행 시간과 압축 속도 간에 최적의 균형을 이룰 수 있습니다.SCALCE는 이러한 툴의 첫 번째이며, Orcom과 Mince가 그 뒤를 잇습니다.BITL은 일반화된 Burrows를 사용합니다.읽기 순서 변경을 위한 휠러 변환과 HARC는 해시 기반 순서 변경을 통해 성능을 향상시킵니다.대신 AssemblTrie는 [15][16]참조에서 가능한 한 적은 수의 총 기호로 읽기를 참조 트리로 구성합니다.
이러한 툴에 대한 벤치마크는 [17]다음에서 확인할 수 있습니다.
품질값
품질 값은 FASTQ 형식(압축 전)에서 필요한 디스크 공간의 약 절반을 차지하므로 품질 값을 압축하면 스토리지 요구사항을 크게 줄이고 시퀀싱 데이터의 분석 및 전송 속도를 높일 수 있습니다.최근 문헌에서는 무손실 압축과 무손실 압축이 모두 검토되고 있다.예를 들어 알고리즘[18] QualComp는 사용자가 지정한 레이트(품질 값당 비트 수)를 사용하여 손실 압축을 수행합니다.레이트 왜곡 이론의 결과에 근거해, 원래의(비압축) 품질치와 재구성된(압축 후의) 품질치 사이의 MSE(평균 제곱 오차)를 최소한으로 억제하도록 비트수를 할당한다.품질값 압축 알고리즘에는 SCALCE 및 Fastqz가 [20]있습니다[19].둘 다 무손실 압축 알고리즘으로 옵션으로 제어된 손실 변환 방식을 제공합니다.예를 들어 SCALCE는 "네이버링" 품질 값이 일반적으로 유사하다는 관찰에 따라 알파벳 크기를 줄입니다.벤치마크에 대해서는,[21] 을 참조해 주세요.
HiSeq 2500 Illumina는 거칠게 세분화된 품질을 품질 보관함에 출력할 수 있는 옵션을 제공합니다.빈 점수는 시퀀싱 [22]실험 중에 사용된 하드웨어, 소프트웨어 및 화학과 관련된 경험적 품질 점수 표에서 직접 계산된다.
Genozip은[14] DomQual 알고리즘을 사용하여 Illumina 또는 Illumina와 유사한 Bin을 생성하는 Genozip 자체 --optimize 옵션과 같은 Bin 품질 점수를 압축합니다.
암호화
Genozip은[14] 표준 AES 암호화를 가장 안전한 수준인 256비트(--password 옵션)로 적용하여 FASTQ 파일(및 기타 게놈 형식)을 암호화합니다.
Cryfa는[23] AES 암호화를 사용하여 암호화 이외의 데이터를 압축할 수 있습니다.FASTA 파일 주소도 지정할 수 있습니다.
파일 확장자
FASTQ 파일에는 표준 파일 확장자가 없지만 일반적으로 .fq 및 .fastq가 사용됩니다.
포맷 변환기
- Biopython 버전 1.51 이후 (Sanger, Solexa 및 Illumina 1.3+ 변환)
- EMBOSS 버전 6.1.0 패치 1 이후 (Sanger, Solexa 및 Illumina 1.3+ 변환)
- BioPerl 버전 1.6.1 이후 (Sanger, Solexa 및 Illumina 1.3+ 변환)
- BioRuby 버전 1.4.0 이후 (Sanger, Solexa 및 Illumina 1.3+ 변환)
- BioJava 버전 1.7.1 이후 (Sanger, Solexa 및 Illumina 1.3+ 변환)
「 」를 참조해 주세요.
- FASTA 형식. 게놈 염기서열을 나타내는 데 사용됩니다.
- SAM 형식은 게놈 염기서열과 정렬된 게놈 염기서열 판독치를 나타내기 위해 사용됩니다.
- GVF 형식(Genome Variation Format)은 GFF3 형식에 기반한 확장입니다.
레퍼런스
- ^ a b Cock, P. J. A.; Fields, C. J.; Goto, N.; Heuer, M. L.; Rice, P. M. (2009). "The Sanger FASTQ file format for sequences with quality scores, and the Solexa/Illumina FASTQ variants". Nucleic Acids Research. 38 (6): 1767–1771. doi:10.1093/nar/gkp1137. PMC 2847217. PMID 20015970.
- ^ 시퀀스 분석 소프트웨어 사용자 가이드: 파이프라인 버전 1.4 및 CASAVA 버전 1.0, 2009년 4월 날짜 PDF, 2010년6월 10일 Wayback Machine에서 아카이브
- ^ 시퀀싱 분석 소프트웨어 사용자 가이드: 파이프라인 버전 1.5 및 CASAVA 버전 1.0, 2009년 8월호 PDF[dead link]
- ^ 시퀀스/얼라인먼트 맵 형식 버전 1.0, 2009년 8월호 PDF
- ^ Seqanswer의 skruglyak 주제, 2011년 1월 웹사이트
- ^ PacBio BAM 포맷 사양 10.0.0 https://pacbiofileformats.readthedocs.io/en/10.0/BAM.html#qual
- ^ Illumina 품질 점수, Tobias Mann, 생물정보학, 샌디에이고, Illumina http://seqanswers.com/forums/showthread.php?t=4721
- ^ 게놈 분석기 시퀀싱 제어 소프트웨어 버전 2.6, 카탈로그 번호 SY-960-2601, Part #15009921 Rev. A, 2009년 11월 http://watson.nci.nih.gov/solexa/Using_SCSv2.6_15009921_A[dead link].pdf 사용
- ^ SolexaQA 프로젝트 웹사이트
- ^ "Introduction_to_Fast5_files". labs.epi2me.io. Retrieved 2022-05-19.
- ^ Huang, W; Li, L; Myers, J. R.; Marth, G. T. (2012). "ART: A next-generation sequencing read simulator". Bioinformatics. 28 (4): 593–4. doi:10.1093/bioinformatics/btr708. PMC 3278762. PMID 22199392.
- ^ Pratas, D; Pinho, A. J.; Rodrigues, J. M. (2014). "XS: A FASTQ read simulator". BMC Research Notes. 7: 40. doi:10.1186/1756-0500-7-40. PMC 3927261. PMID 24433564.
- ^ Escalona, Merly; Rocha, Sara; Posada, David (2016). "A comparison of tools for the simulation of genomic next-generation sequencing data". Nature Reviews Genetics. 17 (8): 459–69. doi:10.1038/nrg.2016.57. PMC 5224698. PMID 27320129.
- ^ a b c d Lan, D., et al. 2021, Genozip: 범용 확장형 게놈 데이터 압축기, 생물정보학
- ^ Ginart AA, Hui J, Zhu K, Numanagić I, Courtade TA, Sahinalp SC; et al. (2018). "Optimal compressed representation of high throughput sequence data via light assembly". Nat Commun. 9 (1): 566. Bibcode:2018NatCo...9..566G. doi:10.1038/s41467-017-02480-6. PMC 5805770. PMID 29422526.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Zhu, Kaiyuan; Numanagić, Ibrahim; Sahinalp, S. Cenk (2018). "Genomic Data Compression". Encyclopedia of Big Data Technologies. Cham: Springer International Publishing. pp. 779–783. doi:10.1007/978-3-319-63962-8_55-1. ISBN 978-3-319-63962-8.
- ^ Numanagić, Ibrahim; Bonfield, James K; Hach, Faraz; Voges, Jan; Ostermann, Jörn; Alberti, Claudio; Mattavelli, Marco; Sahinalp, S Cenk (2016-10-24). "Comparison of high-throughput sequencing data compression tools". Nature Methods. Springer Science and Business Media LLC. 13 (12): 1005–1008. doi:10.1038/nmeth.4037. ISSN 1548-7091. PMID 27776113. S2CID 205425373.
- ^ Ochoa, Idoia; Asnani, Himanshu; Bharadia, Dinesh; Chowdhury, Mainak; Weissman, Tsachy; Yona, Golan (2013). "Qual Comp: A new lossy compressor for quality scores based on rate distortion theory". BMC Bioinformatics. 14: 187. doi:10.1186/1471-2105-14-187. PMC 3698011. PMID 23758828.
- ^ Hach, F; Numanagic, I; Alkan, C; Sahinalp, S. C. (2012). "SCALCE: Boosting sequence compression algorithms using locally consistent encoding". Bioinformatics. 28 (23): 3051–7. doi:10.1093/bioinformatics/bts593. PMC 3509486. PMID 23047557.
- ^ fastqz.http://mattmahoney.net/dc/fastqz/
- ^ M. 호세이니, D. 프라타스, A.핀호 2016년생물학적 배열에 대한 데이터 압축 방법에 대한 조사.정보 7(4) : (2016) : 56
- ^ Illumina 테크니컬 노트http://www.illumina.com/content/dam/illumina-marketing/documents/products/technotes/technote_understanding_quality_scores.pdf
- ^ Hosseini M, Pratas D, Pinho A (2018). Cryfa: a secure encryption tool for genomic data. Bioinformatics. Vol. 35. pp. 146–148. doi:10.1093/bioinformatics/bty645. PMC 6298042. PMID 30020420.
외부 링크
- FASTQ 변형에 대해 설명하는 MAQ 웹 페이지