RNA-Seq 생물정보학 도구 목록
List of RNA-Seq bioinformatics toolsRNA-Seq는[1][2][3] 차세대 염기서열 기술에 기반한 대본 연구(Transcriptomics 기술 참조)를 가능하게 하는 기법이다[4].이 기법은 공정의 다른 단계를 지원하기 위해 개발된 생물정보학 도구에 크게 의존한다.다음은 일반적으로 사용되는 몇 가지 주요 도구와 몇몇 중요한 웹 자원에 대한 링크들이다.
디자인
디자인은 특정한 RNA-Seq 실험의 기본 단계다.시퀀싱 깊이/커버리지 또는 생물학적 또는 기술적 반복실험 횟수와 같은 몇 가지 중요한 질문을 주의 깊게 고려해야 한다.설계 검토.[5]
- 적정: RNAseq에 대한 프로스펙트럼 전력 평가.
- RNAtor: DNA 염기서열 프로젝트에 사용할 수 있는 인기 있는 도구와 키트에 대한 최적의 파라미터를 계산하는 Android 애플리케이션.
- Scotty는 미분 유전자 발현을 측정하기 위한 RNA-Seq 실험을 설계하기 위한 웹 도구다.
- RNA-Seq 실험 설계를 위한 ssizeRNA 표본 크기 계산.
데이터의 품질 관리, 트리밍, 오류 수정 및 사전 처리
원시 데이터의[6] 품질 평가는 RNA-Seq의 생물정보학 파이프라인의 첫 번째 단계다. 종종 데이터를 필터링하여 저품질 시퀀스 또는 베이스(트리밍), 어댑터, 오염, 과도하게 표현된 시퀀스 또는 오류를 수정해야 일관성 있는 최종 결과를 보장할 수 있다.
품질관리
- AfterQC - 자동 필터링, 트리밍, 오류 제거 및 fastq 데이터 품질 관리.
- bam-lorenz-coverage 로렌츠 플롯과 탐지 범위 플롯을 생성하거나 이러한 통계를 텍스트 파일로 직접 내보낼 수 있는 도구.[7]
- dupRadar는[8] 표현 수준에 따라 중복 비율을 표시하고 분석하는 기능을 제공하는 R 패키지.
- FastQC는 고투과 시퀀스 데이터(Babraham Institute)를 위한 품질 관리 툴로 자바에서 개발되었다.FastQ 파일, BAM 또는 SAM 형식에서 데이터 가져오기가 가능하다.이 도구는 데이터의 신속한 평가를 위한 문제 영역, 요약 그래프 및 표에 대한 개요를 제공한다.결과는 HTML 영구 보고서에 제시되어 있다.FastQC는 독립형 애플리케이션으로 실행되거나 더 큰 파이프라인 솔루션으로 통합될 수 있다.
- fastqp Python을 사용한 간단한 FASTQ 품질 평가.
- Kraken:[9] 고투과 시퀀스 데이터의 품질 관리 및 분석을 위한 도구 모음입니다.
- HTSeq[10] Python 스크립트 htseqa는 시퀀싱 읽기(원시 읽기 또는 정렬 읽기)가 포함된 파일을 가져와서 실행의 기술적 품질을 평가하기 위해 유용한 플롯이 포함된 PDF 파일을 생성한다.
- mRIN[11] - RNA-Seq 데이터에서 직접 mRNA 무결성 평가.
- MultiQC - 모든 샘플에 걸쳐 다양한 도구(FastQC, HTSeq, RSeQC, Tophat, STAR 등)의 결과를 집계하고 단일 보고서로 시각화한다.
- NGSQC: 심층 시퀀싱 데이터를 위한 교차 플랫폼 품질 분석 파이프라인.
- NGS QC 툴킷 차세대 시퀀싱(NGS) 데이터의 품질 관리(QC)를 위한 툴킷.툴킷은 Illumina 및 Roche 454 플랫폼을 사용하여 생성된 시퀀스 데이터의 품질관리를 위한 사용자 친화적인 스탠드 독립형 도구로 구성되며, 표와 그래프 형태로 상세한 결과를 제공하며, 고품질 시퀀스 데이터의 필터링이 가능하다.또한 NGS 데이터 품질 관리 및 분석에 유용한 다른 툴도 거의 포함하지 않는다.
- PRINSEQ는 시퀀스 및 품질 데이터의 요약 통계를 생성하는 도구로, 차세대 시퀀스 데이터를 필터링, 재포맷 및 트리밍하는 데 사용된다.454/Roche 데이터를 위해 특별히 설계되었지만 다른 유형의 시퀀스에도 사용할 수 있다.
- QC-Chain은 차세대 염기서열 분석(NGS) 데이터를 위한 품질 관리 도구 패키지로, 가능한 모든 오염 시퀀스를 식별할 수 있는 원시 판독 품질 평가와 de novo 오염 스크리닝으로 구성된다.
- QC3 원시 데이터, 정렬 및 변종 호출을 위한 DNA 시퀀싱 데이터를 위해 설계된 품질 관리 도구.
- qrqc 빠르게 스캔하여 기본 및 품질 주파수, 읽기 길이 및 빈도 시퀀스에 대한 통계를 읽고 수집한다.품질 관리 파이프라인 및 HTML 품질 보고서(옵션)에 사용하기 위한 통계 그래픽 출력물 생성S4 SequenceSummary 객체는 수집된 데이터 주위에 특정 시험과 기능성을 기록할 수 있다.
- RNA-SeQC는 연산 분석 전 실험 설계, 공정 최적화, 품질 관리 등에 응용한 도구다.기본적으로 읽기 수(중복된 읽기, 매핑된 읽기 및 매핑된 고유 읽기, RRNA 읽기, 대본 알림 읽기, Strand 특별성), 범위(평균 범위, 변동 계수, 5'/3' 범위, 범위 간격, GC 바이어스) 및 표현 상관관계(툴은 RPKM-bas 제공)의 세 가지 품질 관리 유형을 제공한다.표현 수준의 추정).RNA-SeQC는 자바에서 구현되며 설치가 필요하지 않지만 GenePattern 웹 인터페이스를 사용하여 실행할 수 있다.입력은 하나 이상의 BAM 파일일 수 있다.HTML 보고서는 출력으로 생성된다.
- RSeQC는 RNA-Seq 실험의 다양한 측면, 즉 시퀀스 품질, 시퀀싱 깊이, 스트랜드 특이성, GC 바이어스, 게놈 구조에 대한 읽기 분포 및 커버리지 균일성을 분석한다.입력은 SAM, BAM, FASTA, BED 파일 또는 염색체 크기 파일(2열, 일반 텍스트 파일)이 될 수 있다.시각화는 UCSC, IGB, IGV와 같은 게놈 브라우저에 의해 수행될 수 있다.그러나 R 스크립트는 시각화에도 사용할 수 있다.
- SAMStat는[15] 문제를 파악하고 프로세스의 여러 단계에서 몇 가지 통계를 보고한다.이 도구는 매핑되지 않은, 잘못되고 정확하게 매핑된 시퀀스를 독립적으로 평가하여 매핑 불량에 대한 가능한 원인을 추론한다.
- SolexaQA는 시퀀스 품질 통계를 계산하고 2세대 시퀀싱 데이터에 대한 데이터 품질을 시각적으로 표현한다.원래 Illumina 시스템(역사적으로 "Solexa"로 알려진)용으로 개발된 SolexaQA는 현재 Ion Torrent와 454 데이터도 지원한다.
- Trim galore는 품질 관리뿐만 아니라 품질 및 어댑터 트리밍을 자동화하는 래퍼 스크립트로, RRBS 시퀀스 파일(방향, 비방향(또는 쌍방향) 시퀀싱용)에 대해 편향된 메틸화 위치를 제거하는 기능이 일부 추가되었다.
품질향상
RNA-Seq 품질의 향상, 편향 교정 등은 복잡한 주제다.[16][17]각 RNA-Seq 프로토콜은 특정한 유형의 바이어스를 도입하며, 프로세스의 각 단계(사용된 시퀀싱 기술 등)는 어떤 종류의 잡음이나 오류 유형을 발생시키기 쉽다.게다가, 심지어 조사중인 종과 표본의 생물학적 맥락도 결과에 영향을 미치고 어떤 종류의 편견을 일으킬 수 있다.GC 내용 및 PCR 농축,[18][19] rRNA 고갈,[20] 시퀀싱 중 생성된 오류,[21] 무작위 육각자에 의해 야기된 역전사 프라이밍 등 많은 편향의 원천이 이미 보고되었다.[22]
검출된 각각의 오류를 해결하기 위해 서로 다른 도구가 개발되었다.
트리밍 및 어댑터 제거
- AlianTrimmer는[23] (k-mers 기반) 매우 빠른 접근법(k-meres 기반)을 구현하여 일반 또는 gzip 압축 FASTQ 파일의 단일 또는 페어링 엔드 시퀀싱 읽기로부터 기술(알리엔) 올리고뉴클레오티드를 잘라낸다(자세한 내용은 AlierTrimer 참조).
- BBDuk 멀티스레드 공구는 어댑터를 트림하고 kmer-matching을 기반으로 오염물을 필터링하거나 마스킹하여 해밍 또는 편집 거리뿐만 아니라 퇴화된 베이스도 허용한다.또한 최적의 품질-트리밍 및 필터링, 형식 변환, 오염물질 농도 보고, gc-필터링, 길이 필터링, 엔트로피-필터링, 순결-필터링을 수행하고 대부분의 작업에 대해 텍스트 히스토그램을 생성한다.fastq, fasta, sam, 스카프, 인터리브 및 2-파일 쌍, gzip, bziped, ASCII-33 및 ASCII-64 사이의 인터컨버전트.짝을 이루어 준다.순수한 Java로 작성된 오픈 소스. 재컴파일 및 기타 종속성이 없는 모든 플랫폼을 지원한다.
- clean_reads는 NGS(Sanger, 454, Illumina 및 solid) 읽기를 세척한다.품질 불량 지역, 어댑터, 벡터, 정규 표현식을 다듬을 수 있다.또한 시퀀스 길이와 평균 품질을 기준으로 최소 품질 기준을 충족하지 않는 판독치를 걸러낸다.
- 콘데트리는[24] 각 베이스의 품질 점수를 개별적으로 사용하여 Illumina 데이터에 대한 콘텐츠 의존적 읽기 트리밍 방법이다.그것은 순서 범위와 사용자 상호작용과는 무관하다.구현의 주요 초점은 가용성 및 차세대 시퀀싱 데이터 처리 및 분석 파이프라인에 읽기 트리밍을 통합하는 것이다.임의 길이의 단일 종단 및 쌍단 종단 시퀀싱 데이터를 처리할 수 있다.
- cutadapt는[25] 차세대 시퀀싱 데이터(Illumina, SOLiD 및 454)에서 어댑터 시퀀스를 제거한다.특히 시퀀싱 머신의 판독 길이가 마이크로RNA 케이스처럼 시퀀싱된 분자보다 긴 경우에 사용된다.
- 디콘섹 시퀀스 데이터에서 오염을 감지하고 제거하십시오.
- Erne-Filter는[26] 쇼트 스트링 정렬 패키지로, 쇼트(NGS 유사) 읽기를 처리할 수 있는 일체형 도구 세트를 제공하는 것이 목표다.ERNE는 ERNE-FILTER(읽기 트리밍 및 연속 필터링), ERNE-MAP(핵심 정렬 도구/알고리즘), ERNE-BS5(비황산 처리 읽기 얼라이너), ERNE-PMAP/ERNE-PBS5(얼라이너의 분산 버전)로 구성된다.
- FastqMcf Fastq-mcf 시도: 시퀀싱 어댑터 및 프라이머 감지 및 제거, 읽기 및 클립 끝단에서의 제한된 왜곡 감지, 읽기 및 클립 끝단에서의 불량 품질 감지, Ns 탐지 및 끝단 제거, CASAVA 'Y' 플래그(순도 필터링)로 읽기 제거;위의 모든 시퀀스를 삭제한 후 너무 짧은 시퀀스를 삭제하십시오. 위의 모든 작업을 수행하는 동안 여러 개의 짝 판독값을 동기화하십시오.
- FASTX Toolkit은 파일 FASTA 또는 FASTQ 형식의 읽기를 조작하는 명령줄 도구 모음입니다.이러한 명령은 Bowtie와 같은 도구로 매핑하기 전에 파일을 사전 처리할 수 있게 한다.허용되는 작업으로는 FASTQ에서 FASTA 형식으로 변환, 품질 통계에 대한 정보, 시퀀싱 어댑터 제거, 품질 또는 변환 DNA/RNA에 기반한 시퀀스 필터링 및 절단 등이 있다.
- Flexbar는 어댑터 시퀀스, 트리밍 및 필터링 기능의 제거를 수행한다.
- FreClu는 군집화 방법론을 기반으로 짧은 읽기를 트리밍하여 시퀀싱 오류 수정을 수행하면서 전체적인 정렬 정확도를 개선한다.
- htSeqTools는 품질 관리, 데이터 처리 및 시각화를 수행할 수 있는 바이오 컨덕터 패키지다.htSeqTools는 샘플 상관관계 시각화, 과도한 증폭 왜곡 제거, 농축 효율성 평가, Strand 바이어스 수정 및 적중 시각화를 가능하게 한다.
- Illumina Nextera Mate Pair 라이브러리에 대한 NxTrim 어댑터 트리밍 및 가상 라이브러리 생성 루틴.
- PRINSEQ는[27] 시퀀스 길이, GC 내용, 품질 점수, n-plate, 복잡성, 태그 시퀀스, 폴리-A/T 꼬리표, 승산비에 대한 시퀀스 데이터의 통계를 생성한다.데이터 필터링, 다시 포맷 및 시퀀스 트리밍
- Sabre A 바코드 Demultiplexing 및 FastQ 파일용 트리밍 도구.
- Scythe 3'end 어댑터 트리머 오염.
- SEECER는 RNA-seq 데이터 세트를 위한 시퀀싱 오류 보정 알고리즘이다.Illumina나 Roche의 기계와 같은 차세대 시퀀싱 플랫폼에 의해 생성된 원시 읽기 시퀀스를 취한다.SEECER는 원시 판독에서 불일치와 지워지지 않는 오류를 제거하고 데이터의 다운스트림 분석을 상당히 개선한다.특히 RNA-Seq 데이터를 사용하여 de novo transcriptom 어셈블리를 생성하는 경우, SECER를 실행하면 어셈블리의 품질에 엄청난 영향을 미칠 수 있다.
- 낫 품질을 사용하는 FASTQ 파일을 위한 창 방식의 적응형 트리밍 도구.
- SnoWhite는[28] 조립 전 시퀀스 읽기(gDNA 또는 cDNA)를 유연하고 공격적으로 세척할 수 있도록 설계된 파이프라인이다.fastq 또는 fasta 형식의 시퀀스 파일을 가져와서 반환한다.
- ShortRead는 R(프로그래밍 언어) / BioConductor 환경에서 제공되는 패키지로 차세대 시퀀싱 데이터의 입력, 조작, 품질 평가 및 출력이 가능하다.이 도구는 미리 정의된 기준에 따라 읽기를 제거하는 필터 솔루션과 같은 데이터 조작을 가능하게 한다.ShortRead는 추가 분석 및 시각화 솔루션(BioStrings, BSgenome, IRanges 등)을 위한 몇 가지 바이오콘덕터 패키지로 보완될 수 있다.
- SortMeRNA는 메타그램 및 메타게놈 데이터에서 필터링, 매핑 및 OTU 픽싱 NGS 읽기를 위한 프로그램 툴이다.코어 알고리즘은 대략적인 씨앗에 기초하며 뉴클레오티드 시퀀스의 분석을 허용한다.SortMeRNA의 주요 적용 분야는 메타트랜스크립토믹 데이터에서 리보솜 RNA를 필터링하는 것이다.
- TagCleaner TagCleaner 도구를 사용하여 게놈 및 메타게놈 데이터 집합에서 태그 순서(예: WTA 태그)를 자동으로 감지하고 효율적으로 제거할 수 있다.쉽게 구성할 수 있고 사용자에게 친숙한 인터페이스를 제공한다.
- Trimomatic은[29] Illumina 플랫폼에 대해 트리밍을 수행하고 FASTQ 읽기(단일 또는 페어 엔드)로 작업한다.실행된 작업으로는 어댑터 절단, 품질 임계값에 기반한 선택적 위치의 기준 절단, 읽기 길이를 특정 길이로 줄임, 품질 점수를 Prred-33/64로 변환하는 작업이 있다.
- fastp FastQ 파일에 대한 일체형 사전 처리를 제공하도록 설계된 도구.이 도구는 멀티스레딩이 지원되는 C++로 개발되었다.
- FASTX-Toolkit FASTX-Toolkit은 Short-Reads FASTA/FASTQ 파일 사전 처리를 위한 명령줄 도구 모음입니다.
키메릭 읽기 탐지
최근의 염기서열 기술은 일반적으로 DNA 샘플이 중합효소 연쇄반응(PCR)을 통해 증폭되어야 한다.증폭은 특히 리보솜에서 나온 치메릭 원소를 생성하는 경우가 많은데, 이는 두 개 이상의 원래 염기서열에서 형성된 염기서열이다.
- UCHIME은 치메릭 시퀀스를 검출하기 위한 알고리즘이다.
- 키메라슬레이어 치메릭 시퀀스 감지 유틸리티로, 거의 전체 길이 Sanger 시퀀스 및 짧은 454-FLX 시퀀스(~500bp)와 호환된다.
오류수정
높은 처리량 시퀀싱 오류 특성화 및 최종 수정.[30]
- 아카시아 오류-열렬 증폭기 읽기용 설계자.
- AllPathsLG 오류 수정.
- AmpliconNoise[31] AmpliconNoise는 454개의 시퀀싱된 PCR 앰플에서 노이즈를 제거하기 위한 프로그램 모음입니다.시퀀싱 자체에서 노이즈 제거와 PCR 포인트 오류 제거의 두 단계를 포함한다.이 프로젝트에는 키메라 제거용 페르세우스 알고리즘도 포함되어 있다.
- 베이즈해머. 오류 수정을 위한 베이지안 클러스터링.이 알고리즘은 해밍 그래프와 베이지안 하위클러스터링을 기반으로 한다.BAYES 해머는 단일 셀 시퀀싱용으로 설계되었지만, 대량 시퀀싱 데이터의 기존 오류 보정 도구도 개선되었다.
- 축복하다[32] 고투과 시퀀싱 읽기를 위한 블룸 필터 기반 오류 수정 솔루션.
- 블루[33] 블루 블루는 k-mer 컨센서스와 컨텍스트를 기반으로 한 짧은 읽기 오류 수정 툴이다.
- BFC Illumina 짧은 읽기용으로 설계된 시퀀싱 오류 수정기.탐욕스러운 방법에 근거한 구현에 버금가는 속도의 비자유 알고리즘을 사용한다.
- Denoiser Denoiser는 열시퀀싱 데이터의 소음 문제를 해결하도록 설계되었다.Denoiser는 PyroNoise의 휴리스틱 변종이다.데노이저 개발자들은 몇 가지 테스트 데이터셋에 대해 PyroNoise와 좋은 계약을 체결했다고 보고한다.
- Echo A reference-free 단축 읽기 오류 수정 알고리즘.
- 라이터.카운트하지 않고 시퀀싱 오류 수정.
- LSC LSC는 짧은 Illumina read를 사용하여 긴 판독에서 오류를 수정한다.
- Karecct Karect: 차세대 시퀀싱 데이터에 대한 대체, 삽입 및 삭제 오류의 정확한 수정.
- NoDe NoDe: 파이로시퀀싱 앰프콘 읽기를 위한 오류 수정 알고리즘.
- PyroTagger PyroTagger: rRNA 앰플리콘 파이로시퀀스 데이터 분석을 위한 빠르고 정확한 파이프라인.
- 퀘이크는 Illumina 시퀀싱 판독에 대한 심층 커버리지가 있는 실험에서 대체 시퀀싱 오류를 수정하는 도구다.
- QuorUM: Illumina Reads에 대한 오류 수정기.
- R코렉터.Illumina RNA-seq 읽기 오류 수정.
- 파충류는 차세대 시퀀싱 플랫폼에서 짧은 읽기 속 시퀀싱 오류를 수정하기 위해 C++로 개발된 소프트웨어다.
- Rna 읽기에 대한 Sequencing 오류 CorrEection.
- SGA
- SOAP데노보
- 유니즈
바이어스 보정
- RNA-seq의 파편 시퀀스 편향 보정 및 알파인[34] 모델링.
- cqn은[35] RNA-Seq 데이터에 대한 정규화 도구로, 조건부 정량화 방법을 구현한다.
- EDASeq는[36] RNA-Seq 데이터에 대한 GC-Content Normalization을 수행하기 위한 바이오콘덕터 패키지다.
- 유전자 가위 RNAseq 읽기 오류로 인한 가짜 대본 추론을 탐지하고 수정하는 포괄적인 접근법.
- 피어는[37] 인자 분석 방법을 사용하여 유전자 발현 프로파일에서 숨겨진 결정요인과 그 영향을 추론하는 베이시안 접근법의 집합체다.PEER의 적용은 a) 검출된 배치 효과 및 실험 교란 요인, b) 표현 QTL 결과의 수를 3배 증가시켰고, c) 전사 계수 또는 경로 활성화와 같은 중간 셀룰러 특성에 대한 추론을 허용했다.
- RUV는[38] 검체 간 RNA-Seq 읽기 횟수의 정상화를 위해 Risso 등(2014년)의 불필요한 변동 제거(RUV) 방법을 구현하는 R 패키지다.
- svaSurrogate 변수 분석.
- 시퀀싱 데이터에서 배치 효과 및 기타 원치 않는 노이즈를 제거하는 svaseq.
- SysCall은[39] 고투과 시퀀스 데이터에서 체계적인 오류를 식별하고 수정하기 위한 분류 도구다.
기타 작업/사전 처리 데이터
정렬 전에 수행된 추가 작업, 즉 쌍체 읽기 합병을 참조하십시오.
- AuPairWise Co-expression을 통한 RNA-Seq 복제성 추정 방법.
- BamHash는 FASTQ 파일의 읽기 쌍이 읽기 순서에 관계없이 BAM 파일에 저장된 읽기 쌍과 정확히 일치하도록 하는 체크섬 기반 방식이다.BamHash를 사용하여 저장된 파일의 무결성을 확인하고 불일치를 발견할 수 있다.따라서 데이터 손실 없이 정렬 후 원시 시퀀싱 읽기를 저장하는 FASTQ 파일을 삭제해도 안전한지 여부를 결정하는 데 BamHash를 사용할 수 있다.
- BBMerge Merge Merges는 더 긴 읽기 및 삽입 크기 히스토그램을 만들기 위해 중첩을 기준으로 읽기를 쌍으로 구성했다.빠르고, 다중 스레드되며, 잘못된 긍정이 극히 적다.순수한 Java로 작성된 오픈 소스. 재컴파일 및 기타 종속성이 없는 모든 플랫폼을 지원한다.BBMap과 함께 배포.
- 바이오피스는 간단한 작업과 복잡한 작업을 모두 수행할 수 있도록 매우 쉽고 유연한 방법으로 조합할 수 있는 생물정보학 도구 모음입니다.바이오피스는 데이터 스트림이 여러 다른 바이오피스를 통해 전달될 수 있는 방식으로 데이터 스트림을 작업하며, 각각 데이터 스트림에 레코드를 수정 또는 추가, 플롯 생성 또는 데이터베이스와 웹 서비스에 데이터 업로드라는 하나의 특정 작업을 수행한다.
- CAPE[40] COPE: 게놈 조립을 용이하게 하기 위한 정확한 k-mer 기반 페어 엔드 읽기 연결 도구.
- 디콘RNASeq는 mRNA-Seq 데이터에 기반한 이기종 조직의 디콘볼루션을 위한 R 패키지다.
- FastQ 화면은 일련의 데이터베이스로 FASTQ 형식 시퀀스를 차단하여 시퀀스에 예상된 내용(종류 콘텐츠, 어댑터, 벡터 등)이 포함되는지 확인한다.
- 플래시(FLASH)는 읽기 전 처리 도구다.FLASH는 겹치는 페어 엔드 읽기를 결합하여 하나의 긴 읽기로 변환한다.
- IDC eck
- ORNA 및 ORNA Q/K 조립자의 계산 리소스 요구 사항을 줄이는 RNA-seq 데이터의 중복성 감소 도구
- PANDASeq.is Illumina를 정렬하는 프로그램은 선택적으로 시퀀스에 내장된 PCR 프라이머와 함께 읽고 중복된 시퀀스를 재구성한다.
- 배[41]: Illumina Paired-End reAd mergeR.
- qRNASeq 스크립트 qRNAseq 도구를 사용하여 라이브러리 준비 중에 Molecular Index™ 또는 기타 확률적 라벨을 사용한 경우 RNA-Seq 데이터에서 PCR 중복물을 정확하게 제거할 수 있다.
- Shera[42] a Shortread Error-Reducing Aligner.
- XORO Rapid Paired-End Read Overlapper.
- 디콘타마이너는[43] RNA-Seq 데이터에서 오염을 감지한다.
정렬 도구
품질 관리 후 RNA-Seq 분석의 첫 번째 단계에서는 시퀀싱된 판독치를 참조 게놈(사용 가능한 경우) 또는 대본 데이터베이스로 정렬하는 것이 포함된다.시퀀스 정렬 소프트웨어 목록도 참조하십시오.
짧은(즐겨지지 않은) 얼라이너
짧은 얼라이너는 연속 읽기(스플라이싱의 빈칸을 포함하지 않음)를 참조 게놈에 정렬할 수 있다.기본적으로 버로우스-에 근거한 1)형식이다.Bowtie와 BWA와 같은 휠러 변환 방법, 2) 시드 연장 방법, 니들맨–운슈 또는 스미스-워터맨 알고리즘.첫 번째 그룹(Bowtie 및 BWA)은 몇 배 더 빠르지만, 두 번째 그룹의 일부 도구는 더 민감하여 더 정확하게 정렬된 읽기를 생성하는 경향이 있다.
- BFAST는 짧은 읽기를 참조 시퀀스에 맞추고 오류, SNP, 삽입 및 삭제에 대한 특별한 민감도를 나타낸다.BFAST는 Smith-Waterman 알고리즘과 함께 작동한다.
- 보타이(Bowtie)는 버로우스를 기반으로 한 알고리즘을 사용하는 짧은 얼라이너다.휠러 변환 및 FM 인덱스.Bowtie는 소수의 불일치를 용인한다.
- Bowtie2 Bowtie 2는 긴 참조 시퀀스에 시퀀싱 읽기를 정렬하기 위한 메모리 효율적인 툴이다.약 50~100 또는 1,000s의 판독치를 정렬할 때 특히 권장되며, 비교적 긴(예: 포유류) 게놈에 정렬하는 데 특히 능숙하다.Bowtie 2는 게놈을 FM-index로 색인화하여 기억의 발자국을 작게 유지한다: 인간의 게놈의 경우 기억의 발자국은 일반적으로 약 3.2GB이다.Bowtie 2는 도핑, 로컬 및 페어링 엔드 정렬 모드를 지원한다.
- 버로우스-휠러 얼라이너(BWA) BWA는 인간 게놈과 같은 대형 레퍼런스 게놈에 대해 저선량 시퀀스를 매핑하기 위한 소프트웨어 패키지다.BWA-백트랙, BWA-SW, BWA-MEM의 세 가지 알고리즘으로 구성된다.첫 번째 알고리즘은 Illumina 시퀀스 읽기 속도가 최대 100bp인 반면, 긴 시퀀스에 대한 나머지 두 알고리즘은 70bp에서 1Mbp까지이며, BWA-MEM과 BWA-SW는 긴 읽기 지원 및 분할 정렬과 같은 유사한 기능을 공유하지만, 가장 최신인 BWA-MEM은 더 빠르고 정확하기 때문에 고품질 쿼리에 일반적으로 권장된다.또한 BWA-MEM은 70-100bp Illumina 읽기용 BWA 백트랙보다 성능이 좋다.
- 짧은 올리고뉴클레오티드 분석 패키지(SOAP)
- GNUMAP는 확률론적 니들맨을 사용하여 정렬을 수행한다.운슈 알고리즘.이 도구는 정보의 손실 없이 게놈의 반복적인 영역에서의 정렬을 처리할 수 있다.프로그램의 출력은 이용 가능한 소프트웨어를 사용하여 쉽게 시각화할 수 있도록 개발되었다.
- Maq는 먼저 판독을 참조 시퀀스에 맞추고 합의 단계를 수행한 후.첫 번째 단계에서는 절단되지 않은 정렬만 수행하고 최대 3개의 불일치를 허용한다.
- Mosaik Mosaik은 Smith-Waterman 알고리즘을 사용하여 짧은 간격을 포함하는 읽기를 정렬할 수 있으며, SNP, 삽입 및 삭제에 이상적이다.
- NovoAlign(상업)은 Needleman-based Illumina 플랫폼에 대한 짧은 얼라이너.운슈 알고리즘.그것은 이등분할 데이터를 다룰 수 있다.SAM 형식의 출력.
- PerM은 ABI SOLiD와 Illumina 시퀀싱 플랫폼이 생산하는 수억 개의 짧은 읽기에 대해 매우 효율적인 게놈 스케일 정렬을 수행하도록 설계된 소프트웨어 패키지다.PerM은 50bp SOLID 읽기 4개, Illumina 읽기 100bp 읽기 9개 불일치 이내의 얼라인먼트에 대해 완전한 감도를 제공할 수 있다.
- 라제르스
- SEAL은 MapReduce 모델을 사용하여 컴퓨터 클러스터에서 분산 컴퓨팅을 생산한다.Seal은 BWA를 사용하여 정렬을 수행하고 Picard MarkDupplices는 검출 및 중복 읽기 제거를 수행한다.
- 세겔멜
- SeqMap
- SHRIMP는 짧은 읽기를 정렬하기 위해 두 가지 기법을 사용한다.우선 여러 종자를 기반으로 한 q그램 필터링 기법이 후보 지역을 파악한다.둘째, 이러한 지역은 스미스-워터맨 알고리즘을 사용하여 상세하게 조사한다.
- 스몰트
- 스탬피는 해시 테이블의 감도와 BWA의 속도를 결합한다.스탬피는 삽입 및 삭제와 같은 시퀀스 변동을 포함하는 읽기의 정렬을 위해 준비된다.최대 4500 베이스까지 읽기를 처리할 수 있고 출력을 SAM 형식으로 제시한다.
- 서브프레드는[44] 읽기 얼라이너 입니다.시드 앤 투표 매핑 패러다임을 사용하여 가장 큰 표시 가능 영역을 사용하여 읽기의 매핑 위치를 결정한다.읽기를 전역으로 매핑해야 하는지 로컬로 매핑해야 하는지 자동으로 결정한다.RNA-seq 데이터의 경우 표현 분석을 위해 서브프레드를 사용해야 한다.서브프레드는 또한 DNA-seq 읽기를 매핑하는 데 사용될 수 있다.
- ZOOM(상용)은 Illumina/Solexa 1G 플랫폼의 짧은 얼라이너로, ZOOM은 읽기용 해시 테이블을 만드는 확장된 시드 방법론을 사용하며, 불일치와 삽입 및 삭제를 허용한다.
- WHAM WHAM은 위스콘신 매디슨 대학에서 개발한 고처리 시퀀스 정렬 도구다.시간당 1억5000만 번 이상의 60비트/s 읽기 속도로 전체 인간 게놈에 짧은 DNA 시퀀스(읽기)를 정렬하는데, 이는 첨단 기술보다 1~2배 빠른 크기 순서다.
스플라이스 얼라이너
많은 판독치가 Exon-exon 접합부에 걸쳐 있으며 Short 얼라이너로 직접 정렬할 수 없으므로 특정 얼라이너 - 스플라이징 얼라이너(Splicated 얼라이너)가 필요했다.일부 스플라이스 얼라이너들은 쇼트 얼라이너를 사용하여 먼저 비정렬/연속 읽기를 정렬하고(예: 첫 번째 접근 방식) 나머지 분할 영역을 정렬하는 다른 전략을 따른 후 - 일반적으로 판독치는 더 작은 세그먼트로 분할되고 독립적으로 매핑된다.참고 항목.[45][46]
알려진 스플라이스 접합부를 기반으로 하는 얼라이너(알림 안내 얼라이너)
이 경우 스플라이스 접합부의 검출은 알려진 접합에 대한 데이터베이스에서 사용할 수 있는 데이터에 기초한다.이러한 유형의 공구는 새로운 이음매 접합부를 식별할 수 없다.이 데이터 중 일부는 표현된 시퀀스 태그(EST)와 같은 다른 표현 방법에서 온다.
- 에란지는 포유류 대본에 맞춰 정렬하고 데이터를 정량화하는 도구다.
- 이소폼엑스
- 마팔
- OSA
- RNA-MATE는 Applied Biosystems SOLID 시스템의 데이터 정렬을 위한 연산 파이프라인이다.읽기 품질 관리 및 트리밍의 가능성을 제공한다.게놈 정렬은 맵리드를 사용하여 수행되며, 알려진 외부 접합 시퀀스의 라이브러리에 기초하여 스플라이스 결합을 식별한다.이 도구를 사용하면 선형 및 태그 개수를 시각화할 수 있다.
- RUM은 Bowtie와 Blair를 사용하여 스플라이스 결합으로 읽기를 조작할 수 있는 파이프라인을 기반으로 정렬을 수행한다.플로우차트는 Bowtie가 실행한 게놈과 transcriptome 데이터베이스에 대해 정렬하기 시작한다.다음 단계는 MAP를 사용하지 않은 시퀀스를 BLAR를 사용하여 참조 게놈에 정렬하는 것이다.최종 단계에서 모든 선형이 최종 선형을 얻기 위해 병합된다.입력 파일은 FASTA 또는 FASTQ 형식일 수 있다.출력은 RUM과 SAM 형식으로 표시된다.
- RNAASEQR.
- 삼메이트
- 스플라이세크
- 엑스메이트
De novo 스플라이스 얼라이너
De novo 스플라이스 얼라이너는 이전에 주석이 달린 정보 없이도 새로운 스플라이스 접합부를 검출할 수 있다(이러한 도구 중 일부는 주석으로 supplementar 옵션으로 표시).
- ABMapper
- BBMap 짧은 kmer를 사용하여 판독치를 게놈(신기한 ISO 양식을 찾기 위한 스패닝 인트론) 또는 transcriptome에 직접 정렬한다.대체 오류 및 인델에 대한 내성이 높고 매우 빠름.커프스링크에 필요한 모든 SAM 태그의 출력을 지원한다.판독당 게놈 크기나 스플라이스 수에 대한 제한 없음.Illumina, 454, Sanger, Ion Torrent, PacBio 및 Oxford Nanopore 읽기, 페어링 또는 싱글 엔드 지원.단일 분류법 분기에 최적화된 스플라이스-사이트 탐색 휴리스틱스를 사용하지 않고, 오히려 최적의 점수를 매기는 멀티-아핀-변환형 글로벌 얼라인먼트를 찾으므로 주석과 알 수 없는 스플라이스 모티브가 없는 새로운 유기체 연구에 이상적이다.순수한 Java로 작성된 오픈 소스. 재컴파일 및 기타 종속성이 없는 모든 플랫폼을 지원한다.
- 컨텍스트맵은 모호성 해결과 같은 다른 매핑 접근방법의 몇 가지 한계를 극복하기 위해 개발되었다.이 도구의 중심 아이디어는 유전자 표현 맥락에서 읽기를 고려하는 것으로, 이러한 방식으로 정렬 정확도를 향상시킨다.ContextMap은 독립 실행형 프로그램으로 사용할 수 있으며 출력에서 SAM 파일을 생성하는 매퍼에 의해 지원된다(예:TopHat 또는 MapSplice).독립 실행형 모드에서 읽기는 게놈, 대본 데이터베이스 또는 둘 다에 정렬한다.
- CRAC는 게놈 위치와 지역 커버리지를 통합하고 후보 돌연변이, 인델, 스플라이스 또는 퓨전 접합부를 각 단일 판독에서 감지하는 새로운 판독 방식을 제안한다.중요한 것은 CRAC가 200 nt 읽기와 함께 제공될 때 예측 성능을 개선하고 향후 읽기 분석의 요구에 적합해야 한다는 점이다.
- GSNAP
- GMAP mRNA 및 EST 시퀀스를 위한 Genomic Mapping and Alignment Program.
- HISAT는 RNA-seq 읽기 매핑을 위한 분할 정렬 프로그램이다.HISAT는 전체 게놈을 나타내는 하나의 글로벌 FM-색인 외에도 전체 게놈을 포괄하는 다수의 소형 FM-색인 세트를 사용한다(각 색인은 약 6만4000bp의 게놈 영역을 나타내며, 인간 게놈을 커버하기 위해서는 약 4만8000개의 색인이 필요하다).이러한 작은 인덱스(로컬 인덱스라고 함)는 여러 개의 정렬 전략과 결합되어 특히 복수의 엑손에 걸친 RNA-seq 읽기의 효과적인 정렬을 가능하게 한다.HISAT의 메모리 풋프린트는 상대적으로 낮다(약 4.3).인간 게놈을 위한 GB).우리는 Bowtie2 구현에 기반한 HISAT를 개발하여 FM-index에 대한 대부분의 작업을 처리하였다.
- HISAT2는 차세대 염기서열 판독치(DNA와 RNA 모두)를 인간 게놈 집단(단일 기준 게놈도 포함)에 매핑하기 위한 정렬 프로그램이다.그래프[Sirén et al. 2014]에 대한 BWT의 확장에 기초하여, 우리는 그래프 FM 지수(Graph FM-Index, GFM)를 설계하고 구현했으며, 원래의 접근 방식과 그 최초의 구현을 우리 지식의 최선으로 설계하고 구현했다.HISAT2는 인간 게놈의 집단을 나타내는 하나의 글로벌 GFM 지수를 사용하는 것 외에도 게놈 전체를 포괄하는 다수의 소형 GFM 지수(56Kbp의 게놈 영역을 나타내는 각 지수, 5만5천 개의 지수를 사용하여 인구를 포괄한다.이러한 작은 인덱스(로컬 인덱스라고 함)는 여러 정렬 전략과 결합되어 시퀀싱 읽기의 신속하고 정확한 정렬을 가능하게 한다.이 새로운 인덱싱 체계는 계층적 그래프 FM 인덱스(HGFM)라고 불린다.
- HMMSplicer는 짧은 판독치에서 표준적 및 비수평적 스플라이스 접합부를 식별할 수 있다.첫째로, 비양념적인 읽기는 Bowtie와 함께 제거된다.그 후 남은 읽기는 한 번에 하나씩 반으로 나눈 다음 각 부분이 게놈에 대해 시드되고 엑손 테두리는 히든 마르코프 모델에 따라 결정된다.각 분기점에 품질 점수를 할당하여 잘못된 양성률을 탐지하는 데 유용하다.
- 맵스플라이스
- 팔마퍼
- 패스는[47] 잘리고 잘리지 않은 읽기 및 비황산염 시퀀싱 데이터도 정렬한다.정렬하기 전에 데이터를 필터링할 수 있는 가능성(어댑터의 이동)을 포함한다.패스(Pass)는 니들맨(Needleman)을 사용한다.운슈와 스미스-워터맨 알고리즘을 사용하여 게놈의 시드 시퀀스 위치 스캔, 인접 영역 테스트, 정렬 정제 등 3단계로 정렬을 수행한다.
- 패시온
- 파스타
- QPALMA는 기계 학습 알고리즘에서 지원되는 스플라이스 결합을 예측한다.이 경우 교육 세트는 품질 정보와 이미 알려진 맞춤이 포함된 스플라이징된 읽기 집합이다.
- RASER:[48] RNA의 SNP 및 편집 부위용 얼라이너 읽기.
- 젝사우
- SoapSplice RNA-Seq에서 스플라이스 접합 부위의 게놈 범위 전위 검출을 위한 도구로, 신세대 염기서열 기술을 사용하여 메신저 RNA의 염기서열을 분석하는 방법이다.
- 스플라이스맵
- 스플릿시크
- SuperSplat은 모든 종류의 스플라이스 접합부를 찾기 위해 개발되었다.알고리즘은 각각의 판독치를 가능한 모든 2-chunk 조합으로 반복적으로 분할하고, 정렬을 각 buck에 시도한다."Supersplat" 형식의 출력.
주석도 선택적으로 사용하는 노보 스플라이스 얼라이너 제거
- 맵넥스트
- 올레고
- STAR는 "시드 클러스터링 및 스티치 절차에 따른 비압축 접미사 배열에서 순차 최대 표시 가능한 시드 검색"을 사용하는 도구로, 표준적이고 비수평적인 스플라이스 결합과 치메릭-퓨전 시퀀스를 탐지한다.이미 긴 읽기(제3세대 시퀀싱 기술)를 정렬할 수 있도록 적응했으며 프로세서당 시간당 페어링된 읽기 속도가 4500만 개에 이를 수 있다.[49]
- Subjunc는[44] Subread의 전문 버전이다.그것은 외손과 외손 접합부를 발견하기 위해 RNA-seq 읽기의 모든 표시 가능한 영역을 사용한다.정확한 스플리싱 위치를 찾기 위해 공여자/수신기 신호를 사용한다.Subjunc는 발견된 exon-exon 접합 이외에도 exon-spanning read를 포함한 모든 RNA-seq 판독에 대해 완전한 정렬을 산출한다.서브정크는 RNA-seq 데이터의 접합 감지 및 유전체 변화 감지를 목적으로 사용해야 한다.
- 탑하트는[50] 노보 접합을 찾을 준비가 되어 있다.TopHat은 읽기를 두 단계로 정렬한다.첫째로, 미숙한 읽기는 Bowtie와 정렬된다.이후 정렬된 판독치는 Maq와 함께 조립되어 시퀀스 섬이 생성된다.둘째로, 스플라이스 결합은 초기에 매핑되지 않은 읽기 및 섬 시퀀스 내의 가능한 표준 기증자 및 수용자 사이트에 기초하여 결정된다.
기타 스플라이징 얼라이너
- G.Mo.R-Se는 RNA-Seq read를 사용하여 de novo 유전자 모델을 만드는 방법이다.
정렬 도구 평가
- AlignerBoost는 베이시안 기반 매핑 품질 프레임워크를 사용하여 Next-Gen 시퀀싱 매핑 정밀도를 높이기 위한 일반화된 소프트웨어 툴킷이다.
- RNA-Seq 데이터 집합에서 얼라이너 성능을 평가하기 위한 CADBure 생물정보학 도구.
- QualiMap: 차세대 시퀀싱 정렬 데이터 평가
- RNAseqEAL RNA Seq Mapping을 평가하기 위한 도구 모음입니다.
- 티저: NGS 데이터에 대한 읽기 매핑 결과의 개별화된 벤치마킹 및 최적화.
정규화, 정량분석 및 차등식
일반 공구
이 도구들은 정상화를 수행하고 표본에 표현된 각 유전자의 풍부함을 계산한다.[51]RPKM, FPKM, TPM은[52] 표현 정량화에 사용되는 일부 단위다.일부 소프트웨어는 또한 샘플들 사이의 유전적 표현(차이 표현)의 가변성을 연구하기 위해 설계되었다.정량적 연구와 미분적 연구는 주로 읽기 품질의 정렬과 등소형 재구성의 정확도에 의해 결정된다.차등표현법을 비교하는 몇 가지 연구가 이용 가능하다.[53][54][55]
- ABSSeq 새로운 RNA-Seq 분석 방법 절대 표현 차이 모델링에 기반한다.
- ALDEx2는 고투과 시퀀싱 데이터의 비교 분석을 위한 도구다.ALDEx2는 합성 데이터 분석을 사용하며 RNAseq, 16S rRNA 유전자 염기서열 분석, 메타게놈 염기서열 분석, 선택적 성장 실험 등에 적용할 수 있다.
- 알렉사-세크는 유전자 발현 분석, 대본 특정 발현 분석, exon 접합 발현, 정량적 대체 분석을 수행할 수 있는 파이프라인이다.광범위한 대체 표현식 시각화, 통계 및 그래프 허용
- ARH-seq – RNA-seq 데이터에서 미분 스플리싱 식별
- ASC[56]
- 볼가운
- 베이섹은 경험적 베이지안 방법을 통해 차세대 시퀀싱 데이터를 이용해 미분식을 식별하는 바이오콘덕터 패키지다.대용량 데이터 세트를 처리할 때 권장되는 컴퓨터 데이터 처리의 병렬화를 위해 "눈길" 패키지를 사용하는 옵션이 있다.
- GMNB는[57] 다른 표현형이나 다른 샘플에서 시퀀싱 깊이의 이질성을 자연적으로 처리하는 치료 조건에 걸쳐 시간적 유전자 차등 발현 분석을 하는 베이시안 방식으로, 애드호크 정규화의 필요성을 제거한다.
- BBSeq
- 비트세크(Bayesian Inference of Scripts from Sequence Data)는 개별 대본의 표현 수준을 시퀀싱(RNA-Seq) 데이터에서 추론하고 조건 간 차등 표현(DE)을 추정하는 애플리케이션이다.
- CEDER RNA-Seq를 사용한 엑손의 유의성을 결합하여 차등 표현된 유전자의 정확한 검출.
- CPTRA CPTRA 패키지는 서로 다른 시퀀싱 플랫폼의 transcriptome 시퀀싱 데이터를 분석하기 위한 것이다.454, Illumina GAI 또는 다른 플랫폼의 장점을 결합하고 시퀀스 태그 정렬 및 주석, 표현 수량화 작업을 수행할 수 있다.
- 캐스퍼(casper)는 표식을 등사양식 수준에서 정량화하기 위한 바이오콘덕터 패키지다.정보 데이터 요약, 실험 편향의 유연한 추정 및 통계 정밀도 고려사항을 결합하여 추정 오차를 상당히 줄인다.
- 커프스링크/수갑디프는 글로벌 드 노보 대본 ISOform 식을 측정하는 데 적합하다.대본의 조립, 유전의 추정을 수행하고, RNA-Seq 검체에서 미분표현(Quffdiff)과 조절을 결정한다.[58]
- DESeq는 음이항 분포를 기반으로 차분 유전자 발현 분석을 수행하는 바이오콘덕터 패키지다.
- DEGSeq
- Derfinder Annotation-Agnitation-Agnitiative 데이터 분석은 DER Finder 접근방식을 통한 기저 쌍 분해능에서 RNA-seq 데이터의 차등 표현 분석.
- DEVIS는 차등표현 데이터 분석을 위한 강력한 통합 솔루션이다.DESeq2를 프레임워크로 사용하여 DEVIS는 데이터 조작, 시각화 및 프로젝트 관리를 위한 다양한 도구를 제공한다.
- DEXSeq는 시료 간 RNA-Seq exon 카운트를 기반으로 한 차동 exon 사용을 찾아내는 바이오콘덕터 패키지다.DEXSeq는 음의 이항 분포를 사용하며 시각화 및 결과 탐사에 대한 옵션을 제공한다.
- DEXUS는 RNA-Seq 데이터에서 반복실험 없이, 샘플 그룹 없이, 그리고 알 수 없는 조건의 연구와 같은 가능한 모든 연구 설계 하에서 차등표현 유전자를 식별하는 바이오콘덕터 패키지다.[59]DEXUS는 각 대본에 대한 전자파 방법에 의해 반복실험(또는 조건)이 추정되므로 다른 방법과는 달리 다르게 표현된 대본을 검출하기 위해 반복실험이 필요하지 않다.
- DGEclust는 계층적 디리클레 프로세스 혼합 모델을 사용하여 RNA-seq, CAGE 및 기타 NGS 검사의 표현 데이터를 클러스터링하기 위한 파이썬 패키지다.추정된 클러스터 구성은 차등 표현된 유전자를 식별하고 유전자 및 샘플-현재의 덴드로그램과 열맵을 생성하기 위해 사후 처리될 수 있다.[60]
- DiffSplice는 유전자 주석에 의존하지 않고 차등표현 검출과 시각화를 위한 방법이다.이 방법은 다른 등소형에서 분화하는 대체 스플리싱 모듈(ASM)의 식별에서 지원된다.각 ASM에 비모수 시험을 적용하여 측정된 거짓 발견률로 유의미한 차등 전사를 식별한다.
- EBSeq는 RNA-seq 실험에서 두 개 이상의 생물학적 조건에 걸쳐 다르게 표현된 유전자와 이소성형을 식별하기 위한 바이오콘덕터 패키지다.또한 de novo transcriptome Assembly를 수행한 후 DE contig를 식별하는 데도 사용할 수 있다.등소형식이나 등고선에 대해 DE 분석을 수행하는 동안, 서로 다른 등고형식/등고집단은 추정 불확실성이 서로 다르다.EBSeq는 다른 이전 버전을 가진 경험적 베이즈 모델을 사용하여 다양한 불확실성을 모델링한다.
- 엣지R은 RNA-Seq, SAGE 또는 Chip-Seq 데이터와 같은 DNA 염기서열 방법에서 데이터의 차등 발현을 분석하기 위한 R 패키지다.edgeR은 계수 변동성에 대한 모형으로 음이항 분포에서 지원되는 통계적 방법을 채택한다.
- Edge무조건 정확한 테스트를 사용하여 민감하고 기능적으로 관련된 차등 표현식 검색을 위한 R 패키지를 실행하십시오.
- EQP exon 정량화 파이프라인(EQP): RNA-seq 데이터에서 유전자, exon 및 접합 표현식의 정량화에 대한 포괄적인 접근법.
- ESAT The End Sequence Analysis Toolkit(ESAT)은 대본의 5' 또는 3' 끝을 대상으로 하는 전문 RNA-Seq 유전자 라이브러리의 주석 정량화에 적용되도록 특별히 설계되었다.
- eXpress 성능은 대본 레벨 RNA-Seq 정량화, 알레르기와 하플로타입 분석을 포함하며 유전자에 존재하는 여러 개의 이소폼의 대본을 추정할 수 있다.얼라이너(Bowtie와 같은)와 직접 결합할 수 있지만, eXpress는 노보 조립자와도 함께 사용할 수 있으므로 정렬을 수행하기 위해 참조 게놈을 필요로 하지 않는다.그것은 Linux, Mac, Windows에서 운영된다.
- ERANGE는 표현된 유전자의 정렬, 정규화, 정량화를 수행한다.
- feature효율적인 범용 읽기 계량기 카운트.
- FDM
- 미세스플라이스 RNA-Seq 데이터에서 향상된 스플라이스 접합 감지 및 추정.
- G폴드[61] RNA-seq 데이터에서 다르게 표현된 유전자의 순위를 매기기 위한 일반화된 접힘 변화.
- globalSeq[62] Global test for counts: RNA-Seq와 고차원 데이터 사이의 연관성에 대한 테스트.
- GPSeq RNA-seq 데이터를 분석하여 유전자와 exon 발현을 추정하고, 차등 발현 유전자와 차등 분할된 exon을 식별하는 소프트웨어 도구다.
- IsoDOT – Different RNA-isoform 표현식.
- 림마 림마는 RNA-시퀀싱 및 마이크로어레이 연구를 위한 미분표현 분석을 강화한다.
- LPEseq는 제한된 반복실험 횟수로 차분 식을 정확하게 검정한다.
- 칼리스토 "칼리스토"는 RNA-Seq 데이터에서 나온 대본의 풍부함, 또는 보다 일반적으로 고투과 시퀀싱 읽기를 사용하여 표적 시퀀스를 정량화하는 프로그램이다.정렬할 필요 없이 읽기와 대상의 호환성을 신속하게 판별하기 위한 사이비 정렬의 참신한 발상에 바탕을 두고 있다.표준 RNA-Seq 데이터를 가진 벤치마크에서 칼리스토는 읽기 시퀀스와 그 자체로 구축에 10분이 채 걸리지 않는 성적표만 사용하여 Mac 데스크탑 컴퓨터에서 3분 이내에 3000만 개의 인간 읽기를 정량화할 수 있다.
- MATS 다변량 분석.
- MAPTest는 RNA-Seq 시간 과정 실험의 차등 표현 분석을 위한 일반적인 시험 프레임워크를 제공한다.팩 방법은 잠재적 음이항 가우스 혼합물 모델에 기초한다.제안된 시험은 최대 평균 전력에서 최적이다.이 테스트는 전통적인 DE 유전자의 식별뿐만 아니라 생물학적 관심의 다양한 복합 가설의 테스트도 가능하게 한다.[63]
- 무작위 효과를 이용한 메타 리턴을 이용한 MetaDiff Differentic icoform 식 분석.
- 메타세큐R은 RNA-Seq 데이터에서 미분표현 유전자를 검출하는 바이오콘크루터 패키지로, 성능에서 추정한 가중치를 사용해 6개의 통계 알고리즘과 실제 데이터에서 추정된 시뮬레이션 데이터를 결합해 RNA-Seq 데이터에서 미분표현 유전자를 검출한다.이러한 방식으로 메타세qR은 정밀도와 민감도 사이의 절충을 최적화한다.[64]또한 메타세qR은 다양한 진단 및 탐색 플롯과 자동 생성 텍스트로 상세하고 대화형 보고서를 작성한다.
- MMSEQ는 RNA-Seq에 기초한 디플로이드 유기체의 등소형 표현과 알레르기의 불균형을 추정하기 위한 파이프라인이다.파이프라인은 Bowtie, TopHat, ArrayExpress와 같은 도구를 사용한다.HTS와 SAMtools.또한 차등 식을 수행하기 위한 에지R 또는 DESeq.
- 멀티DE
- Myrna는 RNA-Seq 데이터 집합의 미분 유전자 발현을 추정하기 위해 클라우드 환경(Elastic MapReduce) 또는 고유한 컴퓨터에서 실행되는 파이프라인 도구다.Bowtie는 구간 계산, 정규화, 통계 처리를 위해 짧은 읽기 정렬과 R 알고리즘에 사용된다.
- NEUMA는 고유하게 정렬된 판독치와 mRNA 이소폼 모델에 기초하여 길이 정규화를 사용하여 RNA 함량을 추정하는 툴이다.NEUMA는 RefSeq와 같은 데이터베이스에서 사용할 수 있는 알려진 transcriptome 데이터를 사용한다.
- NOISeq NOISeq는 카운트 데이터 또는 이전에 정규화된 카운트 데이터에서 차등 표현된 유전자를 식별하기 위한 비모수 접근방식이다.NOISeq는 동일한 조건 내에서 표본의 모든 형상에 대해 접힘-변화 차이(M)와 절대표현 차이(D)를 대조하여 카운트 변경의 소음 분포를 경험적으로 모델링한다.
- NPEBseq는 차분식 분석을 위한 비모수 경험적 베이지안 기반 방법이다.
- NSMAP는 주석된 정보 없이 표현 수준의 추정뿐만 아니라 ISO 형식의 추론을 허용한다.Exon은 정렬되고 TopHat을 사용하여 스플라이스 접합부가 식별된다.가능한 모든 이소폼은 검출된 exon들의 조합에 의해 계산된다.
- NURD는 비균일 RNA-seq 데이터에서 등소형 표현식을 추정하는 새로운 방법의 구현.
- PANDORA 다중 통계 알고리즘을 결합하여 RNA-Seq 데이터의 분석 및 결과 보고를 위한 R 패키지.
- PenSeq PenSeq: 균일하지 않은 읽기 분포를 모델링하여 RNA-Seq에서 정확한 이소 형태별 유전자 발현 정량화.
- 쿼크 쿼크는 RNA-seq 데이터의 반기준 기반 압축을 가능하게 한다.
- QuasR R에서 단축 읽기 정량화 및 주석 달기.
- RNA-seq Reads를 Transcriptom에 매핑하기 위한 RapMap A Rapid, Sensitive, RNA-seq Reads to Transcriptom.
- RNAeXpress Mac, Windows 및 Linux에서 Java GUI 또는 명령줄을 사용하여 실행할 수 있다.매핑된 rnaseq 데이터에 대해 읽기 카운트, 기능 감지 또는 GTF 비교를 수행하도록 구성할 수 있다.
- Rcount Rcount: 단순하고 유연한 RNA-Seq 읽기 계산.
- rDiff는 미분 RNA 처리(예: 대체 스플라이싱, 폴리아데닐화 또는 리보솜 점유)를 검출할 수 있는 툴이다.
- RNASeqPower 계산 RNA Seq 연구의 표본 크기 추정치.R 패키지 버전.
- RNA-Skim RNA-Skim: 대본 레벨에서 RNA-Seq 정량화를 위한 빠른 방법.
- rSeq rSeq는 RNA-Seq 데이터 분석을 위한 도구 모음입니다.판독 품질 평가, 기준 시퀀스 생성, 시퀀스 매핑, 유전자 및 이소폼 표현(RPKMs) 추정 등 RNA-Seq 데이터 분석의 많은 측면을 다루는 프로그램으로 구성된다.
- RSEM
- rQuant는 2차 프로그래밍을 기반으로 유전자 위치당 대본의 다양성을 결정하는 웹 서비스(갤럭시(컴퓨팅 생물학) 설치)로, rQuant는 실험조건에 의해 도입된 편견을 평가할 수 있다.도구 조합: PALMapper(읽기 정렬), mTiM 및 mGene(새로운 대본 참조)
- Salmon은 무정렬(원시 판독에 직접 기반) 또는 사전 계산된 정렬 기반(사전 계산된 정렬에 기반한) 접근방식을 사용하여 RNA-seq 데이터에서 대본 풍부함을 계산하기 위한 소프트웨어 도구다.관측된 데이터에서 대본이 풍부할 가능성을 최대화하기 위해 온라인 확률적 최적화 접근방식을 사용한다.소프트웨어 자체는 많은 스레드를 사용하여 정확한 정량화 추정치를 신속하게 산출할 수 있다.이것은 Sailfish 소프트웨어 제품군의 일부분이며, Sailfish 도구의 후속 제품이다.
- SAJR은 차동 스플라이싱 분석을 위한 자바 쓰기 읽기 카운터 및 R-패키지이다.접속 판독을 사용하여 exon 제외를 추정하고 exon 내에서 매핑된 판독을 사용하여 포함을 추정한다.SAJR은 quasibinomial 분포를 사용하여 GLM에 의해 이것을 모델링하고 유의성을 평가하기 위해 로그우도 검정을 사용한다.
- Scotty 전력 분석을 수행하여 차등 식을 호출하는 데 필요한 반복실험 횟수와 시퀀싱 깊이를 추정한다.
- 원시 판독과 참조 대본 간에 kmer를 일치시켜 시퀀스 식을 정량화하는 정렬되지 않은 알고리즘을 씰링하십시오.페어링된 읽기 및 대체 ISO 양식을 처리하며 메모리는 거의 사용하지 않음.모든 공통 읽기 형식을 허용하고, 기준 시퀀스당 읽기 수, 범위 및 FPKM 값을 출력한다.순수한 Java로 작성된 오픈 소스. 재컴파일 및 기타 종속성이 없는 모든 플랫폼을 지원한다.BBMap과 함께 배포됨(Seal - Sequence Expression AnaLyzer - SEAL 분산 단축 읽기 얼라이너와 무관함)
- semisup[65] 반 감독 혼합물 모델: 양적 특성에 대한 상호 작용이 있는 SNP 탐지
- 슬루트(Sleuth)는 대본 적출량이 칼리스토로 정량화된 RNA-Seq 실험 분석 프로그램이다.
- RNA-Seq 데이터를 사용한 스플리싱 컴퍼스 차동 스플리싱 검출.
- sSeq 이 R 포장의 목적은 RNA-seq 실험에서 두 조건 사이에 차등적으로 표현되는 유전자를 발견하는 것이다.
- 스트링타이(StringTie)는 RNA-Seq 맞춤을 잠재적 대본에 조립하는 사람이다.그것은 새로운 네트워크 흐름 알고리즘과 선택적인 de novo 조립 단계를 사용하여 각 유전자 위치에 대해 다중 스플라이스 변형을 나타내는 전체 길이 대본을 조립하고 정량화한다.커프스링크(이 회사의 개발자는 커프스링크 개발자의 일부를 포함한다)의 후속으로 설계되었으며, 많은 동일한 기능을 가지고 있다.
- 변동 베이지안 추론에 의한 RNA-Seq 데이터의 게트 정렬을 통한 TIGAR 성적 증명서 ISOform 풍부성 추정 방법.
- TimeSeq RNA-Seq 데이터에서 다르게 표현된 유전자를 검출하는 것.
- 유전자 기능의 mRNA 풍부함을 정량화하기 위한 TPMCalculator[66] 1단계 소프트웨어.
- WemIQ는 RNA-seq 데이터에서 발생하는 이소폼 표현과 엑손 스플리싱 비율을 정확하고 견고하게 정량화하는 소프트웨어 툴이다.
정량화 및 차등식 평가
- CompcodeR RNAseq 데이터 시뮬레이션, 미분식 분석 및 미분식 방법의 성능 비교.
- RNA-seq 데이터를 기반으로 한 DERE-O 차등 표현 분석 – 온라인.
- RNA-seq를 사용한 차등 표현에 대한 적절한 종합 전력 평가.
- RNAontheBENCH 계산 및 경험적 자원: RNAseq 정량화 및 미분 표현 방법 벤치마킹.
- rnaseqcomp RNA-seq 정량화 파이프라인의 정량화 및 시각화 벤치마크.평가를 진행하기 위해 nessasery 메타 정보가 있는 각 파이프라인에 의한 유전자, 성적증명서, 결합물 또는 출구에 대한 2가지 조건 정량화를 숫자 행렬로 구성해야 한다.
멀티툴 솔루션
- DEB는 다른 도구에서 상당히 표현된 유전자의 결과를 비교할 수 있는 웹 인터페이스/파이프라인이다.현재 엣지R, DESeq, bayseq의 세 가지 알고리즘을 사용할 수 있다.
- RNA-Seq 데이터의 종합적인 미분 분석을 위한 SARTools A DESeq2- 및 EdgeR 기반 R 파이프라인.
전이 가능한 요소 표현식
- TeXP는 Transposable Element 정량화 파이프라인으로, LINE-1 요소의 자율적 전사로부터 퍼베이시브 전사를 디콘볼루션한다.[67]
워크벤치(분석 파이프라인/통합 솔루션)
상용 솔루션
- 공동 인자 게노믹스에 의한 ActiveSite
- 아바디스 NGS(현재 스트랜드 NGS)
- Illumina별 BaseSpace
- 후생유전체학 및 transcriptomics 데이터 분석을 위한 통합 플랫폼 구축.
- BBrowser 공용 및 사내 단일 셀 기록체학 데이터 분석을 위한 플랫폼
- CLC Genomics Workbench
- 데스타
- 에르고
- 게네다타
- 진스프링 GX
- 네비온의 게네베스티게이터(기본 버전은 학술 연구자를 위한 무료 버전이다.
- 지오스피자
- 골든 헬릭스
- 매버릭스 바이오닉스
- 넥스트GENe
- 오믹스 오피스
- Partek Flow 직관적인 인터페이스 내에서 종합적인 단일 셀 분석.
- 큐코어.분석 및 시각화를 위한 손쉬운 사용.BAM 파일의 한 버튼 가져오기.
- 벌컨플롯AI. 벌컨플롯에 AI를 구현하십시오.
오픈 소스 솔루션(무료)
- ArrayExpressHTS는 RNA-Seq 데이터셋의 전처리, 품질평가, 표현추정이 가능한 바이오컨덕터 패키지다.그것은 유럽 생물정보연구소 클라우드 또는 현지에서 원격으로 실행될 수 있다.패키지는 다음과 같은 몇 가지 도구를 사용한다.ShortRead(품질 제어), Bowtie, TopHat 또는 BWA(참조 게놈에 정렬), SAMtools 형식, Capslinks 또는 MMSEQ(표현 추정)
- 바이오주피스는 자유로운 정렬 서비스부터 인터랙티브 주피터 노트북으로 전달되는 완전한 데이터 분석 보고서까지 완전한 RNA-seq 분석 솔루션을 제공하는 웹 기반 플랫폼이다.
- 바이오큐는 특정 직무가 필요로 하는 시스템 자원을 추정해 생명정보학 연구에서 직무집행의 효율성과 견고성을 향상시키기 위해 우선적으로 고안된 웹 기반 큐엔진이다.동시에 바이오큐는 바이오의학 연구에서도 데이터 분석의 접근성과 재현성을 촉진하는 것을 목표로 하고 있다.Python 2.7에 의해 구현된 BioQueue는 POSIX 호환 시스템(리눅스, Solaris, OS X 등)과 Windows 모두에서 작동할 수 있다.참고 항목.[68]
- BioWardrobe는 웹 기반 사용자 친화적인 GUI를 사용하여 Chip-Seq 및 RNA-Seq 데이터 세트를 분석하기 위한 통합 패키지다.RNA-Seq Biowardrowe의 경우 검체 간(시료 그룹) 매핑, 품질 관리, RPKM 추정 및 차등 표현 분석을 수행한다.차등식 분석 결과는 Chip-Seq 데이터와 통합되어 평균 태그 밀도 프로필과 열 지도를 구축할 수 있다.이 패키지는 STAR와 DESeq를 포함한 여러 도구 오픈 소스 도구를 사용한다.참고 항목.[69]
- 칩스터는 사용자 친화적인 데이터 분석 소프트웨어다.그것은 차세대 염기서열 분석(NGS), 마이크로 어레이, 단백질학 및 염기서열 데이터를 위한 350개 이상의 분석 도구를 포함하고 있다.사용자는 자동 분석 워크플로우를 저장 및 공유할 수 있으며, 내장된 게놈 브라우저 및 기타 많은 시각화를 사용하여 데이터를 대화형으로 시각화할 수 있다.
- DEWE(Differential Expression Workflow Executer)는 RNA-Seq 데이터에서 Differential Expression 분석을 쉽게 실행할 수 있도록 사용자에게 친숙한 GUI를 제공하는 오픈 소스 데스크톱 애플리케이션이다.현재 DEWE는 HISAT2, StringTie 및 Ballgown, Bowtie2, StringTie 및 R 라이브러리(Ballgown 및 edgeR)의 두 가지 차등 표현 분석 워크플로우를 제공하고 있다.리눅스, 윈도, 맥 OS X에서 실행된다.
- easyRNASeq 참조 게놈에 대한 고쓰루트 쇼트 리드의 적용 범위를 계산하고 관심 기능별로 요약한다(예: exon, gene, transcript).데이터는 'RPKM' 또는 'DESeq' 또는 'edgeR' 패키지로 정규화할 수 있다.
- 표현플롯
- FASTGenomics는 단일 세포 RNA 시퀀싱 데이터와 재현 가능한 워크플로우를 이용한 분석을 공유하는 온라인 플랫폼이다.유전자 발현 데이터는 유럽 데이터 보호 표준(GDPR)을 충족시켜 공유할 수 있다.FASTGenomics는 사용자가 자신의 데이터를 업로드하고 유전자 발현 데이터의 탐색 및 분석을 위한 사용자 정의 및 재현 가능한 워크플로우를 생성할 수 있도록 한다(Scholz et al. 2018).
- FX FX는 클라우드 컴퓨팅의 개념으로 권한을 부여받은 사용자 친화적인 RNA-Seq 유전자 eXpression 분석 툴이다.FX를 사용하면 RNA-Seq 원시 FASTQ 데이터를 클라우드에 간단히 업로드할 수 있으며, 컴퓨팅 인프라에서 많은 분석을 수행할 수 있다.
- 갤럭시: 갤럭시는 컴퓨터 생물학을 위한 범용 워크벤치 플랫폼이다.
- GEN-Counter는 RNA-Seq 미분 유전자 발현 분석을 위한 Perl 파이프라인이다.Gene-counter는 CASHX, Bowtie, BWA 또는 기타 SAM 출력 얼라이너와 정렬을 수행한다.차등유전자 발현식은 음성 이항 분포 방법을 사용하여 3가지 선택 패키지(NBPSeq, edgeR, DESeq)로 실행된다.결과는 MySQL 데이터베이스에 저장되어 추가 분석이 가능하다.
- 진패턴은 RNA-Seq 분석(Broad Institute)에 대한 통합 솔루션을 제공한다.
- GeneProf - 자유롭게 접근 가능하고 RNA-seq 및 Chip-seq 실험을 위한 분석 파이프라인을 사용하기 쉽다.
- GREIN은 GEO RNA-seq 데이터를 재처리 및 재분석하기 위한 인터랙티브 웹 플랫폼이다.GREIN은 RNA-seq 데이터의 균일한 처리를 위한 백엔드 연산 파이프라인과 이미 처리된 데이터 세트의 많은 수(>5,800)에 의해 구동된다.프런트 엔드 사용자 친화적 인터페이스는 처리된 데이터의 하위 설정 및 다운로드, 대화형 시각화, 통계 전력 분석, 미분 유전자 발현 서명의 구성 및 그 종합적인 기능 특성화, LINCS L1000 데이터와의 연결 분석 등을 포함한 풍부한 사용자 분석 옵션을 제공한다.
- GT-FAR은 RNA-seq QC, 정렬, 참조 자유 정량화, 스플라이스 변종 호출을 수행하는 RNA seq 파이프라인이다.판독값을 유전자 모델에 필터링, 트리밍 및 순차적으로 정렬하고, 각 유전자, exon 및 알려진/노벨 스플라이스 접합부, 변종 호출에 대한 발현을 정량화하는 새로운 스플라이스 접합부를 예측하고 검증한다.
- MeV(MultiExperiment Viewer)는 대규모 유전체 데이터의 분석, 데이터 마이닝 및 시각화를 수행하는 데 적합하다.MeV 모듈에는 클러스터링 및 분류, 학생 t-테스트, 유전자 집합 농축 분석 또는 유의성 분석과 같은 작업을 실행할 수 있는 다양한 알고리즘이 포함되어 있다.MeV는 자바에서 운행한다.
- NGSUtils는 차세대 시퀀싱 데이터셋을 사용하기 위한 소프트웨어 툴 모음입니다.
- 레일-RNA RNA RNA-seq 스플라이싱 및 커버리지의 확장 가능한 RNA-seq 스플리싱 및 커버리지 분석.
- 새로운 클라우드 기반 NGS 웹 애플리케이션인 RAP RNA-Seq 분석 파이프라인.
- RSEQtools "RSEQtools는 유전자 표현 값 계산, 매핑된 판독치의 신호 트랙 생성, 그리고 그 신호를 능동적으로 변환된 영역으로 분할하는 것과 같은 일반적인 작업을 수행하는 모듈 세트로 구성된다.이 형식에 의해 제공되는 익명화 이외에도 다운스트림 분석에서 읽기의 정렬을 분리하는 것을 용이하게 한다."
- RobiNA는 R/BioConductor 패키지를 처리할 수 있는 사용자 그래픽 인터페이스를 제공한다.RobiNA는 필요한 모든 외부 도구(R/Biocalductor 프레임워크 및 Bowtie)를 자동으로 설치하는 패키지를 제공한다.이 도구는 다양한 품질 관리 방법과 차등 표현에 대한 자세한 결과를 제공하는 많은 표와 플롯을 생성할 수 있는 가능성을 제공한다.나아가 맵맨과 페이지맨으로 결과를 시각화하고 조작할 수 있다.RobiNA는 Java 버전 6에서 실행된다.
- RseqFlow는 RNA-Seq 분석 파이프라인으로 RNA 시퀀싱 데이터세트에 대한 분석 단계의 신속한 구현을 제공한다.데이터 시퀀싱에 대한 사전 및 사후 매핑 품질 관리(QC) 수행, 고유하게 매핑된 읽기 표현식 수준 계산, 차등 표현된 유전자 식별, 시각화 용이성을 위해 파일 형식 변환 등이 가능하다.
- S-MART는 매핑된 RNA-Seq 데이터를 처리하며, 본질적으로 데이터 조작(읽기 선택/제외, 클러스터링 및 차등 표현 분석)과 시각화(읽기 정보, 분포, 후생유전자적 ChIP-Seq 데이터와의 비교)를 수행한다.컴퓨터 배경 없이 어떤 노트북에서도 실행할 수 있다.친근한 그래픽 사용자 인터페이스는 도구를 쉽게 조작할 수 있게 해준다.
- Taborna는 개방형 소스 및 도메인 독립 워크플로우 관리 시스템이며, 과학적인 워크플로우를 설계 및 실행하고 실리콘 실험에 도움을 주는 데 사용되는 도구 모음입니다.
- TCW는 Transcriptome Computing Workbench이다.
- TRAPLINE RNA 시퀀싱 데이터 분석, 평가 및 주석을 위한 표준화되고 자동화된 파이프라인.
- ViennaNGS 효율적인 차세대 시퀀싱 분석 파이프라인을 구축하기 위한 도구 상자.
- wapRNA This is a free web-based application for the processing of high-throughput RNA-Seq data (wapRNA) from next generation sequencing (NGS) platforms, such as Genome Analyzer of Illumina Inc. (Solexa) and SOLiD of Applied Biosystems (SOLiD). wapRNA provides an integrated tool for RNA sequence, refers to the use of High-throughput sequencing tech검체의 RNA 함량에 대한 정보를 얻기 위해 cDNA 시퀀스에 대한 nology.
대체 스플라이싱 분석
일반 공구
- 대체 스플리싱 분석 툴 패키지(ASATP) 대체 스플리싱 분석 툴 패키지(ASATP)는 대체 스플리싱 이벤트를 감지 및 시각화하고, ORF 변화를 점검하고, 대체 스플리싱의 규정을 평가하고, 통계 분석을 수행하는 데 사용할 수 있는 일련의 툴킷을 포함한다.
- Asprofile은 RNA-seq 데이터에서 대체 스플리싱(AS) 이벤트를 추출, 수량화 및 비교하기 위한 프로그램 모음입니다.
- AStalavista 웹 서버는 exon-intron 유전자 좌표의 주어진 유전학적 주석으로부터 대체 스플리싱(AS) 이벤트를 추출하고 표시한다.AStalavista는 주어진 모든 대본을 비교하여 스플리싱 구조의 변화를 감지하고 각각에 AS 코드를 할당하여 모든 AS 이벤트(예: exon 줄넘기, 대체 기부자 등)를 식별한다.
- CLASS2 RNA-seq 읽기의 정확하고 효율적인 스플라이스 변형 주석.
- 커프링크/수갑디프
- DEXseq RNA-Seq에서의 차동 exon 사용의 추론.
- Diceseq RNA-seq 시계열 데이터에서 나온 이소폼 스플리싱 역학의 통계 모델링.
- EBChangepoint RNA-Seq에 의한 3′ 및 5′ 대체 스플라이싱 식별을 위한 경험적 베이즈 변경점 모델.
- Eoulsan 높은 처리량 시퀀싱 데이터 분석 전용의 다목적 프레임워크.자동 분석 허용(DESeq2를 사용한 매핑, 카운팅 및 차이점 분석).
- 원시 RNA-seq 판독치에서 exon-sk핑 이벤트 사이트의 노보 검출을 위한 GESS.
- LeafCutter는 내부 절개에 초점을 맞춰 새로운 사건과 기존의 대체 스플리싱 사건을 식별하고 계량화할 수 있는 새로운 방법 모음입니다.
- 레몬스[70] 레퍼런스 게놈이 부족한 유기체의 기록물에서 이음매 접합부 식별을 위한 도구
- MAZIQ. 대체 접합부 포함 수량화 모델링.
- MATS 다변량 분석.
- MISO는 RNA-Seq 데이터에서 이음체 변형의 표현 수준을 정량화하고 서로 다른 샘플에 걸쳐 차등 조절된 exon/isoforms를 인식할 수 있다.MISO는 읽기 원점의 확률을 계산하기 위해 확률론적 방법(베이지안 추론)을 사용한다.
- 레일-RNA RNA RNA-seq 스플라이싱 및 커버리지의 확장 가능한 RNA-seq 스플리싱 및 커버리지 분석.
- RPASuite[71] RPASuite(RNA Processing Analysis Suite)는 여러 조직이나 세포 라인에서 얻은 RNA-seq 데이터를 사용하여 차분하고 일관성 있게 처리된 대본을 식별하는 연산 파이프라인이다.
- RSVP RSVP는 유전자 DNA 증거와 정렬된 RNA-seq 읽기를 기반으로 단백질 부호화 유전자의 대체 이소성형을 예측하기 위한 소프트웨어 패키지다.이 방법은 ORF 그래프를 사용하는 것을 기반으로 하는데, 이는 기존의 대본 조립에 사용된 스플라이스 그래프보다 더 일반적이다.
- SAJR은 세그먼트(두 개의 가장 가까운 스플라이스 부위 사이의 유전자의 일부) 포함 또는 제외를 확인하는 판독 횟수를 계산한 다음 생물학적 가변성을 설명하기 위해 Quasibinomial 분포를 사용하여 GLM에 의해 이러한 카운트를 모델링한다.
- 스플리싱 이벤트의 노보 예측을 위한 SGSeq A R 패키지.
- RNA-Seq 데이터에서 발생하는 대체 스플리싱 이벤트의 식별, 정량화 및 테스트.
- RNA-Seq 데이터에서 발생하는 새로운 대체 스플리싱 이벤트의 스플라이스그래퍼 예측.또한 스플라이스 그래프를 시각화하기 위한 그래픽 도구를 포함한다.[72][73]
- SpliceJumper는 RNA-seq 데이터에서 스플리싱 접합부를 호출하기 위한 분류 기반 접근방식이다.
- 스플라이스파이(SplicePie)는 비순차적, 다단계 스플라이싱을 분석하는 파이프라인이다.스플라이스파이에는 샘플당 스플라이싱 순서 분석, 샘플당 재귀 스플라이싱 이벤트 찾기, 분석된 모든 샘플에 대한 예측 재귀 스플라이싱 이벤트 요약 등 3가지 주요 분석 단계가 포함되어 있다(신뢰성을 높이기 위해 더 많은 샘플을 사용하는 것이 권장됨).처음 두 단계는 각 표본에 대해 개별적으로 수행되며 마지막 단계는 모든 표본의 중첩을 살펴본다.그러나 한 표본에서도 분석을 실행할 수 있다.
- 스플라이스플롯은 RNA-seq 데이터에서 대체 스플라이싱 및 스플라이싱 정량적 특성 로키(sQTL)의 효과를 시각화하는 도구다.그것은 .bam, .gtf, .vcf 파일에서 대체 스플리싱 이벤트의 구조 그림, 회초리 플롯, 하이브 플롯을 그리기 위한 간단한 명령줄 인터페이스를 제공한다.
- SpliceR RNA-seq 데이터에서 대체 스플라이싱 및 코딩 전위 예측을 위한 R 패키지.
- SpliceSEQ SpliceViewer는 연구자들이 고투과 mRNA 시퀀싱 연구의 데이터에서 대체 mRNA 스플리싱 패턴을 조사할 수 있는 자바 애플리케이션이다.시퀀스 읽기는 각 exon과 splice 접합부의 포함 수준을 명확하게 정량화하는 splice 그래프에 매핑된다.그런 다음 그래프를 통과하여 관찰된 exon 및 splice 접합 판독값에서 발생할 가능성이 높은 단백질 이소 형태를 예측한다.UniProt 주석들은 대체 스플라이싱의 잠재적인 기능적 영향을 식별하기 위해 각 단백질 등소 형태에 매핑된다.
- SpliceTrap은[74] RNA-seq 데이터에서 exon 포함 비율을 정량화하기 위한 통계 도구다.
- Splacing Express – 차세대 시퀀싱 데이터를 사용한 대체 스플리싱 분석을 위한 소프트웨어 제품군.
- SUPA 이 도구는 여러 가지 대체 스플리싱(AS) 이벤트를 생성하고 여러 표본의 대본 분포를 계량화하는 방법을 이용하여 각 이벤트에 대한 PSI("백분율 스플리싱 인") 값을 계산한다.
- 스위치Seq는 스플라이싱의 극단적인 변화(스위치 이벤트)를 식별한다.
- 진짜 이음매 접합부의 포트컬리스 식별.
- TrueSight는 RNA-seq를 이용한 스플라이스 접합검출을 위한 자체 훈련 알고리즘이다.
- RNA-Seq 데이터의 대체 스플리싱 이벤트를 프로파일링하기 위한 방대한 도구 세트.
인트론 보유 분석
- IRcall / IR 분류기 IRcall은 RNA-Seq 데이터에서 IR 이벤트 탐지를 위한 계산 툴이다.IR 분류기는 RNA-Seq 데이터에서 IR 이벤트 탐지를 위한 감독 대상 기계 학습 기반 접근방식이다.
차등 이소 형태/변환 사용법
- IsoformSwitchAnalyzeR IsoformSwitchAnalyzeR은 관심 결과를 긴 목록에서 선택할 수 있지만 단백질 영역의 이득/손실, 신호 펩타이드의 NMD 민감도 변화를 포함하는 기능 결과를 예측하는 ISOform 스위치의 통계적 식별을 가능하게 하는 R 패키지다.[75]IsoformSwitchAnalyzeR은 전체 길이 ISOform/변환 정량화 도구에서 데이터를 사후 분석하기 위해 만들어졌지만 Cappslinks/Thipdiff, RSEM Kallisto 및 Salmon을 직접 지원한다.
- DRIMSeq 일반화된 선형 모델링(GLM)을 활용하여 추정된 ISOform count 데이터에서 ISOform 스위치를 식별하는 R 패키지.[76]
- BayesDRIMSeq DRIMSeq의 베이지안 구현이 포함된 R 패키지.[77]
- 커프링크/수갑디프 풀 길이 ISO 양식/변환 정량화 및 차등 분석 도구. Jensen-Shannon 메트릭스의 점근법에 기초한 단측 t-검정을 통해 동일한 1차 대본(TSS 공유)에 속하는 ISO 형식의 사용 변화를 위한 다른 시험 중 하나이다.[58]
- rSeqNP RNA-Seq 데이터에서 차분 발현과 스플라이싱에 대한 테스트를 위해 비모수적 접근법을 구현하는 R 패키지.[78]
- 간단한 베이지안 계층적 모델을 사용하여 실험에서 모든 샘플을 동시에 분석하는 Isolator 전체 길이 ISOform/transcript quantification 및 차분 분석 도구.단조 스플라이싱 확률을 시험하여 차동 등소형 용도를 식별할 수 있다.[79]
융합 유전자/치메라/변환 발견자/구조적 변화
암과 같은 질병의 게놈 배열 결과는 착상이나 번역과 같은 비정상적인 유전적 변화를 일으킬 수 있다.이러한 변경사항의 확인은 발암 연구에서 중요한 역할을 한다.[80]
- 아리바는[81] STAR[49] RNA-Seq 얼라이너에 기반한 융합 검출 알고리즘이다.퓨전 검출에 관한 DREAM 챌린지 우승자다.[82]아리바는 또한 바이러스 통합 사이트, 내부 탠덤 복제, 전체 exon 복제, 원형 RNA, 면역글로불린/T-세포 수용체 로키와 관련된 엔핸서 납치 사건, 인트론 또는 유전자간 영역의 중단점을 탐지할 수 있다.
- 벨레로폰테스
- 브레이크댄서
- 브레이크퓨전
- 키메라스캔
- 에바데노보
- 에릭스크립트
- DEEPT는 통계 핵융합 검출 알고리즘이다.[83]DEEPT는 또한 원형 RNA도 검출할 수 있다.
- DeFuse DeFuse는 RNA-Seq 데이터를 이용한 유전자 융합 탐색을 위한 소프트웨어 패키지다.
- 디스코 박사디스코는 전체 레퍼런스 게놈을 고려한 퓨전 검출기로 유전체 단점도 검출할 수 있다.따라서 특히 rRNA-minus RNA-seq에 적합하다.[7]
- egfr-v3-결정자 EGFR-v3-결정자는 정렬 파일에서 직접 EGFRvIII와 EGFRwt 스플라이스/구조적 변형을 계산하는 도구다.[84]
- FusionAnalyser FusionAnalyser는 서로 다른 유전자(Bridge reads)에 페어링된 읽기 매핑을 사용한다.
- FusionCatcher FusionCatcher는 RNA-seq 데이터(Illumina NGS 플랫폼의 확장/확장되지 않은 페어링 엔드 읽기)에서 병든 샘플에서 새로운/알려진 체융합 유전자, 변환 및 키메라를 검색한다.
- FusionHunter는 이미 알려진 주석에 의존하지 않고 퓨전 대본을 확인한다.첫 얼라이너와 페어엔드 읽기로 Bowtie를 사용한다.
- FusionMap FusionMap은 잠재적 융접 영역에 대한 사전 지식 없이 유전자에 직접 걸쳐 있는 판독치를 배열하는 Fusion Aligner이다.염기쌍 분해능에서 핵융합 접합부를 검출하고 특성화한다.FusionMap을 적용하여 gDNA-Seq 또는 RNA-Seq 연구의 단일 및 쌍체 데이터 집합 모두에서 핵융합 접합부를 검출할 수 있다.
- 퓨전섹
- JAFA는 다른 핵융합 발견자처럼 게놈 중심 접근 방식이 아닌, 성적 증명서와 기준 성적 증명서를 비교하는 아이디어에 기반을 두고 있다.
- 맵스플라이스[85]
- 엔퓨즈
- Oncomine NGS RNA-Seq Gene Expression Browser.
- 프라다
- SOAPFuse는 인간의 쌍체 종단 RNA-Seq 데이터에서 핵융합 대본을 검출한다.실제 데이터와 시뮬레이션 데이터를 모두 사용하여 계산 및 핵융합 검출 성능에서 다른 5개의 유사한 도구를 능가한다.[86]
- SOAP퓨전
- 탑하트-퓨전(TopHat-Fusion)은 탑하트(TopHat) 버전을 기반으로 하며, 퓨전 유전자에 의한 읽기를 처리하기 위해 개발되었다.알려진 유전자에 대한 이전의 데이터를 요구하지 않고 연속 읽기를 정렬하기 위해 Bowtie를 사용한다.
- VirusFusionSeq는 바이러스 통합 이벤트를 발견하고 단일 베이스 분해능으로 융합 대본을 재구성하기 위한 HTS(High-throughput Sequence) 툴이다.
- ViReMa(바이러스 재결합 매퍼)는 심층 시퀀싱 데이터셋을 사용하여 바이러스 및 호스트 게놈 내부와 호스트 게놈 사이의 재결합 또는 핵융합 이벤트를 감지하고 보고한다.[87]
복사 번호 변동 식별
- CNVseq는 어레이 비교 유전체 혼합에서 파생된 통계 모델에서 지원되는 복사 번호 변동을 감지한다.시퀀스 정렬은 BLAR이 수행하고, 계산은 R 모듈에 의해 실행되며 Perl을 사용하여 완전 자동화된다.RNA-Seq에서 CNA를 호출할 수 있는 다른 생물정보학 도구는 거의 없다.[88]
단세포 RNA-Seq
단일 셀 시퀀싱.전통적인 RNA-Seq 방법론은 일반적으로 "Bulk RNA-Seq"라고 알려져 있는데, 이 경우 RNA는 단일 세포 방법에서 일어나는 것과 같은 개별 세포가 아닌 세포나 조직의 그룹에서 추출된다.벌크 RNA-Seq에 이용 가능한 일부 도구는 단일 세포 분석에도 적용되지만, 이 기법의 특수성에 직면하기 위해 새로운 알고리즘이 개발되었다.
- 멀티플렉스 선형 증폭에 의한 CEL-Seq[89] 단세포 RNA-Seq.
- 나노미터 방울을 이용한 개별 세포의 Drop-Seq[90] 고도로 평행한 게놈 표현 프로파일링
- FISSEQ 셀 구분 없이 현장에서 단일 셀 대본 순서.
- Oscope: 비동기화된 단일 세포 RNA-seq 실험에서 진동 유전자를 식별하기 위한 통계적 파이프라인.
- 스쿠버[91] 다이렉트 관계 추출 및 다단계 세포 차별화와 관련된 동적 변화 모델링.
- scLVM [92] scLVM은 관측된 이질성을 다른 선원으로 해부하는 데 사용할 수 있는 단세포 RNA-seq 데이터에 대한 모델링 프레임워크로서, 그로 인해 교란된 변동 선원의 보정이 가능하다.
- scM&T-Seq 병렬 단일 셀 시퀀싱.
- 스핑크스[93] 스핑크스 스핑크스는 바이닝 과정에서 쿼리 시퀀스의 '구성'과 '비슷함' 특징을 모두 활용해 높은 바이닝 효율성을 달성하는 하이브리드 바이닝 어프로치다.스핑크스는 구성 기반 접근만큼이나 빠르게 메타게놈 데이터 세트의 시퀀스를 분석할 수 있지만 그럼에도 불구하고 유사성에 기반한 알고리즘의 정확성과 특수성을 가지고 있다.
- 단세포[94] RNA-Seq 판독에서 TraCeR 쌍체 T세포 수용체 재구성.
- 단세포 RNA-Seq 읽기에서 나온 VDJPuzzle[95] T-세포 수용체 재구성은 클로노타입과 개별 세포의 기능적 표현형 및 성적표상체를 연결한다.
통합 패키지
- 단세포 RNA-Seq 및 qPCR 실험을 위한 모노클[96] 미분식 및 시계열 분석.
- SCANPY[97][98] 사전 처리, 시각화, 클러스터링, 궤도 추론 및 차등 표현식 테스트를 위한 확장 가능한 파이썬 기반 구현.
- 단세포 RNA-seq 데이터의 SCell[99] 통합 분석.
- 단세포 RNA-seq 데이터의 QC, 분석 및 탐색을 위해 설계된 Seurat[100][101] R 패키지.
- 단일 세포 RNA-seq에서 세포 상태 계층의 통계적 평가를 위한 R/바이오콘덕터 패키지가 출시된다[102].
- SINCERA[103] 단세포 RNA-Seq 프로파일링 분석을 위한 파이프라인.
품질관리 및 유전자 필터링
- Celloline[104] 단일 세포 RNA-seq 데이터를 매핑 및 품질 평가하기 위한 파이프라인.
- OEFinder[105] 단일 셀 RNA-seq 데이터에서 순서 효과를 식별하고 시각화하기 위한 사용자 인터페이스.
- SinQC 단일 셀 RNA-seq 데이터 품질을 제어하는 방법과 도구.
정규화
치수 축소
- 제로-인플레이션 단세포 유전자 발현 분석을 위한 ZIFA[109] 차원성 감소.
차등식
- BPSC[110] R 패키지 단세포 RNA-seq의 모델 피팅 및 미분식 분석을 위한 BPSC.
- MAST[111] 단세포 RNA 시퀀싱 데이터에서 전사의 변화를 평가하고 이질성을 특성화하기 위한 유연한 통계 프레임워크.
- SCDE[112] 경로 및 유전자 집합 과대산포 분석을 통한 전사 이질성 특성화.
시각화
- eXpose[필요하다]
RNA-Seq 시뮬레이터
이러한 시뮬레이터는 실리코 판독에서 생성되며 RNA-Seq 데이터를 처리하기 위해 개발된 알고리즘의 효율성을 비교하고 테스트하는 데 유용한 도구다.더욱이, 그들 중 일부는 RNA-Seq 프로토콜을 분석하고 모형화하는 것을 가능하게 한다.
- BEEAS Simulator는 마우스 또는 휴먼 데이터로 포맷되며 Illumina 플랫폼에서 페어링 엔드 읽기 순서가 지정된다.맥주는 서로 다른 주석 기원에서 나온 유전자 모델 풀에서부터 읽기를 생성한다.어떤 유전자는 무작위로 선택되고 그 후에 의도적인 오류(인델, 기저 변화, 낮은 품질의 꼬리 등)가 도입되며, 이어서 새로운 스플라이스 접합부의 건설이 이루어진다.
- compcodeR RNAseq 데이터 시뮬레이션, 미분식 분석 및 미분식 방법의 성능 비교.
- CuReSim 맞춤형 읽기 시뮬레이터.
- 플럭스 시뮬레이터는 RNA-Seq 실험을 모방하기 위해 컴퓨터 파이프라인 시뮬레이션을 구현한다.RNA-Seq에 영향을 미치는 모든 구성 요소 단계는 시뮬레이션에서 고려된다(역전사, 단편화, 어댑터 레깅, PCR 증폭, 젤 분리 및 시퀀싱).이러한 단계는 측정할 수 있는 실험 속성을 제시하며, 대략적인 실험 편향을 포착한다.플럭스 시뮬레이터는 이러한 각 단계를 모듈로 결합하여 다른 유형의 프로토콜을 분석할 수 있도록 한다.
- PBSIM PacBio는 정확한 게놈 조립을 위해 시뮬레이터를 읽는다.
- 폴리에스테르 이 바이오콘덕터 패키지는 반복실험이 있는 미분식 실험에서 RNA-seq 읽기를 시뮬레이션하는 데 사용할 수 있다.그런 다음 읽기를 정렬하여 차등 표현 방법의 비교를 수행하는 데 사용할 수 있다.
- RandomReads Illumina 또는 PacBio 오류 모델을 사용하여 게놈에서 합성 읽기를 생성한다.판독치는 임의의 길이와 삽입 크기, fasta 또는 fastq 단위로 출력할 수 있으며, RandomReads는 돌연변이 속도에 대한 다양한 옵션을 가지고 있으며, 대체, 삭제, 삽입 및 N 비율과 길이 분포에 대한 개별 설정을 가지고 있으며, 원래의 비정렬 유전학적 시작 및 중지 위치로 판독치에 주석을 달 수 있다.. RandomReads는 표현 수준을 변화시키지 않기 때문에 RNA-seq 실험을 시뮬레이션하기 위한 것이 아니라, 디-노보 인트로 RNA-seq 얼라이너의 감도와 특수성을 시험하기 위한 것이다.결과물 샘플 파일에서 ROC 곡선을 정지하고 생성하기 위한 도구를 포함한다.순수한 Java로 작성된 오픈 소스. 재컴파일 및 기타 종속성이 없는 모든 플랫폼을 지원한다.BBMap과 함께 배포.
- rlsim은 매개변수 추정으로 RNA-seq 라이브러리 준비를 시뮬레이션하기 위한 소프트웨어 패키지다.
- rnaseqbenchmark RNA-seq 정량화 파이프라인에 대한 벤치마크.
- rnaseqcomp RNA-seq 정량화 파이프라인 벤치마크.
- RSEM Read Simulator RSEM은 사용자에게 RNA-Seq 데이터를 시뮬레이션하는 'rsem-simulate-reads' 프로그램을 제공한다.
- RNASeqReadSimulator에는 명령줄을 사용한 간단한 Python 스크립트 세트가 포함되어 있다.대본의 무작위 표현 수준(단일 또는 쌍체 끝)을 생성하고, 특정 위치 바이어스 패턴으로 읽기를 동등하게 시뮬레이션하며, 시퀀싱 플랫폼에서 랜덤 오류를 생성한다.
- RNA Seq Simulator RSS는 RNA-Seq 데이터에서 SAM 정렬 파일을 가져오고 분산된 다중 복제본, 차등, 비변형 RNA-Seq 데이터셋을 통해 시뮬레이션한다.
- SimSeq RNA-시퀀스 데이터 집합의 시뮬레이션에 대한 비모수적 접근법.
- WGsim Wgsim은 참조 게놈에서 읽은 시퀀스를 시뮬레이션하는 작은 도구다.SNP와 삽입/삭제(INDel) 다형성(Polymorism)으로 디플로이드 게놈을 시뮬레이션하고, 균일한 대체 시퀀싱 오류로 읽기를 시뮬레이션할 수 있다.ERURD 시퀀싱 오류를 발생시키지는 않지만, ERURD 다형성을 시뮬레이션하여 부분적으로 보정할 수 있다.
성적 증명서 조립자
transcriptom은 비코딩 RNA와 단백질 코딩 RNA를 포함하여 하나의 세포 또는 세포 그룹에서 표현된 RNA의 총 모집단이다.녹취록을 조립하는 방법에는 두 가지 유형이 있다.게놈 유도법은 레퍼런스 게놈(가능한 경우 완성과 고품질 게놈)을 템플릿으로 사용해 판독치를 대본에 맞추고 조립한다.게놈 독립적인 방법은 참조 게놈을 필요로 하지 않으며 일반적으로 게놈을 사용할 수 없을 때 사용된다.이 경우 읽기는 대본에 직접 조립된다.
게놈 유도 조립자
- 베이지엠블러 베이지안 대본 조립체
- CIDANE 포괄적인 ISO 형태 발견 및 풍부성 평가.
- CLASS CLASS는 RNA-seq 리드의 대본을 게놈에 맞춰 조립하는 프로그램이다.CLASS는 3단계로 한 세트의 성적표를 생산한다.1단계에서는 선형 프로그래밍을 사용하여 각 유전자에 대한 엑손 세트를 결정한다.2단계는 분할된 읽기 선형에서 추출한 인트론(에지)을 통해 엑손(수직)을 연결함으로써 유전자의 스플라이스 그래프를 나타낸다.3단계에서는 파시모니우스(SET_COVER) 또는 동적 프로그래밍 최적화 접근법을 사용하여 모든 읽기를 설명할 수 있는 그래프로 인코딩된 후보 대본의 하위 집합을 선택한다.이 단계에서는 짝 쌍과 스플라이즈 정렬에서 도출된 제약조건과, cDNA 시퀀스의 알려진 주석 또는 정렬에서 추출된 유전자 구조에 대한 지식을 고려한다.
- 커프스링크 커프스 링크는 대본을 조립하고, 그들의 유산을 추정하며, RNA-Seq 샘플의 미분 발현과 조절에 대한 테스트를 한다.정렬된 RNA-Seq 읽기를 수신하고 정렬된 내용을 파사모닉한 스크립트 집합으로 조립한다.그런 다음 커프스링크들은 도서관 준비 프로토콜의 편견을 고려하여 각 읽기들이 얼마나 많은 읽기를 지원하는지에 기초하여 이 대본들의 상대적인 풍부함을 추정한다.
- iReckon iReckon은 동시 이소폼 재구성과 풍부성 추정을 위한 알고리즘이다.새로운 ISO 양식, 멀티맵 읽기 및 읽기 복제품을 모델링하는 것 외에도, 이 방법은 mRNA 이전 버전과 인트론 보존의 가능성을 고려한다.iReckon은 일련의 전사 시작 사이트와 끝 사이트만 필요로 하지만, 감도를 개선하기 위해 알려진 완전한 ISO 양식을 사용할 수 있다.iReckon은 거의 모든 가능한 ISO 형식의 집합에서 시작하여 순서에 따른 샘플에 실제로 존재하는 것을 결정하기 위해 정규화된 전자파 알고리즘을 사용한다.iReckon은 시간이 많이 걸리는 모든 단계에서 효율성을 높이기 위해 멀티스레드를 사용한다.
- IsoInfer IsoInfer는 짧은 RNA-Seq(단일 종단 및 쌍단 종단) 읽기, exon-intron 경계 및 TSS/PAS 정보를 기반으로 한 이소 형태를 유추하는 C/C+++ 프로그램이다.
- IsoLasso IsoLasso는 RNA-Seq 읽기에서 대본을 조립하고 표현 수준을 추정하기 위한 알고리즘이다.
- 플립플롭 플립플롭은 RNA-Seq 데이터에서 노보 대본 발견 및 풍부성 추정 방법을 구현한다.볼록한 최대우도접근법을 사용하여 식별 및 정량화 작업을 동시에 수행함으로써 커프스링크와는 다르다.
- 지이라 지이라(GIRA GIRA)는 RNA-Seq 실험에서 판독값의 매핑을 기반으로 한 잠재적 코딩 영역을 식별하는 유전자 예측 방법이다.그것은 원핵 유전자 예측을 위해 가장 먼저 고안되었으며, 피연산자의 표현된 영역 내에서 유전자를 분해할 수 있다.단, eukaryotes에도 적용 가능하며 대체 ISO 형태뿐만 아니라 eukaryotes에도 적용되며 exon intron 구조를 예측한다.
- 다중 검체에서의 MITIE 동시 RNA-Seq 기반 대본 식별 및 정량화.
- RNAeXpress RNA-eXpress는 차세대 RNA 시퀀싱 데이터에서 생물학적으로 중요한 대본을 추출하고 주석을 달기 위한 사용자 친화적인 솔루션으로 설계되었다.이 접근방식은 샘플에 있는 모든 대본이 추가 분석을 위해 고려되도록 함으로써 기존의 유전자 주석 데이터베이스를 보완한다.
- 성경은 RNA-Seq 읽기와 조립된 게놈에 의존하여 transcriptom ab initio를 구축하는 transcriptom 재구성을 위한 방법이다.읽기 범위 유의성을 추정하기 위한 통계적 방법은 다른 시퀀싱 데이터에도 적용할 수 있다.성경에는 Chip-Seq 피크 호출용 모듈도 있다.
- SLIDE 희소 선형 모형: Isoform Discovery and process Assessment를 위한 RNA-Seq 데이터의 모델링.
- Strawberry A 프로그램은 쌍끝 RNA-seq에서 게놈 유도 대본 재구성 및 정량화를 위한 프로그램이다.
- StringTie StringTie는 RNA-Seq 맞춤을 잠재적 대본에 조립하는 사람이다.그것은 새로운 네트워크 흐름 알고리즘과 선택적인 de novo 조립 단계를 사용하여 각 유전자 위치에 대해 다중 스플라이스 변형을 나타내는 전체 길이 대본을 조립하고 정량화한다.그것의 입력은 다른 대본 조립자가 사용한 원시 판독의 정렬뿐만 아니라, 그러한 판독으로부터 조립된 더 긴 시퀀스 정렬도 포함할 수 있다.실험 간에 다르게 표현된 유전자를 식별하기 위해 스트링타이의 출력은 커프스디프나 볼가운 프로그램에 의해 처리될 수 있다.
- 스플라이싱 그래프의 결합을 결합하여 게놈 유도 성적표 어셈블리를 결합하십시오.
- RNA-Seq로 대본 식별 및 정량화를 위한 Trap A 도구.
- 주석 독립형 소설 유전자 발견을 위한 타일링 조립체.
게놈 독립적인(de novo) 조립자
- 브리저는[113] 산둥대학교에서 개발된 것으로, 기존 드 노보 조립자들의 한계를 극복하기 위해 커프링크에서 채용된 기술을 활용한다.
- CLC Genomics Workbench의 CLC de novo 어셈블리 알고리즘.
- KISPLICE는 RNA-seq 데이터를 레퍼런스 게놈을 포함하거나 포함하지 않고 분석할 수 있는 소프트웨어다.SNP, 인델 및 대체 스플라이싱 이벤트를 식별할 수 있는 정확한 로컬 트랜스포텀 조립기다.임의의 수의 생물학적 조건을 다룰 수 있으며, 각 조건에서 각 변종을 정량화할 것이다.
- Oases De novo transcriptome assembly reading. 오아시스 드 노보 trans
- rnaSPades
- 좌초된 RNA-Seq 판독값에서 자동화된 노보 transcriptom 어셈블리 파이프라인 Rnotator.
- SAT-어셈블러
- SOAP데노버-트랜스
- 비계 변환 매핑
- 트랜스-ABYSS
- T-IDBA
- RNA-seq 데이터에서 트랜스포텀의 효율적이고 강력한 디노보 재구성을 위한 방법을 트리니티 한다.3가지 독립적인 소프트웨어 모듈을 결합한 트리니티:인치벌레, 크리살리스, 버터플라이는 대량 RNA-seq 읽기를 처리하기 위해 순차적으로 적용했다.
- 벨벳
- TransLiG
조립품 평가 도구
- Busco는 OrthoDB 도구에서 선택한 근범용 단일복사 직교에서 유전자 함량에 대한 진화에 근거한 기대치를 바탕으로 게놈 조립, 유전자 세트, 대본 완성도 평가를 위한 정량적 측정을 제공한다.
- TUMATE TONATE(DE novo ScranscriptOme rNa-seq Assembly with with the Truth Evaluation)는 RSEM-Eval과 REF-Evaluation이라는 두 가지 구성요소 패키지로 구성된다.두 패키지는 주로 노보 transcriptome 어셈블리를 평가하기 위해 사용되지만, REF-Eval은 모든 종류의 게놈 시퀀스 세트를 비교하는 데 사용될 수 있다.
- Transcriptom Assembly를 위한 rnaQUAST 품질 평가 도구.
- TransRate Transrate는 디-노보 transcriptom 어셈블리 품질 분석을 위한 소프트웨어다.그것은 당신의 어셈블리를 자세히 검사하고 그것을 시퀀싱 읽기, 콘티그와 어셈블리의 품질 점수를 보고하는 것과 같은 실험적인 증거와 비교한다.이를 통해 조립자와 매개변수 중 하나를 선택할 수 있으며, 조립품에서 불량 콘티그를 필터링할 수 있으며, 조립품 개선 시도를 중단할 시기를 결정할 수 있다.
공동 표현 네트워크
- GeneNetWeaver는 실리코 벤치마크 생성 및 네트워크 추론 방법의 성능 프로파일링을 위한 오픈 소스 툴이다.
- WGCNA는 가중 상관 네트워크 분석을 위한 R 패키지다.
- Pigengene은 유전자 발현 프로파일로부터 생물학적 정보를 주입하는 R 패키지다.코엑스프레션 네트워크를 기반으로 아이겐세네를 계산해 효과적으로 활용, 진단과 예후에 유용한 베이지안 네트워크와 의사결정 트리에 맞는 기능으로 활용한다.[114]
miRNA 예측 및 분석
- iSRAP는[115] 작은 RNA-seq 데이터의 신속한 프로파일링을 위한 원터치 연구 도구.
- SPAR[116] 소형 RNA-seq, 짧은 총 RNA-seq, miRNA-seq, 단일 셀 소형 RNA-seq 데이터 처리, 분석, 주석, 시각화 및 참조 ENCODE 및 DASHR 데이터 세트와의 비교.
- miRDep2
- 미레나
- miRExpress
- miR-PREFeR m
- 식물의 miRDeep-P
- miRDeep
- miRPlant
- 미루프
- ShortStack[117] 공장의 작은 RNA 분석을 위한 정렬 및 주석 제품군(고신뢰성 주석에 초점을 맞춘 것으로 유명함)
시각화 도구
- 사용자 정의 가능한 차세대 게놈 브라우저 프레임워크를 사용하십시오.
- Artemis Artemis는 자유 게놈 브라우저 및 주석 툴로서 시퀀스 특징, 차세대 데이터 및 분석 결과를 시퀀스 맥락 안에서 시각화할 수 있으며 6프레임 변환도 가능하다.
- 아폴로 아폴로는 지리적으로 분산된 연구자를 지원하기 위해 설계되었으며, 분산된 공동체의 작업은 자동 동기화를 통해 조정된다. 즉, 한 클라이언트의 모든 편집이 즉시 다른 모든 클라이언트에 푸시되어 사용자가 편집 과정에서 공동작업자의 주석 업데이트를 실시간으로 볼 수 있다.
- BamView BamView는 BAM 데이터 파일의 읽기 정렬을 쌍방향으로 무료로 표시하는 기능이다.생어 연구소의 병원체 그룹에 의해 개발되었다.
- BrowserGenome:[118] 웹 기반 RNA-seq 데이터 분석 및 시각화.
- Degust Different Gene Expression 데이터를 시각화하기 위한 대화형 웹 도구.
- 밀도맵은 염색체를 따라 형상 밀도를 시각화하기 위한 펄 도구다.
- 이글뷰 이글뷰는 데이터 통합 기능을 갖춘 정보가 풍부한 게놈 조립업체 뷰어다.EagleView는 기본 품질, 기계별 추적 신호, 게놈 특징 주석을 포함한 12가지 유형의 정보를 표시할 수 있다.
- expvip-web 사용자 정의 가능한 RNA-seq 데이터 분석 및 시각화 플랫폼.
- GBrowse
- 통합 게놈 브라우저
- 통합 유전체학 뷰어(IGV)
- 게놈뷰
- 맵뷰
- 유전자 발현 열맵을 위한 MicroScope 종합 게놈 분석 소프트웨어 제품군
- ReadXplorer ReadXplorer는 NGS 데이터에 대해 자유롭게 사용할 수 있는 포괄적인 탐색 및 평가 툴이다.매핑된 읽기를 분류하기 위해 각 정렬에 수량 및 품질 측정값을 추출하고 추가한다.그런 다음 이 분류는 서로 다른 데이터 보기와 지원되는 모든 자동 분석 기능을 고려한다.
- RNASeqExpressionBrowser는 RNA-seq 식 데이터의 검색 및 시각화를 위한 수단을 제공하는 웹 기반 도구다(예: 시퀀스 정보 또는 도메인 주석 기반).표현 데이터와 관련 주석 등 선택된 유전자에 대한 상세 보고서를 생성할 수 있다.필요한 경우 (공개적으로 이용 가능한) 데이터베이스에 대한 링크를 쉽게 통합할 수 있다.RNASeqExpressionBrowser는 비밀번호 보호를 허용하여 인증된 사용자만 액세스할 수 있도록 제한한다.
- Savant Savant는 최신 세대의 게놈 데이터를 위해 설계된 차세대 게놈 브라우저다.
- 삼스코프
- 젝몽크
- 태블릿[119] TTablet는 차세대 시퀀스 어셈블리 및 정렬을 위한 경량 고성능 그래픽 뷰어 입니다.
- Tbrowse- HTML5 Transcriptome 브라우저
- TBro de novo RNA 시퀀싱 실험을 위한 transcriptom Browser.
- 베스파
기능, 네트워크 및 경로 분석 도구
- BioCyc Visualize RNA-seq 데이터를 개별 경로 다이어그램, 경로 콜라주(Pathway Collages)라고 하는 다중 경로 다이어그램, 확대 가능한 유기체별 대사 지도 다이어그램에 시각화한다.경로 농축을 계산한다.
- BRANE Clust는 클러스터링과 결합된 Gene Regulatory Network 추론을 위한 생물학적으로 관련된 Apriori 네트워크 강화.[120]
- BRANE Cut 생물학적으로 관련된 Apriori 네트워크 강화([121]Gene Regulatory Network 추론용 그래프 컷)
- FunRich 기능적 농축 분석 도구.
- GAGE는 표본 크기, 실험 설계, 검사 플랫폼 및 기타 유형의 이질성과 무관하게 적용된다.[122]이 바이오컨듀터 패키지는 경로, GO, 유전자 세트 분석을 위한 기능과 데이터도 일반적으로 제공한다.
- RNA-Seq GSAASeq에 대한 유전자 집합 연관 분석은 시퀀스 카운트 데이터를 기반으로 두 생물학적 상태 간에 설정된 경로/gene의 차등 발현을 평가하는 계산 방법이다.
- GeneSCF는 다중 유기체를 지원하는 실시간 기반 기능 농축 도구.[123]
- GOexpress[124] 유전자 온톨로지 주석을 사용하여 Visualize microarray 및 RNAseq 데이터를 사용한다.
- RNA-seq 및 기타 길이의 편향된 데이터를 위한 GOSeq[125] Gene Ontology 분석기.
- GSAASEQSP[126] RNA-Seq 데이터의 유전자 세트 연관 분석을 위한 도구 세트.
- 마이크로 어레이 및 RNA-Seq 데이터에 대한 GSVA[127] 유전자 설정 변동 분석.
- Heat*공용 데이터와의 고투과 시퀀싱 실험을 위한 대화형 웹 도구인 Seq.
- 독창성 시스템(상업용) iReport & IPA
- 점수[128] 기반 접근법을 사용한 RNA-Seq 데이터의 경로 분석.
- 꽃잎 공동 표현 네트워크 모델링(R).
- ToPASeq:[129] 마이크로 어레이 및 RNA-Seq 데이터의 위상 기반 경로 분석을 위한 R 패키지.
- RNA-Enrich A 검출력이 향상된 RNA-seq에 대한 차단 자유기능 농축시험법.
- TRAPID[130] Transcriptom 데이터의 신속한 분석.
- T-REX[131] RNA-seq 식 분석.
RNA-Seq 데이터를 위한 추가 주석 도구
- Frama RNA-seq 데이터에서 주석 처리된 mRNA 어셈블리로.
- HLAminer는 전체 게놈, 엑소메, 대본 엽총 시퀀스 데이터 집합에서 직접 HLA 알레르기를 식별하는 연산 방법이다.HLA는 산탄총 시퀀스 데이터의 표적 집합과 기준 알레르 시퀀스 데이터베이스와의 비교를 통해 예측을 도출한다고 주장한다.이 도구는 펄로 개발되었으며 콘솔 도구로 사용할 수 있다.
- pasaPASA는 Program to Assembly Splazed Alignments의 약자로, 표현된 대본 시퀀스의 분할된 정렬을 이용하여 유전자 구조를 자동으로 모델링하고 가장 최근에 이용 가능한 실험 시퀀스 데이터와 일치하는 유전자 구조 주석을 유지하는 진핵 게놈 주석 도구다.또한 PASA는 대본 정렬에 의해 지원되는 모든 스플리싱 변형을 식별하고 분류한다.
- seq2HLA는 fastq 형식의 표준 NGS RNA-Seq 데이터를 사용하여 개인의 HLA 클래스 I 및 II 유형과 식을 얻기 위한 주석 도구다.보타이(bowtie)를 사용한 HLA 알레일의 참조 데이터베이스에 대한 RNA-Seq 읽기 매핑, HLA 유형, 신뢰 점수 및 위치별 표현 수준 결정 및 보고로 구성된다.이 도구는 Python과 R에서 개발되었다.콘솔 툴이나 갤럭시 모듈로 이용할 수 있다.
RNA-Seq 데이터베이스
- ARCHS4 GEO/SRA로부터 균일하게 처리된 RNA-seq 데이터(>30만 개의 샘플)와 함께 공개된 샘플의 하위 세트를 찾기 위한 메타데이터 검색.
- ENA 유럽 핵물질 보관소(European Nucleotide Archive, ENA)는 원시 염기서열 데이터, 염기서열 조립 정보 및 기능 주석 등을 망라하여 세계의 뉴클레오티드 염기서열 정보에 대한 종합적인 기록을 제공한다.
- 인코드
- Queryable-rna-seq-database 공식적으로 Queryable RNA-Seq 데이터베이스로 알려진 이 시스템은 RNA-Seq 분석의 결과 데이터를 데이터베이스에 업로드하고 저장하며 여러 가지 방법으로 쿼리할 수 있는 능력을 제공하여 RNA-seq 분석 과정을 단순화하도록 설계되었다.
- CERCpedia v2는 6개의 다른 종에 걸쳐 180개 이상의 RNA-seq 데이터 집합에서 나온 순환RNA 주석을 포함하는 업데이트된 종합 데이터베이스다.이 지도책을 통해 사용자는 질병 샘플을 포함한 다양한 세포 유형/사이에 표현 특성/기능이 있는 circRNA를 검색, 검색 및 다운로드할 수 있다.또한 업데이트된 데이터베이스는 인간과 마우스 사이의 순환 RNA 보존 분석을 통합한다.
- Brain RNA-Seq[132] 대뇌피질의 글리아, 뉴런, 혈관 세포의 스플리싱 데이터베이스와 RNA-Seq transcriptome.
- FusionCancer는[133] RNA-seq 데이터에서 파생된 암 융합 유전자의 데이터베이스.
- Hipposeq는 해마의 주요 뉴런에 있는 유전자 발현에 대한 종합적인 RNA-seq 데이터베이스다.
- Mitranscriptome은 다양한 암과 조직 형태와 연관된 6,500개 이상의 샘플에서 RNA-Seq 데이터를 기반으로 하는 긴 다면체 인간 RNA 증후군의 체계적 목록이다.데이터베이스는 91,000개 이상의 유전자에 대한 상세한 유전자 발현 분석을 포함하고 있으며, 대부분은 특성화되지 않은 긴 RNA이다.
- RNA-Seq Atlas는 차세대 염기서열에 의한 정상 조직에서 유전자 발현 프로파일링을 위한 참조 데이터베이스다.
- SRA는 454, IonTorrent, Illumina, SOLiD, 헬리코스, Complete Genomics를 포함한 "차세대" 시퀀싱 기술의 원시 시퀀스 데이터를 저장한다.이제 SRA는 원시 시퀀스 데이터 외에도 참조 시퀀스에 읽기 위치 형태로 정렬 정보를 저장한다.
- DASHR 인간의 작은 RNA 유전자와 작은 RNA-seq 데이터에서 파생된 성숙한 제품의 데이터베이스.
단일 종의 RNA-Seq 데이터베이스
- Aedes-albopictus Aedes albopictus 데이터베이스.
- RNA-seq 분석에 기초한 아라비도시스 탈리아냐 트라바(Arabidopsis thaliana TraVa)의 유전자 발현 프로파일 데이터베이스.
- 보리모렉스지
- 보리 유전자 및 대본 풍부 데이터베이스(The James Hutton Institute, The James Hutton Institute)인 EORNA.
- 칙파 칙페아 transcriptome 데이터베이스(CTDB)는 '게놈의 가장 관련성이 높은 부분'인 칙페아 transcriptome에 대한 가장 포괄적인 정보를 제공하기 위해 개발되었다.
- Chilo suppressalis ChiloDB: 중요한 쌀 병해충 Chilo suppressalis의 게놈 및 transcriptom 데이터베이스.
- Free FlyAtlas 2 – Drosopila 멜라노가스터 RNA-seq 데이터베이스.
- Echinoderm EchinoDB – Echinoderms의 직교 성서의 보고.
- Equine transcriptom (University of California, Davis)
- 대장균 에코믹스 – 대장균에 대한 전미 표준화된 데이터베이스.
- 피쉬풀로피쉬.
- Ginger Ginger - Ginger transcriptome 데이터베이스.
- Lygodium Japonicum Lygodium Japonicum Transcriptome Database.
- 포유류 포유류 기록정보 데이터베이스
- 오이스터(Pacific) 기가톤: 태평양 굴 크라소스트레아 기가스에 새로운 참조 대본을 제공하는 광범위한 공개 검색 가능한 데이터베이스.
- 마우스와 인간 PanglaoDB:[134] 단일 세포 순서 데이터의 탐색 및 메타 분석을 위한 유전자 표현 데이터베이스.
- Mangrove Mangrove Transcriptome Database.
- 크릴 (북극성) 크릴DB: 남극 크릴을 위한 de novo Transcriptome 데이터베이스.
- 마우스 RNASeqMetaDB: 공개적으로 사용 가능한 마우스 RNA-Seq 데이터 세트의 메타데이터를 탐색하기 위한 데이터베이스 및 웹 서버.
- Rubus Rubus GDR RefTrans V1 - GDR Rubus RefTrans는 게시된 RNA-Seq와 EST 데이터 세트를 결합하여 루버스에 대한 참조 transcriptome(RefTrans)을 생성하고 알려진 단백질에 대해 호몰로 식별된 putional 유전자 기능을 제공한다.
- Sorghum MORKOSHI Sorghum transcriptome 데이터베이스.RIKEN 전체 길이 cDNA 클론 및 Sorhum bicolor의 RNA-Seq 데이터.
- S. 퍼푸라투스 S. 퍼푸라투스 - S. 퍼푸라투스 개발 대본
- S. serebisiae EastMine transcriptome 데이터베이스.
- WheatExp – 폴리플로이드 밀을 위한 RNA-seq 표현 데이터베이스.
참조
- ^ Wang Z, Gerstein M, Snyder M (January 2009). "RNA-Seq: a revolutionary tool for transcriptomics". Nature Reviews. Genetics. 10 (1): 57–63. doi:10.1038/nrg2484. PMC 2949280. PMID 19015660.
- ^ Kukurba KR, Montgomery SB (April 2015). "RNA Sequencing and Analysis". Cold Spring Harbor Protocols. 2015 (11): 951–69. doi:10.1101/pdb.top084970. PMC 4863231. PMID 25870306.
- ^ Conesa A, Madrigal P, Tarazona S, Gomez-Cabrero D, Cervera A, McPherson A, Szcześniak MW, Gaffney DJ, Elo LL, Zhang X, Mortazavi A (January 2016). "A survey of best practices for RNA-seq data analysis". Genome Biology. 17 (13): 13. doi:10.1186/s13059-016-0881-8. PMC 4728800. PMID 26813401.
- ^ "RNA Sequencing and analysis" (PDF). Canadian Bioinformatics Workshops. 2012.
- ^ Poplawski A, Binder H (July 2018). "Feasibility of sample size calculation for RNA-seq studies". Briefings in Bioinformatics. 19 (4): 713–720. doi:10.1093/bib/bbw144. PMID 28100468. S2CID 28848959.
- ^ Sheng Q, Vickers K, Zhao S, Wang J, Samuels DC, Koues O, Shyr Y, Guo Y (July 2017). "Multi-perspective quality control of Illumina RNA sequencing data analysis". Briefings in Functional Genomics. 16 (4): 194–204. doi:10.1093/bfgp/elw035. PMC 5860075. PMID 27687708.
- ^ a b Hoogstrate, Youri; Komor, Malgorzata A; Böttcher, René; van Riet, Job; van de Werken, Harmen J G; van Lieshout, Stef; Hoffmann, Ralf; van den Broek, Evert; Bolijn, Anne S; Dits, Natasja; Sie, Daoud; van der Meer, David; Pepers, Floor; Bangma, Chris H; van Leenders, Geert J L H; Smid, Marcel; French, Pim J; Martens, John W M; van Workum, Wilbert; van der Spek, Peter J; Janssen, Bart; Caldenhoven, Eric; Rausch, Christian; de Jong, Mark; Stubbs, Andrew P; Meijer, Gerrit A; Fijneman, Remond J A; Jenster, Guido W (9 December 2021). "Fusion transcripts and their genomic breakpoints in polyadenylated and ribosomal RNA–minus RNA sequencing data". GigaScience. 10 (12): giab080. doi:10.1093/gigascience/giab080. PMC 8673554. PMID 34891161.
- ^ Sayols S, Klein H (2015). "dupRadar: Assessment of duplication rates in RNA-Seq datasets. R package version 1.1.0". doi:10.18129/B9.bioc.dupRadar.
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ Davis MP, van Dongen S, Abreu-Goodger C, Bartonicek N, Enright AJ (September 2013). "Kraken: a set of tools for quality control and analysis of high-throughput sequence data". Methods. 63 (1): 41–9. doi:10.1016/j.ymeth.2013.06.027. PMC 3991327. PMID 23816787.
- ^ Anders S, Pyl PT, Huber W (January 2015). "HTSeq--a Python framework to work with high-throughput sequencing data". Bioinformatics. 31 (2): 166–9. doi:10.1093/bioinformatics/btu638. PMC 4287950. PMID 25260700.
- ^ Feng H, Zhang X, Zhang C (August 2015). "mRIN for direct assessment of genome-wide and gene-specific mRNA integrity from large-scale RNA-sequencing data". Nature Communications. 6 (7816): 7816. Bibcode:2015NatCo...6.7816F. doi:10.1038/ncomms8816. PMC 4523900. PMID 26234653.
- ^ Ewels P, Magnusson M, Lundin S, Käller M (October 2016). "MultiQC: summarize analysis results for multiple tools and samples in a single report". Bioinformatics. 32 (19): 3047–8. doi:10.1093/bioinformatics/btw354. PMC 5039924. PMID 27312411.
- ^ DeLuca DS, Levin JZ, Sivachenko A, Fennell T, Nazaire MD, Williams C, Reich M, Winckler W, Getz G (June 2012). "RNA-SeQC: RNA-seq metrics for quality control and process optimization". Bioinformatics. 28 (11): 1530–2. doi:10.1093/bioinformatics/bts196. PMC 3356847. PMID 22539670.
- ^ Wang L, Wang S, Li W (August 2012). "RSeQC: quality control of RNA-seq experiments". Bioinformatics. 28 (16): 2184–5. doi:10.1093/bioinformatics/bts356. PMID 22743226.
- ^ Lassmann T, Hayashizaki Y, Daub CO (January 2011). "SAMStat: monitoring biases in next generation sequencing data". Bioinformatics. 27 (1): 130–1. doi:10.1093/bioinformatics/btq614. PMC 3008642. PMID 21088025.
- ^ Lahens NF, Kavakli IH, Zhang R, Hayer K, Black MB, Dueck H, Pizarro A, Kim J, Irizarry R, Thomas RS, Grant GR, Hogenesch JB (June 2014). "IVT-seq reveals extreme bias in RNA sequencing". Genome Biology. 15 (6): R86. doi:10.1186/gb-2014-15-6-r86. PMC 4197826. PMID 24981968.
- ^ Li S, Łabaj PP, Zumbo P, Sykacek P, Shi W, Shi L, Phan J, Wu PY, Wang M, Wang C, Thierry-Mieg D, Thierry-Mieg J, Kreil DP, Mason CE (September 2014). "Detecting and correcting systematic variation in large-scale RNA sequencing data". Nature Biotechnology. 32 (9): 888–95. doi:10.1038/nbt.3000. PMC 4160374. PMID 25150837.
- ^ Benjamini Y, Speed TP (May 2012). "Summarizing and correcting the GC content bias in high-throughput sequencing". Nucleic Acids Research. 40 (10): e72. doi:10.1093/nar/gks001. PMC 3378858. PMID 22323520.
- ^ Aird D, Ross MG, Chen WS, Danielsson M, Fennell T, Russ C, Jaffe DB, Nusbaum C, Gnirke A (2011). "Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries". Genome Biology. 12 (2): R18. doi:10.1186/gb-2011-12-2-r18. PMC 3188800. PMID 21338519.
- ^ Adiconis X, Borges-Rivera D, Satija R, DeLuca DS, Busby MA, Berlin AM, Sivachenko A, Thompson DA, Wysoker A, Fennell T, Gnirke A, Pochet N, Regev A, Levin JZ (July 2013). "Comparative analysis of RNA sequencing methods for degraded or low-input samples". Nature Methods. 10 (7): 623–9. doi:10.1038/nmeth.2483. PMC 3821180. PMID 23685885.
- ^ Nakamura K, Oshima T, Morimoto T, Ikeda S, Yoshikawa H, Shiwa Y, Ishikawa S, Linak MC, Hirai A, Takahashi H, Altaf-Ul-Amin M, Ogasawara N, Kanaya S (July 2011). "Sequence-specific error profile of Illumina sequencers". Nucleic Acids Research. 39 (13): e90. doi:10.1093/nar/gkr344. PMC 3141275. PMID 21576222.
- ^ Hansen KD, Brenner SE, Dudoit S (July 2010). "Biases in Illumina transcriptome sequencing caused by random hexamer priming". Nucleic Acids Research. 38 (12): e131. doi:10.1093/nar/gkq224. PMC 2896536. PMID 20395217.
- ^ Criscuolo, Alexis; Brisse, Sylvain (November 2013). "AlienTrimmer: a tool to quickly and accurately trim off multiple short contaminant sequences from high-throughput sequencing reads". Genomics. 102 (5–6): 500–506. doi:10.1016/j.ygeno.2013.07.011. PMID 23912058.
- ^ Smeds L, Künstner A (19 October 2011). "ConDeTri--a content dependent read trimmer for Illumina data". PLOS ONE. 6 (10): e26314. Bibcode:2011PLoSO...626314S. doi:10.1371/journal.pone.0026314. PMC 3198461. PMID 22039460.
- ^ Martin, Marcel (2 May 2011). "Cutadapt removes adapter sequences from high-throughput sequencing reads". EMBnet.journal. 17 (1): 10. doi:10.14806/ej.17.1.200.
- ^ Prezza, Nicola; Del Fabbro, Cristian; Vezzi, Francesco; De Paoli, Emanuale; Policriti, Alberto (2012). ERNE-BS5: Aligning BS-treated Sequences by Multiple Hits on a 5-letters Alphabet. Proceedings of the ACM Conference on Bioinformatics, Computational Biology and Biomedicine. Vol. 12. pp. 12–19. doi:10.1145/2382936.2382938. ISBN 9781450316705. S2CID 5673753.
- ^ Schmieder R, Edwards R (March 2011). "Quality control and preprocessing of metagenomic datasets". Bioinformatics. 27 (6): 863–4. doi:10.1093/bioinformatics/btr026. PMC 3051327. PMID 21278185.
- ^ Dlugosch KM, Lai Z, Bonin A, Hierro J, Rieseberg LH (February 2013). "Allele identification for transcriptome-based population genomics in the invasive plant Centaurea solstitialis". G3. 3 (2): 359–67. doi:10.1534/g3.112.003871. PMC 3564996. PMID 23390612.
- ^ Bolger AM, Lohse M, Usadel B (August 2014). "Trimmomatic: a flexible trimmer for Illumina sequence data". Bioinformatics. 30 (15): 2114–20. doi:10.1093/bioinformatics/btu170. PMC 4103590. PMID 24695404.
- ^ Laehnemann D, Borkhardt A, McHardy AC (January 2016). "Denoising DNA deep sequencing data-high-throughput sequencing errors and their correction". Briefings in Bioinformatics. 17 (1): 154–79. doi:10.1093/bib/bbv029. PMC 4719071. PMID 26026159.
- ^ Quince C, Lanzen A, Davenport RJ, Turnbaugh PJ (January 2011). "Removing noise from pyrosequenced amplicons". BMC Bioinformatics. 12 (38): 38. doi:10.1186/1471-2105-12-38. PMC 3045300. PMID 21276213.
- ^ Heo Y, Wu XL, Chen D, Ma J, Hwu WM (May 2014). "BLESS: bloom filter-based error correction solution for high-throughput sequencing reads". Bioinformatics. 30 (10): 1354–62. doi:10.1093/bioinformatics/btu030. PMC 6365934. PMID 24451628.
- ^ Greenfield P, Duesing K, Papanicolaou A, Bauer DC (October 2014). "Blue: correcting sequencing errors using consensus and context". Bioinformatics. 30 (19): 2723–32. doi:10.1093/bioinformatics/btu368. PMID 24919879.
- ^ Michael I Love; John B Hogenesch; Rafael A Irizarry (2015). "Modeling of RNA-seq fragment sequence bias reduces systematic errors in transcript abundance estimation". bioRxiv 10.1101/025767.
- ^ Hansen KD, Irizarry RA, Wu Z (April 2012). "Removing technical variability in RNA-seq data using conditional quantile normalization". Biostatistics. 13 (2): 204–16. doi:10.1093/biostatistics/kxr054. PMC 3297825. PMID 22285995.
- ^ Risso D, Schwartz K, Sherlock G, Dudoit S (December 2011). "GC-content normalization for RNA-Seq data". BMC Bioinformatics. 12 (1): 480. doi:10.1186/1471-2105-12-480. PMC 3315510. PMID 22177264.
- ^ Stegle O, Parts L, Piipari M, Winn J, Durbin R (February 2012). "Using probabilistic estimation of expression residuals (PEER) to obtain increased power and interpretability of gene expression analyses". Nature Protocols. 7 (3): 500–7. doi:10.1038/nprot.2011.457. PMC 3398141. PMID 22343431.
- ^ Risso D, Ngai J, Speed TP, Dudoit S (September 2014). "Normalization of RNA-seq data using factor analysis of control genes or samples". Nature Biotechnology. 32 (9): 896–902. doi:10.1038/nbt.2931. PMC 4404308. PMID 25150836.
- ^ Meacham F, Boffelli D, Dhahbi J, Martin DI, Singer M, Pachter L (November 2011). "Identification and correction of systematic error in high-throughput sequence data". BMC Bioinformatics. 12 (1): 451. doi:10.1186/1471-2105-12-451. PMC 3295828. PMID 22099972.
- ^ Liu B, Yuan J, Yiu SM, Li Z, Xie Y, Chen Y, Shi Y, Zhang H, Li Y, Lam TW, Luo R (November 2012). "COPE: an accurate k-mer-based pair-end reads connection tool to facilitate genome assembly". Bioinformatics. 28 (22): 2870–4. doi:10.1093/bioinformatics/bts563. PMID 23044551.
- ^ Zhang J, Kobert K, Flouri T, Stamatakis A (March 2014). "PEAR: a fast and accurate Illumina Paired-End reAd mergeR". Bioinformatics. 30 (5): 614–20. doi:10.1093/bioinformatics/btt593. PMC 3933873. PMID 24142950.
- ^ Rodrigue S, Materna AC, Timberlake SC, Blackburn MC, Malmstrom RR, Alm EJ, Chisholm SW (July 2010). "Unlocking short read sequencing for metagenomics". PLOS ONE. 5 (7): e11840. Bibcode:2010PLoSO...511840R. doi:10.1371/journal.pone.0011840. PMC 2911387. PMID 20676378.
- ^ Sangiovanni, Mara; Granata, Ilaria; Thind, Amarinder Singh; Guarracino, Mario Rosario (18 April 2019). "From trash to treasure: detecting unexpected contamination in unmapped NGS data". BMC Bioinformatics. 20 (4): 168. doi:10.1186/s12859-019-2684-x. ISSN 1471-2105. PMC 6472186. PMID 30999839.
- ^ a b Liao Y, Smyth GK, Shi W (May 2013). "The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote". Nucleic Acids Research. 41 (10): e108. doi:10.1093/nar/gkt214. PMC 3664803. PMID 23558742.
- ^ Alamancos GP, Agirre E, Eyras E (2014). "Methods to study splicing from high-throughput RNA sequencing data". Spliceosomal Pre-mRNA Splicing. Methods in Molecular Biology. Vol. 1126. pp. 357–97. arXiv:1304.5952. doi:10.1007/978-1-62703-980-2_26. ISBN 978-1-62703-979-6. PMID 24549677. S2CID 18574607.
- ^ Baruzzo G, Hayer KE, Kim EJ, Di Camillo B, FitzGerald GA, Grant GR (February 2017). "Simulation-based comprehensive benchmarking of RNA-seq aligners". Nature Methods. 14 (2): 135–139. doi:10.1038/nmeth.4106. PMC 5792058. PMID 27941783.
- ^ Campagna D, Telatin A, Forcato C, Vitulo N, Valle G (January 2013). "PASS-bis: a bisulfite aligner suitable for whole methylome analysis of Illumina and SOLiD reads". Bioinformatics. 29 (2): 268–70. doi:10.1093/bioinformatics/bts675. PMID 23162053.
- ^ Ahn J, Xiao X (December 2015). "RASER: reads aligner for SNPs and editing sites of RNA". Bioinformatics. 31 (24): 3906–13. doi:10.1093/bioinformatics/btv505. PMC 4692970. PMID 26323713.
- ^ a b Dobin A, Davis CA, Schlesinger F, Drenkow J, Zaleski C, Jha S, Batut P, Chaisson M, Gingeras TR (January 2013). "STAR: ultrafast universal RNA-seq aligner". Bioinformatics. 29 (1): 15–21. doi:10.1093/bioinformatics/bts635. PMC 3530905. PMID 23104886.
- ^ Trapnell C, Pachter L, Salzberg SL (May 2009). "TopHat: discovering splice junctions with RNA-Seq". Bioinformatics. 25 (9): 1105–11. doi:10.1093/bioinformatics/btp120. PMC 2672628. PMID 19289445.
- ^ Lior Pachter (2011). "Models for transcript quantification from RNA-Seq". arXiv:1104.3889. Bibcode:2011arXiv1104.3889P.
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ Jin H, Wan YW, Liu Z (March 2017). "Comprehensive evaluation of RNA-seq quantification methods for linearity". BMC Bioinformatics. 18 (Suppl 4): 117. doi:10.1186/s12859-017-1526-y. PMC 5374695. PMID 28361706.
- ^ Kvam VM, Liu P, Si Y (February 2012). "A comparison of statistical methods for detecting differentially expressed genes from RNA-seq data". American Journal of Botany. 99 (2): 248–56. doi:10.3732/ajb.1100340. PMID 22268221.
- ^ Dillies MA, Rau A, Aubert J, Hennequet-Antier C, Jeanmougin M, Servant N, Keime C, Marot G, Castel D, Estelle J, Guernec G, Jagla B, Jouneau L, Laloë D, Le Gall C, Schaëffer B, Le Crom S, Guedj M, Jaffrézic F (November 2013). "A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis". Briefings in Bioinformatics. 14 (6): 671–83. doi:10.1093/bib/bbs046. PMID 22988256.
- ^ Evans C, Hardin J, Stoebel DM (September 2018). "Selecting between-sample RNA-Seq normalization methods from the perspective of their assumptions". Briefings in Bioinformatics. 19 (5): 776–792. doi:10.1093/bib/bbx008. PMC 6171491. PMID 28334202.
- ^ Wu Z, Jenkins BD, Rynearson TA, Dyhrman ST, Saito MA, Mercier M, Whitney LP (November 2010). "Empirical bayes analysis of sequencing-based transcriptional profiling without replicates". BMC Bioinformatics. 11: 564. doi:10.1186/1471-2105-11-564. PMC 3098101. PMID 21080965.
- ^ 하지라메자날리, E. & Dadane, S. Z. & Figueredo, P. D. & Sze, S. & Zou, Z.& Qian, X. 감마 마르코프 체인을 이용한 동적 시퀀싱 카운트 데이터의 차등식 해석. arXiv:1803.02527
- ^ a b Trapnell C, Williams BA, Pertea G, Mortazavi A, Kwan G, van Baren MJ, Salzberg SL, Wold BJ, Pachter L (May 2010). "Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation". Nature Biotechnology. 28 (5): 511–5. doi:10.1038/nbt.1621. PMC 3146043. PMID 20436464.
- ^ Klambauer G, Unterthiner T, Hochreiter S (November 2013). "DEXUS: identifying differential expression in RNA-Seq studies with unknown conditions". Nucleic Acids Research. 41 (21): e198. doi:10.1093/nar/gkt834. PMC 3834838. PMID 24049071.
- ^ Vavoulis DV, Francescatto M, Heutink P, Gough J (February 2015). "DGEclust: differential expression analysis of clustered count data". Genome Biology. 16: 39. doi:10.1186/s13059-015-0604-6. PMC 4365804. PMID 25853652.
- ^ Feng J, Meyer CA, Wang Q, Liu JS, Shirley Liu X, Zhang Y (November 2012). "GFOLD: a generalized fold change for ranking differentially expressed genes from RNA-seq data". Bioinformatics. 28 (21): 2782–8. doi:10.1093/bioinformatics/bts515. PMID 22923299.
- ^ Rauschenberger A, Jonker MA, van de Wiel MA, Menezes RX (March 2016). "Testing for association between RNA-Seq and high-dimensional data". BMC Bioinformatics. 17 (118): 118. doi:10.1186/s12859-016-0961-5. PMC 4782413. PMID 26951498.
- ^ Cao M, Zhou, W, Breidt FJ, Peers, G (September 2019). "Large Scale Maximum Average Power Multiple Inference on Time‐Course Count Data with Application to RNA‐Seq Analysis". Biometrics. to appear (1): 9–22. doi:10.1111/biom.13144. PMID 31483480.
- ^ Moulos P, Hatzis P (February 2015). "Systematic integration of RNA-Seq statistical algorithms for accurate detection of differential gene expression patterns". Nucleic Acids Research. 43 (4): e25. doi:10.1093/nar/gku1273. PMC 4344485. PMID 25452340.
- ^ Rauschenberger A, Menezes RX, van de Wiel MA, van Schoor NM, Jonker MA (2018). "Detecting SNPs with interactive effects on a quantitative trait". arXiv:1805.09175 [stat.ME].
- ^ Vera Alvarez R, Pongor LS, Mariño-Ramírez L, Landsman D (June 2019). "TPMCalculator: one-step software to quantify mRNA abundance of genomic features". Bioinformatics. 35 (11): 1960–1962. doi:10.1093/bioinformatics/bty896. PMC 6546121. PMID 30379987.
{{cite journal}}
: CS1 maint: 작성자 매개변수 사용(링크) - ^ Yao L, Wang H, Song Y, Sui G (October 2017). "BioQueue: a novel pipeline framework to accelerate bioinformatics analysis". Bioinformatics. 33 (20): 3286–3288. doi:10.1093/bioinformatics/btx403. PMID 28633441.
- ^ Kartashov AV, Barski A (August 2015). "BioWardrobe: an integrated platform for analysis of epigenomics and transcriptomics data". Genome Biology. 16 (1): 158. doi:10.1186/s13059-015-0720-3. PMC 4531538. PMID 26248465.
- ^ Levin L, Bar-Yaacov D, Bouskila A, Chorev M, Carmel L, Mishmar D (2015). "LEMONS - A Tool for the Identification of Splice Junctions in Transcriptomes of Organisms Lacking Reference Genomes". PLOS ONE. 10 (11): e0143329. Bibcode:2015PLoSO..1043329L. doi:10.1371/journal.pone.0143329. PMC 4659627. PMID 26606265.
- ^ Pundhir S, Gorodkin J (July 2015). "Differential and coherent processing patterns from small RNAs". Scientific Reports. 5: 12062. Bibcode:2015NatSR...512062P. doi:10.1038/srep12062. PMC 4499813. PMID 26166713.
- ^ Rogers, Mark F; Thomas, Julie; Reddy, Anireddy SN; Ben-Hur, Asa (2012). "SpliceGrapher: detecting patterns of alternative splicing from RNA-Seq data in the context of gene models and EST data". Genome Biology. 13 (1): R4. doi:10.1186/gb-2012-13-1-r4. ISSN 1465-6906. PMC 3334585. PMID 22293517.
- ^ Rogers, Mark F.; Boucher, Christina; Ben-Hur, Asa (2013). "SpliceGrapherXT: From Splice Graphs to Transcripts Using RNA-Seq". Proceedings of the International Conference on Bioinformatics, Computational Biology and Biomedical Informatics. BCB'13. New York, NY, USA: ACM: 247:247–247:255. doi:10.1145/2506583.2506625. ISBN 9781450324342. S2CID 15009112.
- ^ Wu J, Akerman M, Sun S, McCombie WR, Krainer AR, Zhang MQ (November 2011). "SpliceTrap: a method to quantify alternative splicing under single cellular conditions". Bioinformatics. 27 (21): 3010–6. doi:10.1093/bioinformatics/btr508. PMC 3198574. PMID 21896509.
- ^ Vitting-Seerup K, Sandelin A (September 2017). "The Landscape of Isoform Switches in Human Cancers". Molecular Cancer Research. 15 (9): 1206–1220. doi:10.1158/1541-7786.mcr-16-0459. PMID 28584021.
- ^ Nowicka M, Robinson MD (6 December 2016). "DRIMSeq: a Dirichlet-multinomial framework for multivariate count outcomes in genomics". F1000Research. 5: 1356. doi:10.12688/f1000research.8900.2. PMC 5200948. PMID 28105305.
- ^ Papastamoulis P, Rattray M (November 2017). "Bayesian estimation of differential transcript usage from RNA-seq data". Statistical Applications in Genetics and Molecular Biology. 16 (5–6): 367–386. arXiv:1701.03095. Bibcode:2017arXiv170103095P. doi:10.1515/sagmb-2017-0005. PMID 29091583. S2CID 915799.
- ^ Shi Y, Chinnaiyan AM, Jiang H (July 2015). "rSeqNP: a non-parametric approach for detecting differential expression and splicing from RNA-Seq data". Bioinformatics. 31 (13): 2222–4. doi:10.1093/bioinformatics/btv119. PMC 4481847. PMID 25717189.
- ^ Jones, Daniel C.; Kuppusamy, Kavitha T.; Palpant, Nathan J.; Peng, Xinxia; Murry, Charles E.; Ruohola-Baker, Hannele; Ruzzo, Walter L. (20 November 2016). "Isolator: accurate and stable analysis of isoform-level expression in RNA-Seq experiments". bioRxiv 10.1101/088765.
- ^ Kumar S, Vo AD, Qin F, Li H (February 2016). "Comparative assessment of methods for the fusion transcripts detection from RNA-Seq data". Scientific Reports. 6 (21587): 21597. Bibcode:2016NatSR...621597K. doi:10.1038/srep21597. PMC 4748267. PMID 26862001.
- ^ Uhrig S, Ellermann J, Walther T, Burkhardt P, Fröhlich M, Hutter B, Toprak UH, Neumann O, Stenzinger A, Scholl C, Fröhling S, Brors B (13 January 2021). "Accurate and efficient detection of gene fusions from RNA sequencing data". Genome Research. 31 (3): 448–460. doi:10.1101/gr.257246.119. PMC 7919457. PMID 33441414.
- ^ Creason A, Haan D, Dang K, Chiotti KE, Inkman M, Lamb A, Yu T, Hu Y, Norman TC, Buchanan A, van Baren J, Spangler R, Rollins MR, Spellman PT, Rozanov D, Zhang J, Maher CA, Caloian C, Watson JD, Uhrig S, Haas BJ, Jain M, Akeson M, Ahsen ME (18 August 2021). "A community challenge to evaluate RNA-seq, fusion detection, and isoform quantification methods for cancer discovery". Cell Systems. 12 (8): 827–838. doi:10.1016/j.cels.2021.05.021. PMC 8376800. PMID 34146471.
- ^ Dehghannasiri R, Freeman DE, Jordanski M, Hsieh GL, Damljanovic A, Lehnert E, Salzman J (July 2019). "Improved detection of gene fusions by applying statistical methods reveals oncogenic RNA cancer drivers". PNAS. 116 (31): 15524–15533. doi:10.1073/pnas.1900391116. PMC 6681709. PMID 31308241.
- ^ Hoogstrate, Youri; Ghisai, Santoesha A; de Wit, Maurice; de Heer, Iris; Draaisma, Kaspar; van Riet, Job; van de Werken, Harmen J G; Bours, Vincent; Buter, Jan; Vanden Bempt, Isabelle; Eoli, Marica (5 October 2021). "The EGFRvIII transcriptome in glioblastoma, a meta-omics analysis". Neuro-Oncology: noab231. doi:10.1093/neuonc/noab231. ISSN 1522-8517. PMID 34608482.
- ^ Wang K, Singh D, Zeng Z, Coleman SJ, Huang Y, Savich GL, He X, Mieczkowski P, Grimm SA, Perou CM, MacLeod JN, Chiang DY, Prins JF, Liu J (October 2010). "MapSplice: accurate mapping of RNA-seq reads for splice junction discovery". Nucleic Acids Research. 38 (18): e178. doi:10.1093/nar/gkq622. PMC 2952873. PMID 20802226.
- ^ Jia W, Qiu K, He M, Song P, Zhou Q, Zhou F, Yu Y, Zhu D, Nickerson ML, Wan S, Liao X, Zhu X, Peng S, Li Y, Wang J, Guo G (February 2013). "SOAPfuse: an algorithm for identifying fusion transcripts from paired-end RNA-Seq data". Genome Biology. 14 (2): R12. doi:10.1186/gb-2013-14-2-r12. PMC 4054009. PMID 23409703.
- ^ Routh A, Johnson JE (January 2014). "Discovery of functional genomic motifs in viruses with ViReMa-a Virus Recombination Mapper-for analysis of next-generation sequencing data". Nucleic Acids Research. 42 (2): e11. doi:10.1093/nar/gkt916. PMC 3902915. PMID 24137010.
- ^ Thind, Amarinder Singh; Monga, Isha; Thakur, Prasoon Kumar; Kumari, Pallawi; Dindhoria, Kiran; Krzak, Monika; Ranson, Marie; Ashford, Bruce (1 November 2021). "Demystifying emerging bulk RNA-Seq applications: the application and utility of bioinformatic methodology". Briefings in Bioinformatics. 22 (6). doi:10.1093/bib/bbab259. ISSN 1477-4054. PMID 34329375.
- ^ Hashimshony T, Wagner F, Sher N, Yanai I (September 2012). "CEL-Seq: single-cell RNA-Seq by multiplexed linear amplification". Cell Reports. 2 (3): 666–73. doi:10.1016/j.celrep.2012.08.003. PMID 22939981.
- ^ Macosko EZ, Basu A, Satija R, Nemesh J, Shekhar K, Goldman M, Tirosh I, Bialas AR, Kamitaki N, Martersteck EM, Trombetta JJ, Weitz DA, Sanes JR, Shalek AK, Regev A, McCarroll SA (May 2015). "Highly Parallel Genome-wide Expression Profiling of Individual Cells Using Nanoliter Droplets". Cell. 161 (5): 1202–1214. doi:10.1016/j.cell.2015.05.002. PMC 4481139. PMID 26000488.
- ^ Marco E, Karp RL, Guo G, Robson P, Hart AH, Trippa L, Yuan GC (December 2014). "Bifurcation analysis of single-cell gene expression data reveals epigenetic landscape". Proceedings of the National Academy of Sciences of the United States of America. 111 (52): E5643-50. Bibcode:2014PNAS..111E5643M. doi:10.1073/pnas.1408993111. PMC 4284553. PMID 25512504.
- ^ Buettner F, Natarajan KN, Casale FP, Proserpio V, Scialdone A, Theis FJ, Teichmann SA, Marioni JC, Stegle O (February 2015). "Computational analysis of cell-to-cell heterogeneity in single-cell RNA-sequencing data reveals hidden subpopulations of cells". Nature Biotechnology. 33 (2): 155–60. doi:10.1038/nbt.3102. PMID 25599176.
- ^ Mohammed MH, Ghosh TS, Singh NK, Mande SS (January 2011). "SPHINX--an algorithm for taxonomic binning of metagenomic sequences". Bioinformatics. 27 (1): 22–30. doi:10.1093/bioinformatics/btq608. PMID 21030462.
- ^ Stubbington MJ, Lönnberg T, Proserpio V, Clare S, Speak AO, Dougan G, Teichmann SA (April 2016). "T cell fate and clonality inference from single-cell transcriptomes". Nature Methods. 13 (4): 329–332. doi:10.1038/nmeth.3800. PMC 4835021. PMID 26950746.
- ^ Eltahla AA, Rizzetto S, Pirozyan MR, Betz-Stablein BD, Venturi V, Kedzierska K, Lloyd AR, Bull RA, Luciani F (July 2016). "Linking the T cell receptor to the single cell transcriptome in antigen-specific human T cells". Immunology and Cell Biology. 94 (6): 604–11. doi:10.1038/icb.2016.16. PMID 26860370. S2CID 25714515.
- ^ Trapnell, Cole. "Monocle 3". cole-trapnell-lab.github.io. Retrieved 23 September 2021.
- ^ Wolf, F. Alexander; Angerer, Philipp; Theis, Fabian J. (6 February 2018). "SCANPY: large-scale single-cell gene expression data analysis". Genome Biology. 19 (1): 15. doi:10.1186/s13059-017-1382-0. PMC 5802054. PMID 29409532.
- ^ "Scanpy – Single-Cell Analysis in Python — Scanpy 1.8.1 documentation". scanpy.readthedocs.io. readthedocs.io. Retrieved 23 September 2021.
- ^ Diaz, Aaron; Liu, Siyuan J.; Sandoval, Carmen; Pollen, Alex; Nowakowski, Tom J.; Lim, Daniel A.; Kriegstein, Arnold (15 July 2016). "SCell: integrated analysis of single-cell RNA-seq data". Bioinformatics. 32 (14): 2219–2220. doi:10.1093/bioinformatics/btw201. PMC 4937196. PMID 27153637.
- ^ Butler, Andrew; Hoffman, Paul; Smibert, Peter; Papalexi, Efthymia; Satija, Rahul (2 April 2018). "Integrating single-cell transcriptomic data across different conditions, technologies, and species". Nature Biotechnology. 36 (5): 411–420. doi:10.1038/nbt.4096. PMC 6700744. PMID 29608179.
- ^ Hao, Yuhan; Hao, Stephanie; Andersen-Nissen, Erica; Mauck, William M.; Zheng, Shiwei; Butler, Andrew; Lee, Maddie J.; Wilk, Aaron J.; Darby, Charlotte; Zager, Michael; Hoffman, Paul; Stoeckius, Marlon; Papalexi, Efthymia; Mimitou, Eleni P.; Jain, Jaison; Srivastava, Avi; Stuart, Tim; Fleming, Lamar M.; Yeung, Bertrand; Rogers, Angela J.; McElrath, Juliana M.; Blish, Catherine A.; Gottardo, Raphael; Smibert, Peter; Satija, Rahul (June 2021). "Integrated analysis of multimodal single-cell data". Cell. 184 (13): 3573–3587.e29. doi:10.1016/j.cell.2021.04.048. PMC 8238499. PMID 34062119.
- ^ Juliá, Miguel; Telenti, Amalio; Rausell, Antonio (15 October 2015). "Sincell : an R/Bioconductor package for statistical assessment of cell-state hierarchies from single-cell RNA-seq: Fig. 1". Bioinformatics. 31 (20): 3380–3382. doi:10.1093/bioinformatics/btv368. PMC 4595899. PMID 26099264.
- ^ Guo M, Wang H, Potter SS, Whitsett JA, Xu Y (November 2015). "SINCERA: A Pipeline for Single-Cell RNA-Seq Profiling Analysis". PLOS Computational Biology. 11 (11): e1004575. Bibcode:2015PLSCB..11E4575G. doi:10.1371/journal.pcbi.1004575. PMC 4658017. PMID 26600239.
- ^ Ilicic, Tomislav; Kim, Jong Kyoung; Kolodziejczyk, Aleksandra A.; Bagger, Frederik Otzen; McCarthy, Davis James; Marioni, John C.; Teichmann, Sarah A. (December 2016). "Classification of low quality cells from single-cell RNA-seq data". Genome Biology. 17 (1): 29. doi:10.1186/s13059-016-0888-1. PMC 4758103. PMID 26887813.
- ^ Leng, Ning; Choi, Jeea; Chu, Li-Fang; Thomson, James A.; Kendziorski, Christina; Stewart, Ron (1 May 2016). "OEFinder: a user interface to identify and visualize ordering effects in single-cell RNA-seq data". Bioinformatics. 32 (9): 1408–1410. doi:10.1093/bioinformatics/btw004. PMC 4848403. PMID 26743507.
- ^ Jiang, Peng; Thomson, James A.; Stewart, Ron (15 August 2016). "Quality control of single-cell RNA-seq by SinQC". Bioinformatics. 32 (16): 2514–2516. doi:10.1093/bioinformatics/btw176. PMC 4978927. PMID 27153613.
- ^ Vallejos, Catalina A.; Marioni, John C.; Richardson, Sylvia (24 June 2015). "BASiCS: Bayesian Analysis of Single-Cell Sequencing Data". PLOS Computational Biology. 11 (6): e1004333. Bibcode:2015PLSCB..11E4333V. doi:10.1371/journal.pcbi.1004333. PMC 4480965. PMID 26107944.
- ^ Ding, Bo; Zheng, Lina; Zhu, Yun; Li, Nan; Jia, Haiyang; Ai, Rizi; Wildberg, Andre; Wang, Wei (1 July 2015). "Normalization and noise reduction for single cell RNA-seq experiments". Bioinformatics. 31 (13): 2225–2227. doi:10.1093/bioinformatics/btv122. PMC 4481848. PMID 25717193.
- ^ Pierson E, Yau C (November 2015). "ZIFA: Dimensionality reduction for zero-inflated single-cell gene expression analysis". Genome Biology. 16 (241): 241. doi:10.1186/s13059-015-0805-z. PMC 4630968. PMID 26527291.
- ^ Vu, Trung Nghia; Wills, Quin F.; Kalari, Krishna R.; Niu, Nifang; Wang, Liewei; Rantalainen, Mattias; Pawitan, Yudi (15 July 2016). "Beta-Poisson model for single-cell RNA-seq data analyses". Bioinformatics. 32 (14): 2128–2135. doi:10.1093/bioinformatics/btw202. PMID 27153638.
- ^ Finak, Greg; McDavid, Andrew; Yajima, Masanao; Deng, Jingyuan; Gersuk, Vivian; Shalek, Alex K.; Slichter, Chloe K.; Miller, Hannah W.; McElrath, M. Juliana; Prlic, Martin; Linsley, Peter S.; Gottardo, Raphael (December 2015). "MAST: a flexible statistical framework for assessing transcriptional changes and characterizing heterogeneity in single-cell RNA sequencing data". Genome Biology. 16 (1): 278. doi:10.1186/s13059-015-0844-5. PMC 4676162. PMID 26653891.
- ^ Kharchenko, Peter V; Silberstein, Lev; Scadden, David T (July 2014). "Bayesian approach to single-cell differential expression analysis". Nature Methods. 11 (7): 740–742. doi:10.1038/nmeth.2967. PMC 4112276. PMID 24836921.
- ^ Chang Z, Li G, Liu J, Zhang Y, Ashby C, Liu D, Cramer CL, Huang X (February 2015). "Bridger: a new framework for de novo transcriptome assembly using RNA-seq data". Genome Biology. 16 (1): 30. doi:10.1186/s13059-015-0596-2. PMC 4342890. PMID 25723335.
- ^ Foroushani A, Agrahari R, Docking R, Chang L, Duns G, Hudoba M, Karsan A, Zare H (March 2017). "Large-scale gene network analysis reveals the significance of extracellular matrix pathway and homeobox genes in acute myeloid leukemia: an introduction to the Pigengene package and its applications". BMC Medical Genomics. 10 (1): 16. doi:10.1186/s12920-017-0253-6. PMC 5353782. PMID 28298217.
- ^ Quek C, Jung CH, Bellingham SA, Lonie A, Hill AF (2015). "iSRAP - a one-touch research tool for rapid profiling of small RNA-seq data". Journal of Extracellular Vesicles. 4: 29454. doi:10.3402/jev.v4.29454. PMC 4641893. PMID 26561006.
- ^ Kuksa PP, Amlie-Wolf A, Katanic Ž, Valladares O, Wang LS, Leung YY (July 2018). "SPAR: small RNA-seq portal for analysis of sequencing experiments". Nucleic Acids Research. 46 (W1): W36–W42. doi:10.1093/nar/gky330. PMC 6030839. PMID 29733404.
- ^ Johnson NR, Yeoh J, Axtell MJ (2016). "Improved Placement of Multi-Mapping Small RNAs". G3. 6 (7): 2103–2111. doi:10.1534/g3.116.030452. PMC 4938663. PMID 27175019.
- ^ Schmid-Burgk JL, Hornung V (November 2015). "BrowserGenome.org: web-based RNA-seq data analysis and visualization". Nature Methods. 12 (11): 1001. doi:10.1038/nmeth.3615. PMID 26513548. S2CID 205424303.
- ^ Milne I, Stephen G, Bayer M, Cock PJ, Pritchard L, Cardle L, Shaw PD, Marshall D (March 2013). "Using Tablet for visual exploration of second-generation sequencing data". Briefings in Bioinformatics. 14 (2): 193–202. doi:10.1093/bib/bbs012. PMID 22445902.
- ^ Pirayre A, Couprie C, Duval L, Pesquet JC (2017). "BRANE Clust: Cluster-Assisted Gene Regulatory Network Inference Refinement" (PDF). IEEE/ACM Transactions on Computational Biology and Bioinformatics (Submitted manuscript). 15 (3): 850–860. doi:10.1109/TCBB.2017.2688355. PMID 28368827. S2CID 12866368.
- ^ Pirayre A, Couprie C, Bidard F, Duval L, Pesquet JC (November 2015). "BRANE Cut: biologically-related a priori network enhancement with graph cuts for gene regulatory network inference". BMC Bioinformatics. 16: 368. doi:10.1186/s12859-015-0754-2. PMC 4634801. PMID 26537179.
- ^ Luo W, Friedman MS, Shedden K, Hankenson KD, Woolf PJ (May 2009). "GAGE: generally applicable gene set enrichment for pathway analysis". BMC Bioinformatics. 10 (161): 161. doi:10.1186/1471-2105-10-161. PMC 2696452. PMID 19473525.
- ^ Subhash S, Kanduri C (September 2016). "GeneSCF: a real-time based functional enrichment tool with support for multiple organisms". BMC Bioinformatics. 17 (1): 365. doi:10.1186/s12859-016-1250-z. PMC 5020511. PMID 27618934.
- ^ Rue-Albrecht K (2014). "Visualise microarray and RNAseq data using gene ontology annotations. R package version 1.4.1".
{{cite journal}}
:Cite 저널은 필요로 한다.journal=
(도움말) - ^ Young MD, Wakefield MJ, Smyth GK, Oshlack A (2010). "Gene ontology analysis for RNA-seq: accounting for selection bias". Genome Biology. 11 (2): R14. doi:10.1186/gb-2010-11-2-r14. PMC 2872874. PMID 20132535.
- ^ Xiong Q, Mukherjee S, Furey TS (September 2014). "GSAASeqSP: a toolset for gene set association analysis of RNA-Seq data". Scientific Reports. 4 (6347): 6347. Bibcode:2014NatSR...4E6347X. doi:10.1038/srep06347. PMC 4161965. PMID 25213199.
- ^ Hänzelmann S, Castelo R, Guinney J (January 2013). "GSVA: gene set variation analysis for microarray and RNA-seq data". BMC Bioinformatics. 14 (17): 7. doi:10.1186/1471-2105-14-7. PMC 3618321. PMID 23323831.
- ^ Zhou YH (March 2016). "Pathway analysis for RNA-Seq data using a score-based approach". Biometrics. 72 (1): 165–74. doi:10.1111/biom.12372. PMC 4992401. PMID 26259845.
- ^ Ihnatova I, Budinska E (October 2015). "ToPASeq: an R package for topology-based pathway analysis of microarray and RNA-Seq data". BMC Bioinformatics. 16 (350): 350. doi:10.1186/s12859-015-0763-1. PMC 4625615. PMID 26514335.
- ^ Van Bel M, Proost S, Van Neste C, Deforce D, Van de Peer Y, Vandepoele K (December 2013). "TRAPID: an efficient online tool for the functional and comparative analysis of de novo RNA-Seq transcriptomes". Genome Biology. 14 (12): R134. doi:10.1186/gb-2013-14-12-r134. PMC 4053847. PMID 24330842.
- ^ de Jong A, van der Meulen S, Kuipers OP, Kok J (September 2015). "T-REx: Transcriptome analysis webserver for RNA-seq Expression data". BMC Genomics. 16 (663): 663. doi:10.1186/s12864-015-1834-4. PMC 4558784. PMID 26335208.
- ^ Zhang Y, Chen K, Sloan SA, Bennett ML, Scholze AR, O'Keeffe S, Phatnani HP, Guarnieri P, Caneda C, Ruderisch N, Deng S, Liddelow SA, Zhang C, Daneman R, Maniatis T, Barres BA, Wu JQ (September 2014). "An RNA-sequencing transcriptome and splicing database of glia, neurons, and vascular cells of the cerebral cortex". The Journal of Neuroscience. 34 (36): 11929–47. doi:10.1523/JNEUROSCI.1860-14.2014. PMC 4152602. PMID 25186741.
- ^ Wang Y, Wu N, Liu J, Wu Z, Dong D (July 2015). "FusionCancer: a database of cancer fusion genes derived from RNA-seq data". Diagnostic Pathology. 10 (131): 131. doi:10.1186/s13000-015-0310-4. PMC 4517624. PMID 26215638.
- ^ Franzén O, Gan LM, Björkegren JL (January 2019). "PanglaoDB: a web server for exploration of mouse and human single-cell RNA sequencing data" (PDF). Database. 2019. doi:10.1093/database/baz046. PMC 6450036. PMID 30951143.