일반 피쳐 형식

General feature format
일반 피쳐 형식
파일 이름 확장명
.gff
인터넷 미디어 유형
text/gff3
개발자Sanger Centre (v2), Sequence Ontology Project (v3)
형식 유형생물정보학
연장 위치탭 구분 값
오픈 포맷?
웹사이트github.com/The-Sequence-Ontology/Specifications/blob/master/gff3.md

생물정보학에서 일반 형상 형식(gene-finding 형식, generic feature 형식, GFF)은 유전자DNA, RNA단백질 배열의 다른 특징을 기술하는 데 사용되는 파일 형식이다.

GFF 버전

다음과 같은 GFF 버전이 존재한다.

GFF2/GTF는 여러 가지 결함을 가지고 있었는데, 특히 두 가지 수준의 기능 계층 구조만을 나타낼 수 있어 유전자 → 대조군 → exon의 3단계 계층 구조를 처리할 수 없다는 점이 눈에 띄었다.GFF3는 이것과 다른 결함을 해결한다.예를 들어 임의로 많은 계층적 수준을 지원하며, 속성 필드의 특정 태그에 특정한 의미를 부여한다.

GTF는 GFF 버전 2와 동일하다.[1]

GFF 일반 구조물

모든 GFF 형식(GFF2, GFF3, GTF)은 한 줄에 9개의 필드로 구분되어 으로 구분된다.9번 영역의 내용과 형식은 다르지만 모두 처음 7개 분야에 대해 동일한 구조를 공유하고 있다.일부 필드명은 혼란을 피하기 위해 GFF3에서 변경되었다.예를 들어, 이전에 "seqid" 필드를 "시퀀스"라고 불렀는데, 이것은 뉴클레오티드나 아미노산 체인과 혼동될 수 있다.일반적인 구조는 다음과 같다.

일반 GFF3 구조
포지션 인덱스 포지션명 설명
1 세키드 형상이 위치한 시퀀스의 이름.
2 출처 프로그램(: Augustus 또는 RepeatMasker) 또는 조직(TAIR과 같은)과 같은 기능의 출처를 식별하는 키워드.
3 타자를 치다 형상 유형 이름(예: "gene" 또는 "exon").잘 구성된 GFF 파일에서 모든 자식 기능은 항상 부모님의 한 블록을 따른다(따라서 대본의 모든 exon들은 부모님의 "변환" 특징줄 뒤에 다른 부모 대본 줄 앞에 놓인다).GFF3에서 모든 특징과 그 관계는 Sequence Ontology Project에서 발표한 표준과 호환되어야 한다.
4 출발하다 형상의 게놈식 시작(기본 오프셋 포함)이는 BED와 같은 다른 0-오프셋 하프오픈 시퀀스 형식과는 대조적이다.
5 종지부를 찍다 형상의 게놈 끝, 1 베이스 오프셋 포함.이것은 BED와 같이 0-오프셋 반오픈 시퀀스 형식과 동일한 엔드 좌표다.[citation needed]
6 점수를 매기다 일반적으로 주석이 달린 형상에서 소스의 신뢰도를 나타내는 숫자 값.null 값을 정의하기 위해 "."(점)의 값을 사용한다.
7 가닥을 잡다 형상의 가닥을 나타내는 단일 문자. "+"(양수, 또는 5'->3') "-"(음수, 또는 3'->5')의 값을 가정할 수 있다.
8 단계적 CDS 기능의 위상. 0, 1, 2(CDS 기능의 경우) 또는 "."(다른 모든 경우) 중 하나일 수 있다.자세한 설명은 아래 절을 참조하십시오.
9 특성 이 기능과 관련된 기타 모든 정보이 필드의 형식, 구조 및 내용은 세 가지 경쟁 파일 형식 간에 가장 많은 차이를 보인다.

8번째 필드: CDS 기능의 단계

간단히 말해서 CDS는 "코딩 시퀀스"를 의미한다.이 용어의 정확한 의미는 시퀀스 온톨로지(SO)에 의해 정의된다.GFF3 규격에 따라:[2][3]

CDS 유형의 형상의 경우 위상은 형상이 판독 프레임을 기준으로 시작하는 위치를 표시한다.위상은 정수 0, 1 또는 2 중 하나로, 다음 코돈의 첫 번째 베이스에 도달하기 위해 이 형상의 시작부터 제거해야 하는 베이스의 수를 나타낸다.

메타 지시문

GFF 파일에서는 ## 지시 뒤에 추가 메타 정보가 포함될 수 있다.이 메타 정보는 GFF 버전, 시퀀스 영역 또는 종을 상세히 기술할 수 있다(시퀀스 온톨로지 사양에서 메타 데이터 유형의 전체 목록을 찾을 수 있다).

GFF 소프트웨어

서버

이 형식을 생성하는 서버:

서버 예제 파일
유니프로트 [1]

클라이언트

다음 형식을 사용하는 클라이언트:

이름 설명 링크
GBrowse GMOD 게놈 뷰어 GBrowse
IGB 통합 게놈 브라우저 통합 게놈 브라우저
잘뷰 다중 시퀀스 정렬 편집기 & 뷰어 잘뷰
스트랩 여러 선형에서 시퀀스 피쳐 밑줄 긋기.예제 출력: [2] [3]
제이브로즈 JBrowse는 JavaScript와 HTML5로 완벽하게 구축된 빠르고 임베디드 가능한 게놈 브라우저다. JBrowse.org
젠부 협업적인 오믹스 데이터 통합 및 대화형 시각화 시스템 [4]

확인

MODENCODE 프로젝트는 286.10MB와 1,500만 회선의 넉넉한 한도를 가진 온라인 GFF3 검증 도구를 호스트한다.

게놈 도구 소프트웨어 컬렉션에는 GFF3 파일을 검증하고 정리하는 데 오프라인에서 사용할 수 있는 gff3validator 도구가 포함되어 있다.온라인 검증 서비스도 이용할 수 있다.

참고 항목

참조

  1. ^ GFF/GTF 정보, 앙상블에서
  2. ^ "GFF3 specification". GitHub. 2018-11-24.
  3. ^ "Gff3 - Gmod".