N50, L50 및 관련 통계

N50, L50, and related statistics

계산 생물학에서 N50L50콘티그 또는 비계 길이의 통계량이다.N50은 길이의 평균이나 중위수와 비슷하지만 긴 대칭에 주어진 가중치가 더 크다.그것은 게놈 조립에 널리 사용되며, 특히 초안 조립체의 길이와 관련하여 사용된다.관련 U50, UL50, UG50, UG50, UG50, N90, NG50, D50 통계도 있다.

바이러스성 및 미생물 데이터 집합에 대한 어셈블리 출력에 대한 더 나은 평가를 제공하기 위해 U50이라는 새로운 측정 기준을 사용해야 한다.U50은 참조 게놈을 기준으로 하여 N50 메트릭스에 내재된 일부 제한을 우회하는 것을 목표로 하여 고유한 표적별 콘티그를 식별한다.U50 메트릭스를 사용하면 오버랩되지 않는 고유한 콘티그만 분석하여 조립 성능을 보다 정확하게 측정할 수 있다.대부분의 바이러스 및 미생물 염기서열은 높은 배경 잡음(즉, 숙주 및 기타 비표적)을 가지며, 이는 왜곡되고 잘못 전달된 N50 값을 갖는 데 기여한다. 이는 U50에 의해 수정된다.[1]

정의

N50

N50 통계량은 조립품 품질을 근사성 측면에서 정의한다.일련의 콘티그를 주어진 N50은 전체 게놈 길이의 50%로 가장 짧은 콘티그의 시퀀스 길이로 정의된다.그것은 분포 질량의 절반의 점이라고 생각할 수 있다. N50보다 긴 모든 경합에서 나오는 베이스 수는 N50보다 짧은 모든 경합에서 나오는 베이스 수에 근접할 것이다.예를 들어 길이가 2,3,4,5,6,7,8,9,10인 9개의 콘티그를 생각해 보십시오. 합계는 54이고, 합계의 절반은 27이며, 게놈의 크기도 54입니다. 이 어셈블리의 50%는 10 +9 + 8 = 27(순서의 길이 절반)이 될 것이다.따라서 N50=8은 더 큰 콘티그와 함께 특정 게놈의 배열의 절반을 포함하는 콘티그 크기다.참고: 다른 어셈블리의 N50 값을 비교할 때, N50이 의미 있게 되려면 어셈블리 크기가 동일해야 한다.

N50은 전체 어셈블리의 50%가 이 값과 같거나 더 큰 콘티그 또는 비계에 포함되는 가중 중위수 통계량이라고 설명할 수 있다.

L50

각각의 길이를 가진 일련의 콘티그에 대해, L50은 길이 합이 게놈 크기의 절반을 차지하는 최소 수의 콘티그로 정의된다.위의 예에서 L50=3.

N90년

N90 통계량N50 통계량보다 작거나 같으며, 이 통계량은 해당 길이 이상의 모든 연속체의 집합이 모든 연속 길이의 합계의 최소 90%를 포함하는 길이이다.

NG50

N50은 게놈 크기보다는 조립품 크기의 맥락에서 계산된다는 점에 유의하십시오.따라서 길이가 상당히 다른 어셈블리에서 도출된 N50 값의 비교는 동일한 게놈이라도 일반적으로 유용하지 않다.이 문제를 해결하기 위해, Assemblathon 대회의 저자들은 NG50이라는 새로운 방법을 고안했다.NG50 통계량은 NG50 길이 이상이어야 하는 알려진 게놈 크기 또는 추정 게놈 크기의 50%라는 점을 제외하면 N50과 동일하다.이것은 다른 조립품들 간의 의미 있는 비교를 가능하게 한다.일반적으로 어셈블리 크기가 게놈 크기보다 크지 않은 경우 NG50 통계량은 N50 통계량보다 크지 않을 것이다.

D50

D50 통계량(D50 검정이라고도 함)은 일반적으로 게놈 어셈블리를 설명하는 데 사용되지 않지만 정의상 N50 통계량과 유사하다.D50 통계량은 가장 큰 d 길이의 합계가 모든 길이의 합계의 최소 50%인 가장 낮은 값 d이다.[2]

U50

U50은 U50 이상의 크기에 포함된 모든 고유 대상별 콘티그의 합계의 50%가 포함될 정도로 가장 작은 콘티그의 길이다.[1]

UL50

UL50은 길이 합이 U50을 생성하는 콘티그의 수입니다.

UG50

UG50은 참조 게놈의 50%가 UG50 크기 이상의 고유 표적 특이적 콘티그에 포함될 정도로 가장 작은 콘티그의 길이다.

UG50%

UG50%는 참조 게놈의 길이와 직접 관련하여 UG50의 추정 커버리지 길이다.계산은 (100 × (UG50/Length of reference genome)이다.UG50%는 백분율 기반 메트릭으로서 서로 다른 샘플 또는 스터디의 어셈블리 결과를 비교하는 데 사용할 수 있다.

두 개의 다른 종에서 파생된 두 개의 가상적이고 고도로 단순화된 게놈 조립체 A와 B를 생각해 보라.어셈블리 A에는 길이가 80kbp, 70kbp, 50kbp, 40kbp, 30kbp 및 20kbp인 6개의 콘티그가 포함되어 있다.조립품 A의 총 크기는 290 kbp, 80 + 70이 290의 50%보다 크므로 N50 contig 길이는 70 kbp, L50 contig count는 2 contigs이다.어셈블리 B의 컨티그 길이는 10 kbp와 5 kbp의 길이를 가진 두 개의 추가 콘티그가 있는 것을 제외하고 어셈블리 A의 컨티그 길이와 동일하다.조립품 B의 크기는 305kbp이고, N50 contig 길이는 80 + 70 + 50이 305의 50%보다 크므로 50 kbp로 떨어지고, L50 contig count는 3 contigs이다.이 예는 조립체에서 일부 최단 콘티그 또는 비계를 제거함으로써 때때로 N50 길이를 증가시킬 수 있음을 보여준다.

가상의 종인 A로부터 추정되거나 알려진 게놈 크기가 500kbp인 경우 NG50 콘티그 길이는 30kbp이다. 왜냐하면 80 + 70 + 50 + 40 + 30은 500의 50%보다 크기 때문이다.이와는 대조적으로, 종 B로부터 추정되거나 알려진 게놈 크기가 350 kbp일 경우, 80 + 70 + 50이 350의 50%보다 크기 때문에 NG50 contig 길이가 50 kbp이다.

대체 연산

N50은 다음과 같은 양의 정수의 L 리스트에 대해 수학적으로 찾을 수 있다.

  1. L의 모든 요소 n이 자체의 n개의 복사본으로 대체되었다는 점을 제외하고 L과 동일한 다른 목록 L'을 만드십시오.
  2. L'의 중위수는 LN50이다(L'의 10% 퀀텀N90 통계량이다).

예를 들어 L = (2, 2, 3, 3, 4, 8, 8)이면 L'은 2의 6개, 3의 6개, 4의 4개, 8의 16개로 구성된다.즉, L'L보다 2배, L보다 3배, 4배 등 3배이다.32개 요소 집합 L'의 중위수는 16번째 가장 작은 원소인 4와 17번째 가장 작은 원소인 8의 평균이므로 N50은 6이다.목록 L에서 N50보다 작거나 같은 모든 값의 합은 16 = 2+2+2+3+4이고 목록 L에서 6보다 크거나 같은 모든 값의 합은 16 = 8+8임을 알 수 있다.6의 N50과 비교하기 위해 목록 L의 평균은 4이고 중위수는 3이다.좀 더 시각적으로 요약하면 다음과 같다.

Values of the list L = (2, 2, 2, 3, 3, 4, 8, 8)

Values of the new list L' = (2 2 2 2 2 2 3 3 3 3 3 3 4 4 4 4 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8 8)

Ranks of L' values = 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32

참조

  1. ^ a b Castro, Christina J.; Ng, Terry Fei Fan (November 2017). "U50: A New Metric for Measuring Assembly Output Based on Non-Overlapping, Target-Specific Contigs". Journal of Computational Biology. 24 (11): 1071–1080. doi:10.1089/cmb.2017.0013. PMC 5783553. PMID 28418726.
  2. ^ Han, J.; Sanders, C. M.; Wang, C.; Yang, Q.; Wimbish, J.; Boone, B. E.; Thomas, S. J.; Levy, S.E. (25 September 2012). Measurement of T cell repertoire diversity in the peripheral blood by novel multiplex PCR and high-performance sequencing methods. MipTec. Basel Switzerland. Archived from the original on 5 October 2015. Retrieved 5 October 2015.

참고 항목

외부 링크

  • contig_info: N(G)50, N(G)75, N(G)90, L(G)50, L(G)75, L(L(G)90, AUN 등 콘티그 시퀀스에서 표준 기술 통계량을 추정하는 도구.