가중치 중위수

Weighted median
상단 차트는 높이로 표시된 값과 빨간색으로 표시된 중위수 요소의 목록을 보여준다. 아래 차트는 상자의 너비로 표시된 것과 같은 가중치를 가진 동일한 요소를 보여준다. 가중치 중위수는 빨간색으로 표시되며 일반 중위수와 다르다.

통계에서 표본의 가중치 중위수는 50% 가중치 백분위수다.[1][2][3] 1888년 F. Y. 엣지워스에 의해 처음 제안되었다.[4][5] 중위수와 마찬가지로 특이치에 대해 강한 중심 경향의 추정치로 유용하다. 그것은 예를 들어 표본의 다양한 정밀 측정과 관련된 불균일 통계 가중치를 허용한다.

정의

일반사례

For distinct ordered elements with positive weights such that , the weighted median 원소 충족 여부

= - i 1/ \sum \sum \sum \ =k+ / \sum +1}

특수 케이스

두 가지 요소가 일반적인 경우를 만족시키는 요소 집합을 고려하십시오. 이는 두 요소의 각 가중치가 캡슐화하지 않고 가중치 집합의 중간점에 근접할 때 발생한다. 오히려 각 요소는 1/1과 같은 파티션을 정의한다 이러한 요소를 낮은 가중치 중위수 및 상한 가중치 중위수라고 한다. 그들의 조건은 다음과 같이 충족된다.

가중치가 낮은 중위수

= - < / \sum = + = / }

가중치 상한 중위수

= - = / \sum } 및 = + < / }

이상적으로는 가중치가 높은 중위수와 낮은 중위수의 평균을 사용하여 새로운 요소가 생성되고 가중치가 0으로 할당된다. 이 방법은 짝수 집합의 중위수를 찾는 것과 비슷하다. 이 칸막이 점의 어느 한 쪽에 대한 가중치의 합이 같기 때문에 새 요소는 진정한 중위수가 될 것이다.
응용 프로그램에 따라 새로운 데이터를 만들 수 없거나 현명하지 못할 수 있다. 이 경우, 어떤 요소가 파티션을 가장 동일하게 유지하는지 기준으로 가중치를 부여한 중앙값을 선택해야 한다. 이것은 항상 가장 낮은 중량의 가중치 중위수가 될 것이다.
가중치가 높은 중위수와 낮은 중위수가 동일한 경우, 일반적으로 가중치가 낮은 중위수는 Edgeworth가 원래 제안한 대로 허용된다.[6]

특성.

두 칸막이의 가중치 합계는 가능한 한 같아야 한다.

집합에 포함된 모든 숫자의 가중치가 같으면 가중치 중위수가 중위수까지 감소한다.

단순성을 위해각 번호에가중치가 0 0 .2 0. 0.2; 0.; 0.2 0.3.20.15.2;0.2;0의 숫자 집합을 고려하십시오. 중위수는 3이고 가중치 중위수는 가중치 0.3에 해당하는 원소, 즉 4이다. 피벗의 각 측면에 있는 중량은 최대 0.45와 0.25로, 각 측면은 가능한 한 균등하다는 일반적인 조건을 만족한다. 다른 중량은 피벗의 각 측면 사이에 더 큰 차이를 야기할 수 있다.

번호에 동일한 가중치가{ 0.. 0.25} 을(를) 각각 갖는숫자 집합을 고려하십시오. 가중치가 같을 경우 가중치 중위수가 중위수와 같아야 한다. 이 중위수는 짝수 집합이기 때문에 2.5이다. 가중치가 낮은 중위수는 파티션 합계가 0.25와 0.5인 2이고 가중치가 높은 중위수는 파티션 합계가 0.5와 0.25인 3이다. 이러한 파티션은 각각 각각의 특수한 조건과 일반적인 조건을 만족시킨다. 가중치가 높은 상·하한 중위수가 존재할 때 평균을 취함으로써 새로운 피벗을 도입하는 것이 이상적이다. 이와 함께 숫자 집합은각각0. 0 0. 0.25 0. 0.25 {\0.25;0이다. 이것은 둘 다 0.5에 해당하는 파티션을 만든다. 가중치 중위수와 가중치 중위수가 동일한 가중치를 가진 모든 크기 집합에 대해 동일하다는 것을 쉽게 알 수 있다.

마찬가지로 각 번호에 각각 가중치가{0.. 0.25 {\.010.25;\} {\.49.010.;\}}의 숫자 집합을 고려하십시오. 가중치가 낮은 중위수는 파티션 합계가 0.49와 0.5인 2이고 가중치가 높은 중위수는 파티션 합계가 0.5와 0.25인 3이다. 정수 또는 비간격 측정으로 작업하는 경우, 가중치가 낮은 중위수는 쌍의 저중량이기 때문에 가장 균등하게 파티션을 유지하므로 허용된다. 그러나 대신 이 가중치 있는 중위수의 평균을 취하는 것이 더 이상적이다. 공교롭게도 가중치 중위수와 중위수 모두 2.5와 같으나, 가중치 분포에 따라 더 큰 집합의 경우 이 값이 항상 참인 것은 아니다.

알고리즘.

가중치 중위수는 숫자 집합을 정렬하고 총 중량의 절반에 해당하는 가장 작은 숫자를 찾아 계산할 수 있다. 이 알고리즘에는 ) n시간이 소요된다. 수정된 선택 알고리즘을 사용하여 가중치 중위수를 찾는 더 나은 방법이 있다.[1]

// 주 통화는 WeightedMedian(a, 1, n) // 중위수 하한 반환 웨이트메디언(a[1..n], p, r)     // 단일 요소의 기본 케이스     만일 r = p 그때         돌아오다 a[p]     // 두 요소에 대한 베이스 케이스     // 두 후보의 가중치가 같을 경우 평균을 반환하도록 함     만일 r-p = 1 그때         만일 a[p].w == a[r].w             돌아오다 (a[p] + a[r])/2         만일 a[p].w > a[r].w             돌아오다 a[p]         다른              돌아오다 a[r]     // 피벗 r 주위의 파티션     q = 칸막이를 치다(a, p, r)     wl, wg = 합계를 내다 역기  칸막이 (p, q-1), (q+1, r)     // 파티션이 균형을 이룬다면 우리는 끝이다.     만일 wl 그리고 wg 둘 다 < 1/2 그때         돌아오다 a[q]     다른         // 제거된 파티션 양만큼 피벗 무게 증가         만일 wl > wg 그때             a[q].w += wg             // 피벗에서 포괄적으로 반복              웨이트메디언(a, p, q)         다른             a[q].w += wl             웨이트메디언(a, q, r) 

소프트웨어/소스 코드

  • Robustats Python 패키지의 Python에 대한 C 확장에서 고속 가중 중앙 알고리즘이 구현된다.
  • R은 다음을 포함한 많은 구현을 가지고 있다. matrixStats::weightedMedian(), spatstat::weighted.median(), 그리고 다른 사람들.[7]

참고 항목

참조

  1. ^ a b Cormen, Thomas H.; Leiserson, Charles E.; Rivest, Ronald L.; Stein, Clifford (2001). Introduction to Algorithms. ISBN 9780262032933.
  2. ^ Horowitz, Ellis; Sahni, Sartaj; Rajasekaran, Sanguthevar (1996-12-15). Computer Algorithms C++: C++ and Pseudocode Versions. ISBN 9780716783152.
  3. ^ Bovik, Alan C (2010-07-21). Handbook of Image and Video Processing. ISBN 9780080533612.
  4. ^ Edgeworth, F. Y. (1888). "On a New Method of Reducing Observations Relating to Several Quantities". Philosophical Magazine. 25 (154): 184–191. doi:10.1080/14786448808628170.
  5. ^ Edgeworth, F. Y. (1887). "On Observations Relating to Several Quantities". Hermathena. Trinity College Dublin. 6 (13): 279–285. JSTOR 23036355.
  6. ^ Lange, Kenneth (15 June 2010). Numerical Analysis for Statisticians (second ed.). Springer. p. 313. ISBN 978-1-4419-5944-7.
  7. ^ 가중.중간() 함수가 있는가?