Mann-Whitney U 검정

Mann–Whitney U test

통계학에서 맨-휘트니 U 검정(Man-Whitney U test)은 맨-휘트니 U 검정(Man-Whitney U test)이라고도 합니다.Wilcoxon(MWW/MWU), Wilcoxon 순위검정 또는 Wilcoxon–Mann–Whitney 검정은 두 모집단에서 무작위로 선택된 값 XY에 대해 XY보다 클 확률이 X보다 클 확률과 같다는 귀무 가설비모수 검정입니다.

종속 표본 두 개에 사용되는 비모수 검정은 부호 검정과 Wilcoxon 부호 순위 검정입니다.

가정 및 가설의 형식적 진술

비록 Henry Mann과 Donald Ransom Whitney가[1] 연속 반응 가정 하에 Mann-Whitney U 검정을 개발했지만, 한 분포가 다른 분포보다 확률적으로 크다는 대안적인 가설을 가지고 있습니다. Mann-Whitney U 검정이 유효한 검정을 제공하도록 귀무 가설 및 대안 가설을 공식화하는 다른 많은 방법이 있습니다.[2]

매우 일반적인 공식은 다음과 같습니다.

  1. 두 그룹의 모든 관측치는 서로 독립적입니다.
  2. 반응은 적어도 순서형입니다(즉, 적어도 두 관측치 중 어느 것이 더 큰지 말할 수 있습니다).
  3. 귀무0 가설 H 하에서 두 모집단의 분포는 동일합니다.[3]
  4. 대립 가설 H1 분포가 동일하지 않다는 것입니다.

일반적1 공식에서 테스트는 H 아래에서 다음이 발생할 때만 일관됩니다.

  1. 모집단 X의 관측치가 모집단 Y의 관측치를 초과할 확률은 Y의 관측치가 X의 관측치를 초과할 확률보다 다릅니다(larger 또는 더 작음). 즉, P(X > Y) ≠ P(Y > X) 또는 P(X > Y) + 0.5 · P(X = Y) ≠ 0.5입니다.

위의 일반적인 공식보다 더 엄격한 가정 하에서, 예를 들어 응답이 연속적이라고 가정하고 대안이 위치 이동(: F(x) = F(x + δ)으로 제한되는 경우 유의한 Mann-Whitney U 검정을 중위수의 차이를 나타내는 것으로 해석할 수 있습니다. 이 위치 이동 가정 하에서, 우리는 또한 Mann-Whitney U 검정을 호지스- 여부를 평가하는 것으로 해석할 수 있습니다.두 모집단 사이의 중심 성향의 차이에 대한 Lehmann 추정치는 0과 다릅니다. 호지스-이 두 표본 문제에 대한 Lehmann 추정치는 첫 번째 표본의 관측치와 두 번째 표본의 관측치 사이의 가능한 모든 차이의 중위수입니다.

그렇지 않으면 두 표본 분포의 분산과 모양이 모두 다른 경우 Mann-Whitney U 검정은 중위수 검정에 실패합니다. 검정이 작은 p-값으로 귀무 가설을 기각하는 동안 중위수가 수치적으로 동일한 예제를 보여줄 수 있습니다.[4]

Mann-Whitney U 검정 / Wilcoxon 순위 합 검정은 Wilcoxon 부호 순위 검정과 동일하지 않지만 둘 다 비모수적이고 순위의 합산을 포함합니다. Mann-Whitney U 검정은 독립적인 표본에 적용됩니다. Wilcoxon 부호 순위 검정은 일치하거나 종속된 표본에 적용됩니다.

U통계

Let be an i.i.d. sample from , and an i.i.d. sample from , and both samples independent of each other. 해당 Mann-Whitney U 통계량은 다음 중 작은 것으로 정의됩니다.

와 함께

각각 그룹 1 및 그룹 2의 순위의 합입니다.

ROC 곡선에 대한 AUC(Area-under Curve) 통계량

U 통계는 수신기 작동 특성 곡선(AUC) 아래 영역과 관련이 있습니다.[8]

이것은 위 섹션의 공통 언어 효과 크기와 동일한 정의입니다. 즉, 분류기가 무작위로 선택된 긍정적인 인스턴스를 무작위로 선택된 부정적인 인스턴스보다 더 높은 순위를 매길 확률입니다('긍정적'이 '부정적'보다 더 높은 순위를 매길 경우).[9]

확률적 형태 때문에 U 통계량은 두 개 이상의 클래스에 대한 분류기의 분리력 측도로 일반화할 수 있습니다.[10]

여기서 c는 클래스의 수이고, AUC의 R항은 클래스 k에 속하는 항목의 확률에 대한 분류자의 추정에 따라 클래스 k 및 ℓ에 속하는 항목의 순위만을 고려합니다(즉, 다른 모든 클래스에 속하는 항목은 무시됨). AUC는 항상 0이지만 두 클래스의 경우와 달리 일반적으로 AUC ≠ AUC를 ℓ하므로 M 측도가 AUC와 AUC의 평균을 사용하여 전체 (k, ℓ) 쌍을 합산합니다.

계산

검정에는 귀무 가설에 따른 분포가 알려진 U(일반적으로 U)라는 통계량의 계산이 포함됩니다. 작은 표본의 경우 분포를 표로 나타내지만 ~20 이상의 표본 크기의 경우 정규 분포를 사용한 근사치가 상당히 좋습니다. 일부 책에서는 U 자체가 아니라 표본 중 하나의 순위 합과 같이 U에 해당하는 통계량을 표로 표시합니다.

Mann-Whitney U 검정은 대부분의 최신 통계 패키지에 포함되어 있습니다. 또한 특히 작은 샘플의 경우 손으로 쉽게 계산할 수 있습니다. 두 가지 방법이 있습니다.

방법 1:

두 개의 작은 관측치 집합을 비교하기 위해 직접적인 방법은 빠르고 U 통계량의 의미에 대한 통찰력을 제공하며, 이는 모든 쌍별 경기 중 승리 횟수에 해당합니다(아래 예제의 거북이 및 토끼 예제 참조). 한 집합의 각 관측치에 대해 이 첫 번째 값이 다른 집합의 관측치에 대해 승리하는 횟수를 계산합니다(이 첫 번째 값이 크면 다른 값이 손실됨). 모든 넥타이에 대해 0.5를 세십시오. 승리와 무승부의 합은 U입니다(즉: 1 첫 세트입니다. 다른 집합의 U는 그 반대입니다(즉,:

방법 2:

더 큰 표본의 경우:

  1. 가장 작은 값에 대해 1부터 시작하여 모든 관측치에 숫자 순위를 할당합니다(두 그룹의 관측치를 한 집합에 배치). 동점 값 그룹이 있는 경우 (3, 5, 5, 5, 5, 8)의 순위는 (1, 3.5, 3.5, 3.5, 3.5, 3.5, 3.5, 3.5, 3.5, 6)이며, 여기서 조정되지 않은 순위는 (1, 2, 3, 4, 5, 6)입니다.
  2. 이제 표본 1에서 나온 관측치에 대한 순위를 합합니다. 이제 모든 순위의 이 N(N + 1)/2와 같으므로 표본 2의 순위의 합이 결정됩니다. 여기서 N은 총 관측치 수입니다.
  3. U는 다음과 같습니다.[11]
여기서 n1 표본 1의 표본 크기이고 R1 표본 1의 순위의 합입니다.
두 샘플 중 어떤 샘플이 샘플 1로 간주되는지는 중요하지 않습니다. U에 대하여 동등하게 유효한 공식은
U1 U2 값이 작으면 유의표를 상담할 때 사용하는 값입니다. 두 값의 합은 다음과 같습니다.
R + R = N(N + 1)/2와 N = n + n임을 알고, 대수학을 수행하면, 우리는 그 합이
U + U = nn.

특성.

U의 최대값은 두 표본에 대한 표본 크기의 곱입니다(즉, 다음과 같습니다). = n 2 {\displaystyle U{i} = n_{1} n_{2}})입니다. 이러한 경우 "기타" U는 0이 됩니다.

계산 방법 예시

이솝 거북이가 경주에서 토끼 마리를 이기는 으로 밝혀진 고전적인 실험에 만족하지 않고, 그 결과가 일반적으로 거북이와 토끼로 확장될 수 있는지를 발견하기 위해 유의성 검정을 수행하기로 결정했다고 가정합니다. 그는 거북이 6마리와 토끼 6마리의 표본을 모아 한 번에 모두 자신의 경주를 뛰게 합니다. 그들이 결승점에 도달하는 순서는 다음과 같습니다. (그들의 순위는 결승선을 통과하는 첫 번째 순서부터 마지막 순서까지) 거북이는 T, 토끼는 H로 적습니다.

T H H H H H T T T T T H

U의 가치는 얼마입니까?

  • 직접적인 방법을 사용하여, 우리는 거북이 한 마리씩 차례로 잡고, 그것이 치는 토끼의 수를 세어 6, 1, 1, 1, 1, 1을 얻는데, 이것은 U = 11을 의미합니다. 또는 각 주식을 차례로 가져가서 그 주식이 뛰는 거북이의 수를 셀 수 있습니다. 이 경우 우리는 5, 5, 5, 5, 5, 0을 얻으므로 U = 25입니다. U = 36에 대한 이 두 값의 합은 6×6입니다.
  • 간접적인 방법 사용:
코스를 완주하는 데 걸리는 시간을 기준으로 동물의 순위를 매기고, 첫 번째 동물의 집 순위 12, 두 번째 순위 11 등을 부여합니다.
거북이들이 달성한 순위의 합은 12 + 6 + 5 + 4 + 3 + 2 = 32 입니다.
따라서 U = 32 - (6×7)/2 = 32 - 21 = 11 (메소드 1과 동일).
산주들이 달성한 순위의 합은 11 + 10 + 9 + 8 + 7 + 1 = 46 이며 U = 46 - 21 = 25로 이어집니다.

결과 예시문

Mann-Whitney U 검정 결과를 보고할 때는 다음과 같이 언급해야 합니다.[12]

  • 두 그룹(평균 또는 중위수, Mann-Whitney U 검정은 순서형 검정이므로 일반적으로 중위수가 권장됨)의 중심 성향에 대한 척도
  • U의 값(아마도 공통 언어 효과 크기 또는 순위-이중 상관 관계와 같은 효과 크기의 일부 척도 포함).
  • 표본크기
  • 유의 수준.

실제로 이러한 정보 중 일부는 이미 제공되었을 수 있으며 반복 여부를 결정하는 데 상식을 사용해야 합니다. 일반적인 보고서가 실행될 수 있습니다.

"그룹 E와 C의 중위수는 153 ms와 247 ms였습니다; 두 그룹의 분포는 크게 달랐습니다 (만-휘트니 U = 10.5, n = n = 8, P < 0.05 양 꼬리)."

시험의 통계적 상태에 대해 완전한 정의를 내리는 진술이 실행될 수도 있고,

"Wilcoxon–Mann–Whitney 2-표본 순위 합 검정을 사용하여 두 처리의 결과를 비교했습니다. 치료 효과(치료 간 차이)는 Hodges-를 사용하여 정량화되었습니다.Wilcoxon 검정과 일치하는 Lehmann(HL) 추정량.[13] 이 추정량(HL δ)은 그룹 B의 피험자와 그룹 A의 피험자 사이에 발생할 수 있는 모든 결과 차이의 중위수입니다. HL δ에 대한 비모수적인 0.95 신뢰 구간은 모집단 B에서 임의로 선택된 피험자가 모집단 A에서 임의로 선택된 피험자보다 더 높은 가중치를 가질 확률의 추정치인 ρ와 함께 제공됩니다. 치료 A와 B에 대한 피험자의 중앙값 [사분위수] 중량은 각각 147[121, 177] 및 151[130, 180] kg입니다. 치료 A는 HL δ = 5 kg (0.95 CL [2, 9] kg, 2P = 0.02, ρ = 0.58)만큼 체중이 감소했습니다."

그러나 주요 주제가 통계적 추론이 아닌 문서에서 이렇게 광범위한 보고서를 발견하는 경우는 드물 것입니다.

정규 근사 및 타이 보정

큰 표본의 경우 U정규 분포를 따릅니다. 그 경우 표준화된 값

여기서 m과 σ은 U의 평균과 표준 편차이며, 정규 분포의 표에서 유의성을 확인할 수 있는 표준 정규 편차입니다. m과 σ은 다음과 같습니다.

[14] and
[14]

표준 편차에 대한 공식은 순위가 동점인 경우 더 복잡합니다. 순위가 동점일 경우 σ은 다음과 같이 조정해야 합니다.

[15]

여기서 왼쪽은 단순히 분산이고 오른쪽은 넥타이 조정, t는k k번째 순위의 넥타이 수, K는 넥타이가 있는 고유 순위의 총 수이다.

nn12/12를 제외한 계산 효율적인 형태는 다음과 같습니다.

여기서 n = n + n.

타이의 수가 적으면(특히 큰 타이 밴드가 없는 경우) 손으로 계산할 때 타이를 무시할 수 있습니다. 컴퓨터 통계 패키지는 올바르게 조정된 공식을 일상적인 문제로 사용합니다.

U + U = nn 이므로 정규 근사에 사용된 평균 nn/2U의 두 값의 평균입니다. 따라서 계산된 z- statistic의 절대값은 U의 값을 사용하든 동일할 것입니다.

효과크기

추론 테스트를 위해 효과 크기를 보고하는 것은 과학자들에게 널리 권장되는 방법입니다.[16][17]

모든 쌍 중 일치 비율

다음 세 가지 조치가 동등합니다.

공용어효과크기

Mann-Whitney U 검정의 효과 크기를 보고하는 한 가지 방법은 공통 언어 효과 크기인 f를 사용하는 것입니다.[18][19] 표본 통계량으로서 공통 언어 효과 크기는 두 그룹 사이에 가능한 모든 쌍을 형성한 다음 방향을 지원하는 쌍의 비율을 구함으로써 계산됩니다(예: 그룹 1의 항목이 그룹 2의 항목보다 크다는 것).[19] 예를 들어, 10마리의 토끼와 10마리의 거북이 표본을 사용한 연구에서 순서 쌍의 총 수는 10 또는 100쌍의 토끼와 거북이의 10배입니다. 결과가 100개 표본 쌍 중 90개 표본에서 토끼가 거북이보다 더 빨리 달렸다고 가정합니다. 이 경우 표본 공통 언어 효과 크기는 90%입니다. 이 표본 값은 모집단 값의 편향되지 않은 추정치이므로 표본은 모집단의 공통 언어 효과 크기에 대한 최상의 추정치가 90%[20]임을 시사합니다.

f와 Mann-Whitney U(특히 사이의 관계는 다음과 같습니다.

이는 ROC 곡선에 대한 곡선 아래 면적(AUC)과 동일합니다.

ρ통계

U선형적으로 관련되어 있고 범주화(개념을 포함하는 판별 학습) 연구 등에서 널리 사용되는 ρ라는 통계는 U를 주어진 표본 크기에 대한 최대값(단순히 n×n)으로 나누어 계산됩니다. 따라서 ρ는 두 분포 사이의 중첩에 대한 비모수적 측도입니다. 0과 1 사이의 값을 취할 수 있으며 P(Y > X) + 0.5 P(Y = X)의 추정치이며, 여기서 X와 Y는 두 분포에서 무작위로 선택된 관측치입니다. 두 극값은 분포의 완전한 분리를 나타내고 ρ 0.5는 완전한 중첩을 나타냅니다. 맨-휘트니 U 검정에서 유의하게 다른 두 분포가 거의 동일한 중위수를 갖는 위에서 사용된 이상한 예제의 경우 ρ 통계량의 유용성을 확인할 수 있습니다. 이 경우 ρ 값은 약 0.723으로 산토끼에 유리합니다. 중앙거북이 중앙거북이 중앙거북이 중앙거북이를 이겼지만, 전체적으로 토끼가 거북이보다 더 잘했다는 사실을 정확하게 반영합니다.[citation needed]

순위-이중 상관관계

Mann-Whitney U 검정의 효과 크기를 보고하는 방법은 순위-이중 상관 관계로 알려진 순위 상관 측정을 사용합니다. 에드워드 큐어턴은 이 조치를 도입하고 이름을 붙였습니다.[22] 다른 상관 측도와 마찬가지로 순위-이중 상관 관계는 마이너스 1에서 플러스 1까지 범위가 될 수 있으며 값이 0이면 관계가 없음을 나타냅니다.

공통 언어 효과 크기에서 순위-이중 상관 관계를 계산하는 간단한 차이 공식이 있습니다. 상관 관계는 가설 (f)에 유리한 쌍의 비율에서 그 보어를 뺀 값(즉, 불리한 (u) 비율) 사이의 차이입니다. 이 단순한 차이 공식은 각 그룹의 공통 언어 효과 크기의 차이일 뿐이며 다음과 같습니다.[18]

예를 들어, 100쌍 중 90쌍에서 산토끼가 거북이보다 더 빨리 달리는 예를 생각해 보십시오. 공통 언어 효과 크기는 90%이므로 순위-이중 상관 관계는 90%에서 10%를 뺀 값이고 순위-이중 상관 관계는 0.80입니다.

순위 쌍렬에 대한 대안 공식을 사용하여 Mann-Whitney U( 또는 와 각 그룹의 표본 크기에서 계산할 수 있습니다.[23]

공식은 U와 표본 크기가 정기적으로 보고되기 때문에 데이터를 사용할 수 없는 경우에 유용합니다. 산토끼를 선호하는 90쌍과 거북이를 선호하는 10쌍으로 위의 예를 사용하면 U는 둘 중 더 작으므로 U = 10입니다. 그런 다음 이 공식은 위의 단순 차분 공식과 동일결과인 r = 1 – (2×10) / (10×10) = 0.80을 제공합니다.

다른 시험과의 관계

스튜던트 t-검정과 비교

Mann-Whitney U 검정은 한 그룹에서 무작위로 그린 관측치의 확률 분포가 다른 그룹에서 무작위로 그린 관측치의 확률 분포와 동일하다는 귀무 가설을 검정합니다(Man-Whitney U 검정 #가정 공식 문장 참조).가설의) 대조적으로, t-검정은 동일하지 않은 평균의 대안에 대해 두 그룹에서 동일한 평균에 대한 귀무 가설을 검정합니다. 따라서 특별한 경우를 제외하고 Mann-Whitney U 검정과 t-검정은 동일한 가설을 검정하지 않으므로 이를 염두에 두고 비교해야 합니다.

서수자료
Mann-Whitney U 검정은 데이터가 순서형이지만 간격 척도가 아닌 경우 t-검정보다 바람직합니다. 이 경우 척도의 인접한 값 사이의 간격이 일정하다고 가정할 수 없습니다.
강건함
순위의 합을 비교하기 [24]때문에 Mann-Whitney U 검정은 특이치가 존재하기 때문에 t-검정보다 유의성을 빠르게 나타낼 가능성이 낮습니다. 그러나 Mann-Whitney U 검정은 데이터가 이분산적이고 비정규적인 경우 유형 I 오류 관리가 더 나쁠 수 있습니다.[25]
효율성.
정규성이 유지되면 Mann-Whitney U 검정은 t-검정과 비교할 때 3/ π 또는 약 0.95의 (무증상) 효율을 갖습니다. 정규 분포에서 충분히 멀리 떨어져 있고 표본 크기가 충분히 큰 경우 Mann-Whitney U 검정이 t 검정보다 훨씬 효율적입니다.[27] 그러나 이러한 효율성의 비교는 Mann-Whitney와 t-검정이 동일한 양을 검정하지 않으므로 주의해서 해석해야 합니다. 예를 들어 그룹 평균의 차이가 주요 관심사인 경우 Mann-Whitney는 적절한 검정이 아닙니다.[28]

Mann-Whitney U 검정은 데이터의 순위에 대해 일반 모수 2-표본 t-검정을 수행하는 것과 매우 유사한 결과를 제공합니다.[29]

f = g가 분포의 개수와 같은 경우 2-표본 t-검정에 대한 Mann-Whitney 검정의 상대적 효율성입니다.
분배 효율성.
로지스틱스
보통의
라플라스 3/2
유니폼 1

다른 분포

Mann-Whitney U 검정은 귀무 가설 > )+ P= X ) = {\displaystyle P(Y > X) + 0.5를 검정하는 데 유효하지 않습니다.대립 가설 P(Y > X ) + 0.5 P(Y X ) 0.5 {\displaystyle P(Y > X) + 0.5}에 대한 X) 0 귀무 가설 하에서 분포가 동일하다고 가정하지 않고(, F 1 {\displaystyle F_{1} F_{2}}). 이러한 가설 간의 검정을 위해 더 나은 검정을 사용할 수 있습니다. 그 중에는 Brunner-Munzel과 Fligner-Policelo 테스트가 있습니다.[31] 구체적으로, 일반적인 귀무 가설 P(> X)+ P( = ) = {\displaystyle P (Y > X) + 0.5X)0}, Mann-Whitney U 검정은 큰 표본에서도 I형 오류율이 부풀려질 수 있습니다(특히 두 모집단의 분산이 동일하지 않고 표본 크기가 다른 경우), 더 나은 대안이 해결하는 문제입니다. 따라서 귀무 가설 하에서 분포가 동일하다고 가정할 수 없는 경우 대안 중 하나(특히 Brunner-Munzel 검정)를 사용하는 것이 제안되었습니다.[32]

대안

단순 이동 해석을 원할 경우 유의한 결과를 잘못 해석할 수 있으므로 두 표본의 분포가 매우 다를 때 Mann-Whitney U 검정을 사용해서는 안 됩니다.[33] 이 경우 t-검정의 분산이 같지 않은 버전이 더 신뢰할 수 있는 결과를 제공할 수 있습니다.

마찬가지로, 일부 저자(예: Conover[full citation needed])는 데이터를 순위로 변환한 다음(이미 순위가 아닌 경우) 변환된 데이터에 대해 t-검정을 수행할 것을 제안하며, 모집단 분산이 의심되는지 여부에 따라 사용되는 t-검정의 버전이 다릅니다. 순위 변환은 분산을 보존하지 않지만 순위 변환 후 표본에서 분산을 다시 계산합니다.

Brown-Forsyte 검정은 등분산에 대한 F-검정과 동등한 비모수적 동등성으로 제시되었습니다.[citation needed]

더 강력한 테스트는 Brunner-Munzel 테스트로 교환 가능성 가정을 위반한 경우 Mann-Whitney U 테스트를 능가합니다.[34]

Mann-Whitney U 검정은 공변량 조정이 가능한 비례 오즈 모형의 특수한 경우입니다.[35]

콜모고로프 스미르노프 검정도 참조하십시오.

관련시험통계

켄달의 타우

Mann-Whitney U 검정은 다른 여러 비모수 통계 절차와 관련이 있습니다. 예를 들어 변수 중 하나가 이진인 경우(즉, 두 개의 값만 취할 수 있음) 켄달의 타우 상관 계수와 같습니다.[citation needed]

소프트웨어 구현

많은 소프트웨어 패키지에서 Mann-Whitney U 검정(적절한 대안에 대한 동등한 분포 가설)은 제대로 문서화되지 않았습니다. 일부 패키지는 동점을 잘못 처리하거나 점근 기법(예: 연속성에 대한 수정)을 문서화하지 못합니다. 2000년 리뷰에서는 다음 패키지 중 일부에 대해 논의했습니다.[36]

역사

이 통계는 1914년 독일의 구스타프 도이클러(Gustav Deuchler)의 기사에[40] 등장했습니다(분산에 누락된 항이 있음).

1945년 단일 논문에서 Frank Wilcoxon은 보완 대안(즉, 동등한 것과 같지 않은 것)에 대한 점 귀무 가설을 갖는 유의성 검정에서 1-표본 부호 순위와 2-표본 순위 합 검정을 모두 제안했습니다. 그러나 그는 그 논문에서 동일 표본 크기의 경우에 대해 몇 가지 점만 표로 작성했습니다(이후 논문에서는 더 큰 표를 제공했지만).

통계에 대한 철저한 분석은 헨리 만과 그의 학생 도날드 랜섬 휘트니가 1947년에 쓴 기사에 등장했는데, 여기에는 임의의 표본 크기에 대한 꼬리 확률과 8개 이하의 표본 크기에 대한 표를 계산할 수 있는 재발이 포함되어 있습니다.[1] 이 글에서는 확률적 순서화(누적 분포 함수점별X 부등식 F(t) < F(tY)를 만족하는 경우)를 포함한 대안적 가설에 대해 논의했습니다. 이 논문은 또한 처음 4개의 순간을 계산하고 귀무 가설 하에서 통계량의 한계 정규성을 설정하여 점근적으로 분포가 없음을 설정했습니다.

참고 항목

메모들

  1. ^ a b Mann, Henry B.; Whitney, Donald R. (1947). "On a Test of Whether one of Two Random Variables is Stochastically Larger than the Other". Annals of Mathematical Statistics. 18 (1): 50–60. doi:10.1214/aoms/1177730491. MR 0022058. Zbl 0041.26103.
  2. ^ a b Fay, Michael P.; Proschan, Michael A. (2010). "Wilcoxon–Mann–Whitney or t-test? On assumptions for hypothesis tests and multiple interpretations of decision rules". Statistics Surveys. 4: 1–39. doi:10.1214/09-SS051. MR 2595125. PMC 2857732. PMID 20414472.
  3. ^ [1], Pratt (1964) 표 2.1 참조 "두 표본 위치 문제에 대한 몇 가지 절차의 견고성" 미국 통계 협회 저널. 59 (307): 655–680. 두 분포가 동일한 평균을 갖지만 분산이 다른 정규 분포인 경우 Pr[X > Y] = Pr[Y < X]이지만 Mann-Whitney 검정의 크기는 명목 수준보다 클 수 있습니다. 따라서 귀무 가설을 Pr[X > Y] = Pr[Y < X]로 정의하고 유효한 검정을 얻을 수 없습니다.
  4. ^ Divine, George W.; Norton, H. James; Barón, Anna E.; Juarez-Colunga, Elizabeth (2018). "The Wilcoxon–Mann–Whitney Procedure Fails as a Test of Medians". The American Statistician. 72 (3): 278–286. doi:10.1080/00031305.2017.1305291.
  5. ^ Conroy, Ronán (2012). "What Hypotheses do "Nonparametric" Two-Group Tests Actually Test?". Stata Journal. 12 (2): 182–190. doi:10.1177/1536867X1201200202. S2CID 118445807. Retrieved 24 May 2021.
  6. ^ Hart, Anna (2001). "Mann–Whitney test is not just a test of medians: differences in spread can be important". BMJ. 323 (7309): 391–393. doi:10.1136/bmj.323.7309.391. PMC 1120984.
  7. ^ 보스턴 대학교 (SPH), 2017
  8. ^ Mason, S. J., Graham, N. E. (2002). "Areas beneath the relative operating characteristics (ROC) and relative operating levels (ROL) curves: Statistical significance and interpretation". Quarterly Journal of the Royal Meteorological Society. 128 (584): 2145–2166. doi:10.1256/003590002320603584. ISSN 1477-870X.
  9. ^ Fawcett, Tom (2006); ROC 분석 소개, 패턴 인식 레터스, 27, 861–874.
  10. ^ Hand, David J.; Till, Robert J. (2001). "A Simple Generalisation of the Area Under the ROC Curve for Multiple Class Classification Problems". Machine Learning. 45 (2): 171–186. doi:10.1023/A:1010920819831.
  11. ^ Zar, Jerrold H. (1998). Biostatistical Analysis. New Jersey: Prentice Hall International, INC. p. 147. ISBN 978-0-13-082390-8.
  12. ^ Fritz, Catherine O.; Morris, Peter E.; Richler, Jennifer J. (2012). "Effect size estimates: Current use, calculations, and interpretation". Journal of Experimental Psychology: General. 141 (1): 2–18. doi:10.1037/a0024338. ISSN 1939-2222.
  13. ^ Myles Hollander; Douglas A. Wolfe (1999). Nonparametric Statistical Methods (2 ed.). Wiley-Interscience. ISBN 978-0471190455.
  14. ^ a b Siegal, Sidney (1956). Nonparametric statistics for the behavioral sciences. McGraw-Hill. p. 121.{{cite book}}: CS1 main: 숫자 이름: 저자 목록 (링크)
  15. ^ Lehmann, Erich; D'Abrera, Howard (1975). Nonparametrics: Statistical Methods Based on Ranks. Holden-Day. p. 20.{{cite book}}: CS1 main: 숫자 이름: 저자 목록 (링크)
  16. ^ Wilkinson, Leland (1999). "Statistical methods in psychology journals: Guidelines and explanations". American Psychologist. 54 (8): 594–604. doi:10.1037/0003-066X.54.8.594.
  17. ^ Nakagawa, Shinichi; Cuthill, Innes C (2007). "Effect size, confidence interval and statistical significance: a practical guide for biologists". Biological Reviews of the Cambridge Philosophical Society. 82 (4): 591–605. doi:10.1111/j.1469-185X.2007.00027.x. PMID 17944619. S2CID 615371.
  18. ^ a b Kerby, D.S. (2014). "The simple difference formula: An approach to teaching nonparametric correlation". Comprehensive Psychology. 3: 11.IT.3.1. doi:10.2466/11.IT.3.1. S2CID 120622013.
  19. ^ a b McGraw, K.O.; Wong, J.J. (1992). "A common language effect size statistic". Psychological Bulletin. 111 (2): 361–365. doi:10.1037/0033-2909.111.2.361.
  20. ^ Grissom RJ (1994). "Statistical analysis of ordinal categorical status after therapies". Journal of Consulting and Clinical Psychology. 62 (2): 281–284. doi:10.1037/0022-006X.62.2.281. PMID 8201065.
  21. ^ Herrnstein, Richard J.; Loveland, Donald H.; Cable, Cynthia (1976). "Natural Concepts in Pigeons". Journal of Experimental Psychology: Animal Behavior Processes. 2 (4): 285–302. doi:10.1037/0097-7403.2.4.285. PMID 978139.
  22. ^ Cureton, E.E. (1956). "Rank-biserial correlation". Psychometrika. 21 (3): 287–290. doi:10.1007/BF02289138. S2CID 122500836.
  23. ^ Wendt, H.W. (1972). "Dealing with a common problem in social science: A simplified rank-biserial coefficient of correlation based on the U statistic". European Journal of Social Psychology. 2 (4): 463–465. doi:10.1002/ejsp.2420020412.
  24. ^ Motulsky, Harvey J., 통계 가이드, 샌디에고, 캘리포니아: GraphPad Software, 2007, 페이지 123
  25. ^ Zimmerman, Donald W. (1998-01-01). "Invalidation of Parametric and Nonparametric Statistical Tests by Concurrent Violation of Two Assumptions". The Journal of Experimental Education. 67 (1): 55–68. doi:10.1080/00220979809598344. ISSN 0022-0973.
  26. ^ Lehamn, Erich L.; 대표본 이론의 요소, Springer, 1999, p. 176
  27. ^ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2판), 페이지 225–226
  28. ^ Lumley, Thomas; Diehr, Paula; Emerson, Scott; Chen, Lu (May 2002). "The Importance of the Normality Assumption in Large Public Health Data Sets". Annual Review of Public Health. 23 (1): 151–169. doi:10.1146/annurev.publhealth.23.100901.140546. ISSN 0163-7525. PMID 11910059.
  29. ^ Conover, William J.; Iman, Ronald L. (1981). "Rank Transformations as a Bridge Between Parametric and Nonparametric Statistics". The American Statistician. 35 (3): 124–129. doi:10.2307/2683975. JSTOR 2683975.
  30. ^ Vaart, A. W. van der (1998-10-13). Asymptotic Statistics. Cambridge University Press. ISBN 978-0-511-80225-6.
  31. ^ Brunner, Edgar; Bathke, Arne C.; Konietschke, Frank (2018). Rank and pseudo-rank procedures for independent observations in factorial designs: Using R and SAS. Springer Series in Statistics. Cham: Springer International Publishing. doi:10.1007/978-3-030-02914-2. ISBN 978-3-030-02912-8.
  32. ^ a b Karch, Julian D. (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. hdl:1887/3209569. ISSN 2515-2459.
  33. ^ Kasuya, Eiiti (2001). "Mann–Whitney U test when variances are unequal". Animal Behaviour. 61 (6): 1247–1249. doi:10.1006/anbe.2001.1691. S2CID 140209347.
  34. ^ Karch, Julian (2021). "Psychologists Should Use Brunner–Munzel's Instead of Mann–Whitney's U Test as the Default Nonparametric Procedure". Advances in Methods and Practices in Psychological Science. 4 (2). doi:10.1177/2515245921999602. hdl:1887/3209569. S2CID 235521799.
  35. ^ Harrell, Frank (20 September 2020). "Violation of Proportional Odds is Not Fatal". {{cite journal}}: 저널 인용 요구사항 journal= (도와주세요)
  36. ^ Bergmann, Reinhard; Ludbrook, John; Spooren, Will P.J.M. (2000). "Different Outcomes of the Wilcoxon–Mann–Whitney Test from Different Statistics Packages". The American Statistician. 54 (1): 72–77. doi:10.1080/00031305.2000.10474513. JSTOR 2685616. S2CID 120473946.
  37. ^ "scipy.stats.mannwhitneyu". SciPy v0.16.0 Reference Guide. The Scipy community. 24 July 2015. Retrieved 11 September 2015. scipy.stats.mannwhitneyu(x, y, use_continuity=True): Computes the Mann–Whitney rank test on samples x and y.
  38. ^ "MannWhitneyUTest (Apache Commons Math 3.3 API)". commons.apache.org.
  39. ^ "JuliaStats/HypothesisTests.jl". GitHub. 30 May 2021.
  40. ^ Kruskal, William H. (September 1957). "Historical Notes on the Wilcoxon Unpaired Two-Sample Test". Journal of the American Statistical Association. 52 (279): 356–360. doi:10.2307/2280906. JSTOR 2280906.
  41. ^ Wilcoxon, Frank (1945). "Individual comparisons by ranking methods". Biometrics Bulletin. 1 (6): 80–83. doi:10.2307/3001968. hdl:10338.dmlcz/135688. JSTOR 3001968.

참고문헌

외부 링크