스피어맨의 순위 상관계수

Spearman's rank correlation coefficient
비교되는 두 변수가 선형 관계가 아니더라도 단조적으로 관련되어 있을 때 스피어맨 상관 1 1입니다. 즉, 주어진 데이터 포인트보다 큰 x 값을 모든 데이터 포인트도 더큰 y {\ y 값을 갖게 됩니다. 대조적으로, 이것은 완벽한 피어슨 상관 관계를 제공하지 않습니다.
데이터가 대략적으로 타원 분포를 이루고 두드러진 특이치가 없을 때 스피어먼 상관과 피어슨 상관은 유사한 값을 제공합니다.
Spearman 상관 관계는 두 표본의 꼬리에 있는 강한 이상치에 대한 Pearson 상관 관계보다 덜 민감합니다. 그것은 스피어맨의 ρ이 이상치를 등급의 값으로 제한하기 때문입니다.

통계에서 Charles Spearman의 이름을 따서 그리스 ρdisplaystyle \rho) 또는 r_{s}}로 표시되는 Spearman의 순위 상관 계수 또는 Spearman의 ρ는 순위 상관( 변수의 순위 의 통계적 의존성)의 비모수 측정입니다. 단조 함수를 사용하여 두 변수 간의 관계를 얼마나 잘 설명할 수 있는지 평가합니다.

두 변수 간의 Spearman 상관 관계는 두 변수의 순위 값 간의 Pearson 상관 관계와 같으며, Pearson의 상관 관계는 선형 관계를 평가하는 반면, Spearman의 상관 관계는 단일 관계(선형 관계든 아니든)를 평가합니다. 반복되는 데이터 값이 없으면 각 변수가 다른 변수의 완전한 단조 함수일 때 +1 또는 -1의 완전한 스피어맨 상관이 발생합니다.

직관적으로 두 변수 사이의 관측치 순위(즉, 변수 내 관측치의 상대적 위치 레이블: 1차, 2차, 3차 등)가 유사할 때 두 변수 사이의 스피어맨 상관은 높습니다. 관측치가 두 변수 사이에 서로 다른(또는 -1의 상관 관계에 대해 완전히 반대) 순위를 가질 때 낮음.

스피어맨의 계수는 연속형이산형 순서형 변수 모두에 적합합니다.[2][3] Spearman의ρ displaystyle \rho}와 τ \tau}는 모두 보다 일반적인 상관 계수의 특수한 경우로 공식화할 수 있습니다.

정의 및 계산

Spearman 상관 계수는 순위 변수 간의 Pearson 상관 계수로 정의됩니다.[4]

크기가 n인 표본의 경우 원시 점수를 매깁니다.), (Yi) {\{R}({{i{R}({i})}, r_{s}}의 순위로 변환됩니다.

어디에

\rho}는 일반적인 피어슨 상관 계수를 나타내지만 순위 변수에는 적용됩니다.
(⁡ (X) R ⁡ (Y) {\displaystyle \operatorname {cov}(\operatorname {R} (X),\operatorname {R} (Y)}는 순위 변수의 공분산입니다.
R⁡() \sigma operatorname {R}(X} 및σ R ⁡(Y) {\displaystyle \sigma _{\operatorname {R}(Y)}는 순위 변수의 표준 편차입니다.

모든 n개의 순위가 서로 다른 정수일 경우에만 일반 공식을 사용하여 계산할 수 있습니다.

어디에

= (Xi)- R ⁡ (Yi) {\displaystyle d{i} =\operatorname {R} (X_{i})-\operatorname {R} (Y_{i})은 각 관측치의 두 순위 사이의 차이입니다.
n은 관측치의 개수입니다.
[증명]

해당 순위(R(X i), R(Y i)) = (R(X i), R(Y i)) {\(x_i=1\ dots,n}를 갖는 이변량( ),i=1\displaystyle (R(X_{i}),R(Y_{i}) = (R_{i,S_{i})}를 고려합니다. x x의 스피어맨 상관 계수는

¯ = ∑ i = 1 displaystyle {\overline {= {\frac {1}{n}}\textstyle \sum _{i=1}^{n}R_{i}}, S ¯ = 1 n ∑ i = 1 n Si {\displaystyle {\overline {S}}=\textstyle {\frac {1}{n}\textstyle \sum _{i=1}^{n}S_{i}, R = n∑ i = 1 n (Ri- R ¯) 2 {\displaystsigma _{R^{2}=\textstyle {\frac {1}{n}\textstyle \su _{i=1}^{n}(R_{i}-{\overline {R})^{2}}, 그리고 σ S 2 = 1 ni = (Si - S ¯) {\displaystyle \sigma _{S}^{2}=\textstyle {\frac {1}{n}\textstyle \sum _{i=1}^{n}(S_{i}-{\overline {S})^{2}},

는 순수하게 := - 로 표현될 수 있음을 보여줍니다.R_{i 각 표본 내에 연관성이 없다고 가정하면,

이 가정 하에서 우리는 {\ R를 {n} {\ldots\}에서 균일한 분포의 랜덤 변수 처럼 분포된 랜덤 변수로 볼 수 있습니다 Hence and , [ U] = 1 = n i =( + 1 ) {E} [U] ={\frac {1}{ _{i=1}^{n={\ {(n+1)}{2 [ 2] 1 n i (n +) ( + 1 ) 6 {\displaystyle \mathbb {E} [U^{2}] \textstyle {\frac {1}{n}}\textstyle \sum _{i1}^{n}i^{2} \textstyle {\frac {(n+1)(2n+1)} {6따라서( (+1) n + 1 ) 6 - (n + 1 ) 2 n 2 - 112 {\displaystyle \mathrm {Var} (U) \textstyle {\frac {(n+1)(2n+1)} {6}-\left(\textstyle {\frac {(n+1)} {2) {\frac {n^{2}-1}{12}}. (이 합계는 삼각수와 사각뿔수에 대한 공식 또는 이산 수학의 기본 합계 결과를 사용하여 계산할 수 있습니다.)

지금 관찰해 보세요.

이 모든 것을 종합하면 결과가 나옵니다.

동일한 값은 일반적으로[5] 값의 오름차순으로 지정된 위치의 평균과 동일한 부분 순위이며, 이는 가능한 모든 순열에 대한 평균과 동일합니다.

데이터 집합에 타이가 있는 경우 위의 단순화된 공식은 잘못된 결과를 산출합니다. 두 변수 모두에서 모든 순위가 다른 경우에만σR ⁡(X σR ⁡ (Y) = Var ⁡ (R⁡ (X)) = Var ⁡ (R ⁡ (Y)) = (n 2 - 1 ) / 12 {\displaystyle \sigma _{\operatorname {R} (X)}\sigma _{\operatorname {R} (Y)} =\operatorname {Var} {(\operatorname {R} (X)\{Var} {(\operatorname {R}(Y)}(n^{2}-1)/12}(편의 분산에 따라 됨). 첫 번째 방정식(표준 편차로 정규화)은 변환 및 선형 스케일링 모두에 민감하지 않기 때문에 순위가 [0, 1]("상대 순위")로 정규화된 경우에도 사용될 수 있습니다.

단순화된 방법은 데이터 세트가 잘린 경우에도 사용해서는 안 됩니다. 즉, 상위 X 레코드에 대해 스피어맨의 상관 계수가 필요할 때(변경 전 순위 또는 변경 후 순위 또는 둘 다), 사용자는 위에 주어진 피어슨 상관 계수 공식을 사용해야 합니다.[6]

관련수량

관측치 쌍 간의 통계적 의존성 정도를 정량화하는 다른 여러 수치 측도가 있습니다. 이 중 가장 일반적인 것은 피어슨 곱-모멘트 상관 계수로, 스피어먼의 순위와 유사한 상관 방법으로 순위 간이 아닌 원시 숫자 간의 "선형" 관계를 측정합니다.

Spearman 순위 상관의 다른 이름은 "등급 상관"입니다.[7] 이 경우 관측치의 "순위"는 "등급"으로 대체됩니다. 연속형 분포에서 관측치의 등급은 관례에 따라 항상 순위보다 절반 적으므로 이 경우 등급과 순위의 상관 관계는 동일합니다. 보다 일반적으로 관측치의 "등급"은 주어진 값보다 작은 모집단의 비율에 대한 추정치에 비례하며 관측치에서의 절반 관측치 조정을 사용합니다. 따라서 이것은 동점 순위의 한 가지 가능한 처리에 해당합니다. 특이하지만 "등급 상관"이라는 용어는 여전히 사용되고 있습니다.[8]

해석

양 및 음의 스피어맨 순위 상관 관계
양의 스피어만 상관 계수는 X와 Y 사이의 단조 증가 추세에 해당합니다.
음의 스피어만 상관 계수는 X와 Y 사이의 단조 감소 추세에 해당합니다.

Spearman 상관 관계의 부호는 X(독립 변수)와 Y(종속 변수) 사이의 연관 방향을 나타냅니다. X가 증가할 때 Y가 증가하는 경향이 있으면 스피어만 상관 계수는 양수입니다. X가 증가할 때 Y가 감소하는 경향이 있으면 스피어만 상관 계수는 음수입니다. 스피어만 상관 관계가 0이면 X가 증가할 때 Y가 증가하거나 감소하는 경향이 없음을 나타냅니다. 스피어맨 상관관계는 X와 Y가 서로 완벽하게 단조로운 함수에 가까워질수록 크기가 증가합니다. XY가 완벽하게 단조적으로 연관되어 있을 때 스피어만 상관 계수는 1이 됩니다. 완전한 단조 증가 관계는 임의의 i 데이터 j Xi, Y, Yj 대하여i X - Xj Yi - Yj 항상 같은 부호를 갖는다는 것을 의미합니다. 완전한 단조 감소 관계는 이러한 차이가 항상 반대의 부호를 갖는다는 것을 의미합니다.

스피어만 상관 계수는 종종 "비모수"로 설명됩니다. 이것은 두 가지 의미를 가질 수 있습니다. 첫째, XY가 어떤 단조 함수에 의해 연관되어 있을 때 완벽한 스피어맨 상관관계가 도출됩니다. XY선형 함수로 연관되어 있을 때만 완벽한 값을 제공하는 Pearson 상관과 대조합니다. Spearman 상관 관계가 비모수적이라는 또 다른 의미는 XY의 합동 확률 분포에 대한 지식(즉, 모수를 아는 것)을 필요로 하지 않고 정확한 표본 분포를 얻을 수 있다는 것입니다.

이 예제에서는 아래 표에 있는 임의의 원시 데이터를 사용하여 사람의 IQ와 주당 TV 앞에 머무르는 시간의 상관관계를 계산합니다(사용된 가상 값).

IQ, 주당 TV 시청시간,
106 7
100 27
86 2
101 50
99 28
103 29
97 20
113 12
112 6
110 17

먼저 evaluate 2 {\ d_{i이를 위해 아래 표에 표시된 다음 단계를 사용합니다

  1. 첫 번째 열( 로 데이터를 정렬합니다. 새 열 를 생성하고 순위 값 1, 2, 3, ..., n을 할당합니다.
  2. 그런 다음 두 번째 열( 을 기준으로 증강( 된 데이터를 정렬합니다. 네 번째 열 를 생성하고 순위 값 1, 2, 3, ..., n을 유사하게 할당합니다.
  3. 두 랭크 열( 사이의 차이를 유지할 다섯 번째 열 를 만듭니다.
  4. 하나의 2 {\2}}를 하여 열di {\d_} 제곱 값을 유지합니다.
IQ, 주당 TV 시청시간, i
86 2 1 1 0 0
97 20 2 6 −4 16
99 28 3 8 −5 25
100 27 4 7 −3 9
101 50 5 10 −5 25
103 29 6 9 −3 9
106 7 7 3 4 16
110 17 8 5 3 9
112 6 9 2 7 49
113 12 10 4 6 36

가 발견된 상태에서 을 추가하여∑ di = {\displaystyle \sum d_{i}^{2}= 194}를 찾습니다. n의 값은 10입니다. 이제 이 값들을 다시 방정식에 대입할 수 있습니다.

드리다

ρ = -29/165 = -0.175757575로 평가됩니다... p-값 = 0.627188(t-distrib 분포 사용)을 사용합니다.

제시된 데이터의 차트입니다. 음의 상관관계가 있을 수 있지만, 관계가 확정적으로 나타나지는 않는다는 것을 알 수 있습니다.

그 값이 0에 가깝다는 것은 비록 음의 값은 텔레비전을 보는 시간이 길수록 아이큐가 낮아진다는 것을 암시하지만, 아이큐와 TV를 보는 시간 사이의 상관관계가 매우 낮다는 것을 보여줍니다. 원래 값의 동점일 경우 이 공식을 사용해서는 안 되며, 대신 순위(위에서 설명한 바와 같이 동점일 경우)에서 피어슨 상관 계수를 계산해야 합니다.

신뢰구간

Spearman의 ρ에 대한 신뢰 구간은 de Carvalho and Marques(2012)의 Jackknife 유클리드 우도 접근법을 사용하여 쉽게 구할 수 있습니다. 레벨 의 신뢰 구간은 후자의 논문에서 주어진 Wilks' 정리를 기반으로 하며, 다음과 같이 주어집니다.

여기서χ1, α 2 {1}^{2는 자유도가 1인 카이-제곱 분포의 α\alpha } 이고 {\Z_{i}}는잭나이프 의사 값입니다. 이 접근 방식은 R 패키지 스피어맨에서 구현됩니다.CI.

유의성 판단

관측된 ρ 값이 0과 유의하게 다른지(r은 항상 -1 ≤ r ≤ 1을 유지함)를 검정하는 한 가지 방법은 순열 검정을 사용하여 귀무 가설이 주어졌을 때 관측된 r보다 크거나 같을 확률을 계산하는 것입니다. 이 접근법의 장점은 표본에 포함된 데이터 값의 수와 순위 상관 관계를 계산할 때 처리되는 방식을 자동으로 고려한다는 것입니다.

또 다른 접근법은 Pearson 곱-모멘트 상관 계수의 경우 Fisher 변환을 사용하는 것과 유사합니다. 즉, 모집단 ρ와 관련된 신뢰 구간가설 검정은 Fisher 변환을 사용하여 수행할 수 있습니다.

F(r)가 r의 피셔 변환이고, 표본 스피어만 순위 상관 계수이고, n이 표본 크기이면,

는 r에 대한 z-점수이며, 이는 통계적 독립성의 귀무 가설(ρ =0) 하에서 표준 정규 분포를 대략 따릅니다.

다음을 사용하여 유의성을 테스트할 수도 있습니다.

귀무 가설 하에서 n - 2 자유도를 갖는 대략적으로 학생의 t-분포로 분포됩니다.[12] 이 결과에 대한 정당성은 순열 인수에 의존합니다.[13]

스피어만 계수의 일반화는 조건이 3개 이상이고, 각 조건에서 여러 개의 피험자가 모두 관측되며, 관측치가 특정 순서를 가질 것으로 예측되는 경우에 유용합니다. 예를 들어, 여러 피험자에게 동일한 작업에서 각각 3번의 재판이 주어질 수 있으며, 재판에서 재판까지 수행 능력이 향상될 것으로 예측됩니다. 이 상황에서 조건 간 추세의 유의성 검정은 E. B. Page에[14] 의해 개발되었으며 일반적으로 순서 대안에 대한 Page의 추세 검정이라고 합니다.

Spearman의 s에 의한 대응분석

고전적 대응 분석은 두 개의 명목 변수의 모든 값에 점수를 부여하는 통계적 방법입니다. 이러한 방법으로 이들 사이의 피어슨 상관 계수가 최대화됩니다.

Spearman의 ρ 또는 Kendall의 τ을 최대화하는 등급 대응 분석이라고 하는 이 방법과 동등한 것이 있습니다.

하천에서 스피어맨의 ρ에 대한 근사치

스트리밍 데이터로부터 스피어맨의 순위 상관 계수를 근사화하는 두 가지 기존 접근 방식이 있습니다.[16][17] The first approach[16] involves coarsening the joint distribution of . For continuous values: cutpoints are selected for and respectively, 무작위 변수들을 분별하는 것입니다. Default cutpoints are added at and . A count matrix of size , denoted , is then constructed where 에는 ( 의해 인덱싱된 2차원 셀에 속하는 관측치의 수가 저장됩니다. 스트리밍 데이터의 경우, 새로운 관측치가 도착하면 해당 [{\ M 요소가 증분됩니다. 그런 다음 선형 대수 연산을사용하여 카운트 행렬 M을 기반으로 스피어맨의 순위 상관을 계산할 수 있습니다(알고리즘 2[16]). 이산 랜덤 변수의 경우 이산화 절차가 필요하지 않습니다. 이 방법은 대용량 데이터 세트뿐만 아니라 고정 스트리밍 데이터에도 적용 가능합니다. Spearman의 순위 상관 계수가 시간이 지남에 따라 변경될 수 있는 비정규 스트리밍 데이터의 경우 동일한 절차를 적용할 수 있지만 이동하는 관찰 창에 적용할 수 있습니다. 움직이는 창을 사용할 때 메모리 요구 사항은 선택한 창 크기에 따라 선형적으로 증가합니다.

스트리밍 데이터로부터 스피어맨의 순위 상관 계수를 근사화하는 두 번째 방법은 Hermite 시리즈 기반 추정기를 사용하는 것입니다.[17] 이러한 추정기는 Hermite 다항식을 기반으로 단변량 및 이변량의 경우 확률 밀도 함수 및 누적 분포 함수를 순차적으로 추정할 수 있습니다. 이변량 Hermite 시리즈 밀도 추정기와 일변량 Hermite 시리즈 기반 누적 분포 함수 추정기는 순차적 Spearman 상관 추정기를 제공하기 위해 Spearman의 순위 상관 계수 추정기의 대규모 표본 버전에 연결됩니다. 이 추정기는 계산 효율성을 위한 선형 대수 연산(식 (8)과 알고리즘 1 및[17] 2)로 표현됩니다. 이러한 알고리즘은 연속형 랜덤 변수 데이터에만 적용할 수 있지만 이 설정에서 카운트 행렬 접근법에 비해 특정 이점이 있습니다. 첫 번째 장점은 많은 수의 관측에 적용할 때 정확도가 향상된다는 것입니다. 두 번째 장점은 움직이는 창에 의존하지 않고 고정되지 않은 스트림에서 스피어맨의 순위 상관 계수를 계산할 수 있다는 것입니다. 대신, Hermite 시리즈 기반 추정기는 지수 가중치 체계를 사용하여 스트리밍 데이터에서 시간 변동 스피어먼의 순위 상관 관계를 추적합니다. 이는 "효과적인" 이동 창 크기와 관련하여 일정한 메모리 요구 사항을 가지고 있습니다. 이러한 Hermite 시리즈 기반 알고리즘의 소프트웨어 구현이 존재하며 소프트웨어 구현에서 논의됩니다.

소프트웨어 구현

  • R의 통계 기본 패키지는 "stats" 패키지에 테스트를 구현합니다(또한). cor(x, y, method = "spearman") 될 겁니다. 패키지 창잡이CI는 신뢰 구간을 계산합니다. 패키지 헤르미터[18] 순차적 추정치(즉, 새로운 관측치가 통합됨에 따라 온라인/ 증분 방식으로 업데이트되는 추정치)와 함께 스피어만 상관관계의 빠른 배치 추정치를 계산합니다.
  • Stata 구현: spearman varlist varlist의 모든 변수에 대한 모든 쌍별 상관 계수를 계산합니다.
  • MATLAB 구현: [r,p] = corr(x,y,'Type','Spearman') 어디에 r 스피어맨의 순위 상관 계수입니다 p 는 p-값이고, x 그리고. y 벡터입니다.[19]
  • Python은 스피어맨 상관 통계의 많은 다른 구현을 가지고 있습니다: 그것은 다음의 스피어맨 함수로 계산될 수 있습니다. sci.py.stats 모듈 및 DataFrame.corr(method='spearman') 판다 도서관의 방법과 corr(x, y, method='spearman') pingouin 통계 패키지의 함수입니다.

참고 항목

참고문헌

  1. ^ Spearman, C. (January 1904). "The Proof and Measurement of Association between Two Things" (PDF). The American Journal of Psychology. 15 (1): 72–101. doi:10.2307/1412159. JSTOR 1412159.
  2. ^ 축척 유형.
  3. ^ Lehman, Ann (2005). Jmp For Basic Univariate And Multivariate Statistics: A Step-by-step Guide. Cary, NC: SAS Press. p. 123. ISBN 978-1-59047-576-8.
  4. ^ Myers, Jerome L.; Well, Arnold D. (2003). Research Design and Statistical Analysis (2nd ed.). Lawrence Erlbaum. pp. 508. ISBN 978-0-8058-4037-7.
  5. ^ Dodge, Yadolah (2010). The Concise Encyclopedia of Statistics. Springer-Verlag New York. p. 502. ISBN 978-0-387-31742-7.
  6. ^ Al Jaber, Ahmed Odeh; Elayyan, Haifaa Omar (2018). Toward Quality Assurance and Excellence in Higher Education. River Publishers. p. 284. ISBN 978-87-93609-54-9.
  7. ^ Yule, G. U.; Kendall, M. G. (1968) [1950]. An Introduction to the Theory of Statistics (14th ed.). Charles Griffin & Co. p. 268.
  8. ^ Piantadosi, J.; Howlett, P.; Boland, J. (2007). "Matching the grade correlation coefficient using a copula with maximum disorder". Journal of Industrial and Management Optimization. 3 (2): 305–312. doi:10.3934/jimo.2007.3.305.
  9. ^ de Carvalho, M.; Marques, F. (2012). "Jackknife Euclidean likelihood-based inference for Spearman's rho" (PDF). North American Actuarial Journal. 16 (4): 487‒492. doi:10.1080/10920277.2012.10597644. S2CID 55046385.
  10. ^ Choi, S. C. (1977). "Tests of Equality of Dependent Correlation Coefficients". Biometrika. 64 (3): 645–647. doi:10.1093/biomet/64.3.645.
  11. ^ Fieller, E. C.; Hartley, H. O.; Pearson, E. S. (1957). "Tests for rank correlation coefficients. I". Biometrika. 44 (3–4): 470–481. CiteSeerX 10.1.1.474.9634. doi:10.1093/biomet/44.3-4.470.
  12. ^ Press; Vettering; Teukolsky; Flannery (1992). Numerical Recipes in C: The Art of Scientific Computing (2nd ed.). Cambridge University Press. p. 640. ISBN 9780521437202.
  13. ^ Kendall, M. G.; Stuart, A. (1973). "Sections 31.19, 31.21". The Advanced Theory of Statistics, Volume 2: Inference and Relationship. Griffin. ISBN 978-0-85264-215-3.
  14. ^ Page, E. B. (1963). "Ordered hypotheses for multiple treatments: A significance test for linear ranks". Journal of the American Statistical Association. 58 (301): 216–230. doi:10.2307/2282965. JSTOR 2282965.
  15. ^ Kowalczyk, T.; Pleszczyńska, E.; Ruland, F., eds. (2004). Grade Models and Methods for Data Analysis with Applications for the Analysis of Data Populations. Studies in Fuzziness and Soft Computing. Vol. 151. Berlin Heidelberg New York: Springer Verlag. ISBN 978-3-540-21120-4.
  16. ^ a b c Xiao, W. (2019). "Novel Online Algorithms for Nonparametric Correlations with Application to Analyze Sensor Data". 2019 IEEE International Conference on Big Data (Big Data). pp. 404–412. doi:10.1109/BigData47090.2019.9006483. ISBN 978-1-7281-0858-2. S2CID 211298570.
  17. ^ a b c Stephanou, Michael; Varughese, Melvin (July 2021). "Sequential estimation of Spearman rank correlation using Hermite series estimators". Journal of Multivariate Analysis. 186: 104783. arXiv:2012.06287. doi:10.1016/j.jmva.2021.104783. S2CID 235742634.
  18. ^ a b Stephanou, M. and Varughese, M (2023). "Hermiter: R package for sequential nonparametric estimation". Computational Statistics. arXiv:2111.14091. doi:10.1007/s00180-023-01382-0. S2CID 244715035.{{cite journal}}: CS1 maint: 다중 이름: 저자 목록 (링크)
  19. ^ "Linear or rank correlation - MATLAB corr". www.mathworks.com.

더보기

외부 링크