This is a good article. Click here for more information.

더일센 추정기

Theil–Sen estimator
동일한 집합(파란색)에 대한 비강성 일반 최소 제곱선과 비교하여 특이치(검은색 선)를 갖는 표본 점 집합의 Theil-Sen 추정기. 초록색 점선은 샘플이 생성된 실제 값을 나타냅니다.

비모수 통계량에서 Theil-Sen 추정기는 점 쌍을 통해 모든 선의 기울기중앙값을 선택하여 평면의 표본 점에 을 견고하게 맞추는 방법입니다(단순 선형 회귀). Sen's slope estimator,[1][2] slope selection,[3][4] single median method,[5] Kendall robust line-fit method,[6] Kendall-이라고도 불립니다.강력한 라인입니다.[7] 이것은 앙리 테일과 프라납 K의 이름을 따서 지어졌습니다. 1950년과 1968년에 각각 이 방법에 대한 논문을 발표한 [8]모리스 켄달 이후에 켄달 타우 순위 상관 계수와 관련이 있습니다.[9]

일-센 회귀 분석은 일반 최소 제곱 회귀 분석보다 몇 가지 장점이 있습니다. 이상치에 둔감합니다. 잔차가 정규 분포를 따르지 않는 경우에도 유의성 검정에 사용할 수 있습니다.[10] 비대칭이분산성 데이터에 대한 비강성 단순 선형 회귀(최소 제곱)보다 훨씬 정확할 수 있으며 통계적 검정력 측면에서 정규 분포 데이터에 대해서도 최소 제곱과 잘 경쟁합니다.[11] 이는 "선형 추세를 추정하는 가장 일반적인 비모수 기법"이라고 불립니다.[2] 파라미터를 효율적으로 계산하는 빠른 알고리즘이 있습니다.

정의.

Theil(1950)에 의해 정의된 바와 같이, 2차원 점(xi, yi) 집합의 Theil-Sen 추정기는 모든 표본 점 쌍에 의해 결정되는 기울기(yj - yi)/(xji - x)의 중앙값 m입니다. Sen(1968)은 두 데이터 점이 동일한 x좌표를 가지는 경우를 처리하기 위해 이 정의를 확장했습니다. 센의 정의에서는 x좌표가 서로 다른 점 쌍에서만 정의된 기울기의 중앙값을 취합니다.[8]

기울기 m이 결정되면 y 절편 b를 값 yi - mxi 중앙값으로 설정하여 샘플 점에서 선을 결정할 수 있습니다. 적합선은 기울기 – intercept 형태의 계수 mb를 갖는 직선 y = mx + b입니다. Sen이 관찰한 바와 같이, 이 기울기 선택은 i x를 연관잔차i y - mxi - b와 비교하는 데 사용될 때 켄달 타우 순위 상관 계수를 대략 0으로 만듭니다. 직관적으로 적합선이 데이터 점 위 또는 아래를 지나는 정도는 해당 점이 데이터 집합의 왼쪽 또는 오른쪽에 있는지 여부와 상관이 없음을 나타냅니다. b를 선택하면 켄달 계수에는 영향을 미치지 않지만 중위수 잔차가 거의 0이 됩니다. 즉, 적합선은 동일한 수의 점 위와 아래를 통과합니다.[9]

기울기 추정을 위한 신뢰 구간은 점들의[13] 쌍들에 의해 결정된 선들의 기울기들의 중간 95%를 포함하는 구간으로 결정될 수 있고, 점들의 쌍들을 샘플링하고 샘플링된 기울기들의 95% 구간을 결정함으로써 신속하게 추정될 수 있습니다. 시뮬레이션에 따르면 정확한 신뢰 구간을 결정하는 데는 약 600개의 표본 쌍이 충분합니다.[11]

변주곡

Theil-Sen 추정량의 변화,Siegel(1982)의 반복적인 중앙 회귀 분석은 각 표본 점(xi, yi)에 대해 해당 점을 통과하는 선의 기울기(yj - yi)/(xj - xi)의 중앙값 mi 결정한 다음, 전체 추정량을 이러한 중앙값의 중앙값으로 결정합니다. Theil-Sen 추정기보다 더 많은 수의 이상치를 견딜 수 있지만, 이를 효율적으로 계산하기 위한 알려진 알고리즘은 더 복잡하고 실용적이지 않습니다.[14]

다른 변형은 표본 점을 x좌표의 순위에 따라 쌍을 이루는데, 좌표가 가장 작은 점은 중위수 좌표 위의 첫 번째 점과 쌍을 이루거나, 두 번째로 작은 점은 중위수 위의 다음 점과 쌍을 이루거나 등이 있습니다. 그런 다음 이러한 점 쌍에 의해 결정된 선의 기울기의 중앙값을 계산하여 Theil-Sen 추정기보다 훨씬 적은 쌍을 조사하여 속도를 얻습니다.[15]

x좌표가 더 크게 다른 표본 쌍이 정확한 기울기를 가질 가능성이 더 높기 때문에 더 높은 가중치를 받아야 한다는 원칙에 기초하여 가중 중앙값에 기초한 Theil-Sen 추정기의 변형도 연구되었습니다.[16]

계절 데이터의 경우 둘 다 같은 달 또는 같은 계절에 속하는 표본 점의 쌍만 고려하고 이보다 제한적인 쌍에 의해 결정되는 선의 기울기의 중앙값을 구하여 데이터의 계절적 변동을 완화하는 것이 적절할 수 있습니다.[17]

통계적 성질

Theil-Sen 추정기는 단순 선형 회귀 분석에서 실제 기울기의 편향되지 않은 추정기입니다.[18] 반응 오차의 많은 분포에서 이 추정기는 최소 제곱 추정에 비해 점근 효율성이 높습니다.[19] 효율성이 낮은 추정량은 효율적인 편향되지 않은 추정량의 동일한 표본 분산을 얻기 위해 보다 독립적인 관측치를 필요로 합니다.

Theil-Sen 추정량은 이상치에 훨씬 덜 민감하기 때문에 최소 제곱 추정량보다 강건합니다. 그것은 다음과 같은 단점이 있습니다.

즉, 정확도 저하 없이 입력 데이터 포인트의 최대 29.3%의 임의 손상을 견딜 수 있습니다.[12] 그러나 방법의 고차원 일반화를 위해 파괴점이 감소합니다.[20] 더 높은 분해점인 50%는 다른 강력한 라인 피팅 알고리즘인 Siegel의 반복 중앙값 추정기를 나타냅니다.[12]

Theil-Sen 추정량은 반응 변수를 선형으로 변환할 때마다 등변수인데, 이는 데이터를 먼저 변환한 후 선을 맞추거나, 먼저 선을 맞춘 후 동일한 방식으로 변환할 때 모두 동일한 결과를 생성한다는 것을 의미합니다.[21] 그러나 예측 변수와 반응 변수 모두의 아핀 변환에서는 동치가 아닙니다.[20]

알고리즘

n개의 샘플 포인트 세트의 중앙 기울기는 포인트 쌍을 통해 모든 O(n2) 라인을 계산한 다음 선형 시간 중앙값 찾기 알고리즘을 적용하여 정확하게 계산할 수 있습니다. 또는 점 쌍을 표본 추출하여 추정할 수도 있습니다. 문제는 투영 이중성 하에서 이러한 모든 교차점 사이에서 중간 x좌표를 갖는배열에서 교차점을 찾는 문제와 동등합니다.[22]

단순한 힘 2차 시간 알고리즘보다 정확하지만 더 효율적으로 기울기 선택을 수행하는 문제는 계산 기하학에서 광범위하게 연구되었습니다. 결정론적으로[3] 또는 무작위 알고리즘을 사용하여 Theil-Sen 추정기를 O(n log n) 시간에 정확하게 계산하는 몇 가지 다른 방법이 알려져 있습니다.[4] Siegel의 반복된 중앙값 추정기도 동일한 시간 경계에서 구성할 수 있습니다.[23] 입력 좌표가 정수이고 정수에 대한 비트 단위 연산이 일정한 시간이 소요되는 계산 모델에서 Theil-Sen 추정기는 무작위 예상 O ⁡ n) {\ O(n{\ log n}}}에서 훨씬 더 빠르게 구성할 수 있습니다.

Theil-Sen 추정기와 동일한 분해점을 갖는 대략 중간 순위를 갖는 기울기에 대한 추정기는 ε-넷 기반 알고리즘을 사용하여 데이터 스트림 모델(전체 데이터 세트를 나타내기에 충분한 영구 저장이 없는 알고리즘에 의해 샘플 포인트가 하나씩 처리됨)에서 유지될 수 있습니다.

구현

R 통계 패키지에서는 Theil-Sen 추정량과 Siegel의 반복 중앙값 추정량을 모두 사용할 수 있습니다. mblm 도서관[26] Theil-Sen 추정을 위한 무료 독립형 Visual Basic 애플리케이션, KTRLine, 는 미국 지질조사국에 의해 제공되었습니다.[27] Theil-Sen 추정기는 또한 SciPyScikit-learn 라이브러리의 일부로 Python에서 구현되었습니다.[28]

적용들

일-센 추정은 검열된 회귀 모형을 처리할 수 있는 능력으로 인해 천문학에 적용되었습니다.[29] 생물물리학에서 Fernandes & Leblanc(2005)은 "계산의 단순성, 신뢰 구간의 분석적 추정, 이상치에 대한 강건성, 잔차에 대한 시험 가능한 가정 및..."으로 인해 반사율 데이터에서 잎 면적 추정과 같은 원격 감지 응용에 사용할 것을 제안합니다. 측정 오류에 대한 사전 정보를 제한합니다."[30] 수질과 같은 계절 환경 데이터를 측정하기 위해 계절 조정된 Theil-Sen 추정기의 변형은 왜곡된 데이터가 있는 경우 높은 정밀도로 인해 최소 제곱 추정보다 선호되는 것으로 제안되었습니다.[17] 컴퓨터 과학에서, Theil-Sen 방법은 소프트웨어 노후화의 추세를 추정하는 데 사용되었습니다.[31] 기상학기후학에서는 바람의 장기적인 발생 추세와 속도를 추정하는 데 사용되어 왔습니다.[32]

참고 항목

메모들

  1. ^ 길버트(1987).
  2. ^ a b 엘샤라위 & 피에고르쉬 (2001).
  3. ^ a b Cole et al. (1989); Katz & Sharir (1993); Brönnimann & Chazelle (1998).
  4. ^ a b 딜런코트, 마운트 & 네타냐후(1992), 마투셰크(1991), 블룬크 & 바렌홀드(2006).
  5. ^ Massart et al. (1997)
  6. ^ Sokal & Rohlf (1995); Dytham (2011).
  7. ^ 그라나토(2006)
  8. ^ a b Theil (1950); Sen (1968)
  9. ^ a b Sen (1968); Osborne (2008).
  10. ^ Helsel, Dennis R.; Hirsch, Robert M.; Ryberg, Karen R.; Archfield, Stacey A.; Gilroy, Edward J. (2020). Statistical methods in water resources. Techniques and Methods. Reston, VA: U.S. Geological Survey. p. 484. Retrieved 2020-05-22.
  11. ^ a b 윌콕스(2001).
  12. ^ a b c Rousseou & Leroy (2003), 페이지 67, 164.
  13. ^ 신뢰 구간을 결정하려면 점 쌍을 대체하여 샘플링해야 합니다. 즉, 이 계산에 사용된 쌍의 집합에는 두 점이 서로 같은 쌍이 포함됩니다. 이러한 쌍은 잘 정의된 기울기 값을 결정하지 않기 때문에 항상 신뢰 구간을 벗어나지만 이 쌍을 계산의 일부로 사용하면 신뢰 구간이 그렇지 않은 경우보다 넓어집니다.
  14. ^ Logan(2010), Section 8.2.7 강건회귀; Matousheck, Mount & Nethanah(1998)
  15. ^ De Muth (2006).
  16. ^ Jaeckel (1972), Scholz (1978), Sievers (1978), Birkes & Dodge (1993).
  17. ^ a b 허쉬, 슬랙 & 스미스 (1982).
  18. ^ Sen(1968), Theorem 5.1, p. 1384; Wang & Yu(2005).
  19. ^ Sen (1968), 섹션 6; Wilcox (1998).
  20. ^ a b 윌콕스(2005).
  21. ^ 센 (1968), 1383쪽.
  22. ^ Cole et al. (1989).
  23. ^ 마투셰크, 마운트 & 네타냐후 (1998).
  24. ^ Chan & P ă트라 ş쿠 (2010).
  25. ^ Bagchi et al. (2007).
  26. ^ 로건(2010), p. 237; Vannest, Davis & Parker(2013)
  27. ^ Vannest, Davis & Parker (2013); Granato (2006)
  28. ^ SciPy 커뮤니티 (2015); Persson & Martins (2016)
  29. ^ Akritas, Murphy & La Valley (1995).
  30. ^ Fernandes & Leblanc (2005).
  31. ^ Vaidyanathan & Trievedi (2005).
  32. ^ Romaniitch et al. (2014)

참고문헌