확률도 상관 계수도

Probability plot correlation coefficient plot

확률도 상관 계수(PPCC) 그림은 데이터 집합을 가장 잘 설명하는 분포 계열의 형상 모수를 식별하기 위한 그래픽 기법이다.이 기법은 단일 형상 모수와 위치 척도 모수에 의해 정의되는 Weibull과 같은 패밀리에 적합하며, 위치 및 척도 모수에 의해서만 정의되는 정규 분포와 같은 분포에 적절하거나 심지어 가능하지 않다.

많은 통계 분석은 데이터가 획득된 모집단에 대한 분포 가정에 기초한다.그러나 분포 패밀리는 형상 모수의 값에 따라 근본적으로 다른 형상을 가질 수 있다.따라서 형상 모수에 대한 합리적인 선택을 찾는 것이 분석에 필요한 단계다.많은 분석에서 데이터에 대한 양호한 분포 모형을 찾는 것이 분석의 주요 초점이다.

기법은 단순히 "모양 모수의 다른 값에 대한 확률도 상관 계수를 표시하고 가장 적합한 값을 선택하십시오."라고 할 수 있다.

정의

PPCC 플롯은 다음과 같이 구성된다.

즉, 형상 모수의 일련의 값에 대해, 주어진 형상 모수의 값과 관련된 확률도에 대해 상관 계수가 계산된다.이러한 상관 계수는 해당 형상 모수에 대해 표시된다.최대 상관 계수는 형상 모수의 최적 값에 해당한다.정밀도를 높이기 위해 PPCC 플롯을 두 번 반복해서 생성할 수 있다. 첫째는 올바른 근방을 찾기 위한 것이고, 둘째는 추정치를 세밀하게 조정하기 위한 것이다.

PPCC 그림은 형상 모수의 좋은 값을 찾기 위해 먼저 사용된다.그런 다음 위치 및 척도 모수의 추정치를 찾고 분포 적합성의 적절성에 대한 그래픽 평가를 제공하기 위해 확률도를 생성한다.

PPCC 플롯은 다음과 같은 질문에 답한다.

  1. 유통가정에서 가장 잘 어울리는 멤버는?
  2. (상관 계수가 높은 확률도를 생성하는 측면에서) 최적 구성원이 적합한 적합도를 제공하는가?
  3. 이 분포 계열은 다른 분포에 비해 잘 적합되는가?
  4. 형상 모수의 선택은 얼마나 민감한가?

분포 비교

PPCC 그림은 주어진 분포의 형상 모수를 추정하기 위한 좋은 선택사항을 찾을 뿐만 아니라 어떤 분포 계열이 가장 적합한지를 결정하는 데 유용할 수 있다.예를 들어, 일련의 신뢰도 데이터가 주어진 경우, 한 페이지에 Weibull, 대수 정규, 감마 및 역 가우스 분포에 대한 PPCC 그림을 생성할 수 있다.이 한 페이지는 여러 분포에 대한 형상 모수에 대한 최상의 값을 보여주고 이러한 분포 패밀리 중 어느 것이 가장 적합한지 추가로 표시한다(최대 확률도 상관 계수로 측정).즉, Weibull의 최대 PPCC 값이 0.99이고 대수 정규 분포의 경우 0.94에 불과할 경우 Weibull 계열이 더 나은 선택이라고 합리적으로 결론을 내릴 수 있다.

분포 모형을 비교할 때 PPCC 값이 최대인 모형을 단순히 선택해서는 안 된다.많은 경우, 여러 분포 적합치는 유사한 PPCC 값을 제공한다.예를 들어, 대수 정규식과 Weibull은 둘 다 주어진 신뢰성 데이터 세트를 매우 잘 적합시킬 수 있다.일반적으로 분포의 복잡성을 고려할 수 있다.즉, PPCC 값이 약간 작은 단순한 분포가 더 복잡한 분포보다 선호될 수 있다.마찬가지로, 일부 경우에는 PPCC 값이 약간 작은 분포를 선호하기 위한 기초 과학 모델에 이론적 정당성이 있을 수 있다.다른 경우에는 분포 모형이 우리의 목적에 적합하다는 사실만 알 필요가 없을 수도 있다.즉, 다른 분포가 데이터에 다소 더 적합하더라도 정규 분포 데이터를 위해 설계된 기법을 사용할 수 있다.

대칭 분포에 대한 Tukey-lambda PPCC 그림

형상 모수가 λ인 Tukey 람다 PPCC 그림은 대칭 분포에 특히 유용하다.이것은 분포가 짧은지 긴지 여부를 나타내며, 몇 가지 공통 분포를 추가로 나타낼 수 있다.구체적으로 말하자면

  1. λ = -1: 분포는 대략 Cauchy이다.
  2. λ = 0: 분포는 정확하게 로지스틱 분포임
  3. λ = 0.14: 분포는 근사적으로 정규 분포임
  4. λ = 0.5: 분포는 U자형
  5. λ = 1: 분포가 정확히 균일함1, 1)

Tukey 람다 PPCC 그래프가 0.14에 가까운 최대값을 제공하는 경우 정규 분포가 데이터에 대한 좋은 모형이라고 합리적으로 결론을 내릴 수 있다.최대값이 0.14 미만이면 이중 지수 또는 로지스틱 분포와 같은 긴꼬리 분포가 더 나은 선택이 될 것이다.최대값이 -1에 가까우면 이는 코치와 같은 매우 긴 꼬리 분포의 선택을 의미한다.최대값이 0.14보다 크면 는 베타 또는 균등과 같은 짧은 꼬리 분포를 의미한다.

Tukey-lambda PPCC 플롯은 적절한 분포를 제안하기 위해 사용된다.PPCC와 적절한 대안의 확률도를 추적해야 한다.

참고 항목

외부 링크

참조

  • Filliben, J. J. (February 1975). "The Probability Plot Correlation Coefficient Test for Normality". Technometrics. 17 (1): 111–117. doi:10.2307/1268008. JSTOR 1268008.

Public Domain 글은 국립표준기술원 웹사이트 https://www.nist.gov공공 도메인 자료를 통합한 것이다.