잘린 정규 분포

Truncated normal distribution
확률밀도함수
TnormPDF.png
여러 모수 집합에 대한 잘린 정규 분포에 대한 확률 밀도 함수.모든 경우 a = -10 및 b = 10.흑색: μ = -8, μ = 2, 청색: μ = 0, μ = 2, 적색: μ = 9, μ = 10, 주황색: μ = 0, μ = 10.
누적분포함수
TnormCDF.svg
서로 다른 모수 집합에 대한 잘린 정규 분포의 누적 분포 함수.모든 경우 a = -10 및 b = 10.흑색: μ = -8, μ = 2, 청색: μ = 0, μ = 2, 적색: μ = 9, μ = 10, 주황색: μ = 0, μ = 10.
표기법
매개변수 μ∈ R
σ2 ≥ 0 (그러나 정의 참조)
R — 최소 x
b Rx (b > a)의 최대값
지원 x ∈ [a,b]
PDF [1]
CDF
평균
중앙값
모드
분산
엔트로피
MGF

확률과 통계에서 잘린 정규 분포는 랜덤 변수를 아래 또는 위(또는 둘 다)에서 경계하여 정규 분포 랜덤 변수의 분포로부터 파생된 확률 분포다.잘린 정규 분포는 통계학과 계량학에서 넓은 적용 범위를 가지고 있다.예를 들어, 프로빗 모델에서 이항 결과의 확률을 모형화하고 토비트 모델에서 관측 중단 데이터를 모형화하는 데 사용된다.null

정의들

예를 들어 X{X\displaystyle}과 간격(a, b)이내에,− ∞을 가진<>≤, b≤ ∞{\displaystyle(a,b),{\text{과}}\;-\infty \leq a<, b\leq \infty} 있다. 그리고 X조건부{X\displaystyle}평균μ{\displaystyle \mu}과 가변성 σ 2{\displaystyle \sigma ^{2}}을 가진 일반적인 분포.에 < 는 정규 분포를 잘랐다.null

{\에 대한 확률밀도함수 f 는 다음에 의해 주어진다.

그리고 다른 f= [\}을(를) 사용한다.null

여기.

표준 정규 분포의 확률 밀도 함수인 ( ) 누적 분포 함수임

By definition, if , then , and similarly, if , then .


위의 공식은잘린 정규 분포의 매개변수 -) 음의 값을 가정할 수 있음을 보여준다. 변수 parameter 은(는) 가상이지만 함수는 그럼에도 불구하고 실제적이고 긍정적이며 정규화될 수 있다.표준 정규 분포의 척도 매개변수 2}는 양수여야 한다. 그렇지 않으면 분포가 정규화될 수 없기 때문이다.반면에, 두 배로 잘린 정규 분포는 원칙적으로 음의 척도 모수(분산과 다른, 요약 공식 참조)를 가질 수 있다. 왜냐하면 그러한 통합성 문제는 경계된 도메인에서 발생하지 않기 때문이다.이 경우 분포는 대해 당연한 정준 정상 conditional, X<>b{\displaystyle a<, X<, b},기도 제약 조건으로 첫번째와 두번째 순간들과 함께 한maximum-entropy 분포로 해석될 수 있고 추가적인 독특한 기능을 가지세요:그것은 하나의 다리 대신 두개의 지역 최대치는, 인용한 해석될 수 없다.ated에= x= x.

특성.

잘린 정규 분포는 고정 평균과 분산에 대한 최대 엔트로피 확률 분포로, 랜덤 변수 X는 구간 [a,b]에 있어야 한다.null

순간

랜덤 변수가 아래에서만 잘린 경우, 일부 확률 질량이 더 높은 값으로 이동되어 1차적으로 확률적으로 지배적인 분포를 제공하며 따라서 평균을 원래 정규 분포의 평균 {\\mu}보다 높은 값으로 증가시켰다.마찬가지로 무작위 변수가 위에서만 잘린 경우 잘린 분포의 평균은 미만 {\

랜덤 변수가 위, 아래 또는 둘 다로 경계되는지 여부에 관계없이 잘림 현상은 평균 변화 강체 이동과 결합된 평균 보존 수축이며, 따라서 잘림 분포의 분산은 원래 정규 분포의 분산 2}}보다 작다.null

양면 절단[2]

=( -)/ =( - / = let 그러면:

그리고

이러한 공식의 수치평가에 주의를 기울여야 하며, 이는 간격[ a, (가) 을(를) 포함하지 않을 때 치명적인 취소를 초래할 수 있다 이 문제를 피하는 더 나은 방법이 있다.[3]null

단측 절단(하단 꼬리)[4]

이 경우 = ,()= 0, ()= , 그 다음,

그리고

여기서 = -(). )

단면 절단(상단 꼬리)

이 경우 = = - ,()= , ()= 0, )= 그 다음.

( X< )= - () ( ) -

바와 셰릴(1999)은 단면 자르기의 분산을 더 단순하게 표현한다.그들의 공식은 표준 소프트웨어 라이브러리에서 구현되는 카이-제곱 CDF의 측면이다.베부와 매튜(2009)는 잘린 모멘트 주변의 (일반화된) 신뢰구간에 대한 공식을 제공한다.null

재귀식

절삭되지 않은 경우에 대해서는 절삭된 모멘트에 대한 재귀 공식이 있다.[5]null

다변량

다변량 정규 분포를 따르는 순간을 계산하는 것은 더 어렵다.null

계산 방법

잘린 정규 분포에서 값 생성

=- ( (α )+ ( () -() )μ + + μ x로 정의된 임의 변이 x with the cumulative distribution function and its inverse, a uniform random number on , follows the distribution truncated to the range 이것은 단순히 랜덤 변수를 시뮬레이션하는 역변환법이다.가장 간단한 방법 중 하나이지만, 이 방법은 정규 분포의 꼬리에서 표본을 추출할 때 실패하거나 너무 느릴 수 있다.[6][7]따라서 실제로 시뮬레이션의 대안적 방법을 찾아야 한다.null

트란던과 같이 잘린 일반 제너레이터(MatlabR(프로그래밍 언어)에서 구현됨)R )은 마르사글리아로 인한 수용거부 사상에 근거한다.[8]로버트(1995)에 비해 마르사글리아(1964)의 수용률이 약간 뒤떨어졌음에도 불구하고, 마사글리아의 방법은 지수함수의 값비싼 수치평가를 필요로 하지 않기 때문에 일반적으로 [7]더 빠르다.null

잘린 정규 분포에서의 추첨 시뮬레이션에 대한 자세한 내용은 Robert(1995), Lynch(2007) 섹션 8.1.3(200–206페이지), Devroye(1986)를 참조하십시오.R의 MSM 패키지에는 잘린 정상에서 끌어오는 함수 rtnorm이 있다.R의 트렁크노멀 패키지에는 잘린 정상에서 끌어내는 기능도 있다.null

쇼팽(2011년)은 마르사글리아와 창(1984년, 2000년)의 지그구라트 알고리즘에서 영감을 받은 알고리즘을 제안(ArXiv)했는데, 보통 가장 빠른 가우스 샘플러로 간주되며, 아렌스의 알고리즘(1995년)과도 매우 가깝다.구현은 C, C++, MatlabPython에서 확인할 수 있다.null

다변량이 잘린 정규 분포에서 표본을 추출하는 것은 상당히 어렵다.[9]정확하거나 완벽한 시뮬레이션은 폴리토프 지역에 대한 정규 분포가 잘린 경우에만 가능하다.[9][10] 더 일반적인 경우, 데미안 및 워커(2001)는 Gibbs 샘플링 프레임워크 내에서 잘린 밀도를 샘플링하기 위한 일반적인 방법론을 도입한다.그들의 알고리즘은 하나의 잠재적 변수를 도입하며, Gibbs 샘플링 프레임워크 내에서 Robert(1995)의 알고리즘보다 연산적으로 더 효율적이다.null

참고 항목

메모들

  1. ^ "Lecture 4: Selection" (PDF). web.ist.utl.pt. Instituto Superior Técnico. November 11, 2002. p. 1. Retrieved 14 July 2015.
  2. ^ Johnson, N.L, Kotz, S, Balakrishnan, N. (1994) Continuous Univariate Distributions, Volume 1, Wily.ISBN 0-471-58495-9 (제10.1절)
  3. ^ Fernandez-de-Cossio-Diaz, Jorge (2017-12-06), TruncatedNormal.jl: Compute mean and variance of the univariate truncated normal distribution (works far from the peak), retrieved 2017-12-06
  4. ^ Greene, William H. (2003). Econometric Analysis (5th ed.). Prentice Hall. ISBN 978-0-13-066189-0.
  5. ^ 문서: Eric Orjebin, "https://people.smp.uq.edu.au/YoniNazarathy/teaching_projects/studentWork/EricOrjebin_TruncatedNormalMoments.pdf"
  6. ^ Kroese, D. P.; Taimre, T.; Botev, Z. I. (2011). Handbook of Monte Carlo methods. John Wiley & Sons.
  7. ^ a b Botev, Z. I.; L'Ecuyer, P. (2017). "Simulation from the Normal Distribution Truncated to an Interval in the Tail". 10th EAI International Conference on Performance Evaluation Methodologies and Tools. 25th–28th Oct 2016 Taormina, Italy: ACM. pp. 23–29. doi:10.4108/eai.25-10-2016.2266879. ISBN 978-1-63190-141-6.{{cite conference}}: CS1 maint : 위치(링크)
  8. ^ Marsaglia, George (1964). "Generating a variable from the tail of the normal distribution". Technometrics. 6 (1): 101–102. doi:10.2307/1266749. JSTOR 1266749.
  9. ^ a b Botev, Z. I. (2016). "The normal law under linear restrictions: simulation and estimation via minimax tilting". Journal of the Royal Statistical Society, Series B. 79: 125–148. arXiv:1603.04166. doi:10.1111/rssb.12162. S2CID 88515228.
  10. ^ Botev, Zdravko & L'Ecuyer, Pierre (2018). "Chapter 8: Simulation from the Tail of the Univariate and Multivariate Normal Distribution". In Puliafito, Antonio (ed.). Systems Modeling: Methodologies and Tools. EAI/Springer Innovations in Communication and Computing. Springer, Cham. pp. 115–132. doi:10.1007/978-3-319-92378-9_8. ISBN 978-3-319-92377-2. S2CID 125554530.

참조