역변환 표본 추출
Inverse transform sampling의사 난수 샘플링을 위해 어떤 확률 분포의 누적 분포에서 지정된 무작위로 표본 번호를 생성하는에 역변환(또한 반전 시식회, 간접 귀납 확률 적분 변환 역 변환 법, 스미르노프 변환, 황금 rule[1]으로 알려져)샘플링은 기본적인 방법, 즉,. 재미기계 장치를 달다
역변환 추출한 다음){\displaystyle)}유통 P의 도메인에서 가장 큰 수를 반환합니다(X){P(X)\displaystyle}가 P(− ∞<>X<>))≤ 너{\displaystyle P(-\infty<0과 1사이의 숫자를 u{\displaystyle u}, 확률로 해석의 균일한 샘플이 걸린다.;X<, x)\leq예를 들어, ( ) 이 (가) 평균 0과 표준 편차가 1인 표준 정규 분포라고 가정해 보십시오.아래 표는 균일한 분포에서 추출한 표본과 표준 정규 분포에 대한 표본을 나타낸다.
.5 | 0 |
.975 | 1.95996 |
.995 | 2.5758 |
.999999 | 4.75342 |
1-2−52 | 8.12589 |
우리는 곡선 아래 면적의 비율을 무작위로 선택하고 영역의 숫자를 반환하여 면적의 정확히 이 비율이 그 면적의 왼쪽에서 발생하도록 하고 있다.직관적으로, 꼬리의 끝에는 0이나 1에 매우 가까운 숫자를 선택해야 하는 영역이 거의 없기 때문에, 우리는 꼬리의 끝에서 숫자를 선택할 것 같지 않다.
계산적으로, 이 방법은 분포의 계량함수 계산, 즉, 분포의 누적분포함수(CDF) 계산(영역의 숫자를 0과 1 사이의 확률로 매핑)을 한 다음 그 함수를 뒤집는 것을 포함한다.이것은 이 방법의 대부분의 이름에서 "반복" 또는 "반복"이라는 용어의 근원이다.이산형 분포의 경우 CDF 계산은 일반적으로 그리 어렵지 않다는 점에 유의하십시오. 즉, 분포의 다양한 점에 대한 개별 확률을 추가하면 된다.그러나 연속분포를 위해서는 대부분의 분포(정상분포 포함)에 대해 분석적으로 할 수 없는 분포의 확률밀도함수(PDF)를 통합할 필요가 있다.결과적으로, 이 방법은 많은 분포에 대해 계산적으로 비효율적일 수 있고 다른 방법을 선호하지만, 기각 샘플링에 기초한 샘플러와 같이 보다 일반적으로 적용 가능한 샘플러를 구축하는 데 유용한 방법이다.
정규 분포의 경우 해당 정량함수에 대한 분석 표현이 부족하면 다른 방법(예: Box-Muller 변환)이 계산적으로 선호될 수 있음을 의미한다.단순한 분포의 경우에도 역변환 샘플링 방법이 개선될 수 있는 경우가 많다. 예를 들어, 지구라트 알고리즘과 거부 샘플링을 참조하라.[2]한편, 중등도 다항식을 이용하여 정규 분포의 정량함수를 극히 정확하게 추정할 수 있으며, 사실 이 방법은 역전 샘플링이 이제 통계 패키지 R의 정규 분포로부터 샘플링을 위한 기본 방법이 될 정도로 충분히 빠르다.[3]
정의
확률 적분 변환은 이가) 누적 분포 함수 를 갖는 연속 랜덤 변수인 경우, 랜덤 변수 = ( X) 이 [0, 1]에 균일한 분포를 갖는다고 명시한다.The inverse probability integral transform is just the inverse of this: specifically, if has a uniform distribution on [0, 1] and if has a cumulative distribution , then the random variable hasX 과 동일한 분포.
직감
~ f[ 에서 CDF X() .)가 있는 X를 생성하고자 한다 우리는 F ( ) 을(를) 엄격히 증가시키는 함수로 가정하며, 이는 좋은 직관을 제공한다.
엄격히 단조로운 변환 :[ R 을(를) 찾을 수 있는지 확인하고 싶다. ()=
서 U 이 (가) , 1) U}이(가) 균일할 때 y)= y 이(가가 사용된 마지막 단계
그래서 는 F 를 T 의 역함수로 설정하였고 또는 동등하게 = -1 ), [ , . 의 역함수로 설정하였다.
따라서 는 F - (U ) 에서 X 을(를) 생성할 수 있다
방법
역변환 표본 추출법이 해결하는 문제는 다음과 같다.
역변환 표본 추출 방법은 다음과 같이 작용한다.
- 표준 균등 분포에서 임의의 ]의 간격 1 예: ~ f [ {\을 생성하십시오.
- 원하는 CDF의 역(예: F - ( ) F_를 찾으십시오
- 계산 = X- ( ) .계산된 임의 변수 에는 분포 ( x) 이(가) 있다
Expressed differently, given a continuous uniform variable in and an invertible cumulative distribution function , the random variable has distribution X 이 (가) 배포됨.
미분 방정식을 만족하는 물체와 같은 역함수의 처리가 주어질 수 있다.[4]일부 그러한 미분방정식은 비선형성에도 불구하고 명시적인 파워 시리즈 솔루션을 인정한다.[citation needed]
예
- 예를 들어, 랜덤 변수 ~ (, 1) 과 누적 분포 함수가 있다고 가정합시다.
- 역전을 수행하기 위해 - ()= 에 대해 해결하고자 한다.
- 여기서부터 우리는 1, 2, 3단계를 수행할 것이다.
- ) )에서 0을 약간 그려서 =F -1 ( )= - ln( -) ,{\0}}=}=}을 의미함}^{-1{1 이 은 지수 분포를 가지고 있다.
- 이 아이디어는 다음 그래프에 설명되어 있다.
- 임의의 숫자 y는i 0과 1 사이의 균일한 분포로부터 생성된다. 즉, Y ~ U(0, 1)Y축에 컬러 포인트로 스케치한다.각 점은 x=F−1(y)에 따라 매핑되며, 두 개의 예시점에 대해 회색 화살표로 표시된다.이 예에서는 지수 분포를 사용했다.Hence, for x ≥ 0, the probability density is and the cumulative distribution function is . Therefore, 이 방법을 사용하면 많은 점이 0에 가깝고, 지수 분포에서 예상한 것처럼 x 값이 높은 점만 있는 것을 알 수 있다.
- y 대신 1-y로 시작하면 분포가 변경되지 않는다는 점에 유의하십시오.따라서 계산상 [0, 1]에서 임의의 숫자 y를 생성하고 간단하게 계산하면 된다.
정확성 증명
F를 연속적 누적분포함수로 하고−1 F를 역함수로 한다(CDF가 약하게 단조롭고 우연속적이기 때문에 최소값 사용).[5]
클레임: U가 (0, 1)의 균일한 랜덤 변수인 - 1( ) 이(가) CDF로 F를 가지고 있다.
증명:
잘린 분포
역변환 표본 추출은 기각 표본 추출 비용 없이 구간, 의 잘린 분포 사례로 간단히 확장할 수 있다. 동일한 알고리즘을 따를 수 있지만 0과 1 사이에 균일하게 분포된 임의 숫자 을(으)를 생성하는 대신 를 생성하십시오.은(는 과) F 사이에 균일하게 분포한 다음 다시 - F를취한다.
반전 횟수 감소
많은 수의 표본을 얻으려면 동일한 수의 분포를 수행해야 한다.다항식 혼돈 확장 프레임워크 내에서 많은 수의 표본을 얻으면서 반전 횟수를 줄일 수 있는 한 가지 가능한 방법은 소위 확률적 콜로케이션 몬테카를로 샘플러(SCMC sampler)를 적용하는 것이다.이를 통해 분석적으로 사용할 수 있는 변수의 독립적인 표본(예: 표준 정규 변수)으로 원래 분포의 몇 개의 반전만을 가진 임의의 수의 몬테카를로 표본을 생성할 수 있다.[6]
참고 항목
참조
- ^ Aalto University, N. Hyvönen, 역 문제에서의 연산 방법.12번째 강의 https://noppa.tkk.fi/noppa/kurssi/mat-1.3626/luennot/Mat-1_3626_lecture12.pdf[permanent dead link]
- ^ Luc Devroye (1986). Non-Uniform Random Variate Generation (PDF). New York: Springer-Verlag.
- ^ "R: Random Number Generation".
- ^ 스타인브레처, G, 쇼, W.T. (2008)양자역학.European Journal of Applied Math 19(2): 87–112.
- ^ Luc Devroye (1986). "Section 2.2. Inversion by numerical solution of F(X) = U" (PDF). Non-Uniform Random Variate Generation. New York: Springer-Verlag.
- ^ LA 그르젤락, J.A.S.위트베엔, M. 수아레스, C.W.오스테리.확률적 결합 몬테 카를로 샘플러:"비용" 분포를 통한 고효율 샘플링.https://ssrn.com/abstract=2529691