중요도 샘플링

Importance sampling

중요도 표본 추출은 특정 분포의 특성을 평가하기 위한 몬테카를로 방법이며, 관심 분포와는 다른 분포에서 생성된 표본만을 가진다.통계학에서의 그것의 도입은 일반적으로 [1]1978년 클록과 허먼 K. 반 다이크의 논문에 기인하지만,[2][3] 그것의 전조는 1949년 통계 물리학에서 발견될 수 있다.중요도 표본 추출은 계산 물리학에서 우산 표본 추출과도 관련이 있습니다.응용 프로그램에 따라 이 용어는 이 대체 분포에서 샘플링하는 과정, 추론 과정 또는 둘 모두를 나타낼 수 있습니다.

기본 이론

: R {\ {R a 、 F ,P ) 、 displaystyle ( \ , { \ { } , )、 p 、 p p p p p 、 X 、 、 、 p p p p p p p p p p p p p p p p p p p p p of of of p p p 。통계적으로 독립된 1, (\이 P에 따라 생성된 경우 E[X;P]의 경험적 추정치는 다음과 같습니다.

이 추정치의 정밀도는 X의 분산에 따라 달라집니다.

중요도 표본 추출의 기본 개념은 다른 분포에서 상태를 표본 추출하여 E[X;P] 추정의 분산을 낮추거나 P에서 표본 추출이 어려운 경우이다.이것은 우선 랜덤 L0 ( \ L \ 0 )를 선택하고 E [ L ; P ]= 1、 P - 0\ L ( \ ) \ 0. 0 l 、 Ll l l 、 L \ P) l l l l l a a a a p this a a a a p p p p p p p p p this this this thisthis this this0 。L ( L ( L ) ) { p this this this l l l this this

따라서 변수 X/L은 위와 같이 P [X;P]를(L) 샘플링하여 E [ ; ( L) [ ; { style \} \[ { \ { X} { L } > ^ { } } var var var var var var var var var var var var var 。

X가 δ 위에 일정한 부호일 , 최적의 변수 L은 분명히 L [X; ] 00 0 { l^ { * } ={ } { \ } } } \ 0입니다.그러면 X/L검색됩니다.유감스럽게도 E[X;P]가 바로 우리가 찾고 있는 가치이기 때문에 우리는 그 선택을 할 수 없습니다.그러나 이 이론적인 베스트 케이스 L*를 통해 샘플링의 중요도를 파악할 수 있습니다.

오른쪽에 P( [ ; + a a , \ ; + ])}은는) E[X;P]까지 합하는 극소수 요소 중 하나입니다.

따라서 중요도 표본의 좋은 확률 변화(L) P는 X의 법칙을 재분배하여 표본의 빈도가 E[X;P]의 가중치에 따라 직접 정렬되도록 한다.따라서 "중요도 샘플링"이라는 이름이 붙습니다.

중요도 샘플링은 몬테카를로 적분자로 자주 사용됩니다.P{\ P 균일한 분포이고 {\ =\, E[X;P]는 {\ X \R의 적분에 해당합니다.

확률론적 추론에 대한 적용

그러한 방법은 예를 들어 베이지안 네트워크에서 분석적으로 처리하기에 너무 어려운 확률론적 모델에서 상태 및/또는 매개변수 추정 문제의 후방 밀도 또는 예상치를 추정하는 데 자주 사용된다.

시뮬레이션에의 적용

중요도 표본 추출은 몬테카를로 방법에 사용할 수 있는 분산 감소 기법이다.중요도 표본 추출의 이면에 있는 아이디어시뮬레이션에서 입력 랜덤 변수의 특정 값이 다른 값보다 추정되는 매개변수에 더 많은 영향을 미친다는 것입니다.이러한 "중요한" 값을 더 자주 표본 추출하여 강조하면 추정기 분산을 줄일 수 있습니다.따라서 중요도 표본 추출의 기본 방법론은 중요한 값을 "장려"하는 분포를 선택하는 것이다.이러한 "편향된" 분포를 사용하면 시뮬레이션에 직접 적용될 경우 편향된 추정치가 발생합니다.그러나 시뮬레이션 출력은 편향된 분포를 사용하기 위해 가중치를 부여하고, 이는 새로운 중요도 샘플링 추정기가 편향되지 않도록 보장합니다.가중치는 우도비, 즉 편향된 시뮬레이션 분포와 관련하여 실제 기본 분포의 라돈-니코딤 도함수에 의해 주어진다.

중요도 샘플링 시뮬레이션을 구현할 때 근본적인 문제는 입력 변수의 중요한 영역을 장려하는 편향된 분포의 선택이다.치우친 분포를 선택하거나 설계하는 것이 중요도 표본 추출의 "기술"입니다.좋은 분포에 대한 보상은 런타임에 큰 절약이 될 수 있습니다.나쁜 분포에 대한 벌칙은 중요도 샘플링이 없는 일반적인 몬테카를로 시뮬레이션보다 더 긴 실행 시간이 될 수 있습니다.

X X 표본으로 f g {\ 우도비로 한다. f(\ f 원하는 분포의 확률밀도(질량) 함수,(\ g 편향된 분포의 확률밀도(질량) 함수이다.로포잘/표본 분포.그런 다음 스케일링된 샘플의 분산을 최소화하는 샘플 g\g를 선택하여 문제를 특징지을 수 있습니다.

다음 분포가 위의 [4]분산을 최소화하는 것을 알 수 있습니다.

X0 { X \ 0}이면 이 분산은 0이 됩니다.

수학적 접근법

시뮬레이션으로 pt tt {\ X t 추정하는 것을 고려합니다. X {\ X 분포F {\ F확률 밀도 f F갖는 랜덤 변수입니다에노트파생물F({ F에서 K K 길이의 독립적이고 동일한 분포(i.d.) 되어 t({ 초과하는 랜덤 변수 k})가 카운트된다.랜덤 t 이항 분포로 특징지어집니다.

[ t / ] t{ \ {} [ k { } =_ {} 、 [ / ] t ( - ) / \ } [ k / K } = { t } K } = { } K } } that that that that that that that that that that that that that that that that that that that that that that that that that that that that that that t1 {\ \ 1이면이 낮다는 점에 유의하십시오. 중요도 샘플링은 일반적으로 시뮬레이션 실험에서 바이어싱 밀도(biasing 로 불리는 대체 밀도 f 및 사용에 관한 것입니다.이 밀도를 통해 이벤트 Xt \ \ displaystyle { X \ t \ 더 자주 발생하므로 K { \ K} 가 특정 추정치 분산에 대해 작아집니다.또는, K(\ K에 대해 바이어스 밀도를 사용하면 기존의 몬테카를로 추정치보다 작은 편차가 발생한다. t{ style p { }{\ 、 f { style f _ { *} , as를 다음과 같이 할 수 있습니다.

어디에

는 우도비이며 가중치 함수라고 불립니다.위의 방정식의 마지막 등식은 추정자에게 동기를 부여합니다.

이것은 p \ t},}의 중요도 샘플링 추정치로, 치우침이 없습니다.즉, 견적 절차는 f {\ f_에서 i.d. sample을 생성하는 것으로 t {\ t하는 각 샘플에 대해 견적값에서 평가한 W W 견적이 증가합니다.결과는 K Kamp;시험에서 되었습니다.중요도 표본 추출 추정기의 분산은 다음과 같이 쉽게 나타납니다.

이제 중요도 샘플링 문제는 중요도 샘플링 추정기의 분산이 일반적인 몬테카를로 추정치의 분산보다 작도록 바이어스 fδ(\ 찾는 데 초점을 맞춘다.분산을 최소화하고 특정 조건에서 분산을 0으로 줄이는 일부 바이어스 밀도 함수의 경우 최적 바이어스 밀도 함수라고 합니다.

종래의 바이어스 방법

바이어스 방법에는 여러 종류가 있지만, 다음 두 가지 방법이 중요도 샘플링에 가장 널리 사용된다.

스케일링

랜덤 변수 X(\ X,\)의 양의 스케일링에 의해 확률 을 이벤트 영역 Xt {\X t 이동시키면 밀도 함수의 분산(평균)이 증가하는 효과가 있습니다.이로 인해 밀도의 꼬리가 무거워져 사건 확률이 높아집니다.스케일링은 아마도 알려진 가장 초기의 바이어스 방식 중 하나이며 실제로 광범위하게 사용되어 왔습니다.구현이 간단하며 일반적으로 다른 방법에 비해 보수적인 시뮬레이션 이득을 제공합니다.

스케일링에 의한 중요도 샘플링에서 시뮬레이션 밀도는 스케일링된 랜덤 의 밀도 함수로서 선택됩니다.여기서 테일 확률 추정을 위해 > \ 입니다.변환에 의해,

가중치 함수는

스케일링은 확률 질량을 원하는 이벤트 영역으로 이동시키지만 질량을 보완 X < \ X < , t , )로 밀어 넣기도 합니다.이것은 바람직하지 않습니다.X X n n 랜덤 변수의 질량의 확산은 n n차원 에서 발생합니다.그 결과 n n의 증가에 중요도 샘플링 게인이 감소하며 이를 차원 효과라고 합니다.스케일링에 의한 중요도 샘플링의 최신 버전은 예를 들어 스케일링 계수가 다른 다중 몬테카를로(MC) 분석을 실행하는 이른바 시그마 스케일링 샘플링(SSS)이다.다른 많은 고수율 추정 방법과는 반대로(최악의 경우 거리 WCD와 마찬가지로) SSS는 치수성 문제를 크게 겪지 않는다.또, 복수의 MC 출력에 대응해도, 효율의 저하가 발생하지 않습니다.한편, WCD로서 SSS는 가우스 통계 변수 전용으로 설계되어 있으며, WCD와 반대로 SSS 방법은 정확한 통계 코너를 제공하도록 설계되어 있지 않습니다.또 다른 SSS 단점은 모델 및 시뮬레이터 수렴 문제로 인해 MC가 대규모 인자와 함께 작동하기 어려울 수 있다는 것이다.또한 SSS에서 우리는 강한 바이어스-분산 트레이드오프에 직면한다: 대규모 스케일 팩터를 사용하면 상당히 안정적인 수율 결과를 얻을 수 있지만 스케일 팩터가 클수록 바이어스 오차가 커진다.SSS의 장점이 관심 있는 적용에 그다지 중요하지 않은 경우, 종종 다른 방법이 더 효율적입니다.

번역.

또 다른 간단하고 효과적인 바이어싱 기술은 밀도 함수(및 랜덤 변수)의 변환을 사용하여 확률 질량의 대부분을 희귀 사건 영역에 배치한다.번역은 차원 효과의 영향을 받지 않으며 디지털 통신 시스템의 시뮬레이션과 관련된 여러 응용 프로그램에서 성공적으로 사용되어 왔습니다.확장보다 더 나은 시뮬레이션 이점을 제공하는 경우가 많습니다.번역에 의한 바이어스에서는 시뮬레이션 밀도는 다음과 같이 주어진다.

서 c c 이동량이며 중요도 샘플링 추정기의 분산을 최소화하기 위해 선택해야 합니다.

시스템 복잡성의 영향

중요도 샘플링의 근본적인 문제는 시스템의 복잡성이 증가함에 따라 양호한 편향 분포 설계가 더욱 복잡해진다는 것입니다.복잡한 시스템은 몇 가지 입력을 복잡하게 처리하는 것이 훨씬 쉽기 때문에 메모리가 긴 시스템입니다.이 치수 또는 메모리는 다음의 3가지 방법으로 문제를 일으킬 수 있습니다.

이러한 상황에서 중요도 표본 추출 아이디어는 원칙적으로 동일하게 유지되지만 설계는 훨씬 더 어려워집니다.이 문제를 해결하기 위한 성공적인 접근법은 기본적으로 시뮬레이션을 보다 작고 명확하게 정의된 하위 문제로 세분화하는 것입니다.그런 다음 중요도 샘플링 전략을 사용하여 각 간단한 하위 문제를 대상으로 합니다.시뮬레이션을 분해하는 기법의 예로는 컨디셔닝 및 오류 이벤트 시뮬레이션(EES) 및 재생 시뮬레이션이 있습니다.

중요도 샘플링 평가

성공적인 중요도 샘플링 기법을 식별하기 위해서는 중요도 샘플링 접근방식을 사용하여 런타임 절약을 정량화할 수 있는 것이 유용합니다.일반적으로 사용되는 퍼포먼스 측정치는 " 2 / S \ _ {}^{2 / \_ { 이는 중요도 샘플링 추정기가 MC 추정기와 동일한 정밀도를 달성하는 속도 향상 계수로 해석할 수 있습니다.평균이 다루기 어려운 경우에는 추정기 분산이 분석적으로 가능하지 않을 가능성이 높기 때문에 경험적으로 계산해야 합니다.중요도 표본 추출 추정기를 수량화할 때 다른 유용한 개념은 분산 한계와 점근 효율의 개념입니다.관련된 척도의 하나는 이른바 유효 표본 크기(ESS)[5]입니다.

분산비용함수

분산은 시뮬레이션을 위해 가능한 유일한 비용 함수는 아니며, 평균 절대 편차와 같은 다른 비용 함수는 다양한 통계 애플리케이션에서 사용됩니다.그럼에도 불구하고, 분산은 문헌에서 다루어지는 주요 비용 함수이며, 아마도 신뢰 구간과 성능 측정 2 / I 2 \ style \_ {} {{_{\ _{}

관련된 문제는 비율 ' 2 / I \ \ _ { }^{2 / \ _ {IS은(는) 가중치 함수를 계산하는 데 필요한 추가 컴퓨팅 시간을 포함하지 않기 때문에 중요도 샘플링으로 인한 런타임 절감 효과를 과대 평가합니다.따라서, 일부 사람들은 다양한 방법으로 순 런타임 개선을 평가합니다.중요도 표본 추출에 대한 보다 심각한 오버헤드는 기법을 고안 및 프로그래밍하고 원하는 가중치 함수를 분석적으로 도출하는 데 걸리는 시간일 것이다.

다중 적응형 중요도 샘플링

다른 제안 g( ), 1,, N, \ n1 , , \ x 1,… , , \ display \,{ , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , ,적응형 설정에서는 제안 분포 () { g_ , , 1, , , { n 1 , , N ,} t 1 , ... ,, \ 1, \ , T , t} 가 tstyle의 중요도는 적응형식으로 표시됩니다.따라서 제안 밀도의 모집단이 사용되기 때문에 샘플링 및 가중치 구성의 몇 가지 적절한 조합을 [10][11][12][13][14][15][16]사용할 수 있다.

「 」를 참조해 주세요.

메모들

  1. ^ Kloek, T.; van Dijk, H. K. (1978). "Bayesian Estimates of Equation System Parameters: An Application of Integration by Monte Carlo". Econometrica. 46 (1): 1–19. doi:10.2307/1913641.
  2. ^ Goertzle, G. (1949). "Quota Sampling and Importance Functions in Stochastic Solution of Particle Problems". Technical Report ORNL-434, Oak Ridge National Laboratory.
  3. ^ Kahn, H.; Harris, T. E. (1949). "Estimation of Particle Transmission by Random Sampling". Monte Carlo Method. Applied Mathematics Series. National Bureau of Standards. 12: 27–30.
  4. ^ Rubinstein, R. Y., & Kroese, D. P. (2011년)시뮬레이션과 몬테카를로 방법(Vol. 707)John Wiley & Sons.
  5. ^ Martino, Luca; Elvira, Víctor; Louzada, Francisco (2017). "Effective sample size for importance sampling based on discrepancy measures". Signal Processing. 131: 386–401. arXiv:1602.03572. doi:10.1016/j.sigpro.2016.08.025.
  6. ^ Veach, Eric; Guibas, Leonidas J. (1995-01-01). Optimally Combining Sampling Techniques for Monte Carlo Rendering. Proceedings of the 22Nd Annual Conference on Computer Graphics and Interactive Techniques. SIGGRAPH '95. New York, NY, USA: ACM. pp. 419–428. CiteSeerX 10.1.1.127.8105. doi:10.1145/218380.218498. ISBN 978-0-89791-701-8.
  7. ^ Owen, Art; Associate, Yi Zhou (2000-03-01). "Safe and Effective Importance Sampling". Journal of the American Statistical Association. 95 (449): 135–143. CiteSeerX 10.1.1.36.4536. doi:10.1080/01621459.2000.10473909. ISSN 0162-1459.
  8. ^ Elvira, V.; Martino, L.; Luengo, D.; Bugallo, M.F. (2015-10-01). "Efficient Multiple Importance Sampling Estimators". IEEE Signal Processing Letters. 22 (10): 1757–1761. arXiv:1505.05391. Bibcode:2015ISPL...22.1757E. doi:10.1109/LSP.2015.2432078. ISSN 1070-9908.
  9. ^ Elvira, Víctor; Martino, Luca; Luengo, David; Bugallo, Mónica F. (2017). "Improving population Monte Carlo: Alternative weighting and resampling schemes". Signal Processing. 131: 77–91. arXiv:1607.02758. doi:10.1016/j.sigpro.2016.07.012.
  10. ^ Cappé, O.; Guillin, A.; Marin, J. M.; Robert, C. P. (2004-12-01). "Population Monte Carlo". Journal of Computational and Graphical Statistics. 13 (4): 907–929. doi:10.1198/106186004X12803. ISSN 1061-8600.
  11. ^ Martino, L.; Elvira, V.; Luengo, D.; Corander, J. (2017-05-01). "Layered adaptive importance sampling". Statistics and Computing. 27 (3): 599–623. arXiv:1505.04732. doi:10.1007/s11222-016-9642-5. ISSN 0960-3174.
  12. ^ Cappé, Olivier; Douc, Randal; Guillin, Arnaud; Marin, Jean-Michel; Robert, Christian P. (2008-04-25). "Adaptive importance sampling in general mixture classes". Statistics and Computing. 18 (4): 447–459. arXiv:0710.4242. doi:10.1007/s11222-008-9059-x. ISSN 0960-3174.
  13. ^ Cornuet, Jean-Marie; Marin, Jean-Michel; Mira, Antonietta; Robert, Christian P. (2012-12-01). "Adaptive Multiple Importance Sampling". Scandinavian Journal of Statistics. 39 (4): 798–812. arXiv:0907.1254. doi:10.1111/j.1467-9469.2011.00756.x. ISSN 1467-9469.
  14. ^ Martino, L.; Elvira, V.; Luengo, D.; Corander, J. (2015-08-01). "An Adaptive Population Importance Sampler: Learning From Uncertainty". IEEE Transactions on Signal Processing. 63 (16): 4422–4437. Bibcode:2015ITSP...63.4422M. CiteSeerX 10.1.1.464.9395. doi:10.1109/TSP.2015.2440215. ISSN 1053-587X.
  15. ^ Bugallo, Mónica F.; Martino, Luca; Corander, Jukka (2015-12-01). "Adaptive importance sampling in signal processing". Digital Signal Processing. Special Issue in Honour of William J. (Bill) Fitzgerald. 47: 36–49. doi:10.1016/j.dsp.2015.05.014.
  16. ^ Bugallo, M. F.; Elvira, V.; Martino, L.; Luengo, D.; Miguez, J.; Djuric, P. M. (July 2017). "Adaptive Importance Sampling: The past, the present, and the future". IEEE Signal Processing Magazine. 34 (4): 60–79. Bibcode:2017ISPM...34...60B. doi:10.1109/msp.2017.2699226. ISSN 1053-5888.

레퍼런스

  • Arouna, Bouhari (2004). "Adaptative Monte Carlo Method, A Variance Reduction Technique". Monte Carlo Methods and Their Applications. 10 (1): 1–24. doi:10.1515/156939604323091180.
  • Bucklew, James Antonio (2004). Introduction to Rare Event Simulation. New York: Springer-Verlag.
  • Doucet, A.; de Freitas, N.; Gordon, N. (2001). Sequential Monte Carlo Methods in Practice. Springer. ISBN 978-0-387-95146-1.
  • Ferrari, M.; Bellini, S. (2001). Importance Sampling simulation of turbo product codes. The IEEE International Conference on Communications. Vol. 9. pp. 2773–2777. doi:10.1109/ICC.2001.936655. ISBN 978-0-7803-7097-5.
  • Mazonka, Oleg (2016). "Easy as Pi: The Importance Sampling Method" (PDF). Journal of Reference. 16.
  • Oberg, Tommy (2001). Modulation, Detection, and Coding. New York: John Wiley & Sons.
  • Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "Section 7.9.1 Importance Sampling". Numerical Recipes: The Art of Scientific Computing (3rd ed.). New York: Cambridge University Press. ISBN 978-0-521-88068-8.
  • Ripley, B. D. (1987). Stochastic Simulation. Wiley & Sons.
  • Smith, P. J.; Shafi, M.; Gao, H. (1997). "Quick simulation: A review of importance sampling techniques in communication systems". IEEE Journal on Selected Areas in Communications. 15 (4): 597–613. doi:10.1109/49.585771.
  • Srinivasan, R. (2002). Importance sampling – Applications in communications and detection. Berlin: Springer-Verlag.

외부 링크