대략적인 베이시안 연산
Approximate Bayesian computation다음에 대한 시리즈 일부 |
베이지안 통계 |
---|
![]() |
이론 |
기술 |
대략적인 베이시안 연산(ABC)은 모델 매개변수의 후방 분포를 추정하는 데 사용할 수 있는 베이시안 통계에 뿌리를 둔 연산 방법을 구성한다.
모든 모델 기반 통계 추론에서, 우도 함수는 특정 통계 모델에서 관측된 데이터의 확률을 나타내며, 따라서 매개변수의 특정 값과 다른 모델 사이의 선택에 빌려주는 지원 데이터를 정량화하므로 중심적인 중요성을 갖는다.단순 모형의 경우 일반적으로 우도함수에 대한 해석 공식을 도출할 수 있다.그러나 더 복잡한 모델의 경우 분석 공식은 이해하기 어렵거나 우도 함수를 계산적으로 평가하는데 매우 많은 비용이 들 수 있다.
ABC 방법은 우도함수의 평가를 우회한다.이러한 방식으로 ABC 방법은 통계적 추론을 고려할 수 있는 모델의 영역을 넓힌다.ABC 방법은 수학적으로 근거가 충분하지만, 불가피하게 영향을 신중하게 평가할 필요가 있는 가정과 근사치를 만든다.더욱이, ABC의 넓은 적용 영역은 매개변수 추정과 모델 선택의 도전을 악화시킨다.
ABC는 지난 몇 년 동안, 특히 생물학에서 발생하는 복잡한 문제(예: 인구유전학, 생태학, 역학, 시스템 생물학, 전파 전파 전파)의 분석으로 빠르게 인기를 얻었다.[1]
역사
최초의 ABC 관련 아이디어는 1980년대로 거슬러 올라간다.도날드 루빈은 1984년 베이시안 성명의 해석을 논의할 때 후분포에서 표본을 추출하는 가상의 샘플링 메커니즘을 설명했다.[2]이 계획은 매개변수의 후방 분포를 유추할 때 어떤 유형의 조작이 수행되는지 증명하기 위한 개념적 사고 실험에 가까웠다.샘플링 메커니즘에 대한 설명은 ABC-배출 방식의 설명과 정확히 일치하며, 이 글은 대략적인 베이시안 계산을 최초로 기술한 것으로 간주할 수 있다.그러나 1800년대 후반 프란시스 갈튼에 의해 2단계의 Quincunx가 건설되었는데, 이는 단일 미지의 (변수)와 단일 관측에 대한 ABC 거부 계획의 물리적인 실행으로 볼 수 있다.[3]또 다른 선견지명은 루빈이 베이시안 추론에서 적용된 통계학자들이 분석적으로 추적 가능한 모델에만 안주하지 말고, 대신에 관심의 후방 분포를 추정할 수 있는 계산법을 고려해야 한다고 주장했을 때 그가 한 것이다.이런 식으로, 더 넓은 범위의 모델이 고려될 수 있다.이 주장들은 특히 ABC의 맥락에서 관련이 있다.
1984년에 피터 디글과 리처드 그랙튼은[4] 분석 형태가 난해한 상황에서 우도함수의 근사치를 위해 체계적인 시뮬레이션 방법을 사용할 것을 제안했다.그들의 방법은 매개변수 공간에 격자를 정의하고 각 격자점에 대해 여러 개의 시뮬레이션을 실행하여 가능성을 근사화하기 위해 그것을 사용하는 것에 기초했다.그런 다음 시뮬레이션 결과에 평활 기법을 적용하여 근사치를 개선했다.가설 시험에 시뮬레이션을 사용한다는 발상이 새로운 것은 아니지만,[5][6] Diggle과 Gratton은 가능성이 난해한 상황에서 통계 추론을 하기 위해 시뮬레이션을 이용한 첫 번째 절차를 도입한 것으로 보인다.
디글과 그라튼의 접근방식이 새로운 전경을 열었지만, 그들의 방법은 후분포보다는 가능성에 근접한 것을 목표로 했기 때문에, 아직 현재 ABC라고 알려진 것과 정확히 동일하지는 않았다.Simon Tavaré 등의 기사는 가장 먼저 후추론을 위한 ABC 알고리즘을 제안하였다.[7]그들의 정석적 연구에서는 DNA 시퀀스 데이터의 계보에 대한 추론이 고려되었고, 특히 표본 추출된 개인의 가장 최근의 공통 조상에 대한 당대의 후분포를 결정하는 문제가 고려되었다.그러한 추론은 많은 인구통계학적 모델에 대해 분석적으로 다루기 어렵지만, 저자들은 투입적 모델 아래에서 결합 나무를 시뮬레이션하는 방법을 제시했다.모형 매개변수의 후면에서 합성 데이터와 실제 데이터의 분리 부위의 수를 비교한 것에 근거한 제안을 수락/거부함으로써 표본을 얻었다.이 연구는 Jonathan K에 의해 인간 Y 염색체의 변동을 모델링하는 적용 연구가 뒤따랐다. 프리처드 [8]외ABC방식으로마지막으로, 대략적인 베이시안 연산이라는 용어는 Mark Beaumont 외 연구진에 의해 확립되어 [9]ABC 방법론을 더욱 확장하고 ABC-접근의 적합성을 인구유전학의 문제에 더 구체적으로 논의하였다.그 이후로, ABC는 시스템 생물학, 역학, 식물학 등 인구 유전학 외부의 응용 분야로 확산되었다.
방법
동기
베이즈 정리의 공통 화신은 특정 매개변수 값 의 조건부 확률(또는 밀도)을 에 의해 에 시킨다.
- ( )= p( ) () ( θ ) p ( ) p ( ) {\
where denotes the posterior, the likelihood, the prior, and the evidence (also referred to as the marginal likelihood or the prior predictive probability of the data).분모 ( ) 이(가) p ( D) D의 총 확률을 1 대 1로 정규화하고 있으며, 그렇게 계산할 수 있다는 점에 유의하십시오.
앞의 내용은 D을(를) 사용하기 전에 before 에 대한 믿음이나 지식(예: 물리적 제약)을 나타낸다.앞의 추정치는 불확실성을 좁히기 때문에, 후방 추정치는 분산이 적지만 편향될 수 있다.편의상 흔히 선행 확률의 평가와[\의 랜덤 생성 값이 모두 비교적 간단하도록 잘 알려져 있고 다루기 쉬운 분포 집합 중에서 특정 분포를 선택하여 이전 분포를 지정한다.특정 종류의 모델의 경우 조건부 분포의 순서에 따라 }의 모든 요소의 공동분포를 인자화하여 이전 (를 지정하는 것이 더 실용적이다. one 의 서로 다른 값의 상대적인 후방 타당성에만 관심이 있다면 증거 () 은 정규화 상수를 구성하므로 무시할 수 있으며, 이는 후확률의 비율에 대해 무효화된다.그러나 우도 ( p (와 이전 p (p을 평가하는 것이 여전히 필요하다 수많은 애플리케이션의 경우, 우도를 평가하는 것은 계산적으로 비용이 많이 들거나 심지어 완전히 실현 불가능한 일이며,[10] 이는 ABC를 사용하여 이 문제를 회피하도록 동기를 부여한다.
ABC 거부 알고리즘
모든 ABC 기반 방법은 시뮬레이션에 의한 우도 함수에 근사하며, 그 결과는 관측된 데이터와 비교된다.[11][12][13]좀 더 구체적으로, ABC 거부 알고리즘(ABC의 가장 기본적인 형태)을 사용하여 매개변수 점 집합을 먼저 이전 분포에서 추출한다.Given a sampled parameter point , a data set is then simulated under the statistical model specified by . If the generated is too d관측된 데이터 과와) 다를 경우 샘플링된 매개 변수 값은 폐기된다.정확한 용어로 과 같은 경우D ^ {\을(를) {\ 0과(와) 함께 허용한다
- ( , )
여기서 거리 측정값 ){\은 지정된 메트릭(예: 유클리드 거리)을 으로 D^{\ {}과 D 사이의 불일치 수준을 결정한다.시뮬레이션 결과가 데이터와 정확히 일치할 확률(사건 = D 은 ABC의 사소한 애플리케이션 이외에는 모두 무시할 수 있으므로, 실제로는 거의 모든 샘플링된 파라미터 포인트를 거부하게 될 것이기 때문에 엄격하게 양의 허용오차가 필요하다.ABC 거부 알고리즘의 결과는 원하는 후방 분포에 따라 근사적으로 분포된 매개변수 값의 표본이며, 결정적으로 우도 함수를 명시적으로 평가할 필요 없이 얻어진다.
요약통계
까지의 거리가 작은 데이터 세트 을(를) 생성할 확률은 일반적으로 데이터의 치수성이 증가함에 따라 감소한다.이는 위의 기본 ABC 거부 알고리즘의 계산 효율을 현저히 저하시키는 결과를 초래한다.이 문제를 줄이기 위한 일반적인 접근법은 을(를) D 의 저차원 요약통계 으로 대체하는 것이다 이 통계는 에서 관련 정보를 캡처하도록 선택된다 ABC 거부 알고리즘의 허용 기준은 다음과 같이 된다.
- ( ( ), ( ) { S
매개 변수 ▼ 에 대한 요약 통계량이 충분할 경우 이러한 방법으로 얻은 효율성 증가는 오류를 발생시키지 않는다.[14]실제로, 충분성은 에 대한 의 모든 정보가 () 에 의해 캡처된다는 것을 의미한다
아래에 자세히 설명했듯이, 충분한 통계량의 유한 차원 집합을 식별하는 것은 지수 분포의 외부에서는 일반적으로 불가능하다.그럼에도 불구하고, ABC 방법으로 추론을 수행하는 응용 프로그램에서는 유용하지만 불충분할 수 있는 요약 통계가 종종 사용된다.
예
대표적인 예가 측정 노이즈의 영향을 받는 숨겨진 마코프 모델(HM)으로 특징지을 수 있는 바이스트 가능 시스템이다.이러한 모델은 많은 생물학적 시스템에 사용된다.예를 들어, 그것들은 개발, 세포 신호, 활성화/비활성화, 논리적 처리 및 비균형 열역학에서 사용되어 왔다.예를 들어, 드로소필라 멜라노가스터에서 소닉 고슴도치(Shh) 전사 인자의 행동은 HMM으로 모델링할 수 있다.[15] (생물학적) 역동적 모델은 A와 B의 두 가지 상태로 구성된다.한 상태에서 다른 상태로 전환될 확률을 양방향 모두 로 정의하면 각 단계마다 동일한 상태로 유지될 확률은 1 - 이다상태를 정확하게 측정할 확률은 이다(반대로 잘못된 측정의 은 1 -
서로 다른 시점에 있는 상태 간의 조건부 의존성 때문에 시계열 데이터의 가능성 계산은 다소 지루하며, 이는 ABC를 사용하는 동기를 보여준다.기본 ABC에 대한 계산적 문제는 이와 같은 응용 프로그램에 있는 데이터의 큰 차원성이다.치수성은 두 상태 사이의 스위치 빈도인 요약 S 를 사용하여 줄일 수 있다절대 차이는 공차 과 (와 거리 측정 = 2 매개 변수 에 대한 후방 추론은 에 제시된 5단계에 따라 수행할 수 있다.
1단계: 관찰된 데이터가 상태 시퀀스 AAAB를 형성한다고 가정하십시오.AABBAABaa = 0. \0.25}= 0. \0.8}을를 사용하여 생성된 AAAA. 관련 요약 통계, 즉 실험 데이터의 상태 간 전환 수는 = 이다
: ▼ 에 대해 알려진 바가 없다고 가정하여 0 간격의 이전 균형이 사용됨매개 변수 은(는) 알려져 있고 데이터 생성 값 = 0.에 고정되어 있는 것으로 가정되지만, 일반적으로 관측치를 통해 추정할 수도 있다.이전 파라미터 에서 총 n개의{\n}개의 파라미터 포인트가 그려지며, 은 각 파라미터 포인트 ∆ : ,…, 에 대해 시뮬레이션된다.. 이 결과 개의 시뮬레이션 데이터 시퀀스가 생성된다.이 예에서 = 각 그려진 매개 변수 및 시뮬레이션 데이터 집합은 표 1의 2-3열에 기록된다.실제로 은(는) 적절한 근사치를 얻으려면 훨씬 더 커야 한다.
i | 시뮬레이션된 데이터셋(2단계) | 요약통계 , 3단계) | 거리 ( , i , ) (4단계) | 결과 (4단계) | |
---|---|---|---|---|---|
1 | 0.08 | AABAAAABAABAAAABAAA | 8 | 2 | 용인된 |
2 | 0.68 | 아바밥AAABBABAB | 13 | 7 | 거절했다 |
3 | 0.87 | BBBBBBBBBBBBBBA | 9 | 3 | 거절했다 |
4 | 0.43 | 아아아아아악 abbabbBBBBBBBBBA | 6 | 0 | 용인된 |
5 | 0.53 | ABBBBABB아바브브 | 9 | 3 | 거절했다 |
3단계: 요약 통계는 데이터 S, : ,…, n 의 각 시퀀스에 대해 계산된다
4단계: 관측 및 전환 주파수(Ω S, i , )= , - E E}= \ 사이의 거리는 모든 파라미터 포인트에 대해 계산된다.거리가 보다 작거나 같은 매개변수 점은 후방으로부터 대략적인 표본으로 인정된다.
5단계: 후방 분포는 승인된 모수 점과 근사하다.데이터가 충분히 유용한 경우, 후분포는 시스템에서 의 참 값 주위의 영역에서 매개변수 값에 대한 불가해한 확률을 가져야 한다.이 예에서 후방 확률 질량은 0.08과 0.43 값 사이에서 균등하게 분할된다.
후방 확률은 요약 통계량(= 및 = 과 전체 데이터 시퀀스(= = {\를 활용하여 n을 가진 ABC를 통해 얻는다.이것들은 Viterbi 알고리즘을 사용하여 정확하고 효율적으로 계산할 수 있는 진정한 후측과 비교된다.example= 의 엄격한 요구 조건에서도 이론적 후측으로부터의 편차가 유의하기 때문에 이 예에서 사용된 요약 통계량은 충분하지 않다.= = ] 주위에 후측 집중된 후측을 얻기 위해서는 훨씬 더 오랜 시간 동안 관찰된 데이터 시퀀스가 필요하다. 의 실제 값
ABC의 이 사례 적용은 예시를 위한 단순화를 사용한다.ABC의 보다 현실적인 적용은 점점 더 많은 수의 동료 검토 기사에서 이용할 수 있다.[11][12][13][16]
ABC와의 모델 비교
모수 추정을 제외하고, ABC 프레임워크를 사용하여 다른 후보 모델의 후방 확률을 계산할 수 있다.[17][18][19]그러한 애플리케이션에서 한 가지 가능성은 계층적 방식으로 거부 샘플링을 사용하는 것이다.첫째, 모형은 모형에 대한 이전 분포로부터 표본이 추출된다.그런 다음 모형에 할당된 이전 분포에서 모수를 추출한다.마지막으로 단일 모델 ABC에서와 같이 시뮬레이션이 수행된다.이제 서로 다른 모델에 대한 상대적 허용 주파수는 이러한 모델의 후방 분포에 근사하게 된다.다시, 모델과 파라미터의 공동 공간에 입자 필터를 구성하는 등 모델 공간의 ABC에 대한 연산 개선이 제안되었다.[19]
일단 모델의 후방 확률을 추정하면 베이시안 모델 비교 기법을 충분히 활용할 수 있다.예를 들어 두 모델 1 }과 M }}개의 상대적 타당성을 비교하기 위해 Bayes 요인 B , :
- .
모델 이전 값이 같은 경우(즉, ( ) ( M ) }) 베이즈 계수가 후비(후비)와 같다.
실제로 아래에서 논의한 바와 같이, 이러한 측정치는 모수 사전 분포와 요약 통계량의 선택에 매우 민감할 수 있으므로, 모델 비교의 결론을 신중하게 도출해야 한다.
함정과 치료법
오류 소스 | 전위발행 | 해결책 | 하위섹션 |
---|---|---|---|
0이 아닌 공차 | 부정확성은 계산된 후방 분포에 편향을 도입한다. | 허용오차에 대한 후방 분포의 민감도에 대한 이론/실용적 연구.시끄러운 ABC. | # 후부 근사치 |
요약 통계 부족 | 정보 손실은 신뢰성이 높은 간격을 부풀리게 한다. | 충분한 통계량의 자동 선택/반자동 식별모델 검증 검사(예: 템플턴 2009[20]). | #요약통계의 선택과 충분성 |
소수의 모델/잘못 지정된 모델 | 조사된 모델은 대표적인/부족한 예측력이 아니다. | 모델을 신중하게 선택하십시오.예측력 평가. | #소수 모델 |
이전 항목 및 매개 변수 범위 | 결론은 전제의 선택에 민감할 수 있다.모델 선택은 무의미할 수 있다. | Bayes 요인의 민감도를 사전 요인의 선택에 대해 확인하십시오.이전 항목의 선택과 관련된 일부 이론적 결과를 이용할 수 있다.모델 유효성 검사에 다른 방법을 사용하십시오. | #사전 분포 및 파라미터 범위 |
차원성의 저주 | 매개 변수 허용률이 낮음.모델 오류는 매개변수 공간의 불충분한 탐색과 구별할 수 없다.과다 피팅의 위험. | 해당되는 경우 모델 축소를 위한 방법.매개 변수 탐색 속도를 높이는 방법.과도한 피팅을 감지하는 품질 관리. | #차원성의 저주 |
요약 통계량을 사용한 모델 순위 | 요약 통계량에 대한 베이즈 인자 계산은 원본 데이터의 베이즈 인자와 관련이 없을 수 있으며, 따라서 결과를 무의미하게 만들 수 있다. | 일관성 있는 베이시안 모델 선택을 위해 필요한 조건과 충분한 조건을 충족하는 요약 통계량만 사용하십시오.모델 유효성 검사에 다른 방법을 사용하십시오. | #ABC 인자 및 요약통계량 |
실행 | 시뮬레이션 및 추론 프로세스의 일반적인 가정에 대한 낮은 보호. | 온전하게 결과를 확인한다.소프트웨어의 표준화. | #필수 품질관리 |
모든 통계적 방법에 관하여, ABC 기반 방법을 실제 모델링 문제에 적용하기 위해서는 본질적으로 많은 가정과 근사치가 필요하다.예를 들어 공차 매개변수 을(를) 0으로 설정하면 정확한 결과가 보장되지만 일반적으로 계산 비용이 엄청나게 비싸진다.따라서 0보다 큰 의 값이 실제로 사용되어 치우침이 발생한다.마찬가지로, 일반적으로 충분한 통계가 제공되지 않고 대신 다른 요약 통계가 사용되는데, 이것은 정보의 손실로 인한 추가적인 편견을 초래한다.예를 들어, 모델 선택의 맥락에서 편향의 추가 출처는 더 미묘할 수 있다.[14][21]
동시에, 특히 식물학 분야에서 ABC 방법을 지향해 온 비판의 일부는 ABC에 특정되지 않고 모든 베이시안 방법이나 모든 통계적 방법(예: 사전 분포와 매개변수 범위의 선택)에도 적용된다.[20][22][23][11][24]그러나 훨씬 더 복잡한 모델을 처리하는 ABC-방법들의 능력 때문에, 이러한 일반적인 함정들 중 일부는 ABC 분석의 맥락에서 특히 관련이 있다.
이 절에서는 이러한 잠재적 위험에 대해 논의하고 이를 해결하기 위한 가능한 방법을 검토한다.
후부 근사치
A non-negligible comes with the price that one samples from instead of the true posterior . With a sufficiently small tolerance, and a sensible distance measure ( (^ , D) p은(는) 실제 표적 분포 ( p D와 상당히 비슷해야 한다.반면에 매개변수 공간의 모든 점이 허용될 정도로 큰 공차는 이전 분포의 복제본을 산출할 것이다.에는 p사이의 차이에 대한 실증적 연구(θ ρ(D^, D)ϵ{\displaystyle \epsilon},[25]과 상단 ϵ{\displaystyle \epsilon}-depen에 이론적인 결과의 함수로≤ ϵ){\displaystyle p(\theta \rho({\hat{D}},D)\leq \epsilon)}과 동업-(Dθ){\displaystyle p(D\theta)} 있다.소굴모수 추정치의 오차에 대한 경계 t.[26] 의 함수로 ABC가 전달한 후부(예상 2차 손실로 정의)의 정확성도 조사되었다.[27]그러나 이(가) 0에 근접했을 때 분포의 수렴과 사용된 거리 측정에 어떻게 의존하는지는 아직 더 자세히 조사되지 않은 중요한 주제다.특히 이 근사치에 의해 도입된 오류를 모델 오사화로 인한 오류로부터 분리하는 것은 여전히 어려운 일이다.[11]
0이 아닌 에 의한 일부 오류를 수정하기 위한 시도로 ABC를 사용한 국소 선형 가중 회귀 분석의 사용으로 후측 추정치의 분산을 줄일 것을 제안했다.[9]이 방법은 시뮬레이션 요약이 관측된 요약을 얼마나 잘 준수하는지에 따라 모수에 가중치를 할당하고, 요약과 관측된 요약 근처에 있는 가중 매개변수 사이의 선형 회귀를 수행한다.얻은 회귀 계수는 관측된 요약의 방향으로 샘플링된 모수를 수정하는 데 사용된다.피드-포워드 신경망 모델을 이용한 비선형 회귀의 형태로 개선이 제안되었다.[28]그러나 이러한 접근법으로 구한 후분포가 이전분포와 항상 일치하는 것은 아니며, 이는 이전분포를 존중하는 회귀조정의 개편으로 이어졌다.[29]
마지막으로, 0이 아닌 ∆ 을(를) 가진 ABC를 사용한 통계적 추론은 본질적으로 결함이 없는 것은 아니다. 측정 오차의 가정 하에서 최적의 ∆ 은(는) 0이 아닌 것으로 나타날 수 있다.[27][30]실제로, 0이 아닌 공차로 인한 편향은 요약 통계량에 특정한 형태의 잡음을 도입함으로써 특성화하고 보상할 수 있다.이러한 "소음 ABC"에 대한 점증상 일관성이 고정 공차에 대한 모수 추정치의 점증상 분산을 위한 공식과 함께 확립되었다.[27]
요약 통계 선택 및 충분성
요약 통계는 고차원 데이터에 대한 ABC의 허용률을 증가시키기 위해 사용될 수 있다.데이터에 존재하는 모든 관련 정보를 가능한 가장 단순한 형태로 포착하기 때문에 저차원적 충분한 통계가 이 목적에 최적이다.[13]그러나 ABC 기반 추론이 가장 관련성이 높은 통계 모델에서는 일반적으로 저차원 충분한 통계량을 달성할 수 없으며, 따라서 유용한 저차원 요약 통계를 식별하기 위해 일부 경험적 접근법이 필요하다.잘 선택되지 않은 요약 통계 세트의 사용은 종종 암묵적인 정보 손실로 인해 신뢰할 수 있는 간격을 부풀려지게 되고,[13] 이것은 또한 모델들 간의 차별을 편향시킬 수 있다.요약 통계를 선택하는 방법에 대한 검토가 가능하며,[31] 이는 실무에서 귀중한 지침을 제공할 수 있다.
데이터에 존재하는 대부분의 정보를 캡처하는 한 가지 접근방식은 많은 통계를 사용하는 것이지만, ABC의 정확성과 안정성은 요약 통계의 수가 증가함에 따라 급격히 감소하는 것으로 보인다.[11][13]그 대신, 더 나은 전략은 관련 통계에만 초점을 맞추는 것이다. 전체 추론 문제, 사용된 모델 및 당면한 데이터에 따라 변동성이 달라진다.[32]
추가 통계량이 후방의 의미 있는 수정을 도입하는지를 반복적으로 평가하여 요약 통계량의 대표적인 부분집합을 식별하기 위한 알고리즘이 제안되었다.[33]여기서의 과제 중 하나는 큰 ABC 근사치 오류가 절차의 어떤 단계에서 통계의 유용성에 대한 결론에 크게 영향을 미칠 수 있다는 것이다.또 다른 방법은[32] 크게 두 단계로 분해된다.첫째, 엔트로피를 최소화하여 후부의 기준 근사치를 구성한다.그런 다음 후보 요약 집합은 ABC 추정 포스터를 기준 후방과 비교하여 평가된다.
이 두 가지 전략을 모두 사용하여, 많은 후보 통계 집합에서 일부 통계를 선택한다.대신 부분 최소 제곱법 접근법은 모든 후보 통계량의 정보를 사용하며 각 통계량은 적절하게 가중치를 부여한다.[34]최근에는 요약을 반자동으로 구성하는 방법이 상당한 관심을 얻고 있다.[27]이 방법은 모수점 추정치의 이차적 손실을 최소화할 때 모수의 후측 평균을 통해 요약 통계량의 최적 선택을 얻을 수 있다는 관측에 근거한 것으로, 시뮬레이션 데이터에 기반한 선형 회귀 분석을 수행하여 근사치를 산출한다.
또한 후방의 근사치에 대한 영향을 동시에 평가할 수 있는 요약 통계량의 식별 방법은 상당한 가치가 있을 것이다.[35]이는 요약통계 선택과 허용오차 선택은 결과 후분포에서 두 가지 오류 발생원을 구성하기 때문이다.이러한 오류는 모델의 순위를 손상시킬 수 있으며 부정확한 모델 예측을 초래할 수도 있다.실제로 위의 방법 중 모델 선택을 목적으로 요약의 선택을 평가하는 방법은 없다.
ABC 및 요약 통계량을 사용한 베이 인자
불충분한 요약 통계량과 모델 선택을 위한 ABC의 조합이 문제가 될 수 있는 것으로 나타났다.[14][21]Indeed, if one lets the Bayes factor based on the summary statistic be denoted by , the relation between and takes the form:[14]
- .
따라서 다음과 같은 경우에만 두 모델 }과 2 }}개의 모델을 비교하는 데 요약 이면 충분하다.
- ( ( D), )= ( ( ), 2) S(
which results in that . It is also clear from the equation above that there might be a huge difference between and if the condition is not satisfied, as can be demonstrated by toy e곱슬곱슬한 [14][18][21]사람결정적으로, M } M }}개 모델만, 또는 두 모델 모두 모델 랭킹에 대한 충분성은 보장하지 않는 것으로 나타났다.[14]그러나 M } 및 2}} 모두 내포된 M{1}에 대한 충분한 요약 통계량은 내포된 모델의 순위를 매기는 데에도 유효하다는 것이 밝혀졌다.[14]
D 및 S 에 대한 베이지 인자 사이의 비율을 사용할 수 있거나 최소한 합리적으로 잘 추정할 수 있지 않는 한 모델 선택 목적으로 베이지 인자의 계산은 오해의 소지가 있을 수 있다.또는, 일관적인 베이시안 모델 선택을 위한 요약 통계량에 대한 필요하고도 충분한 조건이 최근에 도출되었으며,[36] 이는 유용한 지침을 제공할 수 있다.
단, 이 문제는 데이터의 치수가 줄어든 경우에만 모델 선택과 관련이 있다.실제 데이터 세트를 직접 비교하는 ABC 기반 추론(일부 시스템 생물학 애플리케이션(예: 참조))은 이 문제를 배제한다.
필수 품질 관리
위의 논의에서 명확하게 밝혀졌듯이, ABC 분석은 결과에 상당한 영향을 미칠 수 있는 선택과 절충을 요구한다.구체적으로는 경쟁 모델/가설의 선택, 시뮬레이션의 수, 요약 통계량의 선택 또는 수용 임계값이 현재 일반 규칙에 근거할 수는 없지만, 이러한 선택들의 효과는 각 연구에서 평가되고 시험되어야 한다.[12]
요약 통계량에 의해 설명되는 모수 분산 비율의 정량화와 같은 ABC의 품질 관리에 대한 많은 경험적 접근법이 제안되었다.[12]일반적인 방법의 종류는 실제 관측된 데이터에 관계없이 추론이 유효한 결과를 산출하는지 여부를 평가하는 것을 목적으로 한다.예를 들어, 일반적으로 모델의 이전 또는 후분포에서 도출되는 일련의 매개변수 값을 고려할 때, 많은 수의 인공 데이터 세트를 생성할 수 있다.이러한 방식으로, 선택된 ABC 추론 방법이 참 매개변수 값을 얼마나 잘 회복하는지 측정함으로써 ABC 추론의 품질과 강건성을 통제된 환경에서 평가할 수 있으며, 구조적으로 여러 가지 다른 모델을 동시에 고려하는 경우에도 모델화할 수 있다.
다른 종류의 방법은 예를 들어 요약 통계량의 후방 예측 분포를 관찰된 요약 통계량과 비교함으로써 주어진 관측 데이터에 비추어 추론이 성공적이었는지를 평가한다.[12]그 외에도 교차 검증 기법과[38] 예측 검사는[39][40] ABC 추론의 안정성과 표본 외 예측 타당성을 평가하기 위한 장래 유망한 전략을 나타낸다.이는 대규모 데이터 세트를 모델링할 때 특히 중요하다. 왜냐하면 실제로 모든 제안된 모델이 관측 데이터의 기초가 되는 확률적 시스템을 제대로 표현하지 못하더라도 특정 모델의 후방 지지대가 압도적으로 결정적인 것으로 보일 수 있기 때문이다.표본이 아닌 예측 검사는 모델 내에서 잠재적인 체계적 편견을 드러낼 수 있으며, 구조 또는 파라메트리제이션 개선 방법에 대한 단서를 제공할 수 있다.
품질관리를 프로세스의 필수 단계로 통합하는 근본적으로 새로운 모델 선택이 최근 제안되었다.ABC는 종합적인 통계 집합과 관련하여, 구성을 통해 관측된 데이터와 모형 예측 사이의 불일치를 추정할 수 있다.이러한 통계는 반드시 합격기준에 사용된 통계와 동일하지는 않다.결과 불일치 분포는 데이터의 많은 측면과 동시에 일치하는 모델을 선택하는 데 사용되었고,[41] 상충되고 공동의존적인 요약에서 모델 불일치가 감지된다.모델 선택을 위한 또 다른 품질 관리 기반 방법은 ABC를 사용하여 모델 매개변수의 유효 수와 요약과 매개변수의 후방 예측 분포의 이탈도를 대략적으로 파악한다.[42]이탈도 정보 기준은 모형 적합의 척도로 사용된다.또한 이 기준에 기초하여 선호하는 모델이 베이즈 인자가 지지하는 모델과 상충할 수 있는 것으로 나타났다.이러한 이유로, 정확한 결론을 얻기 위해 다양한 모형 선택 방법을 결합하는 것이 유용하다.
품질 관리는 달성 가능하고 실제로 많은 ABC 기반 작업에서 수행되지만, 특정 문제에 대해서는 방법 관련 매개변수의 영향에 대한 평가가 어려울 수 있다.그러나 ABC의 사용이 급격히 증가함에 따라 이 방법의 한계와 적용가능성에 대한 보다 철저한 이해를 얻을 수 있을 것으로 기대할 수 있다.
ABC에서 악화되는 통계적 추론의 일반 위험
이 절에서는 ABC에만 국한되지 않고 다른 통계적 방법과도 관련이 있는 엄격하게 말하는 위험을 검토한다.그러나, ABC가 매우 복잡한 모델을 분석하기 위해 제공하는 유연성은 그들이 여기서 논의하기 위해 매우 목적적합하게 만든다.
이전 분포 및 모수 범위
범위의 명세와 매개변수의 사전 분포는 시스템의 특성에 대한 이전의 지식으로부터 강하게 이익을 얻는다.한 가지 비판은 일부 연구에서 "변수의 범위와 분포는 조사자들의 주관적인 의견에 의해서만 추측된다"[43]는 것이 베이지안 접근법의 고전적인 반대와 연결된다.[44]
어떤 계산법을 사용하든, 일반적으로 조사된 파라미터 범위를 구속해야 한다.가능한 경우 매개변수 범위는 연구된 시스템의 알려진 특성에 기초하여 정의되어야 하지만 실제 적용의 경우 교육 받은 추측이 필요할 수 있다.그러나 객관적인 전거에 관한 이론적 결과를 이용할 수 있는데, 예를 들어 무관심의 원칙이나 최대 엔트로피의 원리에 기초할 수 있다.[45][46]반면에, 사전 분포를 선택하는 자동화된 또는 반자동화된 방법은 종종 부적절한 밀도를 산출한다.대부분의 ABC 절차는 이전 절차에서 샘플을 생성해야 하므로 부적절한 이전 절차는 ABC에 직접 적용할 수 없다.
선행분포를 선택할 때도 분석의 목적을 염두에 두어야 한다.원칙적으로, 모수에 대한 우리의 주관적 무지를 과장하는 비정보적이고 평평한 이전 사례는 여전히 합리적인 모수 추정치를 산출할 수 있다.그러나 베이지 인자는 모수의 사전 분포에 매우 민감하다.베이즈 인자에 기초한 모델 선택에 대한 결론은 이전 항목의 선택에 대한 결론의 민감성을 신중하게 고려하지 않는 한 오해의 소지가 있다.
적은 수의 모델
모델 기반 방법은 가설 공간을 완전히 커버하지 못한다는 비판을 받아왔다.[23]실제로 모델 기반 연구는 종종 소수의 모델을 중심으로 진행되며, 어떤 경우에는 단일 모델을 평가하기 위한 높은 계산 비용 때문에 가설 공간의 많은 부분을 다루기 어려울 수 있다.
고려 대상 후보 모델 수의 상한은 일반적으로 모델을 정의하고 많은 대안 옵션 중에서 선택하는 데 필요한 상당한 노력에 의해 설정된다.[12]모델 구축에는 일반적으로 받아들여지는 ABC 고유 절차가 없으므로 경험과 사전 지식이 대신 사용된다.[13]비록 선험적 모델 선택과 제형에 대한 보다 강력한 절차가 유익할 것이지만, 통계학에서 모델 개발을 위한 일률적인 전략은 없다: 복잡한 시스템의 합리적인 특성화는 항상 많은 탐정 작업과 문제 영역의 전문가 지식의 사용을 필요로 할 것이다.
ABC의 일부 반대자들은 (주관적으로 선택되고 아마도 모두 틀릴) 몇 가지 모델만 현실적으로 고려할 수 있기 때문에, ABC 분석은 제한된 통찰력만 제공한다고 주장한다.[23]그러나 타당한 귀무 가설을 식별하는 것과 대립 가설의 상대적 적합성을 평가하는 것 사이에는 중요한 구분이 있다.[11]잠재적으로 사실일 가능성이 있는 유용한 귀무 가설은 복잡한 모형의 맥락에서 거의 제시되지 않기 때문에, 복잡한 현상에 대한 설명으로서 통계적 모델의 예측 능력은 이 맥락에서 통계 귀무 가설의 검정보다 훨씬 더 중요하다.또한 상대적 타당성에 기초하여 가중치를 두고 조사된 모델에 대해 평균을 내고 모델 특성(예: 매개변수 값)을 추론하고 예측하는 것이 일반적이다.
대규모 데이터셋
대용량 데이터 세트는 모델 기반 방법의 계산 병목 현상을 구성할 수 있다.예를 들어, 일부 ABC 기반 분석에서는 데이터의 일부를 생략해야 한다는 점을 지적한 것이다.[23]많은 저자들은 이 문제의 심각성이 모델의 특성에 따라 크게 달라지지만,[12][44] 대용량 데이터 세트는 실질적인 제한이 아니라고 주장해왔다.모델링 문제의 몇 가지 측면은 표본 크기, 관측된 변수 또는 형상 수, 시간 또는 공간 분해능 등과 같은 계산 복잡성에 기여할 수 있다.그러나 컴퓨팅 파워가 증가함에 따라 이 문제는 잠재적으로 덜 중요해질 것이다.
이전부터 각 시뮬레이션에 대한 샘플링 파라미터 대신, Metropolitan-Hastings 알고리즘을 ABC와 결합하는 것이 대안으로 제안되어, 일반 ABC에 비해 높은 합격률을 초래하는 것으로 보고되었다.[35]당연히 그러한 접근법은 정합성 평가의 어려움, 후방의 표본들 간의 상관성,[25] 그리고 상대적으로 낮은 병렬성 등과 같은 MCMC 방법의 일반적인 부담을 승계한다.[12]
마찬가지로 순차 몬테카를로(SMC)와 인구 몬테카를로(PMC) 방법의 아이디어도 ABC 설정에 맞게 조정되었다.[25][47]일반적인 생각은 일련의 표적 분포를 통해 이전부터 후방에 반복적으로 접근하는 것이다.그러한 방법의 장점은 ABC-MCC와 비교했을 때, 결과 후방에서 나온 샘플이 독립적이라는 것이다.또한 순차적 방법을 사용할 경우 공차 수준은 분석 전에 지정되지 않고 적응적으로 조정되어야 한다.[48]
거부 샘플링과 순차 몬테카를로 방법을 기반으로 ABC 알고리즘의 여러 단계를 병렬화하는 것은 비교적 간단하다.또한 병렬 알고리즘이 계통유전학에서 MCMC 기반 추론에 상당한 속도를 낼 수 있다는 것이 입증되었으며,[49] 이는 ABC 기반 방법에서도 추적 가능한 접근법일 수 있다.그러나 복잡한 시스템에 대한 적절한 모델은 선택된 추론 방법의 존중하지 않고 집중적인 계산을 요구할 가능성이 매우 높으며, 문제의 특정 적용에 적합한 방법을 선택하는 것은 사용자에게 달려 있다.
차원성의 저주
고차원 데이터 세트와 고차원 매개변수 공간은 ABC 기반 연구에서 매우 많은 수의 매개변수 점을 시뮬레이션해야 후추정에 대한 합리적인 수준의 정확도를 얻을 수 있다.그러한 상황에서는 계산 비용이 심각하게 증가하며 최악의 경우 계산 분석을 난해하게 할 수 있다.이것들은 잘 알려진 현상의 예로서, 보통 차원성의 우산적 용어인 저주를 언급한다.[50]
데이터 집합의 치수성이 ABC의 맥락 안에서 분석에 얼마나 큰 영향을 미치는가를 평가하기 위해, 요약 통계량의 치수 함수로서 ABC 추정기의 오차에 대한 분석 공식들이 도출되었다.[51][52]또한 블럼과 프랑수아는 ABC 추정기의 오차에 대한 서로 다른 보정 조정에 대한 요약 통계량의 치수가 평균 제곱 오차와 어떻게 관련이 있는지 조사했다.또한 치수 감소 기법이 요약통계량의 잠재적으로 낮은 차원 기반 구조로 인해 치수 저주를 피하기 위해 유용하다는 주장도 제기되었다.[51]ABC 추정기의 2차적 손실을 최소화함으로써 동기 부여된 Fearnhead와 Prangle은 매개변수 후방 평균의 추정치에 데이터를 투영(아마도 고차원)하는 계획을 제안하였다. 이제 매개변수와 동일한 차원을 갖는 이러한 수단은 ABC의 요약 통계로 사용된다.[52]
ABC를 사용하여 고차원 매개변수 공간에서 문제를 추론할 수 있다. 단, 과대 적합의 가능성을 고려해야 한다(예: 및 의 모델 선택 방법 참조).그러나 ABC 거부 알고리즘에 대한 주어진 허용오차에 따라 매개변수에 대한 시뮬레이션 값을 수용할 확률은 매개변수 공간의 치수성이 증가함에 따라(전지구적 허용기준으로 인해) 기하급수적으로 감소한다.[13]어떤 계산법(ABC에 기반하든 그렇지 않든)도 치수 저주를 깰 수 없을 것 같지만, 최근 특정 가정(예: 희소성 그리드의 다항식 근사치에 기반한)[53]에서 고차원 매개변수 공간을 처리하는 방법이 개발되어 ABC에 대한 시뮬레이션 시간을 잠재적으로 크게 줄일 수 있다.그러나 그러한 방법의 적용 가능성은 문제에 따라 달라지며, 매개변수 공간을 탐색하는 어려움은 일반적으로 과소평가되어서는 안 된다.예를 들어, 결정론적 글로벌 매개변수 추정의 도입은 저차원 문제에 대한 이전의 여러 연구에서 얻은 글로벌 최적화가 부정확하다는 보고로 이어졌다.[54]따라서 특정 문제의 경우 모델이 부정확한지 또는 위에서 논의한 바와 같이 매개변수 공간의 탐색된 영역이 부적절한지 여부를 알기 어려울 수 있다.[23]보다 실용적인 접근방식은 모델 축소,[13] 변수의 검증, 소음이 많은 모델과 같은 표준 모델 사용을 통해 문제의 범위를 줄이는 것이다.노이즈가 많은 모델은 변수들 사이의 조건부 독립성에 관한 정보를 이용한다.[55]
소프트웨어
ABC를 특정 등급의 통계 모델에 적용하기 위해 현재 많은 소프트웨어 패키지를 이용할 수 있다.
소프트웨어 | 키워드 및 기능 | 참조 |
---|---|---|
피아브크 | 효율적인 분산형 ABC-SMC(Sequential Monte Carlo)를 위한 파이썬 프레임워크. | [56] |
파이엠씨 | Bayesian 통계 모델링 및 확률론적 기계 학습을 위한 Python 패키지. | [57] |
DIY-ABC | 복잡한 상황에 유전자 데이터를 맞추기 위한 소프트웨어.경쟁 모델 비교.모수 추정.주어진 모형 및 알려진 모수 값에 대한 치우침 및 정밀도 측정값 계산. | [58] |
abc R 패키지 | 매개변수 추정 및 모델 선택을 수행하기 위한 몇 가지 ABC 알고리즘.ABC에 대한 비선형 이단성 회귀 분석 방법.교차 검증 도구. | [59][60] |
이지ABC R 패키지 | 4개의 순차 샘플링 방식과 3개의 MCMC 방식을 포함하여 효율적인 ABC 샘플링 방식을 수행하기 위한 몇 가지 알고리즘. | [61][62] |
ABC시스비오 | 파이톤 패키지.동적 시스템에 대한 매개변수 추론 및 모델 선택ABC reject sampler, 매개변수 추론을 위한 ABC SMC, 모델 선택을 위한 ABC SMC 결합.SBML(Systems Biology Markup Language)로 작성된 모델과 호환 가능.결정론적 및 확률적 모델. | [63] |
ABC툴박스 | 거부 샘플링, 가능성이 없는 MCMC, 입자 기반 샘플러, ABC-GLM. 대부분의 시뮬레이션 및 요약 통계 계산 프로그램과의 호환성 등 다양한 ABC 알고리즘에 대한 오픈 소스 프로그램. | [64] |
msBayes | Perl "프론트 엔드"로 실행되는 여러 C 및 R 프로그램으로 구성된 오픈 소스 소프트웨어 패키지.계층적 통합 모델.여러 공동분산된 종의 개체군 유전자 데이터. | [65] |
팝ABC | 인구통계학적 차이 패턴 추론을 위한 소프트웨어 패키지.통합 시뮬레이션.베이시안 모델 선택. | [66] |
오네삼프 | 마이크로 위성 유전자형 표본에서 유효 모집단 크기를 추정하는 웹 기반 프로그램.95% 신뢰할 수 있는 한계와 함께 유효 모집단 크기의 추정치. | [67] |
ABC4F | 지배적 데이터에 대한 F-통계 추정 소프트웨어. | [68] |
2BAD | 2-이벤트 베이시안 AD혼합물.최대 3명의 부모 인구와 함께 최대 2개의 독립된 혼합물 이벤트를 허용하는 소프트웨어.여러 모수의 추정(혼합물, 유효 크기 등)혼합물 모형 쌍 비교. | [69] |
엘피 | 무우도 추론을 위한 엔진.ELFI는 Python for Abamous Bayesian Computing(ABC)에서 작성된 통계 소프트웨어 패키지로, 무우도 추론, 시뮬레이터 기반 추론, 근사 베이시안 추론 등으로도 알려져 있다. | [70] |
ABCpy | ABC용 Python 패키지 및 기타 가능성 없는 추론 체계.몇 가지 최신 알고리즘을 사용할 수 있다.기존 생성(C++, R 등), MPI 또는 스파크를 사용한 사용자 친화적 병렬화 및 요약 통계 학습(신경망 또는 선형 회귀)을 신속하게 통합할 수 있는 방법 제공 | [71] |
개별 소프트웨어 패키지의 적합성은 당면한 특정 애플리케이션, 컴퓨터 시스템 환경 및 필요한 알고리즘에 따라 달라진다.
참고 항목
참조
본 기사는 CC BY 4.0 라이센스(2013)에 따라 다음과 같은 출처에서 개작되었다(검토자 보고서). Mikael Sunnåker; Alberto Giovanni Busetto; Elina Numminen; Jukka Corander; Matthieu Foll; Christophe Dessimoz (2013). "Approximate Bayesian computation". PLOS Computational Biology. 9 (1): e1002803. doi:10.1371/JOURNAL.PCBI.1002803. ISSN 1553-734X. PMC 3547661. PMID 23341757. Wikidata Q4781761.
- ^ Bharti, A; Briol, F.-X.; Pedersen, T (2021). "A General Method for Calibrating Stochastic Radio Channel Models with Kernels". IEEE Transactions on Antennas and Propagation. arXiv:2012.09612. doi:10.1109/TAP.2021.3083761.
- ^ Rubin, DB (1984). "Bayesianly Justifiable and Relevant Frequency Calculations for the Applied Statistician". The Annals of Statistics. 12 (4): 1151–1172. doi:10.1214/aos/1176346785.
- ^ 그림 5 in 참조
- ^ Diggle, PJ (1984). "Monte Carlo Methods of Inference for Implicit Statistical Models". Journal of the Royal Statistical Society, Series B. 46: 193–227.
- ^ Bartlett, MS (1963). "The spectral analysis of point processes". Journal of the Royal Statistical Society, Series B. 25: 264–296.
- ^ Hoel, DG; Mitchell, TJ (1971). "The simulation, fitting and testing of a stochastic cellular proliferation model". Biometrics. 27 (1): 191–199. doi:10.2307/2528937. JSTOR 2528937. PMID 4926451.
- ^ Tavaré, S; Balding, DJ; Griffiths, RC; Donnelly, P (1997). "Inferring Coalescence Times from DNA Sequence Data". Genetics. 145 (2): 505–518. doi:10.1093/genetics/145.2.505. PMC 1207814. PMID 9071603.
- ^ Pritchard, JK; Seielstad, MT; Perez-Lezaun, A; et al. (1999). "Population Growth of Human Y Chromosomes: A Study of Y Chromosome Microsatellites". Molecular Biology and Evolution. 16 (12): 1791–1798. doi:10.1093/oxfordjournals.molbev.a026091. PMID 10605120.
- ^ a b Beaumont, MA; Zhang, W; Balding, DJ (2002). "Approximate Bayesian Computation in Population Genetics". Genetics. 162 (4): 2025–2035. doi:10.1093/genetics/162.4.2025. PMC 1462356. PMID 12524368.
- ^ Busetto A.G. Buhmann J. 안정적 Bayesian Parameter for Biological Dynamic Systems. 생물학적 동적 시스템에 대한 매개변수 추정.; 2009. IEEE 컴퓨터 협회 148-157쪽 인쇄.
- ^ a b c d e f Beaumont, MA (2010). "Approximate Bayesian Computation in Evolution and Ecology". Annual Review of Ecology, Evolution, and Systematics. 41: 379–406. doi:10.1146/annurev-ecolsys-102209-144621.
- ^ a b c d e f g h Bertorelle, G; Benazzo, A; Mona, S (2010). "ABC as a flexible framework to estimate demography over space and time: some cons, many pros". Molecular Ecology. 19 (13): 2609–2625. doi:10.1111/j.1365-294x.2010.04690.x. PMID 20561199. S2CID 12129604.
- ^ a b c d e f g h Csilléry, K; Blum, MGB; Gaggiotti, OE; François, O (2010). "Approximate Bayesian Computation (ABC) in practice". Trends in Ecology & Evolution. 25 (7): 410–418. doi:10.1016/j.tree.2010.04.001. PMID 20488578.
- ^ a b c d e f g Didelot, X; Everitt, RG; Johansen, AM; Lawson, DJ (2011). "Likelihood-free estimation of model evidence". Bayesian Analysis. 6: 49–76. doi:10.1214/11-ba602.
- ^ Lai, K; Robertson, MJ; Schaffer, DV (2004). "The sonic hedgehog signaling system as a bistable genetic switch". Biophys. J. 86 (5): 2748–2757. Bibcode:2004BpJ....86.2748L. doi:10.1016/s0006-3495(04)74328-3. PMC 1304145. PMID 15111393.
- ^ Marin, JM; Pudlo, P; Robert, CP; Ryder, RJ (2012). "Approximate Bayesian computational methods". Statistics and Computing. 22 (6): 1167–1180. arXiv:1101.0955. doi:10.1007/s11222-011-9288-2. S2CID 40304979.
- ^ 윌킨슨, R. G. (2007)베이시안 프리메이트 발산 시간 추정, 캠브리지 대학 박사 논문.
- ^ a b Grelaud, A; Marin, J-M; Robert, C; Rodolphe, F; Tally, F (2009). "Likelihood-free methods for model choice in Gibbs random fields". Bayesian Analysis. 3: 427–442.
- ^ a b Toni T, Stampf MPH(2010).시스템 및 모집단 생물학의 동적 시스템에 대한 시뮬레이션 기반 모델 선택, 생물정보학' 26:104–10.
- ^ a b Templeton, AR (2009). "Why does a method that fails continue to be used? The answer". Evolution. 63 (4): 807–812. doi:10.1111/j.1558-5646.2008.00600.x. PMC 2693665. PMID 19335340.
- ^ a b c Robert, CP; Cornuet, J-M; Marin, J-M; Pillai, NS (2011). "Lack of confidence in approximate Bayesian computation model choice". Proc Natl Acad Sci U S A. 108 (37): 15112–15117. Bibcode:2011PNAS..10815112R. doi:10.1073/pnas.1102900108. PMC 3174657. PMID 21876135.
- ^ Templeton, AR (2008). "Nested clade analysis: an extensively validated method for strong phylogeographic inference". Molecular Ecology. 17 (8): 1877–1880. doi:10.1111/j.1365-294x.2008.03731.x. PMC 2746708. PMID 18346121.
- ^ a b c d e Templeton, AR (2009). "Statistical hypothesis testing in intraspecific phylogeography: nested clade phylogeographical analysis vs. approximate Bayesian computation". Molecular Ecology. 18 (2): 319–331. doi:10.1111/j.1365-294x.2008.04026.x. PMC 2696056. PMID 19192182.
- ^ Berger, JO; Fienberg, SE; Raftery, AE; Robert, CP (2010). "Incoherent phylogeographic inference". Proceedings of the National Academy of Sciences of the United States of America. 107 (41): E157. Bibcode:2010PNAS..107E.157B. doi:10.1073/pnas.1008762107. PMC 2955098. PMID 20870964.
- ^ a b c Sisson, SA; Fan, Y; Tanaka, MM (2007). "Sequential Monte Carlo without likelihoods". Proc Natl Acad Sci U S A. 104 (6): 1760–1765. Bibcode:2007PNAS..104.1760S. doi:10.1073/pnas.0607208104. PMC 1794282. PMID 17264216.
- ^ Dean TA, Singh SS, Jasra A, Peters GW(2011) 난치 가능성이 있는 숨겨진 마르코프 모델에 대한 매개변수 추정.arXiv:11035399v1 [산술ST] 2011년 3월 28일.
- ^ a b c d Fearnhead P, Prangle D(2011) 대략적인 베이시안 계산을 위한 요약 통계 구성:반자동 ABC.ArXiv:10041112v2 [statME] 2011년 4월 13일.
- ^ Blum, M; Francois, O (2010). "Non-linear regression models for approximate Bayesian computation". Stat Comp. 20: 63–73. arXiv:0809.4178. doi:10.1007/s11222-009-9116-0. S2CID 2403203.
- ^ Leuenberger, C; Wegmann, D (2009). "Bayesian Computation and Model Selection Without Likelihoods". Genetics. 184 (1): 243–252. doi:10.1534/genetics.109.109058. PMC 2815920. PMID 19786619.
- ^ Wilkinson RD (2009) 대략적인 베이시안 계산(ABC)은 모델 오류를 가정하여 정확한 결과를 제공한다. arXiv:08113355
- ^ Blum MGB, Nunes MA, Prangle D, Sisson SA(2012) 대략적인 베이시안 계산에서 치수 감소 방법에 대한 비교 검토. arxiv.org/abs/1202.3819
- ^ a b Nunes, MA; Balding, DJ (2010). "On optimal selection of summary statistics for approximate Bayesian computation". Stat Appl Genet Mol Biol. 9: Article 34. doi:10.2202/1544-6115.1576. PMID 20887273. S2CID 207319754.
- ^ Joyce, P; Marjoram, P (2008). "Approximately sufficient statistics and bayesian computation". Stat Appl Genet Mol Biol. 7 (1): Article 26. doi:10.2202/1544-6115.1389. PMID 18764775. S2CID 38232110.
- ^ Wegmann, D; Leuenberger, C; Excoffier, L (2009). "Efficient approximate Bayesian computation coupled with Markov chain Monte Carlo without likelihood". Genetics. 182 (4): 1207–1218. doi:10.1534/genetics.109.102509. PMC 2728860. PMID 19506307.
- ^ a b Marjoram, P; Molitor, J; Plagnol, V; Tavare, S (2003). "Markov chain Monte Carlo without likelihoods". Proc Natl Acad Sci U S A. 100 (26): 15324–15328. Bibcode:2003PNAS..10015324M. doi:10.1073/pnas.0306899100. PMC 307566. PMID 14663152.
- ^ Marin J-M, Filai NS, Robert CP, Rousseau J(2011) 베이시안 모델 선택을 위한 관련 통계량.ArXiv:11104700v1 [산술ST] 2011년 10월 21일: 1-24.
- ^ Toni, T; Welch, D; Strelkowa, N; Ipsen, A; Stumpf, M (2007). "Approximate Bayesian computation scheme for parameter inference and model selection in dynamical systems". J R Soc Interface. 6 (31): 187–202. doi:10.1098/rsif.2008.0172. PMC 2658655. PMID 19205079.
- ^ Arlot, S; Celisse, A (2010). "A survey of cross-validation procedures for model selection". Statistics Surveys. 4: 40–79. arXiv:0907.4728. doi:10.1214/09-ss054. S2CID 14332192.
- ^ Dawid, A. "Present position and potential developments: Some personal views: Statistical theory: The prequential approach". Journal of the Royal Statistical Society, Series A. 1984: 278–292.
- ^ Vehtari, A; Lampinen, J (2002). "Bayesian model assessment and comparison using cross-validation predictive densities". Neural Computation. 14 (10): 2439–2468. CiteSeerX 10.1.1.16.3206. doi:10.1162/08997660260293292. PMID 12396570. S2CID 366285.
- ^ a b Ratmann, O; Andrieu, C; Wiuf, C; Richardson, S (2009). "Model criticism based on likelihood-free inference, with an application to protein network evolution". Proceedings of the National Academy of Sciences of the United States of America. 106 (26): 10576–10581. Bibcode:2009PNAS..10610576R. doi:10.1073/pnas.0807882106. PMC 2695753. PMID 19525398.
- ^ a b Francois, O; Laval, G (2011). "Deviance Information Criteria for Model Selection in Approximate Bayesian Computation". Stat Appl Genet Mol Biol. 10: Article 33. arXiv:1105.0269. Bibcode:2011arXiv1105.0269F. doi:10.2202/1544-6115.1678. S2CID 11143942.
- ^ Templeton, AR (2010). "Coherent and incoherent inference in phylogeography and human evolution". Proceedings of the National Academy of Sciences of the United States of America. 107 (14): 6376–6381. Bibcode:2010PNAS..107.6376T. doi:10.1073/pnas.0910647107. PMC 2851988. PMID 20308555.
- ^ a b Beaumont, MA; Nielsen, R; Robert, C; Hey, J; Gaggiotti, O; et al. (2010). "In defence of model-based inference in phylogeography". Molecular Ecology. 19 (3): 436–446. doi:10.1111/j.1365-294x.2009.04515.x. PMC 5743441. PMID 29284924.
- ^ Jaynes ET(1968) 사전 확률.IEEE 시스템 과학 및 사이버네틱스에 관한 거래 4.
- ^ Berger, J.O. (2006). "The case for objective Bayesian analysis". Bayesian Analysis. 1 (pages 385–402 and 457–464): 385–402. doi:10.1214/06-BA115.
- ^ Beaumont, MA; Cornuet, J-M; Marin, J-M; Robert, CP (2009). "Adaptive approximate Bayesian computation". Biometrika. 96 (4): 983–990. arXiv:0805.2256. doi:10.1093/biomet/asp052. S2CID 16579245.
- ^ Del Moral P, Doucet A, Jasra A(2011) 베이지안 근사 연산을 위한 적응형 순차 몬테 카를로 방법.통계 및 컴퓨팅.
- ^ Feng, X; Buell, DA; Rose, JR; Waddellb, PJ (2003). "Parallel Algorithms for Bayesian Phylogenetic Inference". Journal of Parallel and Distributed Computing. 63 (7–8): 707–718. CiteSeerX 10.1.1.109.7764. doi:10.1016/s0743-7315(03)00079-0.
- ^ Bellman R(1961) 적응 제어 프로세스:안내 여행: 프린스턴 대학 출판부.
- ^ a b Blum MGB(2010) 근사 베이지안 연산: 비모수적 관점, 미국 통계협회 저널(105): 1178-1187
- ^ a b Fearnhead, P; Prangle, D (2012). "Constructing summary statistics for approximate Bayesian computation: semi-automatic approximate Bayesian computation". Journal of the Royal Statistical Society, Series B. 74 (3): 419–474. CiteSeerX 10.1.1.760.7753. doi:10.1111/j.1467-9868.2011.01010.x.
- ^ Gerstner, T; Griebel, M (2003). "Dimension-Adaptive Tensor-Product Quadrature". Computing. 71: 65–87. CiteSeerX 10.1.1.16.2434. doi:10.1007/s00607-003-0015-5. S2CID 16184111.
- ^ Singer, AB; Taylor, JW; Barton, PI; Green, WH (2006). "Global dynamic optimization for parameter estimation in chemical kinetics". J Phys Chem A. 110 (3): 971–976. Bibcode:2006JPCA..110..971S. doi:10.1021/jp0548873. PMID 16419997.
- ^ Cardenas, IC (2019). "On the use of Bayesian networks as a meta-modeling approach to analyse uncertainties in slope stability analysis". Georisk: Assessment and Management of Risk for Engineered Systems and Geohazards. 13 (1): 53–65. doi:10.1080/17499518.2018.1498524. S2CID 216590427.
- ^ 클링거, E.; 리커트, D.; 하세나워, J. (2017).PyABC: 분산된, 가능성이 없는 추론.
- ^ 살바티에 J, 위키 TV, 폰네스벡 C. (2016) PyMC3를 이용한 파이톤에서의 확률론 프로그래밍. PeerJ Computer Science 2:e55 https://doi.org/10.7717/peerj-cs.55
- ^ Cornuet, J-M; Santos, F; Beaumont, M; et al. (2008). "Inferring population history with DIY ABC: a user-friendly approach to approximate Bayesian computation". Bioinformatics. 24 (23): 2713–2719. doi:10.1093/bioinformatics/btn514. PMC 2639274. PMID 18842597.
- ^ Csilléry, K; François, O; Blum, MGB (2012). "abc: an R package for approximate Bayesian computation (ABC)". Methods in Ecology and Evolution. 3 (3): 475–479. arXiv:1106.2793. doi:10.1111/j.2041-210x.2011.00179.x. S2CID 16679366.
- ^ Csillery, K; Francois, O; Blum, MGB (2012-02-21). "Approximate Bayesian Computation (ABC) in R: A Vignette" (PDF). Retrieved 10 May 2013.
- ^ Jabot, F; Faure, T; Dumoulin, N (2013). "EasyABC: performing efficient approximate Bayesian computation sampling schemes using R." Methods in Ecology and Evolution. 4 (7): 684–687. doi:10.1111/2041-210X.12050.
- ^ Jabot, F; Faure, T; Dumoulin, N (2013-06-03). "EasyABC: a vignette" (PDF).
- ^ Liepe, J; Barnes, C; Cule, E; Erguler, K; Kirk, P; Toni, T; Stumpf, MP (2010). "ABC-SysBio—approximate Bayesian computation in Python with GPU support". Bioinformatics. 26 (14): 1797–1799. doi:10.1093/bioinformatics/btq278. PMC 2894518. PMID 20591907.
- ^ Wegmann, D; Leuenberger, C; Neuenschwander, S; Excoffier, L (2010). "ABCtoolbox: a versatile toolkit for approximate Bayesian computations". BMC Bioinformatics. 11: 116. doi:10.1186/1471-2105-11-116. PMC 2848233. PMID 20202215.
- ^ Hickerson, MJ; Stahl, E; Takebayashi, N (2007). "msBayes: Pipeline for testing comparative phylogeographic histories using hierarchical approximate Bayesian computation". BMC Bioinformatics. 8 (268): 1471–2105. doi:10.1186/1471-2105-8-268. PMC 1949838. PMID 17655753.
- ^ Lopes, JS; Balding, D; Beaumont, MA (2009). "PopABC: a program to infer historical demographic parameters". Bioinformatics. 25 (20): 2747–2749. doi:10.1093/bioinformatics/btp487. PMID 19679678.
- ^ Tallmon, DA; Koyuk, A; Luikart, G; Beaumont, MA (2008). "COMPUTER PROGRAMS: onesamp: a program to estimate effective population size using approximate Bayesian computation". Molecular Ecology Resources. 8 (2): 299–301. doi:10.1111/j.1471-8286.2007.01997.x. PMID 21585773. S2CID 9848290.
- ^ Foll, M; Baumont, MA; Gaggiotti, OE (2008). "An Approximate Bayesian Computation approach to overcome biases that arise when using AFLP markers to study population structure". Genetics. 179 (2): 927–939. doi:10.1534/genetics.107.084541. PMC 2429886. PMID 18505879.
- ^ Bray, TC; Sousa, VC; Parreira, B; Bruford, MW; Chikhi, L (2010). "2BAD: an application to estimate the parental contributions during two independent admisture events". Molecular Ecology Resources. 10 (3): 538–541. doi:10.1111/j.1755-0998.2009.02766.x. hdl:10400.7/205. PMID 21565053. S2CID 6528668.
- ^ Kangasrääsiö, Antti; Lintusaari, Jarno; Skytén, Kusti; Järvenpää, Marko; Vuollekoski, Henri; Gutmann, Michael; Vehtari, Aki; Corander, Jukka; Kaski, Samuel (2016). "ELFI: Engine for Likelihood-Free Inference" (PDF). NIPS 2016 Workshop on Advances in Approximate Bayesian Inference. arXiv:1708.00707. Bibcode:2017arXiv170800707L.
- ^ Dutta, R; Schoengens, M; Pacchiardi, L; Ummadisingu, A; Widmer, N; Onnela, J. P.; Mira, A (2020). "ABCpy: A High-Performance Computing Perspective to Approximate Bayesian Computation". arXiv:1711.04694 [stat.CO].
외부 링크
- Darren Wilkinson (March 31, 2013). "Introduction to Approximate Bayesian Computation". Retrieved 2013-03-31.
- Rasmus Bååth (October 20, 2014). "Tiny Data, Approximate Bayesian Computation and the Socks of Karl Broman". Retrieved 2015-01-22.