이전 확률

Prior probability

베이지안 통계추론에서 불확실한 수량의 사전 확률분포(previor)는 일부 증거를 고려하기 전에 이 수량에 대한 자신의 신념을 표현할 확률분포이다.예를 들어, 우선은 향후 선거에서 특정 정치인에게 투표할 유권자의 상대적 비율을 나타내는 확률 분포일 수 있다.알 수 없는 수량은 관측 가능한 변수가 아닌 모형의 모수 또는 잠재 변수일 수 있습니다.

베이즈의 정리는 데이터가 주어진 불확실한 양의 조건부 분포인 사후 확률 분포를 생성하기 위해 이전 및 우도 함수의 정규화된 점별 곱을 계산합니다.

마찬가지로, 무작위 사건이나 불확실한 제안의 사전 확률은 관련 증거를 고려하기 전에 할당되는 무조건 확률이다.

프리어는 [1]: 27–41 여러 가지 방법을 사용하여 작성할 수 있습니다.선행은 이전 실험과 같은 과거 정보에서 확인할 수 있습니다.사전은 경험이 풍부한 전문가의 순수한 주관적 평가에서 도출할 수 있다.정보가 없을 때 결과 간의 균형을 반영하기 위해 비정보적 사전이 생성될 수 있다.프리어는 대칭이나 주어진 제약조건의 최대화와 같은 몇 가지 원리에 따라 선택될 수 있습니다. 예를 들어 제프리스 이전 또는 베르나르도의 이전 참조가 있습니다.켤레 우선 순위 패밀리가 있는 경우 해당 패밀리에서 선행 순위를 선택하면 후분포를 쉽게 계산할 수 있습니다.

이전 분포의 모수는 일종의 하이퍼 모수입니다.예를 들어, 베타 분포를 사용하여 Bernouli 분포모수 p 분포를 모형화하는 경우 다음과 같습니다.

  • p는 기본 시스템의 모수(베르누이 분포)입니다.
  • α와 β는 이전 분포(표준 분포)의 모수이므로 초모수이다.

하이퍼파라미터 자체는 그 가치에 대한 믿음을 표현하는 하이퍼프라이어리티 분포를 가질 수 있습니다.이와 같은 하나 이상의 선행 레벨을 가진 베이지안 모델을 계층형 베이즈 모델이라고 합니다.

정보 제공의 우선 사항

정보 사전은 변수에 대한 구체적이고 확실한 정보를 나타냅니다.예로는 내일 정오 기온에 대한 사전 분포가 있습니다.합리적인 접근법은 예측값이 현재의 정오 온도와 같고 분산은 대기 온도의 일일 변동 또는 연중 해당일의 온도 분포와 동일한 정규 분포를 갖는 것입니다.

이 예는 많은 이전과 공통되는 속성을 가지고 있다. 즉, 한 문제(오늘의 온도)의 후부가 다른 문제(내일의 온도)의 전부가 된다는 것이다. 이미 고려된 기존 증거는 전부의 일부이며, 더 많은 증거가 축적됨에 따라 후부는 주로 e에 의해 결정된다.원래 가정이 증거가 시사하는 것의 가능성을 인정한다는 전제 하에, 원래의 가정이 아닌 확신."전"과 "후"라는 용어는 일반적으로 특정 기준 또는 관측치에 상대적이다.

정보 제공이 불충분한 사전 정보

약하게 정보를 제공하는 사전은 변수에 대한 부분 정보를 표현합니다.예를 들어, 내일 정오에 St. St.에서 온도에 대한 사전 분포를 설정하는 경우입니다.Louis는 평균 화씨 50도와 표준 편차가 40도인 정규 분포를 사용합니다. 이 분포는 온도를 -30도 이하 또는 130도 이상으로 매우 느슨하게 범위(10도, 90도)로 제한합니다.약하게 정보를 제공하는 사전의 목적은 정규화, 즉 추론을 합리적인 범위로 유지하는 것입니다.

정보 제공이 필요 없음

비정보적, 플랫 또는 확산 선행은 [2]변수에 대한 모호하거나 일반적인 정보를 나타냅니다."비정보적 사전"이라는 용어는 다소 잘못된 명칭이다.그러한 선행은 그다지 유익하지 않은 선행 또는 객관적인 선행, 즉 주관적으로 도출되지 않은 선행이라고도 할 수 있다.

비정보적 사전 정보는 "변수가 양수" 또는 "변수가 일부 제한 미만"과 같은 "객관적" 정보를 나타낼 수 있습니다.비정보적 사전의 결정을 위한 가장 간단하고 오래된 규칙은 모든 가능성에 동일한 확률을 할당하는 무관심의 원칙이다.매개변수 추정 문제에서, 우도 함수가 종종 비정보적 사전보다 더 많은 정보를 산출하기 때문에, 비정보적 사전의 사용은 일반적으로 기존의 통계 분석과 크게 다르지 않은 결과를 산출한다.

불확실한 상태의 성질에 의해 논리적으로 요구되는 확률 분포와 같은 선험적 확률을 찾기 위한 몇 가지 시도가 있었다; 이것들은 철학적 논쟁의 주제이며, 베이시안들은 대략 두 개의 학파로 나뉜다: "객관적 베이시안"은 그러한 선험이 많은 유용한 상황에서 존재한다고 믿는다.실무상 선례가 일반적으로 엄격하게 정당화될 수 없는 주관적인 의견 판단을 나타낸다고 믿는 '주관적 베이시안'들(Williamson 2010).아마도 객관적인 베이지안주의에 대한 가장 강력한 주장은 주로 대칭의 결과와 최대 엔트로피의 원리에 기초해 에드윈 T. 제인스에 의해 제시되었다.

선행 사례로 Jaynes(2003)에 의해 A, B, C 중 하나의 컵 아래에 공이 숨겨져 있는 것을 알 수 있지만 그 위치에 대한 다른 정보는 얻을 수 없는 상황을 생각해 보자. 경우 p(A) = p(B) = p(C) = 1/3 이전의 균일한 선택만이 직관적으로 합리적인 선택으로 보인다.좀 더 형식적으로 보면 컵의 라벨("A", "B" 및 "C")을 바꾸어도 문제가 동일하게 유지됨을 알 수 있습니다.따라서 라벨의 순열로 인해 볼이 어느 컵 아래에서 발견될지에 대한 예측에 변화가 생길 수 있는 이전을 선택하는 것은 이상할 것입니다. 이 불변성을 유지하는 것은 이전 균등함뿐입니다.만약 누군가가 이 불변성 원리를 받아들인다면, 사람들은 균일한 사전이 이 지식의 상태를 나타내기 전에 논리적으로 옳다는 것을 알 수 있다.이것은 특정 지식 상태를 나타내는 올바른 선택이라는 의미에서 "객관적"이지만, 세계의 관찰자에 의존하지 않는 특징이라는 의미에서는 객관적이지 않다.실제로 공은 특정 컵 아래에 존재하며, 관찰자가 있는 경우에만 이 상황에서 확률을 말하는 것이 이치에 맞다.시스템에 대한 지식이 한정되어 있습니다.

좀 더 논란이 많은 예로서, Jaynes는 확률에 대한 완전한 불확실성을 나타내는 사전이 Haldane 사전−1 p(1 - p)−1이어야 한다는 매개변수 변경 하에서 사전의 불변성에 기초한 주장(Jaynes 1968)을 발표했다.Jaynes가 제시한 예는 실험실에서 화학물질을 발견하여 반복적인 실험에서 물에 녹을지 여부를 묻는 것이다.이전의 Haldane은[3] p p p)에 큰 무게를 부여하여 샘플이 매번 녹거나 절대 녹지 않음을 나타냅니다.단, 한 실험에서 녹지 않고 다른 실험에서도 녹지 않는 화학 물질 표본을 관찰한 경우에는 [0, 1] 간격으로 균일한 분포로 갱신한다.이것은 위의 이전을 이용하여 용해 관측치 1개와 용해 관측치 1개로 구성된 데이터 세트에 Bayes의 정리를 적용하여 구한다.Haldane 이전 분포는 부적절한 사전 분포입니다(무한 질량을 갖는다는 의미).Harold Jeffreys는 비정보적 사전 설계(예: Jeffreys previr p(1 - p−1/2))−1/2를 베르누이 랜덤 변수에 대해 설계하는 체계적인 방법을 고안했다.

매개 변수 공간 X가 변하지 않는 베이지안 지식 상태를 남기는 자연스러운 그룹 구조를 갖는 경우, Haar 측정에 비례하는 이전 항목을 구성할 수 있다(Jaynes, 1968).이는 위의 예에서 3개의 컵에 앞서 균일성을 정당화하기 위해 사용된 불변성 원칙을 일반화한 것으로 볼 수 있다.예를 들어, 물리학에서 우리는 좌표계의 원점에 대한 우리의 선택에 관계없이 실험이 같은 결과를 줄 것이라고 기대할 수 있다.이것에 의해, X상의 변환 그룹의 그룹 구조가 유도되어 선행 확률이 항상 부적절한 선행으로서 결정됩니다.마찬가지로, 일부 측정은 임의 척도의 선택에 따라 자연적으로 불변한다(예: 센티미터 또는 인치를 사용하든 물리적 결과는 동일해야 한다).이 경우 스케일군은 자연군 구조이며 X에 대응하는 선행은 1/x에 비례한다.왼쪽 불변 Haar 측정값을 사용할지 아니면 오른쪽 불변 Haar 측정값을 사용할지가 중요할 수 있습니다.예를 들어, 아핀 그룹에 대한 왼쪽 및 오른쪽 불변 Haar 측정값이 같지 않습니다.Berger(1985, 페이지 413)는 오른쪽 불변 Haar 측정이 올바른 선택이라고 주장한다.

Edwin T. Jaynes가 옹호한 또 다른 아이디어는 최대 엔트로피의 원리(MAXENT)를 사용하는 것이다.그 이유는 확률 분포의 섀넌 엔트로피가 분포에 포함된 정보의 양을 측정하기 때문입니다.엔트로피가 클수록 분포에 의해 제공되는 정보는 줄어듭니다.그러므로, X의 적절한 확률 분포 집합에 대한 엔트로피를 최대화함으로써, 그 집합을 정의하는 제약 조건과 일치하는 최소한의 정보를 포함하고 있다는 점에서 가장 유익한 분포를 찾을 수 있다.예를 들어, 이산 공간에서의 최대 엔트로피는 확률이 1로 정규화된다는 전제 하에 각 상태에 동일한 확률을 할당하는 사전 엔트로피입니다.그리고 연속적인 경우, 밀도가 평균 0으로 정규화되고 단위 분산이 표준 정규 분포임을 전제로 한 최대 엔트로피입니다.최소 교차 엔트로피의 원리는 MAXENT를 최대 엔트로피 의미에서 적절한 제약 조건으로 임의 사전 분포를 "업데이트"하는 경우로 일반화한다.

José-Miguel Bernardo에 의해 관련 아이디어, 참조 전제가 소개되었습니다.여기서, 아이디어는 이전 분포에 비해 후방 분포의 예상되는 쿨백-라이블러 분산을 최대화하는 것이다.이것은 이전 밀도가 p(x)일 때 X에 대한 예상 사후 정보를 최대화한다. 따라서 어떤 의미에서는 p(x)가 X에 대한 "최소한의 정보"이다.기준 선행은 점근 한계에서 정의된다. 즉, 데이터 점의 수가 무한대로 갈 때 얻어진 선행의 한계를 고려한다.이 경우, 이전 분포와 후방 분포 사이의 KL 차이는 다음과 같이 주어진다.

서 tt는 일부 xx에 대한 충분한 통계량입니다.내부 적분은 p p t 분포 사이의 KL 발산이며, 그 결과 tp 값에 대한 가중 평균이 됩니다. 로그를 두 부분으로 분할하여 두 번째 부분의 적분 순서를 바꿉니다.log[ ( ) , [ ( x )}는 t t 에 의존하지 .

두 번째 부분의 내부 적분은 접합 p ) { p,의 t{ t 대한 적분입니다. 이것이 한계 p { p이므로, 다음과 같이 됩니다.

이제 확률 분포의 경우 확률 질량 또는 밀도 함수의 로그의 음의 기대값인 엔트로피 개념을 사용합니다. 또는 ( ) - ( ) log [ ( )]x .{ H ( x ) = - \p ( )\ ( ) ], 방정식을 마지막으로 사용합니다

즉, KL은t tdisplaystyle x\displaystyle tdisplaystyle x x x\displaystyle xdisplaystyle의 엔트로피 tdisplaystyle에 음의 기대치이다.샘플 사이즈가 무한대상이 되는 한계치인 경우 Berminal t는 정리이다.t t 특정 관측치에 따른x {\x}의 분포는 x{\x의 '참' 값에서 Fisher 정보의 역수와 동일한 분산을 갖는 정규 분포입니다.정규 밀도 함수의 엔트로피는 v\ 2 \ ev의 입니다. 서 v v는 분포의 분산입니다. 이 경우 H 2 e/ [ I( ) {{ H { e / [ ( x *]}} N{ N}은 임의의 큰 샘플 크기(Fisher 정보가 비례함)이고 x4{ x 참 값입니다.이는 tt에 하지 않기 때문에 적분에서 뺄 수 있으며, 이 적분은 확률 공간 위에 있으므로 1과 같습니다.따라서 KL의 점근 형태를 다음과 같이 쓸 수 있다.

서 kk는 (유전적으로 큰) 샘플 크기에 비례합니다.우리는 x의({ x을 모른다. 실제로, 이러한 생각은 모수의 '참' 값이 이전 및 사후 분포로 대체되는 베이지안 추론의 철학과 배치된다.따라서 x { x * } x { x } 로 대체하고 정상 엔트로피의 기대치를 구합니다.이 값은 p() { p 곱하여 x{ x 에 통합합니다.이것은 우리가 다음 값을 산출하는 로그들을 결합할 수 있게 해준다.

이것은 준KL 다이버전스("Fisher 정보의 제곱근은 부적절한 분포의 커널일 수 있다는 의미에서 준KL")입니다.마이너스 기호로 인해 시작했던 KL 차이를 최대화하기 위해 이를 최소화할 필요가 있습니다.마지막 방정식의 최소값은 로그 인수의 두 분포(부적합하든 아니든)가 분산되지 않을 때 발생합니다.이는 이전 분포가 우도 함수의 피셔 정보의 제곱근에 비례할 때 발생합니다.따라서 단일 모수의 경우 Jeffreys의 근거는 매우 다르지만 참조 우선 순위와 Jeffreys 우선 순위가 동일합니다.

다른 규칙(예: Jeffreys의 규칙)은 문제가 있는 [clarification needed A Jeffreys prior is related to KL divergence?]행동을 가진 우선 순위를 야기할 수 있기 때문에, 다변량 문제에서 참조 우선 순위는 종종 선택 전의 목표이다.

객관적인 사전 분포는 정보 또는 코딩 이론(예: 최소 설명 길이 참조) 또는 빈도 통계(빈도 매칭 참조)와 같은 다른 원칙에서도 도출할 수 있다.이러한 방법들은 솔로몬노프의 귀납적 추론 이론에서 사용된다.객관적 우선사항 구축은 최근 생물정보학, 특히 표본 크기가 제한되고 방대한 사전 지식을 이용할 수 있는 암 시스템 생물학에 도입되었다.이러한 방법에서, KL 발산 또는 이진수 감독 학습[4] 문제 및 혼합 모델 [5]문제에 대한 로그 우도 함수와 같은 정보 이론 기반 기준입니다.

비정보적 사전과 관련된 철학적 문제는 적절한 측정 기준 또는 측정 척도의 선택과 관련이 있다.우리가 모르는 주자의 달리기 속도를 우선시한다고 가정해 보자.우리는 예를 들어 그의 속도에 대한 이전 분포로 정규 분포를 지정할 수 있지만, 우리는 그가 100미터를 완주하는 데 걸리는 시간의 정규 분포를 지정할 수 있다. 이는 첫 번째 이전 분포의 역수에 비례한다.이것들은 매우 다른 우선 사항이지만, 어느 쪽이 더 좋은지 명확하지 않다.Jaynes의 자주[by whom?] 간과되는 변신 그룹 방법은 상황[6]따라서는 이 질문에 대답할 수 있습니다.

마찬가지로, 0과 1 사이의 알려지지 않은 비율을 추정하도록 요청하면 모든 비율이 동등하다고 말하고 균일한 사전 비율을 사용할 수 있습니다.또는 비율에 대한 모든 크기 순서는 로그 이전, 즉 비율 로그 이전의 균일성일 가능성이 같다고 말할 수 있습니다.Jeffreys는 어떤 메트릭을 사용하든 동일한 신념을 나타내는 이전 버전을 계산하여 이 문제를 해결하려고 합니다.p의 비율을 수 없는 Jeffreys의 이전−1/2 수치는 p(1 - p)−1/2로 Jaynes의 권장치와 다릅니다.

알고리즘 확률의 개념에 기초한 선행은 매우 일반적인 환경에서 귀납을 위한 기초로서 귀납 추론에 사용된다.

비정보적 사전과 관련된 실질적인 문제에는 후방 분포가 적절해야 한다는 요건이 포함된다.연속형 무한 변수에 대한 일반적인 비정보적 우선 순위는 부적절합니다.후방 분포가 적절한 경우에는 문제가 되지 않습니다.또 다른 중요한 쟁점은 정보 없는 사전이 일상적으로, 즉 많은 다른 데이터 세트와 함께 사용되어야 하는 경우, 좋은 빈도수 특성을 가져야 한다는 것이다.일반적으로 베이지안에서는 그러한 문제에 관여하지 않지만, 이 상황에서는 중요할 수 있다.예를 들어, 후분포에 기초한 의사결정 규칙이 채택된 손실함수에서 허용되기를 원할 것이다.안타깝게도 일부 결과가 알려져 있지만(예: Berger와 Strawderman 1996) 허용 여부는 종종 확인하기 어렵다.이 문제는 계층적 베이즈 모델에서 특히 심각하다. 일반적인 이전(예: Jeffreys의 이전)은 계층의 상위 수준에서 고용될 경우 허용할 수 없는 결정 규칙을 제공할 수 있다.

부적절한 우선 순위

A_ 상호 배타적이고 포괄적인 것으로 합니다.베이즈의 정리가 다음과 같이 쓰인다면

모든 이전 확률 P(Ai)와 P(Aj)에 주어진 상수를 곱하면 동일한 결과를 얻을 수 있음은 분명하다. 연속 랜덤 변수에 대해서도 마찬가지일 것이다.분모의 합계가 수렴되는 경우 이전 값이 수렴되지 않더라도 사후 확률은 여전히 1로 합(또는 적분)되므로 이전 값을 올바른 비율로 지정하기만 하면 됩니다.이 아이디어를 더 나아가서, 많은 경우, 사후 확률에 대한 합리적인 답을 얻기 위해 이전 값의 합이나 적분이 유한할 필요가 없을 수도 있다.이 경우 prior는 부적절한 prior라고 불립니다.그러나 이전 분포가 [7]부적절한 경우 후방 분포가 적절한 분포일 필요는 없습니다.이것은 이벤트 B가 모든 A로부터j 독립되어 있는 경우로부터 명확합니다.

통계학자들은 때때로 부적절한 사전 정보를 제공하지 않는 [8]사전 정보로 사용합니다.예를 들어, 랜덤 변수의 평균과 분산에 대한 사전 분포가 필요한 경우, p(m, v)~1/v(v > 0의 경우)를 가정할 수 있으며, 이는 평균에 대한 모든 값이 "동일 가능성"이 있고 양의 분산에 대한 값이 값에 반비례하여 "가능성"이 낮아진다는 것을 시사합니다.많은 저자들(Lindley, 1973; De Groot, 1937; Kass and Wasserman, 1996)[citation needed]은 확률 밀도가 아니기 때문에 이러한 우선 순위를 과도하게 해석할 위험에 대해 경고한다.모든 관측치에 대해 잘 정의되어 있는 한, 이러한 관측치의 유일한 관련성은 해당 후방에서 찾을 수 있다.(이전 Haldane은 전형적인 반례입니다.[clarification needed][citation needed]

반면, 우도 함수는 통합할 필요가 없으며, 균일하게 1인 우도 함수는 데이터의 부재를 나타냅니다(데이터가 없을 경우 모든 모형이 동일).Bayes의 규칙은 previor에 우도를 곱하고 빈 곱은 그냥 상수 우도 1입니다.그러나 사전 확률 분포에서 시작하지 않으면 사후 확률 분포를 얻지 못하기 때문에 기대값이나 손실을 통합하거나 계산할 수 없습니다.자세한 내용은 우도 함수 non 비적분성 참조.

부적절한 prior의 예는 다음과 같습니다.

균일한 분포로 해석되는 이러한 함수는 데이터가 없는 경우 우도 함수로 해석될 수도 있지만 적절한 우선 순위가 아닙니다.

「 」를 참조해 주세요.

메모들

  1. ^ Carlin, Bradley P.; Louis, Thomas A. (2008). Bayesian Methods for Data Analysis (Third ed.). CRC Press. ISBN 9781584886983.
  2. ^ Zellner, Arnold (1971). "Prior Distributions to Represent 'Knowing Little'". An Introduction to Bayesian Inference in Econometrics. New York: John Wiley & Sons. pp. 41–53. ISBN 0-471-98165-6.
  3. ^ J.B.S. Haldane이 "역확률에 관한 메모", 케임브리지 철학회 28, 55-61, 1932, doi:10.1017/S0305004100010495에서 제안한 것이다.J. Haldane, "소주파수 관측치의 정밀도", Biometrika, 35:297–300, 1948, doi:10.2307/2332350, JSTOR 2332350을 참조하십시오.
  4. ^ Esfahani, M. S.; Dougherty, E. R. (2014). "Incorporation of Biological Pathway Knowledge in the Construction of Priors for Optimal Bayesian Classification - IEEE Journals & Magazine". IEEE/ACM Transactions on Computational Biology and Bioinformatics. 11 (1): 202–18. doi:10.1109/TCBB.2013.143. PMID 26355519. S2CID 10096507.
  5. ^ Boluki, Shahin; Esfahani, Mohammad Shahrokh; Qian, Xiaoning; Dougherty, Edward R (December 2017). "Incorporating biological prior knowledge for Bayesian learning via maximal knowledge-driven information priors". BMC Bioinformatics. 18 (S14): 552. doi:10.1186/s12859-017-1893-4. ISSN 1471-2105. PMC 5751802. PMID 29297278.
  6. ^ Jaynes(1968), 17페이지, Jaynes(2003) 12장을 참조한다.12장은 온라인 프리프린트에서는 사용할 수 없지만 Google Books를 통해 미리 볼 수 있습니다.
  7. ^ Dawid, A. P.; Stone, M.; Zidek, J. V. (1973). "Marginalization Paradoxes in Bayesian and Structural Inference". Journal of the Royal Statistical Society. Series B (Methodological). 35 (2): 189–233. JSTOR 2984907.
  8. ^ Christensen, Ronald; Johnson, Wesley; Branscum, Adam; Hanson, Timothy E. (2010). Bayesian Ideas and Data Analysis : An Introduction for Scientists and Statisticians. Hoboken: CRC Press. p. 69. ISBN 9781439894798.

레퍼런스