지수족

Exponential family

확률통계학에서 지수 계열은 아래에 지정된 특정 형식의 모수 분포 집합입니다.이 특별한 형태는 수학적인 편의를 위해 선택되었으며, 일반성뿐만 아니라 몇 가지 유용한 대수적 특성에 근거해 일반성을 고려하기에 매우 자연스러운 분포 집합이다.지수 클래스라는 용어는 "지수 패밀리"[1] 또는 더 오래된 용어인 쿱만-다무아 패밀리 대신 사용되기도 한다.조건과"가족""분포"종종 느슨하게:매개 변수와 특정 유통하는 것은, 구체적으로 기하 급수적인 가족은 집합[를] 하지만, 분포의 파라메트릭 가족은 종종"유통"( 같은"정규 분포""정상적인 분배를 가족 의미는 사용된다.")모든 지수족 집합은 때때로 느슨하게 "지수족"이라고 불립니다.이들은 다양한 바람직한 속성을 가지고 있기 때문에 구별되며, 가장 중요한 것은 충분한 통계량의 존재이다.

지수족 개념은 E. J. Pitman,[3] G. Darmois,[4] B기인한다[2]. 1935~1936년 O. 쿠프만[5]지수 분포군은 자연 모수 측면에서 모수 분포군의 가능한 대체 모수화를 선택하고, 계열자연적 충분한 통계량이라고 불리는 유용한 표본 통계를 정의하기 위한 일반적인 프레임워크를 제공한다.

정의.

일반적으로 사용되는 분포 대부분은 아래 하위 섹션에 나열된 지수 계열 또는 지수 계열의 부분 집합을 구성합니다.그 뒤의 하위 섹션은 점점 더 일반적인 지수 계열의 수학적 정의의 연속이다.일반 독자는 이산 또는 연속 확률 분포의 단일 모수 계열에 해당하는 첫 번째 가장 단순한 정의에 주의를 제한할 수 있습니다.

지수 집합 분포 예제

지수 집합에는 가장 일반적인 분포가 많이 포함됩니다.여러 가지 중에서도 지수 패밀리에는 다음이 포함됩니다.

여러 공통 분포는 지수 계열이지만 특정 모수가 고정되어 있고 알려진 경우에만 해당됩니다.예를 들어 다음과 같습니다.

  • 이항(고정 시행 횟수 포함)
  • 다항식(고정 시행 횟수 포함)
  • 의 이항 분포(고정 고장 횟수 포함)

각 경우 고정해야 하는 모수에 따라 관측치 크기의 한계가 결정됩니다.

지수 집합이 아닌 일반 분포의 예로는 학생 t, 대부분의 혼합물 분포, 경계가 고정되지 않은 경우 균일한 분포 집합 등이 있습니다.상세한 것에 대하여는, 다음의 항을 참조해 주세요.

스칼라 파라미터

단일 모수 지수 계열은 확률 밀도 함수(또는 이산 분포의 경우 확률 질량 함수)가 다음과 같이 표현될 수 있는 확률 분포의 집합이다.

여기서 T(x), h(x), "("") A(")는 기존의 함수입니다.함수 h(x)는 당연히 음수가 아니어야 합니다.

종종 제공되는 동등한 대체 형식은 다음과 같습니다.

또는 동등하게

is을 패밀리의 파라미터라고 합니다.

f X( (, f X( {X\ 보다 { [6]에 의존하지 않습니다.이는 모수 패밀리 분포를 지수 패밀리로부터 제외하기 위해 사용할 수 있습니다.를 들어, Pareto 분포에는 xx m { x \ x _ {} ( m } )에 되어 있는pdf 가 있습니다.따라서 그 은 xm { m 입니다., m () { m} 의 이므로,(는) 매개 변수 값에 따라 달라지며, Pareto 분포 패밀리는 지수 분포 패밀리를 형성하지 않습니다( xm {m}을(를) 알 수 경우).

종종 x는 측정의 벡터이며, 이 경우 T(x)는 x의 가능한 값 공간부터 실수까지의 함수일 수 있습니다.보다 일반적으로는 (θ)와 T(x는 각각 θT T 실가치가 되도록 벡터값으로 할 수 있다.그러나 곡선 지수 패밀리에 대한 벡터 매개 변수에 대한 다음 설명을 참조하십시오.

η() = θ이면 지수군은 정준형이라고 한다.변환된 파라미터 η = ( ( )을 정의함으로써 지수 패밀리를 정규 형식으로 변환할 수 있습니다.T(x)에 그 상수의 역수를 곱하거나 c에 [ - T( )\ display \exp \ \ exp !\l [ \ 를 곱하는 경우, θ(x) h(x)에 상수 c를 추가할 수 있으므로 표준 형식은 고유하지 않습니다.θ(θ) = θT(x) = x인 특수한 경우, 군을 자연 지수족이라고 합니다.

x가 스칼라이고 파라미터가 1개밖에 없는 경우에도 다음과 같이 함수 θ(θ)와 T(x)는 벡터일 수 있습니다.

함수 A(') 또는 동등g(')는 다른 함수가 선택되면 자동으로 결정됩니다.이는 분포를 정규화하는 형식(도메인 전체에 걸쳐 하나의 형태로 합산 또는 적분)을 취할 필요가 있기 때문입니다.또, 이러한 함수는, θ(θ)가 일대일 함수가 아닌 경우라도, 즉 θ2이상의 다른 값이 θ(θ)의 같은 값에 매핑되어 있기 때문에, θ(θ)를 반전할 수 없는 경우에도 항상 θ의 함수로 쓸 수 있다.이 경우, A(') g(')에 대한 매핑의 모든 값도 같은 값이 됩니다.

관련된 변수의 인수분해

주목해야 할 중요한 것과 모든 지수족 변형을 특징짓는 것은 변수와 관측 변수가 직접 또는 지수 연산의 어느 한 부분(기저수 또는 지수) 에서 인수분해되어야 한다는 것이다(각각은 하나의 변수 유형만 포함하는 곱으로 분리될 수 있음).일반적으로 밀도 또는 질량 함수를 구성하는 모든 인자는 다음 중 하나의 형태여야 합니다.

여기f와 h는 x의 임의함수이고, g와 j는 θ의 임의의 함수이며, c는 임의의 "가변" 식이다(즉, x나 θ포함하지 않는 식).

그러한 요소들이 얼마나 많이 발생할 수 있는지에 대한 추가적인 제약이 있다.예를 들어, 다음 두 가지 식입니다.

동일한 두 가지 "허용된" 요소의 산물입니다.하지만 인수분해된 형태로 다시 작성하면

필요한 형태로 표현할 수 없다는 것을 알 수 있다(다만, 이러한 종류의 형태는 지수 에서 여러 인수분해 항을 사용할 수 있는 곡선 지수군의 구성원이다).[citation needed]

양식의 표현 이유를 확인하려면

자격요건수,

따라서 지수 내부에서 인수분해됩니다.유사하게,

그리고 다시 지수 내부에서 인수분해 합니다.

두 유형의 변수가 모두 관련된 합계로 구성된 계수(: 1+ ( ) ( ) (\1 + ((\) (일부 지수에서 직접 발생하는 경우를 제외하고)는 이러한 방식으로 인수분해할 수 없습니다. 예를 들어, 코시 분포와 학생 분포가 아닌 이유는 다음과 같습니다.xponential family.

벡터 파라미터

하나의 실수 파라미터에 대한 정의는 하나의 실수벡터 파라미터로 확장될 수 있습니다.

확률밀도함수(또는 이산분포의 경우 확률질량함수)가 다음과 같이 기록될 수 있는 경우 분포군은 벡터 지수족에 속한다고 한다.

아니면 좀 더 컴팩트한 형태로

이 형식은 벡터 값 함수 ( ) \ \ bold \} ( { \ symbol \ tt) T ( ) t t t t t t t t t of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of

자주 볼 수 있는 동등한 대체 형태는 다음과 같습니다.

스칼라 값 사례에서와 같이, 지수 패밀리는 다음과 같이 표준 형식이라고 한다.

벡터 지수 패밀리는 다음과 같은 경우 곡선이라고 한다.

벡터의 차원보다 작습니다.

즉, 파라미터 벡터의 차원 d가 확률밀도함수의 상기 표현에서 파라미터 벡터의 함수 s보다 작을 경우이다.지수 패밀리의 대부분의 일반적인 분포는 곡선이 아니며, 모든 지수 패밀리와 함께 작동하도록 설계된 많은 알고리즘은 분포가 곡선이 아니라고 가정합니다.

상기 스칼라값 파라미터의 경우와 마찬가지로 함수가 선택되면 A A}) 또는 에 상당하는g g({\ {}}})가 자동으로 결정되므로 분포 전체가 정규화된다.In addition, as above, both of these functions can always be written as functions of , regardless of the form of the transformation that generates from . Hence an exponential family in its "natural form" (자연 파라미터에 의해 파라미터화됨)은 다음과 같습니다.

또는 동등하게

위의 폼은T () T(x )( \ \ \ (x )로 표시되는 경우가 있습니다. 폼은 정확하게 동등합니다

벡터 파라미터, 벡터 변수

단일 스칼라 값 랜덤 변수에 대한 벡터 모수 형식은 랜덤 변수의 벡터에 대한 공동 분포를 포함하도록 3차적으로 확장할 수 있습니다.결과 분포는 스칼라 x가 벡터에 의해 대체될 때마다 스칼라 값 랜덤 변수에 대한 위의 분포와 같다.

랜덤 변수의 치수 k는 파라미터 벡터의 치수 d와 일치할 필요가 없습니다.또한 (곡선지수함수의 경우) 자연 \ \ style \ bold \ 충분한 통계량 T(x)치수 s도 없습니다.

이 경우의 분포는 다음과 같습니다.

또는 보다 콤팩트하게

또는 다른 방법으로

측정이론제

이산 분포와 연속 분포를 모두 포함하기 위해 누적 분포 함수(CDF)를 사용합니다.

H가 실제 변수의 비감소 함수라고 가정합니다.으로, Lebegue-Stieltjes 적분은 dH ()에 적분이다. (\ H에 의해 생성된 지수군의 기준 측도에 대한 적분이다.

해당 지수 계열의 모든 구성원이 누적 분포 함수를 가지고 있습니다.

H(x)는 기준 측정의 Lebegue-Stieltjes 적분자이다.기준 측도가 유한하면 정규화할 수 있으며 H는 사실 확률 분포의 누적 분포 함수입니다.F가 기준 x 일반적으로 르베그 측도)에 대해 f { f {\d} {x로 절대 연속인 경우 d x {} {d, {\rm {d} {d} {x} {x로 쓰면 .및 d H ( ) (x ) x {\ H x) (x ) 、{d,} x, } 라고 쓸 수 있기 때문에, 수식은 앞의 단락의 수식으로 줄일 수 있습니다.F가 이산인 경우 H는 스텝 함수(F를 지원하는 스텝 포함)입니다.

또는 확률 측도를 다음과 같이 직접 작성할 수 있습니다.

일부 기준 μ \mu에 대해 설명합니다.

해석

의 정의에서는 함수 T(x), θ) A)가 임의로 정의되어 있는 것으로 보인다.그러나 이러한 함수는 결과 확률 분포에서 중요한 역할을 합니다.

  • T(x)는 분포에 대한 충분한 통계량입니다.지수 계열의 경우 충분한 통계량은 알 수 없는 모수 값과 관련하여 데이터 x가 제공하는 모든 정보를 유지하는 데이터의 함수입니다.즉, 모든 세트x(\x)와(\ y에 대해 우도비는 즉,( ; )( ; )= f( y; 2) { style ; )입니다) = T(y) . x 와 y 가 상당히 다른 경우, 즉 d(x ,) { , ) > 0 , 해당됩니다. T(x)의 치수는 and의 파라미터 수와 같으며 파라미터 θ에 관련된 모든 데이터를 포함합니다.독립적이고 동일한 분포의 데이터 관측치 집합의 충분한 통계량은 단순히 개별적인 충분한 통계량의 합이며, 주어진 데이터(따라서 모수의 원하는 추정치를 도출하는 데)의 사후 분포를 설명하는 데 필요한 모든 정보를 캡슐화한다.(이 중요한 속성은 아래에서 자세히 설명합니다.)
  • θ자연 파라미터라고 합니다. ( ; ) { eta)} 가 적분 가능한 for의 값 집합을 자연 파라미터 공간이라고 한다.자연 파라미터 공간은 항상 볼록하다는 것을 알 수 있다.
  • A())정규화 계수의 로그이기 때문에 로그 분할[b] 함수라고 불리며, 계수가 없으면 f { 확률 분포가 되지 않습니다.

함수 A는 충분한 통계량 T(x)의 평균, 분산 및 기타 모멘트를 단순히 A( a)를 미분함으로써 도출할 수 있기 때문에 그 자체로 중요하다.예를 들어 log(x)감마 분포의 충분한 통계량 성분 중 하나이므로 A(η)사용하여 E [ x \ {\ x}를 결정할 수 있습니다.엄밀히 말하면, 이것은 사실이다.

는 충분한 통계량의 누적 생성 함수입니다.

지수족에는 통계 분석에 매우 유용한 특성이 많이 있습니다.대부분의 경우 지수 패밀리만 이러한 속성을 가지고 있음을 알 수 있습니다.예:

X( ) ( )exp [ T() -A ( ) _ { } ( \ \ ) ( ) , \ \ { \ [ } , \ \ ( x ) \ )그리고나서

  • { \ { \ \ { ^ { k in in in {{ { X ~ X} }Ti})는 { \theta[8][9] 통계량입니다
  • T X하는 모든ifffff에 최소 통계량입니다. (\_{2})= 1 2 (\_{1}=\ _ 1 2 (\ . [10]

»

이 섹션의 예를 고려할 때, "분포"는 지수 패밀리라고 하는 것이 무엇을 의미하는지에 대한 위의 논의를 기억하는 것이 중요합니다. 특히, "분포"가 지수 패밀리인지 아닌지를 판별하는 데 있어 변경이 허용되는 일련의 파라미터가 중요하다는 점에 유의하십시오.

정규, 지수, 로그 정규, 감마, 카이 제곱, 베타, 디리클레, 베르누이, 범주형, 포아송, 기하학적, 가우스, 미제 및 폰 미제스-피셔 분포는 모두 지수족이다.

일부 분포는 모수 중 일부가 고정된 경우에만 지수 집합입니다.최소 한계m x가 고정된 파레토 분포군은 지수 군을 형성합니다.시행 횟수가 고정되어 있지만 확률 모수를 알 수 없는 이항 및 다항 분포의 군들은 지수 군입니다.고장 횟수가 고정된 음의 이항 분포 (정지 시간 모수) r은 지수 군입니다.단, 위의 고정 파라미터 중 하나를 변경할 수 있는 경우 결과 패밀리는 지수 패밀리가 아닙니다.

위에서 설명한 바와 같이 일반적으로 지수 패밀리의 지원은 패밀리의 모든 매개변수 설정에서 동일하게 유지되어야 합니다.위의 사례(예: 시행 횟수가 다양한 이항식, 최소 경계가 다양한 파레토)가 지수 패밀리가 아닌 이유이며, 모든 경우에서 해당 매개변수가 지원에 영향을 미칩니다(특히 최소 또는 최대 가능 값 변경).비슷한 이유로 이산 균등 분포와 연속 균등 분포는 둘 중 하나 또는 둘 다 다르기 때문에 지수 계열이 아닙니다.

고정 형상 모수가 k인 Weibull 분포는 지수 군입니다.이전 예시와 달리 형상 매개변수는 지지에 영향을 주지 않습니다. 형상 매개변수를 변동시킬 수 있는 것은 와이불 확률 밀도 함수의 특정 형태(k는 지수의 지수에 표시됨)에 기인합니다.

일반적으로 다른 분포의 유한 또는 무한 혼합(예: 혼합물 모형 밀도 및 복합 확률 분포)에서 발생하는 분포는 지수군이 아닙니다.대표적인 가우스 혼합 모델뿐만 아니라, 예를 들어 학생의 t-분포(사전 감마 분포 정밀도에 대한 정규 분포 합성)와 베타-이항 분포와 같은 매개변수 중 하나에 대한 사전 분포와의 배합(즉 무한 혼합)에서 발생하는 많은 헤비테일 분포가 그 예이다.디리클레 다항 분포지수 분포가 아닌 분포의 다른 예로는 F-분포, 코시 분포, 초기하 분포 로지스틱 분포가 있습니다.

다음은 지수 패밀리로서 유용한 분포를 나타내는 몇 가지 자세한 예입니다.

알수 없는 알려진 : 알 수 없는 평균, 알 수 없는 분산

첫 번째 예로는 알 수 없는 평균 μ 및 알려진 분산 θ2 갖는 정규 분포 랜덤 변수를 생각해 보십시오.확률 밀도 함수는 다음과 같습니다.

은 단일 이며, 에서는 알 수 .

θ = 1이면 θ(μ) = μ와 같이 표준 형태이다.

알수과 알 수 없는 입니다.

다음으로 평균이 불분명하고 분산이 불분명한 정규 분포의 경우를 고려합니다.는 '확률밀도함수'가.

계열은 형식으로 쓸수입니다.

이산 지수군의 예로 시행 횟수가 n인 이항 분포를 고려하십시오.이 분포의 확률 질량 함수는 다음과 같습니다.

말은 '어느끼다'라고 할 수.

이는 이항 분포가 지수 군이며, 자연 모수는 다음과 같습니다.

p의 이 함수를 로짓이라고 합니다.

분포표

다음 표에서는 다수의 공통 분포를 자연 모수를 사용하여 지수 패밀리 분포로 다시 쓰는 방법을 보여 줍니다.메인 지수 패밀리에 대해서는 플래시[11] 카드를 참조해 주세요.

scalar 변수 및 scalar 파라미터의 형식은 다음과 같습니다.

스칼라 변수 및 벡터 파라미터의 경우:

벡터 변수 및 벡터 파라미터의 경우:

위의 공식에서는 로그 파티션 A ( " A ( { \ symbol { )를 가진 지수 패밀리의 함수 형식을 선택합니다.그 이유는 이 함수를 미분하는 것만으로 충분한 통계 모멘트를 쉽게 계산할 수 있기 때문입니다.대체 형태로는 자연 매개변수 일반 매개변수 {\ {})로 이 함수를 매개변수화하거나 지수 외부에 g {\{eta 사용합니다.후자와 전자의 관계는 다음과 같습니다.

두 가지 유형의 매개 변수를 포함하는 표현 간에 변환하려면 다음 공식을 사용하여 다른 유형의 매개 변수를 작성합니다.

분배 { \ bold \ } 파라미터 역파라미터 매핑 기본 h () { h 충분한 정보T () { T A}})}) A})})
베르누이 분포
이항 분포
알려진 시행 횟수 n n
포아송 분포
음이항 분포
기존 실패 rr
지수 분포
파레토 분포
x 을 알고 있습니다.
와이불 분포
이미 알려진 모양 k의
라플라스 분포
이 알려진μ\mu인 경우
기수 분포
정규 분포
이미 알려진 분산
연속 베르누이 분포
정규 분포
로그 정규 분포
역가우스 분포
감마 분포
역감마 분포
일반화 역가우스 분포
된 역치


1복수 1)


2복수 2)
정규
분포

1복수 1)


i k \ \ _ {}=1}


i e i { \ _ { i=}^{ } _ { i} }
분포

2복수 2)


i k \ \ _ {}=1}

i e _ _}}=

분포

)3으)3(으)


서 p k - - } =- \ _ { i=}^{






1복수 1)
알려진 시행 횟수 n n


i k \ \ _ {}=1}


i e i { \ _ { i=}^{ } _ { i} }


2복수 2)
알려진 시행 횟수 n n


i k \ \ _ {}=1}

i e _ _}}=



)3으)3(으)
알려진 시행 횟수 n n


서 p k - - } =- \ _ { i=}^{






1복수 1)


2복수 2)




  • 충분한 통계의 모멘트를 쉽게 계산할 수 있도록 매개변수화가 다른 세 가지 변형이 제공된다.
주의: r ( ) ( ) 、 \ {( \ {T}^ { \ { \ { } ( \ { } ) = \ c { c ) 。행렬 매개변수는 지수 형식에 삽입될 때 벡터화(벡터 배치)되는 것으로 가정합니다.또한 V X 대칭이므로, 예를 V. {\^{\{T} = \ 등입니다.





* Iverson 브래킷은 이산 델타 함수를 일반화한 것입니다.괄호로 묶은 표현이 참일 경우 괄호 값은 1이 됩니다.포함된 문이 거짓일 경우 Iverson 괄호는 0이 됩니다.많은 변형 표기법이 있습니다. 예를 들어, 웨이브 괄호 "a=b"는 위에서 사용한 [a=b] 표기법과 동일합니다.

범주형 분포와 다항 분포의 세 가지 변형은 i})가 다음과 같이 제약되기 때문입니다.

따라서 k- \style k -1 \ k - 1 \ k - 1 \ 。

  • Variant 1은 표준 파라미터와 자연 파라미터의 관계가 단순한 k k개의 자연 파라미터를 하지만 자연 파라미터 중 이며 k k개의 파라미터 세트는 식별할 수 없다.일반 파라미터에 대한 제약은 자연 파라미터에 대한 유사한 제약으로 변환됩니다.
  • 변형 2는 전체 자연 매개변수를 식별할 수 없다는 사실을 보여준다.자연 모수에 상수 값을 추가해도 결과 분포에는 영향을 주지 않습니다.그러나 자연 매개변수에 대한 제약을 사용함으로써 자연 매개변수에 대한 정규 매개변수에 대한 공식을 추가된 상수에 대해 독립적인 방식으로 작성할 수 있습니다.
  • Variant 3은 C - C=-\ p_ .} 를 설정하여 파라미터를 쉽게 식별할 수 있도록 하는 방법을 보여 줍니다. 이 은 pk {k} 의 를 효과적으로 "표시"하고 마지막 자연 파라미터의 값을 0 으로 합니다.나머지 공식은 모두 p 않는 방식으로 작성되므로 모델에는k - {k-1} 파라미터(통상 및 자연)만 유효합니다.

변형 1과 2는 실제로는 표준 지수 패밀리가 아닙니다.오히려 곡선 지수족이다. 즉, k k [12]공간에 k- k-1 독립 매개변수가 되어 있다.지수 패밀리에 대한 많은 표준 결과는 곡선 지수 패밀리에 적용되지 않습니다.예를 들어 로그 파티션 A () \ A ( ) \ 이며, 곡선 케이스의 값은 0 입니다.표준 지수 군에서 이 함수의 도함수는 충분한 통계의 모멘트(더 엄밀히 말하면 누적량)에 해당한다(예: 평균과 분산).단, 값이 0이면 충분한 통계정보의 평균과 분산이 균일하게 0인 반면, 실제로 이어야 합니다. (이는 변동으로 표시된xx)\ 사용하면 올바르게 나타납니다.개미 3).

충분한 통계량의 순간과 누적

분포의 정규화

확률 분포의 정규화부터 시작합니다.일반적으로 확률분포(x에 대한 모든 의존성을 부호화하는 부분)의 커널로서 기능하는 비음함수 f(x)는 정규화함으로써 적절한 분포로 만들 수 있다.

어디에

계수 Z는 통계물리학의 유추에 기초하여 정규화 함수 또는 분할 함수라고 불리기도 한다.

지수 계열의 경우

알맹이는

파티션 기능은

분배가 정상화되어야 하기 때문에, 우리는

바꿔 말하면

또는 동등하게

이것에 의해, A 를 로그 노멀라이저 또는 로그 파티션 함수로 호출하는 것이 정당화됩니다.

충분한 통계량의 모멘트 생성 함수

T(x)의 모멘트 생성 함수는

라고 하는 이전의 진술을 증명하다

T적분 생성 함수입니다.

지수군의 중요한 하위 클래스는 x 분포에 대한 모멘트 생성 함수와 유사한 형태를 가진 자연 지수 군입니다.

누적물질의 미분 아이덴티티

특히 적분 생성 함수의 특성을 이용하여

그리고.

첫 번째 두 개의 원시 모멘트와 혼합된 두 번째 모멘트는 이 두 개의 아이덴티티에서 회복할 수 있습니다.고차 모멘트 및 적분량은 고차 도함수에 의해 구해진다. 기술은 종종 T가 데이터의 복잡한 함수이며, 모멘트를 적분하여 계산하기 어려운 경우에 유용합니다.

적분 이론에 의존하지 않는 또 다른 방법은 지수 계열의 분포를 정규화하고 차별화해야 한다는 사실에서 시작하는 것입니다.우리는 1차원 매개변수의 단순한 사례를 사용하여 설명하지만, 유사한 파생이 더 일반적으로 적용된다.

1차원의 경우, 우리는

이건 정상화해야 하니까

§에 대해 양변 도함수를 구한다.

그러므로,

예 1

첫 번째 예로서 감마 분포를 고려합시다. 감마 분포는 다음과 같이 정의됩니다.

위의 표를 참조하면, 우리는 자연 매개변수가 다음과 같이 주어지는 것을 알 수 있다.

역치환:

the sufficient statistics are and the log-partition function is

We can find the mean of the sufficient statistics as follows. First, for η1:

Where is the digamma function (derivative of log gamma), and we used the reverse substitutions in the last step.

Now, for η2:

again making the reverse substitution in the last step.

To compute the variance of x, we just differentiate again:

All of these calculations can be done using integration, making use of various properties of the gamma function, but this requires significantly more work.

Example 2

As another example consider a real valued random variable X with density

indexed by shape parameter (this is called the skew-logistic distribution). The density can be rewritten as

Notice this is an exponential family with natural parameter

sufficient statistic

and log-partition function

So using the first identity,

and using the second identity

This example illustrates a case where using this method is very simple, but the direct calculation would be nearly impossible.

Example 3

The final example is one where integration would be extremely difficult. This is the case of the Wishart distribution, which is defined over matrices. Even taking derivatives is a bit tricky, as it involves matrix calculus, but the respective identities are listed in that article.

From the above table, we can see that the natural parameter is given by

the reverse substitutions are

and the sufficient statistics are

The log-partition function is written in various forms in the table, to facilitate differentiation and back-substitution. We use the following forms:

Expectation of X (associated with η1)

To differentiate with respect to η1, we need the following matrix calculus identity:

Then:

The last line uses the fact that V is symmetric, and therefore it is the same when transposed.

Expectation of log X (associated with η2)

Now, for η2, we first need to expand the part of the log-partition function that involves the multivariate gamma function:

We also need the digamma function:

Then:

This latter formula is listed in the Wishart distribution article. Both of these expectations are needed when deriving the variational Bayes update equations in a Bayes network involving a Wishart distribution (which is the conjugate prior of the multivariate normal distribution).

Computing these formulas using integration would be much more difficult. The first one, for example, would require matrix integration.

Entropy

Relative entropy

The relative entropy (Kullback–Leibler divergence, KL divergence) of two distributions in an exponential family has a simple expression as the Bregman divergence between the natural parameters with respect to the log-normalizer.[13] The relative entropy is defined in terms of an integral, while the Bregman divergence is defined in terms of a derivative and inner product, and thus is easier to calculate and has a closed-form expression (assuming the derivative has a closed-form expression). Further, the Bregman divergence in terms of the natural parameters and the log-normalizer equals the Bregman divergence of the dual parameters (expectation parameters), in the opposite order, for the convex conjugate function.[14]

Fixing an exponential family with log-normalizer (with convex conjugate ), writing for the distribution in this family corresponding a fixed value of the natural parameter (writing for another value, and with for the corresponding dual expectation/moment parameters), writing KL for the KL divergence, and for the Bregman divergence, the divergences are related as:

The KL divergence is conventionally written with respect to the first parameter, while the Bregman divergence is conventionally written with respect to the second parameter, and thus this can be read as "the relative entropy is equal to the Bregman divergence defined by the log-normalizer on the swapped natural parameters", or equivalently as "equal to the Bregman divergence defined by the dual to the log-normalizer on the expectation parameters".

Maximum-entropy derivation

Exponential families arise naturally as the answer to the following question: what is the maximum-entropy distribution consistent with given constraints on expected values?

The information entropy of a probability distribution dF(x) can only be computed with respect to some other probability distribution (or, more generally, a positive measure), and both measures must be mutually absolutely continuous. Accordingly, we need to pick a reference measure dH(x) with the same support as dF(x).

The entropy of dF(x) relative to dH(x) is

or

where dF/dH and dH/dF are Radon–Nikodym derivatives. The ordinary definition of entropy for a discrete distribution supported on a set I, namely

assumes, though this is seldom pointed out, that dH is chosen to be the counting measure on I.

Consider now a collection of observable quantities (random variables) Ti. The probability distribution dF whose entropy with respect to dH is greatest, subject to the conditions that the expected value of Ti be equal to ti, is an exponential family with dH as reference measure and (T1, ..., Tn) as sufficient statistic.

The derivation is a simple variational calculation using Lagrange multipliers. Normalization is imposed by letting T0 = 1 be one of the constraints. The natural parameters of the distribution are the Lagrange multipliers, and the normalization factor is the Lagrange multiplier associated to T0.

For examples of such derivations, see Maximum entropy probability distribution.

Role in statistics

Classical estimation: sufficiency

According to the PitmanKoopmanDarmois theorem, among families of probability distributions whose domain does not vary with the parameter being estimated, only in exponential families is there a sufficient statistic whose dimension remains bounded as sample size increases.

Less tersely, suppose Xk, (where k = 1, 2, 3, ... n) are independent, identically distributed random variables. Only if their distribution is one of the exponential family of distributions is there a sufficient statistic T(X1, ..., Xn) whose number of scalar components does not increase as the sample size n increases; the statistic T may be a vector or a single scalar number, but whatever it is, its size will neither grow nor shrink when more data are obtained.

As a counterexample if these conditions are relaxed, the family of uniform distributions (either discrete or continuous, with either or both bounds unknown) has a sufficient statistic, namely the sample maximum, sample minimum, and sample size, but does not form an exponential family, as the domain varies with the parameters.

Bayesian estimation: conjugate distributions

Exponential families are also important in Bayesian statistics. In Bayesian statistics a prior distribution is multiplied by a likelihood function and then normalised to produce a posterior distribution. In the case of a likelihood which belongs to an exponential family there exists a conjugate prior, which is often also in an exponential family. A conjugate prior π for the parameter of an exponential family

is given by

or equivalently

where s is the dimension of and and are hyperparameters (parameters controlling parameters). corresponds to the effective number of observations that the prior distribution contributes, and corresponds to the total amount that these pseudo-observations contribute to the sufficient statistic over all observations and pseudo-observations. is a normalization constant that is automatically determined by the remaining functions and serves to ensure that the given function is a probability density function (i.e. it is normalized). and equivalently are the same functions as in the definition of the distribution over which π is the conjugate prior.

A conjugate prior is one which, when combined with the likelihood and normalised, produces a posterior distribution which is of the same type as the prior. For example, if one is estimating the success probability of a binomial distribution, then if one chooses to use a beta distribution as one's prior, the posterior is another beta distribution. This makes the computation of the posterior particularly simple. Similarly, if one is estimating the parameter of a Poisson distribution the use of a gamma prior will lead to another gamma posterior. Conjugate priors are often very flexible and can be very convenient. However, if one's belief about the likely value of the theta parameter of a binomial is represented by (say) a bimodal (two-humped) prior distribution, then this cannot be represented by a beta distribution. It can however be represented by using a mixture density as the prior, here a combination of two beta distributions; this is a form of hyperprior.

An arbitrary likelihood will not belong to an exponential family, and thus in general no conjugate prior exists. The posterior will then have to be computed by numerical methods.

To show that the above prior distribution is a conjugate prior, we can derive the posterior.

First, assume that the probability of a single observation follows an exponential family, parameterized using its natural parameter:

Then, for data , the likelihood is computed as follows:

Then, for the above conjugate prior:

We can then compute the posterior as follows:

The last line is the kernel of the posterior distribution, i.e.

This shows that the posterior has the same form as the prior.

The data X enters into this equation only in the expression

which is termed the sufficient statistic of the data. That is, the value of the sufficient statistic is sufficient to completely determine the posterior distribution. The actual data points themselves are not needed, and all sets of data points with the same sufficient statistic will have the same distribution. This is important because the dimension of the sufficient statistic does not grow with the data size — it has only as many components as the components of (equivalently, the number of parameters of the distribution of a single data point).

The update equations are as follows:

This shows that the update equations can be written simply in terms of the number of data points and the sufficient statistic of the data. This can be seen clearly in the various examples of update equations shown in the conjugate prior page. Because of the way that the sufficient statistic is computed, it necessarily involves sums of components of the data (in some cases disguised as products or other forms — a product can be written in terms of a sum of logarithms). The cases where the update equations for particular distributions don't exactly match the above forms are cases where the conjugate prior has been expressed using a different parameterization than the one that produces a conjugate prior of the above form — often specifically because the above form is defined over the natural parameter while conjugate priors are usually defined over the actual parameter

Hypothesis testing: uniformly most powerful tests

A one-parameter exponential family has a monotone non-decreasing likelihood ratio in the sufficient statistic T(x), provided that η(θ) is non-decreasing. As a consequence, there exists a uniformly most powerful test for testing the hypothesis H0: θθ0 vs. H1: θ < θ0.

Generalized linear models

Exponential families form the basis for the distribution functions used in generalized linear models, a class of model that encompass many of the commonly used regression models in statistics.

See also

Footnotes

  1. ^ For example, the family of normal distributions includes the standard normal distribution N(0, 1) with mean 0 and variance 1, as well as other normal distributions with different mean and variance.
  2. ^ "Partition function" is often used in statistics as a synonym of "normalization factor".
  3. ^ These distributions are often not themselves exponential families. Common examples of non-exponential families arising from exponential ones are the Student's t-distribution, beta-binomial distribution and Dirichlet-multinomial distribution.

References

Citations

  1. ^ Kupperman, M. (1958). "Probabilities of hypotheses and information-statistics in sampling from exponential-class populations". Annals of Mathematical Statistics. 9 (2): 571–575. doi:10.1214/aoms/1177706633. JSTOR 2237349.
  2. ^ Andersen, Erling (September 1970). "Sufficiency and Exponential Families for Discrete Sample Spaces". Journal of the American Statistical Association. Journal of the American Statistical Association. 65 (331): 1248–1255. doi:10.2307/2284291. JSTOR 2284291. MR 0268992.
  3. ^ Pitman, E.; Wishart, J. (1936). "Sufficient statistics and intrinsic accuracy". Mathematical Proceedings of the Cambridge Philosophical Society. 32 (4): 567–579. Bibcode:1936PCPS...32..567P. doi:10.1017/S0305004100019307.
  4. ^ Darmois, G. (1935). "Sur les lois de probabilites a estimation exhaustive". C. R. Acad. Sci. Paris (in French). 200: 1265–1266.
  5. ^ Koopman, B. (1936). "On distribution admitting a sufficient statistic". Transactions of the American Mathematical Society. American Mathematical Society. 39 (3): 399–409. doi:10.2307/1989758. JSTOR 1989758. MR 1501854.
  6. ^ Abramovich & Ritov (2013). Statistical Theory: A Concise Introduction. Chapman & Hall. ISBN 978-1439851845.
  7. ^ Blei, David. "Variational Inference" (PDF). Princeton U.
  8. ^ Casella, George (2002). Statistical inference. Roger L. Berger (2nd ed.). Australia: Thomson Learning. Theorem 6.2.25. ISBN 0-534-24312-6. OCLC 46538638.
  9. ^ Brown, Lawrence D. (1986). Fundamentals of statistical exponential families : with applications in statistical decision theory. Hayward, Calif.: Institute of Mathematical Statistics. Theorem 2.12. ISBN 0-940600-10-2. OCLC 15986663.
  10. ^ Keener, Robert W. (2010). Theoretical statistics : topics for a core course. New York. pp. 47, Example 3.12. ISBN 978-0-387-93839-4. OCLC 676700036.
  11. ^ Nielsen, Frank; Garcia, Vincent (2009). "Statistical exponential families: A digest with flash cards". arXiv:0911.4863 [cs.LG].
  12. ^ van Garderen, Kees Jan (1997). "Curved Exponential Models in Econometrics". Econometric Theory. 13 (6): 771–790. doi:10.1017/S0266466600006253.
  13. ^ Nielsen & Nock 2010, 4. Bregman Divergences and Relative Entropy of Exponential Families.
  14. ^ Barndorff-Nielsen 1978, 9.1 Convex duality and exponential families.

Sources

Further reading

  • Fahrmeir, Ludwig; Tutz, G. (1994). Multivariate Statistical Modelling based on Generalized Linear Models. Springer. pp. 18–22, 345–349. ISBN 0-387-94233-5.
  • Keener, Robert W. (2006). Theoretical Statistics: Topics for a Core Course. Springer. pp. 27–28, 32–33. ISBN 978-0-387-93838-7.
  • Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). sec. 1.5. ISBN 0-387-98502-6.

External links