일반화 선형 모형

Generalized linear model

통계학에서 GLM(Generalized Linear Model)은 일반 선형 회귀의 유연한 일반화입니다.GLM은 선형 모델을 링크 함수를 통해 반응 변수에 관련시키고 각 측정의 분산 크기를 예측 값의 함수로 함으로써 선형 회귀를 일반화합니다.

일반화 선형 모델은 선형 회귀, 로지스틱 회귀포아송 [1]회귀를 포함한 다양한 다른 통계 모델을 통합하는 방법으로 John Nelder와 Robert Wedderburn의해 공식화되었습니다.그들은 모형 모수의 최대우도 추정(MLE)을 위해 반복적으로 재가중된 최소 제곱법을 제안했다.MLE는 여전히 일반적이며 많은 통계 컴퓨팅 패키지에서 기본 방식입니다.베이지안 회귀 분석과 분산 안정화 반응에 대한 최소 제곱 적합을 포함한 다른 접근법이 개발되었다.

직감

정규 선형 회귀 분석에서는 주어진 미지의 수량(반응 변수, 랜덤 변수)의 기대값을 관측값 집합(예측 변수)의 선형 조합으로 예측합니다.즉, 예측 변수가 지속적으로 변경되면 반응 변수(즉, 선형-반응 모형)가 지속적으로 변경됩니다.이는 반응 변수가 어느 방향으로든 무한히 변화할 수 있고, 더 일반적으로 인간의 키와 같은 예측 변수의 변동에 비해 상대적으로 작은 양만 변화할 수 있는 양에 대해 좋은 근사치로 변화할 수 있는 경우에 적절하다.

그러나 이러한 가정은 일부 유형의 반응 변수에는 적합하지 않습니다.예를 들어, 응답 변수가 항상 양수이고 넓은 범위에 걸쳐 변화할 것으로 예상되는 경우, 지속적인 입력 변화는 지속적으로 변화하기 보다는 기하학적으로 (즉, 기하급수적으로) 변화하는 출력 변화를 초래한다.예를 들어, 선형 예측 모형은 일부 데이터(아마도 큰 해변에서 주로 추출)로부터 10도 온도 하락으로 인해 해변을 찾는 사람이 1,000명 줄어들 것이라는 사실을 학습한다고 가정합니다.이 모델은 다양한 크기의 해변에서 잘 일반화되지 않을 것 같다.특히, 이 모형을 사용하여 정기적으로 50명의 해수욕객을 받는 해변의 온도 강하가 10인 새로운 참석자를 예측할 경우 -950의 참석자 수를 예상할 수 없다는 것이 문제입니다.논리적으로 좀 더 현실적인 모델은 대신 해변 참가자의 지속적인 증가율을 예측한다(예: 10도가 증가하면 해변 참가자가 두 배로 증가하고, 10도가 감소하면 참석자가 절반으로 감소한다).이러한 모형을 지수-반응 모형(또는 반응의 로그가 선형으로 변할 것으로 예측되므로 로그-선형 모형)이라고 합니다.

마찬가지로, 예/아니오 선택을 할 확률을 예측하는 모형(베르누이 변수)은 확률이 양 끝에 경계가 있기 때문에 선형 반응 모형으로 더욱 덜 적합합니다(0과 1 사이여야 함).예를 들어, 주어진 사람이 해변에 갈 가능성을 기온의 함수로 예측하는 모델을 상상해 보십시오.예를 들어, 합리적인 모형은 10도의 변화로 인해 사람이 해변에 갈 확률이 두 배 이상 증가하거나 감소한다고 예측할 수 있습니다.하지만 확률의 관점에서 "두 배"는 무엇을 의미할까요?말 그대로 확률 값을 두 배로 늘리는 것을 의미할 수 없습니다(예: 50%가 100%가 되고 75%가 150%가 되는 등).오히려 2:1의 확률에서 4:1의 확률로, 8:1의 확률로 두 배가 됩니다.이러한 모형은 로그 모형 또는 로지스틱 모형입니다.

일반화 선형 모형은 (단순 정규 분포가 아닌) 임의 분포를 갖는 반응 변수와 (반응 자체가 선형으로 변화해야 한다고 가정하지 않고) 예측 변수와 선형으로 변화하는 반응 변수의 임의 함수(연결 함수)를 허용함으로써 이러한 모든 상황을 다룹니다.예를 들어, 위의 해변 참석자 수의 예측 사례는 일반적으로 포아송 분포와 로그 링크로 모델링되는 반면, 해변 참석의 예측 확률은 일반적으로 베르누이 분포(또는 문제가 표현되는 방법에 따라 이항 분포)와 로그 오드로 모델링됩니다.또는 logit) 링크 기능.

개요

GLM(Generalized Linear Model)에서 종속 변수의 각 결과 Y는 특히 정규, 이항, 포아송 및 감마 분포를 포함하는 대규모 확률 분포인 지수 계열의 특정 분포에서 생성된다고 가정한다.분포의 평균 μ는 다음을 통해 독립 변수 X에 따라 달라집니다.

여기서 E(Y X)는 X에 조건부 Y기대치, 는 선형 예측 변수, 알려지지 않은 매개변수 β의 선형 조합, g는 링크 함수이다.

이 프레임워크에서 분산은 일반적으로 다음과 같은 평균의 함수 V입니다.

지수 분포 군에서 V가 이어지는 경우 편리하지만 단순히 분산이 예측 값의 함수일 수 있습니다.

알려지지 않은 매개변수 β는 일반적으로 최대우도, 최대준우도 또는 베이지안 기법으로 추정한다.

모델 컴포넌트

GLM은 다음 3가지 요소로 구성됩니다.

1. 확률 분포의 지수족으로 간주되는 분포 중 Y Y 모델링하기 위한 특정 분포
2. 선형예측기 β {=
3. E( X ) - (){ E ( Y \ X ) = \ g ^ { - 1 ( \ eta }의 링크 g

확률 분포

과대분산형 분포패밀리는 지수패밀리지수분산형 분포모델의 일반화로서 가 f(또는 prob)인 \ 로 파라미터화된 확률분포패밀리를 포함한다.이산 분포의 경우 능력 질량 함수)는 다음과 같이 표현될 수 있다.

분산 파라미터 는 일반적으로 알려져 있으며 일반적으로 분포의 분산과 관련이 있습니다.h ( , ) { h ( \ } , \ , ({ \, ( \ \ ) ,\ )정규 분포, 지수 분포, 감마 분포, 포아송 분포, 베르누이 분포 및 (고정 시행 횟수의 경우) 이항 분포, 다항 분포 및 음이항 분포 등 많은 일반 분포가 이 그룹에 있습니다.

scalar \ y \ 경우 y)의 경우 이 값은 다음과 같습니다.

displaystyle\\theta})는 배포의 수단과 관련이 있습니다.b( ) { \{ } ( \ symbol } ) the the 、 function 、 form 、 form 、 form form 、 form form form 、 form form form form,,,,,, ) 、 function function,, 배포는 표준 형식으로 변환할 수 있습니다 {\(는) b {\boldsymbol {\mathbf b \ \ { \ symbol \ theta} )가 일대일 함수가 새로운 파라미터화의 관점에서 A\ A( \ symbol \ 변환할 수 있습니다. 지수 패밀리 페이지의 주석을 참조하십시오.또한 T( )( \ { ( \ } )가 항등이고 { \ \ tau 알려진 경우,{\ { \ \ 표준 파라미터(또는 자연 파라미터)라고 하며 평균과 관련이 있습니다.

scalar "{의 경우 이 값은 다음과 같습니다.

이 시나리오에서 분포의 분산은 다음과[2] 같이 나타낼 수 있습니다.

scalar "{의 경우 이 값은 다음과 같습니다.

선형 예측 변수

선형 예측 변수는 독립 변수에 대한 정보를 모형에 통합하는 수량입니다.기호 β(그리스어 "eta")는 선형 예측 변수를 나타냅니다.링크 함수를 통한 데이터의 기대치와 관련이 있습니다.

β는 미지의 파라미터 β의 선형결합(linear combination, "linear")으로 표현된다.선형 조합의 계수는 독립 변수 X의 행렬로 표현된다. 따라서 θ는 다음과 같이 표현될 수 있다.

링크 함수

연결 함수는 선형 예측 변수와 분포 함수의 평균 사이의 관계를 제공합니다.일반적으로 사용되는 링크 함수는 여러 가지가 있으며, 그 선택에는 몇 가지 고려사항이 있습니다.응답 밀도 함수의 지수에서 파생된 잘 정의된 표준 링크 함수가 항상 있습니다.그러나 어떤 경우에는 링크 함수의 도메인을 분포 함수의 평균 범위와 일치시키거나 알고리즘 목적으로 비표준 링크 함수를 사용하는 것이 타당합니다(예: 베이지안 프로빗 회귀).

정규 파라미터 { 의 분포함수를 사용하는 경우, 정규 링크 함수는 되는 함수입니다. 즉, \ ( \ ) 。 일반적인 의 경우 μ displaystyle \ ( \ta ) 。 분포의 농도함수의 표준형태의 파라미터 중 하나이며 ( { b 농도함수를 표준형태로 매핑하는 위와 같은 함수입니다. 링크 함수를 사용하는 경우 b ( (\ b (\ )=\ =\{ (\X} {\boldsymbol {X충분하므로 X TY \ \ { {T} \rm {T} \rm {T} \rm } }} {\ for for for for for for for for for for for for for for for for for for for for for for

다음은 일반적으로 사용되는 몇 가지 지수 패밀리 분포와 이러한 분포가 일반적으로 사용되는 데이터 및 표준 링크 함수 및 그 역함수(여기서처럼 평균 함수라고도 함)의 표입니다.

일반적인 용도와 표준 링크 함수를 사용하는 공통 분포
분배 유통 지원 일반적인 용도 링크명 링크 함수 \ \{ } { \ symbol } =( \ ) , \ !} 평균 함수
보통의 real( - + { ( - \ , + \ ) } 선형 응답 데이터 신원
지수 real ( , + ( 0 , + \ } 지수-반응 데이터, 척도 모수 음의 역
감마

가우스
real ( , + ( 0 , + \ }
정사각형
포아송 : 0,, 0, ) 일정한 시간/공간에서의 발생 횟수 로그.
베르누이 정수 { , { \ { , \ } } 단일 예/아니오 발생 결과 로짓
이항 : 0, 0 예/없음 발생 횟수 중 "예" 발생 횟수
범주형 정수 [ { 단일 K-way 발생 결과
정수 K벡터 :[ , , 1]{ displaystyle [ 0 , 1 ] 여기서 벡터 내의 1개의 요소는 1의 값을 가집니다.
다항식 정수[ N { 총 K-way 발생 N개 중 서로 다른 유형(1..K)의 발생 횟수

지수 분포와 감마 분포의 경우, 표준 링크 함수의 도메인이 평균의 허용된 범위와 동일하지 않다.특히 선형 예측 변수는 양수일 수 있으며, 이는 불가능한 음의 평균을 제공합니다.가능성을 극대화할 때는 이를 방지하기 위한 예방 조치를 취해야 합니다.다른 방법으로는 비표준 링크 함수를 사용할 수 있습니다.

베르누이 분포, 이항 분포, 범주 분포 및 다항 분포의 경우 분포의 지원이 예측되는 모수와 동일한 유형의 데이터가 아닙니다.이러한 경우 모두 예측된 파라미터는 하나 이상의 확률, 즉 [ 범위의 실수입니다. 결과 모델을 로지스틱 회귀 분석(또는 이진수 값이 아닌 K-way가 예측되는 경우 다항 로지스틱 회귀 분석)이라고 합니다.

베르누이 분포와 이항 분포의 경우 모수는 단일 확률이므로 단일 사건이 발생할 가능성을 나타냅니다.베르누이는 하나의 결과가 항상 0 또는 1일지라도 기대값은 실제 값 확률, 즉 "예" (또는 1) 결과의 발생 확률이라는 점에서 일반화 선형 모델의 기본 조건을 충족한다.마찬가지로 이항 분포에서 기대값은 Np입니다. 즉, "예" 결과의 기대 비율은 예측 확률이 됩니다.

범주형 및 다항 분포의 경우 예측되는 모수는 확률의 K-벡터이며, 모든 확률이 1까지 더해야 한다는 추가 제한이 있습니다.각 확률은 K개의 가능한 값 중 하나가 발생할 가능성을 나타냅니다.다항 분포 및 범주형 분포의 벡터 형태에 대해 벡터 요소의 기대값은 이항 분포 및 베르누이 분포와 유사하게 예측 확률과 관련될 수 있습니다.

피팅

최대우도

최대우도 추정치반복적 재가중 최소 제곱 알고리즘 또는 뉴턴 방법을 사용하여 다음과 같은 형식을 업데이트할 수 있습니다.

서 J{{style { 관측된 정보 매트릭스(헤시안 행렬의 음수)이고, ( t {\}}^{(점수 함수이다.

(β (){ {{ 피셔 정보 매트릭스입니다.표준 링크 함수가 사용되는 경우 두 [3]함수는 동일합니다.

베이지안 방식

일반적으로 후방 분포닫힌 형태에서 찾을 수 없으므로, 대개 라플라스 근사 또는 깁스 표본 추출과 같은 마르코프 연쇄 몬테 카를로 방법을 사용하여 근사해야 한다.

일반 선형 모델

가능한 혼란의 지점은 두 가지 광범위한 통계 모델인 일반 선형 모델과 일반 선형 모델 사이의 구별과 관련이 있다.공동창안자인 John Nelder는 이 [4]용어에 대해 유감의 뜻을 표명했다.

일반 선형 모형은 항등성 연결과 정규 분포를 따르는 일반 선형 모형의 특수한 경우로 볼 수 있습니다.대부분의 정확한 관심 결과가 일반 선형 모델에 대해서만 얻어지기 때문에 일반 선형 모델은 다소 긴 역사적 발전을 거쳤다.동일성 링크가 없는 일반화 선형 모형에 대한 결과는 점근적(큰 표본에서 잘 작동하는 경향이 있음)입니다.

선형 회귀

일반화 선형 모형의 단순하고 매우 중요한 예(일반 선형 모형의 예이기도 함)는 선형 회귀 분석입니다.선형 회귀 분석에서, 최소 제곱 추정기를 사용하는 것은 정규 분포를 가정하지 않는 가우스-마코프 정리에 의해 정당화된다.

그러나 일반화 선형 모형의 관점에서 분포 함수는 일정한 분산을 갖는 정규 분포이고 연결 함수는 분산을 알고 있는 경우 정규 연결인 동일성이라고 가정하는 것이 유용합니다.이러한 가정에서는 최소 제곱 추정기를 최대우도 모수 추정치로 구합니다.

정규 분포의 경우 일반화 선형 모형에는 최대우도 추정치에 대한 닫힌 형식 식이 있으므로 편리합니다.대부분의 다른 GLM에는 폐쇄형 추정치가 없습니다.

바이너리

반응 데이터 Y가 2진수일 경우(값 0과 값 1만 취함) 분포 함수는 일반적으로 베르누이 분포로 선택되고 μi 해석은 Y가 값 1을 취함 확률i p입니다.

이항 함수에는 몇 가지 일반적인 연결 함수가 있습니다.

로짓 링크 함수

가장 일반적인 링크 함수는 표준 로짓링크입니다.

이 설정을 사용하는 GLM은 로지스틱 회귀 모형(또는 로짓 모형)입니다.

역 누적 분포 함수의 일반적인 선택으로 프로빗 링크 함수

또는 CDF의 범위는이항평균의 범위인 [ 이므로연속 누적분포함수(CDF)의 역수를 링크에 사용할 수 있습니다.일반 CDF(\ 인기 있는 제품으로 프로빗 모델을 제공합니다.그 링크는

프로빗 모델을 사용하는 이유는 (모든 파라미터의 등가 스케일링을 통해 흡수될 수 있는) 일반 CDF에 대한 입력 변수의 지속적인 스케일링이 로짓 함수와 실질적으로 동일한 함수를 생성하기 때문입니다. 그러나 프로빗 모델은 로짓 모델보다 상황에 따라 더 다루기 쉽습니다(베이지안 설정).ng 정규 분포 사전 분포가 모수에 배치되는 경우 정규 사전 분포와 정규 CDF 링크 함수 간의 관계는 프로빗 모델이 깁스 샘플링을 사용하여 계산될 수 있는 반면 로짓 모델은 일반적으로 계산할 수 없음을 의미한다.)

상보 로그 로그(cloglog)

보완 로그 로그 기능을 사용할 수도 있습니다.

이 링크 함수는 비대칭이며 로짓 및 프로빗 링크 [5]함수와는 다른 결과가 되는 경우가 많습니다.막힘 로그 모형은 사건 0개(예: [6]결점) 또는 사건 수가 포아송 분포를 따르는 것으로 가정되는 하나 이상의 사건을 관측하는 애플리케이션에 해당합니다.포아송 가정은 다음을 의미합니다.

여기서 μ는 예상되는 이벤트 수를 나타내는 양수입니다.p가 하나 이상의 사건이 있는 관측치의 비율을 나타내면 해당 사건의 보완

그리고 나서.

선형 모형에서는 전체 실제 선에 대한 값을 취하려면 반응 변수가 필요합니다.μ는 양수여야 하므로 로그(μ)를 선형 모형으로 하여 이를 강제할 수 있습니다.이를 통해 "cloglog" 변환이 생성됩니다.

아이덴티티 링크

항등성 링크 g(p) = p때때로 선형 확률 모형을 생성하기 위해 이항 데이터에 사용됩니다.단, 아이덴티티 링크는 0보다 작거나 1보다 큰 무의미한 "확률"을 예측할 수 있습니다.이는 cloglog, probit 또는 logit(또는 모든 역 누적 분포 함수)와 같은 변환을 사용하여 피할 수 있습니다.아이덴티티 링크의 주요 장점은 선형 연산을 사용하여 추정할 수 있다는 것입니다. 다른 표준 링크 함수는 p = 0.5에 가까운 아이덴티티 링크와 거의 선형으로 일치합니다.

분산 함수

"에 대한 분산 함수준항식" 데이터는 다음과 같습니다.

여기서 분산 모수 θ는 이항 분포의 경우 정확히 1입니다.실제로 표준 이항 우도에서는 τ이 누락됩니다.이것이 존재할 때, 모형은 "준우도"라고 불리며, 수정된 우도는 일반적으로 확률 분포의 어떤 실족에 해당하는 우도가 아니기 때문에 준우도라고 불린다.θ가 1을 초과하면 모형이 과대산포를 나타낸다고 합니다.

다항식 회귀 분석

이항 사례는 다항 분포를 반응으로 사용할 수 있도록 쉽게 확장할 수 있습니다(또한 제한된 총계를 가진 카운트에 대한 일반화 선형 모형).일반적으로는 다음 두 가지 방법으로 이 작업을 수행할 수 없습니다.

순서부여 대응

반응 변수가 순서형이면 다음과 같은 형식의 모형 함수를 적합시킬 수 있습니다.

m > 2. 서로 다른 링크 g는 비례 오즈 모형 또는 순서 프로빗 모형과 같은 순서형 회귀 모형으로 이어집니다.

순서 없는 응답

반응 변수가 명목형 측정값이거나 데이터가 순서 모형의 가정을 충족하지 않는 경우 다음과 같은 형식의 모형을 적합시킬 수 있습니다.

m > 2. 다른 링크 g는 다항 로짓 또는 다항 프로빗 모델로 이어집니다.이 값은 순서화된 반응 모형보다 일반적이며 더 많은 모수가 추정됩니다.

데이터수

일반화 선형 모형의 또 다른 예로는 포아송 분포를 사용하여 데이터를 카운트하는 포아송 회귀 분석이 있습니다.링크는 일반적으로 표준 링크인 로그입니다.

분산 함수는 평균에 비례합니다.

여기서 분산 파라미터 is는 일반적으로 정확히1로 고정됩니다.그렇지 않은 경우 결과 준우도 모형은 종종 과대산포가 있는 포아송 또는 준포아송으로 설명됩니다.

내선번호

상관 데이터 또는 클러스터 데이터

표준 GLM은 관측치가 상관 관계가 없다고 가정합니다.종적 연구 및 군집 설계에서 발생하는 것과 같이 관측치 간의 상관 관계를 위해 확장이 개발되었습니다.

  • 일반화 추정 방정식(GE)을 사용하면 상관 관계의 원점에 대한 명시적 확률 모델을 사용하지 않고도 관측치 간의 상관 관계를 확인할 수 있으므로 명시적 우도가 없습니다.랜덤 효과와 분산이 본래의 관심사가 아닐 때 적합하며, 그 기원을 설명하지 않고도 상관 관계를 확인할 수 있기 때문입니다.초점은 특정 개인에 대한 하나 이상의 X 성분 변경 효과를 예측할 수 있는 회귀 모수 대신 모집단에 대한 평균 반응("모집단 평균" 효과)을 추정하는 데 있다.GE는 보통 Huber-White 표준 [7][8]오류와 함께 사용됩니다.
  • 일반화 선형 혼합 모형(GLMM)은 선형 예측 변수에 랜덤 효과를 포함하는 GLM의 확장으로, 상관 관계의 기원을 설명하는 명시적 확률 모형을 제공합니다.결과 "대상별" 모수 추정치는 특정 개인에 대한 X 성분 하나 이상의 변경 효과를 추정하는 데 초점을 맞출 때 적합합니다.GLMM은 다단계 모델 및 혼합 모델이라고도 합니다.일반적으로 GLMM을 장착하는 것은 GE를 장착하는 것보다 계산상 복잡하고 집약적입니다.

일반화 가법 모형

GAM(Generalized Additive Model)은 선형 예측 변수 θ가 공변량 X에서 선형으로 제한되지 않고 xsi 적용되는 평활 함수의 합인 GLM의 또 다른 확장입니다.

평활 함수i f는 데이터를 통해 추정됩니다.일반적으로 이 작업에는 대량의 데이터 포인트가 필요하며 계산 [9][10]부하가 높습니다.

「 」를 참조해 주세요.

레퍼런스

인용문

  1. ^ Nelder, John; Wedderburn, Robert (1972). "Generalized Linear Models". Journal of the Royal Statistical Society. Series A (General). Blackwell Publishing. 135 (3): 370–384. doi:10.2307/2344614. JSTOR 2344614. S2CID 14154576.
  2. ^ 맥컬러 & 넬더 1989, 제2장
  3. ^ 맥컬러 & 넬더 1989, 43페이지
  4. ^ Senn, Stephen (2003). "A conversation with John Nelder". Statistical Science. 18 (1): 118–131. doi:10.1214/ss/1056397489. I suspect we should have found some more fancy name for it that would have stuck and not been confused with the general linear model, although general and generalized are not quite the same. I can see why it might have been better to have thought of something else.
  5. ^ "Complementary Log-log Model" (PDF).
  6. ^ "Which Link Function — Logit, Probit, or Cloglog?". Bayesium Analytics. 2015-08-14. Retrieved 2019-03-17.
  7. ^ Zeger, Scott L.; Liang, Kung-Yee; Albert, Paul S. (1988). "Models for Longitudinal Data: A Generalized Estimating Equation Approach". Biometrics. International Biometric Society. 44 (4): 1049–1060. doi:10.2307/2531734. JSTOR 2531734. PMID 3233245.
  8. ^ Hardin, James; Hilbe, Joseph (2003). Generalized Estimating Equations. London, England: Chapman and Hall/CRC. ISBN 1-58488-307-3.
  9. ^ Hastie & Tibshirani 1990.
  10. ^ 우드 2006.

참고 문헌

추가 정보

외부 링크