아카이케 정보 기준

Akaike information criterion

AIC(Akaike Information Criteria)는 예측 오류의 추정치이며, 따라서 주어진 [1][2][3]데이터 집합에 대한 통계 모델의 상대적 품질이다.데이터에 대한 모형 모음을 지정하면 AIC는 다른 각 모형과 비교하여 각 모형의 품질을 추정합니다.따라서 AIC는 모형 선택을 위한 수단을 제공합니다.

AIC는 정보이론에 기초하고 있다.데이터를 생성한 공정을 나타내는 데 통계적 모형을 사용하는 경우 표현은 거의 정확하지 않으므로 모형을 사용하여 공정을 표현하면 일부 정보가 손실됩니다.AIC는 주어진 모델에서 손실되는 정보의 상대적 양을 추정합니다. 즉, 모델이 손실되는 정보가 적을수록 해당 모델의 품질이 높아집니다.

모델에 의해 손실된 정보의 양을 추정할 때 AIC는 모델의 적합도와 모델의 단순성 사이의 균형을 다룬다.즉, AIC는 과적합 위험과 과소적합 위험을 모두 처리합니다.

아카이케 정보 기준은 이를 공식화한 일본의 통계학자 아카이케 히로쓰구의 이름을 딴 것이다.이는 이제 통계의 기초에 대한 패러다임의 기초를 형성하고 통계적 추론에도 널리 사용된다.

정의.

일부 데이터의 통계적 모형이 있다고 가정합니다.k를 모형에 포함된 추정된 모수의 수로 지정합니다.L 모델에 대한 우도 함수의 최대값으로 .그러면 모델의 AIC 값은 다음과 같습니다.[4][5]

데이터에 대한 후보 모델 집합이 주어지면, 선호되는 모델은 최소 AIC 값을 가진 모델이다.따라서 AIC는 적합도를 보상하지만(우도 함수에 의해 평가됨) 추정된 모수 수의 증가 함수인 패널티도 포함합니다.위약금은 과적합이 방지되는데, 이는 모형에서 모수의 수를 늘리면 거의 항상 적합도가 향상되기 때문입니다.

AIC는 정보이론에 기초한다.데이터가 알 수 없는 공정 f에 의해 생성된다고 가정합니다.우리는 두 가지1 후보 모델2 f: g와 g를 나타내는 것으로 간주한다.f를 안다면 쿨백-라이블러 발산 DKL(f g1 g)를 계산함으로써 f를 나타내기 위해 g를 사용했을1 때 손실된 정보를 찾을 수 있다. 마찬가지로 f를 나타내기 위해 g를 사용했을2 때 손실된 정보는 D(f g2 g)KL 계산함으로써 찾을 수 있다.그런 다음 일반적으로 정보 손실을 최소화하는 후보 모델을 선택합니다.

우리는 f를 모르기 때문에 확실하게 선택할 수 없다.그러나 Akaike(1974)는 AIC를 통해 g가 g보다12 얼마나 더 많은(또는 더 적은) 정보가 손실되는지를 추정할 수 있음을 보여주었다.그러나 추정치는 점근적으로만 유효합니다. 데이터 점의 수가 작으면 종종 보정이 필요합니다(아래 AICc 참조).

AIC는 모형의 절대 품질에 대해 아무 말도 하지 않으며 다른 모형의 상대적인 품질만 나타냅니다.따라서 모든 후보 모델이 잘 맞지 않는 경우 AIC는 이에 대한 어떠한 경고도 제공하지 않습니다.따라서 AIC를 통해 모델을 선택한 후 모델의 절대 품질을 검증하는 것이 일반적으로 좋습니다.이러한 검증에는 일반적으로 모형의 잔차가 랜덤으로 표시되는지 여부를 확인하기 위한 검사와 모형의 예측에 대한 검정이 포함됩니다.이 항목에 대한 자세한 내용은 통계 모델 검증참조하십시오.

AIC를 실제로 사용하는 방법

실제로 AIC를 적용하기 위해 후보 모델 집합에서 시작하여 모델의 해당 AIC 값을 찾습니다."진정한 모델"을 나타내는 후보 모델, 즉 데이터를 생성한 프로세스로 인해 정보가 손실되는 경우가 거의 항상 있습니다.후보 모델 중에서 정보 손실을 최소화하는 모델을 선택하고 싶습니다.확실한 선택은 할 수 없지만 예상되는 정보 손실을 최소화할 수 있습니다.

R 후보 모형이 있다고 가정합니다.AIC, AIC2, AIC3, ..., AIC로R 해당1 모델의 AIC 값을 나타냅니다.AIC를min 이들 값의 최소값으로 합니다.그러면 exp((AICmin - AICi)/2)는 ih 모형이 (추정된) [6]정보 손실을 최소화할 확률에 비례하는 것으로 해석할 수 있습니다.

예를 들어 AIC 값이 100, 102, 110인 세 가지 후보 모델이 있다고 가정합니다.그런 다음 두 번째 모형은 정보 손실을 최소화하기 위해 첫 번째 모형보다 exp((100 - 102)/2) = 0.368배 확률입니다.마찬가지로, 세 번째 모형은 정보 손실을 최소화하기 위해 첫 번째 모형보다 exp((100 - 110)/2) = 0.007배 확률입니다.

이 예에서는 세 번째 모델을 추가 검토에서 제외합니다.그런 다음 세 가지 옵션을 사용할 수 있다. (1) 더 많은 데이터를 수집하여 처음 두 모델 사이에서 하나의 모델을 선택하기에 데이터가 불충분하다고 결론짓는다. (3) 각각 1과 0.368에 비례하는 가중 평균을 취한다.y, 그리고 가중 [7]다중 모델기초한 통계적 추론을 수행합니다.

exp((AICmin - AICi)/2)는 모델 i의 상대 우도로 알려져 있습니다.이 값은 우도비 검정에 사용되는 우도비와 밀접한 관련이 있습니다.실제로 후보 집합의 모든 모형이 동일한 수의 매개변수를 갖는 경우, 처음에는 AIC를 사용하는 것이 우도비 검정을 사용하는 것과 매우 유사한 것으로 보일 수 있습니다.하지만 중요한 차이점이 있습니다.특히, 우도비 검정은 내포 모형에 대해서만 유효하지만 AIC(및 AICc)에는 이러한 제한이 [8][9]없습니다.

가설 검정

모든 통계 가설 테스트는 통계 모델의 비교로 공식화할 수 있다.따라서 모든 통계 가설 테스트는 AIC를 통해 복제할 수 있습니다.다음의 각 항에서, 2개의 예를 간단하게 설명합니다.이러한 예에 대한 자세한 내용은 사카모토, 이시구로 & 기타가와(1986년, 파트 II)와 코니시 & 기타가와(2008년, ch.4)가 제시하고 있다.

학생의 t-테스트 복제

가설 검정의 예로서 t-검정을 고려하여 정규 분포 모집단의 평균을 비교합니다.t-검정에 대한 입력은 두 모집단 각각에서 랜덤 표본으로 구성됩니다.

테스트를 모델 비교로 공식화하기 위해 두 가지 다른 모델을 구성합니다.첫 번째 모형에서는 두 모집단이 잠재적으로 서로 다른 평균과 표준 편차를 갖는 것으로 모형화합니다.따라서 첫 번째 모형에 대한 우도 함수는 두 개의 서로 다른 정규 분포에 대한 우도 함수의 곱입니다. 따라서 μ, θ1, μ12, θ2 네 가지 모수가 있습니다.명확하게 말하면, 우도 함수는 다음과 같습니다(표본 크기를 n2 n으로1 나타냄).

두 번째 모형에서는 두 모집단의 평균은 같지만 표준 편차가 다를 수 있는 것으로 모형화합니다.따라서 두 번째 모델에 대한 우도 함수는 위의 방정식에서 μ2 = μ를 설정합니다1. 따라서 이 함수는 세 개의 매개변수를 가집니다.

그런 다음 두 모델에 대해 우도 함수를 최대화합니다(실제로 로그 우도 함수를 최대화함수). 그 후에는 모형의 AIC 값을 쉽게 계산할 수 있습니다.다음으로 상대 우도를 계산합니다.예를 들어, 두 번째 모형이 첫 번째 모형의 0.01배에 불과하면 두 번째 모형이 추가 검토에서 제외됩니다. 따라서 두 모집단의 평균이 다르다는 결론을 내릴 수 있습니다.

t-검정은 두 모집단의 표준 편차가 동일하다고 가정합니다. 가정이 거짓이고 두 표본의 크기가 매우 다르면 검정을 신뢰할 수 없는 경향이 있습니다(Welch의 t-검정이 더 좋습니다).위의 예시와 같이 AIC를 통해 모집단의 평균을 비교하는 것은 그러한 가정을 하지 않는 것이 유리하다.

범주형 데이터 세트 비교

가설 검정의 또 다른 예제에서는 모집단이 두 개이고 각 모집단의 각 구성원이 범주 #1 또는 범주 #2의 두 범주 중 하나에 있다고 가정합니다.각 모집단은 이원적으로 분포되어 있습니다.두 모집단의 분포가 동일한지 여부를 확인하려고 합니다.우리는 두 모집단 각각에서 랜덤 표본을 얻었다.

m은 첫 번째 모집단에서 추출한 표본의 크기입니다.m을 범주 #1의 (표본에 있는) 관측치 수로 가정합니다1. 따라서 범주 #2의 관측치 1 m - m입니다.마찬가지로, n은 두 번째 모집단에서 추출한 표본의 크기입니다.n1 범주 #1의 (표본에 있는) 관측치 수입니다.

p를 첫 번째 모집단의 랜덤하게 선택된 구성원이 범주 #1에 속할 확률로 가정합니다.따라서 첫 번째 모집단의 랜덤 선택 구성원이 범주 #2에 속할 확률은 1 - p입니다. 첫 번째 모집단의 분포에는 모수가 하나 있습니다.q를 두 번째 모집단의 랜덤 선택 구성원이 범주 #1에 속할 확률로 가정합니다.두 번째 모집단의 분포에도 모수가 하나 있습니다.

두 모집단의 분포를 비교하기 위해 두 가지 다른 모형을 구성합니다.첫 번째 모형에서는 두 모집단이 잠재적으로 서로 다른 분포를 갖는 것으로 모형화합니다.따라서 첫 번째 모형에 대한 우도 함수는 두 개의 서로 다른 이항 분포에 대한 우도 함수의 곱이므로 두 개의 모수가 있습니다. 즉, p, q. 명확하게 말하면 우도 함수는 다음과 같습니다.

두 번째 모형에서는 두 모집단이 동일한 분포를 갖는 것으로 모형화합니다.따라서 두 번째 모형에 대한 우도 함수는 위의 방정식에서 p = q설정합니다. 따라서 두 번째 모형에는 하나의 모수가 있습니다.

그런 다음 두 모델에 대해 우도 함수를 최대화합니다(실제로 로그 우도 함수를 최대화함수). 그 후에는 모형의 AIC 값을 쉽게 계산할 수 있습니다.다음으로 상대 우도를 계산합니다.예를 들어, 두 번째 모형이 첫 번째 모형의 0.01배일 경우, 두 번째 모형이 추가 검토에서 제외됩니다. 따라서 두 모집단의 분포가 다르다는 결론을 내릴 수 있습니다.

통계의 기초

통계적 추론은 일반적으로 가설 테스트와 추정을 구성하는 것으로 간주된다.가설 테스트는 위에서 설명한 바와 같이 AIC를 통해 수행할 수 있습니다.추정에는 점 추정구간 추정의 두 종류가 있습니다.점 추정은 AIC 패러다임 내에서 수행될 수 있습니다. 즉, 최대우도 추정에 의해 제공됩니다.구간 추정은 또한 AIC 패러다임 내에서 수행될 수 있습니다. 즉, 우도 구간으로 제공됩니다.따라서 통계적 추론은 일반적으로 AIC 패러다임 내에서 수행될 수 있다.

통계적 추론을 위해 가장 일반적으로 사용되는 패러다임은 빈도주의 추론과 베이지안 추론이다.그러나, AIC는 빈도주의 패러다임이나 베이지안 패러다임에 의존하지 않고 통계적 추론을 수행하는 데 사용될 수 있다. 왜냐하면 AIC는 유의 수준이나 베이지안 [10]사전의 도움 없이 해석될 수 있기 때문이다.다시 말해, AIC는 빈도주의와 베이지안주의 [11][12]둘 다와 구별되는 통계의 기초를 형성하기 위해 사용될 수 있다.

작은 표본 크기에 대한 수정

표본 크기가 작을 경우 AIC가 모수가 너무 많은 모형을 선택할 가능성이 큽니다. 즉,[13][14][15] AIC가 과적합할 가능성이 높습니다.이러한 잠재적 과적합 문제를 해결하기 위해 AICc가 개발되었습니다. AICc는 작은 표본 크기에 대한 보정이 있는 AIC입니다.

AICc의 공식은 통계 모델에 따라 달라진다.모형이 일변량이고 모수가 선형이며 정규 분포 잔차를 갖는다고 가정하면 AICc 공식은 다음과 같습니다.[16][17]

: 여기서 n은 샘플사이즈를 나타내고 k는 파라미터의 수를 나타냅니다.따라서 AICc는 기본적으로 파라미터 수에 대한 패널티 조건이 추가된 AIC입니다.n → , n n 、 추가 패널티 조건이 0으로 수렴되므로 AICc는 AIC로 [18]수렴됩니다.

모형이 일변량이고 정규 잔차가 있는 선형이라는 가정이 성립되지 않으면 AICc 공식은 일반적으로 위의 공식과 다릅니다.일부 모델의 경우 공식을 결정하기가 어려울 수 있습니다.그러나 AICc를 사용할 수 있는 모든 모형에 대해 AICc 공식은 AIC + k2 k를 모두 포함하는 항에 의해 제공됩니다.이에 비해 AIC의 공식은 k를 포함하지만 k를 포함하지2 않는다.즉, AIC는 (정보 손실의) 1차 추정치이며, AICc는 2차 [19]추정치이다.

다른 가정들의 예와 함께 공식에 대한 추가 논의는 번햄 & 앤더슨(2002년, 7장)과 코니시 & 기타가와(2008년, 7-8장)에 의해 이루어졌다.특히, 다른 전제 조건과 함께, 공식의 부트스트랩 추정은 종종 실현 가능합니다.

요약하자면, AICc는 AIC보다 더 정확한 경향이 있지만(특히 작은 샘플의 경우), AICc는 때때로 AIC보다 훨씬 계산하기가 어렵다는 단점도 있다.모든 후보 모델이 AICc에 대해 동일한 k와 동일한 공식을 갖는 경우, AICc와 AIC는 동일한 (상대적인) 평가를 제공하므로 AICc 대신 AIC를 사용해도 아무런 불이익이 없다.또한 n이 k보다2 몇 배 클 경우 추가 패널티 기간은 무시할 수 있습니다.따라서 AICc 대신 AIC를 사용하는 경우의 단점은 무시할 수 있습니다.

역사

Akaike 정보 기준은 통계학자 Akaike 히로쓰구에 의해 공식화되었다.이것은 원래 "정보 기준"[20]으로 명명되었다.1971년 아카이케에 의해 영어로 처음 발표되었으며,[20][21] 1973년에 심포지엄이 출판되었다.그러나 1973년 간행물은 [22]개념에 대한 비공식적인 설명에 불과했다.최초의 정식 출판물은 1974년 아카이케의 [5]논문이었다.2014년 10월 현재, 1974년 논문은 Web of Science에서 14,000개 이상의 인용문을 받았으며,[23] 이는 역대 73번째로 인용된 연구 논문으로 기록되었습니다.

오늘날 AIC는 아카이케의 1974년 논문을 인용하지 않고 자주 사용될 정도로 보편화되었다.실제로 (Google [when?][24]Scholar가 평가한) AIC를 사용하는 학술적인 기사/서적은 15만 건이 넘습니다.

AIC의 최초 파생은 몇 가지 강력한 가정에 의존했다.다케우치(1976)는 가정이 훨씬 약해질 수 있음을 보여주었다.그러나 다케우치의 작품은 일본어로 되어 있어 오랫동안 일본 밖에서는 널리 알려지지 않았다.

AICc는 원래 스기우라(1978)에 의해 선형 회귀에 대해 제안되었다.그것은 Hurvich & Tsai(1989년)와 같은 저자의 몇 가지 추가 논문을 자극하여 AICc를 적용할 수 있는 상황을 확장시켰다.

정보이론 접근법의 첫 번째 일반적인 설명은 Burnham & Anderson(2002)의 책이었다.여기에는 다케우치의 작품을 영어로 소개하는 내용이 포함되어 있다.그 볼륨은 AIC를 훨씬 더 많이 사용하게 만들었고, 현재 구글 스콜라에 48,000개 이상의 인용문을 가지고 있다.

아카이케는 그의 접근방식을 "엔트로피 극대화 원리"라고 불렀는데, 그 이유는 그 접근방식이 정보 이론의 엔트로피 개념에 기초하기 때문이다.실제로, 통계 모델에서 AIC를 최소화하는 것은 열역학 시스템에서 엔트로피를 최대화하는 것과 사실상 동등하다. 즉, 통계에서 정보 이론 접근법은 본질적으로 열역학 제2법칙을 적용하는 것이다.이와 같이 AIC는 루드비히 볼츠만의 엔트로피 연구에 뿌리를 두고 있다.이러한 문제에 대한 자세한 내용은 Akaike(1985년) 및 Burnham & Anderson(2002년, ch. 2)을 참조하십시오.

사용상의 힌트

카운트 파라미터

통계 모형은 랜덤 오류를 고려해야 합니다.직선 모형은 공식적으로 y = b0 + bx1i + θi 설명i 수 있습니다.여기서 arei 직선 적합치의 잔차입니다.§가i i.i.d로 간주되는 경우.가우스(평균이 0인 경우) 모델에는 b, b1 및 가우스 분포의 분산이라는0 세 가지 파라미터가 있습니다.따라서 이 모델의 AIC 값을 계산할 때 k=3을 사용해야 합니다.일반적으로 i.i.d.가 있는 최소 제곱 모형의 경우.가우스 잔차, 잔차 분포의 분산을 [25]모수 중 하나로 카운트해야 합니다.

또 다른 예로, x = c + δx + δii−1i 정의되는 1차 자기 회귀 모형을 생각해 보십시오. δi i.i.d입니다.가우스(평균이 0인 경우).이 모델에는 c, θθi 분산의 세 가지 파라미터가 있습니다.일반적으로 p차 자기 회귀 모형에는 p + 2 모수가 있습니다(그러나 c가 데이터에서 추정되지 않고 미리 주어진 경우에는 p + 1 모수만 있습니다).

데이터 변환

후보 모델의 AIC 값은 모두 동일한 데이터 세트로 계산해야 합니다.그러나 때로는 반응 변수 y의 모형을 반응 변수 log(y)의 로그 모형과 비교할 수도 있습니다.일반적으로 데이터 모형을 변환된 데이터 모형과 비교하는 것이 좋습니다.다음은 데이터 변환에 대처하는 방법의 예시이다(Burnham & Anderson(2002년, § 2.11.3): "조사자는 모든 가설을 동일한 반응 변수를 사용하여 모델링해야 한다.").

두 모형, 즉 정규 분포 y 정규 분포 log(y)를 비교한다고 가정합니다.두 모델의 AIC 값을 직접 비교해서는 안 됩니다.대신 정규 누적 분포 함수를 변환하여 먼저 y의 대수를 구해야 합니다.그러기 위해서는 관련 적분을 치환하여 실시해야 합니다.따라서 1/y (자연) 로그함수의 도함수에 곱해야 합니다.따라서 변환된 분포에는 다음과 같은 확률 밀도 함수가 있습니다.

로그 정규 분포의 확률 밀도 함수입니다.그런 다음 정규 모델의 AIC 값을 로그 정규 모델의 AIC 값과 비교합니다.

소프트웨어의 신뢰성

일부 통계 소프트웨어는[which?] AIC 값 또는 로그 우도 함수의 최대값을 보고하지만 보고된 값이 항상 올바른 것은 아닙니다.일반적으로 부정확성은 로그 우도 함수의 상수가 생략되었기 때문입니다.예를 들어, n개의 독립적동일 정규 분포에 대한 로그 우도 함수는 다음과 같습니다.

:이 함수는 AIC 값을 얻을 때 최대화 됩니다.일부 software,[어떤?]은 상수항(.mw-parser-output .sfrac{white-space:nowrap}.mw-parser-output.sfrac.tion,.mw-parser-output.sfrac .tion{디스플레이:inline-block, vertical-align:-0.5em, font-size:85%;text-align:센터}.mw-parser-output.sfrac .num,.mw-parser-output.sfrac .den{디스플레이:블록, line-height:1em, 마진:00.1em}.mw-pars 생략합니다.Er-output.sfrac .den{border-top:1px 고체}.mw-parser-output .sr-onlyᆫn(2π), 그래서 log-likelihood maximum—and의 AIC에 잘못된 값 보고한다.모든 모형의 잔차가 정규 분포인 경우에는 오차가 상쇄되기 때문에 이러한 오차는 AIC 기반 비교에 문제가 되지 않습니다.그러나 일반적으로 상수 항은 로그 우도 [26]함수에 포함되어야 합니다.따라서 소프트웨어를 사용하여 AIC를 계산하기 전에 일반적으로 소프트웨어에서 간단한 테스트를 실행하여 함수 값이 올바른지 확인하는 것이 좋습니다.

다른 모델 선택 방법과의 비교

AIC와 BIC(및 이들의 변종) 사이의 중요한 차이는 잘 명시되고 잘못 명시된 모델 [27]등급의 점근 특성이다.이들의 근본적인 차이는 회귀 변수 선택과 자기 회귀 순서[28] 선택 문제에서 잘 연구되어 왔다.일반적으로 예측이 목표인 경우 AIC와 생략된 교차 검증을 선호합니다.선택, 추론 또는 해석이 목표인 경우 BIC 또는 다수의 생략 교차 검증을 사용하는 것이 좋습니다.AIC 및 기타 인기 모델 선택 방법에 대한 포괄적인 개요는 딩 외 연구진에 의해 제공된다.

BIC와의 비교

베이지안 정보 기준(BIC)의 공식은 AIC의 공식과 유사하지만 매개변수 수에 대한 패널티가 다르다.AIC의 경우 패널티는 2k이지만 BIC의 경우 패널티는 ln(n)k입니다.

AIC/AICc와 BIC의 비교는 Burnham & Anderson(2002년, § 6.3-6.4)과 Burnham & Anderson(2004)의 후속 코멘트를 비교한 것이다.저자들은 AIC/AICc가 단지 다른 사전 확률을 사용하여 BIC와 동일한 베이지안 프레임워크에서 도출될 수 있음을 보여준다.그러나, BIC의 베이지안 파생에서, 각 후보 모델은 1/R의 사전 확률을 가진다(여기서 R은 후보 모델의 수).또한 저자들은 AICc가 BIC에 비해 실용적/성능적 우위를 갖는 경향이 있음을 시사하는 몇 가지 시뮬레이션 연구를 제시한다.

AIC와 BIC가 서로 다른 작업에 적합하다는 것이 여러 연구자들의 의견이다.특히, BIC는 후보 모델 집합에서 "진정한 모델"(즉, 데이터를 생성한 프로세스)을 선택하는 데 적절하다고 주장하지만, AIC는 적절하지 않다.구체적으로, "진짜 모델"이 후보 집합에 있는 경우, BIC는 확률이 1인 "진짜 모델"을 n → ;로 선택합니다. 반면, AIC를 통해 선택될 경우, 확률은 1 [29][30][31]미만이 될 수 있습니다. "진짜 모델"은 후보군에 사실상 설정되지 않기 때문에 이 문제는 무시할 수 있다고 AIC의 지지자들은 주장합니다.사실, 통계학에서 "모든 모델이 틀렸다"는 흔한 격언이다. 따라서 "진정한 모델"(즉, 현실)은 후보 집합에 있을 수 없다.

AIC와 BIC의 또 다른 비교는 Vrieze(2012)에 의해 제시되었다.Vrieze는 (거의 모든 실제 데이터와 달리) "진정한 모델"을 후보 세트에 포함할 수 있는 시뮬레이션 연구를 제공합니다.시뮬레이션 연구는 특히 "진짜 모델"이 후보 집합에 있는 경우에도 AIC가 BIC보다 훨씬 더 나은 모델을 선택하는 경우가 있다는 것을 보여준다.그 이유는 유한 n의 경우 BIC가 후보 집합에서 매우 나쁜 모델을 선택할 위험이 크기 때문입니다.이 이유는 n이 k보다 훨씬2경우에도 발생할 수 있습니다.AIC를 사용하면 불량 모델을 선택할 위험이 최소화됩니다.

"진짜 모델"이 후보 집합에 없는 경우 "진짜 모델"에 가장 가까운 모델을 선택하는 것이 가장 좋습니다.AIC는 특정 [29][30][31]가정 하에서 최적의 근사 모델을 찾는 데 적합합니다.(특히 정보 손실과 관련하여 대략적인 계산이 이루어진다는 가정도 있습니다.)

회귀의 맥락에서 AIC와 BIC의 비교는 Yang(2005)에 의해 제시되었다.회귀 분석에서 AIC는 "참 모형"이 후보 집합에 없다는 가정 하에 평균 제곱 오차가 최소인 모형을 선택하는 데 점근적으로 최적입니다.BIC는 이 가정 하에서 점근적으로 최적이 아니다.또한 Yang은 AIC가 최적으로 수렴되는 속도가 어떤 의미에서는 가능한 최선의 속도임을 보여 줍니다.

교차 검증과의 비교

생략형 교차 검증은 일반 선형 회귀 [32]모형의 경우 점근적으로 AIC와 동일합니다.AIC에 대한 점근적 등가성은 혼합 효과 [33]모델에도 적용된다.

최소 제곱을 사용한 비교

때때로 각 후보 모형은 잔차가 독립적인 동일한 정규 분포(평균이 0)에 따라 분포된다고 가정합니다.따라서 최소 정사각형 모델 피팅이 가능합니다.

최소 제곱 적합치일 때, 모델의 잔차 분포의 분산에 대한 최대우도 추정치는 축소 카이-제곱 S/n {\{\}=\ /입니다. 잔차 은 R: 그러면 모델의 로그우도 함수의 최대값은

C는 모델에 의존하지 않고 특정 데이터 포인트에만 의존하며, 즉 데이터가 변경되지 않는 경우에도 변경되지 않습니다.

그 결과:[34]

AIC = 2k + nln(표준2) - 2C = 2k + nln(RSS) - (nln(n) + 2C).

AIC의 차이만 유의하기 때문에 상수(nln(n) + 2C)를 무시할 수 있으며, 이를 통해 모델 비교를 위해 다음을 편리하게 취할 수 있다.

δAIC = 2k + nln (RSS)

모든 모델의 k가 동일한 경우 최소 AIC를 가진 모델을 선택하는 것은 최소 RSS를 가진 모델을 선택하는 것과 같습니다. 이것은 최소 제곱에 기초한 모델 선택의 일반적인 목표입니다.

Mallows C와의p 비교

Mallowsp C는 (가우스) 선형 [35]회귀 분석의 경우 AIC와 동일합니다.

「 」를 참조해 주세요.

메모들

  1. ^ Stoica, P.; Selen, Y. (2004), "Model-order selection: a review of information criterion rules", IEEE Signal Processing Magazine (July): 36–47, doi:10.1109/MSP.2004.1311138, S2CID 17338979
  2. ^ McElreath, Richard (2016). Statistical Rethinking: A Bayesian Course with Examples in R and Stan. CRC Press. p. 189. ISBN 978-1-4822-5344-3. AIC provides a surprisingly simple estimate of the average out-of-sample deviance.
  3. ^ Taddy, Matt (2019). Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions. New York: McGraw-Hill. p. 90. ISBN 978-1-260-45277-8. The AIC is an estimate for OOS deviance.
  4. ^ Burnham & Anderson 2002, 2 2.2
  5. ^ a b 아카이케 1974
  6. ^ Burnham & Anderson 2002, © 2.9.1, © 6.4.5
  7. ^ Burnham & Anderson 2002
  8. ^ Burnham & Anderson 2002, © 2.12.4
  9. ^ 머토 2014
  10. ^ Burnham & Anderson 2002, 99페이지
  11. ^ Bandyopadhyay & Forster 2011
  12. ^ 사카모토, 이시구로 & 기타가와 1986년 1986년
  13. ^ 맥쿼리 & 차이 1998
  14. ^ Claeskens & Hjort 2008, © 8.3
  15. ^ Giraud 2015, © 2.9.1
  16. ^ 카바노 1997
  17. ^ Burnham & Anderson 2002, 2.4파운드
  18. ^ 번햄 앤 앤더슨 2004
  19. ^ Burnham & Anderson 2002, 77.4
  20. ^ a b Findley & Parzen 1995
  21. ^ 아카이케 1973
  22. ^ 더리우 1992
  23. ^ Van Noordon R., Maher B., Nuzzo R. (2014), "The Top 100 papers", Nature, 514.
  24. ^ Google Scholar에서 "Akaike"와 "AIC"를 모두 포함하는 소스입니다.
  25. ^ Burnham & Anderson 2002, 페이지 63
  26. ^ Burnham & Anderson 2002, 페이지 82
  27. ^ Ding, Jie; Tarokh, Vahid; Yang, Yuhong (November 2018). "Model Selection Techniques: An Overview". IEEE Signal Processing Magazine. 35 (6): 16–34. arXiv:1810.09583. Bibcode:2018ISPM...35...16D. doi:10.1109/MSP.2018.2867638. ISSN 1053-5888. S2CID 53035396.
  28. ^ Ding, J.; Tarokh, V.; Yang, Y. (June 2018). "Bridging AIC and BIC: A New Criterion for Autoregression". IEEE Transactions on Information Theory. 64 (6): 4024–4043. arXiv:1508.02473. doi:10.1109/TIT.2017.2717599. ISSN 1557-9654. S2CID 5189440.
  29. ^ a b Burnham & Anderson 2002, © 6.3 - 6.4
  30. ^ a b Vrieze 2012
  31. ^ a b Aho, Derryberry & Peterson 2014
  32. ^ 스톤 1977
  33. ^ 팽이 2011
  34. ^ Burnham & Anderson 2002, 페이지 63
  35. ^ Boisbunon 외 2014년

레퍼런스

추가 정보