시공간 분리의 함수로 분산을 보려면 변수들을 참조하십시오. 통계에서 분산 함수는 그 평균의 함수로 랜덤 수량의 분산을 나타내는 부드러운 함수다.분산 함수는 이단성을 측정하는 척도로, 통계 모델링의 많은 설정에서 큰 역할을 한다.일반화된 선형 모델 프레임워크의 주성분이며 비모수 회귀 분석,[1] 반모수 회귀[1] 분석 및 기능 데이터 분석에 사용되는 툴이다.[2]모수 모델링에서 분산 함수는 모수 형식을 취하며 분산과 랜덤 수량의 평균 사이의 관계를 명시적으로 설명한다.비모수 설정에서는 분산 함수를 평활함수로 가정한다.null
직감
회귀 모형 설정에서 목적은 반응 변수와 예측 변수 집합 사이에 관계가 있는지 여부를 확인하는 것이다.또한, 만약 관계가 존재한다면, 그 때 목표는 가능한 한 이 관계를 가장 잘 묘사할 수 있는 것이다.선형 회귀 분석의 주요 가정은 상수 분산 또는 (동수성)이며, 이는 서로 다른 반응 변수들이 모든 예측 변수 수준에서 오차 분산이 동일하다는 것을 의미한다.이 가정은 반응 변수와 예측 변수가 공동으로 정규 분포를 따르는 경우 잘 작동한다.나중에 보게 되겠지만, 정상 설정의 분산 함수는 일정하지만, 공동 정규성이 없는 경우 이단성(비정수 분산)을 정량화하는 방법을 찾아야 한다.null
반응이 지수 계열의 구성원인 분포를 따를 가능성이 높은 경우 일반화된 선형 모형을 사용하는 것이 더 적합할 수 있으며, 더욱이 모수 모형을 데이터에 강제하지 않으려는 경우에는 비모수 회귀 접근법이 유용할 수 있다.분산을 평균의 함수로 모형화할 수 있는 것의 중요성은 개선된 추론(모수적 설정에서)과 회귀 함수의 일반적인 추정에 있다.null
분산 함수는 모수 추정과 추론에 매우 중요한 역할을 한다.일반적으로 최대우도 추정에는 우도함수를 정의해야 한다.이 요구사항은 관측된 반응 변수의 분포를 먼저 지정해야 함을 의미한다.그러나 준우도를 정의하려면 관측치의 평균과 분산 사이의 관계만 명시하면 준우도 함수를 추정에 사용할 수 있다.[3]준우도 추정은 과대산포가 있을 때 특히 유용하다.과대산포증은 데이터의 가정된 분포에 따라 예상해야 하는 것보다 데이터에 더 많은 변동성이 있을 때 발생한다.null
요약하자면, 회귀 모수와 회귀 함수의 효율적인 추론을 보장하기 위해서는 이단성을 설명해야 한다.분산 함수는 분산과 관측된 데이터의 평균 사이의 관계를 정량화하므로 회귀 추정과 추론에서 중요한 역할을 한다.null
종류들
분산 함수와 그 적용은 통계 분석의 많은 영역에서 나타난다.이 함수의 매우 중요한 사용은 일반화된 선형 모형과 비모수 회귀 분석의 프레임워크에 있다.null
일반화 선형 모형
지수 계열의 멤버를 지정한 경우 분산 함수를 쉽게 도출할 수 있다.[4]: 29 분산함수의 일반적 형태는 지수적 패밀리 컨텍스트에 따라 제시되며, 노멀, 베르누이, 푸아송, 감마 등에 대한 구체적인 형태도 제시된다.또한 최대우도 추정과 준우도 추정에서 분산 함수의 적용 및 사용에 대해 설명한다.null
파생
일반화된 선형 모형(GLM)은 지수 계열의 어떤 구성원으로도 확장되는 일반적인 회귀 분석의 일반화다.특히 반응 변수가 범주형, 이항 또는 제약 조건의 대상인 경우(예: 양성 반응만 의미가 있음)에 유용하다.GLM의 구성요소에 대한 간단한 요약은 이 페이지에 요약되어 있지만, 자세한 내용과 정보는 일반화된 선형 모델에 대한 페이지를 참조하십시오.null
GLM은 세 가지 주요 성분으로 구성된다.
- 1. 무작위 성분: 지수 계열의 y 분포, [ x = = E[ X
- 2. 선형예측기: = B =j = i {\_{}^{{ijp}}}}^{p}}}{p}}}}}^{p}}

- 3. 링크 함수: = g ) ,= g- ( ) )
먼저 지수 계열의 몇 가지 주요 특성을 도출하는 것이 중요하다.null
지수 계열의
임의 변수 은(는) 형식의 확률 밀도 함수를 가진다.

로그 우도,

여기서 은
(는) 표준 파라미터와 관심 파라미터, 은
(는) 분산에 역할을 하는 성가신 파라미터다.우리는 분산함수에 대한 일반적인 표현을 도출하기 위해 Bartlett의 Identity를 사용한다.첫 번째와 두 번째 Bartlett 결과는 적절한 조건(라이브니즈 적분 규칙 참조)에서 , f ()
에 종속된 밀도 함수에 대해 보장한다.
![{\displaystyle \operatorname {E} _{\theta }\left[{\frac {\partial }{\partial \theta }}\log(f_{\theta }(y))\right]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f92aa025c1f0e0e2b5ec5fdd309cf9136cc3e8f0)
![{\displaystyle \operatorname {Var} _{\theta }\left[{\frac {\partial }{\partial \theta }}\log(f_{\theta }(y))\right]+\operatorname {E} _{\theta }\left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\log(f_{\theta }(y))\right]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/3022dafdd32dfe00aabc581ea809bed35c43a6e3)
이러한 정체성은 지수군 a V a r θ[ E_{\theta }], 의
기대값과 분산에 대한 간단한 계산으로 이어진다![{\displaystyle E_{\theta }[y],Var_{\theta }[y]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c568a80c4c2e771b25bd6cd95cf5ad7078fefa81)
Y의 기대값: 위에서 설명한 지수적 패밀리 형태의 밀도 로그의
에 관한 첫 번째 파생상품을 취함으로써, 우리는 다음과 같은 결과를 얻었다.
![{\displaystyle {\frac {\partial }{\partial \theta }}\log(f(y,\theta ,\phi ))={\frac {\partial }{\partial \theta }}\left[{\frac {y\theta -b(\theta )}{\phi }}-c(y,\phi )\right]={\frac {y-b'(\theta )}{\phi }}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/f1c5ac99a1a0656d5eee5823778e00fb34ba3aa3)
기대값을 가져와서 0 리드를 0으로 설정하면
![{\displaystyle \operatorname {E} _{\theta }\left[{\frac {y-b'(\theta )}{\phi }}\right]={\frac {\operatorname {E} _{\theta }[y]-b'(\theta )}{\phi }}=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e373e73c19e0de5b79c5de0a4dcd47de9cb6e162)
![{\displaystyle \operatorname {E} _{\theta }[y]=b'(\theta )}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b345dfb730473bbda32a0e52c48ef1aac55049b6)
Y의 분산: 두 번째 Bartlett 아이덴티티를 사용하는 분산을 계산하기 위해,
![{\displaystyle \operatorname {Var} _{\theta }\left[{\frac {\partial }{\partial \theta }}\left({\frac {y\theta -b(\theta )}{\phi }}-c(y,\phi )\right)\right]+\operatorname {E} _{\theta }\left[{\frac {\partial ^{2}}{\partial \theta ^{2}}}\left({\frac {y\theta -b(\theta )}{\phi }}-c(y,\phi )\right)\right]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/cbcb190685e4e10f56b4fc850471c16d3d01fd46)
![{\displaystyle \operatorname {Var} _{\theta }\left[{\frac {y-b'(\theta )}{\phi }}\right]+\operatorname {E} _{\theta }\left[{\frac {-b''(\theta )}{\phi }}\right]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/33fdd03408d8f4923faa09d99ed071fa0d4c32b3)
![{\displaystyle \operatorname {Var} _{\theta }\left[y\right]=b''(\theta )\phi }](https://wikimedia.org/api/rest_v1/media/math/render/svg/6f24549fbfcd7b04ba21bf84e087568bc0fb3e2d)
현재 우리는 과
사이에 관계를 맺고 있다
즉,
- = ( ) 및
and = μ - ()
와 분산
간의 관계를 한다.


[ > ( )> 0 )
:은 수 없습니다
.우리는 몇 가지 일반적인 분포에 대한 분산 함수를 도출한다.null
예제 - 정규 분포
정규 분포는 분산 함수가 상수인 특별한 경우다.y~ ( , ){\ y N,\^{을
렛트한 다음 y의 밀도 함수를 위에 설명한 지수 계열의 형태로 넣는다.

어디에




분산함수 ( {\ V
을(를) 계산하기 위해 μ의 함수로
을
를) 표현하고 V ( ) V )를
의 함수로 변환한다

![{\displaystyle b'(\theta )=\theta =\operatorname {E} [y]=\mu }](https://wikimedia.org/api/rest_v1/media/math/render/svg/e20970e33b0dc581298f24b51a44e60857002f81)

따라서 분산 함수는 일정하다.null
예 – 베르누이
y~ ) y
그러면 우리는 베르누이 분포의 밀도를 지수적 가족 형태로 표현한다.

logit(p), which gives us
expit
( )= ( 1+ e ) 및
생략하다

이것이 우리에게 주는 것이다.

예제 - 포아송
y~ ( )
그런 다음, 우리는 포아송 분포의 밀도를 지수 가족 형태로 표현한다.

- = = =\을
(를) 제공하므로 = = e\ = \ - ( )=
및 

이것이 우리에게 주는 것이다.

여기서 우리는 분산이 평균과 같다는 포아송 데이터의 중심 특성을 볼 수 있다.null
예제 – 감마
감마 분포와 밀도 함수는 다른 파라메트리조정으로 표현할 수 있다.매개변수 ,) 을(를) 가진 감마 형태를 사용할 것이다.

기하급수적인 가족 형태는






V()= 2 V
응용 프로그램 – 가중 최소 제곱
분산 함수의 매우 중요한 적용은 반응 변수가 필요한 지수적 패밀리 형태일 때와 그렇지 않을 때(반우도로 논의될 경우) 매개변수 추정 및 추론에 사용하는 것이다.가중 최소 제곱(WLS)은 일반화 최소 제곱의 특별한 경우다.WLS 기준의 각 항은 각 관측치가 최종 모수 추정치에 미치는 영향을 결정하는 가중치를 포함한다.정규 최소 제곱에서와 같이, 관측된 반응과 모형의 기능 부분 사이의 편차 제곱의 합을 최소화하는 모수 추정치에 대한 값을 찾아 회귀 함수에서 알 수 없는 모수를 추정하는 것이 목표다.null
WLS는 관측치의 독립성을 가정하지만 등분산을 가정하지 않으며 따라서 이단성이 존재하는 모수 추정에 대한 해결책이다.가우스-마코프 정리 및 아이트켄은 최소 분산을 갖는 최적의 선형 불편 추정기(BLUE)가 각 가중치를 측정 분산의 역수 값과 동일함을 입증한다.null
In the GLM framework, our goal is to estimate parameters
, where
. Therefore, we would like to minimize
and if we define the weight matrix W as

서 section, (), g ) , (μ ) ) (\mu ) ,g은
(는) 이전 섹션에서 정의되었으며, 파라미터의 반복적으로 재가중 최소 제곱(IRLS)을 추정할 수 있다.자세한 파생 및 정보는 반복적으로 가중치가 조정된 최소 제곱의 섹션을 참조하십시오.null
또한 여기서 설명하는 형태의 중량 매트릭스일 때(- B) ( Z- X ) 스타일 식을 최소화하는 것도
Pearson 거리를 최소화하는 데 유의해야 한다.자세한 내용은 거리 상관 관계를 참조하십시오.null
매트릭스 W는 {\의 추정에 대한 추정 방정식 바로 밖에 있다
각 파라미터 , p에 대한 최대우도 추정이 필요하다
, where 는
로그 파일이다.
우리가 가진 단 하나의 관찰을 보면




이것으로 우리는 알 수 있다.
, and noting that - ㎕= ( ){\{\fract mu }}}}{\'(\mu 이
(가) 있음

헤시안 매트릭스는 유사한 방식으로 결정되며 다음과 같이 나타낼 수 있다.
![{\displaystyle H=X^{T}(y-\mu )\left[{\frac {\partial }{\beta _{s}}}W{\frac {\partial }{\beta _{r}}}\right]-X^{T}WX}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ed90445d01c49c74c8a827cf91478dc1e6744762)
Fisher Information(FI)을 인식하면
- 은
는) 의 점증상 근사치를 허용한다.
- ~ ( ,( T X)- 1) ,
따라서 추론을 수행할 수 있다.
적용 – 준우도
GLM의 대부분의 특징은 전체 분포가 아니라 분포의 처음 두 모멘트에만 의존하기 때문에 준우도성은 연결함수와 분산함수를 지정하는 것만으로도 개발할 수 있다.즉, 우리는 특정할 필요가 있다.
- – 링크 기능:
- – 분산 함수: V ( )서 ( )= ( ) V)
지정된 분산 함수와 연결 함수를 사용하여 로그 우도함수, 점수함수 및 피셔 정보에 대한 대안으로서 준우도, 준우도, 준점수, 준정보 등을 개발할 수 있다.이를 통해 을(를) 완전히 추론할 수 있다
준우도(QL)
준우도라고 불리지만, 이것은 사실상 준로그우도다.한 관측치에 대한 QL은

따라서 모든 관측치 n개에 대한 QL은

QL로부터 우리는 준점수를 얻었다.
준점수(QS)
로그 우도 ( μ ) 이(가) 있는
데이터의 경우 점수 함수 U를 호출하십시오.

우리는 동일한 방식으로 준점수를 얻지만

한 관찰에서 점수는

처음 두 개의 바틀렛 방정식은 준점수에 대해 만족한다.
![{\displaystyle E[U]=0}](https://wikimedia.org/api/rest_v1/media/math/render/svg/e8aa4aa9908d6e3161af517a98583f57d5d8df09)
그리고
![{\displaystyle \operatorname {Cov} (U)+E\left[{\frac {\partial U}{\partial \mu }}\right]=0.}](https://wikimedia.org/api/rest_v1/media/math/render/svg/4dbb6dc91a5077b6809b6c4a09a9254ed7fbd1e8)
또한 준점수는 y로 선형이다.
Ultimately the goal is to find information about the parameters of interest
. Both the QS and the QL are actually functions of
. Recall,
, and
, therefore,

준정보(QI)
준 정보는 피셔 정보와 유사하지만
![{\displaystyle i_{b}=-\operatorname {E} \left[{\frac {\partial U}{\partial \beta }}\right]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/6f7aafa025efbdc09fd9598df87d1a6832ece801)
의 함수로서의 QL, QS, QI
QL, QS 및 QI는 모두 관심 파라미터에 대한 추론을 위한 구성 요소를 제공하므로 QL, QS 및 QI를 모두 의 함수로 표현하는 것이 중요하다
= - ( ) 을(를) 다시 상기하면서 에 따라 QL, QS 및 QI 파라메트리된 QL, QS에 대한 식을 도출한다



따라서 의 함수로서의 QS는 다음과
같다.


어디,

의 준 정보 매트릭스는
,

점수 함수와 \의 정보를 얻으면 애플리케이션(적용) 가중 최소 제곱에 설명된 것과 유사한 방식으로 파라미터 추정 및 추론이 가능하다
.null
비모수 회귀 분석
연봉(1000달러) 대비 메이저리그에서 몇 년간의 악랄한 플롯.평균의 경향은 선이다.이 그래프는 분산이 일정하지 않음을 보여준다.
평활된 조건부 평균에 대한 평활 조건부 분산.2차 모양은 감마 분포를 나타낸다.감마의 분산 함수는 V((μ
) = 2 분산[5][6][7] 함수의 비모수 추정과 그 중요성은 문헌에서 광범위하게 논의되었다 비모수 회귀 분석에서 목표는 반응 변수(y)의 기대 값을 예측 변수(X)의 함수로 표현하는 것이다.즉, 매개변수 형식을 가정하지 않고
()= = [y X= X을(를) 추정하려고 한다.There are many forms of non-parametric smoothing methods to help estimate the function
. An interesting approach is to also look at a non-parametric variance function,
. A non-parametric variance function allows one는 데이터의 분산 함수 및 통지 패턴과 관련된 평균 함수를 검토해야 한다.null
![{\displaystyle g_{v}(x)=\operatorname {Var} (Y\mid X=x)=\operatorname {E} [y^{2}\mid X=x]-\left[\operatorname {E} [y\mid X=x]\right]^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/c2acc3a048f2cb40914ad22955ddaf587a9cd6c0)
오른쪽 그림에는 예가 자세히 나와 있다.이 프로젝트의 목표는 (다른 것 중) 예측 변수, 메이저리그에서의 연도 수(야구)가 응답, 연봉, 선수가 만들어지는 것에 영향을 미치는지 여부를 결정하는 것이었다.데이터의 초기 산점도는 예측 변수의 각 수준에서 분산이 일정하지 않기 때문에 데이터에 이질성이 있음을 나타낸다.Because we can visually detect the non-constant variance, it useful now to plot
, and look to see if the shape는 알려진 분포를 나타낸다.일반적인
평활법으로
= = 과[ = x 를 추정할 수 있다.비모수 평활 분산 함수의 그래프는 분산과 평균 사이의 관계에 대한 아이디어를 연구자에게 제공할 수 있다.오른쪽 그림은 평균과 분산 사이의 2차 관계를 나타낸다.위에서 살펴본 바와 같이 감마 분산 함수는 평균에서 이차적이다.null
메모들
참조
외부 링크
Wikimedia Commons의 분산 기능과 관련된 미디어