최소 평균 제곱 오차

Minimum mean square error

통계신호 처리에서 최소 평균 제곱 오차(MMSE) 추정기는 추정기 품질의 공통 척도인 평균 제곱 오차(MSE)를 종속 변수의 적합치에 대해 최소화하는 추정 방법이다. 베이시안 설정에서 MMSE라는 용어는 2차 손실 함수를 사용한 추정을 더 구체적으로 말한다. 이러한 경우 MMSE 추정기는 추정할 파라미터의 후측 평균에 의해 주어진다. 후방 평균은 계산하기가 번거롭기 때문에 MMSE 추정기의 형태는 대개 특정 종류의 함수 내에 있도록 제한된다. 선형 MMSE Estimator는 사용하기 쉽고 계산하기 쉬우며 매우 다재다능하기 때문에 인기 있는 선택이다. 그것은 비너-콜모고로프 필터칼만 필터와 같은 많은 인기 있는 추정기들을 만들어냈다.

동기

MMSE라는 용어는 2차 비용 함수를 갖는 베이지안 환경에서 추정하는 것을 더 구체적으로 말한다. 베이시안 추정에 대한 접근방식의 기본 개념은 추정할 모수에 대해 종종 사전 정보를 가지고 있는 실제 상황에서 비롯된다. 예를 들어, 모수가 가정할 수 있는 범위에 대한 사전 정보가 있을 수도 있고, 새로운 관찰이 가능할 때 수정하고자 하는 모수의 이전 추정치 또는 음성과 같은 실제 무작위 신호의 통계량이 있을 수도 있다. 이는 매개변수에 대해 사전에 전혀 알려진 것이 없으며 그러한 상황을 설명하지 않는 최소분산 추정기(MVUE)와 같은 비베이시안 접근법과 대조적이다. 베이시안 접근법에서 그러한 사전 정보는 매개변수의 사전 확률밀도함수에 의해 포착된다. 그리고 베이즈 정리에 직접 기초하여 더 많은 관측치를 이용할 수 있을 때 더 나은 후방 추정을 할 수 있다. 따라서 관심 매개변수가 결정론적이지만 알려지지 않은 상수로 가정되는 비-베이시안 접근방식과 달리, 베이시안 추정자는 그 자체가 랜덤 변수인 매개변수를 추정하려고 한다. 더욱이 베이지안 추정은 관측의 순서가 반드시 독립적이지 않은 상황도 다룰 수 있다. 따라서 베이지안 추정은 MVUE에 대한 또 다른 대안을 제공한다. 이것은 MVUE가 없거나 찾을 수 없을 때 유용하다.

정의

(를) 1 n 숨겨진 랜덤 벡터 변수로 하고, 을(를) 1 랜덤 벡터 변수(측정 또는 관측치)로 두 변수 모두 동일한 차원이 반드시 동일하지는 않는다. x x ) {\data{x}( y{\y}의 모든 기능이다 추정 오차 벡터는 = - x 에 의해 제공되며, 평균 제곱 오차(MSE)는 오차 공분산 행렬의 추적에 의해 제공된다.

where the expectation is taken over both and . When is a scalar variable, the MSE expression simplifies to . NoMSE는 다른 방법으로 동등하게 정의될 수 있다.

MMSE 추정기는 최소 MSE를 달성하는 추정기로 정의된다.

특성.

  • 평균과 분산이 유한할 경우 MMSE 추정기는 고유하게 정의되며[1] 다음과 같이 지정된다.
즉, MMSE 추정기는 측정값의 알려진 관측값으로 x{\x}의 조건부 기대값이다.
  • MMSE 추정기는 (위에서 언급한 정규성 가정 하에서) 편향되지 않는다.
  • MMSE 추정기는 증상 없이 편향되지 않으며 분포에서 정규 분포로 수렴된다.
여기서 ( ) (는) Fisher 정보 입니다 따라서 MMSE 추정기는 점증적으로 효율적이다.
  • 직교성 원리: When is a scalar, an estimator constrained to be of certain form is an optimal estimator, i.e. if and only if
for all in closed, linear subspace of the measurements. 랜덤 벡터의 경우 랜덤 벡터 추정에 대한 MSE는 좌표의 MSE 합이므로 랜덤 벡터의 MMSE 추정기를 찾는 것은 분해되어 X 좌표의 MMSE 추정기를 찾는 것으로 분해된다.
나 저나 다 좀 더 간결하게 표현하면 최소 추정 x - x (와) 추정기 사이의 교차 상관 관계가 0이어야 한다.
  • y (가) 공동으로 가우스식인 경우 MMSE 추정기는 선형이며, 즉, W{\ b{\ {\ 형식을 갖는다 이것은 베이즈 정리를 이용하여 직접 보여줄 수 있다. 따라서 MMSE 추정기를 찾으려면 선형 MMSE 추정기를 찾기에 충분하다.

선형 MMSE 추정기

많은 경우 MMSE 추정기의 해석적 표현을 결정할 수 없다. MMSE 추정치를 얻기 위한 두 가지 기본적인 수치적 접근방식은 조건부 기대 y을(를) 찾거나 MSE의 을 찾는데 달려 있다. 조건부 기대치에 대한 직접 수치적 평가는 다차원적 통합을 필요로 하는 경우가 많기 때문에 계산적으로 비용이 많이 든다.보통 몬테카를로 방식으로 행해진다. 또 다른 계산적 접근방식은 확률적 경사 강하 방법과 같은 기법을 사용하여 MSE의 미니마를 직접 구하는 것이다; 그러나 이 방법은 여전히 기대의 평가를 필요로 한다. 이러한 수치적 방법은 효과를 거두었지만, 그럼에도 불구하고 우리가 약간의 타협을 할 의향이 있다면 MMSE 추정기에 대한 폐쇄적인 형태 표현은 가능하다.

한 가지 가능성은 전체 최적성 요구사항을 포기하고 선형 추정기 등급과 같은 특정 종류의 추정기 내에서 MSE를 최소화하는 기법을 모색하는 것이다. Thus, we postulate that the conditional expectation of given is a simple linear function of , , where the measurement is a random vector, 이고 b 은 벡터다. 는 E ymid 의 첫 번째 주문 Taylor 근사치로 볼 수 있다 선형 MMSE 추정기는 그러한 형태의 모든 추정기 중에서 최소 MSE를 달성하는 추정기다. 즉, 다음과 같은 최적화 문제를 해결한다.

이러한 선형 MMSE 추정기의 한 가지 장점은 x의 후방 확률밀도함수를 명시적으로 계산할 필요가 없다는 것이다 이러한 선형 추정기는 x 의 처음 두 순간에만 의존하므로 로 추정하는 것이 편리할 수 있다displaystyle 과() y (는) 공동으로 가우스식이며, 가정된 분포가 첫 번째와 두 번째 순간을 잘 정의한 이상 이 가정을 할 필요가 없다. 선형 추정기의 형태는 가정된 기초 분포의 유형에 따라 달라지지 않는다.

최적의 에 대한 표현식은 다음을 통해 제공된다.

= y = {{\\{ Y }은(는) (와) 사이의 교차 공분산 행렬이며 y}의 자동 공분산 행렬이다.

따라서 선형 MMSE 추정기, 평균 및 자동 공분산 표현식은 다음과 같다.

서 C 는) {\와) {\ 사이의 교차 공분산 행렬이다

마지막으로, 그러한 추정자가 달성할 수 있는 오차 공분산 및 최소 평균 제곱 오차는 다음과 같다.

직교성 원리를 이용한 유도

= + b 여기서 W {\displaystyle 에 대한 식을 찾아야 한다 MMSE 추정기는 편향되지 않아야 한다. 이것은,

x 에 대한 식을 연결하면

여기서 = { = y 따라서 다음과 같이 추정기를 다시 작성할 수 있다.

그리고 추정오차에 대한 표현은

직교성 원리에서 ( - )(- y - " )T = {\y}{y}}}^{{{}}}}}}}}}}}}{{ 여기서 )= - y - y의 {\y 여기서 왼쪽의 용어는

0과 같을 때 에 대해 원하는 식을 얻음

X 은 X와 Y 사이의 교차 공분산 행렬이고, 는 Y의 자동 공분산 행렬이다. = 이후 C YX라는 용어로 표현도 다시 쓸 수 있다.

따라서 선형 MMSE 추정기의 전체 식은

추정 {은(는) 그 로 E { x = ¯ {x을(를) 가진 랜덤 변수이기 때문에, 또한 다음과 같이 자동 공분산을 얻을 수 있다

W에 대한 식을 입력하면

마지막으로, 선형 MMSE 추정 오차의 공분산은 다음에 의해 주어진다.

세 번째 줄의 첫 번째 항은 직교 원리로 인해 0이다. = - 1 Y}-1}:{-1이므로 공분산 행렬의 에서 Ce {\e}}}를 다시 쓸 수 있다

이는 C = C - 과(와) 동일함을 인식할 수 있다. 따라서 이러한 선형 추정기에 의해 달성할 수 있는 최소 평균 제곱 오차는 다음과 같다.

=

일변량 케이스

이(가) 모두 스칼라인 특수한 경우에 대해 위의 관계는 다음과 같이 단순화된다.

}은는) x x() y 사이의 Pearson의 상관 계수

연산

제거와 같은 표준 을 사용하여 Wdisplaystyle W의 행렬 방정식을 해결할 수 있으며 QR 분해법으로 보다 수치적으로 안정된 방법을 제공한다. 매트릭스 는 대칭 양정확정 매트릭스이기때문에 W {\ W은(는) 슐레스키 분해로 두 배 빠르게 해결할 수 있는 반면, 대형 희소성 시스템의 경우 결합 그라데이션 방법이 더 효과적이다. 레빈슨 재귀 토우플리츠 매트릭스 때 빠른 방법이다. 는 y 이(가) 넓은 감각의 정지 프로세스일 때 발생할 수 있다. 이러한 정지 상태에서 이러한 추정기를 Wiener-Kolmogorov 필터라고도 한다.

선형 관측 프로세스를 위한 선형 MMSE 추정기

Let us further model the underlying process of observation as a linear process: , where is a known matrix and is random noise vector with the mean and cross-covariance 여기서 요구되는 평균과 공분산 행렬은 다음과 같다.

따라서 선형 MMSE 추정기 W {\에 대한 식이 다음으로 수정된다.

의 표현에 모든 것을 입력하면

마지막으로 공분산 오류는

위에서 처리한 추정 문제와 최소 제곱 및 가우스-마코프 추정치 사이의 유의한 차이는 관측치 m(즉, 의 치수이 적어도 알 수 없는 수, n(즉, 의 치수)만큼 클 필요는 없다는 것이다. 관측 프로세스에 대한 추정치는 m-by-m 행렬 X + )- 1 이 존재한다. 예를 들어, C 가 양수 확정인 경우라면 이는 임의의 m에 해당된다. 물리적으로 이 속성의 이유는 이(가) 이제 랜덤 변수가 되었기 때문에 측정치가 없어도 의미 있는 추정치(명칭 평균)를 형성할 수 있기 때문이다. 모든 새로운 측정은 단순히 우리의 원래 추정치를 수정할 수 있는 추가 정보를 제공한다. 이 추정치의 또 다른 특징은 m < n의 경우 측정 오차가 없어야 한다는 것이다. Z= 0 이(가) 있을 수 있다 왜냐하면 (는) 양적으로 확실하며, 추정치는 여전히 존재한다. 마지막으로 이 기법은 소음과 상관관계가 있는 경우를 다룰 수 있다.

대체형식

행렬 ID를 사용하여 다른 형태의 표현을 얻을 수 있다.

+ (AC_{(를) 선택하고 (T Z- + CX- ) , C_{Z}^{-1}}^{-을(를) 사용하여 사전 다중화하십시오

그리고

W은(는) C e W = T Z - {\displaystystyle {에 대한 간단한 식이 제공됨

이 형태에서 위의 표현은 가중치가 가장 낮은 사각형 가우스-마코프 추정치와 쉽게 비교할 수 있다. In particular, when , corresponding to infinite variance of the apriori information concerning , the result 는 무게 매트릭스로 - 1 를 사용하여 가중치가 부여된 선형 최소 제곱 추정치와 동일하다. Moreover, if the components of are uncorrelated and have equal variance such that where is an identity matrix, then 은 보통의 최소 제곱 추정치와 동일하다.

순차 선형 MMSE 추정

많은 실시간 애플리케이션에서 관측 데이터는 단일 배치로 이용할 수 없다. 대신에 관찰은 순차적으로 이루어진다. 이전 공식의 순진한 적용은 우리가 오래된 추정치를 버리고 새로운 데이터가 이용 가능하게 되면 새로운 추정치를 재평가하게 할 것이다. 그러나 그 후 우리는 옛 관찰에 의해 제공된 모든 정보를 잃게 된다. 관측치가 스칼라 수량인 경우, 그러한 재컴퓨팅을 피하는 한 가지 가능한 방법은 먼저 전체 관측 순서를 연결한 다음 사례 2에서 수행한 표준 추정 공식을 적용하는 것이다. 그러나 이것은 매우 지루할 수 있다. 왜냐하면 관측 횟수가 증가함에 따라 뒤집어서 곱해야 하는 행렬의 크기 또한 증가하기 때문이다. 또한 이 방법은 벡터 관측의 경우로 확장하기 어렵다. 순차 관측에서 추정에 대한 또 다른 접근법은 추가 데이터를 사용할 수 있을 때 단순히 이전 추정치를 업데이트하여 추정치를 더 미세하게 만드는 것이다. 따라서 새로운 측정치가 이전 추정치를 수정할 수 있는 재귀적 방법이 필요하다. 이러한 논의에서 암시하는 것은 의 통계적 속성이 시간에 따라 변하지 않는다는 가정이다. 즉, 이(가) 정지해 있는 것이다.

순차적 추정을 위해 공간 를 생성하는 측정값을 바탕으로 을 추정할 경우, 다른 측정값을 받은 후 첫 번째 측정값의 결과에서 예상할 수 있는 부분을 빼야 한다.재물 즉, 업데이트는 이전 데이터와 직교하는 새 데이터의 해당 부분에 기초해야 한다.

과거 측정에 기초하여 최적의 x {\{11}가 형성되었다고 가정해 보십시오. 이 오류 공분산 1{\ 선형 관측 프로세스의 경우 과거 관측치에 기초하여 의 최선의 추정치라고 가정해 보십시오. }는 = 1 을(를) 에서빼면 예측 오류가 발생한다.

.

추가 데이터에 기반한 새로운 추정치는 현재

where is the cross-covariance between and and is the auto-covariance of

~= 0 {\ {E}}\}= + + e 1 x을 사용하여 오차 공분산 행렬을 얻을 수 있다

모든 것을 종합해 보면, 우리는 다음과 같은 새로운 견적을 가지고 있다.

그리고 새로운 오차 공분산:

더 많은 관측치를 사용할 수 있을 때 위의 두 방정식을 반복적으로 사용하면 재귀 추정 기법이 나온다. 표현은 보다 간결하게 다음과 같이 쓸 수 있다.

K {\ K는 흔히 게인자라고 한다. 더 많은 데이터를 사용할 수 있을 때 이 세 단계가 반복적인 추정 알고리즘으로 이어진다. 이 아이디어가 비지속적인 사례에 일반화되면 Kalman 필터가 발생한다. 위에서 설명한 세 가지 업데이트 단계는 실제로 Kalman 필터의 업데이트 단계를 형성한다.

특수 사례: 스칼라 관측치

중요한 특별한 경우로서, 각각의 t-th 순간에서 기초적인 선형 관찰 프로세스가 = t+ }^{{t}}{{t와 같은 스칼라를 산출할 때 사용하기 쉬운 반복 표현을 도출할 수 있다., where is n-by-1 known column vector whose values can change with time, is n-by-1 random column vector to be estimated, and is scalar noise term with variance . After (t+1)-th번째 관측치, 위의 재귀 방정식을 직접 으로써추정치 ^ + 1 {\1}에 대한 식을 다음과 같이 제공한다.

여기서 + 은(는) 새로운 스칼라 관측치이고 gain k t+ {\k_}은 n-by-1 열 벡터:

) + 1 }은는) n-by-n 오류 공분산 행렬로,

여기서는 매트릭스 역전이 필요하지 않다. 또한 게인 t + {\}은(는 이전 데이터에서 소음 분산에 의해 측정된 새 데이터 표본에 대한 신뢰도에 따라 달라진다. e{\의 초기 은 x{\}의 어프리터 확률 밀도 함수의 평균 및 공분산인 것으로 간주된다

대안적 접근방식: 이 중요한 특수 케이스는 또한 확률적 경사 강하를 사용하여 원래의 MSE 최적화 문제를 직접 해결하는 최소 평균 제곱 필터 및 재귀 최소 제곱 필터와 같은 많은 다른 반복적 방법(또는 적응형 필터)을 발생시켰다. 단, e {\을(를) 직접 관측할 수 없으므로, 이 방법들은 평균 제곱 예측오류 { { ~ y~ }}^{}}}{\tild. For instance, in the case of scalar observations, we have the gradient 따라서 최소 평균 제곱 필터에 대한 업데이트 방정식은

where is the scalar step size and the expectation is approximated by the instantaneous value . As we can see, these methods bypass the need for covariance matri제왕 절개 수술을 하다

예 1

우리는 선형 예측 문제를 예로 들 것이다. 관측된 스칼라 랜덤 변수 z 1, }} 의 선형 조합을 사용하여 4= = = i 추정하도록 한다. z=[ 1 2, , {\2},(는) 평균이 0인 실제 가우스 랜덤 변수 및 공분산 행렬이

then our task is to find the coefficients such that it will yield an optimal linear estimate .

In terms of the terminology developed in the previous sections, for this problem we have the observation vector , the estimator matrix as a row vector, and the estimated variable as a scalar quantity. The autocorrelation matrix is defined as

교차 상관 행렬 은(는) 다음과 같이 정의된다.

C = 을(를) 뒤집고 사전 멀티플라이딩하여 다음 식을 구한다.

So we have and as the optimal coefficients for . Computing the minimum mean square error then gives Z4z4]− WCYX=15− WCYX).2857{\displaystyle\left\Vert e\right\Vert_{\min}^{2}=\operatorname{E}[z_{4}z_{4}]-WC_{YX}=15-WC_{YX}=.2857}.[2]다는 것 CY{\displaystyle C_{Y}의 명시적 매트릭스 인버스를 얻기 위해}W{W\displaystyle}의 값을 계산할 필요는 없다. 매트릭스 equ.ati온은 가우스 제거 방법과 같이 잘 알려진 방법으로 해결할 수 있다. 더 짧은 비숫자적 예는 직교성 원리에서 찾을 수 있다.

예 2

흰색 가우스 노이즈로 인해 교란된 고정 스칼라 파라미터 에 대한 N 관측치를 취함으로써 형성된 벡터 을(를) 고려하십시오. 을 선형 방정식 y = x + y 서 1 = [ , 1, ,, 1 1로 설명할 수 있다. 컨텍스트에 따라 이() 스칼라인지 벡터인지 구별된다. - , x 을(를) x의 값이 포함될 범위라고 가정합시다. We can model our uncertainty of by an aprior uniform distribution over an interval , and thus will have variance of . Let the noise vector 은(는) 으로 N( Z )로 배포되며 I (는 ID 매트릭스다 또한 은(는) 독립적이며 = . 는 것을 쉽게 알 수 있다.

Thus, the linear MMSE estimator is given by

We can simplify the expression by using the alternative form for as

where for we have

Similarly, the variance of the estimator is

Thus the MMSE of this linear estimator is

For very large , we see that the MMSE estimator of a scalar with uniform aprior distribution can be approximated by the arithmetic average of all the observed data

while the variance will be unaffected by data and the LMMSE of the estimate will tend to zero.

However, the estimator is suboptimal since it is constrained to be linear. Had the random variable also been Gaussian, then the estimator would have been optimal. Notice, that the form of the estimator will remain unchanged, regardless of the apriori distribution of , so long as the mean and variance of these distributions are the same.

Example 3

Consider a variation of the above example: Two candidates are standing for an election. Let the fraction of votes that a candidate will receive on an election day be Thus the fraction of votes the other candidate will receive will be We shall take as a random variable with a uniform prior distribution over so that its mean is and variance is A few weeks before the election, two independent public opinion polls were conducted by two different pollsters. The first poll revealed that the candidate is likely to get fraction of votes. Since some error is always present due to finite sampling and the particular polling methodology adopted, the first pollster declares their estimate to have an error with zero mean and variance Similarly, the second pollster declares their estimate to be with an error with zero mean and variance Note that except for the mean and variance of the error, the error distribution is unspecified. How should the two polls be combined to obtain the voting prediction for the given candidate?

이전의 예와 같이, 우리는

Here, both the . Thus, we can obtain the LMMSE estimate as the linear combination of and as

에 의해 가중치가 주어지는 곳

여기서는 분모 용어가 일정하기 때문에 오차범위가 낮은 여론조사는 선거 결과를 예측하기 위해 가중치를 더 부여한다. 마지막으로 예측의 분산은 다음과 같다.

}}: X . }보다 작다

In general, if we have pollsters, then where the weight for i-th pollster is given by

예 4

한 음악가가 악기를 연주하고 있고 그 소리가 두 개의 마이크로폰에 의해 수신된다고 가정해 보자. 두 마이크로폰은 각각 서로 다른 장소에 위치한다. 각 마이크의 거리로 인한 소리의 감쇠는 알려진 상수로 가정하는 } 2{\}}가 되도록 한다 마찬가지로 각 마이크의 소음을 평균과 분산이 각각 0인 1 Z 1 2 }^{2}}: Z }}: x x 음악가가 만들어내는 소리를 나타내며, 는 평균과 분산이 0인 임의 변수 X 이 두 마이크의 녹음된 음악은 어떻게 서로 동기화되어야 하는가?

우리는 각 마이크가 수신하는 소리를 다음과 같이 모델링할 수 있다.

여기서 { y = { = 0 . 따라서 우리는 두 소리를 다음과 같이 결합할 수 있다.

i번째 무게가 주어지는 곳

참고 항목

메모들

  1. ^ "Mean Squared Error (MSE)". www.probabilitycourse.com. Retrieved 9 May 2017.
  2. ^ 문과 스털링.

추가 읽기