변수 내 오류 모형

Errors-in-variables models

통계에서 변수 내 오류 모델 또는 측정 오류 모델[1][2][3] 독립 변수에서 측정 오류를 설명하는 회귀 모델이다. 이와는 대조적으로, 표준 회귀 모형은 그러한 퇴행기가 정확히 측정되었거나 오차 없이 관찰되었다고 가정한다. 따라서 그러한 모형은 종속 변수 또는 반응의 오류만을 설명한다.[citation needed]

오차-변수 모형의 회귀 추정치 범위별 회귀 희석(또는 감쇠 치우침)의 그림. 두 개의 회귀선(빨간색)이 선형 회귀 가능성 범위를 묶었다. 얄팍한 기울기는 독립 변수(또는 예측 변수)가 압시사(x축)에 있을 때 얻는다. 수직 경사는 독립 변수가 세로좌표(y축)에 있을 때 얻는다. 관례에 따라 x축에 독립 변수를 적용하여 셸하강 경사를 구한다. 녹색 기준선은 각 축을 따라 임의의 빈 내의 평균이다. 녹색 및 적색 회귀 추정치는 y축 변수의 작은 오차와 더 일치한다는 점에 유의하십시오.

일부 역류기에 오류가 있는 경우, 표준 가정에 근거한 추정치는 일관되지 않은 추정치로 이어지며, 이는 모수 추정치가 매우 큰 표본에서도 참 값을 나타내지 않는다는 것을 의미한다. 단순 선형 회귀 분석의 경우 효과는 감쇠 편향으로 알려진 계수의 과소평가다. 비선형 모델에서 편향의 방향은 더 복잡할 가능성이 있다.[4][5]

동기부여 사례

폼의 단순 선형 회귀 모형 고려

여기서 은(는) 이지만 관찰되지 않는 regressor를 나타낸다. 대신 오류와 함께 이 값을 관측한다.

여기서 측정 오류 error 는 참 값 x t {\과(와 독립적이라고 가정한다.

s를 t s에서 간단하게 역행하는 경우(단순 선형 회귀 참조) 기울기 계수에 대한 추정기는 다음과 같다.

이 값은 크기 T T이(가) 제한 없이 증가함에 따라 수렴된다.

분산이 음수가 아니므로 한계에서 추정치는 통계학자들이 감쇠 또는 회귀 희석이라고 부르는 효과인 {\의 참 값보다 크기가 작다.[6] 따라서 'nauve' 최소 제곱 추정기는 이 설정에서 일관성이 없다. 그러나 추정기는 (가) 주어진 y {\displaystyle 의 최량 선형 예측 변수에 필요한 모수의 일관된 추정기 관측치의 오차 분산을 가정하더라도 '참' 회귀 계수의 추정치보다는 필요한 것일 수 있다.ving 는 고정된 상태로 남아 있다. 이는 바로 위에서 인용한 결과에서 직접 따르며, y s와 실제 t s와 관련된 회귀 계수는 단순한 선형 회귀 분석에서 다음과 같이 주어진다.

소음의 영향을 받는 된 x 에 기반하여 의 예측 변수를 구성하는 데 필요한 계수는 이 아니라 이 계수다

기존의 거의 모든 데이터 집합에는 다른 성질과 크기의 오류가 포함되어 있어 감쇠 편향이 극히 빈번하게 발생한다고 주장할 수 있다(다변수 회귀 분석에서는 치우침 방향이[7] 모호하지만). 제리 하우스먼은 이를 계량학의 철칙으로 보고 있다."[8]

사양

일반적으로 측정 오류 모델은 잠재 변수 접근방식을 사용하여 설명된다. (가) 반응 변수이고 (가) regressor의 관측치인 경우 모델의 "진정한" 기능 g 따르는 일부 잠재적 가 존재한다고 가정한다.및 관측된 양이 소음이 많은 관측치인 경우:

여기서 (는) 모델의 매개 변수이고w {\ w은 오류가 없는 것으로 가정되는 회귀선이다(예: 선형 회귀선이 절편을 포함하는 경우 상수에 해당하는 회귀선에는 확실히 "오차"가 없다). 규격에 따라 이러한 오류 없는 회귀 분석기는 별도로 처리될 수도 있고 그렇지 않을 수도 있다. 후자의 경우 s의 분산 행렬의 해당 항목이 0이라고 가정할 뿐이다.

The variables , , are all observed, meaning that the statistician possesses a data set of statistical units which 위에서 설명한 데이터 생성 프로세스를 따르십시오. 그러나 x∗ {\ y 은 관찰되지 않는다.

이 규격은 기존의 모든 변수 오류 모델을 포함하지는 않는다. 예를 들어 일부에서 g () g은(는) 비모수 또는 반모수일 수 있다. 다른 접근방식은 y x 사이의 관계를 기능 대신 분포로 모델링하며, 는 조건부로x {\ y에 특정(일반적으로 모수) 를 따른다고 가정한다.

용어 및 가정

  • 관측된 변수 을(를) 매니페스트, 지시자 또는 프록시 변수라고 할 수 있다.
  • 관측되지 않은 변수 잠재 변수 또는 참 변수라고 할 수 있다. 그것은 알려지지 않은 상수(이 경우 모델을 기능 모델이라고 함) 또는 임의 변수(상응하는 구조 모델)로 간주될 수 있다.[9]
  • 측정 오류 (와) 잠재 변수 사이의 관계는 다음과 같이 다양한 방법으로 모델링할 수 있다.
    • 고전적 오류: x x오류는 잠재 변수와 무관하다. 이는 가장 일반적인 가정이며, 측정 장치에 의해 오차가 도입되고 오차의 크기는 측정되는 값에 따라 달라지지 않는다는 것을 의미한다.
    • 평균 독립성: [ = 0, 잠재적 회귀 분석기의 모든 값에 대해 오차는 평균 0이다. 이는 측정 오류에 이단성 또는 기타 영향이 있을 수 있기 때문에 고전적인 가정보다 덜 제한적인 가정이다.[10]
    • Berkson의 오류: , 오류는 관찰된 regressor x와 무관하다. 이 가정은 적용가능성이 매우 제한적이다. 한 예는 반올림 오류인데, 예를 들어, 한 개인의 나이*연속 랜덤 변수인 경우, 반면에 관측된 나이가 다음으로 작은 정수로 잘린 경우 잘림 오류는 관측된 나이와 거의 독립적이다. 또 다른 가능성은 고정된 설계 실험으로 예를 들어 과학자가 정해진 특정 x x x= 에서 측정을 결정한다면 실제 측정은 의 다른 값에서 발생할 수 있다(예: 그녀의 유한한 반응 시간)과 그러한 측정 오차는 일반적으로 역류기의 "임계" 값과 무관할 것이다.
    • 오분류 오류: 더미 리저버에 사용되는 특수 사례. 특정 사건이나 조건(예: 사람이 남성/여성, 일부 의학적 치료/불충분 등)의 지표라면, 이러한 퇴행기의 측정 오차는 통계시험에서 유형 I 유형 II 오류와 유사한 잘못된 분류에 해당하게 된다. In this case the error may take only 3 possible values, and its distribution conditional on is modeled with two parameters: , and 스타일 1 x. 식별에 필요한 조건은 +< 잘못된 분류는 "너무 자주" 일어나서는 안 된다.(이 생각은 세 개 이상의 가능한 값을 가진 이산형 변수에 일반화될 수 있다.)

선형 모형

선형 모형이 매우 널리 사용되었고 비선형 모형에 비해 쉽기 때문에 변수 내 선형 오류 모형이 먼저 연구되었다. 표준 최소 제곱법(OLS)과 달리 계량형 회귀법(EiV)의 오류를 단순 사례에서 다변량 사례로 확장하는 것은 간단하지 않다.

단순 선형 모형

단순한 선형 오차 변수 모형은 이미 "동력" 섹션에 제시되었다.

모든 변수가 스칼라인 경우 여기서 αβ는 관심 매개변수인 반면, αε βη 오류 용어의 표준 편차인 성가신 매개변수다. "진정한" regressor x*는 측정 오류 η(classic assemption)와는 무관하게 랜덤 변수(구조적 모델)로 처리된다.

이 모델은 두 가지 경우에 식별할 수 있다. (1) 잠재된 역류기 x*정규 분포따르지 않거나, (2) 또는 x*가 정규 분포를 가지지만, εt ηt 정규 분포로 분리되지 않는다.[11] , 매개변수 α, β는 데이터 집합 , )에서 일관되게 추정할 수 있다}){{ 정보가 없는 T 잠복 퇴행기가 가우스안이 아니라면.

이 식별 가능성 결과가 확립되기 전에 통계학자들은 모든 변수가 정상이라고 가정하여 최대우도 기법을 적용하려고 시도했고, 그 다음 모형이 식별되지 않는다고 결론지었다. 제안된 해결책은 모델의 일부 매개변수가 외부 출처로부터 알려져 있거나 추정될 수 있다고 가정하는 것이었다. 그러한 추정 방법에는 다음이[12] 포함된다.

  • 강하 회귀 분석 — 비율 Δ = Δ²ε/㎥²가η 알려져 있다고 가정한다. 이는 예를 들어 yx의 오차가 모두 측정에 의해 발생하며 측정 장치나 절차의 정확성이 알려진 경우에 적절할 수 있다. Δ = 1인 경우를 직교 회귀 분석이라고도 한다.
  • 알려진 신뢰도비 λ = σ²/(σ²η + σ²)를 갖는 회귀 분석. 여기서 ²² 잠복 퇴행기의 분산이다. 그러한 접근방식은 예를 들어 동일한 단위의 반복적인 측정을 사용할 수 있거나 독립적 연구를 통해 신뢰성 비율을 알 수 있는 경우에 적용할 수 있다. 이 경우 경사도의 일관된 추정치는 최소 제곱 추정치를 λ으로 나눈 값과 같다.
  • 알려진 σ²η 회귀 분석은 x의 오차 출처를 알고 분산을 계산할 수 있을 때 발생할 수 있다. 여기에는 반올림 오류 또는 측정 장치에 의해 발생한 오류가 포함될 수 있다. σ²가η 알려지면 신뢰도를 λ = (σ²x - σ²η) / σ²x 계산하여 이전 사례로 문제를 줄일 수 있다.

모형의 일부 모수에 대한 지식을 가정하지 않는 새로운 추정 방법에는 다음이 포함된다.

  • 모멘트 방법 — 관측 가능한 변수의 세 번째(또는 더 높은) 순서 결합 적금에 기초한 GMM 추정기. 경사 계수는 다음에서 추정할 수 있다.

    여기서 (n1,n2)은 (x,y)의 관절 누적분K(n1+1,n2)가 0이 아닌 것과 같다. 잠복 퇴행기 x*의 세 번째 중심 모멘트가 0이 아닌 경우 공식은 다음과 같이 감소한다.

  • 계측 변수 - 계측기라고 하는 특정 추가 데이터 변수 z를 사용할 수 있어야 하는 회귀 분석. 이러한 변수는 종속(결과) 변수에 대한 방정식의 오류와 상관되지 않아야 하며(유효성) 또한 실제 회귀 분석기 x*와 상관(관련성)해야 한다. 그러한 변수를 찾을 수 있으면 추정기가 형성된다.

다변량 선형 모형

다변량 모델은 단순 선형 모델과 정확히 닮아 이번에는 β, ηtt, x, x*t1 벡터다.

(εtt, ))이 공동으로 정상인 경우, 비음속 k×k 블록 매트릭스[a A]가 있는 경우에만 파라미터 β를 식별할 수 없다. 여기서 a1 벡터로서 a′x*가 정상적으로 독립적으로 분포한다. εt, ηt1, ..., ..., ηtk 상호 독립적일 때, 위의 조건에 더하여 일부 오차의 합을 두 개의 독립 변수 중 하나가 정상인 두 개의 합으로 기록할 수 있는 경우에만 파라미터 β를 식별할 수 없다.[14]

다변량 선형 모형의 추정 방법 중 일부는 다음과 같다.

  • 최소 제곱합데밍 회귀 분석을 다변량 설정으로 확장한 것이다. 벡터의 모든 k+1 성분(ε, η)이 분산이 같고 독립적일 때, 이는 벡터 x대한 y의 직교 회귀 분석, 즉 점 사이의 거리t 제곱합t(y,x)과 "최상의 적합"의 k-차원 하이퍼 평면을 최소화하는 회귀 분석을 실행하는 것과 같다.
  • 모멘트 추정기의 방법은 모멘트 조건 E[zt·(yt - α - β'xt)] = 0에 근거하여 구성할 수 있으며, 여기서 기기 zt (5k+3)차원 벡터는 다음과 같이 정의된다.

    여기서 (는) 행렬의 Hadamard 제품과 변수 x를 예비적으로t 제거했다t. 이 방법의 저자들은 풀러의 수정된 IV 추정기를 사용할 것을 제안한다.[16]

    이 방법은 필요한 경우 3차 순서보다 높은 순간을 사용하고 오차 없이 측정된 변수를 수용할 수 있도록 확장할 수 있다.[17]
  • 계량형 변수 접근방식은 일치하지 않는 회귀 분석기 xt 계측기 역할을 할 추가 데이터 변수 zt 찾아야 한다. 이 방법은 구현의 관점에서 가장 단순하지만 비용이 많이 들거나 불가능할 수 있는 추가 데이터를 수집해야 하는 것이 단점이다. 계측기를 찾을 수 있을 때 추정기는 표준 형태를 취함

비선형 모델

일반적인 비선형 측정 오류 모델이 형성됨

여기서 함수 g는 모수 또는 비모수일 수 있다. 함수 g가 파라메트릭인 경우 g(x*, β)로 기록된다.

일반 벡터 값 레지스터 x*의 경우 모델 식별 가능성의 조건을 알 수 없다. 그러나 스칼라 x*의 경우 함수 g가 "log-exponential" 형식이 아닌 한 모델이 식별된다.

잠재된 역류기 x*의 밀도는

여기서 상수 A,B,C,D,E,Fa,b,c,d에 의존할 수 있다.

이러한 낙관적인 결과에도 불구하고, 현재로선 관련 없는 정보가 없는 비선형 변수 오류 모델을 추정할 수 있는 방법이 존재하지 않는다. 그러나 일부 추가 데이터를 사용하는 몇 가지 기법이 있다: 기악 변수 또는 반복적인 관측이다.

Instrumental variables methods

  • Newey's simulated moments method[19] for parametric models — requires that there is an additional set of observed predictor variableszt, such that the true regressor can be expressed as

    where π0 and σ0 are (unknown) constant matrices, and ζtzt. The coefficient π0 can be estimated using standard least squares regression of x on z. The distribution of ζt is unknown, however we can model it as belonging to a flexible parametric family — the Edgeworth series:

    where ϕ is the standard normal distribution.

    Simulated moments can be computed using the importance sampling algorithm: first we generate several random variables {vts ~ ϕ, s = 1,…,S, t = 1,…,T} from the standard normal distribution, then we compute the moments at t-th observation as

    where θ = (β, σ, γ), A is just some function of the instrumental variables z, and H is a two-component vector of moments

    With moment functions mt one can apply standard GMM technique to estimate the unknown parameter θ.

Repeated observations

In this approach two (or maybe more) repeated observations of the regressor x* are available. Both observations contain their own measurement errors, however those errors are required to be independent:

where x*η1η2. Variables η1, η2 need not be identically distributed (although if they are efficiency of the estimator can be slightly improved). With only these two observations it is possible to consistently estimate the density function of x* using Kotlarski's deconvolution technique.[20]

  • 파라메트릭 모형에 대한 Li의 조건부 밀도법.[21] 회귀 방정식은 다음과 같이 관측 가능한 변수의 관점에서 작성할 수 있다.

    조건부 밀도 함수 ƒx* x 알면 적분을 계산할 수 있을 것이다. 만약 이 기능을 알거나 추정할 수 있다면, 문제는 예를 들어 NLLS 방법을 사용하여 추정할 수 있는 표준 비선형 회귀 분석으로 바뀐다.
    η1, η2 동일하게 분포되어 있는 단순성을 가정하면, 이 조건부 밀도는 다음과 같이 계산할 수 있다.

    여기서 표기법 xj 약간 남용하면 벡터의 j번째 성분을 나타낸다.
    이 공식의 모든 밀도는 경험적 특성 함수의 역전을 사용하여 추정할 수 있다. 특히.

    이러한 특성 함수를 반전시키기 위해서는 역 푸리에 변환을 적용해야 하며, 숫자 안정성을 보장하는 데 필요한 트리밍 파라미터 C가 필요하다. 예를 들면 다음과 같다.

  • Schennach's estimator for a parametric linear-in-parameters nonlinear-in-variables model.[22] This is a model of the form

    where wt represents variables measured without errors. The regressor x* here is scalar (the method can be extended to the case of vector x* as well).
    If not for the measurement errors, this would have been a standard linear model with the estimator

    where

    It turns out that all the expected values in this formula are estimable using the same deconvolution trick. In particular, for a generic observable wt (which could be 1, w1t, …, wℓ t, or yt) and some function h (which could represent any gj or gigj) we have

    where φh is the Fourier transform of h(x*), but using the same convention as for the characteristic functions,

    ,

    and

    결과 추정기 (는) 일관성이 있고 증상이 없는 정상이다.
  • 비모수 모형에 대한 Scennach의 추정기.[23] 표준 나다라야-비모수 모델의 Watson 추정기가 형성됨
    커널K와 대역폭 h의 적절한 선택을 위해. 여기서 두 기대치는 모두 이전 방법에서와 동일한 기법을 사용하여 추정할 수 있다.

참조

  1. ^ Carroll, Raymond J.; Ruppert, David; Stefanski, Leonard A.; Crainiceanu, Ciprian (2006). Measurement Error in Nonlinear Models: A Modern Perspective (Second ed.). ISBN 978-1-58488-633-4.
  2. ^ Schennach, Susanne (2016). "Recent Advances in the Measurement Error Literature". Annual Review of Economics. 8 (1): 341–377. doi:10.1146/annurev-economics-080315-015058.
  3. ^ Koul, Hira; Song, Weixing (2008). "Regression model checking with Berkson measurement errors". Journal of Statistical Planning and Inference. 138 (6): 1615–1628. doi:10.1016/j.jspi.2007.05.048.
  4. ^ Griliches, Zvi; Ringstad, Vidar (1970). "Errors-in-the-variables bias in nonlinear contexts". Econometrica. 38 (2): 368–370. doi:10.2307/1913020. JSTOR 1913020.
  5. ^ Chesher, Andrew (1991). "The effect of measurement error". Biometrika. 78 (3): 451–462. doi:10.1093/biomet/78.3.451. JSTOR 2337015.
  6. ^ Greene, William H. (2003). Econometric Analysis (5th ed.). New Jersey: Prentice Hall. Chapter 5.6.1. ISBN 978-0-13-066189-0.
  7. ^ Wansbeek, T.; Meijer, E. (2000). "Measurement Error and Latent Variables". In Baltagi, B. H. (ed.). A Companion to Theoretical Econometrics. Blackwell. pp. 162–179. doi:10.1111/b.9781405106764.2003.00013.x. ISBN 9781405106764.
  8. ^ Hausman, Jerry A. (2001). "Mismeasured variables in econometric analysis: problems from the right and problems from the left". Journal of Economic Perspectives. 15 (4): 57–67 [p. 58]. doi:10.1257/jep.15.4.57. JSTOR 2696516.
  9. ^ Fuller, Wayne A. (1987). Measurement Error Models. John Wiley & Sons. p. 2. ISBN 978-0-471-86187-4.
  10. ^ Hayashi, Fumio (2000). Econometrics. Princeton University Press. pp. 7–8. ISBN 978-1400823833.
  11. ^ Reiersøl, 올라프(1950년)."변수 사이에 아무렇게나 흔들면 저의 대상이 되고 있는 선형 관계의 Identifiability".이코노 메트리카. 18(4):375–389[우편 383].doi:10.2307/1907835. JSTOR 1907835.A다소 더 제한적인 결과 전 기어리, R.C.(1942년)에 의해 설립되었습니다."확률 변수 사이에 내재 관계".아일랜드 황실 아카데미 회보.47:63–76. JSTOR 20488436.그는 만일 x*s 일반적이다는 추가적인 가정은(ε, η)공동으로 일반적이다에서 모델을 식별하지 않다는 것을 보여 주었다.
  12. ^ Fuller, Wayne A. (1987). "A Single Explanatory Variable". Measurement Error Models. John Wiley & Sons. pp. 1–99. ISBN 978-0-471-86187-4.
  13. ^ Pal, Manoranjan (1980). "Consistent moment estimators of regression coefficients in the presence of errors in variables". Journal of Econometrics. 14 (3): 349–364 [pp. 360–1]. doi:10.1016/0304-4076(80)90032-9.
  14. ^ Ben-Moshe, Dan (2020). "Identification of linear regressions with errors in all variables". Econometric Theory: 1–31. arXiv:1404.1473. doi:10.1017/S0266466620000250.
  15. ^ Dagenais, 마르셀 G.;Dagenais, Denyse L.(1997년)."선형 회귀 모델의 변수에서 오류가 발생한 높은 순간 estimators".필기장 계량 경제학의. 76(1–2):193–221.CiteSeerX 10.1.1.669.8286. doi:10.1016(95)01789-5. 때 벡터(ε, η)의 모든 구성 요소와 대칭적으로 분산 독립적이다 이전의 논문에서 Pal(1980년)를 더 단순한 사건이 고려되었다.
  16. ^ Fuller, Wayne A. (1987). Measurement Error Models. John Wiley & Sons. p. 184. ISBN 978-0-471-86187-4.
  17. ^ Erickson, Timothy; Whited, Toni M. (2002). "Two-step GMM estimation of the errors-in-variables model using high-order moments". Econometric Theory. 18 (3): 776–799. doi:10.1017/s0266466602183101. JSTOR 3533649.
  18. ^ Schennach, S.; Hu, Y.; Lewbel, A. (2007). "Nonparametric identification of the classical errors-in-variables model without side information". Working paper.
  19. ^ Newey, Whitney K. (2001). "Flexible simulated moment estimation of nonlinear errors-in-variables model". Review of Economics and Statistics. 83 (4): 616–627. doi:10.1162/003465301753237704. hdl:1721.1/63613. JSTOR 3211757.
  20. ^ Li, Tong; Vuong, Quang (1998). "Nonparametric estimation of the measurement error model using multiple indicators". Journal of Multivariate Analysis. 65 (2): 139–165. doi:10.1006/jmva.1998.1741.
  21. ^ Li, Tong (2002). "Robust and consistent estimation of nonlinear errors-in-variables models". Journal of Econometrics. 110 (1): 1–26. doi:10.1016/S0304-4076(02)00120-3.
  22. ^ Schennach, Susanne M. (2004). "Estimation of nonlinear models with measurement error". Econometrica. 72 (1): 33–75. doi:10.1111/j.1468-0262.2004.00477.x. JSTOR 3598849.
  23. ^ Schennach, Susanne M. (2004). "Nonparametric regression in the presence of measurement error". Econometric Theory. 20 (6): 1046–1093. doi:10.1017/S0266466604206028.

추가 읽기

외부 링크