최소 제곱합

Total least squares
총 최소 제곱의 이바리산(데밍 회귀 분석) 사례. 빨간 선은 x와 y 다에서 오류를 보여준다. 는 Y축에 평행한 오차를 측정하는 기존의 최소 제곱법과는 다르다. 표시된 경우는 수직으로 측정된 편차로 xy의 오차가 동일한 분산을 가질 때 발생한다.

적용된 통계량에서 총 최소 제곱은 변수 내 오차 회귀 분석의 한 유형이며, 종속 변수와 독립 변수의 관측 오류를 모두 고려하는 최소 제곱 데이터 모델링 기법이다. 데밍 회귀 분석과 직교 회귀 분석의 일반화로서, 선형 및 비선형 모델 모두에 적용할 수 있다.

데이터의 총 최소 제곱 근사치는 일반적으로 데이터 행렬의 낮은 순위 근사치프로베니우스 표준에서 최고와 동등하다.[1]

선형 모형

배경

데이터 모델링의 최소 제곱법에서 목표 함수 S,

최소화된 경우, 여기서 r은 잔차의 벡터, W는 가중 행렬이다. 선형 최소 제곱에서 모형은 파라미터 벡터 {\{\{\에 나타나는 파라미터에 선형 방정식을 포함하므로 잔차는 다음과 같이 주어진다

y에는 m 관측치가 있고 m>n을 가진 β에는 n개의 매개변수가 있다. Xm×n 행렬로, 원소는 독립 변수의 상수 또는 함수인 x이다. 가중치 행렬 W는 이상적으로는 분산-공분산 행렬 y 역행이다. 독립 변수는 오차가 없는 것으로 가정한다. 모수 추정치는 그라데이션 방정식을 0으로 설정하면 정규 방정식이 생성된다.

모든 변수에 관측치 오류 허용

이제 분산-공분산 행렬 을(를) 사용하여 xy가 모두 오차에 따라 관찰된다고 가정합시다. 이 경우 목표 함수는 다음과 같이 기록할 수 있다.

여기서 y 는 각각 xy의 잔차다. 분명히[further explanation needed] 이러한 잔차는 서로 독립적일 수는 없지만, 어떤 종류의 관계에 의해 제약을 받아야 한다. 모델 함수를 , y ,) 제약 조건은 m 조건 방정식으로 표현된다[2]

따라서 m 제약조건에 따라 객관적 기능을 최소화하는 것이 문제다. 라그랑주 승수를 이용하여 해결한다. 약간의 대수학적 조작 후에, 그 결과를 얻는다.[3]

or alternatively where M is the variance-covariance matrix relative to both independent and dependent variables.

데이터 오류가 상관관계가 없으면 모든 행렬 MW는 대각선이 된다. 그런 다음 직선 피팅의 예를 들어 보십시오.

이 경우에는

독립 변수와 종속 변수의 분산에 의해 그리고 데이터를 적합시키는 데 사용되는 모형에 의해 ih 지점의 분산이 결정되는 방법을 보여준다. 매개변수 이(가) 선의 기울기라는 점에 유의하여 식을 일반화할 수 있다.

이 유형의 표현식은 x의 작은 오류가 경사가 클 때 y의 큰 오류로 해석되는 pH 적정 데이터를 적합시키는 데 사용된다.

대수학적 관점

1980년 골루브와 밴론 등이 보여주듯 TLS 문제는 전반적으로 해결책이 없다.[4] 다음은 특별한 가정을 하지 않고 고유한 해결책이 존재하는 단순한 경우를 고려한다.

단수 분해(SVD)를 이용한 TLS의 연산은 표준 텍스트에 기술되어 있다.[5] 우리는 방정식을 풀 수 있다.

여기X는 m-by-n이고 Y는 m-by-k이다. [note 2]

, X와 Y에 대해 각각 오차 행렬 E와 F를 최소화하는 B를 찾으려고 한다. 그것은

where is the augmented matrix with E and F side by side and is the Frobenius norm, the square root of the sum of the squares of all entries in a matrix and so equivalently the square root of the sum of squares of the lengths of the rows or columns of the matrix.

이것은 다음과 같이 다시 쓰여질 수 있다.

여기서 (는 k {\ ID 행렬이다. 그런 다음[ [을(를) k만큼 감소시키는 것이 목표다 [ [ 을(를) 정의하여 증강 매트릭스 의 단수 값 분해로 한다

여기서 VXY의 모양에 해당하는 블록으로 분할된다.

에카르트 사용-젊은 정리, 오류의 규범을 최소화하는 근사치는 U 이(가) 변경되지 않는 반면 가장 k{\ 단수 값은 0으로 대체된다. 즉, 우리는 원한다.

그래서 선형성에 의해

그런 다음 U와 mat 매트릭스에서 블록을 제거하여

이것E와 F를 제공하여

V 은(는) 비논리적인 것으로, 항상 그렇지는 않다( 에 대한 TLS의 동작에 유의한다).(는) 아직 잘 이해되지 않음), 그러면 양쪽을 -V - 로 오른쪽 곱할 수 있다. 오른쪽 매트릭스의 하단 블록을 음의 아이덴티티로 가져오며[6],

등등

이에 대한 순진한 GNU 옥타브 구현은 다음과 같다.

함수 B = tls(X, Y) [m n] = 크기(X), % n은 X의 너비(X는 m by n) Z = [X Y], % Z는 Y로 증강된 X이다. [U S V] = svd(Z, 0), % Z의 SVD를 찾는다. VXY = V(1:n, 1+n:end); % 처음 n행으로 구성된 V 블록과 마지막 열까지 n+1로 구성된 V 블록을 취함 VYY = V(1+n:end, 1+n:end); % V의 오른쪽 하단 블록을 취함. B = -VXY / VYY;

위에서 설명한 문제 해결 방법, 즉 매트릭스 은 비논리적인 것으로, 이른바 고전적인 TLS 알고리즘에 의해 약간 연장될 수 있다.[7]

연산

클래식 TLS 알고리즘의 표준 구현은 Netlib를 통해 이용할 수 있다(참조).[8][9] 예를 들어, 일련의 일반적인 최소 제곱 문제를 해결하는 것에 기반한 모든 현대적 구현은 Van Huffel과 Vandewalle에 의해 소개된 매트릭스 문헌에 로 표시됨)에 근사하다. 그러나 이 (는) 많은 경우 TLS 솔루션이 아니라는 점에 주목할 필요가 있다.[10][11]

비선형모형

비선형 시스템의 경우 유사한 추론은 반복 주기에 대한 정규 방정식을 다음과 같이 기록할 수 있음을 보여준다.

여기서 는) Jacobian 행렬이다.

기하학적 해석

독립 변수가 오차가 없는 경우 잔차는 관측된 데이터 점과 적합 곡선(또는 표면) 사이의 "수직" 거리를 나타낸다. 총 최소 제곱에서 잔차는 데이터 점과 일부 방향을 따라 측정된 적합 곡선 사이의 거리를 나타낸다. 실제로 두 변수가 동일한 단위로 측정되고 두 변수의 오차가 동일하면 잔차는 데이터 점과 적합 곡선 사이의 최단 거리, 즉 잔차 벡터가 곡선의 탄젠트에 수직인 것이다. 이러한 이유로 이러한 유형의 회귀 분석을 2차원 유클리드 회귀 분석(Stein, 1983년)[12] 또는 직교 회귀 분석이라고 부르기도 한다.

척도 불변 방법

변수를 동일한 단위로 측정하지 않으면 심각한 어려움이 발생한다. 먼저 데이터 점과 선 사이의 거리 측정을 고려하십시오. 이 거리에 대한 측정 단위는? 우리가 피타고라스의 정리를 바탕으로 거리 측정을 고려한다면, 우리가 다른 단위로 측정된 수량을 더하는 것은 분명한데, 이것은 무의미하다. 둘째로, 만일 우리가 킬로그램이 아닌 그램으로 측정하는 변수들 중 하나를 재조정한다면, 우리는 결국 다른 결과(다른 선)로 끝날 것이다. 이러한 문제를 피하기 위해 차원 없는 변수로 변환하는 것이 제안되기도 한다. 이를 표준화 또는 표준화라고 할 수도 있다. 그러나 이를 위한 다양한 방법이 있으며, 이는 서로 동등하지 않은 적합 모델로 이어진다. 한 가지 접근방식은 알려진(또는 추정된) 측정 정밀도에 의해 정규화하여 점으로부터 선까지의 거리를 최소화하여 최대 우도 솔루션을 제공하는 것이다.[citation needed] 미지의 정밀도는 분산 분석을 통해 확인할 수 있다.

요컨대, 최소 제곱의 총합은 단위-불변수의 특성을 가지고 있지 않다. 즉, 척도-불변수가 아니다. 의미 있는 모델을 위해 우리는 이 속성을 보유해야 한다. 앞으로 가는 방법은 덧셈 대신 곱셈을 사용하면 서로 다른 단위로 측정한 잔차(간격)를 조합할 수 있다는 것을 깨닫는 것이다. 선 적합을 고려하십시오. 각 데이터 점에 대해 수직 및 수평 잔차의 곱은 잔차 선과 적합선에 의해 형성된 삼각형 영역의 두 배와 같다. 우리는 이러한 영역의 합을 최소화하는 선을 선택한다. 노벨상 수상자인 폴 새뮤얼슨은 1942년 2차원에서 관측치가 일직선으로 떨어질 때 (1) 정확한 방정식에 맞는 표준 편차 비율과 상관 계수에 대해서만 표현할 수 있는 유일한 선이며, (2) 척도 불변성을 보이고 (3) 상호교체 시 불변성을 보인다는 것을 증명했다. 변수들[13] (드레이퍼와 스미스는, 1998년)[16]적어도 제품 회귀, 대각선 회귀, 유기 상관 및 최소한의 지역 l. 이 솔루션은 다양한 분야에서 여러가지로 표준화된 주요 축으로 줄어든 주요 축, 기하학적 평균 기능적 관계(Ricker 1975년, 워턴. Thomas.(알., 2006년)[14][15] 알려져 있어 재발견되었다ine(Tofallis, 2002).[17] Topallis(2015)[18]는 다중 변수를 처리하기 위해 이 접근법을 확장했다.

참고 항목

메모들

  1. ^ An alternative form is , where is the parameter shift from some starting estimate of {\}\은(는) y와 {\의 시작 값을 사용하여 계산한 값 사이의 차이점이다.
  2. ^ 여기서 XB y Y라는 표기법을 사용하여 기사의 앞부분에서 사용한 표기법을 반영한다. 계산 문헌에서 문제는 더 일반적으로 AXB로, 즉 알 수 없는 회귀 계수의 n-by-k 행렬에 사용되는 문자 X로 표시되었다.

참조

  1. ^ I. 마르코프스키와 S. Van Huffel, 총 최소 제곱법 개요. 신호 처리, 87, 페이지 2283–2302, 2007. 사전 인쇄
  2. ^ W.E. 데밍, 데이터 통계 조정, Wiley, 1943
  3. ^ Gans, Peter (1992). Data Fitting in the Chemical Sciences. Wiley. ISBN 9780471934127. Retrieved 4 December 2012.
  4. ^ G. H. 골럽과 C. F. 밴 대출, 총 최소 제곱 문제 분석. 숫자. 항문 17, 1980, 페이지 883–893.
  5. ^ Golub, Gene H.; Van Loan, Charles F. (1996). Matrix Computations (3rd ed.). The Johns Hopkins University Press. 596 페이지
  6. ^ Bjõrck, Ake(1996) 최소 제곱 문제를 위한 수치적 방법, 산업 및 응용 수학 학회 ISBN 978-0898713602[page needed]
  7. ^ S. Van Huffel과 J. Vandewalle(1991) 총 최소 제곱 문제: 계산 측면분석. 필라델피아 PA의 SIAM 출판사
  8. ^ S. Van Huffel, 확장된 고전적 총 최소 제곱 알고리즘, 부분 단수 값 분해 알고리즘 및 부분 총 최소 제곱 알고리즘, 내부 보고서 ESAT-KUL 88/1, ESAT Lab, ESAT Lab., Katholieke Universiteit Leuven, 1988.
  9. ^ S. Van Huffel, 확장된 고전적 총 최소 제곱 알고리즘 J. Compute. 답. 수학, 25 페이지 111–119, 1989.
  10. ^ M. Pleshinger, AX ≈ B에서 총 최소 제곱 문제와 데이터 감소. 박사 논문, 리베렉의 TU와 컴퓨터 과학 연구소, AS CR 프라하, 2008. 박사논문
  11. ^ I. 흐니텐코바, M. 플레싱어, D. M. 사마, Z. 스트라코시, 그리고 S. Van Huffel, AX의 총 최소 제곱 문제 ≈ B. 고전 작품과의 관계에 대한 새로운 분류. SIMAX vol. 32호(2011), 페이지 748–770.
  12. ^ Stein, Yaakov J. "Two Dimensional Euclidean Regression" (PDF). {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)
  13. ^ Samuelson, Paul A. (1942). "A Note on Alternative Regressions". Econometrica. 10 (1): 80–83. doi:10.2307/1907024. JSTOR 1907024.
  14. ^ Ricker, W. E. (1975). "A note concerning Professor Jolicoeur's Comments". Journal of the Fisheries Research Board of Canada. 32 (8): 1494–1498. doi:10.1139/f75-172.
  15. ^ Warton, David I.; Wright, Ian J.; Falster, Daniel S.; Westoby, Mark (2006). "Bivariate line-fitting methods for allometry". Biological Reviews. 81 (2): 259–291. CiteSeerX 10.1.1.461.9154. doi:10.1017/S1464793106007007. PMID 16573844. S2CID 16462731.
  16. ^ Draper, NR 및 Smith, H. 적용 회귀 분석, 제3판, 페이지 92–96. 1998.
  17. ^ Tofallis, Chris (2002). "Model Fitting for Multiple Variables by Minimising the Geometric Mean Deviation". In Van Huffel, Sabine; Lemmerling, P. (eds.). Total Least Squares and Errors-in-Variables Modeling: Analysis, Algorithms and Applications. Dordrecht: Kluwer Academic Publ. ISBN 978-1402004766. SSRN 1077322.
  18. ^ Tofallis, Chris (2015). "Fitting Equations to Data with the Perfect Correlation Relationship". SSRN 2707593. {{cite journal}}: Cite 저널은 필요로 한다. journal= (도움말)

다른이들

  • I. 흐니텐코바, M. 플레싱어, D. M. 사마, Z. 스트라코시, 그리고 S. Van Huffel, AX의 최소 제곱 문제 ≈ B. 고전 작품과의 관계에 대한 새로운 분류. SIMAX vol. 32호(2011), 페이지 748–770. 사전 인쇄로 사용 가능.
  • M. Pleshinger, AX B에서 최소 제곱 문제와 데이터 감소. 박사 논문, 리베렉의 TU와 컴퓨터 과학 연구소, AS CR 프라하, 2008. 박사논문
  • C. C. 페이지, Z. 스트라코시, 선형 대수학 시스템의 핵심 문제. SIAM J. 매트릭스 항문. Appl. 27, 2006, 페이지 861–875. doi:10.1137/040616991
  • S. 허펠과 P. Lemmerling, Total Last Square and Errors-in-Variable Modeling: 분석, 알고리즘응용 프로그램. 네덜란드의 Dordrecht: Kluwer Academic Publishers, 2002.
  • S. Jo와 S. W. Kim, 노이즈가 많은 데이터 매트릭스와 함께 정규화된 최소 제곱 필터링. IEEE 트랜스. 신호 처리, 2005년 6월, 제53권, 제6권, 페이지 2112–2123.
  • R. D. DeGroat 및 E. M. Dowling, 데이터 최소 제곱 문제채널 동등화. IEEE 트랜스. 1993년 1월, 제41권, 제1권, 페이지 407–411.
  • S. Van Huffel과 J. Vandewalle, 총 최소 제곱 문제: 계산 측면 및 분석. SIAM 간행물, 필라델피아 PA, 1991. doi:10.1137/1.9781611971002
  • T. Abatzoglu와 J. 멘델, Proc에서 제한된 총 최소 제곱. IEEE Int. 콘프. 음향, 음성, 신호 처리. (ICASSP'87), 1987년 4월 12일, 페이지 1485–1488.
  • P. de Groen Nieuw Archief voor Wiskunde, Vierde serie, deel 14, 1996, 페이지 237–253 arxiv.org의 총 최소 제곱에 대한 소개.
  • G. H. 골럽과 C. F. 밴 대출, 총 최소 제곱 문제 분석. 숫자에 SIAM J. 논어, 17, 1980, 페이지 883–893. doi:10.1137/0717073
  • 산술 페이지에서 선의 수직 회귀 분석
  • A. R. Amiri-Simkuae 및 S. Jazaeri 표준 최소 제곱 이론에 의해 공식화된 가중최소 제곱, 지리학 저널, 2: 113–124, 2012 [1].