최소 제곱합
Total least squares다음에 대한 시리즈 일부 |
회귀분석 |
---|
모델 |
추정 |
배경 |
적용된 통계량에서 총 최소 제곱은 변수 내 오차 회귀 분석의 한 유형이며, 종속 변수와 독립 변수의 관측 오류를 모두 고려하는 최소 제곱 데이터 모델링 기법이다. 데밍 회귀 분석과 직교 회귀 분석의 일반화로서, 선형 및 비선형 모델 모두에 적용할 수 있다.
데이터의 총 최소 제곱 근사치는 일반적으로 데이터 행렬의 낮은 순위 근사치인 프로베니우스 표준에서 최고와 동등하다.[1]
선형 모형
배경
최소화된 경우, 여기서 r은 잔차의 벡터, W는 가중 행렬이다. 선형 최소 제곱에서 모형은 파라미터 벡터 {\{\{\에 나타나는 파라미터에 선형 방정식을 포함하므로 잔차는 다음과 같이 주어진다
y에는 m 관측치가 있고 m>n을 가진 β에는 n개의 매개변수가 있다. X는 m×n 행렬로, 원소는 독립 변수의 상수 또는 함수인 x이다. 가중치 행렬 W는 이상적으로는 분산-공분산 행렬 y 의 역행이다. 독립 변수는 오차가 없는 것으로 가정한다. 모수 추정치는 그라데이션 방정식을 0으로 설정하면 정규 방정식이 생성된다.
모든 변수에 관측치 오류 허용
이제 분산-공분산 행렬 및 을(를) 사용하여 x와 y가 모두 오차에 따라 관찰된다고 가정합시다. 이 경우 목표 함수는 다음과 같이 기록할 수 있다.
여기서 및 y 는 각각 x와 y의 잔차다. 분명히[further explanation needed] 이러한 잔차는 서로 독립적일 수는 없지만, 어떤 종류의 관계에 의해 제약을 받아야 한다. 모델 함수를 , y ,) 제약 조건은 m 조건 방정식으로 표현된다[2]
따라서 m 제약조건에 따라 객관적 기능을 최소화하는 것이 문제다. 라그랑주 승수를 이용하여 해결한다. 약간의 대수학적 조작 후에, 그 결과를 얻는다.[3]
or alternatively where M is the variance-covariance matrix relative to both independent and dependent variables.
예
데이터 오류가 상관관계가 없으면 모든 행렬 M과 W는 대각선이 된다. 그런 다음 직선 피팅의 예를 들어 보십시오.
이 경우에는
독립 변수와 종속 변수의 분산에 의해 그리고 데이터를 적합시키는 데 사용되는 모형에 의해 ih 지점의 분산이 결정되는 방법을 보여준다. 매개변수 이(가) 선의 기울기라는 점에 유의하여 식을 일반화할 수 있다.
이 유형의 표현식은 x의 작은 오류가 경사가 클 때 y의 큰 오류로 해석되는 pH 적정 데이터를 적합시키는 데 사용된다.
대수학적 관점
1980년 골루브와 밴론 등이 보여주듯 TLS 문제는 전반적으로 해결책이 없다.[4] 다음은 특별한 가정을 하지 않고 고유한 해결책이 존재하는 단순한 경우를 고려한다.
단수 값 분해(SVD)를 이용한 TLS의 연산은 표준 텍스트에 기술되어 있다.[5] 우리는 방정식을 풀 수 있다.
여기서 X는 m-by-n이고 Y는 m-by-k이다. [note 2]
즉, X와 Y에 대해 각각 오차 행렬 E와 F를 최소화하는 B를 찾으려고 한다. 그것은
where is the augmented matrix with E and F side by side and is the Frobenius norm, the square root of the sum of the squares of all entries in a matrix and so equivalently the square root of the sum of squares of the lengths of the rows or columns of the matrix.
이것은 다음과 같이 다시 쓰여질 수 있다.
여기서 은 (는 k {\ ID 행렬이다. 그런 다음[ [을(를 ) k만큼 감소시키는 것이 목표다 [ [ 을(를) 정의하여 증강 매트릭스 의 단수 값 분해로 한다
여기서 V는 X와 Y의 모양에 해당하는 블록으로 분할된다.
에카르트 사용-젊은 정리, 오류의 규범을 최소화하는 근사치는 U 및 이(가) 변경되지 않는 반면 가장 k{\ 단수 값은 0으로 대체된다. 즉, 우리는 원한다.
그래서 선형성에 의해
그런 다음 U와 mat 매트릭스에서 블록을 제거하여
이것은 E와 F를 제공하여
V 은(는) 비논리적인 것으로, 항상 그렇지는 않다( 에 대한 TLS의 동작에 유의한다).은 (는) 아직 잘 이해되지 않음), 그러면 양쪽을 -V - 로 오른쪽 곱할 수 있다. 오른쪽 매트릭스의 하단 블록을 음의 아이덴티티로 가져오며[6],
등등
이에 대한 순진한 GNU 옥타브 구현은 다음과 같다.
함수 B = tls(X, Y) [m n] = 크기(X), % n은 X의 너비(X는 m by n) Z = [X Y], % Z는 Y로 증강된 X이다. [U S V] = svd(Z, 0), %는 Z의 SVD를 찾는다. VXY = V(1:n, 1+n:end); % 처음 n행으로 구성된 V 블록과 마지막 열까지 n+1로 구성된 V 블록을 취함 VYY = V(1+n:end, 1+n:end); % V의 오른쪽 하단 블록을 취함. B = -VXY / VYY; 끝
위에서 설명한 문제 해결 방법, 즉 매트릭스 은 비논리적인 것으로, 이른바 고전적인 TLS 알고리즘에 의해 약간 연장될 수 있다.[7]
연산
클래식 TLS 알고리즘의 표준 구현은 Netlib를 통해 이용할 수 있다(참조).[8][9] 예를 들어, 일련의 일반적인 최소 제곱 문제를 해결하는 것에 기반한 모든 현대적 구현은 Van Huffel과 Vandewalle에 의해 소개된 매트릭스 문헌에 로 표시됨)에 근사하다. 그러나 이 은 (는) 많은 경우 TLS 솔루션이 아니라는 점에 주목할 필요가 있다.[10][11]
비선형모형
비선형 시스템의 경우 유사한 추론은 반복 주기에 대한 정규 방정식을 다음과 같이 기록할 수 있음을 보여준다.
여기서 은는) Jacobian 행렬이다.
기하학적 해석
독립 변수가 오차가 없는 경우 잔차는 관측된 데이터 점과 적합 곡선(또는 표면) 사이의 "수직" 거리를 나타낸다. 총 최소 제곱에서 잔차는 데이터 점과 일부 방향을 따라 측정된 적합 곡선 사이의 거리를 나타낸다. 실제로 두 변수가 동일한 단위로 측정되고 두 변수의 오차가 동일하면 잔차는 데이터 점과 적합 곡선 사이의 최단 거리, 즉 잔차 벡터가 곡선의 탄젠트에 수직인 것이다. 이러한 이유로 이러한 유형의 회귀 분석을 2차원 유클리드 회귀 분석(Stein, 1983년)[12] 또는 직교 회귀 분석이라고 부르기도 한다.
척도 불변 방법
변수를 동일한 단위로 측정하지 않으면 심각한 어려움이 발생한다. 먼저 데이터 점과 선 사이의 거리 측정을 고려하십시오. 이 거리에 대한 측정 단위는? 우리가 피타고라스의 정리를 바탕으로 거리 측정을 고려한다면, 우리가 다른 단위로 측정된 수량을 더하는 것은 분명한데, 이것은 무의미하다. 둘째로, 만일 우리가 킬로그램이 아닌 그램으로 측정하는 변수들 중 하나를 재조정한다면, 우리는 결국 다른 결과(다른 선)로 끝날 것이다. 이러한 문제를 피하기 위해 차원 없는 변수로 변환하는 것이 제안되기도 한다. 이를 표준화 또는 표준화라고 할 수도 있다. 그러나 이를 위한 다양한 방법이 있으며, 이는 서로 동등하지 않은 적합 모델로 이어진다. 한 가지 접근방식은 알려진(또는 추정된) 측정 정밀도에 의해 정규화하여 점으로부터 선까지의 거리를 최소화하여 최대 우도 솔루션을 제공하는 것이다.[citation needed] 미지의 정밀도는 분산 분석을 통해 확인할 수 있다.
요컨대, 최소 제곱의 총합은 단위-불변수의 특성을 가지고 있지 않다. 즉, 척도-불변수가 아니다. 의미 있는 모델을 위해 우리는 이 속성을 보유해야 한다. 앞으로 가는 방법은 덧셈 대신 곱셈을 사용하면 서로 다른 단위로 측정한 잔차(간격)를 조합할 수 있다는 것을 깨닫는 것이다. 선 적합을 고려하십시오. 각 데이터 점에 대해 수직 및 수평 잔차의 곱은 잔차 선과 적합선에 의해 형성된 삼각형 영역의 두 배와 같다. 우리는 이러한 영역의 합을 최소화하는 선을 선택한다. 노벨상 수상자인 폴 새뮤얼슨은 1942년 2차원에서 관측치가 일직선으로 떨어질 때 (1) 정확한 방정식에 맞는 표준 편차 비율과 상관 계수에 대해서만 표현할 수 있는 유일한 선이며, (2) 척도 불변성을 보이고 (3) 상호교체 시 불변성을 보인다는 것을 증명했다. 변수들[13] (드레이퍼와 스미스는, 1998년)[16]적어도 제품 회귀, 대각선 회귀, 유기 상관 및 최소한의 지역 l. 이 솔루션은 다양한 분야에서 여러가지로 표준화된 주요 축으로 줄어든 주요 축, 기하학적 평균 기능적 관계(Ricker 1975년, 워턴. Thomas.(알., 2006년)[14][15] 알려져 있어 재발견되었다ine(Tofallis, 2002).[17] Topallis(2015)[18]는 다중 변수를 처리하기 위해 이 접근법을 확장했다.
참고 항목
- 강등 회귀 분석, 두 개의 예측 변수와 독립적인 오류가 있는 특수 사례.
- 변수 내 오차 모형
- 가우스-헬메르트 모형
- 선형 회귀 분석
- 최소 제곱
메모들
참조
- ^ I. 마르코프스키와 S. Van Huffel, 총 최소 제곱법 개요. 신호 처리, 87, 페이지 2283–2302, 2007. 사전 인쇄
- ^ W.E. 데밍, 데이터 통계 조정, Wiley, 1943
- ^ Gans, Peter (1992). Data Fitting in the Chemical Sciences. Wiley. ISBN 9780471934127. Retrieved 4 December 2012.
- ^ G. H. 골럽과 C. F. 밴 대출, 총 최소 제곱 문제 분석. 숫자. 항문 17, 1980, 페이지 883–893.
- ^ Golub, Gene H.; Van Loan, Charles F. (1996). Matrix Computations (3rd ed.). The Johns Hopkins University Press. 596 페이지
- ^ Bjõrck, Ake(1996) 최소 제곱 문제를 위한 수치적 방법, 산업 및 응용 수학 학회 ISBN 978-0898713602[page needed]
- ^ S. Van Huffel과 J. Vandewalle(1991) 총 최소 제곱 문제: 계산 측면 및 분석. 필라델피아 PA의 SIAM 출판사
- ^ S. Van Huffel, 확장된 고전적 총 최소 제곱 알고리즘, 부분 단수 값 분해 알고리즘 및 부분 총 최소 제곱 알고리즘, 내부 보고서 ESAT-KUL 88/1, ESAT Lab, ESAT Lab., Katholieke Universiteit Leuven, 1988.
- ^ S. Van Huffel, 확장된 고전적 총 최소 제곱 알고리즘 J. Compute. 답. 수학, 25 페이지 111–119, 1989.
- ^ M. Pleshinger, AX ≈ B에서 총 최소 제곱 문제와 데이터 감소. 박사 논문, 리베렉의 TU와 컴퓨터 과학 연구소, AS CR 프라하, 2008. 박사논문
- ^ I. 흐니텐코바, M. 플레싱어, D. M. 사마, Z. 스트라코시, 그리고 S. Van Huffel, AX의 총 최소 제곱 문제 ≈ B. 고전 작품과의 관계에 대한 새로운 분류. SIMAX vol. 32호(2011), 페이지 748–770.
- ^ Stein, Yaakov J. "Two Dimensional Euclidean Regression" (PDF).
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말) - ^ Samuelson, Paul A. (1942). "A Note on Alternative Regressions". Econometrica. 10 (1): 80–83. doi:10.2307/1907024. JSTOR 1907024.
- ^ Ricker, W. E. (1975). "A note concerning Professor Jolicoeur's Comments". Journal of the Fisheries Research Board of Canada. 32 (8): 1494–1498. doi:10.1139/f75-172.
- ^ Warton, David I.; Wright, Ian J.; Falster, Daniel S.; Westoby, Mark (2006). "Bivariate line-fitting methods for allometry". Biological Reviews. 81 (2): 259–291. CiteSeerX 10.1.1.461.9154. doi:10.1017/S1464793106007007. PMID 16573844. S2CID 16462731.
- ^ Draper, NR 및 Smith, H. 적용 회귀 분석, 제3판, 페이지 92–96. 1998.
- ^ Tofallis, Chris (2002). "Model Fitting for Multiple Variables by Minimising the Geometric Mean Deviation". In Van Huffel, Sabine; Lemmerling, P. (eds.). Total Least Squares and Errors-in-Variables Modeling: Analysis, Algorithms and Applications. Dordrecht: Kluwer Academic Publ. ISBN 978-1402004766. SSRN 1077322.
- ^ Tofallis, Chris (2015). "Fitting Equations to Data with the Perfect Correlation Relationship". SSRN 2707593.
{{cite journal}}
: Cite 저널은 필요로 한다.journal=
(도움말)
다른이들
- I. 흐니텐코바, M. 플레싱어, D. M. 사마, Z. 스트라코시, 그리고 S. Van Huffel, AX의 총 최소 제곱 문제 ≈ B. 고전 작품과의 관계에 대한 새로운 분류. SIMAX vol. 32호(2011), 페이지 748–770. 사전 인쇄로 사용 가능.
- M. Pleshinger, AX ≈ B에서 총 최소 제곱 문제와 데이터 감소. 박사 논문, 리베렉의 TU와 컴퓨터 과학 연구소, AS CR 프라하, 2008. 박사논문
- C. C. 페이지, Z. 스트라코시, 선형 대수학 시스템의 핵심 문제. SIAM J. 매트릭스 항문. Appl. 27, 2006, 페이지 861–875. doi:10.1137/040616991
- S. 반 허펠과 P. Lemmerling, Total Last Square and Errors-in-Variable Modeling: 분석, 알고리즘 및 응용 프로그램. 네덜란드의 Dordrecht: Kluwer Academic Publishers, 2002.
- S. Jo와 S. W. Kim, 노이즈가 많은 데이터 매트릭스와 함께 정규화된 최소 제곱 필터링. IEEE 트랜스. 신호 처리, 2005년 6월, 제53권, 제6권, 페이지 2112–2123.
- R. D. DeGroat 및 E. M. Dowling, 데이터 최소 제곱 문제 및 채널 동등화. IEEE 트랜스. 1993년 1월, 제41권, 제1권, 페이지 407–411.
- S. Van Huffel과 J. Vandewalle, 총 최소 제곱 문제: 계산 측면 및 분석. SIAM 간행물, 필라델피아 PA, 1991. doi:10.1137/1.9781611971002
- T. Abatzoglu와 J. 멘델, Proc에서 제한된 총 최소 제곱. IEEE Int. 콘프. 음향, 음성, 신호 처리. (ICASSP'87), 1987년 4월 12일, 페이지 1485–1488.
- P. de Groen Nieuw Archief voor Wiskunde, Vierde serie, deel 14, 1996, 페이지 237–253 arxiv.org의 총 최소 제곱에 대한 소개.
- G. H. 골럽과 C. F. 밴 대출, 총 최소 제곱 문제 분석. 숫자에 SIAM J. 논어, 17, 1980, 페이지 883–893. doi:10.1137/0717073
- 산술 페이지에서 선의 수직 회귀 분석
- A. R. Amiri-Simkuae 및 S. Jazaeri 표준 최소 제곱 이론에 의해 공식화된 가중 총 최소 제곱, 지리학 저널, 2: 113–124, 2012 [1].