최소 절대 편차

최소 절대 오차(LAE), 최소 절대값(LAV), 최소 절대 잔차(LAAR), 절대편차의 합계 또는₁ L 표준 조건으로도 알려진 최소 절대편차(LAD)는 통계적 최적성 기준이며 이에 의존하는 통계적 최적화 기법이다. 최소 제곱법과 유사하게 데이터 집합에 근접한 함수를 찾으려고 시도한다. (x,y) 데이터 집합의 단순한 경우, 근사함수는 2차원 데카르트 좌표에서의 단순한 "추세선"이다. 이 방법은 절대오차의 합계(SAE)를 최소화한다(함수에 의해 생성된 지점과 데이터의 해당 지점 사이의 수직 "잔차"의 절대값의 합계). 최소 절대 편차 추정치는 또한 오차들이 라플라스 분포를 갖는 경우 최대우도 추정치로 발생한다. 1757년 로저 조셉 보스코비치에 의해 도입되었다.^[1]

공식화

데이터 세트가 i = 1, 2, ..., n인 점(x_i, y_i)으로 구성된다고 가정해 보십시오. $f(x_{i})\approx y_{i}.$ x $f(x_{i})\approx y_{i}.$ ) $f(x_{i})\approx y_{i}.$ $f(x_{i})\approx y_{i}.$ $f(x_{i})\approx y_{i}.$ ${\displaystyle f(x_{i})\약간의 y_{i}.$ $}$

이 목표를 달성하기 위해, 함수 f는 결정해야 할 일부 매개변수를 포함하는 특정한 형태라고 가정한다. 예를 들어, 가장 단순한 형태는 선형이다: f(x) = bx + c. 여기서 b와 c는 값은 알 수 없지만 우리가 추정하고자 하는 매개변수다. 간단히 말해서, f(x)가 2차적이라고 가정하면, f(x) = 도끼² + bx + c, 여기서 a, b, c는 아직 알려져 있지 않다. (더 일반적으로 설명자 x는 한 사람만이 아니라 여러 개의 설명자가 있을 수 있는데, 모두 f 함수의 주장으로 나타날 수 있다.)

이제 잔차의 절대값 합계를 최소화하는 알 수 없는 모수의 추정 값을 구한다.

{\displaystyle S=\sum _{i=1}^{n} y_{i}-f(x_{i}).

해결책

최소 절대 편차 회귀 분석의 개념은 최소 제곱 회귀 분석의 개념만큼 간단하지만, 최소 절대 편차 선은 효율적으로 계산하기에 그렇게 간단하지 않다. 최소 제곱법과 달리 최소 절대 편차 회귀 분석에는 해석적 해결 방법이 없다. 따라서 반복적인 접근이 필요하다. 다음은 일부 최소 절대 편차 해결 방법을 열거한 것이다.

심플렉스 기반 방법(Barrodale-Roberts 알고리즘^[2] 등)
- 문제는 선형 프로그램이기 때문에 많은 선형 프로그래밍 기법(simplex method뿐만 아니라 다른 것들도 포함)을 적용할 수 있다.
반복적으로 최소 제곱의 가중치를 재가중^[3]
베솔로우스키의 직하강법^[4]
Li-Arce의 최대우도 접근법^[5]
차원성 접근법의^[6] 재귀적 감소
최소 오차 합계에 대한 점 대 점 선의 모든 조합 확인

심플렉스 기반 방법은 최소한의 절대 편차 문제를 해결하기 위한 "선호적인" 방법이다.^[7] 심플렉스(Simplex) 방법은 선형 프로그래밍에서 문제를 해결하는 방법이다. 가장 인기 있는 알고리즘은 Barrodale-Roberts 변형 Simplex 알고리즘이다. IRLS, Wesolowsky의 Method, Li's Method에 대한 알고리즘은 다른 방법의 부록 A에서 찾을 수 있다. 두 개의 (x,y) 데이터 점을 가로지르는 선의 모든 조합을 확인하는 것도 최소 절대 편차 선을 찾는 또 다른 방법이다. 적어도 한 개 이상의 절대 편차 선이 최소 두 개의 데이터 점을 통과한다고 알려져 있으므로 이 방법은 각 선의 SAE(데이터 포인트보다 가장 작은 절대 오차)를 비교하고 가장 작은 SAE를 선택하여 선을 찾는다. 또한, 여러 개의 라인이 동일하고 가장 작은 SAE를 가지고 있는 경우, 그 라인은 다중 솔루션의 영역을 개략적으로 나타낸다. 이 최종 방법은 간단하지만 대용량 데이터 집합에서는 비효율적이다.

선형 프로그래밍 사용

이 문제는 다음과 같은 문제 명세서에 어떤 선형 프로그래밍 기법을 사용해도 해결할 수 있다. 우리는 하고 싶다.

{\text{minimize}\sum _{i=1}{n}y_{n}-a_{0}-a_{1}x_{i1}-a_{2}x_{2}-\cdots -a_{k}x_{ik}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

매개변수 $a_{0},\ldots ,a_{k}$ $a_{0},\ldots ,a_{k}$ , $a_{0},\ldots ,a_{k}$ … , $a_{0},\ldots ,a_{k}$ ${\$ k $a_{0},\ldots ,a_{k}$ 여기서 y는_i 종속 변수의 i 관측치^th 값이고 x는_ij j^th 독립 변수(j^th = 1,...,k)의 i 관측치 값이다. 우리는 이 문제를 인공변수의 관점에서 u로_i 다시 쓴다.

{\text{minimize}\sum _{i=1}^{n}u_{i}}}

a_{0},\ldots ,a_{k}

,

a_{0},\ldots ,a_{k}

… ,

a_{0},\ldots ,a_{k}

{\

u_{1},\ldots ,u_{n}

,

u_{1},\ldots ,u_{n}

u_{1},\ldots ,u_{n}

{\

에 대한 정보

의 대상이 되다

u_{i}\geq y_{0}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{i2}-\, \,\,\,\,\,\,\,\,\,\, {},},},},},},},

u_{i}\geq -[y_{i}-a_{0}-a_{0}-{1}x_{1}x_{{i2}-\cdots -a_{k}x_{ik}}]\,\,\,\,\text{},\i=1, .n.

These constraints have the effect of forcing each $u_{i}$ to equal $y_{i}-a_{0}-a_{1}x_{i1}-a_{2}x_{i2}-\cdots -a_{k}x_{ik}$ upon being minimized, so the objective function is equivalent to the original obj외함수 이 버전의 문제성명에는 절대값 연산자가 포함되어 있지 않기 때문에 어떤 선형 프로그래밍 패키지로도 해결할 수 있는 형식이다.

특성.

최소 절대 편차 선의 다른 고유한 특성이 존재한다. (x,y) 데이터 집합의 경우, 최소 절대 편차 선은 여러 개의 해결책이 없는 한 항상 최소 두 개의 데이터 점을 통과한다. 여러 해결책이 존재하는 경우, 유효 최소 절대 편차 해결책의 영역은 각각 최소 두 개의 데이터 지점을 통과하는 최소 두 개의 선으로 제한된다. 보다 일반적으로 k regressor(상수 포함)가 있는 경우 최소 하나의 최적 회귀 표면이 데이터 포인트의 k를 통과한다.^[8]^{: p.936}

이러한 데이터 포인트에 대한 라인의 "래칭"은 "인스턴스" 특성을 이해하는 데 도움이 될 수 있다. 라인이 항상 최소 두 포인트에 걸리면, 라인은 데이터 포인트가 변경될 때 다른 포인트 세트 사이에서 점프한다. "래칭"은 또한 "확실성" 특성을 이해하는 데 도움이 된다. 특이치(outlier)가 존재하며 최소 절대 편차 선이 두 데이터 점에 걸어야 하는 경우, 특이치(outlier)는 대부분의 경우 절대 편차의 합계를 최소화하지 못하기 때문에 이 두 점 중 하나가 아닐 가능성이 높다.

여러 솔루션이 존재하는 알려진 한 가지 경우는 아래 그림 A와 같이 수평선에 대해 대칭되는 점 집합이다.

그림 A: 반사 대칭과 다중 최소 절대 편차 솔루션이 있는 데이터 점 집합. "솔루션 영역"은 녹색으로 표시된다. 세로 파란색 선은 분홍색 선에서 각 데이터 점까지의 절대 오차를 나타낸다. 분홍색 선은 녹색 영역 내에서 무한히 많은 해결책 중 하나이다.

그림 A에 표시된 사례에 여러 가지 해결책이 있는 이유를 이해하려면 녹색 영역의 분홍색 선을 고려하십시오. 그것의 절대 오류의 합은 어떤 값 S이다. 녹색 영역 내에 그대로 유지하면서 선을 약간 위로 기울인다면 오차의 합은 여전히 S일 것이다. 각 점으로부터 선까지의 거리가 선의 한 쪽에 커지는 반면, 선 반대편에 있는 각 점까지의 거리는 정확히 같은 양만큼 줄어들기 때문에 변하지 않을 것이다. 따라서 절대 오류의 합계는 그대로 유지된다. 또한 무한히 작은 증분으로 선을 기울일 수 있기 때문에, 이것은 또한 한 가지 이상의 해결책이 있다면, 무한히 많은 해결책이 있다는 것을 보여준다.

장단점

다음은 최소 절대 편차 방법의 일부 특성과 최소 제곱 방법의 특성을 대조한 표다.^[9]^[10]

일반 최소 제곱법	최소 절대 편차 회귀 분석
그다지 강력하지 않음	로버스트
안정용액	불안정한 용액
단일 솔루션*	여러 솔루션일 수

*데이터 포인트 수가 피쳐 수보다 크거나 같은 경우

최소 절대 편차의 방법은 최소 제곱법에 비해 강건성 때문에 많은 영역에서 응용 프로그램을 찾는다. 최소 절대 편차는 데이터의 특이치에 내성이 있다는 점에서 강하다. LAD는 잔차를 제곱함으로써 큰 잔차, 즉 예측 값이 실제 관측치와 거리가 먼 특이치를 갖는 일반 최소 제곱(OLS)과 대조적으로 모든 관측치에 동일한 강조를 제공한다. 이것은 특이치를 다른 관측치보다 더 큰 가중치를 부여할 필요가 없는 연구에서 유용할 수 있다. 특이치에 더 큰 비중을 두는 것이 중요하다면 최소 제곱법이 더 나은 선택이다.

변형, 확장, 전문화

만약 나머지의 절대 값의 합에 하나 왼쪽 half-line에와 오른쪽 half-line에 0< τ{\displaystyle \tau},;τ<1{\displaystyle 0<, \tau<1}, 한 ob slope가{\displaystyle \tau)}− τ slope고 있는 기울어져 절대 값 함수의 절대 값 함수 generalises.tains quanti리 회귀 분석 $\tau =1/2$ = $\tau =1/2$ / $\tau =1/2$ $\tau =1/2$ 의 경우는 표준 회귀 분석을 최소 절대 편차로 제공하며 $\tau =1/2$ 중위수 회귀 분석이라고도 한다.

최소 절대 편차 문제는 다중 설명자, 제약 조건 및 정규화(예: 선형 제약 조건을 갖는 선형 모형)를 포함하도록 확장할 수 있다.^[11]

최소화

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

(

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

, b

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

)

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

=

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

i

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

+

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

-

S(\mathbf {\beta } ,b)=\sum _{i}|\mathbf {x} '_{i}\mathbf {\beta } +b-y_{i}|

displaystyle S(\mathbf {\beta },b)=\sum _{i} \mathbf {x} '_{i}\mathbf {\beatf

{}

+b-y_{i}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}}

예:

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

+

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

- y

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

\mathbf {x} '_{1}\mathbf {\beta } +b-y_{1}\leq k

{\displaystyle \mathbf {x} '_{

1}\

mathbf

{\mathbf

{\cH00}

+b-y_{1}\leq k}

의 대상

여기서 $\mathbf {\beta }$ ${\$ 은 $\mathbf{\beta}$ (는) 추정할 계수의 열 벡터, b는 추정할 절편, x는_i 다양한 설명자에 대한 i 관측치의^th 열 벡터, y는_i 종속 변수에 대한^th i 관측치, k는 알려진 상수다.

LASSO를 사용한 정규화도 LAD와 결합할 수 있다.^[12]

참고 항목

참조

^ "Least Absolute Deviation Regression". The Concise Encyclopedia of Statistics. Springer. 2008. pp. 299–302. doi:10.1007/978-0-387-32833-1_225. ISBN 9780387328331.
^ I. Barrodale & F. D. K. Roberts (1973). "An improved algorithm for discrete L₁ linear approximation". SIAM Journal on Numerical Analysis. 10 (5): 839–848. Bibcode:1973SJNA...10..839B. doi:10.1137/0710069. hdl:1828/11491. JSTOR 2156318.
^ E. J. Schlossmacher (December 1973). "An Iterative Technique for Absolute Deviations Curve Fitting". Journal of the American Statistical Association. 68 (344): 857–859. doi:10.2307/2284512. JSTOR 2284512.
^ G. O. Wesolowsky (1981). "A new descent algorithm for the least absolute value regression problem". Communications in Statistics – Simulation and Computation. B10 (5): 479–491. doi:10.1080/03610918108812224.
^ Yinbo Li and Gonzalo R. Arce (2004). "A Maximum Likelihood Approach to Least Absolute Deviation Regression". EURASIP Journal on Applied Signal Processing. 2004 (12): 1762–1769. Bibcode:2004EJASP2004...61L. doi:10.1155/S1110865704401139.
^ Ana Sovic Krzic and Damir Sersic (2018). "L1 minimization using recursive reduction of dimensionality". Signal Processing. 151: 119–129. doi:10.1016/j.sigpro.2018.05.002.
^ ^a ^b 윌리엄 A. Pfeil, 통계 교수 보조, 우스터 폴리테크닉 인스티튜트 과학 학부 논문, 2006
^ Branham, R. L. Jr. "대안으로는 최소 제곱", 1982년 6월 천문 저널 87, 928–937. [1] SAO/NASA 천체물리학 데이터 시스템(ADS)에서
^ 이러한 차이를 보여주는 애플릿 집합은 다음 사이트를 참조하십시오. http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html
^ LAD 대 OLS에 대한 토론은 http://www.econ.uiuc.edu/~roger/research/rQ/QRJEP.pdf 및 https://www.leeds.ac.uk/educol/documents/00003759.htm를 참조하십시오.
^ Mingren Shi; Mark A., Lukas (March 2002). "An L₁ estimation algorithm with degeneracy and linear constraints". Computational Statistics & Data Analysis. 39 (1): 35–55. doi:10.1016/S0167-9473(01)00049-4.
^ Li Wang, Michael D. Gordon & Ji Zhu (December 2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Proceedings of the Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134.

추가 읽기

Peter Bloomfield and William Steiger (1980). "Least Absolute Deviations Curve-Fitting". SIAM Journal on Scientific Computing. 1 (2): 290–301. doi:10.1137/0901019.
Subhash C. Narula and John F. Wellington (1982). "The Minimum Sum of Absolute Errors Regression: A State of the Art Survey". International Statistical Review. 50 (3): 317–326. doi:10.2307/1402501. JSTOR 1402501.
Robert F. Phillips (July 2002). "Least absolute deviations estimation via the EM algorithm". Statistics and Computing. 12 (3): 281–285. doi:10.1023/A:1020759012226.
Enno Siemsen & Kenneth A. Bollen (2007). "Least Absolute Deviation Estimation in Structural Equation Modeling". Sociological Methods & Research. 36 (2): 227–265. doi:10.1177/0049124107301946.

[1] "Least Absolute Deviation Regression". The Concise Encyclopedia of Statistics. Springer. 2008. pp. 299–302. doi:10.1007/978-0-387-32833-1_225. ISBN 9780387328331.

[2] I. Barrodale & F. D. K. Roberts (1973). "An improved algorithm for discrete L₁ linear approximation". SIAM Journal on Numerical Analysis. 10 (5): 839–848. Bibcode:1973SJNA...10..839B. doi:10.1137/0710069. hdl:1828/11491. JSTOR 2156318.

[3] E. J. Schlossmacher (December 1973). "An Iterative Technique for Absolute Deviations Curve Fitting". Journal of the American Statistical Association. 68 (344): 857–859. doi:10.2307/2284512. JSTOR 2284512.

[4] G. O. Wesolowsky (1981). "A new descent algorithm for the least absolute value regression problem". Communications in Statistics – Simulation and Computation. B10 (5): 479–491. doi:10.1080/03610918108812224.

[5] Yinbo Li and Gonzalo R. Arce (2004). "A Maximum Likelihood Approach to Least Absolute Deviation Regression". EURASIP Journal on Applied Signal Processing. 2004 (12): 1762–1769. Bibcode:2004EJASP2004...61L. doi:10.1155/S1110865704401139.

[6] Ana Sovic Krzic and Damir Sersic (2018). "L1 minimization using recursive reduction of dimensionality". Signal Processing. 151: 119–129. doi:10.1016/j.sigpro.2018.05.002.

[Pfeil-7] 윌리엄 A. Pfeil, 통계 교수 보조, 우스터 폴리테크닉 인스티튜트 과학 학부 논문, 2006

[8] Branham, R. L. Jr. "대안으로는 최소 제곱", 1982년 6월 천문 저널 87, 928–937. [1] SAO/NASA 천체물리학 데이터 시스템(ADS)에서

[9] 이러한 차이를 보여주는 애플릿 집합은 다음 사이트를 참조하십시오. http://www.math.wpi.edu/Course_Materials/SAS/lablets/7.3/73_choices.html

[10] LAD 대 OLS에 대한 토론은 http://www.econ.uiuc.edu/~roger/research/rQ/QRJEP.pdf 및 https://www.leeds.ac.uk/educol/documents/00003759.htm를 참조하십시오.

[11] Mingren Shi; Mark A., Lukas (March 2002). "An L₁ estimation algorithm with degeneracy and linear constraints". Computational Statistics & Data Analysis. 39 (1): 35–55. doi:10.1016/S0167-9473(01)00049-4.

[12] Li Wang, Michael D. Gordon & Ji Zhu (December 2006). "Regularized Least Absolute Deviations Regression and an Efficient Algorithm for Parameter Tuning". Proceedings of the Sixth International Conference on Data Mining. pp. 690–700. doi:10.1109/ICDM.2006.134.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

Search

최소 절대 편차

네임스페이스

더

목차

공식화

해결책

선형 프로그래밍 사용

특성.

장단점

변형, 확장, 전문화

참고 항목

참조

추가 읽기