학습을 위한 근위부 그라데이션 방법
Proximal gradient methods for learning학습에 대한 근위부 구배(앞쪽 뒤쪽으로 갈라짐) 방법은 정규화 페널티가 다를 수 없는 볼록 정규화 문제의 일반 등급에 대한 알고리즘을 연구하는 최적화 및 통계 학습 이론 연구 영역이다.그러한 예로는 양식의 1{1} 정규화(라소라고도 함)가 있다.
근위부 그라데이션 방법은 통계학 학습 이론으로부터 정규화 문제를 특정 문제 적용에 맞춘 벌칙으로 풀 수 있는 일반적인 틀을 제공한다.[1][2]이러한 맞춤형 벌칙은 (라소의 경우) 첨삭성이나 그룹 구조(집단 라소의 경우)와 같은 문제 해결의 특정 구조를 유도하는 데 도움이 될 수 있다.
관련 배경
근위부 그라데이션 방법은 폼의 볼록 최적화 문제를 해결하기 위한 다양한 시나리오에 적용할 수 있다.
여기서 은(는) 립스키츠 연속 그라데이션으로 볼록하고 구별이 가능하며, 은(는) 구별할 수 없는 볼록하고 낮은 반미콘틴 함수이며, 은 일부 세트(일반적으로 힐버트 공간)이다.일반적인 기준은 볼록스에서 ( R) ) = )=인 경우에만 F( ) +를 최소화하고, 이제 다른 설정이 로 대체된다.
여기서 {\ \}은(는 실제 값, {\displaystyle }의 하위 차등을 의미한다
Given a convex function an important operator to consider is its proximal operator defined by
}} 표준의 엄격한 볼록성 때문에 잘 정의된다.근위 연산자는 투영의 일반화로 볼 수 있다.[1][3][4]은(는) xF (x )+ (x ) {\ {\F(R(은(는)에 대한 최소제이기 때문에 근접 연산자가 중요하다는 것을 알 수 있다.
- where is any positive real number.[1]
모로 분해
근위부 그라데이션 방법과 관련된 한 가지 중요한 기법은 모라우 분해인데, 모라우 분해는 두 근접 연산자의 합으로 신분 연산자를 분해한다.[1]Namely, let be a lower semicontinuous, convex function on a vector space . We define its Fenchel conjugate to be the function
Moreau 분해의 일반적인 형태는 어떤 x 및 and >{\에 대해 다음과 같이 명시되어 있다.
= =1}의경우 x= ( ) { [1][3]모로 분해는 근접 연산자가 투영의 일반화라는 사실과 유사하게 벡터 공간의 통상적인 직교 분해의 일반화라고 볼 수 있다.[1]
특정 상황에서는 함수 대신 에 대한 근접 연산자를 계산하는 것이 더 쉬울 수 있으므로 Moreau 분해법을 적용할 수 있다.그룹 라소의 경우다.
라소 정규화
손실에 대한 정규화된 경험적 위험 최소화 문제와 problem 1 1} 페널티:
서 R y in {R^{d}{\ 및 }} 1{\displaystystylear line 1} 정규화 문제를 laso라고 부르기도 한다.[5]이러한 정규화 문제는 희박한 해결책을 유도하기 때문에 흥미롭다. 즉, 최소화 에 대한솔루션 {\은(는) 0이 아닌 구성요소가 상대적으로 적다.라소는 비콘벡스 문제의 볼록한 이완이라고 볼 수 있다.
여기서 w\는 vector 0 \ell_{0} "norm"을 하며는 벡터 w {\displaystyle 의 0이 아닌 항목 수입니다 희박한 솔루션은 결과의 해석성을 위한 학습 이론에 특히 관심이 많다. 희소수 해결책이 될 수 있다.요인[5]
L1 근접 연산자를 위한 해결
단순성을 위해 = 문제를 해결하기 위해 주의를 제한한다
we consider our objective function in two parts: a convex, differentiable term and a convex function . Note that 플레이 R은(는) 엄격히 볼록한 것이 아니다.
( w )에 대한 근접 연산자를 계산해 봅시다 먼저 근접 연산자 R () 의 대체 특성을 다음과 같이 찾아 보십시오.
)= {1 {\}의 경우 ) 의 항목 을 정확하게 계산할 수 있다.
Using the recharacterization of the proximity operator given above, for the choice of and we have that is defined entrywise by
소프트 임계값 연산자 S )= 1 1 {\{\}(x {_{\\{1}([1][6]
고정 점 반복 방식
마지막으로 라소 문제를 해결하기 위해 앞에서 설명한 고정 점 방정식을 고려한다.
근접 연산자의 형태를 명시적으로 계산한 것을 감안하면, 표준 고정점 반복 절차를 정의할 수 있다., }\ \mathb {R} 에서 초기 를 수정하고 = , ,…이(가) 정의하십시오.
여기서 경험적 오류 용어 ) 과(와) 정규화 R) 사이의 유효 트레이드오프를 참고하십시오이 고정점 방법은 객관적인 기능을 구성하는 두 가지 다른 볼록함수의 효과를 구배 강하 단계( - k}-\ w F와 부드러운 임계값 설정 단계
이 고정된 포인트 체계의 수렴은[1][6] 문헌에 잘 연구되어 있으며, 단계 크기 }와 손실 함수(여기서 취한 제곱 손실 등)의 적절한 선택에 따라 보장된다.가속화된 방법은 에 네스테로프가 F 에 대한 일정한 규칙성 가정 하에서 수렴 속도를 향상시키는 방법으로 도입되었다[7] 그러한 방법은 예년에 광범위하게 연구되어 왔다.[8]일부 정규화 R {\에 대해 근접 연산자를 명시적으로 계산할 수 없는 더 일반적인 학습 문제의 경우 이러한 고정 포인트 체계는 구배와 근접 연산자 모두에 근사치를 사용하여 수행할 수 있다.[4][9]
현실적 고려
지난 10년 동안 볼록 최적화 기법에서는 통계학 학습 이론에서 근위부 그라데이션 방법의 적용에 영향을 미친 수많은 발전이 있었다.여기서는 이러한 방법의 실제 알고리즘 성능을 크게 개선할 수 있는 몇 가지 중요한 주제를 조사한다.[2][10]
적응형 스텝 크기
고정 점 반복 방식에서
일정한 이(가) 아닌 가변 스텝 크기 을 허용할 수 있다 문헌 전반에 걸쳐 수많은 적응형 스텝 크기 체계가 제안되어 왔다.[1][4][11][12]이러한 제도를[2][13] 적용하면 고정점 수렴에 필요한 반복 횟수가 상당히 개선될 수 있음을 알 수 있다.
탄성망(혼합규범 정규화)
탄력적인 순정규격화는 순수 } 정규화에 대한 대안을 제공한다.라소(lasso, 의 정규화 문제에는 벌칙어 (w )= w ( ) = 1 {\ R( w1}가 포함되는데 이는 엄격히 볼록하지 않는다.따라서 이 경험적 손실 함수인 (w ) + R (w ) , {\)에 대한 해결책은 고유할 필요가 없다.이는 2{\ _} 정규화 벌칙과 같이 엄격하게 볼록한 용어를 추가로 포함하면 피하는 경우가 많다.예를 들어 문제를 고려할 수 있다.
0<>로 여기가 어디고 y는 나는 R.{\displaystyle x_{나는}\in \mathbb{R}^{d}{\text{과}∈ Rd∈ x}y_{나는}\in\mathbb{R}.};μ ≤ 1{0<, \mu 1\leq\displaystyle} 페널티 용어 λ((1− μ)‖ w‖ 1+μ ‖ w‖ 22){\displaystyle \lambda \left((1-\mu)\ w\_{1}+\mu)w\ _{2}^{2}\right)}이 있다. 엄격한ly colfx, 따라서 최소화 문제는 이제 독특한 해결책을 받아들인다.충분히 작은 > 에 대해 추가 벌칙 용어 wμ w μ w w μ w \2}}가 전제조건으로 작용하며 용액의 첨가에 악영향을 미치지 않으면서 정합성을 실질적으로 개선할 수 있다는 것이 관찰되었다[2][14]
그룹 구조 이용
근위부 그라데이션 방법은 통계학 학습 이론의 다양한 문제에 적용할 수 있는 일반적인 체계를 제공한다.학습의 어떤 문제들은 종종 선행으로 알려진 추가적인 구조를 가진 데이터를 포함할 수 있다.지난 몇 년 동안 다른 애플리케이션에 맞춤화된 방법을 제공하기 위해 그룹 구조에 대한 정보를 통합하는 새로운 발전이 있었다.여기서 우리는 몇 가지 그러한 방법을 조사한다.
그룹 라소
그룹 라소는 특징을 분리 블록으로 묶을 때 라소 방식을 일반화한 것이다.[15]기능이 블록{ 1,… ,w 로 그룹화된다고 가정합시다 여기서는 정규화 패널티로 간주한다.
그룹에 대한 해당 형상 벡터에 대한 on 2 2}} 의 합이다.위와 유사한 근접 연산자 분석을 사용하여 이 벌칙에 대한 근접 연산자를 계산할 수 있다.라소 페널티에서 각 개별 구성 요소에 소프트 임계값인 근접 연산자가 있는 경우, 그룹 라소의 근접 연산자는 각 그룹에 소프트 임계값이다. g 그룹의 경우 = w ){\}\rig}\ 의 근접 연산자가 제공됨
여기서 는 th 그룹이다.
라소와 대조적으로, 그룹 라소에 대한 근접 연산자의 파생은 모로 분해에 의존한다.여기서 그룹 라소 페널티 공의 근접 연산자는 이중 규범의 공에 투영하는 것이 된다.[2]
기타그룹구조
형상이 분리 블록으로 그룹화되는 그룹 라소 문제와 대조적으로 그룹화된 형상이 중복되거나 중첩된 구조를 갖는 경우가 있을 수 있다.이러한 집단 라소의 일반화는 다양한 맥락에서 고려되어 왔다.[16][17][18][19]겹치는 그룹의 경우 공통적인 접근방식은 중첩을 설명하기 위해 잠재 변수를 도입하는 잠복 그룹 라소라고 알려져 있다.[20][21]내포된 그룹 구조는 계층 구조 예측에서 그리고 지시된 반복 그래프로 연구된다.[18]
참고 항목
참조
- ^ a b c d e f g h i Combettes, Patrick L.; Wajs, Valérie R. (2005). "Signal Recovering by Proximal Forward-Backward Splitting". Multiscale Model. Simul. 4 (4): 1168–1200. doi:10.1137/050626090. S2CID 15064954.
- ^ a b c d e Mosci, S.; Rosasco, L.; Matteo, S.; Verri, A.; Villa, S. (2010). "Solving Structured Sparsity Regularization with Proximal Methods". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. 6322: 418–433. doi:10.1007/978-3-642-15883-4_27. ISBN 978-3-642-15882-7.
- ^ a b Moreau, J.-J. (1962). "Fonctions convexes duales et points proximaux dans un espace hilbertien". Comptes Rendus de l'Académie des Sciences, Série A. 255: 2897–2899. MR 0144188. Zbl 0118.10502.
- ^ a b c Bauschke, H.H., and Combettes, P.L. (2011). Convex analysis and monotone operator theory in Hilbert spaces. Springer.
- ^ a b Tibshirani, R. (1996). "Regression shrinkage and selection via the lasso". J. R. Stat. Soc. Ser. B. 1. 58 (1): 267–288.
- ^ a b Daubechies, I.; Defrise, M.; De Mol, C. (2004). "An iterative thresholding algorithm for linear inverse problem with a sparsity constraint". Comm. Pure Appl. Math. 57 (11): 1413–1457. arXiv:math/0307152. doi:10.1002/cpa.20042. S2CID 1438417.
- ^ Nesterov, Yurii (1983). "A method of solving a convex programming problem with convergence rate ". Soviet Mathematics - Doklady. 27 (2): 372–376.
- ^ Nesterov, Yurii (2004). Introductory Lectures on Convex Optimization. Kluwer Academic Publisher.
- ^ Villa, S.; Salzo, S.; Baldassarre, L.; Verri, A. (2013). "Accelerated and inexact forward-backward algorithms". SIAM J. Optim. 23 (3): 1607–1633. CiteSeerX 10.1.1.416.3633. doi:10.1137/110844805.
- ^ Bach, F.; Jenatton, R.; Mairal, J.; Obozinski, Gl. (2011). "Optimization with sparsity-inducing penalties". Foundations and Trends in Machine Learning. 4 (1): 1–106. arXiv:1108.0775. Bibcode:2011arXiv1108.0775B. doi:10.1561/2200000015. S2CID 56356708.
- ^ Loris, I.; Bertero, M.; De Mol, C.; Zanella, R.; Zanni, L. (2009). "Accelerating gradient projection methods for -constrained signal recovery by steplength selection rules". Applied & Comp. Harmonic Analysis. 27 (2): 247–254. arXiv:0902.4424. doi:10.1016/j.acha.2009.02.003. S2CID 18093882.
- ^ Wright, S.J.; Nowak, R.D.; Figueiredo, M.A.T. (2009). "Sparse reconstruction by separable approximation". IEEE Trans. Image Process. 57 (7): 2479–2493. Bibcode:2009ITSP...57.2479W. CiteSeerX 10.1.1.115.9334. doi:10.1109/TSP.2009.2016892.
- ^ Loris, Ignace (2009). "On the performance of algorithms for the minimization of -penalized functionals". Inverse Problems. 25 (3): 035008. arXiv:0710.4082. Bibcode:2009InvPr..25c5008L. doi:10.1088/0266-5611/25/3/035008. S2CID 14213443.
- ^ De Mol, C.; De Vito, E.; Rosasco, L. (2009). "Elastic-net regularization in learning theory". J. Complexity. 25 (2): 201–230. arXiv:0807.3423. doi:10.1016/j.jco.2009.01.002. S2CID 7167292.
- ^ Yuan, M.; Lin, Y. (2006). "Model selection and estimation in regression with grouped variables". J. R. Stat. Soc. B. 68 (1): 49–67. doi:10.1111/j.1467-9868.2005.00532.x. S2CID 6162124.
- ^ Chen, X.; Lin, Q.; Kim, S.; Carbonell, J.G.; Xing, E.P. (2012). "Smoothing proximal gradient method for general structured sparse regression". Ann. Appl. Stat. 6 (2): 719–752. arXiv:1005.4717. doi:10.1214/11-AOAS514. S2CID 870800.
- ^ Mosci, S.; Villa, S.; Verri, A.; Rosasco, L. (2010). "A primal-dual algorithm for group sparse regularization with overlapping groups". NIPS. 23: 2604–2612.
- ^ a b Jenatton, R.; Audibert, J.-Y.; Bach, F. (2011). "Structured variable selection with sparsity-inducing norms". J. Mach. Learn. Res. 12: 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.
- ^ Zhao, P.; Rocha, G.; Yu, B. (2009). "The composite absolute penalties family for grouped and hierarchical variable selection". Ann. Stat. 37 (6A): 3468–3497. arXiv:0909.0411. Bibcode:2009arXiv0909.0411Z. doi:10.1214/07-AOS584. S2CID 9319285.
- ^ Obozinski, Guillaume; Jacob, Laurent; Vert, Jean-Philippe (2011). "Group Lasso with Overlaps: The Latent Group Lasso approach". arXiv:1110.0413 [stat.ML].
- ^ Villa, Silvia; Rosasco, Lorenzo; Mosci, Sofia; Verri, Alessandro (2012). "Proximal methods for the latent group lasso penalty". arXiv:1209.0368 [math.OC].