학습을 위한 근위부 그라데이션 방법

Proximal gradient methods for learning

학습에 대한 근위부 구배(앞쪽 뒤쪽으로 갈라짐) 방법은 정규화 페널티가 다를없는 볼록 정규화 문제의 일반 등급에 대한 알고리즘을 연구하는 최적화통계 학습 이론 연구 영역이다.그러한 예로는 양식의 1{1} 정규화(라소라고도 함)가 있다.

근위부 그라데이션 방법은 통계학 학습 이론으로부터 정규화 문제를 특정 문제 적용에 맞춘 벌칙으로 풀 수 있는 일반적인 틀을 제공한다.[1][2]이러한 맞춤형 벌칙은 (라소의 경우) 첨삭성이나 그룹 구조(집단 라소의 경우)와 같은 문제 해결의 특정 구조를 유도하는 데 도움이 될 수 있다.

관련 배경

근위부 그라데이션 방법은 폼의 볼록 최적화 문제를 해결하기 위한 다양한 시나리오에 적용할 수 있다.

여기서 (는) 립스키츠 연속 그라데이션으로 볼록하고 구별이 가능하며, (는) 구별할 수 없는 볼록하고 낮은 반미콘틴 함수이며, 은 일부 세트(일반적으로 힐버트 공간)이다.일반적인 기준은 볼록스에서 ( R) ) = )=인 경우에만 F( ) +를 최소화하고, 이제 다른 설정이 로 대체된다.

여기서 {\ \}은(는 실제 값, {\displaystyle }의 하위 차등을 의미한다

Given a convex function an important operator to consider is its proximal operator defined by

}} 표준의 엄격한 볼록성 때문에 잘 정의된다.근위 연산자는 투영의 일반화로 볼 수 있다.[1][3][4]은(는) xF (x )+ (x ) {\ {\F(R(은(는)에 대한 최소제이기 때문에 근접 연산자가 중요하다는 것을 알 수 있다.

where is any positive real number.[1]

모로 분해

근위부 그라데이션 방법과 관련된 한 가지 중요한 기법은 모라우 분해인데, 모라우 분해는 두 근접 연산자의 합으로 신분 연산자를 분해한다.[1]Namely, let be a lower semicontinuous, convex function on a vector space . We define its Fenchel conjugate to be the function

Moreau 분해의 일반적인 형태는 어떤 x and >{\에 대해 다음과 같이 명시되어 있다.

= =1}의경우 x= ( ) { [1][3]모로 분해는 근접 연산자가 투영의 일반화라는 사실과 유사하게 벡터 공간의 통상적인 직교 분해의 일반화라고 볼 수 있다.[1]

특정 상황에서는 함수 대신 에 대한 근접 연산자를 계산하는 것이 더 쉬울 수 있으므로 Moreau 분해법을 적용할 수 있다.그룹 라소의 경우다.

라소 정규화

손실에 대한 정규화된 경험적 위험 최소화 문제와 problem 1 1} 페널티:

R y in {R^{d}{\ 및 }} 1{\displaystystylear line 1} 정규화 문제를 laso라고 부르기도 한다.[5]이러한 정규화 문제는 희박한 해결책을 유도하기 때문에 흥미롭다. 즉, 최소화 에 대한솔루션 {\은(는) 0이 아닌 구성요소가 상대적으로 적다.라소는 비콘벡스 문제의 볼록한 이완이라고 볼 수 있다.

여기서 w\는 vector 0 \ell_{0} "norm"을 하며벡터 w {\displaystyle 의 0이 아닌 항목 수입니다 희박한 솔루션은 결과의 해석성을 위한 학습 이론에 특히 관심이 많다. 희소수 해결책이 될 수 있다.요인[5]

L1 근접 연산자를 위한 해결

단순성을 위해 = 문제를 해결하기 위해 주의를 제한한다

we consider our objective function in two parts: a convex, differentiable term and a convex function . Note that 플레이 R(는) 엄격히 볼록한 것이 아니다.

( w )에 대한 근접 연산자를 계산해 봅시다 먼저 근접 연산자 R () 의 대체 특성을 다음과 같이 찾아 보십시오.

)= {1 {\}의 경우 ) 의 항목 정확하게 계산할 있다.

Using the recharacterization of the proximity operator given above, for the choice of and we have that is defined entrywise by

소프트 임계값 연산자 S )= 1 1 {\{\}(x {_{\\{1}([1][6]

고정 점 반복 방식

마지막으로 라소 문제를 해결하기 위해 앞에서 설명한 고정 점 방정식을 고려한다.

근접 연산자의 형태를 명시적으로 계산한 것을 감안하면, 표준 고정점 반복 절차를 정의할 수 있다., }\ \mathb {R} 에서 초기 를 수정하고 = , ,이(가) 정의하십시오.

여기서 경험적 오류 용어 ) (와) 정규화 R) 사이의 유효 트레이드오프를 참고하십시오이 고정점 방법은 객관적인 기능을 구성하는 두 가지 다른 볼록함수의 효과를 구배 강하 단계( - k}-\ w F와 부드러운 임계값 설정 단계

이 고정된 포인트 체계의 수렴은[1][6] 문헌에 잘 연구되어 있으며, 단계 크기 }와 손실 함수(여기서 취한 제곱 손실 등)의 적절한 선택에 따라 보장된다.가속화된 방법에 네스테로프가 F 에 대한 일정한 규칙성 가정 하에서 수렴 속도를 향상시키는 방법으로 도입되었다[7] 그러한 방법은 예년에 광범위하게 연구되어 왔다.[8]일부 정규화 R {\에 대해 근접 연산자를 명시적으로 계산할 수 없는 더 일반적인 학습 문제의 경우 이러한 고정 포인트 체계는 구배와 근접 연산자 모두에 근사치를 사용하여 수행할 수 있다.[4][9]

현실적 고려

지난 10년 동안 볼록 최적화 기법에서는 통계학 학습 이론에서 근위부 그라데이션 방법의 적용에 영향을 미친 수많은 발전이 있었다.여기서는 이러한 방법의 실제 알고리즘 성능을 크게 개선할 수 있는 몇 가지 중요한 주제를 조사한다.[2][10]

적응형 스텝 크기

고정 점 반복 방식에서

일정한 이(가) 아닌 가변 스텝 크기 을 허용할 수 있다 문헌 전반에 걸쳐 수많은 적응형 스텝 크기 체계가 제안되어 왔다.[1][4][11][12]이러한 제도를[2][13] 적용하면 고정점 수렴에 필요한 반복 횟수가 상당히 개선될 수 있음을 알 수 있다.

탄성망(혼합규범 정규화)

탄력적인 순정규격화는 순수 } 정규화에 대한 대안을 제공한다.라소(lasso, 의 정규화 문제에는 벌칙어 (w )= w ( ) = 1 {\ R( w1}가 포함되는데 이는 엄격히 볼록하지 않는다.따라서 경험적 손실 함수인 (w ) + R (w ) , {\)에 대한 해결책은 고유할 필요가 없다.이는 2{\ _} 정규화 벌칙과 같이 엄격하게 볼록한 용어를 추가로 포함하면 피하는 경우가 많다.예를 들어 문제를 고려할 수 있다.

0<>로 여기가 어디고 y는 나는 R.{\displaystyle x_{나는}\in \mathbb{R}^{d}{\text{과}∈ Rd∈ x}y_{나는}\in\mathbb{R}.};μ ≤ 1{0<, \mu 1\leq\displaystyle} 페널티 용어 λ((1− μ)‖ w‖ 1+μ ‖ w‖ 22){\displaystyle \lambda \left((1-\mu)\ w\_{1}+\mu)w\ _{2}^{2}\right)}이 있다. 엄격한ly colfx, 따라서 최소화 문제는 이제 독특한 해결책을 받아들인다.충분히 작은 > 에 대해 추가 벌칙 용어 wμ w μ w w μ w \2}}가 전제조건으로 작용하며 용액의 첨가에 악영향을 미치지 않으면서 정합성을 실질적으로 개선할 수 있다는 것이 관찰되었다[2][14]

그룹 구조 이용

근위부 그라데이션 방법은 통계학 학습 이론의 다양한 문제에 적용할 수 있는 일반적인 체계를 제공한다.학습의 어떤 문제들은 종종 선행으로 알려진 추가적인 구조를 가진 데이터를 포함할 수 있다.지난 몇 년 동안 다른 애플리케이션에 맞춤화된 방법을 제공하기 위해 그룹 구조에 대한 정보를 통합하는 새로운 발전이 있었다.여기서 우리는 몇 가지 그러한 방법을 조사한다.

그룹 라소

그룹 라소는 특징을 분리 블록으로 묶을 때 라소 방식을 일반화한 것이다.[15]기능이 블록{ 1,… ,w 로 그룹화된다고 가정합시다 여기서는 정규화 패널티로 간주한다.

그룹에 대한 해당 형상 벡터에 대한 on 2 2}} 의 합이다.위와 유사한 근접 연산자 분석을 사용하여 이 벌칙에 대한 근접 연산자를 계산할 수 있다.라소 페널티에서 각 개별 구성 요소에 소프트 임계값인 근접 연산자가 있는 경우, 그룹 라소의 근접 연산자는 각 그룹에 소프트 임계값이다. g 그룹의 경우 = w ){\}\rig}\ 의 근접 연산자가 제공됨

여기서 th 그룹이다.

라소와 대조적으로, 그룹 라소에 대한 근접 연산자의 파생은 모로 분해에 의존한다.여기서 그룹 라소 페널티 공의 근접 연산자는 이중 규범에 투영하는 것이 된다.[2]

기타그룹구조

형상이 분리 블록으로 그룹화되는 그룹 라소 문제와 대조적으로 그룹화된 형상이 중복되거나 중첩된 구조를 갖는 경우가 있을 수 있다.이러한 집단 라소의 일반화는 다양한 맥락에서 고려되어 왔다.[16][17][18][19]겹치는 그룹의 경우 공통적인 접근방식은 중첩을 설명하기 위해 잠재 변수를 도입하는 잠복 그룹 라소라고 알려져 있다.[20][21]내포된 그룹 구조는 계층 구조 예측에서 그리고 지시된 반복 그래프로 연구된다.[18]

참고 항목

참조

  1. ^ a b c d e f g h i Combettes, Patrick L.; Wajs, Valérie R. (2005). "Signal Recovering by Proximal Forward-Backward Splitting". Multiscale Model. Simul. 4 (4): 1168–1200. doi:10.1137/050626090. S2CID 15064954.
  2. ^ a b c d e Mosci, S.; Rosasco, L.; Matteo, S.; Verri, A.; Villa, S. (2010). "Solving Structured Sparsity Regularization with Proximal Methods". Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science. 6322: 418–433. doi:10.1007/978-3-642-15883-4_27. ISBN 978-3-642-15882-7.
  3. ^ a b Moreau, J.-J. (1962). "Fonctions convexes duales et points proximaux dans un espace hilbertien". Comptes Rendus de l'Académie des Sciences, Série A. 255: 2897–2899. MR 0144188. Zbl 0118.10502.
  4. ^ a b c Bauschke, H.H., and Combettes, P.L. (2011). Convex analysis and monotone operator theory in Hilbert spaces. Springer.
  5. ^ a b Tibshirani, R. (1996). "Regression shrinkage and selection via the lasso". J. R. Stat. Soc. Ser. B. 1. 58 (1): 267–288.
  6. ^ a b Daubechies, I.; Defrise, M.; De Mol, C. (2004). "An iterative thresholding algorithm for linear inverse problem with a sparsity constraint". Comm. Pure Appl. Math. 57 (11): 1413–1457. arXiv:math/0307152. doi:10.1002/cpa.20042. S2CID 1438417.
  7. ^ Nesterov, Yurii (1983). "A method of solving a convex programming problem with convergence rate ". Soviet Mathematics - Doklady. 27 (2): 372–376.
  8. ^ Nesterov, Yurii (2004). Introductory Lectures on Convex Optimization. Kluwer Academic Publisher.
  9. ^ Villa, S.; Salzo, S.; Baldassarre, L.; Verri, A. (2013). "Accelerated and inexact forward-backward algorithms". SIAM J. Optim. 23 (3): 1607–1633. CiteSeerX 10.1.1.416.3633. doi:10.1137/110844805.
  10. ^ Bach, F.; Jenatton, R.; Mairal, J.; Obozinski, Gl. (2011). "Optimization with sparsity-inducing penalties". Foundations and Trends in Machine Learning. 4 (1): 1–106. arXiv:1108.0775. Bibcode:2011arXiv1108.0775B. doi:10.1561/2200000015. S2CID 56356708.
  11. ^ Loris, I.; Bertero, M.; De Mol, C.; Zanella, R.; Zanni, L. (2009). "Accelerating gradient projection methods for -constrained signal recovery by steplength selection rules". Applied & Comp. Harmonic Analysis. 27 (2): 247–254. arXiv:0902.4424. doi:10.1016/j.acha.2009.02.003. S2CID 18093882.
  12. ^ Wright, S.J.; Nowak, R.D.; Figueiredo, M.A.T. (2009). "Sparse reconstruction by separable approximation". IEEE Trans. Image Process. 57 (7): 2479–2493. Bibcode:2009ITSP...57.2479W. CiteSeerX 10.1.1.115.9334. doi:10.1109/TSP.2009.2016892.
  13. ^ Loris, Ignace (2009). "On the performance of algorithms for the minimization of -penalized functionals". Inverse Problems. 25 (3): 035008. arXiv:0710.4082. Bibcode:2009InvPr..25c5008L. doi:10.1088/0266-5611/25/3/035008. S2CID 14213443.
  14. ^ De Mol, C.; De Vito, E.; Rosasco, L. (2009). "Elastic-net regularization in learning theory". J. Complexity. 25 (2): 201–230. arXiv:0807.3423. doi:10.1016/j.jco.2009.01.002. S2CID 7167292.
  15. ^ Yuan, M.; Lin, Y. (2006). "Model selection and estimation in regression with grouped variables". J. R. Stat. Soc. B. 68 (1): 49–67. doi:10.1111/j.1467-9868.2005.00532.x. S2CID 6162124.
  16. ^ Chen, X.; Lin, Q.; Kim, S.; Carbonell, J.G.; Xing, E.P. (2012). "Smoothing proximal gradient method for general structured sparse regression". Ann. Appl. Stat. 6 (2): 719–752. arXiv:1005.4717. doi:10.1214/11-AOAS514. S2CID 870800.
  17. ^ Mosci, S.; Villa, S.; Verri, A.; Rosasco, L. (2010). "A primal-dual algorithm for group sparse regularization with overlapping groups". NIPS. 23: 2604–2612.
  18. ^ a b Jenatton, R.; Audibert, J.-Y.; Bach, F. (2011). "Structured variable selection with sparsity-inducing norms". J. Mach. Learn. Res. 12: 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.
  19. ^ Zhao, P.; Rocha, G.; Yu, B. (2009). "The composite absolute penalties family for grouped and hierarchical variable selection". Ann. Stat. 37 (6A): 3468–3497. arXiv:0909.0411. Bibcode:2009arXiv0909.0411Z. doi:10.1214/07-AOS584. S2CID 9319285.
  20. ^ Obozinski, Guillaume; Jacob, Laurent; Vert, Jean-Philippe (2011). "Group Lasso with Overlaps: The Latent Group Lasso approach". arXiv:1110.0413 [stat.ML].
  21. ^ Villa, Silvia; Rosasco, Lorenzo; Mosci, Sofia; Verri, Alessandro (2012). "Proximal methods for the latent group lasso penalty". arXiv:1209.0368 [math.OC].