바르질라이-보르와인 방법
Barzilai-Borwein methodBarzilai-Borwein 방법은[1] 가장 최근의 두 반복의 선형 추세에서 파생된 두 단계 크기 중 하나를 사용하여 제한되지 않은 최적화를 위한 반복 그레이디언트 강하 방법입니다.이 방법과 수정은 가벼운 [2][3]조건에서 전체적으로 수렴하며, 많은 [4]문제에 대해 공역 그레이디언트 방법과 경쟁적으로 수행됩니다.목적 자체에 의존하지 않고, 선형 및 비선형 방정식의 일부 시스템도 해결할 수 있습니다.
방법
볼록 함수 f: Rn → R{displaystyle f:\mathbb {R}^{n}\rightarrow \mathbb {R} 점 x에서 기울기 벡터 g{displaystyle g}를 갖는 두 개의 선행 반복이 존재하도록 하자: gk - 1 (x k - 1 )와 g (x - k - k ) k - k (k - k - 1 k - k = 1 k - k - k - k - k - k - k - k )isplaystyle x_{k}=x_{k-1}-\alpha_{k-1}g_{k-1} 여기서 α k-1 디스플레이 스타일 \alpha \alpha_{k-1}은 이전 반복의 단계 크기(반드시 바르질라이-보윈 단계 크기는 아님)이며, 간략화를 위해 Δ x = x - k - k - 1 디스플레이 스타일 \Delta x_{k_{k_1} 및 G_{k_{k_stylepha = G_{k}이다.
Barzilai-Borwein(BB) 은 k + - k k { \ _ {+ 1 = _ {이며 , 여기서 단계 k \ \_ {는 다음 중 하나입니다.
[ BB 단계] k x x x g{ x 또는
[ BB 단계] k x g g g g \ \ }^{SHORT}=⋅{\ g \ \ g
바질라이-보르와인은 또한 g:Rn → Rn ({n}) \rightarrow \mathbb {R}^{n}에 대한 g (x) = 0 ({{displaystyle g(x) = 0)의 방정식에 적용된다.
파생
단순성과 최적성 특성에도 불구하고 제약 없는 최적화를 위한 Cauchy의 고전적인 가장[5] 가파른 방법은 종종 [6]성능이 떨어집니다.이것은 많은 사람들이 공액 그라데이션 방법과 같은 대체 검색 방향을 제안하도록 동기를 부여했습니다.대신 조나단 바질라이와 조나단 보윈은 준뉴턴 방법을 근사화하여 그라디언트에 대한 새로운 단계 크기를 제안했고, 그라디언트의 두 평가 지점 사이의 유한한 차이로부터 추정된 헤시안의 스칼라 근사치를 생성했으며, 이는 가장 최근의 두 반복입니다.
준뉴턴 반복에서는
서 B B는 g g}(, displaystyle g의 야코비안 행렬의 근사치입니다.Bk Δ x k = Δ g k {\displaystyle B_{k}\Delta g_{k}=\Delta g_{k}. Barzilai와 Borwein은 일반적으로 정확하게 2차 방정식을 만족시킬 수는 없지만 1 α Δ X G로 근사하는 스칼라 1/α로 B {\displaystyle B}를 단순화한다rac x \ 두 개의 최소 제곱 기준에 의한 근사치는 다음과 .
α에 대해 /- -를 최소화하여 긴 BB 단계를 생성하거나,
α에 x - g 를 최소화하여 짧은 BB 단계를 생성합니다.
특성.
한 차원에서, 두 BB 단계 크기는 고전적인 세컨트 방법과 동일하고 동일합니다.
긴 BB 단계 크기는 선형화된 Cauchy 단계와 동일합니다. 즉, 선 검색(선형 문제의 경우에도)에 secant-method를 사용한 첫 번째 추정치입니다.짧은 BB 단계 크기는 선형화된 최소 잔차 단계와 동일합니다.BB는 다른 라인 검색 단계처럼 이전 방향 벡터 대신 다음 반복에 대한 순방향 벡터에 단계 크기를 적용합니다.
Barzilai와 Borwein은 그들의 방법이 2차원에서 2차 최소화를 위해 R-초선형으로 수렴한다는 것을 증명했습니다.Raydan은[2] 2차 문제에 대해 일반적으로 수렴을 보여줍니다.수렴은 일반적으로 단일하지 않습니다. 즉, 솔루션을 향한 성공적인 수렴을 따라 각 반복에 따라 목표 함수나 잔차 또는 기울기 크기가 반드시 감소하지 않습니다.
f f가 A({A를 갖는 2차 함수라면, 1/ LONG}는 벡터x \에 의한 AA의 레일리 계수입니다. 1/ 1/\SHORT})는 벡터 x ({\displaystyle {\{에 의한A 의 레일리 계수입니다 (서 A (에 대한 솔루션으로 A 한정된 행렬에서 더 많이.
Fletcher는[4] 계산 성능을 CG(conjougate gradient) 방법과 비교하여 선형 문제에 대해 CG 경향이 더 빠르지만 BB는 적용 가능한 CG 기반 방법에 비해 비선형 문제에 대해 종종 더 빠릅니다.
BB는x{x에 개의 요소가 있는 대규모 시스템에 적합한 낮은 스토리지 요구사항을 가지고 있습니다.
2}}) =와사이의 각도)
Raydan에 [3]의해 입증된 이후, BB는 종종 그리포, 람파리엘로, 그리고 루시디의 [7]비모노톤 보호 전략을 적용합니다.이는 목표의 상승을 어느 정도 허용하지만, 과도한 상승은 글로벌 수렴을 보장하기 위해 더 작은 단계 크기를 사용한 역추적 라인 검색을 시작합니다.Fletcher는[4] 비일조성에 대한 더 넓은 한계를 허용하는 것이 더 효율적인 수렴을 초래하는 경향이 있다는 것을 발견했습니다.
다른[8][9][10][11] 사람들은 유사한 특성을 나타내는 긴 BB 스텝 크기와 짧은 BB 스텝 크기 사이의 기하학적 평균인 스텝 크기를 식별했습니다.
레퍼런스
- ^ Barzilai, Jonathan; Borwein, Jonathan M. (1988). "Two-Point Step Size Gradient Methods". IMA Journal of Numerical Analysis. 8: 141–148. doi:10.1093/imanum/8.1.141.
- ^ a b Raydan, Marcos (1993). "On the Barzilai and Borwein choice of steplength for the gradient method". IMA Journal of Numerical Analysis. 13 (3): 321–326. doi:10.1093/imanum/13.3.321. hdl:1911/101676.
- ^ a b 레이단, M.대규모 무제한 최소화 문제에 대한 Barzilai 및 Borwein 그레이디언트 방법.SIAM 최적화 저널 7, 페이지 26-33. 1997
- ^ a b c Fletcher, R. (2005)."바르질라이-보르윈 방법에 관하여"Qi, L., Teo, K., Yang, X. (ed.)에서.애플리케이션을 통한 최적화 및 제어.적용된 최적화.제96권보스턴: 스프링거. 235-256쪽.ISBN 0-387-24254-6
- ^ A. 코시.Methode genérale pour larésolution des systemes d'équations simultanees.C. R. Acad.과학. 파리, 25:536–538, 1847.
- ^ H. Akaike, 확률 분포의 연속적인 변환과 최적 경사 방법의 분석에 대한 그것의 적용에 대해, Ann.Inst. Statistics.수학 도쿄, 11(1959), 1-17페이지
- ^ L. 그리포, F. 람파리엘로, 그리고 S.루시디, "뉴턴의 방법에 대한 비모노톤 선 탐색 기법", SIAM J. Number논설 제23권, 707-716쪽, 1986
- ^ Varadhan R, Roland C (2008).모든 전자파 알고리즘의 수렴을 가속화하기 위한 간단하고 전역적인 수렴 방법.스칸디나비아 통계학 저널, 35(2), 335-353.
- ^ Y. H. Dai, M. Al-Baali, 그리고 X.수치 분석 및 최적화에서 Yang, "긍정적인 Barzilai-Borwein과 같은 단계 크기와 대칭 선형 시스템을 위한 확장".스위스 참: 스프링어, 2015, 페이지 59-75.
- ^ Dai, Yu-Hong; Huang, Yakui; Liu, Xin-Wei (2018). "A family of spectral gradient methods for optimization". arXiv:1812.02974 [math.OC].
- ^ Shuai Huang, Zhong Wan, 매끄럽지 않은 비선형 방정식을 위한 새로운 비모노톤 스펙트럼 잔류 방법, 계산 및 응용 수학 저널 313, pp 82-101, Elsvier, 2017