Oracle 복잡성(최적화)

수학적 최적화에서 오라클 복잡성은 최적화 문제의 클래스를 풀기 위한 계산적 요구사항을 연구하기 위한 표준 이론적 프레임워크다.다양한 지점(함수의 값, 구배, 헤시안 등)에서 객관적인 기능에 대한 현지 정보를 계산하여 진행하는 반복 알고리즘 분석에 적합하다.이 프레임워크는 몇 가지 중요한 최적화 문제 등급에 대해 필요한 반복 횟수에 대한 엄격한 최악의 경우 보증을 제공하기 위해 사용되어 왔다.

형식 설명

Consider the problem of minimizing some objective function $f:{\mathcal {X}}\rightarrow \mathbb {R}$ (over some domain ${\mathcal {X}}$ ), where $f$ is known to belong to some family of functions ${\mathcal {F}}$ . Rather than direct ${\mathcal {f}}$ ${\$ $mathcal$ ${f}$ 에 대한 액세스 ${\mathcal {f}}$ 알고리즘이 Oracle ${\mathcal {O}}$ ${\\$ 을 $($ 를) 통해 $f$ f ${\$ 에 대한 정보를 얻을 수 있다고 가정하며 ${\mathcal {X}}$ 이 $\mathbf {x}$ 는 ${\mathcal {X}}$ ${\$ 에서 $\mathbf {x}$ 반환된다. $\mathbf {x}$ ${\$ 부근에 $있는$ ${\displaystyle \$ mathbf {x} {x $\mathbf {x}$ {1} 알고리즘은 어떤 초기화 지점 $\mathbf {x} _{1}$ 1 ${\$ { $x}$ $\mathbf {x} _{1}$ $_{1$ }에서 시작하여 Oracle이 제공한 정보를 사용하여 다음 지점 $\mathbf {x} _{2}$ $\mathbf {x} _{2}$ ${\\$ now를 선택한다 $\mathbf {x} _{2}$ 다음 지점 $\mathbf {x} _{3}$ $\mathbf {x} _{3}$ ${\$ 등을 선택하려면 on.

$구체적$ 인 예를 들면, X ${\mathcal {X}}=\mathbb {R} ^{d}$ = R ${\mathcal {X}}=\mathbb {R} ^{d}$ ${\$ 디스플레이 스타일 ${\mathcal {X}=\mathb {R}^{d}($ $d$ ${\displaystyled}$ -차원 $d$ $유클리드$ 공간)로, 어느 $\mathbf {x} _{1}$ 에서 초기화되어 $\mathbf {x} _{1}$ $\mathbf {x} _{1}$ 재귀 방정식을 통해 $진행$ 되는 그라데이션 강하 알고리즘을 고려해보자 $.$

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

+

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

=

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

-

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

(

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

\mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \nabla f(\mathbf {x} _{t})

)

{\displaystyle \mathbf {x} _{t+1}=\mathbf {x} _{t}-\eta \mathla

f

(\mathbf

{

x} _{t})

,

여기서 $\eta$ $\eta$ 은 $\eta$ (는) 일부 단계 크기 매개 변수다.위의 프레임워크에서 이 $\mathbf {x_{t}}$ 을 모델링할 수 있으며, 여기서 x $\mathbf {x_{t}}$ ${\$ $\nabla f(\mathbf {x_{t}} )$ ${x_{t}}$ 이( $)$ 주어진 경우 $,$ 오라클은 다음 $\mathbf {x_{t+1}}$ x $\mathbf {x_{t+1}}$ + $\mathbf {x_{t+1}}$ + ${\$ $\nabla f(\mathbf {x_{t}} )$ { $x_{t$ 을(를) 선택할 때 사용되는 그라데이션 $\nabla f(\mathbf {x_{t}} )$ $\mathbf {x_{t+1}}$ ∇)를 반환한다.

이 프레임워크에서는 기능 ${\mathcal {F}}$ F ${\$ 과 ${\mathcal {F}}$ $($ Oracle O {\ $displaystyle$ {\ $mathcal {O}$ 의 각 선택에 대해 몇 번의 Oracle 호출/이 필요한지 연구하여 일부 최적화 기준을 보장할 수 있다 ${\mathcal {O}}$ 예를 들어 알고리즘이 포인트 $\mathbf {x} _{T}$ $\mathbf {x} _{T}$ ${\$ 을 생성하는지 확인). $athbf {x} _{T}}$ such that $f(\mathbf {x} _{T})-\inf _{\mathbf {x} \in {\mathcal {X}}}f(\mathbf {x} )\leq \epsilon$ for some $\epsilon >0$ ).이는 이러한 최적화 문제의 종류에 따른 Oracle 복잡성으로 알려져 있다. 즉, 한 편으로는 성공하기 위해 이 많은 반복만 필요로 하는 알고리즘이 ${\mathcal {F}}$ (F ${\mathcal {F}}$ {\ $displaystyle {\mathcal$ { $F}$ 의 어떤 기능에 대해서는) 다른 한편에서는 어떤 알고리즘도 성공시킬 수 없다는 증거가 있다. ${\mathcal {F}}$ ${\mathcal {F}}$ ${\$ 의 모든 기능에 대해 균일하게 적은 반복으로 진행 ${\mathcal {F}}$

Oracle 복잡성 접근법은 튜링 기계에 의존하여 알고리즘을 모델링하는 계산 복잡성 이론과는 본질적으로 다르며, 알고리즘의 입력(이 경우 함수 $f$ ${\displaystyle f$ 을 메모리에 있는 약간의 문자열로 나타내도록 요구한다.대신 알고리즘은 계산적으로 제약되지 않지만, 함수 $f$ $f$ 에 대한 접근은 제약된 것으로 가정한다 $f$ .즉, Oracle 복잡성 결과는 계산 복잡성 이론에서와 같이 어떤 알고리즘이 아닌 특정 방식으로 기능에 접근하는 특정 알고리즘 제품군에만 적용된다는 것을 의미한다.한편, 그 결과는 실제에 사용되는 모든 반복 알고리즘은 아닐지라도 대부분에 적용되며, 입증되지 않은 가정에 의존하지 않으며, 알고리즘에 의해 사용되는 기능의 기하학적 구조와 정보의 유형이 실제 성능에 어떻게 영향을 미치는지에 대한 미묘한 이해로 이어진다.

공통 설정

Oracle 복잡성은 최적화 기준, 함수 ${\mathcal {F}}$ F ${\$ 및 Oracle ${\mathcal {O}}$ 유형 ${\$ 에 따라 상당히 다른 설정에 적용되었다 ${\mathcal {O}}$

최적화 기준의 면에서는 단연코 가장 공통적인 하나, 즉 몇몇 작은ϵ하기 위한∈ Xf())≤ ϵ{\displaystyle f(\mathbf{x}_{T})-\inf_{\mathbf{)}\in{{X\mathcal}}}f(\mathbf{x})\leq \epsilon};0{\displaystyle \epsilon>0}f()T)− inf를 만들고.near-optimal 점 일부 다른 c를 찾는 것이다riteri $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ 대략적인 역점 찾기( or $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ ‖ $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ f $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ ( $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ ) $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ { { { { { { { $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ \ $displaystyle \nabla f(\mathbf {x} _{T}\leq \epsilon })$ $\|\nabla f(\mathbf {x} _{T})\|\leq \epsilon$ 또는 대략적인 국소 미니마 찾기.

연구된 ${\mathcal {F}}$ 기능 클래스 ${\mathcal {F}}$ ${\$ {\ $mathcal {F}$ 이(가) 많다.일부 일반적인 선택에는 볼록 대 강 콘벡스 대 비 콘벡스 함수, 매끄러운 대 비 매끄러운 함수(예를 들어 그라데이션 또는 고차 파생상품의 립스키츠 특성의 관점에서), 경계 $치수$ d ${\displaysty d$ 무한 치수가 있는 도메인 및 서로 다른 프로의 두 개 이상의 함수의 합이 포함된다.퍼티,

Oracle ${\mathcal {O}}$ ${\$ 의 관점에서 $\mathbf {x}$ x ${\$ $displaystyle \mathbf {x$ 에 있는 함수 값과 $\mathbf {x}$ 모델 $($ 예: 값, 값만, 값 및 기울기, 헤시안 등)을 반환한다고 가정하는 것이 일반적이다.때때로, 사람들은 더 복잡한 이야기를 공부한다.예를 들어, 확률적 신탁은 어떤 무작위 노이즈에 의해 손상된 값과 파생상품을 반환하며 확률적 최적화 방법을 연구하는데 유용하다.^[1]Another example is a proximal oracle, which given a point $\mathbf {x}$ and a parameter $\gamma$ , returns the point $\mathbf {y}$ minimizing $f(\mathbf {y} )+\gamma \ \mathbf {y} -\mathbf {x} \ ^{2}$ .

Oracle 복잡성 결과의 예

다음은 몇 가지 알려진 Oracle 복잡성 결과(숫자 상수까지)로, 일부 소규모 $\mathbb {R} ^{d}$ $\epsilon$ 에 대한 $\epsilon$ 최적화 오류 $\epsilon$ ${\$ $displaystyle \$ $epsilon$ $},$ 도메인 R d ${\$ 을({\d) 통해 $d$ ${\displaystystyled}$ 이 $\mathbb {R} ^{d}$ 고정되지 $d$ 않으며 중재될 수 있음상당히 크다(별도로 명시되지 않은 경우).We also assume that the initialization point $\mathbf {x} _{1}$ satisfies $\ \mathbf {x} _{1}-\mathbf {x} ^{*}\ \leq B$ for some parameter $B$ , where $\mathbf {x} ^{*}$ is some global minimizer of the objective 함수

함수 클래스	오라클	Oracle 복잡성
볼록, $L$ $L$ -lipschitz $L$ , 고정 $치수$ d $d$	값 + 그라데이션	$d\log(LB/\epsilon )$ ^[2]
$볼록스$ , L $L$ - 리프시츠 $L$	값 + 그라데이션	${\displaystyle(LB/\epsilon )^{2}}$ ^[2]
볼록, $[\displaystyle \mu }$ - Lipschitz $\mu$ 그라데이션	값 + 그라데이션	${\sqrt {\mu B^{2}/\엡실론}}$ ^[2]
$\lambda$ $\lambda$ -강력 $\lambda$ 볼록, $[\displaystyle \mu }$ -lipschitz $\mu$ gradient	값 + 그라데이션	${\sqrt {\mu /\lambda }}\cdot \log(B^{2}/\epsilon )$ ^[2]
볼록스, $[\displaystyle \mu }$ - 리프시츠 $\mu$ 헤시안	값 + 구배 + 헤시안	${\displaystyle(\mu B^{3}/\epsilon )^{2/7}$ ^[3]
$\lambda$ $\lambda$ -강력 $\lambda$ 볼록, $[\displaystyle \mu }$ -Lipschitz $\mu$ Hessian	값 + 구배 + 헤시안	$(\mu B/\lambda )^{2/7}+\log(\lambda ^{3}/\mu ^{2}\epsilon )$ ^[3]

참조

^ Agarwal, Alekh; Bartlett, Peter; Ravikumar, Pradeep; Wainwright, Martin (May 2012). "Information-Theoretic Lower Bounds on the Oracle Complexity of Stochastic Convex Optimization". IEEE Transactions on Information Theory. 58 (5): 3235–3249. arXiv:1009.0571. doi:10.1109/TIT.2011.2182178. S2CID 728066.
^ ^a ^b ^c ^d Nesterov, Yurii (2018). Lectures on Convex Optimization. Springer. ISBN 978-3-319-91578-4.
^ ^a ^b Arjevani, Yossi; Shamir, Ohad; Shiff, Ron (28 May 2018). "Oracle complexity of second-order methods for smooth convex optimization". Mathematical Programming. 178 (1–2): 327–360. arXiv:1705.07260. doi:10.1007/s10107-018-1293-1. S2CID 28260226.

추가 읽기

Nemirovski, Arkadi; Yudin, David (1983). Problem Complexity and Method Efficiency in Optimization. John Wiley and Sons.

Nemirovski, Arkadi (1994). "Information-Based Complexity of Convex Programming (lecture notes)" (PDF). Retrieved 14 June 2020.

Bubeck, Sébastien (2015). "Convex Optimization: Algorithms and Complexity". Foundations and Trends in Machine Learning. 8 (3–4): 231–357. arXiv:1405.4980. doi:10.1561/2200000050.

[1] Agarwal, Alekh; Bartlett, Peter; Ravikumar, Pradeep; Wainwright, Martin (May 2012). "Information-Theoretic Lower Bounds on the Oracle Complexity of Stochastic Convex Optimization". IEEE Transactions on Information Theory. 58 (5): 3235–3249. arXiv:1009.0571. doi:10.1109/TIT.2011.2182178. S2CID 728066.

[nesterov-2] Nesterov, Yurii (2018). Lectures on Convex Optimization. Springer. ISBN 978-3-319-91578-4.

[shiff-3] Arjevani, Yossi; Shamir, Ohad; Shiff, Ron (28 May 2018). "Oracle complexity of second-order methods for smooth convex optimization". Mathematical Programming. 178 (1–2): 327–360. arXiv:1705.07260. doi:10.1007/s10107-018-1293-1. S2CID 28260226.

[1]

[2]

[3]

Search

Oracle 복잡성(최적화)

네임스페이스

더

목차

형식 설명

공통 설정

Oracle 복잡성 결과의 예

참조

추가 읽기