가치함수
Value function최적화 문제의 값 함수는 문제의 매개변수에 의존할 뿐, 해결책에서 객관적 함수에 의해 얻어진 값을 제공한다.[1][2]제어된 동역학 시스템에서 값 함수는 간격에 걸쳐 시스템의 최적 보상을 나타낸다.[t, t1]그때 시작했을 때t 국가 변수 x(t)=x.[3]목표함수가 최소화해야 할 일부 비용을 나타낸다면, 가치함수는 최적 프로그램을 끝내기 위한 비용으로 해석될 수 있으며, 따라서 "비용-투-go 함수"[4][5]라고 한다.객관적 함수가 보통 효용을 나타내는 경제적 맥락에서 가치 함수는 개념적으로 간접 효용 함수와 동일하다.[6][7]
최적 제어의 문제에서 값 함수는 허용 가능한 조정기 집합을 차지한 목표 함수의 우월성으로 정의된다. , )) [ 0 ,t R (t_{ [0,t_{1}]\^{에서 주어진 대표적인 최적 제어 문제는 다음과 같다.
의 대상이 되다
초기 상태 x( t )= [8]The objective function is to be maximized over all admissible controls , where is a Lebesgue measurable function from to 에 지정된 임의 집합그런 다음 값 함수를 다음과 같이 정의한다.
( t , ( ) =ϕ (x ( 1) )= ( ( ) ) 여기서 (1 ){\1})})는 스크랩 값이다.최적의 제어 및 상태 궤적 쌍이 (x , ) ( t , x 0 )= ( , x ){\ V 현재 상태 을 (를) 기준으로 최적의 ∗{\ u을(를) 제공하는 h 을 (를) 피드백 제어 정책 [4]또는 단순히 정책 기능이라고 한다.[9]
Bellman의 최적성 원칙은 대략 상태 ( ){\ t 0}\0}\}}{1 시간의 최적 정책이 "새로운" 초기 조건에 대해 최적이 되어야 한다고 명시하고 있다.만약 값 함수가 지속적으로 다를 수 있다면,[10] 이것은 해밀턴-자코비-벨만 방정식이라고 알려진 중요한 부분 미분 방정식을 발생시킨다.
여기서 오른쪽의 maximand는 해밀턴어, ) = ) + f 로 다시 쓰일 수 있다.,
비용 변수 역할을 하는with (t, )/ x= ( t) xGiven this definition, we further have , and after differentiating both sides of the HJB equation wi 에 대해
적절한 항을 교체한 후 비용 계산 방정식을 복구한다.
여기서 은 시간에 대한 파생 모델에 대한 뉴턴 표기법이다 .[12]
값 함수는 해밀턴-자코비-벨만 방정식에 대한 고유한 점도 솔루션이다.[13]온라인 폐쇄 루프에서 값 함수는 또한 폐쇄 루프 시스템의 전지구적 점증적 안정성을 설정하는 Lyapunov 함수다.[14]
참조
- ^ Fleming, Wendell H.; Rishel, Raymond W. (1975). Deterministic and Stochastic Optimal Control. New York: Springer. pp. 81–83. ISBN 0-387-90155-8.
- ^ Caputo, Michael R. (2005). Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. p. 185. ISBN 0-521-60368-4.
- ^ Weber, Thomas A. (2011). Optimal Control Theory : with Applications in Economics. Cambridge: The MIT Press. p. 82. ISBN 978-0-262-01573-8.
- ^ a b Bertsekas, Dimitri P.; Tsitsiklis, John N. (1996). Neuro-Dynamic Programming. Belmont: Athena Scientific. p. 2. ISBN 1-886529-10-8.
- ^ "EE365: Dynamic Programming" (PDF).
- ^ Mas-Colell, Andreu; Whinston, Michael D.; Green, Jerry R. (1995). Microeconomic Theory. New York: Oxford University Press. p. 964. ISBN 0-19-507340-1.
- ^ Corbae, Dean; Stinchcombe, Maxwell B.; Zeman, Juraj (2009). An Introduction to Mathematical Analysis for Economic Theory and Econometrics. Princeton University Press. p. 145. ISBN 978-0-691-11867-3.
- ^ Kamien, Morton I.; Schwartz, Nancy L. (1991). Dynamic Optimization : The Calculus of Variations and Optimal Control in Economics and Management (2nd ed.). Amsterdam: North-Holland. p. 259. ISBN 0-444-01609-0.
- ^ Ljungqvist, Lars; Sargent, Thomas J. (2018). Recursive Macroeconomic Theory (Fourth ed.). Cambridge: MIT Press. p. 106. ISBN 978-0-262-03866-9.
- ^ Benveniste and Scheinkman established sufficient conditions for the differentiability of the value function, which in turn allows the application of the envelope theorem, see Benveniste, L. M.; Scheinkman, J. A. (1979). "On the Differentiability of the Value Function in Dynamic Models of Economics". Econometrica. 47 (3): 727–732. doi:10.2307/1910417. JSTOR 1910417. Also see Seierstad, Atle (1982). "Differentiability Properties of the Optimal Value Function in Control Theory". Journal of Economic Dynamics and Control. 4: 303–310. doi:10.1016/0165-1889(82)90019-7.
- ^ Kirk, Donald E. (1970). Optimal Control Theory. Englewood Cliffs, NJ: Prentice-Hall. p. 88. ISBN 0-13-638098-0.
- ^ Zhou, X. Y. (1990). "Maximum Principle, Dynamic Programming, and their Connection in Deterministic Control". Journal of Optimization Theory and Applications. 65 (2): 363–373. doi:10.1007/BF01102352. S2CID 122333807.
- ^ 정리 10.1 in
- ^ Kamalapurkar, Rushikesh; Walters, Patrick; Rosenfeld, Joel; Dixon, Warren (2018). "Optimal Control and Lyapunov Stability". Reinforcement Learning for Optimal Feedback Control: A Lyapunov-Based Approach. Berlin: Springer. pp. 26–27. ISBN 978-3-319-78383-3.
추가 읽기
- Caputo, Michael R. (2005). "Necessary and Sufficient Conditions for Isoperimetric Problems". Foundations of Dynamic Economic Analysis : Optimal Control Theory and Applications. New York: Cambridge University Press. pp. 174–210. ISBN 0-521-60368-4.
- Clarke, Frank H.; Loewen, Philip D. (1986). "The Value Function in Optimal Control: Sensitivity, Controllability, and Time-Optimality". SIAM Journal on Control and Optimization. 24 (2): 243–263. doi:10.1137/0324014.
- LaFrance, Jeffrey T.; Barney, L. Dwayne (1991). "The Envelope Theorem in Dynamic Optimization" (PDF). Journal of Economic Dynamics and Control. 15 (2): 355–385. doi:10.1016/0165-1889(91)90018-V.
- Stengel, Robert F. (1994). "Conditions for Optimality". Optimal Control and Estimation. New York: Dover. pp. 201–222. ISBN 0-486-68200-5.