최적의 제어

Optimal control
적분 목표, 불평등 및 차등 제약이 있는 최적의 제어 문제 벤치마크(Luus).

최적제어이론은 수학적 최적화의 한 분야로 일정 기간 동안 동적 시스템에 대한 제어를 찾아 목적 함수[1]최적화하는 것을 다룬다.과학, 엔지니어링 및 운영 연구에 수많은 응용 분야를 보유하고 있습니다.예를 들어, 동적 시스템은 로켓 추진기에 해당하는 제어장치를 갖춘 우주선일 수 있으며, 목표는 최소 연료 소비로 [2]에 도달하는 것일 수 있다.또는 실업률을 최소화하기 위한 목적으로 역동적인 시스템이 국가의 경제가 될 수 있다; 이 경우 통제는 재정과 통화 정책이 [3] 있다.운용 연구 문제를 최적 제어 [4][5]이론의 프레임워크 내에 포함시키기 위해 동적 시스템도 도입될 수 있다.

최적 제어는 변동 계산의 확장이며 제어 [6]정책을 도출하기 위한 수학적 최적화 방법입니다.이 방법은 Edward J. McShane[7]변주 미적분학에 기여한 후 1950년대에 Lev Pontryagin과 Richard Bellman의 연구 덕분이다.최적 제어는 제어 [1]이론에서 제어 전략으로 볼 수 있습니다.

일반적인 방법

최적 제어는 특정 최적성 기준을 달성하기 위해 주어진 시스템에 대한 제어 법칙을 찾는 문제를 다룬다.제어문제는 상태와 제어변수함수인 비용함수를 포함한다.최적 제어는 비용 함수를 최소화하는 제어 변수의 경로를 설명하는 일련의 미분 방정식입니다.최적의 제어는 폰트랴긴의 최대 원리(폰트랴긴의 최소 원리 또는 단순히 폰트랴긴의 [8]원리로 알려진 필수 조건) 또는 해밀턴-야코비-벨만 방정식(충분한 조건)을 통해 도출할 수 있다.

간단한 예시로 시작하겠습니다.언덕길에서 직진하는 차를 생각해 보자.문제는 운전자가 총 주행 시간을 최소화하기 위해 가속 페달을 어떻게 밟아야 하는가 하는 것입니다.이 예에서 제어 법칙이란 용어는 특히 운전자가 가속 페달을 밟고 기어를 변속하는 방식을 말합니다.시스템은 차량과 도로로 구성되며, 최적성 기준은 총 이동 시간의 최소화입니다.제어 문제에는 일반적으로 보조 제약이 포함된다.예를 들어, 사용 가능한 연료의 양이 제한될 수 있고, 가속 페달을 차량 바닥을 통해 밀 수 없으며, 속도 제한 등이 있을 수 있습니다.

적절한 비용 함수는 이동 시간을 시스템의 속도, 기하학적 고려 사항 및 초기 조건의 함수로 제공하는 수학식입니다.제약조건은 종종 비용 함수와 상호 호환됩니다.

관련된 또 다른 최적 제어 문제는 차량이 일정량을 초과하지 않는 시간 내에 특정 코스를 완료해야 하는 상황에서 연료 소비를 최소화하기 위해 차량을 주행하는 방법을 찾는 것일 수 있습니다.그러나 또 다른 관련 통제 문제는 시간과 연료에 대한 가정된 통화 가격을 고려할 때 여행을 완료하기 위한 총 통화 비용을 최소화하는 것일 수 있다.

좀 더 추상적인 틀은 [1]다음과 같다.연속 시간 비용 기능 최소화

1차 동적 제약(상태 방정식)의 영향을 받는다.

대수 경로 제약

엔드포인트 조건

서 x {{ ,u( { { t {t}는 독립 (시간, t) t {0}은 , 단말 시간입니다.E E F F 각각 엔드포인트 비용과 러닝 비용이라고 불립니다.바리에이션 계산에서 E EF(F)는 각각 메이어 항과 라그랑지안 항으로 불린다.또한 경로 제약조건은 일반적인 불평등 제약조건이므로 최적 솔루션에서 활성화되지 않을 수 있다(즉, 0과 동일).또한 위에서 설명한 최적의 제어 문제는 여러 가지 해결책이 있을 수 있다(즉, 솔루션이 고유하지 않을 수 있다).따라서 최적의 제어에 대한 솔루션 ( )、 u () 、 0 f [ { \ {}^{*}( {\ {{{{}}}}}}}}}}}}}}}}}}}

선형 이차 제어

이전 절에서 설명한 일반적인 비선형 최적 관리 문제의 특별한 경우는 선형 2차(LQ) 최적 관리 문제입니다.LQ 문제는 다음과 같습니다.2차 연속 시간 비용 함수 최소화

선형 1차 동적 제약 조건 적용

초기 조건

많은 제어 시스템 문제에서 발생하는 LQ 문제의 특정 형태는 선형 2차 조절기(LQR)입니다. 서 모든 행렬(displaystyle B Q 초기 시간은 임의로 0으로 설정되며, 종단 시간은 t {\f}\}(이 마지막 가정은 무한 수평선이라고 알려져 있음)로 지정됩니다.LQR 문제는 다음과 같습니다.무한 수평 2차 연속 시간 비용 기능 최소화

선형 시간 불변 1차 동적 제약 조건 적용

초기 조건

유한수평의 경우 행렬은 Q \{QR \{R 각각 양의 반확정 및 양의 유한이라는 에서 제한된다.그러나 무한수평의 경우 Q(\ R 각각 양의 반유한 및 양의 반유한일 뿐만 아니라 상수이다.무한수평의 경우 Q{Q R{R 이러한 추가 제한은 비용 기능이 양수임을 보장하기 위해 시행된다.또한 비용 함수의 경계를 확실히 하기 위해 쌍제어 수 있도록 추가 제약이 가해진다.LQ 또는 LQR 비용 기능은 물리적으로 (2차 형식으로 측정) 제어 에너지를 최소화하려는 것으로 간주할 수 있습니다.

무한 지평선 문제(즉, LQR)는 운영자가 시스템을 0 상태로 만들고 따라서 시스템의 출력을 0으로 만든다고 가정하기 때문에 지나치게 제한적이고 본질적으로 쓸모없는 것처럼 보일 수 있습니다.이것은 정말 옳다.그러나 출력을 0이 아닌 원하는 레벨로 구동하는 문제는 0 출력 후에 해결할 수 있습니다.실제로, 이 2차 LQR 문제는 매우 간단한 방법으로 해결할 수 있다는 것을 증명할 수 있다.기존의 최적 컨트롤 이론에서는 LQ(또는 LQR) 최적 컨트롤이 피드백 형태를 갖는 것으로 나타났습니다.

서 K { 다음과 같이 주어진 적절한 차원의 매트릭스입니다.

{ 미분 리카티 방정식의 해이다.미분 리카티 방정식은 다음과 같이 주어진다.

유한 수평 LQ 문제의 경우 Riccati 방정식은 종단 경계 조건을 사용하여 시간 역방향으로 통합됩니다.

무한 수평 LQR 문제의 경우, 미분 리카티 방정식은 다음과 같이 주어진 대수 리카티 방정식(ARE)으로 대체된다.

ARE가 무한 수평 문제에서 발생한다는 것을 이해하면 A Q 모두 일정합니다.일반적으로 대수적 리카티 방정식에 대한 다중 해법이 있으며 양의 유한(또는 양의 반확정) 해법은 피드백 게인을 계산하는 데 사용된다는 사용된다.LQ(LQR) 문제는 루돌프 E.[9] 칼만에 의해 우아하게 해결되었다.

최적의 제어를 위한 수치적 방법

최적 제어 문제는 일반적으로 비선형적이므로 일반적으로 분석 솔루션이 없다(예: 선형-사차 최적 제어 문제).그 결과, 최적의 제어 문제를 해결하기 위한 수치적 방법을 사용할 필요가 있다.최적 c.제어의 초기(1950년대 - 1980년대)에 최적 제어 문제를 해결하기 위해 선호하는 접근방식은 간접적인 방법의 접근방식이었다.간접적인 방법에서는 1차 최적성 조건을 얻기 위해 변동의 미적분을 이용한다.이러한 조건에 의해, 2 포인트(복잡한 문제의 경우는 멀티 포인트)의 경계치 문제가 발생합니다.이 경계값 문제는 해밀턴의 도함수를 취함으로써 발생하기 때문에 실제로 특별한 구조를 가지고 있다.따라서, 결과적인 동적 시스템은 형태의 해밀턴 시스템이다[1].

어디에

증가된 해밀턴이며, 간접적인 방법으로 (적절한 경계 또는 횡단성 조건을 사용하여) 경계값 문제를 해결한다.간접적인 방법을 사용하는 장점은 상태 및 인접(예 \이 해결되고 결과 솔루션이 극단 궤적임을 쉽게 검증할 수 있다는 것입니다.간접법의 단점은 경계값 문제(특히 긴 시간 간격에 걸친 문제 또는 내부 점 제약 문제)를 해결하기 매우 어렵다는 것입니다.간접적인 방법을 구현하는 잘 알려진 소프트웨어 프로그램은 BNDSCO입니다.[10]

1980년대 이후 수치 최적 제어에서 두각을 나타낸 접근방식은 이른바 직접적 방법이다.직접 방법에서는 상태 또는 제어 또는 둘 다 적절한 함수 근사(예를 들어 다항식 근사 또는 공간적 상수 파라미터화)를 사용하여 근사한다.동시에 비용함수는 비용함수로 근사된다.그런 다음 함수 근사치의 계수를 최적화 변수로 처리하여 다음과 같은 형태의 비선형 최적화 문제로 문제를 "전송"합니다.

최소화

대수적 제약을 받다

사용되는 직접 방법의 유형에 따라 비선형 최적화 문제의 크기는 상당히 작을 수 있다(예: 직접 촬영 또는 준선형화 방법). 중간 정도(예: 의사 스펙트럼 최적[11] 제어) 또는 상당히 클 수 있다(예: 직접[12] 대조법).후자의 경우(즉, 코로케이션 방법)에서 비선형 최적화 문제는 문자 그대로 수천에서 수만 개의 변수와 제약조건일 수 있다.직접 방법에서 발생하는 많은 NLP의 크기를 고려할 때, 비선형 최적화 문제를 해결하는 것이 경계 값 문제를 해결하는 것보다 쉽다는 것은 다소 반직관적으로 보일 수 있다.단, NLP가 경계값 문제보다 해결이 더 쉽다는 것은 사실입니다.계산의 상대적 용이성, 특히 직접 배치 방법의 이유는 NLP가 희박하고 대규모 희박한 NLP를 해결하기 위해 많은 잘 알려진 소프트웨어 프로그램([13]: SNOPT)이 존재하기 때문이다.그 결과, 직접법으로 해결할 수 있는 문제의 범위(특히 요즘 매우 인기 있는 직접연계법)는 간접법으로 해결할 수 있는 문제의 범위보다 훨씬 넓다.사실, 직접 방법은 요즘 매우 대중화 되어 많은 사람들이 이러한 방법을 사용하는 정교한 소프트웨어 프로그램을 만들었다.특히, 그러한 프로그램에는 [14]DIRCOL,[15] SOCS,[16] OTIS, GESOP/[17]ASTOS,[18] DITAN, PyGMO/[19]PyKEP 등이 다수 포함되어 있습니다.최근에는 MATLAB 프로그래밍 언어의 등장으로 MATLAB의 최적 제어 소프트웨어가 더욱 보편화되었습니다.직접 방법을 구현하는 학문적으로 개발된 MATLAB 소프트웨어 도구의 예로는 [20]RIONT, DIDO,[21] DIRECT,[22] FALCON.m,[23] GPOPS [24]등이 있으며, 산업적으로 개발된 MATLAB 도구의 예로는 PROPT가 [25]있습니다.이러한 소프트웨어 툴은 학술 연구 및 산업 [26]문제 모두에 대해 사람들이 복잡하고 최적의 제어 문제를 탐색할 수 있는 기회를 크게 증가시켰습니다.마지막으로, TOMLAB와 같은 범용 MATLAB 최적화 환경은 코딩의 복잡한 최적 제어 문제를 C 및 FORTRAN과 같은 언어에서 이전에 가능했던 것보다 훨씬 쉽게 만들었다는 점에 주목한다.

이산 시간 최적 제어

지금까지의 예는 연속적인 시간 시스템과 제어 솔루션을 보여 주었다.실제로 최적의 제어 솔루션이 디지털 방식으로 구현되는 경우가 많아짐에 따라 현재 현대 제어 이론은 주로 개별 시간 시스템과 솔루션에 관한 입니다.일관성 있는[27][28] 근사 이론은 점점 더 정확하게 이산화된 최적의 제어 문제에 대한 해결책이 원래의 연속 시간 문제의 해결책으로 수렴되는 조건을 제공합니다.모든 이산화 방법이 이 속성을 갖는 것은 아닙니다. 명백한 [29]특성이라도 마찬가지입니다.예를 들어, 가변 스텝 사이즈 루틴을 사용하여 문제의 동적 방정식을 통합하면 솔루션에 접근할 때 0(또는 올바른 방향의 점)으로 수렴되지 않는 구배가 생성될 수 있습니다.직접적 방법인 ROWNTS는 일관성 있는 근사 이론에 기초한다.

많은 최적 제어 문제에서 일반적인 솔루션 전략은 costate(섀도 가격이라고도 함) ( ) \ style \ ( )에 해결하는 것입니다.코스트레이트는 다음 차례에 상태 변수를 확장하거나 축소하는 한계값을 한 개로 요약합니다.한계값은 다음 턴에 발생하는 이익뿐만 아니라 프로그램의 지속시간과 관련된 이익이다. ( )\ \( )이 으로 풀릴 수 있다면 좋겠지만, 보통은 해법의 특성을 직감적으로 파악할 수 있고 방정식 해결사가 수치적으로 풀 수 있는 것이 가장 좋다.

( ){ ) ( t ) \ displaystyle )의 지식을 으로 하는 turn-t 최적값은 보통 미분방정식으로 풀 수 있으며, 특히 연속시간 문제에서 제어값이나 상태 설명값을 얻는 경우는 드물다.tly. 보통 최적의 제어를 특징짓는 임계값과 영역을 풀고 수치 솔버를 사용하여 실제 선택 값을 시간 내에 분리하는 전략이 있습니다.

유한 시간

광산에서 광석을 얼마나 빨리 채취할지를 결정해야 하는 광산 소유자의 문제를 생각해 보십시오.0일부터의 광석에 대한 권리를 가지고 있다 의 광석에는 광석이 , 시간 x 양은 u로 감소한다.u 채굴합니다.광산 소유자는 ( ) /x (){ u ( )^{2} ( ) (채취속도와 남은 광석의 양의 제곱에 따라 증가하는 추출비용)로 광석을 추출하여 한 가격p {\ p에 광석을 판매합니다T {\ T에서 땅속에 남아 있는 광석은 사용할 수 없습니다.판매되지 않고 가치가 없습니다('최소값'은 없습니다).소유자는 시간할인 없이 소유 기간 수익을 극대화하기 에 따라 비율을 선택합니다

(1) 이산 시간 버전

매니저는 }(\

상태 t{\의 동작 법칙에 따릅니다.

Hamiltonian을 형성하고 다음을 구분합니다.

광산 소유자는 남은 광석의 가치를 하지 않기 때문에 T T

의 방정식을 하면 x t{\t} 및 t \ _ 시리즈에 대해 쉽게 풀 수 있습니다.

초기 및 turn-T 조건을 사용하여 x {\ x_{ 시리즈를 으로 해결할 수 있으며, 이를 통해 t{\을(를) 얻을 수 있습니다.

2. 연속시간 버전

매니저는 }(\

여기서 상태 x () { x 다음과 같이 진화합니다.

Hamiltonian을 형성하고 다음을 구분합니다.

광산 소유자는 남은 광석의 가치를 하지 않기 때문에 T T

위의 방정식을 사용하면 ( ) { u ( ) (t ){ \t ) } 를 하는 미분 방정식을 쉽게 풀 수 있습니다.

초기 및 턴T 조건을 사용하여 함수를 풀 수 있습니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ a b c d Ross, Isaac (2015). A primer on Pontryagin's principle in optimal control. San Francisco: Collegiate Publishers. ISBN 978-0-9843571-0-9. OCLC 625106088.
  2. ^ Luenberger, David G. (1979). "Optimal Control". Introduction to Dynamic Systems. New York: John Wiley & Sons. pp. 393–435. ISBN 0-471-02594-1.
  3. ^ Kamien, Morton I. (2013). Dynamic Optimization : the Calculus of Variations and Optimal Control in Economics and Management. Dover Publications. ISBN 978-1-306-39299-0. OCLC 869522905.
  4. ^ Ross, I. M.; Proulx, R. J.; Karpenko, M. (6 May 2020). "An Optimal Control Theory for the Traveling Salesman Problem and Its Variants". arXiv:2005.03186 [math.OC].
  5. ^ Ross, Isaac M.; Karpenko, Mark; Proulx, Ronald J. (1 January 2016). "A Nonsmooth Calculus for Solving Some Graph-Theoretic Control Problems**This research was sponsored by the U.S. Navy". IFAC-PapersOnLine. 10th IFAC Symposium on Nonlinear Control Systems NOLCOS 2016. 49 (18): 462–467. doi:10.1016/j.ifacol.2016.10.208. ISSN 2405-8963.
  6. ^ Sargent, R. W. H. (2000). "Optimal Control". Journal of Computational and Applied Mathematics. 124 (1–2): 361–371. Bibcode:2000JCoAM.124..361S. doi:10.1016/S0377-0427(00)00418-0.
  7. ^ Bryson, A. E. (1996). "Optimal Control—1950 to 1985". IEEE Control Systems Magazine. 16 (3): 26–33. doi:10.1109/37.506395.
  8. ^ Ross, I. M. (2009). A Primer on Pontryagin's Principle in Optimal Control. Collegiate Publishers. ISBN 978-0-9843571-0-9.
  9. ^ 칼만, 루돌프선형 필터링예측 문제에 대한 새로운 접근 방식.ASME, 기초공학저널, 82:34~45, 1960년
  10. ^ Oberle, H. J. and Grim, "최적 제어 문제의 수치적 해결을 위한 BNDSCO-A 프로그램", 비행 시스템 역학 연구소, DLR, Oberpfaffenhofen, 1989년
  11. ^ Ross, I. M.; Karpenko, M. (2012). "A Review of Pseudospectral Optimal Control: From Theory to Flight". Annual Reviews in Control. 36 (2): 182–197. doi:10.1016/j.arcontrol.2012.09.002.
  12. ^ Betts, J. T. (2010). Practical Methods for Optimal Control Using Nonlinear Programming (2nd ed.). Philadelphia, Pennsylvania: SIAM Press. ISBN 978-0-89871-688-7.
  13. ^ Gill, P.E., Murray, M. 및 Saunders, M.A., SNOPT 버전7 사용자 매뉴얼: Software for Large Scale Ninal Programming, California, University of San Diego Report, 2007년 4월 24일
  14. ^ von Stryk, O., DIRCOL 사용자 가이드 (버전 2.1): 최적 제어 문제의 수치적 해결을 위한 직접 코로케이션 방법, Fachgebiet Simulation and Systemoptimierung (SIM), Technische Universityitét Darmstadt (2000, 1999년 11월 버전)
  15. ^ Betts, J.T. and Huffman, W.P., Sparse Optimal Control Software, SOCS, Boeing Information and Support Services, 워싱턴 시애틀, 1997년 7월
  16. ^ Hargraves, C. R.; Paris, S. W. (1987). "Direct Trajectory Optimization Using Nonlinear Programming and Collocation". Journal of Guidance, Control, and Dynamics. 10 (4): 338–342. Bibcode:1987JGCD...10..338H. doi:10.2514/3.20223.
  17. ^ Gath, P.F. Well, K.H, "Direct Multiple Shooting and Collocation 조합을 이용한 여행 최적화", AIAA 2001–4047, AIAA Guidance, Navigation, and Control Conference, Montréal, Quebec, 2001–9, 2001년 8월 6일
  18. ^ 바실레 M., 베르넬리-자제라 F., 포르나사리 N., 마사라티 P, "저추진력 및 중력 보조를 결합한 행성간 및 달 탐사 설계", ESA/ESOC 연구 계약 No.14126/CS.
  19. ^ 이조, 다리오"PyGMO와 PyKEP: (행성 간 궤도 최적화의 경우) 우주 역학에서 대규모 병렬 최적화를 위한 오픈 소스 도구입니다."진행하다.제5회 국제 회의우주 역학도구와 기술, ICATT, 2012.
  20. ^ 2011년 7월 16일 Wayback Machine에 보관된 RIONs다음과 같습니다.
  21. ^ Ross, I. M., DIDO Optimal Control Toolbox의 기능 향상, arXiv 2020.https://arxiv.org/abs/2004.13112
  22. ^ 윌리엄스, P., 사용자 가이드 to DIRECT, 버전 2.00, 호주 멜버른, 2008
  23. ^ FALCON.m, M., M., Bittner, M., Grüter, B., Dipolder, J. 및 P., P., PALCON.m, 뮌헨 공과대학교, 비행 시스템 역학 연구소(Institute of Flight System Dynamics), 2019년 10월
  24. ^ 2011년 7월 24일 Wayback Machine에서 GPOPS 아카이브 완료(Rao, A. V., Benson, D. A., Huntington, G. T., Francolin, C., Darby, C. 및 Patterson, M. L. GPOPS용 사용자 매뉴얼:
  25. ^ Rutquist, P. and Edvall, M. M. PROPT MATLAB Optimal Control Software," 1260 S.E. Bishop Blvd Ste E, Pullman, WA 99163, 미국: Tomlab Optimization, Inc.
  26. ^ I.M. Ross, Computational Optimal Control, 제3회 비선형 제어 계산 문제 워크숍, 2019년 10월 8일, 캘리포니아 몬테레이
  27. ^ E. Polak, 반무한 최적화최적 제어 문제 해법에서의 일관된 근사 사용 수학.프로그 62페이지 385-415(1993)
  28. ^ Ross, I M. (1 December 2005). "A Roadmap for Optimal Control: The Right Way to Commute". Annals of the New York Academy of Sciences. 1065 (1): 210–231. Bibcode:2005NYASA1065..210R. doi:10.1196/annals.1370.015. ISSN 0077-8923. PMID 16510411. S2CID 7625851.
  29. ^ Fahroo, Fariba; Ross, I. Michael (September 2008). "Convergence of the Costates Does Not Imply Convergence of the Control". Journal of Guidance, Control, and Dynamics. 31 (5): 1492–1497. Bibcode:2008JGCD...31.1492F. doi:10.2514/1.37331. ISSN 0731-5090.

추가 정보

외부 링크