근접 정책 최적화

Proximal Policy Optimization

PPO(근위 정책 최적화)Open에서 개발된 모델 프리 강화 학습 알고리즘 제품군입니다.2017년 AI.PPO 알고리즘은 정책 그라데이션 방식입니다.즉, 상태-액션 쌍에 값을 할당하는 것이 아니라 정책 공간을 검색합니다.

PPO 알고리즘에는 Trust Region Policy Optimization(TRPO; 신뢰 지역 정책 최적화) 알고리즘의 이점이 있지만 구현이 간단하고 일반적이며 샘플 [1]복잡성이 향상됩니다.이것은 다른 [2]목적 함수를 사용하여 수행됩니다.

「 」를 참조해 주세요.

레퍼런스

  1. ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347.
  2. ^ "Proximal Policy Optimization". OpenAI. 2017.

외부 링크