근접 정책 최적화
Proximal Policy Optimization시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
PPO(근위 정책 최적화)는 Open에서 개발된 모델 프리 강화 학습 알고리즘 제품군입니다.2017년 AI.PPO 알고리즘은 정책 그라데이션 방식입니다.즉, 상태-액션 쌍에 값을 할당하는 것이 아니라 정책 공간을 검색합니다.
PPO 알고리즘에는 Trust Region Policy Optimization(TRPO; 신뢰 지역 정책 최적화) 알고리즘의 이점이 있지만 구현이 간단하고 일반적이며 샘플 [1]복잡성이 향상됩니다.이것은 다른 [2]목적 함수를 사용하여 수행됩니다.
「 」를 참조해 주세요.
레퍼런스
- ^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347.
- ^ "Proximal Policy Optimization". OpenAI. 2017.