무모델(강화학습)
Model-free (reinforcement learning)시리즈의 일부 |
기계학습 및 데이터 마이닝 |
---|
![]() |
강화 학습(RL)에서 (모델 기반 알고리즘과 반대로) 모델 없는 알고리즘은 RL에서 해결해야 할 문제를 나타내는 마르코프 결정 프로세스(MDP)와 관련된 전이 확률 분포(및 보상 함수)를 추정하지 않는 알고리즘입니다.[1]전이 확률 분포(또는 전이 모델)와 보상 함수는 종종 환경(또는 MDP)의 "모델"로 통칭되므로 "모델 프리"라는 이름이 붙습니다.모델이 없는 RL 알고리즘은 "명시적" 시행착오 알고리즘으로 생각할 수 있습니다.[1]모델 프리 알고리즘의 대표적인 예로는 몬테카를로 RL, Sarsa, Q-러닝 등이 있습니다.
모델 없는 강화 학습에서 몬테카를로(MC) 추정은 모델 없는 알고리듬의 대규모 클래스의 중심 구성 요소입니다.MC 학습 알고리즘은 본질적으로 정책 평가(PEV)와 정책 개선(PIM)이라는 두 단계가 주기적으로 번갈아가며 수행되는 일반화된 정책 반복의 중요한 분기입니다. 이 프레임워크에서 각 정책은 먼저 해당 가치 함수에 의해 평가됩니다.그런 다음 평가 결과를 바탕으로 그리디 검색을 완료하여 더 나은 정책을 출력합니다.MC 추정은 주로 첫 번째 단계, 즉 정책 평가에 적용됩니다.가장 간단한 아이디어, 즉 수집된 모든 샘플의 평균 수익률은 현재 정책의 효과를 판단하는 데 사용됩니다.더 많은 경험이 축적되면, 추정치는 큰 수의 법칙에 의해 참값으로 수렴될 것입니다.따라서 MC 정책 평가에는 환경 역학에 대한 사전 지식이 필요하지 않습니다.대신 필요한 것은 실제 환경과의 상호 작용에서 발생하는 상태, 행동 및 보상의 샘플과 같은 경험입니다.
값 함수의 추정은 모델이 없는 RL 알고리즘에 중요합니다.시간차(TD) 방식은 몬테카를로(MC) 방식과 달리 기존 값 추정치를 재사용해 값 함수를 학습합니다.하나의 아이디어를 강화 학습의 중심적이고 새로운 것으로 식별해야 한다면, 그것은 의심할 여지 없이 시간적 차이일 것입니다.TD는 최종 결과를 기다리지 않고 불완전한 일련의 사건들로부터 배울 수 있는 능력을 가지고 있습니다.TD는 현재 상태의 함수로 미래 수익을 근사화하는 기능을 가지고 있습니다.MC와 마찬가지로 TD는 환경 역학에 대한 사전 지식 없이 가치 함수를 추정하는 데만 경험을 사용합니다.TD의 장점은 현재 추정치를 기반으로 가치 함수를 업데이트할 수 있다는 점에 있습니다.따라서 TD 학습 알고리즘은 불완전한 에피소드나 계속되는 작업에서 단계별로 학습할 수 있는 반면, MC는 에피소드별로 구현되어야 합니다.
모델 프리 강화 학습 알고리즘
모델 없는 강화 학습 알고리즘은 빈 정책 후보에서 시작하여 아타리 게임, 스타크래프트 및 중국 바둑을 포함한 많은 복잡한 작업에서 초인적인 성능을 달성할 수 있습니다.딥 뉴럴 네트워크는 최근의 인공 지능 혁신을 담당하며, 딥마인드의 알파고와 같은 놀라운 것을 만들기 위해 강화 학습과 결합될 수 있습니다.메인스트림 모델이 없는 RL 알고리즘에는 DQN(Deep Q-Network), Dueling DQN(Double DQN), DQN(Double DQN), Trust Region Policy Optimization(TRPO), Proximal Policy Optimization(PPO), 비동기식 어드밴티지 액터-크리틱(A3C), DDPG(Deep Deconomistic Policy Gradient), Twin Delayed DDPG(TD3), SAC(Soft Actor-Critic),DSAC(Distributive Soft Actor-Critic) 등 일부 모델 없는 알고리즘, 특히 딥러닝이 있는 알고리즘은 다음과 같습니다.
알고리즘. | 묘사 | 모형 | 정책. | 액션 스페이스 | 스테이트 스페이스 | 교환입니다. |
---|---|---|---|---|---|---|
DQN | 딥큐 네트워크 | 모델 프리 | 오프 정책 | 이산형 | 계속되는 | Q-value |
DDPG | 심층 결정론적 정책 그래디언트 | 모델 프리 | 오프 정책 | 계속되는 | 계속되는 | Q-value |
A3C | 비동기 어드밴티지 행위자-비판적 알고리즘 | 모델 프리 | 온-폴리시 | 계속되는 | 계속되는 | 장점 |
TRPO | 신뢰 영역 정책 최적화 | 모델 프리 | 온-폴리시 | 연속형 또는 이산형 | 계속되는 | 장점 |
PPO | 근위 정책 최적화 | 모델 프리 | 온-폴리시 | 연속형 또는 이산형 | 계속되는 | 장점 |
TD3 | 트윈 지연 심층 결정론적 정책 그래디언트 | 모델 프리 | 오프 정책 | 계속되는 | 계속되는 | Q-value |
SAC | 부드러운 배우-평론가 | 모델 프리 | 오프 정책 | 계속되는 | 계속되는 | 장점 |
DSAC | 배급 소프트 배우-평론가 | 무모델 | 오프 정책 | 계속되는 | 계속되는 | 가치분포 |
참고문헌
- ^ a b Sutton, Richard S.; Barto, Andrew G. (November 13, 2018). Reinforcement Learning: An Introduction (PDF) (Second ed.). A Bradford Book. p. 552. ISBN 0262039249. Retrieved 18 February 2019.
- ^ a b c Li, Shengbo Eben (2023). Reinforcement Learning for Sequential Decision and Optimal Control (First ed.). Springer Verlag, Singapore. pp. 1–460. doi:10.1007/978-981-19-7784-8. ISBN 978-9-811-97783-1. S2CID 257928563.
{{cite book}}
: CS1 maint: 위치 누락 게시자(링크)