시간차 학습
Temporal difference learning시리즈의 일부 |
기계 학습 및 데이터 마이닝 |
---|
![]() |
시간적 차이(TD) 학습은 가치 함수의 현재 추정치에서 부트스트랩을 통해 학습하는 모델 없는 강화 학습 방법의 클래스를 참조한다.이러한 방법은 몬테카를로 방법과 같은 환경에서 표본을 추출하여 동적 프로그래밍 [1]방법과 같은 현재 추정치에 기초하여 업데이트를 수행합니다.
몬테카를로 방법은 최종 결과가 알려진 후에만 추정치를 조정하는 반면, TD 방법은 최종 결과가 [2]알려지기 전에 미래에 대한 더 정확한 예측과 일치하도록 예측을 조정한다.다음 예시와 같이 부트스트래핑의 한 형태입니다.
"토요일의 날씨를 예측하고 싶다고 가정하면, 일주일 중 매일의 날씨를 고려해 토요일의 날씨를 예측하는 모델이 있다고 가정해 보세요.표준 케이스에서는 토요일까지 기다렸다가 모든 모델을 조정합니다.그러나 예를 들어 금요일이라면 토요일 날씨가 어떨지 잘 알고 있어야 합니다.그러면 토요일이 [2]오기 전에 토요일 모델을 변경할 수 있습니다.
시간적 차이 방법은 동물 [3][4][5][6][7]학습의 시간적 차이 모델과 관련이 있다.
수학 공식화
표 형식의 TD(0) 방식은 가장 간단한 TD 방식 중 하나입니다.이것은 보다 일반적인 확률적 근사 방법의 특별한 경우이다. \ a N \( { \ {}} a 、 {\ \ V^ { \ pi} denote 、 { t N \ displaystyle ( { t } ) ) 、 \ mathbbb R ) \ 및 }" ({displaystyle \ :
편의상 표기법에서 동작을 삭제합니다. {\ V}}: 해밀턴-야코비-벨만 방정식을 충족합니다.
r 0+ V ){ V })는 V 에 편향되지 않은 추정치입니다.이 관찰에 의해 V for V를 추정하기 위한 다음 알고리즘이 생성됩니다.
알고리즘은 표 ( )\ V를 임의로 초기화하여 시작합니다. MDP의 각 상태에 대해 하나의 값을 지정합니다. 양의 })가 선택됩니다.
그런 다음 정책 를 반복 평가하여 r\ r을 얻고 규칙을 사용하여 [9]이전 상태의 값 함수를 업데이트합니다.
서 s s와 s s는 각각 이전 상태와 새로운 상태입니다.r + V ( ){ r + \ ( s) }는 TD 타깃이라고 불립니다.
TD-Lambda
TD-Lambda는 Richard S에 의해 발명된 학습 알고리즘입니다. 서튼은 Arthur [1]Samuel의 시간적 차이 학습에 대한 초기 연구를 기반으로 합니다.이 알고리즘은 Gerald Tesauro가 TD-Gammon을 만들기 위해 적용한 것으로 잘 알려져 있습니다.TD-Gammon은 숙련된 인간 [10]플레이어 수준의 백개먼 게임을 하는 방법을 배운 프로그램입니다.
lambda 파라미터는 트레이스 붕괴 파라미터로 01 { 0 1을 참조합니다.설정이 높을수록 트레이스가 오래 지속됩니다.즉, 보상의 크레딧이 더 멀리 있는 상태 및 에 더 큰 비중을 부여할 수 }은(는) 더 높으며, θ { \displayda}은(는) 몬테카를로 RL 알고리즘에 대한 병렬 학습을 생성한다
신경과학 TD 알고리즘
TD 알고리즘은 신경과학 분야에서도 주목을 받고 있다.연구진은 복부피질영역(VTA)과 실체니그라(SNC)에서 도파민 뉴런의 발화 속도가 알고리즘의 [3][4][5][6][7]오류 기능을 모방하는 것으로 보인다는 것을 발견했다.오류 함수는 주어진 상태 또는 시간 단계에서 예상 보상과 실제 받은 보상 간의 차이를 보고합니다.오차 함수가 클수록 기대 보상과 실제 보상 간의 차이가 커집니다.이것이 미래의 보상을 정확하게 반영하는 자극과 짝을 이룰 때, 오차는 자극을 미래의 보상과 연관짓는 데 사용될 수 있다.
도파민 세포도 비슷한 행동을 하는 것으로 보인다.한 실험에서 도파민 세포의 측정은 원숭이가 자극을 [11]주스의 보상과 연관시키도록 훈련하는 동안 이루어졌다.처음에 도파민 세포는 원숭이가 주스를 받았을 때 발화 속도를 증가시켜 예상 보상과 실제 보상에서 차이를 보였다.시간이 지남에 따라 이러한 반격의 증가는 보상을 위한 가장 초기의 믿을만한 자극으로 전파되었다.일단 원숭이가 완전히 훈련되면, 예측된 보상을 제시해도 발사율이 증가하지 않았다.그 후, 도파민 세포의 발화율은 기대한 보상이 만들어지지 않았을 때 정상 활성화 이하로 떨어졌다.이는 TD의 오류 함수가 강화 학습에 어떻게 사용되는지 매우 유사하다.
모델과 잠재적 신경 기능 사이의 관계는 TD를 사용하여 행동 [12][13]연구의 많은 측면을 설명하려는 연구를 만들어냈다.그것은 또한 정신분열증이나 도파민의 약리학적 [14]조작이 학습에 미치는 영향을 연구하는 데 사용되어 왔다.
「 」를 참조해 주세요.
메모들
- ^ a b Richard Sutton & Andrew Barto (1998). Reinforcement Learning. MIT Press. ISBN 978-0-585-02445-5. Archived from the original on 2017-03-30.
- ^ a b Richard Sutton (1988). "Learning to predict by the methods of temporal differences". Machine Learning. 3 (1): 9–44. doi:10.1007/BF00115009. (개정판은 Richard Sutton의 출판 페이지 Archived 2017-03-30 at the Wayback Machine에서 이용 가능)
- ^ a b Schultz, W, Dayan, P & Montague, PR. (1997). "A neural substrate of prediction and reward". Science. 275 (5306): 1593–1599. CiteSeerX 10.1.1.133.6176. doi:10.1126/science.275.5306.1593. PMID 9054347.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ a b Montague, P. R.; Dayan, P.; Sejnowski, T. J. (1996-03-01). "A framework for mesencephalic dopamine systems based on predictive Hebbian learning" (PDF). The Journal of Neuroscience. 16 (5): 1936–1947. doi:10.1523/JNEUROSCI.16-05-01936.1996. ISSN 0270-6474. PMC 6578666. PMID 8774460.
- ^ a b Montague, P.R.; Dayan, P.; Nowlan, S.J.; Pouget, A.; Sejnowski, T.J. (1993). "Using aperiodic reinforcement for directed self-organization" (PDF). Advances in Neural Information Processing Systems. 5: 969–976.
- ^ a b Montague, P. R.; Sejnowski, T. J. (1994). "The predictive brain: temporal coincidence and temporal order in synaptic learning mechanisms". Learning & Memory. 1 (1): 1–33. ISSN 1072-0502. PMID 10467583.
- ^ a b Sejnowski, T.J.; Dayan, P.; Montague, P.R. (1995). "Predictive hebbian learning". Proceedings of Eighth ACM Conference on Computational Learning Theory: 15–18. doi:10.1145/225298.225300. ISBN 0897917235.
- ^ 할인율 매개변수를 통해 보다 즉각적인 보상을 선호하고 먼 미래의 보상을 멀리할 수 있습니다.
- ^ Reinforcement learning: An introduction (PDF). p. 130. Archived from the original (PDF) on 2017-07-12.
- ^ Tesauro, Gerald (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343. Retrieved 2010-02-08.
- ^ Schultz, W. (1998). "Predictive reward signal of dopamine neurons". Journal of Neurophysiology. 80 (1): 1–27. CiteSeerX 10.1.1.408.5994. doi:10.1152/jn.1998.80.1.1. PMID 9658025.
- ^ Dayan, P. (2001). "Motivated reinforcement learning" (PDF). Advances in Neural Information Processing Systems. MIT Press. 14: 11–18.
- ^ Tobia, M. J., etc. (2016). "Altered behavioral and neural responsiveness to counterfactual gains in the elderly". Cognitive, Affective, & Behavioral Neuroscience volume. 16: 457–472.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - ^ Smith, A., Li, M., Becker, S. and Kapur, S. (2006). "Dopamine, prediction error, and associative learning: a model-based account". Network: Computation in Neural Systems. 17 (1): 61–84. doi:10.1080/09548980500361624. PMID 16613795.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크)
참고 문헌
- Sutton, R.S., Barto A.G. (1990). "Time Derivative Models of Pavlovian Reinforcement" (PDF). Learning and Computational Neuroscience: Foundations of Adaptive Networks: 497–537.
{{cite journal}}
: CS1 maint: 여러 이름: 작성자 목록(링크) - Gerald Tesauro (March 1995). "Temporal Difference Learning and TD-Gammon". Communications of the ACM. 38 (3): 58–68. doi:10.1145/203330.203343.
- 임란 고리.보드 게임에서의 강화 학습.
- S. P. Meyn, 2007.Cambridge University Press, 2007, Control Technologies for Complex Networks(복합 네트워크를 위한 제어 기법)마지막 장과 요약된 Meyn & Tweedie 부록을 참조하십시오.
외부 링크
- Scholarpedia 시간적 차이 학습
- TD가몬
- TD-Networks 리서치 그룹
- TDGravity 애플릿 4개 연결(+휴대전화 버전)– TD-Leaf 방식으로 자체 학습(TD-Lambda와 얕은 나무 검색 조합)
- Self Learning Meta-Tic-Tac-Toe 간단한 보드 게임을 하는 미니맥스 AI의 상태 평가 상수를 학습하기 위해 시간적 차이 학습을 사용하는 방법을 보여주는 웹 앱 예.
- 시간 차이 학습을 사용하여 Q-러닝을 가속화하는 방법을 설명하는 문서인 강화 학습 문제
- TD-시뮬레이터 표준 조건화를 위한 시간차 시뮬레이터