강화 학습

강화학습(RL)은 지능형 에이전트가 누적 보상의 개념을 극대화하기 위해 환경에서 어떻게 행동해야 하는지에 관한 기계학습 영역입니다.강화 학습은 지도 학습과 비지도 학습과 함께 세 가지 기본 기계 학습 패러다임 중 하나이다.

강화 학습은 라벨이 부착된 입력/출력 쌍을 제시할 필요가 없고 차선의 조치를 명시적으로 수정할 필요가 없다는 점에서 감독 학습과 다르다.대신 (미지의 영역에 대한) 탐험과 (현재의 ^[1]지식에 대한) 착취 사이의 균형을 찾는 데 초점을 맞추고 있습니다.부분적으로 감독되는 RL 알고리즘은 감독되는 알고리즘과 ^[2]RL 알고리즘의 장점을 결합할 수 있다.

환경은 일반적으로 마르코프 의사결정 과정(MDP)의 형태로 명시되는데, 이는 이 컨텍스트에 대한 많은 강화 학습 알고리즘이 동적 프로그래밍 ^[3]기법을 사용하기 때문이다.기존의 동적 프로그래밍 방법과 강화 학습 알고리즘의 주요 차이점은 후자는 MDP의 정확한 수학적 모델에 대한 지식을 가정하지 않고 정확한 방법이 불가능해지는 대규모 MDP를 대상으로 한다는 것이다.

서론

강화 학습(RL) 시나리오의 전형적인 프레임: 에이전트는 환경에서 액션을 수행합니다.이것은 보상과 상태를 나타내는 것으로 해석되어 에이전트에게 피드백됩니다.

그 보편성 때문에 강화 학습은 게임 이론, 제어 이론, 운영 연구, 정보 이론, 시뮬레이션 기반 최적화, 다중 에이전트 시스템, 군집 지능 및 통계와 같은 많은 분야에서 연구됩니다.운영 연구 및 제어 문헌에서 강화 학습은 근사 동적 프로그래밍 또는 신경 동적 프로그래밍이라고 합니다.강화 학습에 대한 관심 문제는 최적 제어 이론에서도 연구되었으며, 최적 솔루션의 존재와 특성화, 정확한 계산을 위한 알고리즘과 관련이 있으며, 특히 환경의 수학적 모델이 없는 경우 학습 또는 근사와 관련이 적다.경제와 게임 이론에서, 강화 학습은 어떻게 균형이 제한된 합리성 하에서 발생할 수 있는지를 설명하기 위해 사용될 수 있다.

기본 강화 학습은 마르코프 의사결정 과정(MDP)으로 모델링된다.

일련의 환경 및 에이전트 상태, $S$ ;
에이전트의 일련의 $액션$ A;
$P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ a $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ ( $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ , s $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ ) $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ ( $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ + $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ s $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ s $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ s $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ , $P_{a}(s,s')=\Pr(s_{t+1}=s'\mid s_{t}=s,a_{t}=a)$ ) { $displaystyle P_{a$ } ( $s$ , s , s ' ) $=$ \ $Pr$ ( $s$ _ { $t$ + 1 } $=$ s ' \ mid $s$ _ { $t$ } $= s$ , $a$ } $t$ $is$ is is is 、 t、 t 。
$R_{a}(s,s')$ is the immediate reward after transition from $s$ to $s'$ with action $a$ .

강화 학습의 목적은 에이전트가 "보상 기능" 또는 즉각적인 보상으로부터 축적되는 기타 사용자 제공 강화 신호를 최대화하는 최적 또는 거의 최적에 가까운 정책을 학습하는 것입니다.이것은 동물 심리학에서 일어나는 것으로 보이는 과정과 유사하다.예를 들어, 생물학적 뇌는 고통과 배고픔과 같은 신호를 부정적인 강화로 해석하고 기쁨과 음식 섭취를 긍정적인 강화로 해석하도록 유선 연결되어 있습니다.어떤 상황에서는 동물들이 이러한 보상을 최적화하는 행동에 참여하는 것을 배울 수 있다.이것은 동물들이 ^[4]^[5]학습을 강화할 수 있다는 것을 암시한다.

기본 강화 학습 에이전트 AI는 분리된 시간 단계로 환경과 상호작용합니다. $그때$ 마다 에이전트는 현재 $s_{t}$ ${$ 및 $s_{t}$ $r_{t}$ r ${$ 를 수신하고 사용 가능한 액션 세트에서 t ${$ 의 $a_{t}$ $a_{t}$ 을 선택한 후 환경으로 전송됩니다.환경이 새로운 $s_{t+1}$ $s_{t+1}$ + $({$ 로 $s_{t+1}$ 이행하고 $(s_{t},a_{t},s_{t+1})$ 이행과 관련된 $r_{t+1}$ $r_{t+1}$ r $r_{t+1}$ + $r_{t+1}$ ({ $displaystyle r_$ ${t+1$ $})$ 이 결정됩니다 $(s_{t},a_{t},s_{t+1})$ ( $s t,$ + $).$ $\pi :A\times S\rightarrow [0,1]$ 학습 에이전트의 목표는 $\pi :A\times S\rightarrow [0,1]$ : $\pi :A\times S\rightarrow [0,1]$ × $\pi :A\times S\rightarrow [0,1]$ $\pi :A\times S\rightarrow [0,1]$ [ $\pi :A\times S\rightarrow [0,1]$ , $]$ \ $displaystyle \pi :$ $A\times$ S $\rightarrow [0,$ $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ $\pi :A\times S\rightarrow [0,1]$ , $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ ( $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ , $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ ) $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ ( $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ $=$ $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ s $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ $){$ $style \pi ( a$ , s )= \ $Pr ( a$ _ { t } $= a$ \ $mid$ s _ { t $}$ } 。이는 $\pi (a,s)=\Pr(a_{t}=a\mid s_{t}=s)$ 기대 누적 보상을 최대화합니다.

문제를 MDP로 공식화하는 것은 에이전트가 현재의 환경 상태를 직접 관찰하는 것으로 가정한다.이 경우 문제는 완전한 관찰 가능성을 가지고 있다고 할 수 있다.에이전트가 상태의 서브셋에만 접근할 수 있는 경우 또는 관찰된 상태가 노이즈에 의해 파손된 경우 에이전트는 부분적인 관찰 가능성을 갖는 것으로 간주되며, 공식적으로 이 문제는 부분적으로 관찰 가능한 마르코프 결정 프로세스로 공식화되어야 한다.두 경우 모두 에이전트가 사용할 수 있는 일련의 작업을 제한할 수 있습니다.예를 들어, 계정 잔고 상태는 양의 값으로 제한될 수 있습니다. 현재 상태의 값이 3이고 상태 전환이 값을 4만큼 줄이려고 시도하면 전환이 허용되지 않습니다.

에이전트의 퍼포먼스를 최적으로 동작하는 에이전트의 퍼포먼스와 비교하면 퍼포먼스의 차이는 후회라는 개념을 낳습니다.최적의 상태로 행동하기 위해, 대리인은 이와 관련된 즉각적인 보상은 부정적일 수 있지만, 행동의 장기적 결과(즉, 미래 소득을 최대화)에 대해 추론해야 한다.

따라서, 강화 학습은 장기 대 단기 보상 트레이드오프를 포함하는 문제에 특히 적합하다.로봇 제어,^[6] 엘리베이터 스케줄링, 통신, 백개먼, 체커^[7], 고(AlphaGo) 등 다양한 문제에 성공적으로 적용되고 있다.

성능 최적화를 위한 샘플 사용 및 대규모 환경 처리를 위한 함수 근사 사용이라는 두 가지 요소가 강화 학습을 강력하게 만듭니다.이러한 두 가지 핵심 요소 덕분에 다음과 같은 상황에서 대규모 환경에서 강화 학습을 사용할 수 있습니다.

환경 모델이 알려져 있지만 분석 솔루션을 사용할 수 없습니다.
환경의 시뮬레이션 모델만 제공된다(시뮬레이션 기반 최적화 주제).^[8]
환경에 대한 정보를 수집하는 유일한 방법은 환경과 상호 작용하는 것입니다.

이러한 문제 중 처음 두 가지는 (어떤 형태의 모델을 이용할 수 있기 때문에) 계획상의 문제로 간주될 수 있으며, 마지막 문제는 진정한 학습 문제로 간주될 수 있다.그러나 강화 학습은 계획 문제를 기계 학습 문제로 전환합니다.

탐색

탐색 대 착취 균형은 다중 무장 도적 문제와 버네타스와 케이트하키스의 유한 상태 공간 MDP를 통해 가장 철저하게 연구되었다(1997년).^[9]

강화 학습에는 영리한 탐색 메커니즘이 필요하다. 추정 확률 분포를 고려하지 않고 무작위로 행동을 선택하면 성능이 떨어진다.(작은) 유한 MDP의 경우는 비교적 잘 알려져 있다.그러나 상태 수에 따라 잘 확장되는 알고리즘이 없기 때문에(또는 무한 상태 공간의 문제에 맞게 확장되는) 단순한 탐색 방법이 가장 실용적이다.

$\varepsilon$ 방법 중 하나는 ${\$ { $displaystyle$ \ $varepsilon }$ - greedy $\varepsilon$ 입니다 $0<\varepsilon <1$ 서 0 < $0<\varepsilon <1$ < $0<\varepsilon <1$ \ $displaystyle$ 0 < \ $varepsilon$ < $1$ }은 $0<\varepsilon <1$ 탐사 대 이용의 양을 제어하는 파라미터입니다. $1-\varepsilon$ 이 $1-\varepsilon$ 1 - ${\$ { $style 1-\varepsilon$ $1-\varepsilon$ 인 경우 공격이 선택되고 에이전트는 장기적인 효과가 가장 높다고 판단되는 액션을 선택합니다(액션 간의 관계는 랜덤하게 균등하게 깨집니다).또는 $\varepsilon$ ${\$ { $display$ \ $varepsilon$ $\varepsilon$ 일 경우 탐색을 선택하고 랜덤으로 균일하게 액션을 선택합니다. $§$ ${\displaystyle$ \varepsilon $}$ 은 $\varepsilon$ 일반적으로 고정 파라미터이지만 스케줄에 따라 조정(에이전트가 점차적으로 덜 탐색하도록 함)하거나 ^[10]휴리스틱스를 기반으로 적응적으로 조정할 수 있습니다.

제어 학습을 위한 알고리즘

탐사에 대한 이슈는 무시되고 국가가 관찰될 수 있다고 가정하더라도, 문제는 과거의 경험을 이용하여 어떤 행동이 더 높은 누적 보상을 초래하는지 알아내는 데 남아 있다.

최적성의 기준

정책.

에이전트의 작업 선택은 정책이라는 맵으로 모델링됩니다.

\displaystyle \pi :A\times S\right 화살표 [0,1]}

(\displaystyle \pi (a,s)=\Pr (a_{t}=a\mid s_{t}=s)}

정책 맵은 $s$ 일 때 액션을 $a$ 할 가능성을 제공합니다 $({$ $displaystyle$ s $a$ $s$ ^[11]^{: 61} $}$ 。결정론적인 정책도 있다.

상태값함수

값 $V_{\pi }(s)$ $V_{\pi }(s)$ $V_{\pi }(s)$ ( $V_{\pi }(s)$ ) $V_{\pi }(s)$ { $displaystyle V$ _ { \ $pi$ } ( $V_{\pi }(s)$ s )는 $V_{\pi }(s)$ $상태$ s { $displaystyle$ s $s$ }에서 $s_{0}=s$ 하여 정책 ${\$ { \ $s$ $s_{0}=s$ _ { 0 $}$ $= s$ 에 이어서 이어지는 기대 수익률로 정의됩니다.따라서 $대략적$ 으로 함수의 추정치는 "적"입니다.소정의 ^[11]^{: 60}상태

{\displaystyle V_{\pi}=\operatorname {E} [R\mid s_{0}=s]=\operatorname {E} \left[\sum _ {t = 0}^{\infty }\displaystyle ^{t}r_{t}\mid s_{0}=s\right},

여기서 랜덤 $변수$ R(\ $displaystyle$ R $)$ 은 $r$ 수익률을 나타내며, 향후 할인된 보상의 합계로 정의된다.

R=\sum _{t=0}^{\infty}\display ^{t}r_{t}

$r_{t}$ 서 r t $r_{t}$ {\ $displaystyle r_{$ t $r_{t}$ }는스텝 t { $displaystyle$ t $t$ 의 보상이고, $\gamma \in [0,1)$ [ 0 , 1 $\gamma \in [0,1)$ } { $displaystyle \ in [ 0$ , $1$ }은 $\gamma \in [0,1)$ 할인율입니다.감마는 1보다 작기 때문에 먼 미래의 사건은 가까운 미래의 사건보다 가중치가 낮다.

알고리즘은 예상되는 최대 리턴을 가진 정책을 찾아야 합니다.민주당 이론에 따르면 일반성의 손실 없이 검색은 이른바 고정 정책 집합으로 제한될 수 있다.정책에 의해 반환된 액션 배포가 마지막으로 방문한 상태(관찰 에이전트의 기록)에만 의존하는 경우 정책은 정지 상태입니다.검색은 결정론적 고정 정책으로 더욱 제한될 수 있습니다.결정론적 고정정책은 현재 상태에 따라 결정적으로 액션을 선택한다.이러한 정책은 상태 집합에서 액션 집합으로의 매핑으로 식별할 수 있으므로 일반성을 잃지 않고 이러한 매핑으로 식별할 수 있습니다.

폭력

무차별 포스 접근법에는 다음 두 가지 단계가 있습니다.

가능한 각 정책에 대해 해당 정책을 따르는 동안 샘플 반환
예상 수익률이 가장 큰 정책을 선택하십시오.

이 문제의 한 가지 문제는 정책 수가 많거나 무한할 수 있다는 것입니다.다른 하나는 수익률의 편차가 클 수 있기 때문에 많은 샘플이 각 정책의 수익률을 정확하게 추정해야 한다는 것이다.

이러한 문제는 우리가 어떤 구조를 가정하고 한 정책에서 생성된 샘플이 다른 정책에 대한 추정치에 영향을 미치도록 허용한다면 개선될 수 있다.이를 달성하기 위한 두 가지 주요 접근법은 가치 함수 추정과 직접 정책 검색입니다.

값 함수

값 함수 접근법은 일부 정책(보통 "현재" [정책 적용] 또는 최적의 [정책 적용 제외])의 예상 수익 추정치를 유지함으로써 수익률을 최대화하는 정책을 찾으려고 합니다.

이러한 방법들은 마르코프 결정 과정의 이론에 의존하며, 여기서 최적성은 위의 의미보다 더 강한 의미로 정의된다: 정책이 초기 상태로부터 가장 잘 기대되는 수익을 달성한다면 최적이라고 불린다(즉, 초기 분포는 이 정의에서 아무런 역할을 하지 않는다).다시 말하지만, 최적의 정책은 항상 고정 정책 중에서 찾을 수 있습니다.

형식적으로 최적성을 정의하려면 정책 값 $"\displaystyle\pi"$ 를 $\pi$ 다음과 같이 정의합니다.

V^{\pi }(s)=E[R\mid s,\pi ],

$R$ 서 R $(\displaystyle$ R $)$ 은 $r$ 초기 $상태$ s(\ $displaystyle$ s $s$ 에서 다음 $(\$ $displaystyle$ $\pi$ $V^{\pi }(s)$ 과 $\pi$ 관련된 반환을 나타냅니다.V $V^{*}(s)$ $($ ( $s )$ 를 $V^{*}(s)$ V $V^{\pi }(s)$ ( $V^{\pi }(s)$ )의 $\pi$ $V^{\pi }(s)$ 한 최대값으로 $정의$ 하면 \ $\pi$ 은 $\pi$ 입니다 $.$ 변화하기 위해,

V^{*}(s)=\max _{\pi }V^{\pi }(s)

각 상태에서 이러한 최적의 값을 달성하는 정책을 최적이라고 합니다. $\rho ^{\pi }=E[V^{\pi }(S)]$ 이 강력한 의미에서 최적의 정책은 기대수익률 $\rho ^{\pi }=E[V^{\pi }(S)]$ $\rho ^{\pi }$ $\rho ^{\pi }=E[V^{\pi }(S)]$ $\rho ^{\pi }=E[V^{\pi }(S)]$ E $\rho ^{\pi }=E[V^{\pi }(S)]$ [ $\rho ^{\pi }=E[V^{\pi }(S)]$ $\rho ^{\pi }=E[V^{\pi }(S)]$ $\rho ^{\pi }=E[V^{\pi }(S)]$ $）$ \ $display$ $^$ { \ $pi$ $}$ $= E$ [ V ^ { \ $pi }$ $S$ $style$ 、 $초기$ 상태의 $\displaystyle$ \mu $\mu$ $}$ ( $\mu (s)=\Pr(s_{0}=s)$ μ ( $\mu (s)=\Pr(s_{0}=s)$ ) $\mu (s)=\Pr(s_{0}=s)$ $\mu (s)=\Pr(s_{0}=s)$ ( $\mu (s)=\Pr(s_{0}=s)$ $\mu (s)=\Pr(s_{0}=s)$ $=$ ){ $displaystyle$ \ $mu$ ( s )= \ $Pr$ ( $s _$ { 0 $\mu (s)=\Pr(s_{0}=s)$ } } ） $\mu (s)=\Pr(s_{0}=s)$ $\mu$ 。

최적성을 정의하려면 state-values로 충분하지만 action-values를 정의하면 편리합니다. $상태$ s(\ $displaystyle$ s $s$ $액션$ a $(\displaystyle$ \ $pi$ 및 $a$ 정책 $"\displaystyle$ $\pi"$ 에서 $(s,a)$ $\pi$ 쌍 $(s,a)$ , $a )$ 의 액션 값은 $다음$ 과 같이 정의됩니다 $.$

Q^{\pi }(s,a)=\operatorname {E} [R\mid s,a,\pi],

$R$ 서 R $(\displaystyle$ R $)$ 은 $R$ $a$ $(\displaystyle$ s $)$ 에서 $s$ 먼저 $a$ 을 취하고 그 후에 $(\displaystyle \pi$ 를 따르는 것과 관련된 랜덤 리턴을 나타냅니다.

민주당 이론에서는 $【{$ $displaystyle$ $\pi$ $^{*}】$ 가 $\pi^*$ 최적의 정책인 경우 $,$ 각 $상태$ 의 $s$ 이 가장 높은 Q $Q^{\pi ^{*}}(s,\cdot )$ $,\$ $cdot$ $s$ 에서 $Q^{\pi ^{*}}(s,\cdot )$ 액션을 선택함으로써 최적으로 행동한다(최적의 액션을 실행한다).이러한 최적의 정책( $Q$ $Q^{\pi ^{*}}$ （ \ $displaystyle$ Q^ { \ $pi ^$ { * } $Q^{\pi ^{*}}$ ） action-value 함수라고 불리며 일반적으로 $Q^{*}$ ${\$ （ \ $displaystyle$ Q $^$ { * } $Q^{*}$ ）。요컨대 최적의 액션-value 함수에 대한 지식만으로 최적의 동작 방법을 알 수 있습니다.

MDP에 대한 완전한 지식을 가정할 때, 최적의 행동-값 함수를 계산하기 위한 두 가지 기본 접근법은 가치 반복과 정책 반복이다.두 알고리즘 모두 Q에 $Q^{*}$ 하는 일련의 $Q_{k}$ Q $Q_{k}$ (\ $displaystyle$ $Q_$ ${$ $k},$ k $k=0,1,2,\ldots$ $0,$ , $k=0,1,2,\ldots$ , $\ldots$ {\displaystyle k= 0, 1, 2, \ldots $Q^{*}$ 를 계산합니다.이러한 함수는 공간 전체에 걸쳐 $예상$ 되는 연산과 관련이 있습니다.최소(확정)의 MDP를 사용합니다.강화 학습 방법에서 기대치는 샘플에 대한 평균화와 큰 상태-작용 공간에 대한 가치 함수를 나타낼 필요성에 대처하기 위한 함수 근사 기법을 사용하여 근사화된다.

몬테카를로법

Monte Carlo 메서드는 정책 반복을 모방하는 알고리즘으로 사용할 수 있습니다.정책 반복은 정책 평가와 정책 개선의 두 단계로 구성됩니다.

몬테카를로는 정책 평가 단계에서 사용됩니다.이 스텝에서는 고정적이고 결정론적인 정책 $「\displaystyle \pi$ 를 지정하면, 모든 상태-액션 페어 $s$ $a$ )의 함수 $Q^{\pi }(s,a)$ $Q^{\pi }(s,a)$ $Q^{\pi }(s,a)$ ( $Q^{\pi }(s,a)$ , a $Q^{\pi }(s,a)$ ) \ $displaystyle$ $(s,a)$ Q^ { \ $pi$ } $Q^{\pi }(s,a)$ ( $s$ , $a$ ) ( s , a ) （ $）$ ）（） ationationationationationationation to toationationationationationationationationationationationationationationationationationationationationationationationationationationationationation 。nt 메모리는 액션 값을 수용하기 위해 사용할 수 있으며, 문제가 일시적이며 각 에피소드 후에 새로운 것이 랜덤한 초기 상태에서 시작됩니다.Then, the estimate of the value of a given state-action pair $(s,a)$ can be computed by averaging the sampled returns that originated from $(s,a)$ over time.따라서 충분한 시간이 주어지면 이 절차에서는 액션 $Q^{\pi }$ 값 $Q^{\pi }$ Q의 $Q^{\pi }$ 한 $추정치$ Q(\ $displaystyle Q$ pi $Q$ })를 작성할 수 있습니다.이것으로 정책 평가 스텝의 설명이 종료됩니다.

정책개선단계에서 다음 정책은 Q $(\displaystyle$ Q $Q$ $상태$ s(\ $style$ s $s$ 에 $대한$ 탐욕적인 정책을 계산하여 얻습니다.이 새로운 정책은 Q $(s$ 를 $Q(s,\cdot )$ 하는 액션을 반환합니다.실제로 게으른 평가는 최대화하는 액션을 지연시킬 수 있습니다.필요할 때 이온을 주입합니다.

이 순서의 문제는 다음과 같습니다.

1. 이 절차에서는 차선의 정책을 평가하는 데 너무 많은 시간을 할애할 수 있습니다.

2. 긴 궤적은 궤적을 시작한 단일 상태-작용 쌍의 추정치만 개선한다는 점에서 샘플을 비효율적으로 사용한다.

3. 궤적을 따라 발생하는 수익의 편차가 크면 수렴이 느립니다.

4. 일시적인 문제에서만 작동합니다.

5. 작고 유한한 MDP에서만 작동합니다.

시간차법

첫 번째 문제는 값이 안정되기 전에 (일부 또는 모든 상태에서) 정책을 변경할 수 있도록 함으로써 해결됩니다.이것도 컨버전스를 방해할 수 있기 때문에 문제가 있을 수 있습니다.현재 대부분의 알고리즘은 이를 통해 일반화된 정책 반복 알고리즘의 클래스를 생성합니다.많은 배우 비평 방법이 이 범주에 속합니다.

두 번째 문제는 궤적이 그 안에 있는 모든 상태-조치 쌍에 기여할 수 있도록 함으로써 수정할 수 있다.이것은 또한 세 번째 문제에도 어느 정도 도움이 될 수 있지만, 수익의 변동이 클 때 더 나은 해결책은 재귀 벨만 ^[12]^[13]방정식에 기초한 서튼의 시간적 차이(TD) 방법이다.TD 방식의 계산은 증분식(각 전환 후 메모리가 변경되어 전환이 폐기될 때) 또는 배치식(전환이 배치되고 한 번 견적이 배치에 기반하여 계산될 때)일 수 있습니다.최소 제곱 시간 차이 ^[14]방법과 같은 배치 방법은 샘플의 정보를 더 잘 사용할 수 있지만, 계산 또는 메모리의 복잡성이 높아 배치 방법을 실행할 수 없는 경우에는 증분 방법이 유일한 선택입니다.어떤 방법은 두 가지 접근 방식을 결합하려고 시도합니다.시간적 차이에 기초한 방법도 네 번째 문제를 극복한다.

TD에 고유한 또 다른 문제는 재귀적인 벨만 방정식에 대한 의존도에서 비롯됩니다.대부분의 TD 방식에는 Bellman 방정식에 의존하지 않는 Monte Carlo 방식과 Bellman 방정식에 전적으로 의존하는 기본 TD 방식 간에 연속적으로 보간할 수 있는 $\lambda$ \ $displaystyle$ $\lambda$ $}$ $(0\leq \lambda \leq 1)$ 0 $\leq \leq$ 1)가 있습니다.이것은 이 문제를 완화하는 데 효과적일 수 있습니다.

함수 근사법

다섯 번째 문제에 대처하기 위해 함수 근사법을 사용한다.선형 함수 근사치는 각 상태-작용 쌍에 유한 차원 벡터를 할당하는 매핑 $\phi$ {\(\ $displaystyle \phi)$ 에서 $\phi$ 시작합니다. $\phi (s,a)$ 다음 상태-액션 쌍 $(s,a)$ , $(s,a)$ )의 동작 값 $\phi (s,a)$ displaystyle $(s$ $\phi (s,a)$ , $a$ $){displaystyle \phi (s ,$ )}의 $(s,a)$ $\phi (s,a)$ 컴포넌트를 일부 가중치 $({displaystyle \theta$ 와 선형적으로 조합하여 얻습니다.

Q(s,a)=\sum _{i=1}^{d}\theta _{i}\phi _{i}(s,a)입니다.

그러면 알고리즘은 개별 상태-작용 쌍과 관련된 값을 조정하는 대신 가중치를 조정합니다.비모수 통계의 아이디어에 기초한 방법(자체 특징을 구성하는 것으로 볼 수 있음)이 탐구되었다.

값 반복을 시작점으로 사용할 수도 있으며, Q-learning 알고리즘과 그 많은 ^[15]변형을 발생시킬 수 있습니다.

작용 값 사용의 문제는 시간적 차이 방법에 의해 이 문제가 어느 정도 완화되기는 하지만, 수익에 노이즈가 있을 때 얻기 어려울 수 있는 경쟁 작용 값의 매우 정밀한 추정치가 필요할 수 있다는 것이다.이른바 호환 함수 근사법을 사용하면 일반성과 효율성이 저하됩니다.

직접 정책 검색

대체 방법은 정책 공간의 (일부 부분 집합)에서 직접 검색하는 것이며, 이 경우 문제가 확률적 최적화의 사례가 된다.사용할 수 있는 두 가지 접근법은 구배 기반 방법과 구배 없는 방법입니다.

그라데이션 기반의 메서드(정책 그라데이션 방식)는 유한 차원(파라미터) 공간에서 정책 공간으로의 매핑에서 시작됩니다.파라미터 $\theta$ $「\displaystyle$ $\$ $theta$ }.」가 지정되면 $,$ 「\ $displaystyle$ \ $pi$ _{\ $theta$ }}」는 $\pi _{\theta }$ $,$ 「\ $displaystyle \theta$ 에 관련 붙여진 정책을 나타냅니다.퍼포먼스 펑트의 정의.에 의해 이온화하다.

_displaystyle \rho (\theta )=\rho ^{\pi _{\theta }}}

완만한 조건에서는 이 함수는 $\theta$ 벡터 ${\$ {\ $displaystyle \theta$ 의 함수로 구분할 수 있습니다. ${\$ {\ $displaystyle \rho$ }의 $\rho$ 구배를 알고 있다면 구배 상승을 사용할 수 있습니다.기울기에 대한 분석식을 사용할 수 없기 때문에 잡음이 많은 추정치만 사용할 수 있습니다.이러한 추정치는 여러 가지 방법으로 구성될 수 있으며, 윌리엄스(Williams)의 REPORING^[16] 방법(시뮬레이션 기반 최적화 ^[17]문헌에서 우도비 방법으로 알려져 있음)과 같은 알고리즘을 발생시킬 수 있다.정책 검색 방법은 로보틱스 ^[18]컨텍스트에서 사용되었습니다.많은 정책 검색 방법이 로컬 검색에 기반하므로 로컬 최적화에 걸릴 수 있습니다.

많은 종류의 방법을 사용하면 구배 정보에 의존하지 않아도 됩니다.여기에는 시뮬레이션 어닐링, 교차 엔트로피 탐색 또는 진화 계산 방법이 포함됩니다.많은 구배 없는 방법들이 (이론적으로 그리고 한계에서) 전역 최적화를 달성할 수 있다.

노이즈가 많은 데이터가 있으면 정책 검색 방법이 천천히 수렴될 수 있습니다.예를 들어, 이것은 궤적이 길고 수익의 변동이 큰 일시적인 문제에서 발생한다.이 경우 시간적 차이에 의존하는 가치 함수 기반 방법이 도움이 될 수 있습니다.최근 몇 년 동안 배우-비평 방법이 제안되었고 다양한 문제에 대해 ^[19]잘 수행되었습니다.

기반

마지막으로, 위의 모든 방법을 먼저 모델을 학습하는 알고리즘과 결합할 수 있습니다.예를 들어, Dyna^[20] 알고리즘은 경험에서 모델을 학습하고, 이를 사용하여 실제 전환뿐만 아니라 가치 함수에 더 모델링된 전환을 제공합니다.이러한 방법은 때때로 비모수 모델(예: 전환이 단순히 저장되고 학습 알고리즘으로 '재생'^[21]되는 경우)의 사용으로 확장될 수 있습니다.

값 ^[22]함수를 업데이트하는 방법 외에 모형을 사용하는 다른 방법이 있습니다.예를 들어, 모델 예측 제어에서는 모델이 동작을 직접 업데이트하는 데 사용됩니다.

대부분의 알고리즘의 점근 및 유한 표본 동작은 잘 이해된다.(탐사 문제에 대처하는) 입증 가능한 양호한 온라인 성능을 가진 알고리즘이 알려져 있다.

MDP의 효율적인 탐사는 Burnetas와 Katehakis(1997)^[9]에서 제공된다.유한 시간 성능 한계도 많은 알고리즘에 대해 나타났지만, 이러한 한계들은 다소 느슨할 것으로 예상되며, 따라서 상대적인 장점과 한계를 더 잘 이해하기 위해 더 많은 작업이 필요하다.

증분 알고리즘의 경우 점근 수렴 문제가 해결되었습니다^{[clarification needed]}.시간차이 기반 알고리즘은 이전에 가능했던 것보다 더 넓은 조건 하에서 수렴된다(예를 들어 임의의 부드러운 함수 근사치와 함께 사용되는 경우).

로는 음음음음음 research research research research 。

의 적은 no 메서드
MDP에서의 에 대한
논리 기반 프레임워크와의^[23] 조합
경험적
부분 정보(예: 예측 상태 표현 사용)에 따라 학습하고 행동한다.
모듈러형 및 계층형 강화^[24] 학습
값 및 검색
학습^[25]
학습
효율적인 표본 기반 계획(예: 몬테카를로 나무 검색 기준).
소프트웨어 프로젝트의^[26] 버그 검출
새로운 정보^[27]^[28]^[29] 극대화에 기초한 보상 기능을 도입함으로써 정보 추구, 호기심 유형의 행동과 업무 의존적인 목표 지향적 행동(일반적으로)을 구별하는 내재적 동기 부여
다중 에이전트 또는 분산 강화 학습이 관심 주제입니다.응용 프로그램이 ^[30]확장되고 있습니다.
비평
뇌에서 도파민 기반 학습을 위한 모델로 TD 학습과 같은 강화 학습 알고리즘이 연구되고 있다.이 모델에서는 흑질에서 기저신경절까지의 도파민 작용성 돌기가 예측 오차로서 기능한다.
강화 학습은 특히 기술 습득에서 암묵적 학습과 명시적 학습 사이의 상호 작용과 관련하여 인간 기술 학습을 위한 모델의 일부로 사용되었다(이 애플리케이션에 대한 첫 번째 출판물은 1995-1996년).
중심
알고리즘 거래 및 최적의^[31] 실행
컴퓨팅^[32]^[33]^[34] 자원의 최적화

.	★★★	(Policy.	스페이스	스페이스	★★★★★★★★★★★★★★★」
	할				평균
Q-입니다.		폴리시			QΩ
★★		책 on			QΩ
Q-learning - 람다	트레이스를 가진	폴리시			QΩ
SARSA - 람다	트레이스를 사용한 -	책 on			QΩ
DQN	Q (딥 Q 네트워크)	폴리시		★★★★★★★★★★★★★★★★★」	QΩ
DDPG	Gradient( 결정론 정책 그라데이션)	폴리시	★★★★★★★★★★★★★★★★★」	★★★★★★★★★★★★★★★★★」	QΩ
A3C	Actor-Critic : Actor-Critic	책 on	★★★★★★★★★★★★★★★★★」	★★★★★★★★★★★★★★★★★」
NAF	Q-Learning Advantage (정규화된 어드밴티지 기능 포함Q-Learning)	폴리시	★★★★★★★★★★★★★★★★★」	★★★★★★★★★★★★★★★★★」
	Policy Optimization(신뢰 지역 정책 )	책 on	★★★★★★★★★★★★★★★★★」	★★★★★★★★★★★★★★★★★」
	Policy Optimization(근위 정책 )	책 on	★★★★★★★★★★★★★★★★★」	★★★★★★★★★★★★★★★★★」
TD3	Twin Delayed Deep Deterministic	폴리시 " " "	★★★★★	★★★★★	QΩ
	액터-크리티컬	폴리시 " " "	★★★★★	★★★★★

강화

연관성 강화 학습 과제는 확률적 학습 자동 과제와 감독된 학습 패턴 분류 과제를 결합한다.연계성 강화 학습 과제에서 학습 시스템은 환경과 ^[35]닫힌 루프에서 상호작용합니다.

강화

이 접근방식은 상태 ^[36]공간을 명시적으로 설계하지 않고 심층 신경망을 사용하여 강화 학습을 확장한다.Google DeepMind의 ATARI 게임 학습 작업은 심층 강화 학습 또는 엔드 투 엔드 강화 ^[37]학습에 대한 관심을 높였습니다.

강화

적대적 심층 강화 학습은 학습된 정책의 취약성에 초점을 맞춘 강화 학습의 활발한 연구 영역이다.이 연구 영역에서 일부 연구는 처음에 강화 학습 정책이 감지할 수 없는 적대적 ^[38]^[39]^[40]조작에 취약하다는 것을 보여주었다.이러한 취약성을 극복하기 위한 몇 가지 방법이 제안되었지만, 가장 최근의 연구에서 이러한 제안된 솔루션은 심층 강화 학습 ^[41]정책의 현재 취약성에 대한 정확한 표현과는 거리가 먼 것으로 나타났다.

강화

RL에 ^[42]퍼지 추론을 도입함으로써 연속공간의 퍼지규칙에 의한 상태-작용값 함수 근사화가 가능해진다.IF - THEN 형식의 퍼지 규칙은 결과를 자연어에 가까운 형태로 표현하는데 이 방법을 적합하게 만듭니다.퍼지 규칙 보간으로 FRL을 확장하면 축소 크기 스파스 퍼지 규칙 베이스를 사용하여 기본 규칙(가장 중요한 상태 동작 값)을 강조할 수 있습니다.

역강화학습(IRL)에서는 보상함수가 주어지지 않는다.대신, 전문가로부터 관찰된 행동을 주어 보상 함수를 추론한다.아이디어는 관찰된 행동을 모방하는 것인데, 이는 종종 최적 또는 ^[44]최적에 가깝습니다.

한 강화

안전 강화 학습(SRL)은 학습 및/또는 전개 과정 ^[45]중에 합리적인 시스템 성능을 보장하거나 안전 제약을 존중하는 것이 중요한 문제에서 반환에 대한 기대를 극대화하는 학습 정책의 프로세스로 정의할 수 있다.

PSRL 알고리즘에서는 감독 접근법과 RL 기반 접근법의 장점이 상승적으로 결합됩니다.예를 들어 비선형 시스템을 제어하기 위한 역 ANN 기반 접근법에 의해 학습된 제어정책은 RL을 사용하여 미세화할 수 있으며, 이에 따라 기존의 RL에서 랜덤 정책으로부터 시작함으로써 발생하는 계산비용을 회피할 수 있다.부분적으로 감독된 접근방식은 순수한 ^[2]RL에서 비용이 많이 드는 완전 무작위 탐사의 필요성을 줄이면서 감독된 학습에서 광범위한 훈련 데이터의 필요성을 완화할 수 있다.

「」도 .

^ Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.
^ ^a ^b Pandian, B. Jaganatha; Noel, Mathew Mithra (2018-09-01). "Control of a bioreactor using a new partially supervised reinforcement learning algorithm". Journal of Process Control. 69: 16–29. doi:10.1016/j.jprocont.2018.07.013. ISSN 0959-1524. S2CID 126074778.
^ van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.
^ Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.
^ Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "Neural Basis of Reinforcement Learning and Decision Making". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.
^ 사에, 자오밍 등 "모든 단계: 커리큘럼 주도의 디딤돌 기술 학습"컴퓨터 그래픽스 포럼.제39권No. 8. 2020.
^ Sutton & Barto 1998, 11장 sfn 오류: 대상 없음: CITREFSuttonBarto 1998 (도움말)
^ Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.
^ ^a ^b Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222
^ Tokic, Michel; Palm, Günther (2011), "Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax" (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, vol. 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1
^ ^a ^b "Reinforcement learning: An introduction" (PDF).
^ Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.
^ 서튼 & 바토 1998 , 6파운드. 시간차이 학습. sfn 오류: 대상 없음: CITREFSuttonBarto 1998 (도움말)
^ Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.
^ Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.
^ Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.
^ Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.
^ Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.
^ Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.
^ Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.
^ Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8.
^ van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.
^ Riveret, Regis; Gao, Yang (2019). "A probabilistic argumentation framework for reinforcement learning agents". Autonomous Agents and Multi-Agent Systems. 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.
^ Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.
^ George Karimpanal, Thommen; Bouffanais, Roland (2019). "Self-organizing maps for storage and transfer of knowledge in reinforcement learning". Adaptive Behavior. 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.
^ "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org. Retrieved 2018-11-27.
^ Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). Embodied Artificial Intelligence. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6.
^ Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.
^ Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". Intrinsically Motivated Learning in Natural and Artificial Systems (PDF). Berlin; Heidelberg: Springer. pp. 17–47.
^ "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.
^ Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks". The Journal of Machine Learning in Finance. 1.
^ Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.
^ Quested, Tony. "Smartphones get smarter with Essex innovation Business Weekly Technology News Business news Cambridge and the East of England". www.businessweekly.co.uk. Retrieved 2021-06-17.{{cite web}}: CS1 maint :url-status (링크)
^ Williams, Rhiannon (2020-07-21). "Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'". i. Retrieved 2021-06-17.{{cite web}}: CS1 maint :url-status (링크)
^ Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.
^ Francois-Lavet, Vincent; et al. (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
^ Mnih, Volodymyr; et al. (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. S2CID 205242740.
^ Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "Explaining and Harnessing Adversarial Examples". International Conference on Learning Representations. arXiv:1412.6572.
^ Behzadan, Vahid; Munir, Arslan (2017). "Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks". International Conference on Machine Learning and Data Mining in Pattern Recognition. arXiv:1701.04143.
^ Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.
^ Korkmaz, Ezgi (2022). "Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22).
^ Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737.
^ Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). IEEE 15th Intl. Symp. on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298.
^ Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2.
^ García, Javier; Fernández, Fernando (1 January 2015). "A comprehensive survey on safe reinforcement learning" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.

읽기 ★★★★★★★★★★★★★★」

Auer, Peter; Jaksch, Thomas; Ortner, Ronald (2010). "Near-optimal regret bounds for reinforcement learning". Journal of Machine Learning Research. 11: 1563–1600.
Busoniu, Lucian; Babuska, Robert; De Schutter, Bart; Ernst, Damien (2010). Reinforcement Learning and Dynamic Programming using Function Approximators. Taylor & Francis CRC Press. ISBN 978-1-4398-2108-4.
François-Lavet, Vincent; Henderson, Peter; Islam, Riashat; Bellemare, Marc G.; Pineau, Joelle (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.
Powell, Warren (2011). Approximate dynamic programming: solving the curses of dimensionality. Wiley-Interscience.
Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2 ed.). MIT Press. ISBN 978-0-262-03924-6.
Sutton, Richard S. (1988). "Learning to predict by the method of temporal differences". Machine Learning. 3: 9–44. doi:10.1007/BF00115009.
Szita, Istvan; Szepesvari, Csaba (2010). "Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds" (PDF). ICML 2010. Omnipress. pp. 1031–1038. Archived from the original (PDF) on 2010-07-14.

( )

학습
강화학습과 인공지능(RLAI, Alberta 대학의 Rich Sutton's 연구실)
Autonomous Learning Laboratory(ALL, 메사추세츠 대학 Andrew Barto의 연구실)
델프트 공과대학에서의 실제 강화 학습 실험
University Stanford University Andrew Ng
Python 코드와 함께 RL에 게시된 블로그 글의 강화 학습 시리즈 분석
A ( ) 강화 a a a a a a a a

[kaelbling-1] Kaelbling, Leslie P.; Littman, Michael L.; Moore, Andrew W. (1996). "Reinforcement Learning: A Survey". Journal of Artificial Intelligence Research. 4: 237–285. arXiv:cs/9605103. doi:10.1613/jair.301. S2CID 1708582. Archived from the original on 2001-11-20.

[:1-2] Pandian, B. Jaganatha; Noel, Mathew Mithra (2018-09-01). "Control of a bioreactor using a new partially supervised reinforcement learning algorithm". Journal of Process Control. 69: 16–29. doi:10.1016/j.jprocont.2018.07.013. ISSN 0959-1524. S2CID 126074778.

[3] van Otterlo, M.; Wiering, M. (2012). Reinforcement learning and markov decision processes. Reinforcement Learning. Adaptation, Learning, and Optimization. Vol. 12. pp. 3–42. doi:10.1007/978-3-642-27645-3_1. ISBN 978-3-642-27644-6.

[4] Russell, Stuart J.; Norvig, Peter (2010). Artificial intelligence : a modern approach (Third ed.). Upper Saddle River, New Jersey. pp. 830, 831. ISBN 978-0-13-604259-4.

[5] Lee, Daeyeol; Seo, Hyojung; Jung, Min Whan (21 July 2012). "Neural Basis of Reinforcement Learning and Decision Making". Annual Review of Neuroscience. 35 (1): 287–308. doi:10.1146/annurev-neuro-062111-150512. PMC 3490621. PMID 22462543.

[6] 사에, 자오밍 등 "모든 단계: 커리큘럼 주도의 디딤돌 기술 학습"컴퓨터 그래픽스 포럼.제39권No. 8. 2020.

[FOOTNOTESuttonBarto1998Chapter_11-7] Sutton & Barto 1998, 11장 sfn 오류: 대상 없음: CITREFSuttonBarto 1998 (도움말)

[8] Gosavi, Abhijit (2003). Simulation-based Optimization: Parametric Optimization Techniques and Reinforcement. Operations Research/Computer Science Interfaces Series. Springer. ISBN 978-1-4020-7454-7.

[Optimal_adaptive_policies_for_Marko-9] Burnetas, Apostolos N.; Katehakis, Michael N. (1997), "Optimal adaptive policies for Markov Decision Processes", Mathematics of Operations Research, 22: 222–255, doi:10.1287/moor.22.1.222

[10] Tokic, Michel; Palm, Günther (2011), "Value-Difference Based Exploration: Adaptive Control Between Epsilon-Greedy and Softmax" (PDF), KI 2011: Advances in Artificial Intelligence, Lecture Notes in Computer Science, vol. 7006, Springer, pp. 335–346, ISBN 978-3-642-24455-1

[:0-11] "Reinforcement learning: An introduction" (PDF).

[12] Sutton, Richard S. (1984). Temporal Credit Assignment in Reinforcement Learning (PhD thesis). University of Massachusetts, Amherst, MA.

[FOOTNOTESuttonBarto1998[httpincompleteideasnetsuttonbookebooknode60html_§6._Temporal-Difference_Learning]-13] 서튼 & 바토 1998 , 6파운드. 시간차이 학습. sfn 오류: 대상 없음: CITREFSuttonBarto 1998 (도움말)

[14] Bradtke, Steven J.; Barto, Andrew G. (1996). "Learning to predict by the method of temporal differences". Machine Learning. 22: 33–57. CiteSeerX 10.1.1.143.857. doi:10.1023/A:1018056104778. S2CID 20327856.

[15] Watkins, Christopher J.C.H. (1989). Learning from Delayed Rewards (PDF) (PhD thesis). King’s College, Cambridge, UK.

[16] Williams, Ronald J. (1987). "A class of gradient-estimating algorithms for reinforcement learning in neural networks". Proceedings of the IEEE First International Conference on Neural Networks. CiteSeerX 10.1.1.129.8871.

[17] Peters, Jan; Vijayakumar, Sethu; Schaal, Stefan (2003). "Reinforcement Learning for Humanoid Robotics" (PDF). IEEE-RAS International Conference on Humanoid Robots.

[18] Deisenroth, Marc Peter; Neumann, Gerhard; Peters, Jan (2013). A Survey on Policy Search for Robotics (PDF). Foundations and Trends in Robotics. Vol. 2. NOW Publishers. pp. 1–142. doi:10.1561/2300000021. hdl:10044/1/12051.

[19] Juliani, Arthur (2016-12-17). "Simple Reinforcement Learning with Tensorflow Part 8: Asynchronous Actor-Critic Agents (A3C)". Medium. Retrieved 2018-02-22.

[20] Sutton, Richard (1990). "Integrated Architectures for Learning, Planning and Reacting based on Dynamic Programming". Machine Learning: Proceedings of the Seventh International Workshop.

[21] Lin, Long-Ji (1992). "Self-improving reactive agents based on reinforcement learning, planning and teaching" (PDF). Machine Learning volume 8.

[22] van Hasselt, Hado; Hessel, Matteo; Aslanides, John (2019). "When to use parametric models in reinforcement learning?" (PDF). Advances in Neural Information Processing Systems 32.

[23] Riveret, Regis; Gao, Yang (2019). "A probabilistic argumentation framework for reinforcement learning agents". Autonomous Agents and Multi-Agent Systems. 33 (1–2): 216–274. doi:10.1007/s10458-019-09404-2. S2CID 71147890.

[24] Kulkarni, Tejas D.; Narasimhan, Karthik R.; Saeedi, Ardavan; Tenenbaum, Joshua B. (2016). "Hierarchical Deep Reinforcement Learning: Integrating Temporal Abstraction and Intrinsic Motivation". Proceedings of the 30th International Conference on Neural Information Processing Systems. NIPS'16. USA: Curran Associates Inc.: 3682–3690. arXiv:1604.06057. Bibcode:2016arXiv160406057K. ISBN 978-1-5108-3881-9.

[25] George Karimpanal, Thommen; Bouffanais, Roland (2019). "Self-organizing maps for storage and transfer of knowledge in reinforcement learning". Adaptive Behavior. 27 (2): 111–126. arXiv:1811.08318. doi:10.1177/1059712318818568. ISSN 1059-7123. S2CID 53774629.

[26] "On the Use of Reinforcement Learning for Testing Game Mechanics : ACM - Computers in Entertainment". cie.acm.org. Retrieved 2018-11-27.

[kaplan2004-27] Kaplan, F.; Oudeyer, P. (2004). "Maximizing learning progress: an internal reward system for development". In Iida, F.; Pfeifer, R.; Steels, L.; Kuniyoshi, Y. (eds.). Embodied Artificial Intelligence. Lecture Notes in Computer Science. Vol. 3139. Berlin; Heidelberg: Springer. pp. 259–270. doi:10.1007/978-3-540-27833-7_19. ISBN 978-3-540-22484-6.

[klyubin2008-28] Klyubin, A.; Polani, D.; Nehaniv, C. (2008). "Keep your options open: an information-based driving principle for sensorimotor systems". PLOS ONE. 3 (12): e4018. Bibcode:2008PLoSO...3.4018K. doi:10.1371/journal.pone.0004018. PMC 2607028. PMID 19107219.

[barto2013-29] Barto, A. G. (2013). "Intrinsic motivation and reinforcement learning". Intrinsically Motivated Learning in Natural and Artificial Systems (PDF). Berlin; Heidelberg: Springer. pp. 17–47.

[30] "Reinforcement Learning / Successes of Reinforcement Learning". umichrl.pbworks.com. Retrieved 2017-08-06.

[31] Dabérius, Kevin; Granat, Elvin; Karlsson, Patrik (2020). "Deep Execution - Value and Policy Based Reinforcement Learning for Trading and Beating Market Benchmarks". The Journal of Machine Learning in Finance. 1.

[32] Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (March 2020). "User Interaction Aware Reinforcement Learning for Power and Thermal Efficiency of CPU-GPU Mobile MPSoCs". 2020 Design, Automation Test in Europe Conference Exhibition (DATE): 1728–1733. doi:10.23919/DATE48585.2020.9116294. ISBN 978-3-9819263-4-7. S2CID 219858480.

[33] Quested, Tony. "Smartphones get smarter with Essex innovation Business Weekly Technology News Business news Cambridge and the East of England". www.businessweekly.co.uk. Retrieved 2021-06-17.{{cite web}}: CS1 maint :url-status (링크)

[34] Williams, Rhiannon (2020-07-21). "Future smartphones 'will prolong their own battery life by monitoring owners' behaviour'". i. Retrieved 2021-06-17.{{cite web}}: CS1 maint :url-status (링크)

[35] Soucek, Branko (6 May 1992). Dynamic, Genetic and Chaotic Programming: The Sixth-Generation Computer Technology Series. John Wiley & Sons, Inc. p. 38. ISBN 0-471-55717-X.

[intro_deep_RL-36] Francois-Lavet, Vincent; et al. (2018). "An Introduction to Deep Reinforcement Learning". Foundations and Trends in Machine Learning. 11 (3–4): 219–354. arXiv:1811.12560. Bibcode:2018arXiv181112560F. doi:10.1561/2200000071. S2CID 54434537.

[DQN2-37] Mnih, Volodymyr; et al. (2015). "Human-level control through deep reinforcement learning". Nature. 518 (7540): 529–533. Bibcode:2015Natur.518..529M. doi:10.1038/nature14236. PMID 25719670. S2CID 205242740.

[38] Goodfellow, Ian; Shlens, Jonathan; Szegedy, Christian (2015). "Explaining and Harnessing Adversarial Examples". International Conference on Learning Representations. arXiv:1412.6572.

[39] Behzadan, Vahid; Munir, Arslan (2017). "Vulnerability of Deep Reinforcement Learning to Policy Induction Attacks". International Conference on Machine Learning and Data Mining in Pattern Recognition. arXiv:1701.04143.

[40] Pieter, Huang, Sandy Papernot, Nicolas Goodfellow, Ian Duan, Yan Abbeel (2017-02-07). Adversarial Attacks on Neural Network Policies. OCLC 1106256905.

[41] Korkmaz, Ezgi (2022). "Deep Reinforcement Learning Policies Learn Shared Adversarial Features Across MDPs". Thirty-Sixth AAAI Conference on Artificial Intelligence (AAAI-22).

[42] Berenji, H.R. (1994). "Fuzzy Q-learning: a new approach for fuzzy dynamic programming". Proc. IEEE 3rd International Fuzzy Systems Conference. Orlando, FL, USA: IEEE: 486–491. doi:10.1109/FUZZY.1994.343737.

[43] Vincze, David (2017). "Fuzzy rule interpolation and reinforcement learning" (PDF). IEEE 15th Intl. Symp. on Applied Machine Intelligence and Informatics (SAMI). IEEE: 173–178. doi:10.1109/SAMI.2017.7880298.

[44] Ng, A. Y.; Russell, S. J. (2000). "Algorithms for Inverse Reinforcement Learning" (PDF). Proceeding ICML '00 Proceedings of the Seventeenth International Conference on Machine Learning. pp. 663–670. ISBN 1-55860-707-2.

[45] García, Javier; Fernández, Fernando (1 January 2015). "A comprehensive survey on safe reinforcement learning" (PDF). The Journal of Machine Learning Research. 16 (1): 1437–1480.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]

[44]

[45]

v t 컴퓨터 공학
주의: 이 템플릿은 대략 2012 ACM Computing Classification System에 준거하고 있습니다.
하드웨어	프린트 기판 주변기기 집적회로 대규모 통합 시스템온칩(SoC) 소비전력(친환경 컴퓨팅) 전자 설계 자동화 하드웨어 액셀러레이션
컴퓨터 시스템 구성	컴퓨터 아키텍처 임베디드 시스템 실시간 컴퓨팅 신뢰성
네트워크	네트워크 아키텍처 네트워크 프로토콜 네트워크 컴포넌트 네트워크 스케줄러 네트워크 퍼포먼스 평가 네트워크 서비스
소프트웨어 구성	통역사 미들웨어 가상 머신 운영 체제 소프트웨어 품질
소프트웨어 표기법 및 도구	프로그래밍 패러다임 프로그래밍 언어 컴파일러 도메인 고유의 언어 모델링 언어 소프트웨어 프레임워크 통합 개발 환경 소프트웨어 구성 관리 소프트웨어 라이브러리 소프트웨어 저장소
소프트웨어 개발	제어 변수 소프트웨어 개발 프로세스 요건 분석 소프트웨어 설계 소프트웨어 구축 소프트웨어 도입 소프트웨어 엔지니어링 소프트웨어 유지보수 프로그래밍팀 오픈 소스 모델
계산 이론	계산 모형 격식어 오토마타 이론 계산가능성 이론 계산 복잡도 이론 논리 의미론
알고리즘	알고리즘 설계 알고리즘 분석 알고리즘 효율 랜덤화 알고리즘 계산기하학
컴퓨팅의 수학	이산 수학 확률 통계 정보 수학 소프트웨어 정보 이론 수학적 해석 수치 분석 이론 컴퓨터 공학
정보 시스템	데이터베이스 관리 시스템 정보 스토리지 시스템 엔터프라이즈 정보 시스템 소셜 정보 시스템 지리정보시스템 의사결정지원시스템 공정관리시스템 멀티미디어 정보 시스템 데이터 마이닝 디지털 라이브러리 컴퓨팅 플랫폼 디지털 마케팅 월드 와이드 웹 정보 검색
보안.	암호화 형식적인 방법 보안 서비스 침입 탐지 시스템 하드웨어 보안 네트워크 보안 정보 보안 응용 프로그램 보안
인간과 컴퓨터의 상호 작용	상호작용 설계 소셜 컴퓨팅 유비쿼터스 컴퓨팅 시각화 접근성
동시성	동시 컴퓨팅 병렬 컴퓨팅 분산 컴퓨팅 멀티스레딩 멀티프로세서
인공지능	자연어 처리 지식 표현 및 추론 컴퓨터 비전 계획 및 스케줄링 자동화 검색 방법론 제어방법 인공지능의 철학 분산형 인공지능
기계 학습	지도 학습 비지도 학습 강화 학습 멀티태스킹 학습 교차 검증
그래픽스	애니매이션 렌더링 이미지 조작 그래픽스 처리 장치 혼합현실 가상현실 이미지 압축 솔리드 모델링
응용 컴퓨팅	전자상거래 엔터프라이즈 소프트웨어 계산 수학 계산물리학 계산화학 계산생물학 계산사회과학 계산공학 컴퓨터 헬스케어 디지털 아트 전자 출판 사이버 전쟁 전자투표 비디오 게임 워드프로세서 운용 조사 교육용 테크놀로지 문서 관리
카테고리 개요 위키프로젝트 공통

Search