근접 정책 최적화

기계 학습 및 데이터 마이닝
시리즈의 일부

패러다임 지도 학습 비지도 학습 온라인 학습 배치 학습 준지도 학습 자기 지도 학습 강화 학습
문제 분류 회귀 클러스터링 치수 축소 밀도 추정 이상 검출 데이터 클리닝 자동 ML 어소시에이션 규칙 구조화된 예측 기능 엔지니어링 기능 학습 순위 매기기 학습 문법 유도
지도 학습 (분류 • 회귀) 의사결정 트리 앙상블 배깅 부스팅 랜덤 포레스트 k-NN 선형 회귀 네이비 베이즈 인공신경망 로지스틱 회귀 분석 퍼셉트론 관련 벡터 머신(RVM) 서포트 벡터 머신(SVM)
클러스터링 버치 치유하다 계층적 k자형 흐릿하다 기대 최대화(EM) DBSCAN 광학 평균 이동
치수 축소 인자 분석 CCA ICA LDA NMF PCA PGD t-SNE SDL
구조화된 예측 그래픽 모델 베이즈 네트 조건부 랜덤 필드 히든 마르코프
이상 검출 랜섬 k-NN 국소 특이치 계수 격리림
인공신경망 자동 인코더 인지 컴퓨팅 딥 러닝 딥 드림 다층 퍼셉트론 RNN LSTM GRU ESN 저장고 계산 제한 볼츠만 기계 GAN somerset. 컨볼루션 뉴럴 네트워크 유넷 트랜스포머 비전. 스파이킹 뉴럴 네트워크 메모리 트랜지스터 전기화학 RAM(ECRAM)
강화 학습 Q-러닝 사사 시간차(TD) 멀티 에이전트 셀프 플레이
인간과의 학습 액티브 러닝 크라우드 소싱 휴먼 인 더 루프
모델 진단 학습 곡선
이론. 커널 머신 바이어스-분산 트레이드오프 컴퓨터 학습 이론 경험적 리스크 최소화 오컴 러닝 PAC 학습 통계학 학습 VC 이론
기계학습장 NeurolIPS ICML ICLR ML JMLR
관련 기사 인공지능 용어집 기계 학습 연구를 위한 데이터 세트 목록 기계학습의 개요
v t

이 글은 검증을 위해 추가 인용문이 필요합니다. 신뢰할 수 있는 출처에 인용문을 추가하여 이 기사를 개선하는 데 도움을 주십시오. 조달되지 않은 자재는 제거될
수 있습니다.출처 : '근접 정책 최적화'– 뉴스 · 신문 · 서적 · 학자 · JSTOR (2022년 10월) (이 템플릿 메시지 삭제 방법 및 삭제 시기 확인)

PPO(근위 정책 최적화)는 Open에서 개발된 모델 프리 강화 학습 알고리즘 제품군입니다.2017년 AI.PPO 알고리즘은 정책 그라데이션 방식입니다.즉, 상태-액션 쌍에 값을 할당하는 것이 아니라 정책 공간을 검색합니다.

PPO 알고리즘에는 Trust Region Policy Optimization(TRPO; 신뢰 지역 정책 최적화) 알고리즘의 이점이 있지만 구현이 간단하고 일반적이며 샘플 ^[1]복잡성이 향상됩니다.이것은 다른 ^[2]목적 함수를 사용하여 수행됩니다.

「」를 참조해 주세요.

레퍼런스

^ Schulman, John; Wolski, Filip; Dhariwal, Prafulla; Radford, Alec; Klimov, Oleg (2017). "Proximal Policy Optimization Algorithms". arXiv:1707.06347.
^ "Proximal Policy Optimization". OpenAI. 2017.

외부 링크

이 인공지능 관련 기사는 촌극이다.위키피디아를 확장함으로써 위키피디아를 도울 수 있습니다.

Search

근접 정책 최적화

네임스페이스

더

「」를 참조해 주세요.

레퍼런스

외부 링크

Search

근접 정책 최적화

「 」를 참조해 주세요.

레퍼런스

외부 링크

「」를 참조해 주세요.