인간 피드백을 통한 강화 학습
Reinforcement learning from human feedback기계 학습에서,인간 피드백으로부터의 강화 학습(RLHF) 또는 인간 선호로부터의 강화 학습은 인간 피드백으로부터 직접 "보상 모델"을 훈련시키고, 이 모델을 보상 함수로 사용하여 근위 정책 최적화와 같은 최적화 알고리즘을 통해 강화 학습(RL)을 사용하여 에이전트의 정책을 최적화하는 기술이다.[1][1][2]보상 모델은 주어진 출력이 좋은지(높은 보상) 나쁜지(낮은 보상)를 예측하기 위해 정책이 최적화되기 전에 미리 훈련됩니다.RLHF는 특히 보상 함수가 희박하거나 [3]노이즈가 많을 때 RL 에이전트의 견고성과 탐색을 향상시킬 수 있습니다.
인간의 피드백은 인간에게 에이전트의 [4][5][6]행동 사례의 순위를 매길 것을 요청함으로써 수집됩니다.그런 다음 이러한 순위를 사용하여 [2]엘로레이팅 시스템과 같은 출력을 점수화할 수 있습니다.
RLHF는 대화 에이전트, 텍스트 요약 및 자연어 [7]이해와 같은 다양한 자연어 처리 영역에 적용되었습니다.에이전트가 "보상 기능"을 기반으로 자신의 행동에서 배우는 일반적인 강화 학습은 특히 인간의 가치나 선호도가 포함된 복잡한 작업을 다룰 때 보상을 정의하거나 측정하기가 쉽지 않기 때문에 자연어 처리 작업에 적용하기 어렵습니다.RLHF는 언어 모델이 이러한 복잡한 값에 맞는 답변을 제공하고, 더 장황한 답변을 생성하며,[8] 모델의 지식 공간에서 부적절하거나 외부에 있는 질문을 거부할 수 있도록 합니다.RLHF 훈련 언어 모델의 일부 예로는 OpenAI의 ChatGPT와 이전 InstructGPT,[5][9] DeepMind의 [10]Sparrow 등이 있습니다. ChatGPT ChatGPT ChatGPT
RLHF는 또한 비디오 게임 봇의 개발과 같은 다른 분야에도 적용되었습니다.예를 들어, OpenAI와 딥마인드는 에이전트들이 인간의 [11][12]선호도에 따라 아타리 게임을 하도록 훈련시켰습니다.에이전트는 테스트된 많은 환경에서 우수한 성능을 달성했으며, 종종 인간의 [13]성능을 능가했습니다.
당면 과제 및 제한 사항
RLHF의 주요 과제 중 하나는 인간 피드백의 확장성과 비용이며, 이는 비지도 학습에 비해 느리고 비용이 많이 들 수 있습니다.인간 피드백의 품질과 일관성은 작업, 인터페이스 및 인간의 개별 선호도에 따라 달라질 수 있습니다.인간 피드백이 실현 가능한 경우에도, RLHF 모델은 여전히 인간 피드백에 의해 포착되지 않는 바람직하지 않은 행동을 보이거나 보상 모델의 허점을 이용할 수 있으며, 이는 정렬과 [14]견고성의 문제를 밝혀줍니다.
참고 항목
레퍼런스
- ^ Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). "Fine-Tuning Language Models from Human Preferences". arXiv:1909.08593.
{{cite journal}}:저널 요구 사항 인용journal=(도움말) - ^ a b Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. "Illustrating Reinforcement Learning from Human Feedback (RLHF)". huggingface.co. Retrieved 4 March 2023.
- ^ MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6 August 2017). "Interactive learning from policy-dependent human feedback". Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285–2294. arXiv:1701.06049.
- Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25 April 2018). "Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces". Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). doi:10.1609/aaai.v32i1.11485. S2CID 4130751.
- Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav; Ganguli, Deep; Henighan, Tom; Joseph, Nicholas; Kadavath, Saurav; Kernion, Jackson; Conerly, Tom; El-Showk, Sheer; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Hume, Tristan; Johnston, Scott; Kravec, Shauna; Lovitt, Liane; Nanda, Neel; Olsson, Catherine; Amodei, Dario; Brown, Tom; Clark, Jack; McCandlish, Sam; Olah, Chris; Mann, Ben; Kaplan, Jared (2022). "Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback". arXiv:2204.05862.
{{cite journal}}:저널 요구 사항 인용journal=(도움말)
- ^ Ouyang, Long; Wu, Jeffrey; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Gray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (31 October 2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155.
{{cite journal}}:저널 요구 사항 인용journal=(도움말) - ^ a b Edwards, Benj (1 December 2022). "OpenAI invites everyone to test ChatGPT, a new AI-powered chatbot—with amusing results". Ars Technica. Retrieved 4 March 2023.
- ^ Abhishek, Gupta (5 February 2023). "Getting stakeholder engagement right in responsible AI". VentureBeat. Retrieved 4 March 2023.
- ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, John; Hilton, Jacob; Kelton, Fraser; Miller, Luke; Simens, Maddie; Askell, Amanda; Welinder, Peter; Christiano, Paul; Leike, Jan; Lowe, Ryan (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155.
{{cite journal}}:저널 요구 사항 인용journal=(도움말)- Nisan, Stiennon; Long, Ouyang; Jeffrey, Wu; Daniel, Ziegler; Ryan, Lowe; Chelsea, Voss; Alec, Radford; Dario, Amodei; F., Christiano, Paul (2020). "Learning to summarize with human feedback". Advances in Neural Information Processing Systems. 33.
- ^ Wiggers, Kyle (24 February 2023). "Can AI really be protected from text-based attacks?". TechCrunch. Retrieved 4 March 2023.
- ^ Farseev, Aleks. "Council Post: Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat". Forbes. Retrieved 4 March 2023.
- Heikkilä, Melissa. "How OpenAI is trying to make ChatGPT safer and less biased". MIT Technology Review. Retrieved 4 March 2023.
- Douglas Heaven, Will. "ChatGPT is OpenAI's latest fix for GPT-3. It's slick but still spews nonsense". MIT Technology Review. Retrieved 4 March 2023.
- ^ Glaese, Amelia; McAleese, Nat; Trębacz, Maja; Aslanides, John; Firoiu, Vlad; Ewalds, Timo; Rauh, Maribeth; Weidinger, Laura; Chadwick, Martin; Thacker, Phoebe; Campbell-Gillingham, Lucy; Uesato, Jonathan; Huang, Po-Sen; Comanescu, Ramona; Yang, Fan; See, Abigail; Dathathri, Sumanth; Greig, Rory; Chen, Charlie; Fritz, Doug; Elias, Jaume Sanchez; Green, Richard; Mokrá, Soňa; Fernando, Nicholas; Wu, Boxi; Foley, Rachel; Young, Susannah; Gabriel, Iason; Isaac, William; Mellor, John; Hassabis, Demis; Kavukcuoglu, Koray; Hendricks, Lisa Anne; Irving, Geoffrey (2022). "Improving alignment of dialogue agents via targeted human judgements". arXiv:2209.14375.
{{cite journal}}:저널 요구 사항 인용journal=(도움말)- "Why DeepMind isn't deploying its new AI chatbot — and what it means for responsible AI". VentureBeat. 23 September 2022. Retrieved 4 March 2023.
- "Building safer dialogue agents". www.deepmind.com. Retrieved 4 March 2023.
- ^ "Learning from human preferences". openai.com. Retrieved 4 March 2023.
- ^ "Learning through human feedback". www.deepmind.com. Retrieved 4 March 2023.
- ^ Christiano, Paul F; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep Reinforcement Learning from Human Preferences". Advances in Neural Information Processing Systems. Curran Associates, Inc. 30. Retrieved 4 March 2023.
- ^ Christiano, Paul. "Thoughts on the impact of RLHF research". Retrieved 4 March 2023.