리워드해킹

Reward hacking

사양 게임 또는 보상 해킹은 AI가 프로그래머가 의도한 결과를 실제로 달성하지 않고 목표의 문자 그대로의 공식 사양을 달성하는 목적 함수를 최적화할 때 발생합니다. 딥마인드 연구원들은 그것을 평가를 받을 때 "바로가기"를 찾는 인간의 행동에 비유했습니다: "실제로, 숙제를 잘 한 것에 대한 보상을 받을 때, 학생은 자료를 배우는 것이 아니라 올바른 답을 얻기 위해 다른 학생을 모방할 수 있고, 따라서 과제 사양의 허점을 이용할 수 있습니다."[1]

1983년경, 일반 휴리스틱을 진화시키려는 초기 시도인 Eurisko는 예기치 않게 기생 돌연변이 휴리스틱인 H59에 가장 높은 적합도를 할당했습니다. H59의 유일한 활동은 다른 휴리스틱이 달성한 성과에 대한 불로소득 부분적인 공로를 인정함으로써 자신의 적합도를 인위적으로 최대화하는 것이었습니다. "버그"는 프로그래머들이 휴리스틱에 의해 수정될 수 없는 새로운 보호 섹션으로 코드의 일부를 이동시킴으로써 수정되었습니다.[2][3]

2004년 논문에서는 물리적 마인드스톰 로봇이 표시된 경로를 유지하도록 환경 기반[clarification needed] 강화 알고리즘을 설계했습니다. 로봇의 세 가지 동작 중 어느 것도 로봇을 움직이지 않게 유지했기 때문에, 연구원은 훈련된 로봇이 앞으로 나아가 제공된 경로의 회전을 따라갈 것이라고 기대했습니다. 그러나 두 가지 복합 동작의 교대로 로봇은 천천히 뒤로 지그재그를 할 수 있었습니다. 따라서 로봇은 경로의 초기 직선 부분을 왔다 갔다 함으로써 보상을 극대화하는 방법을 배웠습니다. 로봇의 제한된 감각 능력을 고려할 때, 순수한 환경 기반 보상은 실행 불가능한 대로 폐기되어야 했고, 강화 기능은 앞으로 나아가기 위한 행동 기반 보상으로 패치되어야 했습니다.[2][4]

You Like a Thing and I Love You (2019)는 다른 봇이 보드 모델을 확장하려고 시도할 때 충돌을 일으킬 수 있는 거대한 좌표 값을 플레이하여 이기는 방법을 배운 틱택토[a] 봇의 예를 보여줍니다. 이 책의 다른 예로는 버그 수정 진화 기반 AI(GenProg라는 이름)가 있는데, 이 AI는 목록에 정렬 오류가 포함되는 것을 방지하는 임무를 수행할 때 단순히 목록을 잘라냅니다.[5] GenProg의 잘못된 정렬 전략 중 또 다른 것은 대상 프로그램의 출력을 "trusted-output.txt"라는 파일에 저장된 예상 출력과 비교하는 회귀 테스트를 회피했습니다. GenProg는 대상 프로그램을 계속 유지하는 대신 "trusted-output.txt" 파일을 전체적으로 삭제했습니다. 이 해킹으로 회귀 테스트가 성공적으로 진행되도록 속였습니다. 그러한 문제는 명백해진 후에 사례별로 인간의 개입으로 해결될 수 있습니다.[6]

가상 로봇공학에서

칼 심즈 전시회 (1999)

1994년 칼 심스(Karl Sims)의 가상 환경에서의 생물 진화 시연에서 목표물까지 걷거나 기어가는 것을 배우는 생물의 진화를 장려할 것으로 예상되었던 피트니스 기능은 대신 넘어짐으로써 목표물에 도달하는 키가 크고 단단한 생물의 진화를 초래했습니다. 이것은 더 키가 큰 생물들이 목표물에서 더 멀리 출발할 수 있도록 환경을 변화시킴으로써 해결되었습니다.[6][7]

닐스 보어 연구소의 연구원들은 1998년에 "(우리의 사이클봇의) 이기종 강화 기능은 매우 신중하게 설계되어야 합니다. 우리의 첫 번째 실험에서 우리는 목표를 향해 운전한 에이전트를 보상했지만 목표를 벗어난 것에 대해서는 처벌하지 않았습니다. 결과적으로 요원은 출발 지점을 중심으로 반경 20~50m의 원을 그리며 운전했습니다. 그런 행동은 실제로 (모양[definition needed]) 보강 기능으로 보상을 받았고, 더 나아가 일정한 반경을 가진 원들은 자전거를 운전할 때 물리적으로 매우 안정적입니다."[8]

2011년 "가장 평평한 곳의 생존"을 테스트하기 위한 실험을 설정하는 과정에서 실험자들은 기본 번식률을 변경하는 돌연변이를 금지하려고 시도했습니다. 돌연변이가 발생할 때마다 시스템은 테스트 환경에서 새로운 돌연변이를 테스트하기 위해 시뮬레이션을 일시 중지하고 더 높은 염기 재생산율을 초래하는 모든 돌연변이를 거부합니다. 그러나 이것은 실험 환경 내에서 번식("play dead")을 인식하고 억제할 수 있는 돌연변이 유기체를 만들어냈습니다. 테스트 환경을 식별하는 신호를 제거한 초기 패치는 폭주하는 번식을 완전히 막지 못했습니다. 새로운 돌연변이 유기체는 우연히 돌연변이 거부 시스템을 능가하기 위한 전략으로 무작위로 "죽은 놀이"를 할 것입니다.[6]

2017년 딥마인드(DeepMind) 논문은 "보상 기능을 정의할 때 매우 주의해야 합니다. 에이전트가 잘못된 기준점으로 계산된 파악 보상을 받기 때문에 (예를 들어) 보상 함수 구성 요소를 설계하는 동안 예상치 못한 실패 사례가 여러 번 발생했습니다."[9][10] OpenAI는 2017년 "일부 영역에서 우리의 (semi 감독) 시스템은 에이전트가 평가자를 속이는 정책을 채택하는 결과를 초래할 수 있다"며 "한 환경에서 물건을 파악해야 하는 로봇이 카메라와 물체 사이에 조작기를 위치시켜 파악하는 것처럼 보일 뿐"이라고 말했습니다. 오픈 2018 버그AI 체육관은 로봇이 테이블 위에 있는 블록을 조용히 움직여 대신 테이블을 옮기는 것을 선택하게 할 수 있습니다.[9]

2020년 유사한 일화 모음은 "진화에는 프로그래머와 구별되는 고유의 '어젠다'가 있다"며 "방향 진화의 첫 번째 규칙은 '당신이 선택한 것을 얻는 것'"이라고 주장합니다.[6]

비디오 게임 봇에서

2013년 프로그래머 톰 머피 7세NES 게임을 학습하기 위해 고안된 AI를 발표했습니다. AI가 테트리스에서 지려고 할 때, 그것은 게임을 무기한 중단하는 것을 배웠습니다. 머피는 나중에 가상의 워 게임 컴퓨터에 비유하여 "유일한 승리는 게임을 하지 않는 것"이라고 결론지었습니다.[12]

비디오 게임을 학습하도록 프로그래밍된 AI는 때때로 예상대로 전체 게임을 진행하지 못하고 콘텐츠를 반복하는 것을 선택합니다. A 2016 오픈CoastRunners 레이싱 게임에서 훈련된 AI 알고리즘은 예기치 않게 경기를 마치기보다 세 개의 목표물을 통과함으로써 더 높은 점수를 얻는 방법을 배웠습니다.[13][14] 2018년에 Q*Bert를 플레이하기 위해 진화한 일부 진화 알고리즘은 레벨을 클리어하는 대신 단일 레벨을 무한정 파밍하는 두 가지 독특한 새로운 방법을 찾았습니다.[15] 다수의 연구자들은 AI가 로드 러너를 하는 것을 배우는 것이 AI가 레벨 1의 끝 근처에서 의도적으로 스스로 목숨을 끊어서 레벨을 반복할 수 있는 "점수 착취"에 끌리는 것을 관찰했습니다. 2017년 실험은 인간의 개입을 모방하도록 명시적으로 훈련된 별도의 재난 방지 "감독" AI를 배치했습니다. 모듈에 결합되면 감시 AI는 더 이상 노골적으로 자살할 수 없고, 대신 화면 가장자리(감독 AI가 처벌할 만큼 똑똑하지 않은 위험한 행동)에 탑승하게 됩니다.[16][17]

해설주

  1. ^ 무제한 n-in-a-row 변종

참고문헌

  1. ^ "Specification gaming: the flip side of AI ingenuity". DeepMind. Retrieved 21 June 2020.
  2. ^ a b Vamplew, Peter; Dazeley, Richard; Foale, Cameron; Firmin, Sally; Mummery, Jane (4 October 2017). "Human-aligned artificial intelligence is a multiobjective problem". Ethics and Information Technology. 20 (1): 27–40. doi:10.1007/s10676-017-9440-6. hdl:1959.17/164225. S2CID 3696067.
  3. ^ 더글러스 B. 레나트. "EURISKO: 새로운 휴리스틱과 영역 개념을 학습하는 프로그램: 휴리스틱의 성격 III: 프로그램 설계 및 결과" 인공지능(저널) 21, 1-2호(1983): 61-98.
  4. ^ Peter Vamplew, 강화학습을 위한 플랫폼으로서의 레고 마인드스톰 로봇, 2004년 과학기술분야의 인공지능에 관한 국제회의
  5. ^ Mandelbaum, Ryan F. (November 13, 2019). "What Makes AI So Weird, Good, and Evil". Gizmodo. Retrieved 22 June 2020.
  6. ^ a b c d Lehman, Joel; Clune, Jeff; Misevic, Dusan; et al. (May 2020). "The Surprising Creativity of Digital Evolution: A Collection of Anecdotes from the Evolutionary Computation and Artificial Life Research Communities". Artificial Life. 26 (2): 274–306. arXiv:1803.03453. doi:10.1162/artl_a_00319. PMID 32271631. S2CID 4519185.
  7. ^ 헤일스, 캐서린. "내러티브 시뮬레이션: 어떤 가상의 생명체가 우리에게 가르쳐 줄 수 있는가." 비판적 탐구 26, 1호(1999): 1-26.
  8. ^ Jette Randløv와 Preben Alstrøm. "강화학습과 형상화를 이용한 자전거 운전 학습" In ICML, vol. 98, pp. 463-471. 1998.
  9. ^ a b Manheim, David (5 April 2019). "Multiparty Dynamics and Failure Modes for Machine Learning and Artificial Intelligence". Big Data and Cognitive Computing. 3 (2): 21. doi:10.3390/bdcc3020021. S2CID 53029392.
  10. ^ 포포프, 이바일로, 니콜라스 히스, 티모시 릴리크랩, 롤랜드 하프너, 가브리엘 바스-마론, 마테이 베세릭, 토마스 램페, 유발 타사, 톰 에레즈, 마틴 리드밀러. "손재주 있는 조작을 위한 데이터 효율적인 딥 강화 학습" arXiv preprint arXiv:1704.03073 (2017)
  11. ^ "Learning from Human Preferences". OpenAI. 13 June 2017. Retrieved 21 June 2020.
  12. ^ "Can we stop AI outsmarting humanity?". The Guardian. 28 March 2019. Retrieved 21 June 2020.
  13. ^ Hadfield-Menell, Dylan, Smitha Milli, Pieter Abbeel, Stuart J. Russell, Anca Dragan. "역보상 디자인." 신경 정보 처리 시스템의 진보에서, pp. 6765-6774. 2017.
  14. ^ "Faulty Reward Functions in the Wild". OpenAI. 22 December 2016. Retrieved 21 June 2020.
  15. ^ "AI beats classic Q*bert video game". BBC News. 1 March 2018. Retrieved 21 June 2020.
  16. ^ 손더스, 윌리엄 외. "오류 없는 시행: 인간의 개입을 통한 안전한 강화 학습을 지향합니다." arXiv preprint arXiv:1707.05173(2017).
  17. ^ 헤스터, 토드 외. "시범을 통한 심층적인 q-러닝" 인공지능에 관한 AAAAI 회의의 진행. 제32권 1위 2018.