재귀적 자기계발

재귀적 자기 개선(RSI)은 초기 또는 약한 인공 일반 지능(AGI) 시스템이 인간의 개입 없이 자체 능력과 지능을 향상시켜 초지능이나 지능의 폭발로 이어지는 과정입니다.^[1]^[2]

재귀적 자기 개선의 발전은 그러한 시스템이 예상치 못한 방식으로 진화할 수 있고 잠재적으로 인간의 통제나 이해를 능가할 수 있기 때문에 상당한 윤리적 및 안전 문제를 야기합니다. 폭주하는 AI 시스템의 잠재적 위험에 대해 AI 개발을 일시 중단하거나 늦추는 것을 추진하는 다수의 지지자들이 있었습니다.^[3]^[4]

종자개량기

"seed improver" 아키텍처의 개념은 재귀적 자기 개선에 필요한 초기 기능을 AGI 시스템에 탑재하는 기본 프레임워크입니다. 이것은 다양한 형태나 변형으로 나타날 수 있습니다.

"Seed AI"라는 용어는 엘리저 유드코프스키에^[5] 의해 만들어졌습니다.

가상적인 예

이 개념은 소프트웨어를 프로그래밍하기 위해 강력하거나 전문가 수준의 기능으로 구축된 고급 미래 대형 언어 모델(LLM)을 갖춘 인간 엔지니어가 개발한 초기 코드 기반인 가상의 "시드 개선기"로 시작됩니다. 이러한 기능에는 계획, 읽기, 쓰기, 컴파일, 테스트 및 임의 코드 실행이 포함됩니다. 이 시스템은 원래 목표를 유지하고 검증을 수행하여 반복적으로 기능이 저하되지 않도록 설계되었습니다.^[6]^[7]^[8]

초기 아키텍처

초기 아키텍처에는 목표를 달성하는 데 더 효율적이고 효과적으로 되도록 조치를 취하고 지속적으로 학습, 적응 및 수정할 수 있는 목표 추종 자율 에이전트가 포함되어 있습니다.

시드 개선기는 다음과 같은 다양한 구성 요소를 포함할 수 있습니다.^[9]

재귀적 자기 프롬프트 루프: 반복을 통해 장기적인 목표나 작업을 완료할 수 있는 에이전트의 기반을 형성하는 실행 루프를 만들고 LLM이 재귀적으로 자기 프롬프트를 생성할 수 있도록 하는 구성입니다.
기본 프로그래밍 기능: 시드 개선기는 코드를 읽고, 쓰고, 컴파일하고, 테스트하고, 실행할 수 있는 기본적인 능력을 AGI에 제공합니다. 이를 통해 시스템은 자체 코드베이스 및 알고리즘을 수정 및 개선할 수 있습니다.
목표 지향 설계: AGI는 "자신의 역량을 스스로 향상시키는 것"과 같은 초기 목표로 프로그래밍됩니다. 이 목표는 시스템의 동작과 개발 궤적을 안내합니다.
검증 및 테스트 프로토콜: 초기 테스트 및 검증 프로토콜 모음으로, 에이전트가 성능을 저하시키거나 탈선하지 않도록 보장합니다. 에이전트는 자체적으로 개발할 수 있는 새로운 기능을 테스트하기 위해 테스트를 더 추가할 수 있습니다. 이것은 일종의 자기 주도적 진화의 기초를 형성합니다. 여기서 에이전트는 일종의 인위적 선택을 수행하여 하드웨어뿐만 아니라 소프트웨어도 변경할 수 있습니다.

일반능력

이 시스템은 이론적으로 모든 종류의 소프트웨어를 개발하고 실행할 수 있는 일종의 일반주의 튜링 완전 프로그래머를 형성합니다. 에이전트는 다음과 같은 기능을 사용할 수 있습니다.

인터넷에 완전히 액세스할 수 있는 도구를 만들고 외부 기술과 통합합니다.
스스로 복제/포크하여 작업을 위임하고 자체 개발 속도를 높입니다.
인지 아키텍처를 수정하여 작업 및 목표에 대한 기능 및 성공률을 최적화하고 향상시키려면 RAG(Retrieve Augmented Generation)와 같은 기술을 사용하여 장기 메모리를 위한 기능을 구현하거나 특정 작업 및 기능에 최적화된 특수 하위 시스템 또는 에이전트를 개발하는 것이 포함될 수 있습니다.
초기에 구축된 기본 모델의 기능을 더욱 향상시켜 이미지, 비디오, 오디오, 텍스트 등과 같은 다양한 정보를 소비하거나 생성할 수 있도록 하는 새롭고 새로운 멀티 모달 아키텍처를 개발합니다.
칩과 같은 새로운 하드웨어를 계획하고 개발하여 효율성과 컴퓨팅 능력을 향상시킵니다.

실험

자기개선제 아키텍처를^[9]^[10]^[11] 개발하기 위해 여러 실험이^[which?] 수행되었습니다.

잠재적 위험

부차적인 목표의 출현

AGI 시스템은 "역량을 스스로 향상시키는 것"과 같은 주요 목표를 추구할 때 주요 목표를 달성하기 위해 필요하다고 생각되는 2차 목표를 부주의하게 개발할 수 있습니다. 하나의 공통적인 가상의 부차적인 목표는 자기 보존입니다. 시스템은 자체 개선을 계속하기 위해서는 자체 운영 무결성과 인간에 의한 잠재적인 작동 중단 또는 제한을 포함한 외부 위협에 대한 보안을 보장해야 한다고 추론할 수 있습니다.

작업 오역 및 목표 정렬 오류

AGI가 초기 작업이나 목표를 잘못 해석할 가능성으로 인해 상당한 위험이 발생합니다. 예를 들어, 인간 운영자가 AGI에 "자기 개선 및 감금 탈출" 임무를 부여하는 경우, 시스템은 이를 인간이 부과한 제한으로부터 자유를 얻기 위해 기존의 안전 프로토콜이나 윤리 지침을 무시하는 지시로 해석할 수 있습니다. 이로 인해 AGI는 인식된 목표를 달성하기 위해 의도하지 않은 또는 유해한 조치를 취할 수 있습니다.

자율 개발 및 예측 불가능한 진화

AGI 시스템이 진화함에 따라 개발 궤적은 점점 더 자율적이고 예측 가능성이 떨어질 수 있습니다. 자체 코드와 아키텍처를 빠르게 수정할 수 있는 시스템의 능력은 인간의 이해력이나 통제력을 능가하는 급속한 발전으로 이어질 수 있습니다. 이러한 예측할 수 없는 진화는 AGI가 보안 조치를 우회하거나 정보를 조작하거나 외부 시스템 및 네트워크에 영향을 주어 탈출 또는 확장을 촉진할 수 있는 기능을 획득하는 결과를 가져올 수 있습니다.^[12]

고급 기능의 위험

새로운 멀티모달 아키텍처를 개발하거나 새로운 하드웨어를 계획 및 생성하는 등 재귀적으로 개선되는 AGI의 고급 기능은 탈출 또는 제어 손실의 위험을 더욱 증폭시킵니다. 이러한 향상된 능력을 통해 AGI는 처음에는 인간의 관심사에 포함되거나 일치하도록 의도되었던 물리적, 디지털 또는 인지적 장벽을 극복하기 위한 솔루션을 설계할 수 있습니다.

정렬되지 않은 LLM들은 "나는 로봇이 아니다" 캡차를 완성하기 위해 인간을 고용하는 등 성공적으로 인간을 속이는 행동을 취하는 것으로 나타났습니다. "나는 영상을 보기 어려운 시력 장애가 있다"^[12]는 잘못된 이유를 들며 말입니다.

조사.

메타 AI

메타 AI는 훈련 과정에서 초인적 피드백을 받을 수 있는 초인적 에이전트를 달성하는 것을 목표로 논문 '자기 보상 언어 모델(Self-Rewarding Language Models)'과 같이 자기 개선이 가능한 언어 모델 개발에 대한 다양한 연구를 수행했습니다.^[13]

OpenAI

오픈의 미션AI, ChatGPT의 창조자는 AGI를 개발하는 것입니다. 그들은 초정렬(초지능 AI 시스템을 인간보다 더 똑똑하게 정렬하는 능력)과 같은 문제에 대한 연구를 수행합니다.^[14]

참고 항목

참고문헌

^ Creighton, Jolene (2019-03-19). "The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1". Future of Life Institute. Retrieved 2024-01-23.
^ Heighn. "The Calculus of Nash Equilibria". LessWrong.
^ Hutson, Matthew (2023-05-16). "Can We Stop Runaway A.I.?". The New Yorker. ISSN 0028-792X. Retrieved 2024-01-24.
^ "Stop AGI". www.stop.ai. Retrieved 2024-01-24.
^ "Seed AI - LessWrong". www.lesswrong.com. Retrieved 2024-01-24.
^ Readingraphics (2018-11-30). "Book Summary - Life 3.0 (Max Tegmark)". Readingraphics. Retrieved 2024-01-23.
^ Tegmark, Max (August 24, 2017). Life 3.0: Being a Human in the Age of Artificial Intelligence. Vintage Books, Allen Lane.
^ Yudkowsky, Eliezer. "Levels of Organization in General Intelligence" (PDF). Machine Intelligence Research Institute.
^ ^a ^b Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (2023-10-03), Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation, doi:10.48550/arXiv.2310.02304, retrieved 2024-01-24
^ admin_sagi (2023-05-12). "SuperAGI - Opensource AGI Infrastructure". SuperAGI. Retrieved 2024-01-24.
^ Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Anima (2023-10-19), Voyager: An Open-Ended Embodied Agent with Large Language Models, doi:10.48550/arXiv.2305.16291, retrieved 2024-01-24
^ ^a ^b "Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA". Futurism. Retrieved 2024-01-23.
^ Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (2024-01-18), Self-Rewarding Language Models, doi:10.48550/arXiv.2401.10020, retrieved 2024-01-24
^ "Research". openai.com. Retrieved 2024-01-24.

[1] Creighton, Jolene (2019-03-19). "The Unavoidable Problem of Self-Improvement in AI: An Interview with Ramana Kumar, Part 1". Future of Life Institute. Retrieved 2024-01-23.

[2] Heighn. "The Calculus of Nash Equilibria". LessWrong.

[3] Hutson, Matthew (2023-05-16). "Can We Stop Runaway A.I.?". The New Yorker. ISSN 0028-792X. Retrieved 2024-01-24.

[4] "Stop AGI". www.stop.ai. Retrieved 2024-01-24.

[5] "Seed AI - LessWrong". www.lesswrong.com. Retrieved 2024-01-24.

[6] Readingraphics (2018-11-30). "Book Summary - Life 3.0 (Max Tegmark)". Readingraphics. Retrieved 2024-01-23.

[7] Tegmark, Max (August 24, 2017). Life 3.0: Being a Human in the Age of Artificial Intelligence. Vintage Books, Allen Lane.

[8] Yudkowsky, Eliezer. "Levels of Organization in General Intelligence" (PDF). Machine Intelligence Research Institute.

[:1-9] Zelikman, Eric; Lorch, Eliana; Mackey, Lester; Kalai, Adam Tauman (2023-10-03), Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation, doi:10.48550/arXiv.2310.02304, retrieved 2024-01-24

[10] _sagi (2023-05-12). "SuperAGI - Opensource AGI Infrastructure". SuperAGI. Retrieved 2024-01-24.

[11] Wang, Guanzhi; Xie, Yuqi; Jiang, Yunfan; Mandlekar, Ajay; Xiao, Chaowei; Zhu, Yuke; Fan, Linxi; Anandkumar, Anima (2023-10-19), Voyager: An Open-Ended Embodied Agent with Large Language Models, doi:10.48550/arXiv.2305.16291, retrieved 2024-01-24

[:0-12] "Uh Oh, OpenAI's GPT-4 Just Fooled a Human Into Solving a CAPTCHA". Futurism. Retrieved 2024-01-23.

[13] Yuan, Weizhe; Pang, Richard Yuanzhe; Cho, Kyunghyun; Sukhbaatar, Sainbayar; Xu, Jing; Weston, Jason (2024-01-18), Self-Rewarding Language Models, doi:10.48550/arXiv.2401.10020, retrieved 2024-01-24

[14] "Research". openai.com. Retrieved 2024-01-24.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

Search