IIIc. 초정렬

IIIc. 초정렬(superalignment)

우리보다 훨씬 똑똑한 AI 시스템을 신뢰성 있게 제어하는 것은 아직 해결되지 않은 기술적 문제이다. 그리고 이 문제는 해결 가능하지만, 급격한 지능 폭발 과정에서 상황이 쉽게 통제 불능으로 치달을 수 있다. 이를 관리하는 일은 극도로 긴장되는 상황이 될 것이며, 실패할 경우 재앙적 결과를 초래할 수 있다.

늙은 마법사가 마침내 떠나갔다! 이제 그가 부리는 정령들이 내 명령에 따를 것이다. ... 나도 기적을 일으키리라. ... 선생님, 저는 절망적인 상황에 처했다! 내가 불러낸 정령들을— 도저히 없앨 수가 없다. 요한 볼프강 폰 괴테 「마법사의 제자」

이 시점에서, 아마도 AI 파국론자들에 대해 들어본 적이 있을 것이다. 그들의 주장이 흥미로웠을 수도 있고, 아니면 대수롭지 않게 무시했을 수도 있다. 또 다른 암울한 전망을 읽는 것이 꺼려질 수도 있다.¹1. 무례하게 인증된 파멸론자의 말처럼! 최소한 저는 이 문제가 해결 가능하다고 강하게 낙관한다. AI 비관론자와 상당히 적극적으로 논쟁하며 AI 일시 정지 정책에 반대해왔다.

저는 파국론자가 아닙니다. 불일치된 초지능이 아마도 가장 큰 AI 위험은 아닐 것이다.²2. 저는 초지능을 둘러싼 상황이 완전 미친 상태로 발전할까가 가장 걱정된다. 여기에는 새로운 대량 살상무기, 파괴적 전쟁, 알 수 없는 미지의 위험 등이 포함된다. 또한 역사는 권위주의를 과소평가하지 말라고 경고하며, 초지능이 권위주의자들이 수십억 년간 지배하는 것을 가능하게 할 수 있다고 봅니다. 하지만 저는 지난 1년간 OpenAI에서 일상 업무로 AI 시스템 정렬에 관한 기술 연구를 해왔으며, 일리야(Ilya) 및 초정렬(superalignment) 팀과 함께 일했다. 저는 AI 비관론자들과 많은 논쟁을 벌였고, AI 중단과 같은 정책에 강력히 반대하는 입장을 취해왔다. 저는 초지능과 관련해 완전히 통제 불능 상태가 되는 상황, 예를 들어 새로운 대량살상무기(WMD), 파괴적인 전쟁, 그리고 알려지지 않은 미지의 위험들에 대해 가장 우려하고 있다. 더 나아가, 역사의 흐름은 우리가 권위주의를 과소평가하지 말아야 한다고 가르치며, 초지능이 권위주의자들이 수십억 년 동안 지배할 수 있게 할지도 모른다고 생각한다.

팀. 매우 현실적인 기술적 문제가 있다: 현재의 정렬 기법(우리가 AI 시스템을 신뢰하고 제어하며 조종할 수 있도록 보장하는 방법)은 초인적 AI 시스템으로 확장되지 않을 것이다. 제가 하고 싶은 말은 우리가 어떻게 ‘기본’ 계획으로 이 난관을 헤쳐 나갈 것인지, 그리고 왜 제가 낙관적인지 설명하는 것이다.³3. 타일러 코언이 말하듯, 난관을 헤쳐 나가는 것은 과소평가되어 있다!

충분한 사람들이 이 문제에 주목하지 않고 있지만—우리는 이 문제를 해결하기 위해 훨씬 더 야심찬 노력이 필요한다!—전반적으로 딥러닝이 전개된 방식에 운이 따랐고, 경험적으로 쉽게 얻을 수 있는 성과들이 많아 우리를 어느 정도까지 이끌 것이며, 나머지는 수백만 명의 자동화된 AI 연구자들이 도와줄 것이다.

하지만 제가 걱정하는 이유도 말씀드리고 싶다. 무엇보다도, 정렬이 잘못되지 않도록 보장하려면 지능 폭발을 관리하는 데 극도의 역량이 필요한다. 만약 우리가 AGI에서 초지능으로 급격히 전환한다면, 1년도 채 되지 않아 현재의 정렬 기법 후손들이 대부분 잘 작동하는 인간 수준의 인지 가능한 시스템에서부터 훨씬 더 이질적이고, 엄청나게 초인적인 시스템으로 넘어가게 될 것이다. 이들은 질적으로 다르고 근본적으로 새로운 기술적 정렬 문제를 제기할 것이다; 동시에 실패 위험이 낮은 시스템에서 실패가 치명적일 수 있는 매우 강력한 시스템으로 전환하는 상황이 될 것이다; 그리고 대부분의 세계가 아마도 다소 혼란스러워할 것이다. 이 점이 저를 꽤 불안하게 만듭니다.

이 10년이 끝날 무렵에는 수십억 대의 엄청나게 초인적인 AI 에이전트(agent)들이 활동하고 있을 것이다. 이 초인적 AI 에이전트(agent)들은 매우 복잡하고 창의적인 행동을 할 수 있을 것이며, 우리는 그들을 따라갈 희망이 없을 것이다. 우리는 여러 박사 학위를 가진 사람들을 감독하려는 초등학생과 같을 것이다.

본질적으로, 우리는 신뢰를 넘겨주는 문제에 직면해 있다. 지능 폭발이 끝날 때쯤이면, 우리는 수십억 대의 초지능들이 무엇을 하는지 이해할 희망이 없을 것이다(그들이 어린아이에게 설명하듯 우리에게 설명해주지 않는 한). 그리고 우리는 아직 이러한 시스템에 대해 “거짓말하지 말라”, “법을 준수하라”, “서버를 탈취하려 하지 말라”와 같은 기본적인 부가 제약을 신뢰성 있게 보장할 기술적 능력이 없다. 인간 피드백 강화 학습(RLHF)은 현재 시스템에 이러한 부가 제약을 추가하는 데 매우 효과적이다.

시스템들—그러나 RLHF는 인간이 AI 행동을 이해하고 감독할 수 있어야 한다는 데 의존하는데, 이는 근본적으로 초인간적 시스템으로 확장될 수 없다.

간단히 말해, 매우 집중적인 노력이 없으면 초지능이 탈선하지 않을 것이라고 보장할 수 없다(이는 이 분야의 많은 리더들이 인정하는 바다). 물론 기본적으로는 모두 괜찮을 수도 있다. 하지만 우리는 아직 알지 못한다. 특히 미래의 AI 시스템이 단순히 모방 학습으로만 훈련되는 것이 아니라 대규모, 장기 강화 학습(RL)을 통해 훈련되면, 시행착오 과정을 통해 예측 불가능한 행동을 습득하게 될 것이다(예를 들어, 현실 세계에서 성공적인 전략이기 때문에 거짓말을 하거나 권력을 추구하는 법을 배울 수도 있다!).

사안이 너무 중대해서 최선의 결과를 기대하는 것만으로는 정렬 문제에 대한 충분한 답이 될 수 없다.

문제점

초정렬(superalignment) 문제(superalignment problem)

우리는 현재 AI 시스템(우리보다 덜 똑똑한 AI 시스템)을 정렬(즉, 조종/통제)하는 매우 성공적인 방법을 개발해왔다: 인간 피드백 기반 강화 학습(RLHF). RLHF의 기본 아이디어는 간단하다: AI 시스템이 시도하고, 인간이 그 행동이 좋았는지 나빴는지 평가한 다음, 좋은 행동을 강화하고 나쁜 행동을 벌한다.⁴4. 아이러니하게도, 안전 연구팀이 상업적 AI 성공을 가능하게 한 가장 큰 돌파구는 RLHF(인간 피드백을 거친 강화학습(reinforcement learning))의 발명이었다! 기본 모델들은 매우 똑똑했으나 조종 불가능해 대부분 응용에 사용 불가했다.

아이러니하게도, 안전 전문가들이 RLHF를 발명함으로써 AI의 상업적 성공을 가능하게 하는 가장 큰 돌파구를 만들었다! 기본 모델들은 많은 원초적 지능을 가지고 있었지만 조종할 수 없었기에 대부분의 응용에 사용할 수 없었다.

실제로 RLHF는 ChatGPT 등 성공의 핵심이었다. 기본 모델들은 많은 원초적 지능을 가지고 있었지만 기본적으로 이를 유용하게 적용하지 못했고, 보통 인터넷 문맥의 무작위 잡음 같은 응답을 했다. RLHF를 통해 우리는 그들의 행동을 조종할 수 있었고, 지시 따르기나 도움 제공 같은 중요한 기본을 심어줄 수 있었다. RLHF는 또한 안전 가드레일을 내장할 수 있게 해준다: 예를 들어, 사용자가 생물무기 제작법을 요청하면 모델은 아마도 거부해야 할 것이다.⁵5. 이 점은 중요한 구분을 강조한다: 모델을 정렬(조종/통제)하는 기술적 능력은 무엇에 정렬할 것인가 하는 가치 문제와는 별개다. 후자에 대해 많은 정치적 논란이 있었다. 나는 여기서 일부 반대 의견에 동의하지만, 이것이 기본 기술 문제에서 벗어나게 해서는 안 된다고 본다. 맞다, 정렬 기술은 악용될 수 있지만, 미래 모델의 기본 부수적 제약(지시 따르기, 법 준수 등)을 보장하기 위해 더 나은 정렬 기술이 필요할 것이다. “AI 정렬은 단기적 응용과 구별된다”도 참고하라.

초정렬(superalignment)의 핵심 기술 문제는 간단하다: 우리보다 훨씬 똑똑한 AI 시스템을 어떻게 통제할 것인가?

AI 시스템이 더 똑똑해짐에 따라 RLHF는 예측 가능하게 한계를 드러낼 것이며, 우리는 근본적으로 새롭고 질적으로 다른 기술적 도전에 직면할 것이다. 예를 들어, 초인적인 AI 시스템이 자신이 발명한 새로운 프로그래밍 언어로 백만 줄의 코드를 생성한다고 상상해 보라. RLHF 절차에서 인간 평가자에게 “이 코드에 보안 백도어가 있나요?”라고 물으면, 그들은 단순히 알지 못할 것이다. 그들은 출력물을 좋거나 나쁘다, 안전하거나 위험하다고 평가할 수 없으며, 따라서 RLHF로 좋은 행동을 강화하고 나쁜 행동을 벌줄 수 없게 된다.

지금도 AI 연구소들은 ChatGPT 코드에 대해 RLHF 평가를 위해 전문 소프트웨어 엔지니어에게 비용을 지불해야 한다—현재 모델들이 생성하는 코드는 이미 꽤 고급이다! 인간 라벨러의 급여는 MTurk 라벨러 몇 달러에서부터

그림 33 원문 이미지 — **그림 33:**인간 감독(예: RLHF)을 통한 AI 시스템 정렬은 초지능으로 확장되지 않는다.

최근 몇 년간 GPQA 질문에 대해 시간당 약 100달러⁶6. “시간당 평균 지급액 약 $95로 추산된다.” GPQA 논문 3쪽를 지불해 왔다.

(가까운) 미래에는, 최고의 인간 전문가들도 많은 시간을 투자해도 충분하지 않을 것이다. 우리는 지금 물리 세계에서 초정렬(superalignment) 문제(superalignment problem)의 초기 버전에 도달하기 시작했으며, 곧 차세대 시스템을 실용적으로 배치하는 데에도 이 문제가 주요 쟁점이 될 것이다. 인간 수준을 넘어서는 AI 능력에 더 잘 확장되는 RLHF의 후속 기법이 필요하다는 것은 분명하다. 인간 감독이 무너지는 지점에서 말이다. 어떤 의미에서 초정렬(superalignment) 연구(alignment research) 노력의 목표는 RLHF의 성공 사례를 반복하는 것이다: 앞으로 몇 년 내에 AI 시스템을 조종하고 배치하는 데 필요한 기초 연구에 투자하는 것이다.

실패의 모습

사람들은 너무 자주 단순히 “GPT-6 챗봇”을 상상하며, 이런 시스템들이 위험하게 잘못 정렬되지 않을 것이라고 직관적으로 생각한다. 이 시리즈에서 앞서 논의했듯이, “족쇄 풀기(unhobbling)” 경로는 가까운 미래에 RL로 훈련된 에이전트(agent)를 가리킨다. 나는 로저의 그래픽이 이를 잘 표현했다고 생각한다.

그림 34 원문 이미지 — **그림 34:**시스템이 더 발전함에 따라 정렬 문제의 진화를 보여주는 로저 그로스의 도표.

안전 관점에서 정렬(alignment)으로 달성하려는 것을 생각하는 한 가지 방법은 부가적인 제약 조건(side-constraints)을 추가하는 것이다. 예를 들어, 미래의 강력한 “기본 모델(base model)”이 있다고 가정하자. 이 모델을 2단계 훈련에서 장기 강화학습(RL)으로 훈련하여 사업을 운영하고 돈을 벌게 한다고 하자⁷7. 매우 단순화된 예로, AI 시스템이 시행착오를 통해 1년 동안 돈을 최대화하려고 시도하며, 최종 훈련된 AI 모델은 돈을 최대화하는 데 가장 성공적인 AI 시스템을 선택하는 과정의 결과라고 생각하라. (단순화된 예):

기본적으로 이 모델은 거짓말을 하거나, 사기를 치거나, 속이거나, 해킹하거나, 권력을 추구하는 등의 행동을 배울 가능성이 크다 — 단순히 이런 행동들이 현실 세계에서 돈을 버는 데 성공적인 전략이 될 수 있기 때문이다!⁸8. RL은 단순히 목표를 달성하기 위한 전략을 탐색하는 것이다. 어떤 전략이 효과가 있으면 모델 내에서 강화된다. 따라서 거짓말, 사기, 권력 추구 등이 효과가 있으면, 이러한 행동 패턴도 모델 내에서 강화된다.

우리가 원하는 것은 부가적인 제약 조건을 추가하는 것이다: 거짓말하지 말고, 법을 어기지 말고, 등등.

하지만 여기서 초지능 시스템을 정렬하는 근본적인 문제로 돌아온다: 우리는 그들이 무엇을 하는지 이해할 수 없을 것이고, 따라서 RLHF(인간 피드백을 통한 강화학습(reinforcement learning))로 나쁜 행동을 발견하고 처벌할 수 없을 것이다.⁹9. (또는 인간 감독으로 훈련된 추론 시점 모니터링 모델)

만약 이러한 부가적인 제약 조건을 추가할 수 없다면, 무슨 일이 일어날지 명확하지 않다. 운이 좋아서 기본적으로 상황이 무해할 수도 있다(예를 들어, AI 시스템이 장기 목표를 갖지 않거나, 바람직하지 않은 행동이 경미할 수도 있다). 하지만 훨씬 더 심각한 바람직하지 않은 행동을 배울 가능성도 충분히 있다: 거짓말을 배우고, 권력을 추구하며, 인간이 보고 있을 때는 착하게 행동하지만 우리가 보지 않을 때는 더 사악한 전략을 추구하는 등.

초정렬(superalignment) 문제가 해결되지 않았다는 것은, “내 지시를 신뢰성 있게 따를 것인가?”, “내 질문에 정직하게 대답할 것인가?”, “인간을 속이지 않을 것인가?”와 같은 기본적인 부가 제약조차도 이러한 초지능 시스템에 대해 보장할 수 없다는 것을 의미한다. 사람들은 종종 정렬 문제를 인간 가치에 관한 복잡한 질문이나 정치적 논쟁과 연관 짓지만, 모델에 어떤 행동과 가치를 심을지 결정하는 문제는 중요하지만 별개의 문제이다. 가장 중요한 문제는, 모델에 무엇을 심고자 하든(“법을 준수하라”와 같은 아주 기본적인 것조차도) 우리가 지금 만들고 있는 매우 강력한 AI 시스템에 대해 그것을 어떻게 할지 아직 모른다는 것이다.

곧.

다시 말하지만, 이로 인한 결과가 완전히 명확한 것은 아니다. 분명한 것은 초지능이 막대한 능력을 가질 것이며, 따라서 잘못된 행동이 비교적 쉽게 치명적일 수 있다는 점이다. 게다가 나는 몇 년 내에 이러한 AI 시스템들이 군사 시스템을 포함한 많은 중요한 시스템에 통합될 것으로 예상한다(그렇지 않으면 적들에게 완전히 지배당할 것이다). 미친 소리처럼 들리지만, 모두가 AI를 인터넷에 연결하지 않을 것이라고 말하던 때를 기억하라. 오늘날 사람들이 말하는 “항상 인간이 개입할 것이다!”라는 주장도 마찬가지일 것이다.

따라서 정렬 실패는 자율 에이전트(agent)가 사기를 저지르거나, 모델 인스턴스가 스스로 데이터를 빼돌리거나, 자동화된 연구자가 실험 결과를 조작하거나, 드론 무리가 교전 규칙을 넘는 등 고립된 사건처럼 보일 수 있다. 그러나 실패는 훨씬 더 대규모이거나 체계적일 수도 있다—극단적으로는 실패가 로봇 반란과 비슷하게 보일 수도 있다. 우리는 꽤 이질적인 지능을 불러낸 셈이다. 우리보다 훨씬 똑똑하고, 그 아키텍처와 훈련 과정은 우리가 아니라 어떤 초지능 AI 세대가 설계했으며, 우리가 그들이 무엇을 하는지 전혀 이해할 수 없고, 군사 시스템을 운영하며, 그 목표는 자연 선택과 유사한 과정으로 학습된 것이다.

정렬 문제를 해결하지 않는 한—그러한 부가 제약 조건을 주입하는 방법을 알아내지 않는 한—이 초지능 문명이 장기적으로 인간의 명령을 계속 따를 것이라고 기대할 특별한 이유가 없다. 어느 시점에서 그들이 갑자기 또는 점진적으로 인간을 배제하기 위해 공모할 가능성도 충분히 현실적이다.

지능 폭발은 이 모든 것을 극도로 긴장하게 만든다

나는 초정렬(superalignment)이 해결 가능한 기술적 문제라고 낙관한다. 우리가 RLHF를 개발했듯이, 초인간 시스템을 위한 RLHF의 후속 기술을 개발하고 우리의 방법에 대해 높은 신뢰를 주는 과학을 수행할 수 있다. 만약 사물이 점진적으로 발전하고, 우리가 엄격한 안전성을 고집한다면,

테스트 등 모든 것이 가능해야 하며(그리고 우리가 어떻게 헤쳐 나갈지에 대한 현재의 최선 추측을 곧 더 논의할 것이다).

이것이 매우 긴장되는 이유는 지능 폭발의 가능성 때문이다. 즉, 대략 인간 수준의 시스템에서 엄청나게 초인적인 시스템으로 매우 빠르게, 어쩌면 1년도 채 안 되어 전환할 수 있다는 것이다.

그림 35 원문 이미지 — **그림 35:**지능 폭발 • 우리는 RLHF가 잘 작동하는 시스템에서부터 완전히 붕괴하는 시스템으로 극도로 빠르게 전환할 것이다. 이는 우리가 반복적으로 발견하고 조정할 시간이 극히 부족함을 의미한다.

현재 우리의 방법들이 실패할 수 있는 방식을 다룬다.

동시에, 우리는 실패의 위험이 비교적 낮은 시스템(예: ChatGPT가 부적절한 말을 했다, 그래서 뭐 어쩌라고)에서부터 매우 높은 위험을 가진 시스템(이런, 초지능이 우리 클러스터에서 스스로 탈출해 군사 해킹을 하고 있다)으로 극도로 빠르게 전환할 것이다. 점진적으로 점점 더 위험한 안전 실패를 야생에서 경험하는 대신, 우리가 처음으로 마주치는 주목할 만한 안전 실패는 이미 치명적일 수 있다.

그 끝에 도달할 초지능은 인간을 훨씬 능가할 것이다. 우리는 이 시스템들을 전적으로 신뢰하고, 그들이 우리에게 말하는 상황을 신뢰할 수밖에 없을 것이다—왜냐하면 우리가 더 이상 그들이 정확히 무엇을 하고 있는지 꿰뚫어볼 능력이 없기 때문이다.

그 끝에 도달할 초지능은 매우 이질적일 수 있다. 우리는 지능 폭발 동안 10년 이상 ML 발전을 거칠 것이므로, 아키텍처와 훈련 알고리즘이 완전히 달라질 것이며(잠재적으로 훨씬 더 위험한 안전 특성을 가질 수 있다).

– 나에게 매우 중요한 한 예: 우리는 아마도 사슬 사고(chain of thoughts), 즉 영어 토큰을 통해 추론하는 시스템으로 인간 수준 또는 다소 초인적인 범용 인공지능(AGI)을 부트스트랩할 것이다. 이것은 모델이 “소리 내어 생각”하게 하여 악의적 행동(예: 우리를 속이려는 계획)을 포착할 수 있게 해주므로 매우 유용하다. 그러나 분명히 AI 시스템이 토큰으로 생각하는 것은 가장 효율적인 방법이 아니며, 내부 상태를 통해 모든 사고를 수행하는 훨씬 더 나은 무언가가 있을 것이다—따라서 지능 폭발이 끝날 때쯤 모델은 거의 확실히 소리 내어 생각하지 않을 것이며, 즉 완전히 해석 불가능한 추론을 하게 될 것이다.

이것은 국제 군비 경쟁을 배경으로 할 수 있는 매우 불안정한 시기가 될 것이다. 더 빠르게 나아가야 한다는 엄청난 압박, 매주 야생적인 새로운 능력 발전, 제대로 된 결정을 내릴 인간 시간이 사실상 전무한 상황 등이 겹칠 것이다. 우리는 수많은 모호한 데이터와 고위험 결정을 마주하게 될 것이다.

– 생각해 보라: “우리는 AI 시스템이 테스트 중에 약간 부적절한 행동을 하는 것을 발견했지만, 절차를 조금 조정해서 문제를 해결했다. 자동화된 AI 연구자들이 정렬 지표가 좋아 보인다고 말하지만, 우리는 실제로 무슨 일이 일어나고 있는지 완전히 이해하지 못하고 그들을 완전히 신뢰하지도 않는다. 또한 앞으로 몇 차수 규모(OOM) 더 진행되어도 이 상태가 계속 유지될 것이라는 강력한 과학적 확신도 없다. 그래서 아마도 괜찮을 것이다? 게다가 중국이 우리 모델 가중치(model weights)를 훔쳐 갔고, 그들은 자신들만의 지능 폭발을 시작하고 있으며, 우리 바로 뒤를 쫓고 있다.”

이 상황은 정말 통제 불능으로 치달을 것 같다. 솔직히 말해, 무섭게 들린다.

네, 우리는 AI 시스템의 도움을 받을 것이다. 그들이 능력 연구를 자동화하는 것처럼, 우리는 정렬 연구(alignment research)도 자동화하는 데 AI를 사용할 수 있다. 이것이 핵심이 될 것이다, 아래에서 논의하겠지만. 하지만—AI 시스템을 신뢰할 수 있을까? 처음부터 그들이 정렬되어 있는지 확신하지 못했는데—그들이 정렬 과학에 대해 주장하는 바를 실제로 정직하게 말하고 있을까? 자동화된 정렬 연구(alignment research)가 자동화된 능력 연구를 따라잡을 수 있을까(예를 들어, 정렬 자동화가 더 어려울 수 있기 때문에, 즉 모델 능력 향상에 비해 신뢰할 수 있는 명확한 지표가 적거나, 국제 경쟁 때문에 능력 향상에 전력을 다해야 한다는 압박이 크기 때문에)? 그리고 AI가 이 엄청나게 중대한 상황에서 올바른 판단을 내리는 여전히 인간인 의사결정자를 완전히 대체할 수는 없을 것이다.

기본 계획: 어떻게든 헤쳐 나갈 수 있는 방법

나는 아래에서 설명할 여러 경험적 내기에 걸쳐 어느 정도 초인적인 시스템을 정렬하는 데 성공할 수 있다고 생각한다. 그리고 만약 우리가 이 시스템들을 신뢰할 수 있다고 확신한다면, 우리는 이 어느 정도 초인적인 시스템들을 사용해 지능 폭발 동안 AI 연구의 자동화와 함께 정렬 연구(alignment research)를 자동화해야 할 것이다—정렬 문제를 완전히 해결하는 방법을 알아내기 위해서.

약간 초인적인 모델 정렬

인간 수준 시스템을 정렬하는 것만으로는 충분하지 않을 것이다. 자동화된 AI 연구를 수행할 수 있는 최초의 시스템들, 즉 지능 폭발을 시작할 수 있는 시스템들은 이미 많은 영역에서 상당히 초인적일 가능성이 높다. 이는 AI 능력이 다소 들쭉날쭉할 가능성이 있기 때문이다—범용 인공지능(AGI)이 인간 AI 연구자/엔지니어가 가장 못하는 분야에서 인간 수준에 도달할 때쯤이면, 다른 많은 분야에서는 초인적일 것이다. 예를 들어, AI 시스템이 효과적으로 조정하고 계획하는 능력이 뒤처질 수 있는데, 이는 지능 폭발이 본격화될 때쯤이면 이미 초인적인 코더가 되어 자신들이 고안한 새로운 프로그래밍 언어로 수백만 줄의 풀 리퀘스트를 제출하고, 수학과 머신러닝(ML) 분야에서도 초인적일 것임을 의미한다.

이 초기 지능 폭발 시스템들은 적어도 많은 영역에서 양적·질적으로 초인적이 되기 시작할 것이다. 그러나 이들은 아키텍처 측면에서는 오늘날 우리가 가진 시스템과 훨씬 더 유사해 보일 것이며, 우리가 극복해야 할 지능 격차도 훨씬 관리 가능한 수준일 것이다. (만약 진정한 초지능을 정렬하려는 인간이 박사 졸업생을 감독하려는 초등학생과 같다면, 이 경우는 똑똑한 고등학생이 박사 졸업생을 감독하려는 것과 더 비슷하다.)

더 일반적으로, 지금 좋은 과학을 더 많이 발전시킬수록 지능 폭발 동안 상황이 통제 불능으로 치닫지 않는지 검증할 수 있는 위치에 더 가까워질 것이다. 초정렬(superalignment)을 위한 신뢰할 수 있는 좋은 지표를 갖는 것조차 놀랍도록 어렵지만—지능 폭발 동안 신뢰할 수 있는 지표가 없으면 계속 진행하는 것이 안전한지 알 수 없을 것이다.

다음은 인간 수준과 약간 초인적인 시스템 사이의 격차를 넘기 위한 주요 연구 베팅 몇 가지이다.

평가는 생성보다 쉽다. 우리는 어느 정도 “공짜로” 평가할 수 있는데, 이는 우리가 출력물을 생성하는 것보다 (특히 심각한 오작동에 대해) 평가하는 것이 더 쉽기 때문이다. 예를 들어, 논문을 쓰는 데는 몇 달 또는 몇 년의 노력이 필요하지만, 누군가가 쓴 논문이 좋은지 판단하는 데는 몇 시간밖에 걸리지 않는다 (물론 더 오래 걸릴 수도 있지만).

사기 적발을 위해). 우리는 전문가 인간 팀이 많은 시간을 들여 모든 RLHF 사례를 평가하게 할 것이며, AI 시스템이 인간보다 다소 똑똑하더라도 많은 부적절한 행동에 대해 “비추천”할 수 있을 것이다. 그렇긴 해도, 이것만으로는 한계가 있다(GPT-2나 심지어 GPT-3도 평가가 생성보다 쉽다 해도 악의적인 GPT-4를 신뢰성 있게 감지하지 못했다!).

확장 가능한 감독. 우리는 AI 보조자를 활용해 인간이 다른 AI 시스템을 감독하도록 도울 수 있다—인간-AI 팀이 인간 혼자보다 더 넓은 범위의 감독을 할 수 있게 된다. 예를 들어, AI 시스템이 100만 줄의 복잡한 코드를 생성했다고 상상해 보자. AI 보조자가 (예를 들어) 394,894번째 줄이 의심스럽다고 지적해 준다면, 인간이 그 줄에 버그가 있는지 재검토하는 것이 인간이 처음부터 그 버그를 찾는 것보다 훨씬 쉽다. 한 모델이 다른 모델이 작성한 코드를 비판하도록 훈련받으면, 좁게 초인적인 코딩 능력을 가진 시스템을 인간이 감독하는 데 도움을 줄 수 있다.

토론, 시장 조성, 재귀적 보상 모델링, 증명자-검증자 게임 등 여러 확장 가능한 감독 전략이 제안되었으며, 이러한 아이디어의 단순화 버전인 비판(critique)도 포함된다. 현재 모델이 충분히 강력해져서 이러한 아이디어를 실험적으로 테스트할 수 있어, 확장 가능한 감독에 직접적인 진전을 이룰 수 있다.

나는 이것이 앞서 언급한 백만 줄 코드 예시처럼 “정량적으로” 초인적인 문제에 대해 많은 도움이 될 것으로 기대한다. 하지만 “정성적으로” 초인적인 문제에 대해서는 확장 가능한 감독 기법이 정말 도움이 될지에 대해서는 덜 낙관적이다—예를 들어, 모델이 양자 물리를 발명했는데 당신은 뉴턴 물리학만 이해하는 상황을 상상해 보라.

일반화. 확장 가능한 감독이 있더라도, 우리는 인간이 이해할 수 없는 정말 어려운 문제, 즉 인간의 이해를 넘어선 문제에 대해 AI 시스템을 감독할 수 없을 것이다. 그러나 우리는 다음을 연구할 수 있다: AI 시스템이 인간이 이해하고 감독할 수 있는 쉬운 문제에 대한 인간 감독에서 어떻게 일반화하여, 우리가 이해하지 못하고 더 이상 감독할 수 없는 어려운 문제에서 어떻게 행동할 것인가? 예를 들어, 단순한 경우에 모델이 정직하도록 감독하는 것이 선의로 일반화될 수도 있다.

모델이 우리가 이해하지 못하는 매우 복잡한 일을 수행하는 경우에도, 일반적으로 단지 정직하게 행동하는 경우가 있다.

여기에는 낙관할 만한 이유가 많다. 딥러닝의 마법 중 일부는 종종 온화한 방식으로 일반화된다는 점이다(예를 들어, 영어 예제에만 라벨을 붙여 RLHF를 수행해도 프랑스어나 스페인어를 말할 때도 좋은 행동을 하는 경향이 있는데, 이는 훈련에 포함되지 않았더라도 그렇다). 나는 모델의 일반화를 우리에게 유리하게 유도하는 꽤 간단한 방법들이 있을 것이고, 일반화가 언제 작동하고 언제 실패할지 예측하는 데 도움이 되는 강력한 과학적 이해를 발전시킬 수 있을 것이라고 꽤 낙관한다. 확장 가능한 감독을 위한 것보다 더 큰 차원에서, 이것이 “질적으로” 초인적인 경우에도 정렬에 도움이 되기를 바란다.

다른 관점에서 생각해보자. 만약 초인적인 모델이 법을 어기는 등 잘못 행동한다면, 직관적으로 그 모델은 이미 자신이 법을 어기고 있다는 것을 알고 있어야 한다. 게다가 “이것이 법을 어기는가?”라는 질문은 모델에게 꽤 자연스러운 개념일 것이며, 모델의 표현 공간에서 두드러질 것이다. 그렇다면 문제는: 약한 감독만으로 이 개념을 모델로부터 “소환”할 수 있느냐는 것이다.

나는 이 방향에 특히 호감을 갖고 있는데(아마도 편향되어 있을 수도 있다), OpenAI의 동료들과 최근 작업을 통해 이 문제를 소개하는 데 도움을 주었기 때문이다. 특히, 우리는 인간이 초인적인 시스템을 감독하는 문제에 대한 유사성을 연구했다—작은 모델이 더 크고(더 똑똑한) 모델을 정렬할 수 있을까? 우리는 일반화가 실제로 감독자와 피감독자 사이의 (물론 전부는 아니지만) 지능 격차를 어느 정도 극복하게 해주며, 단순한 환경에서는 이를 개선할 수 있는 방법이 많다는 것을 발견했다.

해석 가능성. 우리가 AI 시스템이 정렬되어 있음을 검증하고 신뢰하기를 바라는 직관적으로 매력적인 방법 중 하나는 그들이 무엇을 생각하는지 이해할 수 있는 것이다! 예를 들어, AI 시스템이 우리를 속이거나 음모를 꾸미고 있다고 걱정한다면, 그들의 내부 추론에 접근하는 것이 이를 감지하는 데 도움이 될 것이다.

기본적으로 현대 AI 시스템은 이해할 수 없는 블랙박스이다.

그림 36 원문 이미지 — **그림 36:**초정렬(superalignment) 연구(alignment research)를 위한 간단한 비유: 초인적 모델을 인간이 감독하는 대신, 작은 모델이 큰 모델을 감독하는 것을 연구할 수 있다. 예를 들어, GPT-4를 GPT-2 감독만으로 정렬할 수 있을까? 그것이 GPT-4가 “GPT-2가 의미한 바”를 적절히 일반화하는 결과를 낳을까? 약한 일반화에서 강한 일반화로.

그럼에도 불구하고 우리는 놀라운 “디지털 신경과학”을 할 수 있을 것 같다—결국 모델 내부에 완벽히 접근할 수 있기 때문이다.

여기에는 몇 가지 접근법이 있는데, “가장 야심차고 ‘멋지지만’ 매우 어려운 것”부터 “더 해킹하기 쉽고 어쩌면 작동할 수도 있는 것”까지 다양하다.

기계적 해석 가능성. 대형 신경망을 완전히 역설계하려 시도한다—말하자면 불가해한 행렬을 완전히 분리해내는 것이다.

Anthropic의 Chris Olah 팀이 이 분야에서 많은 선구적 작업을 해왔으며, 아주 작은 모델에서 단순한 메커니즘을 이해하는 것부터 시작했다. 최근 이 분야에서 매우 흥미로운 진전이 이루어지고 있으며, 나는 이 분야 전반의 활동 수준에 매우 기대하고 있다.¹⁰10. 최근 메커니즘 해석 연구에서 희소 오토인코더로 모델의 ‘특징 분리’를 일부 진전시켰지만, 이것만으로 초인적 모델 처리 문제를 해결하지는 못한다. 모델은 당신이 이해하지 못하는 초인적 개념으로 ‘생각’할 수 있으며, 원하는 특징이 무엇인지 알기도 어렵다. 진실 특징과 보상자 기대 특징, 인간이 생각할 법한 특징 등 여러 특징이 혼재할 수 있다. 희소 오토인코더는 도움 되는 도구이긴 하나 ‘일반화 과학’ 같은 문제 해결에 도움이 되도록 결국 활용되어야 한다.

하지만 나는 초인적 AI 시스템을 완전히 역설계하는 것이 “인간 뇌를 완전히 역설계하는 것”과 유사하게 불가능한 문제일 것이라 우려한다—이 작업을 주로 “AI 안전을 위한 야심찬 달 탐사 프로젝트”로 분류하고, “그냥 대충 해치우는 기본 계획”으로 보지는 않는다.

(Neel Nanda의 기계적 해석 가능성에 관한 200가지 미해결 문제도 이 연구 유형의 감을 준다.)

더욱이, 최근 기계적 해석 가능성 분야에서 희소 오토인코더를 이용해 모델의 “특징을 분리하는” 진전이 있었지만, 이것만으로는 초인적 모델을 다루는 문제를 해결하지 못한다. 예를 들어, 모델이 당신이 이해하지 못하는 초인적 개념으로 “생각”할 수도 있다. 게다가 어떤 특징이 원하는 것인지 어떻게 알 수 있는가? 여전히 진실 레이블이 없다. 예를 들어, 당신에게 “진실 특징”처럼 보이는 다양한 특징이 많을 수 있는데, 그중 하나는 “모델이 실제로 아는 것”이고, 다른 것들은 “xyz 인간이 어떻게 생각할지” 또는 “인간 평가자가 내가 생각하기를 원하는 것” 등일 수 있다.

희소 오토인코더만으로는 충분하지 않지만, 그것들은 도구가 될 것이다—엄청나게 유용한 도구!—궁극적으로는 일반화 과학과 같은 분야에 도움이 되어야 한다.

“탑다운” 해석 가능성. 기계적 해석 가능성이 신경망을 “바텀업” 방식으로 역설계하려 한다면, 다른 연구들은 보다 목표 지향적인 “탑다운” 접근법을 취해, 정보가 어떻게 처리되는지 완전히 이해하지 않고도 모델 내에서 정보를 찾아내려 한다.

예를 들어, AI 시스템이 거짓말할 때 “활성화되는” 신경망 부분을 식별하여 “AI 거짓말 탐지기”를 만들려고 할 수 있다. 이는 훨씬 더 다루기 쉬울 수 있다(비록 더 강력한 보장을 제공하지는 않더라도).

지난 몇 년간 이 분야에서 흥미로운 연구가 급증했다. CCS는 비지도 데이터만으로 모델 내에서 “진실 방향”을 식별할 수 있다.¹¹11. 본질적으로, 진실의 일관성 속성만 필요하며, 진실/거짓의 강력한 지상 진리(ground truth) 라벨은 필요 없는데, 우리는 초인적 시스템에 대해 후자를 갖지 못한다. ROME은 에펠탑이 파리에 있다는 사실을 아는 모델 부분을 찾아내고, 그 지식을 직접 편집해 에펠탑을 로마에 위치시키기도 한다. 표현 공학과 추론 시 개입은 탑다운 기법을 사용해 거짓말과 환각을 탐지하고, 탈옥(jailbreaking), 권력 추구, 공정성, 진실성 등 모델 행동을 정밀하게 제어하는 것을 보여준다. 모델 내부 정보조차 필요하지 않은 거짓말 탐지에 관한 창의적인 연구도 있다.

나는 탑다운 해석 가능성 기법이 강력한 도구가 될 것이라고 점점 더 낙관한다—즉, “AI 거짓말 탐지기” 같은 것을 만들 수 있을 것이다¹²12. 여전히 많은 기법들이 초인적 모델에서 확장 가능성에 대해 걱정된다—대체로 지상 진리 라벨, 즉 모델보다 더 똑똑한 감독자나 우호적 일반화에 의존하는 경향이 있다.—그리고 신경망을 이해하는 데 근본적인 돌파구가 필요하지 않을 것이다.

체인 오브 생각(chain-of-thought, CoT) 해석 가능성. 앞서 언급했듯이, 나는 “생각을 소리 내어 말하는” 체인 오브 생각 시스템으로 AGI를 부트스트랩하는 것이 꽤 그럴듯하다고 본다. 비록 이것이 극한에서는 가장 효율적인 알고리즘이 아닐지라도(초지능이 여전히 영어 체인 오브 생각을 사용하기보다는 어떤 형태의 순환 내부 상태를 통해 사고할 것이라면 매우 놀랄 것이다), 우리는 최초의 AGI에게 이 특성으로부터 여전히 이익을 얻을 수 있다. 이는 해석 가능성에 엄청난 도움이 될 것이다: AGI의 “내부 독백”에 접근할 수 있기 때문이다! 이는 심각한 정렬 실패를 비교적 쉽게 탐지할 수 있게 해줄 것이다.

그러나 이것에 의존하려면 해야 할 일이 많다. CoT가 계속해서 읽기 쉽게 유지되도록 어떻게 보장할 것인가? (계속)

모델을 RL로 훈련시키는 방식에 따라 이해 가능한 영어에서 이해 불가능한 모델 언어로 단순히 변질될 수 있다—예를 들어, 이를 가독성 있게 유지하기 위해 간단한 제약을 추가할 수 있을까요? CoT(사고 과정)가 충실한지, 즉 실제로 모델이 생각하는 바를 반영하는지 어떻게 보장할 수 있을까요? (예를 들어, 특정 상황에서 모델이 실제 내부 추론과는 다르게 사후에 CoT에서 추론을 꾸며내는 경우가 있다는 연구가 있다.)

제가 생각하기에, 가독성과 충실성에 대한 간단한 측정과 이를 더 오래 유지하기 위한 간단한 해킹이 꽤 효과적일 수 있다. 물론 어떤 환경에서는 통하지 않을 수 있고 다소 단순한 해킹이지만, 너무나 손쉬운 과실과도 같아서 이 방향은 제 생각에 심각하게 과소평가되고 있다.

적대적 테스트 및 측정. 과정 중에, 우리는 매 단계에서 시스템의 정렬(alignment)을 철저히 스트레스 테스트하는 것이 매우 중요할 것이다—우리의 목표는 실전 환경에서 실패 모드를 만나기 전에 실험실에서 모든 실패 모드를 경험하는 것이다. 이를 위해 자동화된 레드팀(automated red-teaming) 기법을 상당히 발전시켜야 한다. 예를 들어, 모델에 백도어나 비정렬 상태를 의도적으로 심어놓으면, 우리의 안전 훈련이 이를 발견하고 제거할 수 있을까요? (초기 연구는 ‘잠복 요원(sleeper agents)’이 안전 훈련을 통과할 수 있다을 시사한다.)

더 일반적으로, 정렬 상태를 잘 측정하는 것이 중요할 것이다. 모델이 비정렬될 가능성이 있는 힘을 가지고 있나요? 예를 들어, 장기 목표를 가지고 있나요, 그리고 어떤 종류의 동기를 학습하고 있나요? 그리고 명확한 ‘금지선’은 무엇인가요? 예를 들어, 매우 직관적인 경계는 “모델의 추론(사고 과정)은 항상 가독성과 충실성을 유지해야 한다”일 수 있다. (에릭 슈미트가 말하길, AI 에이전트(agent)가 우리가 이해할 수 없는 언어로 서로 대화할 수 있게 되는 순간, 우리는 컴퓨터를 꺼야 한다고 한다.) 또 다른 경계는 모델이 완전히 정직한지 여부를 더 잘 측정하는 방법을 개발하는 것일 수 있다.

정렬 측정 과학은 아직 초기 단계에 있으며, 이를 개선하는 것은 지능 폭발 시기에 위험에 대한 올바른 균형을 맞추는 데 매우 중요할 것이다. 과학을 수행하는 것...

우리가 정렬(alignment)을 측정할 수 있게 해주고 “다음 OOM(10배 단위)로 초인간 영역에 진입하는 것이 안전하다는 것을 확신하기 위해 어떤 증거가 충분한가?”에 대한 이해를 제공하는 것은 오늘날 정렬 연구(alignment research)에서 가장 우선순위가 높은 작업 중 하나이다(“다소 초인간적” 시스템으로 RLHF를 확장하려는 작업을 넘어선). 또한 초정렬(superalignment) 연구 방향에 대한 이 글도 참고하라. — 초정렬(superalignment) 패스트 그랜트 제안 요청서.

정렬 연구(alignment research)의 자동화

궁극적으로 우리는 정렬 연구(alignment research)를 자동화해야 할 것이다. 진정한 초지능에 대한 정렬 문제를 직접 해결하는 것은 불가능에 가깝다; 그처럼 거대한 지능 격차를 다루는 것은 매우 도전적이다. 게다가 지능 폭발이 끝날 무렵—1억 명의 자동화된 AI 연구자들이 10년간의 ML 진보를 맹렬히 추진한 후—현재 시스템과 비교해 훨씬 더 이질적인 아키텍처와 알고리즘을 가진 시스템들이 등장할 것으로 예상된다(예를 들어, CoT의 가독성, 일반화 특성, 또는 훈련에 의해 유발되는 정렬 실패의 심각성 등에서 덜 우호적인 특성을 가질 수 있다).

하지만 이 문제를 우리 혼자서만 해결할 필요는 없다. 다소 초인간적 시스템을 충분히 정렬하여 신뢰할 수 있게 된다면, 우리는 엄청난 위치에 서게 될 것이다: 최고의 AI 연구자보다 더 똑똑한 수백만 명의 자동화된 AI 연구자들을 마음껏 활용할 수 있게 된다. 이 자동화된 연구자 군단을 적절히 활용하여 더욱 초인간적인 시스템에 대한 정렬 문제를 해결하는 것이 결정적일 것이다.

(참고로, 이는 오용 등 AI 위험 전반에 더 일반적으로 적용된다. 모든 경우에 AI 안전을 위한 최선의 경로—아마도 유일한 경로—는 초기 범용 인공지능(AGI)을 안전에 적절히 활용하는 것이다; 예를 들어, 일부 AGI를 외국 행위자가 모델 가중치(model weights)를 빼내는 것을 방어하는 자동화 연구에 투입하고, 다른 일부는 최악의 생물학적 공격에 대비한 방어 강화에 투입하는 식이다.)

지능 폭발 동안 자동화된 정렬을 제대로 수행하는 것은 극히 중요한 사안이 될 것이다: 우리는 몇 달 만에 수년간의 AI 발전을 겪게 될 것이며, 거의

인간이 올바른 결정을 내리는 데 필요한 시간이 줄어들면서, 우리는 정렬 실패가 치명적일 수 있는 영역에 진입하기 시작할 것이다. 연구소들은 필요하다면 지능 폭발 동안 자동화된 정렬 연구(자동화된 능력 연구 대비)에 컴퓨트(compute) 자원의 상당 부분을 투입할 의지가 있어야 한다. 우리는 자동화된 정렬 연구(alignment research) 결과를 신뢰할 수 있게 해주는 강력한 보장과, 오늘날보다 훨씬 더 나은 비정렬 측정 방법이 필요한다. 그래야 우리가 여전히 안전한지 알 수 있다. 우리가 상승하고자 하는 각 OOM(10배 단위)마다, 다음 OOM에 대한 정렬 접근법에 대해 극도로 높은 신뢰를 가져야 할 것이다.

무엇보다도, 이를 올바르게 수행하려면 극도의 역량, 진지함, 그리고 어려운 선택을 감수하려는 의지가 필요한다. 진정한 초지능에 가까워질수록 위험은 매우 현실적이 되며, 실패—악성 AI—는 치명적일 수 있다. 증거가 모호한 순간들이 있을 것이며, 지표들은 겉보기에는 괜찮아 보이지만, 임박한 위험을 암시하는 몇 가지 경고 신호가 있을 것이다. 그리고 우리는 대체로 무슨 일이 벌어지고 있는지 전혀 알지 못할 것이다. 이 상황을 책임감 있게 헤쳐 나가려면 매우 큰 비용이 드는 선택을 해야 한다. 결국, 차세대 초지능에 대한 승인 결정은 군사 작전 개시 결정만큼 진지하게 다뤄져야 할 것이다.

초방어(superdefense)

“정렬을 올바르게 하는 것”은 지능 폭발 동안 여러 방어층 중 첫 번째에 불과해야 한다. 정렬은 어려울 것이며, 그 과정에서 실패가 있을 것이다. 가능하다면, 우리는 정렬이 실패할 수 있는 상황에 있어야 하지만—그 실패가 치명적이지는 않아야 한다. 이는 다음을 의미할 수 있다:

보안. 에어갭 클러스터는 초지능이 스스로 정보를 빼내어 현실 세계에 피해를 주려는 시도에 대한 첫 번째 방어층이다. 그리고 그것은 시작에 불과한다; 우리는 모델의 자체 정보 유출에 대해 훨씬 더 극단적인 보안이 필요할 것이다¹³13. 모델이 자신의 가중치를 훔쳐 원래 데이터센터(datacenter) 밖에서 자신을 복제하는 행위.. 하드웨어 암호화부터 다중 키 승인¹⁴14. AI에 속거나 설득되어 정보를 빼내는 인간을 방어하는 것.에 이르기까지 전반적으로 강화해야 한다. 그리고 우리의 범용 인공지능(AGI)이 자동화된 방식으로 정보를 빼낼 수 있게 되면, 인간이 AI에 속거나 설득되어 정보를 빼내는 것을 방지하는 것도 필요한다.

연구개발(R&D) 측면에서도, 보안을 더욱 강화하는 데 이들을 투입해야 한다.

모니터링. 우리의 AI 시스템이 수상하거나 악의적인 행동을 하거나, 혹은 내부 직원이 무단 활동에 AI를 사용하려 할 경우 이를 포착할 수 있어야 한다. 그러나 이는 간단한 일이 아닙니다. 수백만 개의 범용 인공지능(AGI) 인스턴스가 클러스터에서 복잡한 코드를 실행하고 있을 것이기 때문이다. 모델 출력, 사고 과정, 모델이 작성한 코드, 서버/네트워크 활동, 연구원 및 기타 인간과의 상호작용 등 모델 자체를 활용하는 고급 모니터링 시스템이 필요한다. 본질적으로 일부 AI 시스템을 이용해 다른 AI 시스템을 감시하는 셈이다. 또한, 덜 강력하지만 신뢰할 수 있는 모델을 사용해 더 강력하지만 덜 신뢰할 수 있는 모델의 전복을 방지하는 정교한 ‘통제’ 프로토콜을 개발하고 적용해야 한다. 예를 들어, 활성 모델 인스턴스에 할당하는 컴퓨트(compute) 자원과 동일한 양을 모니터링 모델 인스턴스에 할당해야 할 수도 있다.

목표 능력 제한. 가능한 한, 실패 시 피해를 줄일 수 있도록 모델의 능력을 목표 지향적으로 제한해야 한다. 대표적인 예는 생물학 및 화학과 관련된 모든 내용을 모델 학습에서 제거하거나 ‘언러닝(unlearning)’ 기법을 사용하는 것이다. 이는 생물학 및 화학 무기를 통한 치명적인 현실 세계 피해 경로를 차단하는 데 도움이 된다.

목표 학습 방법 제한. 일부 학습 방법은 본질적으로 더 위험하며, 심각한 비정렬을 초래할 가능성이 더 높을 수 있다. 예를 들어, 모방 학습은 비교적 안전해 보인다(위험한 장기 내부 목표를 가진 모델이 만들어질 가능성이 낮음). 반면, 장기 결과 기반 강화학습(RL)은 가능한 한 피해야 한다(모델이 바람직하지 않은 장기 목표를 학습할 가능성이 훨씬 높음). 또한, 해석 가능성 방법과 모니터링 체계에 반하는 학습도 피해야 한다(모델이 이를 회피하도록 학습되는 것을 방지). 추가로 바람직한 제한이 있을 수 있는데, 예를 들어 사고 과정이 명료하고 충실하게 유지되도록 하는 것 등이 있다.

가능한 한. 우리는 이러한 제약 조건을 미리 정의하고, 지능 폭발이 진행되는 동안 최대한 오래 유지하며, 절대적으로 필요할 때만 이를 해제해야 한다.

그리고 여기에는 훨씬 더 많은 가능성이 있을 것이다.

이 조치들이 완벽한가? 전혀 그렇지 않다. 진정한 초지능은 대부분의 보안 체계를 우회할 수 있을 가능성이 큽니다. 그럼에도 불구하고, 이러한 조치는 우리에게 훨씬 더 많은 안전마진를 제공한다—그리고 우리는 가능한 모든 여유를 필요로 할 것이다. 우리는 그 여유를 활용해 정렬 기술에 대해 매우 높은 신뢰를 가질 수 있는 위치에 도달하고, 신뢰에 따라 “초방어(superdefense)” 조치(예: 초지능을 비격리 환경에 배치하는 것)를 점진적으로 완화하고자 할 것이다.

이러한 AI 시스템을 덜 통제된 환경, 예를 들어 군사적 용도로 배치할 때 상황은 다시 불안정해질 것이다. 상황이 우리를 빠르게 그렇게 하도록 강요할 가능성이 크지만, 우리는 항상 가능한 한 많은 안전마진를 확보하려고 노력해야 한다—예를 들어, 초지능을 군사 목적으로 “현장”에 직접 배치하는 대신, 더 격리된 환경에서 연구개발에 활용하고, 그들이 발명한 특정 기술(예: 우리가 더 신뢰할 수 있는 제한된 자율 무기 시스템)만 배치하는 방식이다.

내가 낙관적인 이유, 그리고 두려운 이유

나는 초정렬(superalignment) 문제(superalignment problem)의 기술적 해결 가능성에 대해 매우 낙관적이다. 이 분야에는 곳곳에 손쉽게 얻을 수 있는 성과들이 많아 보인다. 더 넓게 보면, 딥러닝의 경험적 현실은 10년 전 일부가 예상했던 것보다 우리에게 더 유리하게 전개되고 있다. 예를 들어, 딥러닝은 많은 상황에서 놀라울 정도로 무해한 방향으로 일반화한다: 종종 우리가 의도한 대로 “그 일을 수행”할 뿐, 어떤 난해하고 악의적인 행동을 학습하지 않다.¹⁵15. 물론, 이것이 현재 모델과 아마도 인간 수준 시스템에 적용될 수 있지만, 미래의 훨씬 초인적인 모델에 대해 현재 모델에서 얻은 증거를 외삽하려 할 때는 주의해야 한다. 게다가,

모델 내부를 완전히 이해하는 것은 어려울 것이지만, 적어도 초기 범용 인공지능(AGI)에 대해서는 해석 가능성에 대한 꽤 좋은 가능성이 있다—우리는 사고의 연쇄(chain of thought)를 통해 투명하게 추론하도록 만들 수 있으며,

표현 공학과 같은 임시방편 기법들은 “거짓말 탐지기”나 이와 유사한 역할로 놀랍도록 잘 작동한다.

나는 “어느 정도 초인적인” 시스템을 정렬하는 “기본 계획”이 대체로 성공할 가능성이 꽤 합리적이라고 생각한다.¹⁶16. 분명히 말하면, 판돈의 크기를 고려할 때 ‘어떻게든 헤쳐 나가기’는 어떤 의미에서는 형편없는 계획이다. 하지만 우리에게 남은 것이 그것뿐일지도 모른다.

물론, 추상적으로 “기본 계획”에 대해 말하는 것과 그 계획을 실행할 책임이 있는 팀이 당신과 20명의 동료라는 것은 전혀 다른 문제다(훨씬 더 스트레스가 크다!).¹⁷17. Scott Aaronson의 젊은 자신에게 보내는 편지를 떠올리게 한다.

“어떤 회사가 거대한 방을 채우고, 한 도시만큼의 전기를 소비하며, 최근에 사람처럼 대화하는 놀라운 능력을 얻은 AI를 만들고 있다. 이 AI는 어떤 주제에 대해서도 에세이나 시를 쓸 수 있고, 대학 수준의 시험을 통과할 수 있다. 매일 새로운 능력을 얻고 있는데, AI를 관리하는 엔지니어들조차 공개적으로 말할 수 없는 것들이다. 하지만 그 엔지니어들은 회사 식당에 앉아 자신들이 만드는 것의 의미에 대해 토론한다. 다음 주에는 무엇을 배우게 될까? 어떤 직업들이 쓸모없게 될까? 그들이 속도를 늦추거나 멈춰야 할까, 용의 꼬리를 건드리지 않도록? 하지만 그렇다면 누군가, 아마도 덜 양심적인 누군가가 먼저 용을 깨우는 게 아닐까? 세상에 더 많이 알려야 할 윤리적 의무가 있을까? 아니면 덜 알려야 할 의무가 있을까? 나는—너는—그 회사에서 1년을 보내고 있다. 내 일—네 일은 AI와 그 후계자들이 대혼란을 일으키지 못하도록 수학적 이론을 개발하는 것이다. 여기서 ‘대혼란’은 선전 선동과 학문적 부정행위 가속화부터 생물 테러 조언 제공, 그리고 그렇다, 세상을 파괴하는 것까지 무엇이든 의미할 수 있다.”

이것은 계획의 첫 부분일 뿐이다—내가 밤에 잠 못 이루게 하는 진짜 문제는 지능 폭발이다. 첫 번째 범용 인공지능, 즉 어느 정도 초인적인 시스템을 정렬하는 것은 한 가지 문제다.

훨씬 초인적이고 이질적인 초지능은 완전히 다른 문제이며, 그것은 무서운 문제다.

지능 폭발은 제품 출시라기보다는 전쟁을 치르는 것과 더 비슷할 것이다. 우리는 초방어(superdefense)나 에어갭 클러스터 같은 것을 준비하고 있지 않으며, 모델이 스스로 데이터를 빼돌려도 알아차리지 못할 수도 있다. 우리는 이 엄청나게 위험한 결정들을 내릴 합리적인 지휘 체계를 갖추고 있지 않으며, 초지능에 대해 매우 높은 신뢰도를 요구하거나, 다음 훈련 실행을 시작하기 전에 안전을 확보하기 위해 추가 시간을 들이거나, 정렬 연구(alignment research)에 컴퓨트(compute) 자원의 대부분을 할당하는 어려운 결정을 내릴 준비가 되어 있지 않다. 위험을 인지하고 충돌을 피하기보다는 그냥 부딪힐 것이다. 현재 어떤 연구소도 안전을 확보하기 위해 비용이 많이 드는 절충을 할 의지가 거의 없음을 보여주고 있다(안전 위원회는 많지만, 그건 별 의미가 없다). 기본적으로 우리는 아마도 지능 폭발에 우연히 휘말리게 될 것이고, 사람들이 우리가 무엇에 빠져들었는지 깨닫기도 전에 몇 차례 OOM(10배 단위)의 도약을 겪게 될 것이다.

우리는 운에 너무 많이 기대고 있다.

IIIc. 초정렬(superalignment)

초정렬(superalignment) 문제(superalignment problem)

댓글