II. 범용 인공지능(AGI)에서 초지능으로: 지능 폭발
AI 발전은 인간 수준에서 멈추지 않을 것이다. 수억 대의 AGI가 AI 연구를 자동화하여 10년에 걸친 알고리즘 효율성(algorithmic efficiency)의 진보(5+ OOM)를 1년으로 압축할 수 있다. 우리는 인간 수준에서 급격히 초인간적 AI 시스템으로 도약할 것이다. 초지능의 힘과 위험은 극적일 것이다.
초지능 기계란 아무리 영리한 인간의 모든 지적 활동을 훨씬 능가할 수 있는 기계로 정의할 수 있다. 기계 설계가 이러한 지적 활동 중 하나이므로, 초지능 기계는 더 나은 기계를 설계할 수 있다; 그러면 의심할 여지 없이 ‘지능 폭발’이 일어나 인간의 지능은 훨씬 뒤처지게 될 것이다. 따라서 최초의 초지능 기계는 인간이 만들어야 할 마지막 발명품이다.
i. j. 굿 (1965)
폭탄과 초무기 일반적인 상상에서 냉전의 공포는 주로 로스앨러모스와 원자폭탄 발명에서 비롯된 것으로 여겨진다. 그러나 폭탄 자체만으로는 과대평가된 측면이 있다. 원자폭탄에서 초무기인 수소폭탄으로의 발전이 아마도 똑같이 중요했다.
도쿄 공습에서는 수백 대의 폭격기가 수천 톤의 재래식 폭탄을 도시에 투하했다. 그해 후반 히로시마에 투하된 리틀 보이는 단일 장치에서 비슷한 파괴력을 발휘했다. 그러나 불과 7년 후, 텔러의 수소폭탄은 그 위력을 다시 천 배로 증폭시켰다—제2차 세계대전 전체에서 투하된 모든 폭탄의 폭발력을 합친 것보다 더 강력한 단일 폭탄이었다.
폭탄은 더 효율적인 폭격 캠페인이었다. 수소폭탄은 국가 전체를 지워버릴 수 있는 장치였다.11. 그리고 냉전의 많은 왜곡들(예: 다니엘 엘스버그의 책)은 단순히 A-폭탄을 H-폭탄으로 교체하면서 핵 정책과 전쟁 계획을 대규모 능력 증가에 맞게 조정하지 않은 데서 비롯되었다.
범용 인공지능(AGI)과 초지능도 마찬가지일 것이다.
AI 발전은 인간 수준에서 멈추지 않을 것이다. 처음에는 최고의 인간 게임에서 학습한 후, AlphaGo는 스스로 대국을 시작했고—빠르게 초인적인 수준에 도달하여 인간이 결코 생각해내지 못할 매우 창의적이고 복잡한 수를 두었다.
우리는 이전 글에서 AGI로 가는 경로를 논의했다. AGI를 얻으면, 한 번 더—혹은 두세 번 더—크랭크를 돌려 AI 시스템이 초인적 수준, 즉 훨씬 초인적인 수준이 될 것이다. 그들은 당신이나 나보다 질적으로 훨씬 더 똑똑해질 것이며, 아마도 당신이나 내가 초등학생보다 질적으로 더 똑똑한 것과 비슷할 것이다.
초지능으로의 도약은 현재의 빠르지만 연속적인 AI 발전 속도에서도 충분히 놀라울 것이다(만약 GPT-4에서 4년 내에 AGI로 도약할 수 있다면, 그 후 4년 또는 8년이 더 지나면 무엇이 올지 상상해 보라). 하지만 AGI가 AI 연구 자체를 자동화한다면 훨씬 더 빠를 수도 있다.
AGI를 얻으면 단 하나의 AGI만 있는 것이 아니다. 나중에 수치를 자세히 설명하겠지만, 그때쯤이면 추론용 GPU 클러스터 덕분에 수백만 대(아마도 1억 인간 등가체, 그리고 곧 10배 이상의 인간 속도도 가능할 것이다)를 운영할 수 있을 것이다. 그들이 아직 사무실을 돌아다니거나 커피를 만들 수는 없더라도, 컴퓨터에서 기계학습 연구를 수행할 수 있을 것이다. 선도 AI 연구소(frontier AI lab)의 수백 명 연구원과 엔지니어 대신, 10만 배가 넘는 인원이 밤낮없이 알고리즘 혁신에 열중할 것이다. 네, 재귀적 자기 개선이지만, 공상과학은 필요 없다; 그들은 단지 현재의 알고리즘 효율성(algorithmic efficiency) 추세(현재 약 연간 0.5 OOM(10배 단위))를 가속화하기만 하면 된다.
자동화된 AI 연구는 아마도 인간 10년 분량의 알고리즘 진보를 1년도 채 안 되는 기간에 압축할 수 있을 것이다(이것도 보수적인 추정이다). 이는 5 이상 OOM(10배 단위)이며, GPT-2에서—
여러 가지 그럴듯한 병목 현상이 있다—실험을 위한 제한된 컴퓨트(compute), 인간과의 상호 보완성, 알고리즘 진보가 점점 어려워지는 점 등—이를 다루겠지만, 어느 것도 확실히 속도를 늦출 만큼 충분해 보이지 않는다.
우리가 깨닫기도 전에, 우리는 초지능을 손에 넣게 될 것이다—인간보다 훨씬 더 똑똑한 AI 시스템으로, 우리가 이해조차 시작할 수 없는 새롭고 창의적이며 복잡한 행동을 할 수 있다—어쩌면 수십억 개의 작은 문명일 수도 있다. 그들의 힘도 막대할 것이다. 초지능을 적용하면—
지능을 다른 분야의 연구개발에 투입한다면, 폭발적인 진보는 단지 머신러닝 연구에 국한되지 않고 곧 로보틱스를 해결하며 수년 내에 과학과 기술의 다른 분야에서 극적인 도약을 이루고 산업적 폭발이 뒤따를 것이다. 초지능은 결정적인 군사적 우위를 제공할 가능성이 높으며, 헤아릴 수 없는 파괴력을 펼칠 것이다. 우리는 인류 역사상 가장 강렬하고 불안정한 순간 중 하나에 직면하게 될 것이다.
AI 연구 자동화
우리는 모든 것을 자동화할 필요는 없다—단지 AI 연구만 자동화하면 된다. AGI의 변혁적 영향에 대한 흔한 반론은 AI가 모든 것을 수행하기 어렵다는 것이다. 예를 들어 로보틱스를 보라, 회의론자들은 말한다; AI가 박사 수준의 인지능력을 갖추더라도 그것은 까다로운 문제일 것이다. 또는 많은 물리적 실험실 작업과 인간 실험이 필요한 생물학 연구개발 자동화를 예로 들 수 있다.
하지만 AI가 AI 연구를 자동화하는 데 로보틱스나 많은 것들이 필요하지는 않다. 선도 연구소의 AI 연구원과 엔지니어의 업무는 완전히 가상으로 수행할 수 있으며, 물리 세계의 병목 현상에 부딪히지 않는다(물론 컴퓨트(compute) 자원에 의해 제한되겠지만, 이는 나중에 다룰 것이다). 그리고 AI 연구원의 업무는 큰 틀에서 보면 꽤 직관적이다: 머신러닝 문헌을 읽고 새로운 질문이나 아이디어를 제시하며, 그 아이디어를 시험할 실험을 구현하고, 결과를 해석하며 이를 반복한다. 이 모든 것은 현재 AI 능력의 단순한 외삽으로도 2027년 말까지 최고 인간 수준에 도달하거나 그 이상에 쉽게 이를 수 있는 영역이다.22. AI 연구원의 업무는 AI 연구소의 AI 연구원들이 정말 잘 알고 있는 일이기도 하다—그래서 그들에게는 모델을 그 업무에 잘 맞도록 최적화하는 것이 특히 직관적일 것이다. 그리고 그들의 연구와 연구소의 경쟁력을 가속화하기 위해 그렇게 할 엄청난 인센티브가 있을 것이다.
지난 10년간 가장 큰 머신러닝 돌파구들이 얼마나 직관적이고 간단한 해킹이었는지 강조할 가치가 있다: “아, 그냥 정규화(normalization)를 좀 추가해라”(LayerNorm/BatchNorm) 또는 “f(x) 대신 f(x)+x를 해라”(잔차 연결) 또는 “구현 버그를 고쳐라”(Kaplan → Chinchilla 규모 확장 법칙). AI 연구는 자동화할 수 있다. 그리고 AI 연구 자동화만으로도 비범한 피드백 루프를 촉발할 수 있다.33. 덧붙여 말하자면, 이는 AI로 인한 위험의 순서와 관련해 중요한 점을 시사한다. 사람들이 흔히 지적하는 AI 위협 모델은 AI 시스템이 새로운 생물무기를 개발하여 치명적인 위험을 초래하는 것이다. 그러나 AI 연구가 생물학 연구개발보다 자동화하기 더 직관적이라면, 극단적인 AI 생물 위협이 발생하기 전에 지능 폭발이 먼저 일어날 수 있다. 이는 예를 들어 AI가 통제 불능 상태에 빠지기 전에 “생물학적 경고 신호”를 기대할 수 있는지 여부와 관련해 중요하다.
우리는 수백만 개의 자동화된 AI 연구자 복제본을 실행할 수 있을 것이며(곧 인간 속도의 10배 이상으로도 가능해질 것이다). 2027년까지는 GPU 함대가 수천만 대에 이를 것으로 예상된다. 훈련 클러스터만 해도 약 3 OOM(10배 단위) 이상 커질 것이며, 이미 1,000만 개 이상의 A100급 GPU에 해당하는 규모가 될 것이다. 추론(인퍼런스) 함대는 이보다 훨씬 더 클 것이다. (이와 관련된 내용은 IIIa. 조 단위 달러 클러스터 경쟁에서 더 다룬다.)
이렇게 되면 자동화된 AI 연구자 복제본을 수백만 개, 아마도 1억 명의 인간 연구자에 해당하는 규모로 밤낮없이 실행할 수 있다. 여기에는 인간이 분당 100 토큰을 ‘생각한다’는 가정(대략적인 규모 추정치로, 예를 들어 당신의 내적 독백을 생각해 보라)과 역사적 추세 및 최첨단 모델의 토큰당 추론 비용에 대한 Chinchilla 규모 확장 법칙을 외삽하는 가정이 포함된다.44. 앞서 언급했듯이, GPT-4 API 비용은 GPT-3 출시 당시보다 오늘날 더 저렴하다—이는 추론 효율성 향상이 모델이 훨씬 더 강력해져도 추론 비용을 대체로 일정하게 유지할 만큼 빠르게 진행되고 있음을 시사한다. 마찬가지로, GPT-4 출시 이후 1년 만에 추론 비용에서 큰 개선이 있었다; 예를 들어, 현재 버전인 Gemini 1.5 Pro는 원래 GPT-4보다 성능이 뛰어나면서도 비용은 약 10배 저렴하다. 또한 Chinchilla 규모 확장 법칙을 고려하면 모델 크기, 즉 추론 비용은 훈련 비용의 제곱근에 비례하여 증가한다. 즉, 유효 컴퓨트(effective compute) 규모 확장의 절반 정도의 OOM(10배 단위)만큼 증가한다. 그러나 이전 글에서는 알고리즘 효율성(algorithmic efficiency)이 컴퓨트(compute) 규모 확장과 거의 같은 속도로 발전하여 유효 컴퓨트(effective compute) 규모 확장의 절반 정도를 차지한다고 제안했다. 만약 이러한 알고리즘 개선이 추론 효율성으로도 이어진다면, 알고리즘 효율성(algorithmic efficiency)은 추론 비용의 단순 증가를 상쇄할 것이다. 실제로 훈련 컴퓨트(compute) 효율성은 종종, 그러나 항상은 아니지만, 추론 효율성 향상으로 이어진다. 게다가 훈련 효율성과 별개로 추론 효율성에서의 많은 개선도 존재한다. 따라서 대략적인 규모 차원에서 최첨단 모델의 토큰당 비용이 대체로 비슷하게 유지된다고 가정하는 것은 무리가 아니다. (물론 더 많은 토큰, 즉 더 많은 테스트 시점 컴퓨트(test-time compute)를 사용할 것이다. 하지만 이는 인간 등가치를 분당 100 토큰으로 가격 책정하는 계산에 이미 포함되어 있다.) 또한 일부 GPU는 실험과 새로운 모델 훈련에 예약해 두어야 한다. 전체 계산은 각주에 있다.55. GPT4T는 1,000 토큰당 약 0.03달러이다. 우리는 1,000만 대 이상의 A100급 GPU를 가질 것으로 가정했으며, A100급 GPU 1대당 시간당 비용은 약 1달러이다. API 비용을 토큰 생성량으로 환산하면, 1,000만 대 GPU * 1달러/시간 * 33,000 토큰/달러 = 시간당 약 1조 토큰 생성이 가능하다. 인간은 분당 100 토큰을 생각하므로 시간당 6,000 토큰이다. 1조 토큰/시간을 6,000 토큰/인간-시간으로 나누면 약 2억 명의 인간 등가치가 된다—즉, 2억 명의 인간 연구자를 밤낮없이 실행하는 것과 같다. (실험용 컴퓨트(compute)를 위해 GPU 절반을 예약해도 1억 명 인간 연구자 등가치를 얻는다.)
다른 관점에서 보면, 2027년의 추론 함대를 고려할 때 매일 인터넷 전체 분량의 토큰을 생성할 수 있을 것이다.66. 앞 각주에서 시간당 약 1조 토큰, 즉 하루 24조 토큰을 추정했다. 이전 글에서는 공개 중복 제거된 CommonCrawl 데이터가 약 30조 토큰임을 언급했다. 어쨌든 정확한 숫자는 단순한 타당성 입증 이상의 의미는 크지 않다.
더욱이, 우리의 자동화된 AI 연구자들은 곧 인간 속도보다 훨씬 빠르게 작동할 수 있을 것이다:
- 일부 추론 페널티를 감수함으로써, 더 적은 수의 복사본을 실행하는 대신 더 빠른 직렬 속도로 실행하는 트레이드오프를 선택할 수 있다. (예를 들어, 자동화된 연구자 100만 개 복사본을 “단지” 실행함으로써 약 5배 인간 속도에서 약 100배 인간 속도로 갈 수 있다.77. Jacob Steinhardt는 모델의 k³배 병렬 복제를 k²배 더 빠른 단일 모델로 대체할 수 있다고 추정했으며, 이는 타일링 방식의 추론 트레이드오프 수학에 기반(이론상 k=100 이상에도 적용 가능)한다. 초기 속도가 이미 약 인간 속도의 5배(GPT-4 출시 시점 속도 기준)라면, 이 추론 페널티(k 약 5)를 감안해도 약 100배 빠른 속도로 약 100만 대 자동화 AI 연구자를 운영할 수 있다.) Jacob Steinhardt는 k³개의 병렬 복사본을 k²배 더 빠른 단일 모델로 대체할 수 있다고 추정한다. 이는 타일링 방식의 추론 트레이드오프 수학에 기반하며(이론적으로 k가 100 이상일 때도 작동). 초기 속도가 이미 약 5배 인간 속도(예: GPT-4 출시 당시 속도)라고 가정하면, 이 추론 페널티를 감수함으로써(k=약 5) 약 100만 개의 자동화된 AI 연구자를 약 100배 인간 속도로 실행할 수 있다.
- 더 중요한 것은, 자동화된 AI 연구자들이 처음으로 작업하는 알고리즘 혁신은 10배 또는 100배 속도 향상이다. Gemini 1.5 Flash는 원래 출시된 GPT-4보다 약 10배 빠르며,88. 해당 출처는 Flash의 처리량이 GPT-4 Turbo 대비 약 6배라고 벤치마크하며, GPT-4 Turbo는 원래 GPT-4보다 빠릅니다. 지연 시간 또한 대략 10배 빠를 가능성이 높다. 단지 1년 만에 비슷한 추론 벤치마크 성능을 제공한다. 만약 수백 명의 인간 연구자가 1년 동안 찾을 수 있는 알고리즘 속도 향상이 이 정도라면, 자동화된 AI 연구자들은 매우 빠르게 유사한 성과를 낼 수 있을 것이다. 이 출처는 Flash의 처리량이 약 6배 GPT-4 Turbo이며, GPT-4 Turbo는 원래 GPT-4보다 빠르다고 벤치마크한다. 지연 시간도 대략 10배 빠를 가능성이 높다.
즉, AI 연구 자동화가 가능해지기 시작한 직후, 각각 100배 인간 속도로 작업하는 1억 명의 자동화된 연구자가 있을 것으로 예상할 수 있다. 이들은 각각 며칠 만에 1년치 작업을 수행할 수 있다. 오늘날 선도 AI 연구소(frontier AI lab)에서 1배 인간 속도로 작업하는 수백 명의 소수의 인간 연구자와 비교할 때, 연구 노력의 증가는 엄청날 것이다.
이것은 기존 알고리즘 진보 추세를 극적으로 가속화하여 10년간의 발전을 1년으로 압축할 수 있다. 자동화된 AI 연구가 AI 진보를 강력히 가속화하기 위해 전혀 새로운 것을 가정할 필요는 없다. 앞서 살펴본 수치를 통해, 알고리즘 진보가 지난 10년간 딥러닝 발전의 핵심 동력이었음을 알 수 있었다; 알고리즘 효율성(algorithmic efficiency)만으로 연간 약 0.5 OOM(10배 단위)의 추세선이 있었고, 족쇄 풀기(unhobbling)로 인한 추가적인 큰 알고리즘 이득도 있었다. (저는 알고리즘 진보의 중요성이 많은 사람들에게 과소평가되었다고 생각하며, 이를 제대로 인식하는 것이 지능 폭발 가능성을 이해하는 데 중요하다고 봅니다.)
우리의 수백만 자동화된 AI 연구자들이(곧 10배 또는 100배 인간 속도로 작업하며) 인간 연구자들이 10년간 찾을 알고리즘 진보를 1년으로 압축할 수 있을까요?
대신에? 그럼 1년에 5단계 이상의 OOM(10배 단위)가 될 것이다.
여기서 1억 명의 주니어 소프트웨어 엔지니어 인턴을 상상하지 마라(우리는 그들을 더 일찍, 앞으로 몇 년 안에 확보할 것이다!). 진짜 자동화된 AI 연구자들은 매우 똑똑할 것이며—그들의 순수한 양적 우위 외에도, 자동화된 AI 연구자들은 인간 연구자들에 비해 다른 엄청난 이점들을 가질 것이다:
- 그들은 지금까지 작성된 모든 머신러닝 논문을 읽을 수 있을 것이고, 연구소에서 수행된 모든 이전 실험을 깊이 있게 생각할 수 있으며, 각자의 복제본으로부터 병렬로 학습하여 수천 년에 해당하는 경험을 빠르게 축적할 수 있을 것이다. 그들은 어떤 인간보다도 훨씬 깊은 머신러닝 직관을 개발할 수 있을 것이다.
- 그들은 수백만 줄의 복잡한 코드를 쉽게 작성할 수 있고, 전체 코드베이스를 맥락 속에 유지하며, 수십 년(또는 그 이상)에 해당하는 인간 시간이 걸리는 코드의 버그와 최적화를 반복해서 점검할 수 있을 것이다. 그들은 작업의 모든 부분에서 매우 뛰어난 역량을 발휘할 것이다.
- 각 자동화된 AI 연구자를 개별적으로 훈련시킬 필요가 없을 것이다(실제로 1억 명의 새로운 인간 직원을 훈련하고 적응시키는 것은 어려울 것이다). 대신, 한 명만 가르치고 적응시키면 복제할 수 있다. (정치적 문제, 문화 적응 등을 걱정할 필요도 없으며, 그들은 밤낮으로 최고의 에너지와 집중력으로 일할 것이다.)
- 엄청난 수의 자동화된 AI 연구자들이 맥락을 공유할 수 있을 것이며(아마도 서로의 잠재 공간에 접근하는 것도 가능할 것이다), 이는 인간 연구자들에 비해 훨씬 더 효율적인 협업과 조정을 가능하게 할 것이다.
- 그리고 물론, 초기 자동화된 AI 연구자들이 아무리 똑똑하더라도, 우리는 곧 더 높은 OOM(10배 단위) 도약을 이뤄내어, 자동화된 AI 연구에 훨씬 더 능숙한 더 똑똑한 모델들을 만들어낼 수 있을 것이다.
자동화된 알렉 라드포드(Alec Radford)를 상상해 보라—1억 명의 자동화된...
자동화된 Alec Radford들.99. Alec Radford는 OpenAI에서 수많은 중요한 진보를 이끈 매우 재능 있고 다작하는 연구자/엔지니어이지만 다소 저평가되고 있다. OpenAI의 거의 모든 연구자가 10명의 Alec Radford가 있다면, 100명이나 1,000명, 심지어 1백만 명이 인간 속도의 10배 또는 100배로 작동한다면, 그들은 매우 빠르게 많은 문제를 해결할 수 있을 것이라고 동의할 것이다. 여러 다른 병목 현상(잠시 후 더 설명)에도 불구하고, 알고리즘 진보의 10년치를 1년 만에 압축하는 것은 매우 그럴듯해 보인다. (1백만 배 더 많은 연구 노력을 통한 10배 가속은 오히려 보수적인 추정이다.)
그것만으로도 5+ OOM(10배 단위)가 된다. 5 OOM의 알고리즘 성과는 GPT-2에서 GPT-4로의 도약과 비슷한 규모 확장으로, 능력 면에서 약 유치원생에서 똑똑한 고등학생으로의 도약과 같다. 그런 질적 도약이 범용 인공지능(AGI) 위에, Alec Radford 위에 더해진다고 상상해 보라.
우리가 AGI에서 초지능으로 매우 빠르게, 어쩌면 1년 내에 도달할 가능성은 매우 그럴듯한다.
가능한 병목 현상
이 기본 이야기는 놀라울 정도로 강력하며 철저한 경제 모델링 작업에 의해 뒷받침되지만, 자동화된 AI 연구 지능 폭발을 아마도 늦출 몇 가지 실제적이고 그럴듯한 병목 현상들이 있다.
여기서 요약을 드리고, 관심 있는 분들을 위해 아래 선택적 섹션에서 더 자세히 논의하겠다:
- 제한된 컴퓨트(compute): AI 연구는 단지 좋은 아이디어, 사고, 수학만 필요한 것이 아니라, 아이디어에 대한 경험적 신호를 얻기 위한 실험 실행도 필요한다. 자동화된 연구 노동을 통한 1백만 배 더 많은 연구 노력은 1백만 배 더 빠른 진보를 의미하지 않다. 왜냐하면 컴퓨트(compute)는 여전히 제한적일 것이고, 실험을 위한 제한된 컴퓨트(compute)가 병목 현상이 될 것이기 때문이다. 그럼에도 불구하고, 1,000,000배 가속은 아닐지라도, 자동화된 AI 연구자들이 컴퓨트(compute)를 적어도 10배 더 효과적으로 사용할 수 있다고 상상하기 어렵지 않다. 그들은 엄청난 ML 직관을 얻을 수 있을 것이다(전체 ML 문헌과 이전에 실행된 모든 실험을 내면화했기 때문이다) 그리고
정확히 어떤 실험을 실행할지 알아내고, 최적으로 구성하며, 최대한의 정보 가치를 얻기 위해 수 세기 상당의 사고 시간을 쏟을 수 있다; 작은 실험조차도 실행 전에 수 세기 상당의 엔지니어 시간을 투자해 버그를 피하고 첫 시도에 제대로 수행할 수 있다; 가장 큰 성과에 집중해 컴퓨트(compute)를 절약하는 트레이드오프를 할 수 있다; 그리고 수많은 소규모 실험을 시도할 수 있다(그때쯤이면 유효 컴퓨트(effective compute) 규모가 커져 “소규모”가 1년에 10만 개의 GPT-4 수준 모델을 훈련시켜 아키텍처 혁신을 시도할 수 있는 의미가 된다). 일부 인간 연구자와 엔지니어는 같은 컴퓨트(compute)를 써도 다른 이들보다 10배 더 많은 진전을 이룰 수 있는데—이것은 자동화된 AI 연구자에게는 더욱 적용될 것이다. 나는 이것이 가장 중요한 병목이라고 생각하며, 아래에서 더 깊이 다룬다.
- 상호보완성/긴 꼬리: 경제학의 고전적 교훈(바움올의 성장병 참조)은 만약 어떤 작업의 70%를 자동화할 수 있다면 어느 정도 이득은 있지만, 나머지 30%가 곧 병목이 된다는 것이다. 완전 자동화에 미치지 못하는 어떤 것—예를 들어 정말 좋은 코파일럿—에 대해서는 인간 AI 연구자가 여전히 주요 병목으로 남아 알고리즘 진보 속도의 전반적 증가가 상대적으로 작을 것이다. 게다가 AI 연구 자동화에 필요한 능력에는 긴 꼬리가 있을 가능성이 높다—AI 연구자의 작업 중 마지막 10%는 특히 자동화하기 어려울 수 있다. 이것은 지능 폭발의 가속을 다소 완화할 수 있지만, 내 최선의 추측은 이것이 단지 몇 년 정도 지연시킬 뿐이라는 것이다. 아마도 2026/27년 모델 속도가 원시 자동화 연구자의 수준이고, 완전 자동화에 이르기 위해서는 1~2년 더 족쇄 풀기(unhobbling), 좀 더 나은 모델, 추론 속도 향상, 문제 해결이 필요하며, 결국 2028년쯤 10배 가속(그리고 10년 말까지 초지능)을 달성할 것이다.
- 알고리즘 진보의 본질적 한계: 알고리즘 효율성(algorithmic efficiency)에서 추가로 5 OOM(10배 단위)를 근본적으로 달성할 수 없을까? 나는 그렇지 않다고 본다. 분명 상한선은 있겠지만,1010. 예를 들어 GPT-4 위에 25 OOM의 알고리즘 진보는 명백히 불가능하다: 이는 GPT-4 수준 모델을 단 몇 FLOP만으로 훈련시킬 수 있다는 의미가 되기 때문이다. 지난 10년간 5 OOM을 달성했다면 앞으로도 최소한 10년 정도의 진보는 기대할 수 있을 것이다.
가능할 것이다. 보다 직접적으로, 현재의 아키텍처와 학습 알고리즘은 여전히 매우 원시적이며, 훨씬 더 효율적인 방식이 가능할 것으로 보인다. 생물학적 참조 클래스도 훨씬 더 효율적인 알고리즘이 가능함을 뒷받침한다.
- 아이디어를 찾기 점점 어려워져서, 자동화된 AI 연구자들은 현재의 진보 속도를 가속화하기보다는 단지 유지할 뿐이다: 한 가지 반론은 자동화된 연구가 유효 연구 노력을 크게 증가시키겠지만, 아이디어를 찾는 것이 점점 더 어려워진다는 것이다. 즉, 오늘날 연구소에서 수백 명의 최고 연구자가 0.5 OOM(10배 단위)/년의 진보를 유지하는 데 충분하지만, 저위험 과실이 고갈됨에 따라 그 진보를 유지하려면 점점 더 많은 노력이 필요해질 것이고, 따라서 1억 명의 자동화된 연구자들은 단지 진보를 유지하는 데 필요한 수준일 뿐이라는 것이다. 나는 이 기본 모델이 맞다고 생각하지만, 경험적 데이터는 맞지 않는다: 연구 노력의 증가 규모—백만 배—는 진보를 유지하는 데 필요한 연구 노력 증가의 역사적 추세보다 훨씬, 훨씬 크다. 경제 모델링 용어로는, 자동화로 인한 연구 노력 증가가 진보를 일정하게 유지하는 데 딱 맞을 것이라는 가정은 기묘한 ‘칼날 가장자리 가정’이다.
- 아이디어를 찾기 점점 어려워지고 수확 체감이 발생하여 지능 폭발이 빠르게 사그라든다: 위의 반론과 관련하여, 자동화된 AI 연구자들이 초기 진보의 폭발을 이끌더라도, 빠른 진보가 지속될 수 있을지는 알고리즘 진보에 대한 수확 체감 곡선의 형태에 달려 있다. 다시 말해, 경험적 증거를 가장 잘 해석하면 지수는 폭발적/가속적 진보에 유리하게 나타난다. 어쨌든, 100명에서 수억 명의 AI 연구자로의 일회성 대규모 증가는 적어도 여러 OOM의 알고리즘 진보에 대해 수확 체감을 극복할 가능성이 크며, 물론 무한히 지속될 수는 없다.
전반적으로, 이러한 요인들은 다소 속도를 늦출 수 있다: 가장 극단적인 지능 폭발 버전(예: 하룻밤 사이)은 그럴듯하지 않다. 그리고 이들은 다소 더 긴...
준비 단계(아마도 진정한 자동화된 Alec Radford들이 등장하기 전, 더 느린 초기 자동화 연구자들로부터 1~2년 정도 더 기다려야 할지도 모른다). 하지만 이들이 매우 빠른 지능 폭발을 배제하지는 않는다. 완전 자동화된 AI 연구자에서부터 엄청나게 초인적인 AI 시스템으로 전환되는 데 1년—최대 몇 년, 어쩌면 몇 달밖에 걸리지 않을 것이라는 것이 우리의 주된 기대다.
아래 다양한 병목 현상에 대한 심층 논의를 건너뛰고 싶다면, 여기 클릭하여 다음 섹션으로 넘어가라.
실험용 제한된 컴퓨트(선택 사항, 심층 내용)
알고리즘 진보의 생산 함수는 두 가지 상호 보완적인 생산 요소를 포함한다: 연구 노력과 실험용 컴퓨트(compute). 수백만 명의 자동화된 AI 연구자들은 인간 AI 연구자들보다 더 많은 컴퓨트(compute) 자원을 실험에 사용할 수 없을 것이다; 아마도 그들은 작업이 끝나기만을 기다리고 있을지도 모른다.
이것이 아마도 지능 폭발에 가장 중요한 병목 현상일 것이다. 궁극적으로 이것은 정량적인 문제다—얼마나 큰 병목 현상인가? 전반적으로 나는 1억 명의 Alec Radford들이 실험용 컴퓨트(compute)의 한계 생산성을 최소 10배는 증가시킬 수 없다는 것을 믿기 어렵다(따라서 진보 속도도 10배 가속될 것이다):
- 적은 컴퓨트(compute) 자원으로도 할 수 있는 일이 많다. 대부분의 AI 연구는 소규모로 실험해보고, 그 후 규모 확장 법칙을 통해 외삽하는 방식으로 진행된다. (많은 주요 역사적 돌파구들은 매우 적은 컴퓨트(compute) 자원만 필요했다. 예를 들어, 원래의 Transformer는 단지 8개의 GPU로 며칠간 훈련되었다.) 그리고 앞으로 4년 내에 약 5 OOM(10배 단위)의 기본 스케일 확대가 이루어질 것을 감안하면, “소규모”는 GPT-4 규모를 의미할 것이다—자동화된 AI 연구자들은 연간 훈련 클러스터에서 10만 건의 GPT-4 수준 실험과 수천만 건의 GPT-3 수준 실험을 실행할 수 있을 것이다. (그것은 매우 많은 양이다)
잠재적 돌파구가 될 새로운 아키텍처들을 테스트할 수 있을 것이다!)
– 많은 컴퓨트(compute) 자원은 최종 사전학습(pretraining) 실행의 대규모 검증에 투입된다—연간 주요 제품의 한계 효율성 향상에 대해 충분히 높은 신뢰도를 확보하는 것이죠—하지만 지능 폭발에서 OOM을 빠르게 넘나들고 있다면, 경제적으로 운영하며 정말 큰 성과에만 집중할 수 있다.
– 이전 글에서 논의했듯이, 비교적 적은 컴퓨트(compute)로 모델의 제약을 해소하는 데서도 엄청난 이득을 얻을 수 있다. 이런 경우에는 대규모 사전학습(pretraining) 실행이 필요하지 않다. 지능 폭발은 자동화된 AI 연구가 시작되면서 출발할 가능성이 매우 높다. 예를 들어, 족쇄 풀기(unhobbling)를 통해 몇 차례 OOM(10배 단위)의 성과를 내는 강화학습(RL) 방식을 발견하는 식으로 말이죠(그 후 본격적인 경쟁이 시작된다).
– 자동화된 AI 연구자들이 효율성을 발견하면 더 많은 실험을 수행할 수 있게 된다. 앞서 논의한 바와 같이, 동등한 MATH 성능을 내면서 2년 만에 거의 1000배 저렴해진 추론 비용과, 지난 1년간 10배 향상된 일반 추론 효율성은 단순한 인간 수준의 알고리즘 진보에서 비롯된 것이다. 자동화된 AI 연구자들이 가장 먼저 할 일은 이와 유사한 성과를 빠르게 찾아내는 것이며, 이는 다시 새로운 강화학습(reinforcement learning) 접근법에 대해 100배 더 많은 실험을 가능하게 할 것이다. 또는 관련 분야에서 유사한 성능을 내는 더 작은 모델을 빠르게 만들 수도 있다(이전 글에서 논의한 GPT-4 대비 거의 100배 저렴한 Gemini Flash 참고). 이는 다시 이 작은 모델들로 훨씬 더 많은 실험을 수행할 수 있게 해준다(예를 들어 다양한 강화학습(reinforcement learning) 방식을 시도하는 데 활용할 수 있겠죠). 아마도 다른 잠재력도 있을 것이다. 예를 들어, 자동화된 AI 연구자들은 모든 추론 GPU를 활용할 수 있는 훨씬 더 나은 분산 학습 방식을 빠르게 개발할 수 있을지도 모릅니다(거기서만도 아마 10배 이상의 컴퓨트(compute) 향상이 있을 것이다). 더 일반적으로, 그들이 발견하는 훈련 효율성 향상 한 차수(OOM)마다 한 차수의...
실험을 수행할 수 있는 더 많은 유효 컴퓨트(effective compute).
- 자동화된 AI 연구자들은 훨씬 더 효율적일 수 있다. 첫 시도에 정확히 맞추기만 하면 얼마나 많은 실험을 줄일 수 있는지 과소평가하기 어렵다—복잡한 버그 없이, 정확히 무엇을 실행할지 더 신중하게 선택하는 등. 1000명의 자동화된 AI 연구자가 한 달에 해당하는 시간 동안 코드를 점검하고 정확한 실험을 맞추기 위해 노력하는 것을 상상해 보라. AI 연구소 동료들에게 이 점을 물어봤는데, 그들도 동의했다: 불필요한 버그를 피하고, 첫 시도에 맞추며, 정보 가치가 높은 실험만 실행할 수 있다면 대부분 프로젝트에서 컴퓨트(compute)를 3배에서 10배까지 쉽게 절약할 수 있을 것이다.
- 자동화된 AI 연구자들은 훨씬 더 나은 직관을 가질 수 있다.
– 최근에 최첨단 연구소의 인턴과 대화했는데; 그들은 지난 몇 달 동안 주로 많은 실험을 제안했지만, 그들의 지도교수(선임 연구원)는 이미 결과를 예측할 수 있어서 실험할 필요가 없다고 말하는 경험이 지배적이었다고 했다. 선임 연구원의 수년간 무작위 실험과 모델 조작 경험이 어떤 아이디어가 통할지—또는 통하지 않을지에 대한 직관을 갈고닦았다. 마찬가지로, 우리의 AI 시스템도 ML 실험에 대해 초인적인 직관을 쉽게 가질 수 있을 것 같다—그들은 전체 머신러닝 문헌을 읽었고, 모든 다른 실험 결과에서 학습하며 깊이 사고할 수 있고, 수백만 건의 ML 실험 결과를 예측하도록 훈련받을 수 있다. 그리고 아마도 그들이 처음 하는 일 중 하나는 "이 대규모 실험이 처음 1%의 훈련만 보고도 성공할지, 또는 이 실험의 소규모 버전을 보고 성공할지 예측하는 강력한 기초 과학"을 구축하는 것일 것이다.
– 게다가, 정말 좋은 직관을 넘어서—
탐색 방향에 대해, 제이슨 웨이가 지적했듯이, 수십 개의 하이퍼파라미터와 실험 세부사항에 대해 훌륭한 직관을 갖는 것은 엄청난 수익을 가져온다. 제이슨은 직관에 기반해 첫 시도에서 바로 맞추는 능력을 “요로 실행(yolo runs)”이라고 부른다. (제이슨은 “내가 아는 것은, 이걸 할 수 있는 사람들은 확실히 AI 연구자들보다 10~100배 뛰어나다”라고 말한다.)
컴퓨트(compute) 병목 현상은 백만 배 더 많은 연구자가 있다고 해도 연구 속도가 백만 배 빨라지지 않는다는 것을 의미한다—따라서 단기간 내 지능 폭발은 아니다. 하지만 자동화된 AI 연구자들은 인간 연구자들에 비해 엄청난 이점을 가질 것이며, 적어도 컴퓨트(compute)를 10배 이상 더 효율적/효과적으로 사용할 방법을 찾지 못할 이유가 없어 보인다—따라서 알고리즘 진보 속도가 10배 빨라지는 것은 충분히 그럴듯하다.
여기서 잠시, 내가 들은 가장 설득력 있는 반론 중 하나를 내 친구 제임스 브래드버리에게서 인정하고자 한다: 만약 더 많은 ML 연구 노력이 진보를 극적으로 가속화한다면, 왜 현재 수만 명에 달하는 학계 ML 연구 커뮤니티가 최첨단 연구실 진보에 더 크게 기여하지 않는가? (현재로서는, 연구실 내부 팀, 아마도 연구실 전체를 합쳐 천 명 정도가 최첨단 알고리즘 진보의 대부분을 담당하는 것 같다.) 그의 주장은 알고리즘 진보가 컴퓨트(compute) 병목에 걸려 있기 때문이라는 것이다: 학계는 단지 충분한 컴퓨트(compute) 자원을 갖고 있지 않다.
몇 가지 답변:
- 질을 조정해 보면, 학계 연구자는 아마 수만 명이 아니라 수천 명일 것이다 (예: 상위 대학만 고려할 때). 이는 아마 연구실 인원 합계와 크게 다르지 않을 것이다. (그리고 자동화된 AI 연구에서 나올 수백만 명 연구자와는 비교도 안 된다.)
- 학계는 잘못된 주제에 집중한다. 지금까지 매우...
최근(그리고 아마도 지금도?), 학계의 대다수 머신러닝 연구자들은 대형 언어 모델에 전혀 집중하지 않고 있었다. 학계에서 대형 언어 모델을 연구하는 강력한 학자들의 수는 연구소의 연구자들을 합친 것보다 의미 있게 적을 수도 있다?
- 학자들이 LLM 사전학습(pretraining)과 같은 연구를 하더라도, 그들은 최첨단 기술에 접근할 수 없다—연구소 내부의 최전선 모델 훈련에 관한 방대한 세부 지식 축적을 알지 못한다. 그들은 실제로 어떤 문제가 중요한지 알지 못하거나, 기준선이 잘못 조정되어 아무도 실제로 활용할 수 없는 단발성 결과만 낼 수 있다(그래서 그들의 결과가 실제 개선인지 알 수 없다).
- 학자들은 자동화된 AI 연구자들보다 훨씬 못하다: 그들은 인간 속도의 10배 또는 100배로 작업할 수 없고, 지금까지 작성된 모든 ML 논문을 읽고 내재화할 수 없으며, 10년간 모든 코드 라인을 점검하거나, 온보딩 병목 현상을 피하기 위해 스스로 복제할 수도 없다.
학자들에 대한 반대 사례로는 GDM이 OpenAI보다 훨씬 더 많은 실험용 컴퓨트(compute)를 보유했다는 소문이 있지만, 알고리즘 진보 면에서 GDM이 OpenAI를 크게 앞서지 않는 것으로 보인다는 점이 있다.
일반적으로, 자동화된 연구자들은 자신의 강점을 살리고 컴퓨트(compute) 병목 현상을 완화하는 방향으로 다른 연구 방식을 가질 것으로 예상한다. 이 결과가 어떻게 될지 불확실한 것은 합리적이지만, 인간에게 어려운 일이기 때문에 모델들이 컴퓨트(compute) 병목을 극복하지 못할 것이라고 확신하는 것은 비합리적이다.
- 예를 들어, 그들은 초기 단계에서 "작은 규모 실험으로부터 대규모 결과를 예측하는 방법"에 관한 기초 과학을 구축하는 데 많은 노력을 기울일 수 있다. 그리고 인간이 할 수 없는 많은 일을 할 수 있을 것으로 기대한다. 예를 들어, "이 대규모 실험이 성공할지 여부를 실험 초반에 예측하는 것" 같은 일 말이다.
"첫 1%의 훈련". 만약 당신이 매우 뛰어난 자동화 연구자이며 초인적인 직관을 가지고 있다면, 이것은 꽤 실현 가능해 보이며, 이로 인해 많은 컴퓨트(compute)를 절약할 수 있다.
- AI 시스템이 AI 연구를 자동화하는 모습을 상상할 때, 저는 이들이 컴퓨트(compute) 병목 현상에 걸리지만, 인간보다 1000배 더 많이(그리고 더 빠르게) 사고하고, 인간보다 더 높은 수준의 품질로 사고함으로써 이를 상당 부분 보완한다고 봅니다(예: 수백만 개의 실험 결과를 예측하도록 훈련받아 얻은 초인적인 머신러닝 직관 덕분에). 만약 이들이 단순히 엔지니어링보다 사고 능력이 훨씬 떨어지지 않는다면, 이것이 많은 부분을 보완할 수 있다고 생각하며, 이는 학계와는 질적으로 다를 것이다.
(실험 컴퓨트(compute) 외에도, 결국 몇 달이 걸리는 대규모 훈련 실행이라는 추가 병목 현상이 있다. 하지만 이를 절약할 수 있을 것이다. 지능 폭발의 해 동안 몇 차례만 실행하고, 현재 연구소들이 하는 것보다 더 큰 OOM(10배 단위) 도약을 할 수 있다. 또는 컴퓨트(compute) 효율성 향상 5단계 중 1단계를 "소비"하여 훈련 실행을 몇 달이 아닌 며칠 만에 완료할 수도 있다.)
참고로, 저는 이것이 가능할 것이라고 생각하지만, 다소 무섭기도 한다: 이는 이전 세대보다 다소 나은 일련의 대규모 모델들이 연속적으로 등장하는 대신, 하위 모델 지능이 더 불연속적/비연속적으로 발전할 수 있다을 의미한다. 우리는 지능 폭발 동안 한두 번의 대규모 실행만 할 수도 있으며, 각 실행마다 소규모에서 발견된 알고리즘 혁신의 여러 OOM을 쌓아둘 수 있다.
100% 자동화에 대한 상호보완성과 긴 꼬리(선택 사항, 더 깊이)
경제 성장을 가속화하는 AI 자동화에 대한 고전적인 경제학자의 반대는 서로 다른 작업들이 상호보완적이라는 점이다: 예를 들어, 1800년대 인간 노동의 80%를 자동화했음에도 불구하고 성장 폭발이나 대규모 실업으로 이어지지 않았으며, 나머지 20%가 모든 인간이 수행하는 작업이 되어 병목 현상으로 남았다. (여기에서 이 모델을 참조하세요.)
저는 경제학자들의 이 모델이 옳다고 생각한다. 하지만 중요한 점은 제가 현재 경제 전체가 아니라 현재는 작은 한 부분에 대해서만 이야기하고 있다는 것이다. 이 기간 동안 사람들은 여전히 정상적으로 이발을 받을 수도 있다—로봇 공학이 아직 완성되지 않았거나, 모든 분야에 AI가 아직 도입되지 않았거나, 사회적...
출시 방식이 아직 확정되지 않았을 수도 있지만, 그들은 AI 연구를 수행할 수 있을 것이다. 앞서 논의한 바와 같이, 현재 AI 발전 경로는 본질적으로 가장 똑똑한 인간만큼 지능적인 원격 근로자를 투입하는 방향으로 나아가고 있다. 이 글에서 논의한 바와 같이, AI 연구자의 업무는 완전 자동화가 충분히 가능한 범위 내에 있는 것으로 보인다.
그럼에도 불구하고, 실제로는 AI 연구자/엔지니어 업무의 100% 완전 자동화에 도달하기까지 다소 긴 시간이 걸릴 것으로 예상한다. 예를 들어, 처음에는 거의 엔지니어 대체 역할을 하는 시스템이 등장하겠지만, 여전히 일정 수준의 인간 감독이 필요할 수 있다.
특히, AI 역량 수준은 분야별로 다소 불균형하고 편차가 클 것으로 예상한다. 예를 들어, 어떤 분야에서는 최고의 엔지니어보다 더 뛰어난 코더일 수 있지만, 일부 작업이나 기술에서는 약점이 있을 수 있다. 가장 약한 분야에서 인간 수준에 도달할 때쯤이면, 코딩처럼 훈련하기 쉬운 분야에서는 이미 상당히 초인적인 능력을 갖추고 있을 것이다. (이것이 AI가 인간 연구자보다 컴퓨트(compute)를 더 효과적으로 사용할 수 있다고 생각하는 이유 중 하나이다. 100% 자동화/지능 폭발이 시작될 시점에는 이미 일부 분야에서 인간에 비해 큰 우위를 점하고 있을 것이다. 이는 초정렬(superalignment)에 중요한 함의를 가지는데, 최초의 자동화된 AI 연구자들을 정렬하기 위해서는 여러 분야에서 의미 있게 초인적인 시스템을 정렬해야 하기 때문이다.)
하지만 이 단계가 몇 년 이상 지속되지는 않을 것으로 봅니다. AI 발전 속도를 고려할 때, 마지막 단계를 완성하는 데는 모델의 명백한 한계를 제거하는 추가적인 ‘족쇄 풀기(unhobbling)’나 다음 세대 모델이 필요할 뿐일 것이다.
전반적으로, 이 과정은 급격한 도약을 다소 완화할 수 있다. 2027년 범용 인공지능(AGI) → 2028년 초지능으로 바로 이어지기보다는 다음과 같은 모습일 수 있다:
- 2026/27년: 원시 자동화 엔지니어, 그러나 일부 약점 존재
기타 분야. 이미 작업 속도가 1.5배에서 2배 빨라짐; 진전이 점차 가속화되기 시작함.
- 2027/28: 프로토 자동 연구자, 90% 이상 자동화 가능. 일부 남아있는 인간 병목 현상과 거대한 자동 연구자 조직을 조율하는 데 발생하는 문제들이 해결되어야 하지만, 이미 진전 속도를 3배 이상 가속화함. 이는 빠르게 나머지 필요한 “족쇄 풀기(unhobbling)”를 수행하여 100% 자동화에 이르게 함.
- 2028/29: 진전 속도 10배 이상 → 초지능.
이것도 여전히 매우 빠른 속도이다...
알고리즘 진보의 근본적 한계 (선택 사항, 더 깊이)
알고리즘 진보가 물리적으로 가능한 최대치에는 실제 한계가 있을 가능성이 높다. (예를 들어, 25 OOM(10배 단위)의 알고리즘 진보는 불가능해 보이는데, 이는 GPT-4 수준 시스템을 약 10 FLOPs 미만으로 훈련할 수 있다는 것을 의미하기 때문이다.) 하지만 약 5 OOM 정도는 충분히 가능성 있는 범위로 보인다; 다시 말해, 이는 단지 알고리즘 효율성(algorithmic efficiency)의 추세가 10년 더 지속되어야 한다는 것을 의미한다 (족쇄 풀기(unhobbling)로 인한 알고리즘 향상은 포함하지 않는다).
직관적으로, 가장 큰 돌파구들이 얼마나 단순한지, 그리고 현재의 아키텍처와 훈련 기법들이 얼마나 원시적이고 명백히 제약되어 있는지를 고려할 때, 아직 저절로 얻을 수 있는 성과를 모두 소진했다고 보이지 않는다. 예를 들어, 나는 AI 시스템이 ‘사고 과정을 소리 내어 생각하는’ 체인 오브 쏘트(chain-of-thought)를 통해 범용 인공지능(AGI)에 도달할 가능성이 꽤 있다고 생각한다. 하지만 분명히 이것이 가장 효율적인 방법은 아니며, 내부 상태/순환 등으로 이 추론을 수행하는 무언가가 훨씬 더 효율적일 것이다. 또는 적응형 컴퓨트(compute)를 고려해 보자: Llama 3는 복잡한 질문에 대한 답변을 예측하는 데 쓰는 컴퓨트(compute)와 ‘and’ 토큰을 예측하는 데 쓰는 컴퓨트(compute)가 동일한데, 이는 명백히 비효율적이다. 우리는 작은 조정만으로도 엄청난 OOM(10배 단위)의 알고리즘 이득을 얻고 있으며, 훨씬 더 효율적인 수십 개의 분야가 있다.
효율적인 아키텍처와 훈련 절차도 아마 발견될 수 있을 것이다.
생물학적 참조도 큰 여지가 있음을 시사한다. 예를 들어, 인간의 지능 범위는 매우 넓으며, 아키텍처에 약간의 조정만으로도 가능하다. 인간은 다른 동물들과 비슷한 수의 뉴런을 가지고 있지만, 인간이 그 동물들보다 훨씬 더 똑똑하다. 그리고 현재 AI 모델들은 인간 두뇌의 효율성에서 아직도 여러 OOM(10배 단위) 차이가 있다; 인간은 AI 모델들이 학습하는 것보다 훨씬 적은 데이터(따라서 훨씬 적은 “컴퓨트(compute)”)로 학습할 수 있는데, 이는 우리의 알고리즘과 아키텍처에 큰 여지가 있음을 시사한다.
아이디어는 찾기 어려워지고 수확 체감이 발생한다 (선택 사항, 더 깊이)
낮은 열매를 따면서 아이디어를 찾기 점점 어려워진다. 이는 기술 진보의 어떤 영역에서도 사실이다. 본질적으로, 우리는 로그-로그 곡선에서 직선을 본다: 로그(진보)는 로그(누적 연구 노력)의 함수이다. 추가적인 진보의 각 OOM(10배 단위)는 이전 OOM보다 더 많은 연구 노력을 투입해야 한다.
이것은 지능 폭발에 대한 두 가지 반론으로 이어진다:
- 자동화된 AI 연구는 진보를 극적으로 가속화하기보다는 단지 진보를 유지하는 데 필요한 수준에 그칠 것이다.
- 순수 알고리즘적 지능 폭발은 지속되지 않거나 알고리즘 진보를 찾기 어려워지고 한계 수확 체감에 부딪혀 빠르게 사그라들 것이다.
나는 과거 경제학 연구를 할 때 이러한 유형의 모델에 대해 많은 시간을 생각했다. (특히, 준내생 성장 이론은 기술 진보의 표준 모델로, 증가하는 연구 노력과 아이디어 찾기 어려움이라는 두 경쟁 역학을 포착한다.)
요컨대, 이러한 반대 의견들의 근본적인 모델은 타당하다고 생각하지만, 그것이 어떻게 전개될지는 경험적인 문제이며—그들이 경험적 분석을 잘못했다고 생각한다.
핵심 질문은 본질적으로 다음과 같다: 진보가 10배 이루어질 때마다, 추가 진보는 10배 더 어려워지는가 아니면 덜 어려워지는가? 경제학 문헌에서 이와 유사하게 수행되는 간단한 계산이 이를 제한하는 데 도움이 된다.
- 알고리즘 진보의 연간 약 0.5 OOM(10배 단위) 추세율을 진지하게 받아들인다면, 4년 내에 100배의 진보를 의미한다.
- 그러나 특정 선도 AI 연구소(frontier AI lab)에서의 질 보정된 인력/연구 노력은 4년 동안 확실히 100배 미만으로 증가했다. 아마도 10배 증가했을 수 있다(해당 연구소에서 관련 업무를 하는 인원이 수십 명에서 수백 명으로), 하지만 질 보정을 감안하면 그마저도 불확실하다.
- 그럼에도 불구하고, 알고리즘 진보는 지속되는 것으로 보인다.
따라서 반대 의견 1에 대한 답변으로, 연구 노력의 약 백만 배 증가는 단순히 진보를 유지하는 데 필요한 것보다 훨씬 더 큰 증가일 것임을 지적할 수 있다. 아마도 4년 내에 한 연구소에서 관련 연구를 수행하는 연구자가 수천 명 정도 필요할 수 있는데, 1억 명의 Alec Radford가 있다면 여전히 엄청난 증가이며 분명히 대규모 가속을 초래할 것이다. 자동화된 연구가 기존 진보 속도를 유지하는 데 딱 맞는 수준일 것이라는 가정은 매우 기이한 ‘칼날 끝’ 가정이다. (그리고 이는 인간 연구자보다 10배 빠른 사고 속도와 AI 시스템이 가질 다른 모든 이점을 고려하지 않은 것이다.)
반대 의견 2에 대한 답변으로, 두 가지를 지적할 수 있다:
- 첫째, 위에서 언급한 수학적 조건이다. 우리의 간단한 계산에 따르면, 알고리즘 진보가 100배 이루어지는 동안 질 보정된 연구 노력은 100배 미만으로 증가해야 했으므로, 이는 상당히 강력하게 보인다.
수익 곡선의 형태는 자가 지속적 진보에 유리하게 나타난다.
Tom Davidson과 Carl Shulman도 성장 모델링 틀에서 이 경험적 분석을 수행하여 유사한 결론에 도달했다. Epoch AI도 최근 경험적 연구를 수행했으며, 알고리즘 연구개발에 대한 경험적 수익이 폭발적 성장을 지지한다는 결론과 그 함의에 대한 유용한 설명을 내놓았다.
초지능의 힘
이러한 주장 중 가장 강력한 형태에 동의하든—1년 미만의 지능 폭발이 오든, 몇 년이 걸리든—명확한 것은: 우리는 초지능의 가능성에 맞서야 한다는 점이다.
이번 10년 말까지 우리가 갖게 될 AI 시스템은 상상할 수 없을 정도로 강력할 것이다.
- 물론, 이들은 양적으로 인간을 초월할 것이다. 우리의 함대에서
수십억 개의 GPU를 운용할 수 있게 되면, 우리는 수십억 개의 GPU로 구성된 문명을 운영할 수 있게 될 것이며, 이들은 인간보다 OOM(10배 단위)로 훨씬 빠르게 “생각”할 수 있을 것이다. 이들은 어떤 분야든 빠르게 마스터할 수 있고, 수조 줄의 코드를 작성하며, 지금까지 작성된 모든 과학 분야의 연구 논문을 읽을 수 있을 것이다(완벽하게 학제간 지식을 갖추게 될 것이다!). 그리고 당신이 한 논문의 초록을 넘기기도 전에 새로운 논문을 작성할 것이며, 그 복제본 각각의 병렬 경험으로부터 학습하고, 몇 주 만에 수십억 년에 해당하는 인간과 동등한 경험을 새로운 혁신에 대해 쌓을 것이다. 100%의 시간 동안 최고 에너지와 집중력으로 작업하며, 뒤처지는 팀원 때문에 속도가 느려지지 않을 것이다 등등.
- 더 중요하지만 상상하기 어려운 점은, 이들이 질적으로 초인적일 것이라는 점이다. 좁은 예로, 대규모 강화학습(RL) 실행은 인간의 이해를 넘어서는 완전히 새롭고 창의적인 행동을 만들어냈는데, 예를 들어 AlphaGo가 이세돌과의 대국에서 보여준 유명한 37번째 수가 있다. 초지능은 여러 분야에서 이와 같을 것이다. 인간이 알아차리기에는 너무 미묘한 인간 코드의 취약점을 찾아내고, 모델이 수십 년을 설명하려 해도 인간이 이해할 수 없을 정도로 복잡한 코드를 생성할 것이다. 인간이 수십 년간 막혀 있을 극도로 어려운 과학적·기술적 문제들이 그들에게는 너무나 명백하게 보일 것이다. 우리는 고등학생이 뉴턴 역학에 갇혀 있을 때 그들이 양자역학을 탐구하는 것과 같을 것이다.
이것이 얼마나 놀라운 일인지 예를 들자면, 유튜브에서 비디오 게임 스피드런 영상을 보라. 예를 들어 마인크래프트를 20초 만에 클리어하는 영상이 있다. (이 영상에서 무슨 일이 일어나고 있는지 전혀 모르겠다면, 당신은 좋은 동료가 있다; 대부분의 일반 마인크래프트 플레이어들도 무슨 일이 일어나고 있는지 거의 알지 못한다.)
이제 이것이 과학, 기술, 경제의 모든 분야에 적용된다고 상상해 보라. 물론 여기에는 매우 큰 오차 범위가 있다. 그럼에도 불구하고, 이것은 실제로 일어나고 있으며, 얼마나 중대한 결과를 초래할지 고려하는 것이 중요하다.
지능 폭발에서는 초기의 폭발적 진보가 자동화된 AI 연구라는 좁은 영역에만 국한되었다. 범용 초지능이 등장하고 수십억의 (이제는 초지능화된) 에이전트(agent)를 다양한 분야의 연구개발에 투입하면, 폭발적 진보는 다음과 같이 확장될 것으로 예상한다:
- AI 역량 폭발. 초기의 범용 인공지능(AGI)은 일부 다른 영역(단지 AI 연구 영역뿐만 아니라)에서 작업을 완전히 자동화하는 데 제한이 있었을 수 있다; 자동화된 AI 연구가 이를 빠르게 해결하여 모든 인지 작업의 자동화를 가능하게 할 것이다.
- 로보틱스 문제 해결. 초지능은 오래도록 순수 인지 기능에만 머무르지 않을 것이다. 로보틱스를 잘 작동시키는 것은 주로 하드웨어 문제가 아니라 머신러닝 알고리즘 문제이며, 우리의 자동화된 AI 연구자들이 이를 해결할 가능성이 높다(아래에서 더 설명!). 공장은 인간이 운영하는 단계에서 AI가 인간의 물리적 노동을 지시하는 단계로, 곧 로봇 무리가 완전히 운영하는 단계로 전환될 것이다.
- 과학 및 기술 진보의 극적인 가속화. 아인슈타인 한 명이 신경과학을 발전시키고 반도체 산업을 구축할 수는 없었지만, 수십억의 초지능 자동화 과학자, 엔지니어, 기술자, 로봇이 있다면
기술자들(로봇이 인간 속도의 10배 이상으로 움직임!)1111. 물리 세계에서 물리적 연구개발을 수행하는 10배 속도의 로봇은 “느린 버전”이다; 실제로 초지능들은 AlphaFold나 제조 “디지털 트윈”처럼 가능한 한 많은 연구개발을 시뮬레이션에서 수행하려 할 것이다.은 수년 내에 여러 분야에서 놀라운 발전을 이룰 것이다. (AI 주도의 연구개발이 어떻게 보일지 시각화한 짧은 이야기 하나가 있다.) 수십억의 초지능들은 인간 연구자들이 다음 세기 동안 할 연구개발 노력을 수년 내로 압축할 수 있을 것이다. 20세기의 기술 진보가 10년도 채 안 되는 기간에 압축된다면 어떨지 상상해 보라. 우리는 비행이 환상으로 여겨지던 시절에서 비행기, 달 착륙, 대륙간탄도미사일(ICBM)까지 수년 만에 도달했을 것이다. 이것이 내가 2030년대 과학과 기술 전반에서 기대하는 모습이다.
- 산업 및 경제 폭발. 극도로 가속화된 기술 진보와 모든 인간 노동의 자동화 능력이 결합되면 경제 성장이 극적으로 가속화될 수 있다(예: 네바다 사막 전체를 빠르게 덮는 자기 복제 로봇 공장1212. “팩토리오 세계”—공장을 지어 더 많은 공장을 생산하고, 더 많은 공장을 생산하는 공장을 만들어 결국 행성 전체가 공장으로 빠르게 덮이는 것이 왜 오늘날 불가능한가? 노동력이 제한되기 때문이다—자본(공장, 도구 등)을 축적할 수는 있지만, 고정된 노동력에 의해 수익 체감이 발생한다. 로봇과 AI 시스템이 노동을 완전히 자동화할 수 있다면, 그 제약이 제거된다; 로봇 공장은 거의 무제한적으로 더 많은 로봇 공장을 생산할 수 있어 산업 폭발로 이어질 수 있다. 이에 관한 경제 성장 모델은 여기에서 더 볼 수 있다.). 성장률 증가는 단순히 연 2%에서 2.5%로의 증가가 아니라, 매우 느린 성장에서 산업혁명과 함께 연 몇 퍼센트 성장으로의 역사적 단계 변화에 비견될 근본적인 성장 체제의 변화일 것이다. 우리는 연 30% 이상의 경제 성장률, 심지어 연간 여러 차례의 두 배 증가를 볼 수도 있다. 이는 경제학자들의 경제 성장 모델에서 비교적 직관적으로 도출된다. 물론, 사회적 마찰로 인해 지연될 수도 있다; 복잡한 규제가 AI 시스템이 훨씬 더 잘할 수 있는 직업임에도 불구하고 변호사와 의사는 여전히 인간이어야 한다고 보장할 수 있고; 사회가 변화 속도를 저항하면서 급속히 확장되는 로봇 공장에 모래를 던질 수도 있으며; 인간 보모를 유지하고 싶어 할 수도 있다; 이 모든 것이 전체 GDP 통계의 성장을 늦출 것이다. 그럼에도 불구하고, 인간이 만든 장벽(예: 군사 생산을 위해 경쟁이 우리를 강제할 수도 있음)을 제거하는 어떤 영역에서는 산업 폭발을 보게 될 것이다.
| 성장 모드 | 지배하기 시작한 시기 | 세계 경제 두 배 증가 시간 |
|---|---|---|
| 사냥 | 기원전 2,000,000년 | 230,000년 |
| 농업 | 기원전 4700년 | 860년 |
| 과학/상업 | 서기 1730년 | 58년 |
| 산업 | 서기 1903년 | 15년 |
| 초지능? | 서기 2030년? | ??? |
- 결정적이고 압도적인 군사적 우위를 제공한다. 초기 인지 초지능만으로도 충분할 수 있다; 아마도 어떤 초인적 해킹 계획이 적군 군대를 무력화할 수 있을 것이다. 어쨌든 군사력과 기술 진보는 역사적으로 밀접하게 연관되어 왔으며, 매우 빠른 기술 발전과 함께 군사 혁명도 뒤따를 것이다. 드론 떼와 로봇 군대가 큰 이슈가 되겠지만, 그것들은 시작에 불과하다; 새로운 유형의 무기들, 신종 대량살상무기부터 무적의 레이저 기반 미사일 방어체계, 그리고 아직 상상할 수 없는 것들이 등장할 것이다. 초지능 이전의 무기고와 비교하면, 21세기 군대가 19세기 말 말과 총검을 든 여단과 싸우는 것과 같다. (초지능이 어떻게 결정적인 군사 우위를 가져올 수 있는지 후속 글에서 다룰 것이다.)
- 미국 정부를 전복할 수 있다. 초지능을 통제하는 자는 초지능 이전 세력으로부터 권력을 탈취할 만큼 충분한 힘을 가질 가능성이 크다. 로봇이 없어도, 초지능 문명은 방어되지 않은 군사, 선거, 텔레비전 등 시스템을 해킹할 수 있고, 장군과 유권자를 교묘히 설득하며, 국가를 경제적으로 능가하고, 새로운 합성 생물무기를 설계한 뒤 비트코인으로 인간에게 합성을 의뢰하는 등 다양한 수단을 사용할 수 있다. 1500년대 초, 코르테스와 약 500명의 스페인인이 수백만 명의 아즈텍 제국을 정복했고, 피사로와 약 300명의 스페인인이 수백만 명의 잉카 제국을 정복했으며, 알폰소와 약 1000명의 포르투갈인이 인도양을 정복했다. 그들은 신과 같은 힘을 가진 것은 아니었지만, 구세계의 기술 우위와 전략적 우위가 있었다.
지능과 외교적 교활함이 완전히 결정적인 우위를 가져왔다. 초지능도 비슷하게 보일 수 있다.
나는 한때 이 의견에 공감했지만, 이제는 로봇이 장애물이 되지 않을 것이라고 확신하게 되었다. 수년간 사람들은 로봇이 하드웨어 문제라고 주장했지만, 로봇 하드웨어는 이미 해결 단계에 접어들고 있다.
점점 더 명확해지는 것은 로봇이 기계학습(ML) 알고리즘 문제라는 점이다. 대형 언어 모델(LLM)은 부트스트랩이 훨씬 쉬웠다: 인터넷 전체를 사전학습(pretraining) 데이터로 활용할 수 있었기 때문이다. 로봇 동작에 대해 이와 유사한 대규모 데이터셋은 없으며, 따라서 멀티모달 모델을 기반으로 삼고 합성 데이터/시뮬레이션/영리한 강화학습(RL) 등을 활용하는 등 더 정교한 접근법이 필요하다.
지금 이 문제를 해결하기 위해 엄청난 에너지가 집중되고 있다. 하지만 AGI 이전에 이 문제를 해결하지 못하더라도, 수억 대의 AGI/초지능들이 놀라운 AI 연구자가 될 것이며(이 글의 핵심 주장이다!), 그들이 놀라운 로봇을 작동시키는 머신러닝 문제를 반드시 해결할 가능성이 매우 높다.
따라서 로봇이 몇 년 정도 지연을 초래할 가능성은 있지만(머신러닝 문제 해결, 시뮬레이션보다 근본적으로 느린 물리적 세계에서의 테스트, 로봇이 스스로 공장을 짓기 전에 초기 로봇 생산 확대 등), 그 이상은 아닐 것이라고 생각한다.
이 모든 일이 2030년대에 어떻게 전개될지는 예측하기 어렵다(그리고 그것은 또 다른 이야기다). 하지만 적어도 한 가지는 분명하다: 우리는 인류가 지금까지 직면한 것 중 가장 극단적인 상황에 빠르게 몰입할 것이다.
인간 수준의 AI 시스템, 즉 범용 인공지능(AGI)은 그 자체로도 매우 중대한 의미를 가지겠지만, 어떤 면에서는 우리가 이미 알고 있는 것의 더 효율적인 버전에 불과할 것이다. 그러나 매우 그럴듯하게도, 단 1년 내에 우리는 훨씬 더 이질적인 시스템으로 전환할 것이며, 그 시스템의 이해력과 능력—즉 순수한 힘—은 인류 전체를 합친 것조차 능가할 것이다. 우리는 이 급격한 전환 과정에서 AI 시스템에 신뢰를 맡길 수밖에 없게 되면서 통제력을 잃을 가능성이 실제로 존재한다.
더 일반적으로, 모든 일이 믿을 수 없을 정도로 빠르게 진행될 것이다. 그리고 세상은 미쳐 돌아가기 시작할 것이다. 만약 우리가 20세기의 지정학적 격변과 인위적 위험들을 단 몇 년 만에 겪었다면; 그것이 바로 초지능 이후에 우리가 예상해야 할 상황이다. 그 끝에는 초지능 AI 시스템이 우리의 군사와 경제를 운영하고 있을 것이다. 이 모든 광란 속에서 우리는 올바른 결정을 내릴 시간이 극히 부족할 것이다. 도전 과제는 엄청날 것이다. 무사히 이 상황을 헤쳐 나가려면 우리가 가진 모든 것을 쏟아부어야 할 것이다.
지능 폭발과 초지능 직후의 시기는 인류 역사상 가장 불안정하고 긴장되며 위험하고 격렬한 시기 중 하나가 될 것이다.
그리고 아마도 이 10년이 끝날 무렵 우리는 그 한가운데에 있을 것이다.
지능 폭발—초지능의 출현—가능성에 직면하는 것은 종종 핵 연쇄 반응 가능성에 관한 초기 논쟁을 떠올리게 한다—그리고 그것이 가능하게 할 원자폭탄. H.G. 웰스는 1914년 소설에서 원자폭탄을 예견했다. 1933년 질라드는 연쇄 반응 아이디어를 처음 구상했을 때 아무도 믿지 않았고, 그것은 순전히 이론에 불과했다. 1938년 핵분열이 실험적으로 발견되자 질라드는 다시 크게 놀라 비밀 유지의 필요성을 강력히 주장했고, 몇몇 사람들은 폭탄 가능성에 눈을 뜨기 시작했다. 아인슈타인은 연쇄 반응 가능성을 고려하지 않았지만, 질라드가 그에게 직면했을 때 그는 그 함의를 빠르게 이해하고 필요한 모든 일을 할 준비가 되어 있었다; 그는 경고음을 울리는 것을 두려워하지 않았고 어리석게 보이는 것도 개의치 않았다. 그러나 페르미, 보어, 그리고 대부분의 과학자들은 폭탄 가능성의 비범한 함의를 진지하게 받아들이기보다는 “보수적”인 태도로 축소하는 것이 낫다고 생각했다. 비밀 유지(독일인과의 기술 공유를 피하기 위해)와 기타 전면적인 노력들은 그들에게 터무니없어 보였다. 연쇄 반응은 너무 터무니없는 소리였다. (결국 폭탄이 현실이 되기까지 반십 년밖에 걸리지 않았음에도 불구하고.)
우리는 다시 한 번 연쇄 반응 가능성에 직면해야 한다. 아마도 당신에게는 추측처럼 들릴지 모른다. 그러나 AI 연구소의 고위 과학자들 사이에서는 급격한 지능 폭발이 매우 그럴듯하다고 보는 이들이 많다. 그들은 그것을 볼 수 있다. 초지능은 가능하다.
III. 도전 과제들
댓글