I. GPT-4에서 범용 인공지능(AGI)까지: OOM(10배 단위) 계산하기

2027년 AGI는 생각보다 훨씬 그럴듯한 시나리오다. GPT-2에서 GPT-4까지 4년 동안 모델은 ‘유치원생 수준’에서 ‘똑똑한 고등학생 수준’으로 뛰어올랐다. 컴퓨트(compute), 알고리즘 효율, 그리고 챗봇의 족쇄를 풀어 에이전트(agent)처럼 쓰게 만드는 개선이 지금 같은 속도로 이어진다면, 2027년까지 비슷한 질적 도약이 한 번 더 일어날 수 있다.

보세요. 모델들은 단지 배우고 싶어할 뿐이다. 이 점을 이해해야 한다. 모델들은 단지 배우고 싶어할 뿐이다. 일리야 수츠케버 (2015년경, 다리오 아모데이를 통해)

GPT-4의 능력은 많은 이들에게 충격이었다: 코드를 작성하고 에세이를 쓰며, 어려운 수학 문제를 논리적으로 해결하고 대학 시험을 통과할 수 있는 AI 시스템이었다. 몇 년 전만 해도 대부분은 이것이 불가능한 벽이라고 생각했다.

하지만 GPT-4는 단지 딥러닝 분야에서 10년간 이어진 급속한 진보의 연장선에 불과했다. 10년 전만 해도 모델들은 고양이와 개의 단순한 이미지를 겨우 식별할 수 있었고, 4년 전 GPT-2는 그럴듯한 문장을 겨우 연결할 수 있었다. 이제 우리는 만들 수 있는 모든 벤치마크를 빠르게 포화시키고 있다. 그리고 이 극적인 진보는 단지 딥러닝 규모 확장의 일관된 추세의 결과일 뿐이다.

이것을 훨씬 이전부터 본 사람들이 있었다. 그들은 조롱당했지만, 그들이 한 것은 단지 추세선을 신뢰한 것뿐이었다.

추세선은 강렬하며, 그들은 옳았다. 모델들은 단지 배우고 싶어 한다; 규모를 키우면 더 많이 배운다.

나는 다음과 같은 주장을 한다: 2027년까지 모델들이 AI 연구원/엔지니어의 일을 할 수 있게 될 가능성이 매우 높다. 이는 공상과학을 믿어야 하는 것이 아니라, 그래프의 직선 추세를 믿기만 하면 된다.

이 글에서는 단순히 “OOM(10배 단위)를 계산”할 것이다 (OOM = OOM, 10배 = 1 OOM): 1) 컴퓨트(compute), 2) 알고리즘 효율성(“유효 컴퓨트(effective compute)”으로 생각할 수 있는 알고리즘 진보), 3) “족쇄 풀기(unhobbling)” 이득(모델이 기본적으로 제약받는 명백한 방식을 수정하여 잠재 능력을 해방시키고 도구를 제공함으로써 유용성에 단계적 변화를 가져오는 것) 추세를 살펴본다. 우리는

그림 1 원문 이미지 — **그림 1:**과거와 미래의 유효 컴퓨트(물리적 컴퓨트(compute)와 알고리즘 효율성(algorithmic efficiency) 모두)의 대략적 추정치, 이 글에서 논의된 공개 추정치를 기반으로 한다. 모델을 확장할수록 일관되게 더 똑똑해지며, “OOM 계산”을 통해 (가까운) 미래에 기대할 수 있는 모델 지능의 대략적인 감을 얻는다. (이 그래프는 기본 모델의 확장만을 보여주며, “족쇄 풀기(unhobbling)”는 포함하지 않는다.)

GPT-4 이전 4년 동안 각 요소의 성장과 2027년 말까지 향후 4년 동안 우리가 기대해야 할 바를 살펴보자. 딥러닝이 유효 컴퓨트(effective compute)의 모든 OOM(10배 단위)마다 꾸준히 개선되어 왔기 때문에, 이를 바탕으로 미래의 진전을 예측할 수 있다.

공개적으로는 GPT-4 출시 이후 1년간 조용한 상태였는데, 차세대 모델들이 개발 중이었기 때문이다—이로 인해 일부에서는 정체를 선언하며 딥러닝이 한계에 부딪혔다고 주장하기도 했다.¹1. 지난 10년간 매년 내놓은 예측들이며, 일관되게 틀렸던 것들이다... 그러나 OOM을 세어보면 실제로 우리가 기대해야 할 바를 엿볼 수 있다.

핵심은 단순하다. GPT-2에서 GPT-4로의 도약—몇 문장을 그럴듯하게 이어 붙이던 모델에서 고등학교 수준 시험을 통과하는 모델로의 변화—은 일회성 사건이 아니었다. 우리는 OOM을 매우 빠르게 통과하고 있으며, 수치상으로는 향후 4년 동안 약 10만 배의 유효 컴퓨트(effective compute) 규모 확장이 예상된다—이는 GPT-2에서 GPT-4로의 질적 도약과 비슷한 또 다른 도약을 의미한다. 더욱이, 그리고 결정적으로, 이것은 단순히 더 나은 챗봇을 의미하는 것이 아니다; “족쇄 풀기(unhobbling)”에서 명백한 저위험 과제들을 해결하면 챗봇에서 에이전트(agent)로, 도구에서 바로 투입 가능한 원격 동료처럼 보이는 무언가로 발전할 것이다.

계산은 단순하지만, 함의는 크다. 또 다른 도약은 범용 인공지능(AGI), 즉 박사급 전문가만큼 똑똑한 모델로 우리 곁에서 동료로 일할 수 있는 모델로 나아갈 가능성이 매우 크다. 아마도 가장 중요한 점은, 이러한 AI 시스템이 AI 연구 자체를 자동화할 수 있다면, 이는 강력한 피드백 루프를 촉발할 것이며—이것이 시리즈의 다음 주제이다.

지금도 시장과 제도권은 이 변화를 충분히 가격에 반영하지 못하고 있다. 그러나 AI에 대한 상황 인식은 실제로 그리 어렵지 않다, 한 발 물러서서 추세를 보면 된다. AI 능력에 계속 놀란다면, OOM을 세기 시작하라.

지난 4년

우리는 이제 기본적으로 인간과 대화할 수 있는 기계를 가지고 있다. 이는 인간의 적응 능력에 대한 놀라운 증거다. 이 속도가 정상처럼 느껴지고, 우리가 발전 속도에 무감각해진 것 같다. 하지만 잠시 멈춰서 지난 몇 년간의 발전을 되돌아볼 가치가 있다.

GPT-2에서 GPT-4까지

GPT-4에 이르기까지 단지 약 4년 만에 우리가 얼마나 멀리 왔는지 상기시켜 드리겠다.

GPT-2 (2019) ~ 유치원생 수준: “와, 몇 개의 그럴듯한 문장을 이어 붙일 수 있네.” 안데스 산맥의 유니콘에 관한 반쯤 일관된 이야기를 생성한 매우 선별된 예는 당시에는 굉장히 인상적이었다. 그럼에도 불구하고 GPT-2는 5까지 세는 것도 제대로 하지 못했고;²2. SSC에서 발췌: “Janelle Shane이 GPT-2에게 가장 좋아하는 동물 열 가지를 묻다: 프롬프트: My 10 favorite animals are: 1. 등 뒤에 흰 흉터가 있는 얼룩말 2. 교활한 거미와 문어 3. 큰 잎을 가진 개구리, 희망컨대 검은색 4. 비늘이 있는 코카티엘 5. 얼룩죽지새가 얼굴에서 약 4인치 떨어진 곳에 날개를 늘어뜨리고 개구리에 심장 문신이 있음 3. 서로 맞물리는 테트라보드를 가진 코카트릭, 눈이 멀거나 자를 수 있으며 날것으로도 먹을 수 있다: 4. 햇빛 아래 사는 흑백 사막 악어 5. 얼룩말 및 기타 많은 완두콩벌레들” 기사를 요약할 때는 기사에서 무작위로 3개의 문장을 선택하는 것보다 겨우 조금 더 나았다.³3. GPT-2 논문, 3장 6절에서 발췌

인간 지능과 AI 능력을 비교하는 것은 어렵고 결함이 있지만, 이 비유를 고려하는 것은 유익하다고 생각한다.

[SSC에서 인용: “Janelle Shane이 GPT-2에게 가장 좋아하는 동물 10가지를 물었다: 프롬프트: 내가 가장 좋아하는 동물 10가지는: 1. 내가 가장 좋아하는 동물 10가지는: 1. 등 뒤에 흰 흉터가 있는 얼룩말 2. 교활한 거미와 문어 3. 큰 잎을 가진 개구리, 아마도 검은색 4. 비늘이 있는 코카티엘 5. 얼굴에서 약 4인치 떨어진 곳에 날개가 달린 레이저빌과 개구리에 하트 문신 3. 서로 맞물리는 테트라보드인 코카트릭, 눈이 멀거나 잘리거나 날것으로 먹을 수 있다: 4. 햇빛 아래 사는 흑백 사막 악어 5. 얼룩말과 많은 다른 완두콩 벌레들”]

[GPT-2 논문, 3.6절에서 인용]

그림 2 원문 이미지 — **그림 2:**당시 사람들이 GPT-2에 대해 인상 깊게 여겼던 몇 가지 예. 왼쪽: GPT-2가 매우 기본적인 독해 질문에 괜찮은 답변을 한다. 오른쪽: 선별된 샘플(10번 시도 중 최고)에서 GPT-2는 남북전쟁에 대해 반쯤 일관된 단락을 작성할 수 있다.

여기서는, 비록 매우 불완전하더라도. GPT-2는 언어 구사 능력과 때때로 반응이 일관된 단락을 생성하거나 간단한 사실 질문에 올바르게 답할 수 있는 능력으로 충격을 주었다. 이는 유치원생에게 인상적일 만한 수준이었다.

GPT-3 (2020)⁴4. 여기서 말하는 것은 다소 투박한 구형 GPT-3이며, ChatGPT로 알려진 극적으로 개선된 GPT-3.5가 아니다. ~ 초등학생: “몇 가지 예시만으로도 간단한 유용한 작업을 수행할 수 있다.” GPT-3는 여러 단락에 걸쳐 훨씬 더 일관되게 응집력을 보이기 시작했고, 문법을 교정하고 아주 기본적인 산술도 할 수 있었다. 처음으로, GPT-3는 몇 가지 제한된 방식으로 상업적으로도 유용해졌다. 예를 들어, GPT-3는 SEO 및 마케팅을 위한 간단한 카피를 생성할 수 있었다.

다시 말하지만, 비교는 완벽하지 않지만, 사람들이 GPT-3에 감탄한 점은 아마도 초등학생에게 인상적일 만한 것이었다. GPT-3는 기본적인 시를 쓰고, 더 풍부하고 일관된 이야기를 할 수 있었으며, 기초적인 이야기 구성을 시작할 수 있었다.

그림 3 원문 이미지 — **그림 3:**당시 사람들이 GPT-3에 대해 인상 깊게 여겼던 몇 가지 예시. 상단: 간단한 지시 후, GPT-3가 새 문장에서 만들어낸 단어를 사용할 수 있다. 좌측 하단: GPT-3가 풍부한 스토리텔링을 주고받을 수 있다. 우측 하단: GPT-3가 아주 간단한 코드를 생성할 수 있다.

코딩, 간단한 지시와 시범으로부터 꽤 신뢰성 있게 학습할 수 있었고, 그 외에도 여러 능력을 보였다.

GPT-4 (2023) ~ 똑똑한 고등학생: “와, 꽤 정교한 코드를 작성하고 반복적으로 디버깅할 수 있으며, 복잡한 주제에 대해 지능적이고 정교하게 글을 쓸 수 있고, 어려운 고등학교 수학 경시 문제도 논리적으로 풀 수 있다. 우리가 줄 수 있는 대부분의 시험에서 대다수 고등학생을 능가하고 있다.” 코드부터 수학, 페르미 추정에 이르기까지 사고하고 추론할 수 있다. GPT-4는 이제 코드 작성 지원부터 초안 수정까지 내 일상 업무에 유용하게 활용되고 있다.

그림 4 원문 이미지 — **그림 4:**“범용 인공지능(AGI)의 불꽃” 논문에서 GPT-4가 출시되었을 때 사람들이 인상 깊게 여긴 일부 내용들. 상단: 매우 복잡한 코드를 작성하고(중간에 표시된 그래프 생성) 비단순한 수학 문제를 논리적으로 해결할 수 있다. 좌측 하단: AP 수학 문제 해결. 우측 하단: 꽤 복잡한 코딩 문제 해결. GPT-4의 능력 탐구에서 더 흥미로운 발췌문은 여기에서 확인할 수 있다.

AP 시험부터 SAT에 이르기까지, GPT-4는 고등학생 대다수보다 더 높은 점수를 받는다.

물론, GPT-4도 여전히 다소 들쭉날쭉하다; 어떤 과제에서는 똑똑한 고등학생보다 훨씬 뛰어나지만, 아직 수행하지 못하는 과제도 있다. 그렇긴 해도, 나는 대부분의 이러한 한계가 모델들이 여전히 제약되어 있는 명백한 이유 때문이라고 생각하는 편이다. 기초 지능은 (대체로) 존재하며, 모델들이 인위적으로 제한되어 있더라도; 이 원초적 지능을 다양한 응용 분야에 완전히 적용할 수 있도록 끌어내는 데는 추가 작업이 필요할 것이다.

그림 5 원문 이미지 — **그림 5:**단 4년 만의 진전. 당신은 이 선상 어디에 있습니까?

딥러닝의 동향

지난 10년간 딥러닝 진전 속도는 그야말로 놀라웠다. 불과 10년 전만 해도 딥러닝 시스템이 단순한 이미지를 식별하는 것은 혁명적인 일이었다. 오늘날 우리는 계속해서 새롭고 점점 더 어려운 테스트를 고안하려 하지만, 각 새로운 벤치마크는 빠르게 해결된다. 널리 사용되는 벤치마크를 깨는 데 수십 년이 걸리던 시절과 달리, 이제는 몇 달 만에 해결되는 느낌이다.

우리는 문자 그대로 벤치마크가 바닥나고 있다. 일화로, 내 친구들인 댄과 콜린이 2020년에 MMLU라는 벤치마크를 만들었다. 그들은 마침내 고등학생과 대학생에게 주어지는 가장 어려운 시험과 동등한, 시간이 지나도 유효한 벤치마크를 만들고자 했다. 단 3년 만에, GPT-4와 제미니 같은 모델들이 사실상 이를 해결했다.

그림 6 원문 이미지 — **그림 6:**딥러닝 시스템은 많은 영역에서 인간 수준에 빠르게 도달하거나 이를 능가하고 있다. 그래픽: Our World in Data

약 90%를 달성한다.

더 넓게 보면, GPT-4는 대부분의 표준 고등학교 및 대학 적성 시험을 통과한다(그림 7).⁵5. 그리고 아니요, 이 테스트들은 훈련 세트에 포함되어 있지 않다. AI 연구소들은 좋은 과학을 하기 위해 정확한 측정이 필요하므로 이러한 평가가 오염되지 않도록 실질적인 노력을 기울이고 있다. 최근 ScaleAI의 분석에 따르면 주요 연구소들은 벤치마크에 과적합하고 있지 않음을 확인했으나(일부 소규모 LLM 개발자들은 수치를 조작할 수 있다).

그림 7 원문 이미지 — **그림 7:**표준화된 시험에서의 GPT-4 점수. 또한 GPT-3.5에서 GPT-4로의 인간 백분위 점수의 큰 도약에 주목하라. 이 점수는 종종 평균 이하에서 인간 범위의 최상위권으로 뛰어오른다. (그리고 이것은 GPT-4보다 1년도 채 안 되어 출시된 비교적 최신 모델인 GPT-3.5이며, 앞서 언급한 초등학교 수준의 구식 GPT-3가 아니다!)

그림 8 원문 이미지 — **그림 8:**회색: 2021년 8월에 이루어진 전문가 예측으로, 2022년 6월 MATH 벤치마크(고등학교 수학 경시대회의 어려운 수학 문제)⁶6. 원 논문은 이렇게 적고 있다. “MATH에서 인간도 평가했는데, 수학을 특별히 좋아하지 않는 컴퓨터과학 박사과정 학생은 약 40%를 기록한 반면, IMO 금메달 3회 수상자는 90%를 기록했다. 이는 MATH가 인간에게도 어려울 수 있음을 보여준다.” 성능에 대한 예측이다. 빨간 별: 2022년 6월 실제 최첨단 성능으로, 전문가들이 제시한 상한 범위를 훨씬 초과했다. 중간값 ML 연구자들은 더욱 비관적이었다.

해마다 반복해서, 회의론자들은 “딥러닝은 X를 할 수 없다”고 주장했지만, 곧바로 틀렸음이 입증되었다.⁸8. 2022년 Yann LeCun이 GPT-5000조차 물리 세계와의 물리적 상호작용을 추론할 수 없을 것이라 예측했으나, 1년 후 GPT-4는 명백히 이를 쉽게 수행한다. GPT-2 이후 해결될 것이라 예측했던 Gary Marcus의 한계와 GPT-3 이후 해결될 것이라 예측했던 한계를 GPT-4가 극복했다. Bryan Caplan 교수는 그의 완벽한 공적 내기 기록 후 첫 공개 내기에서 패배했다. 2023년 1월, GPT-3.5가 그의 경제학 중간고사에서 D를 받자 Caplan 교수는 2029년까지 AI가 그의 경제학 중간고사에서 A를 받을 수 없을 것이라 Matthew Barnett과 내기했다. 단 두 달 후 GPT-4가 출시되자 즉시 그의 중간고사에서 A를 받았으며, 이는 그의 반에서 가장 높은 점수 중 하나였다. 지난 10년간 AI에서 배운 한 가지 교훈이 있다면, 딥러닝에 절대 베팅하지 말라는 것이다.

현재 가장 어려운 미해결 벤치마크는 GPQA와 같은 테스트로, 박사 수준의 생물학, 화학, 물리학 문제들로 구성되어 있다. 많은 문제들이 내게는 난해하게 느껴지며, 다른 과학 분야 박사들도 구글을 30분 이상 사용해도 겨우 무작위 확률을 약간 넘는 점수를 받다. Claude 3 Opus는 현재 약 60%의 점수를 받고⁹9. 다이아몬드 세트에서는, 모델이 사슬 추론(chain-of-thought)으로 32회 시도한 결과를 다수결로 결정했다., 해당 분야 박사들은 약 80%를 받는데, 나는 이 벤치마크도 다음 세대나 그 다음 세대에서 무너질 것으로 예상한다.

여기 2022년에 Yann LeCun이 GPT-5000조차도 물리 세계와의 물리적 상호작용에 대해 추론할 수 없을 것이라고 예측한 내용이 있다; GPT-4는 1년 후에 이를 쉽게 수행하는 것이 명백한다. 여기 GPT-2 이후 해결될 것이라 예측했던 Gary Marcus의 벽과 GPT-3 이후 해결될 것이라 예측했던 벽이 있다. 여기 Prof. Bryan Caplan이 그의 첫 공개 내기를 잃은 사례가 있다(이전에는 완벽한 공개 내기 기록을 가지고 있었다). 2023년 1월, GPT-3.5가 그의 경제학 중간고사에서 D를 받자, Caplan 교수는 2029년까지 어떤 AI도 그의 경제학 중간고사에서 A를 받지 못할 것이라고 Matthew Barnett와 내기를 했다. 단 두 달 후, GPT-4가 출시되었고, 즉시 그의 중간고사에서 A를 받았다(그는 반에서 가장 높은 점수 중 하나였을 것이다).

다이아몬드 세트에서, 모델이 사고 과정을 거쳐 32번 시도한 결과에 대한 다수결 투표이다.

그림 9 원문 이미지 — **그림 9:**GPQA 질문 예시. 모델들은 이미 나보다 이 부분에서 더 뛰어나며, 곧 전문가-박사 수준도 아마 달성할 것이다...

OOM(10배 단위) 세기

이것은 어떻게 일어난 것일까? 딥러닝의 마법은 그저 작동한다는 점이며—반대하는 이들이 끊임없이 있었음에도 불구하고, 추세선은 놀라울 정도로 일관적이었다.

각 OOM(10배 단위)의 유효 컴퓨트(effective compute)가 증가할 때마다, 모델은 예측 가능하고 신뢰할 수 있게 더 나아진다.¹⁰10. 그리고 이 추세선이 얼마나 일관된지 주목할 만한다. 원래의 규모 확장 법칙 논문과 이후의 연산량 및 연산 효율 규모 확장 추정치를 결합하면, 15자릿수 이상의 규모(1,000조 배 이상의 실효 컴퓨트(compute) 규모)에 걸쳐 일관된 규모 확장 추세를 시사한다! 만약 우리가 OOM을 셀 수 있다면, (대략적으로, 정성적으로) 능력 향상을 외삽할 수 있다.¹¹11. 흔한 오해는 규모 확장이 당황도 손실(perplexity loss)에만 해당한다는 것이지만, 우리는 벤치마크 하위 과제의 성능에서도 매우 명확하고 일관된 규모 확장 패턴을 관찰한다. 보통 올바른 로그-로그 그래프를 찾는 문제일 뿐이다. 예를 들어 GPT-4 블로그 포스트에서는 MLPR(평균 로그 통과율)을 사용하여 약 6 OOM(1,000,000배)의 컴퓨트(compute) 스케일에 걸쳐 코딩 문제 성능에서 일관된 규모 확장 패턴을 보여준다. “Are Emergent Abilities a Mirage?” 논문도 유사한 요점을 제시한다; 올바른 지표 선택 시 하위 과제 성능에 대해 거의 항상 일관된 추세가 있다. 더 일반적으로, “규모 확장 가설”이라는 정성적 관찰—스케일에 따른 모델 역량의 매우 명확한 추세—은 손실 규모 확장 곡선 이전부터 존재했으며, “규모 확장 법칙” 작업은 이를 정식으로 측정한 것이다. 이것이 몇몇 선견지명이 있는 이들이 GPT-4의 등장을 예측한 방법이다.

우리는 GPT-2에서 GPT-4까지 4년간의 진보를 세 가지 규모 확장 범주로 분해할 수 있다:

컴퓨트(compute): 우리는 이 모델들을 훈련시키기 위해 훨씬 더 큰 컴퓨터를 사용하고 있다.

알고리즘 효율성(algorithmic efficiency): 알고리즘 진보의 지속적인 추세가 있다. 이들 중 다수는 “컴퓨트(compute) 승수” 역할을 하며, 우리는 이를 증가하는 유효 컴퓨트(effective compute)의 통합 척도로 놓을 수 있다.

족쇄 풀기(unhobbling) 이득: 기본적으로 모델은 많은 놀라운 기초 역량을 학습하지만, 여러 어리석은 방식으로 제약되어 실제 가치가 제한된다. 인간 피드백 강화 학습(RLHF), 사고의 연쇄(CoT), 도구, 그리고 스캐폴딩(scaffolding)과 같은 간단한 알고리즘 개선을 통해 상당한 잠재 능력을 해방할 수 있다.

그림 10 원문 이미지 — **그림 10:**OpenAI Sora의 예에서 컴퓨트(compute) 규모 확장의 효과.

그리고 이 추세선들이 얼마나 일관적인지 주목할 가치가 있다. 원래의 규모 확장 법칙 논문과 이후 컴퓨트(compute) 및 컴퓨트(compute) 효율성 확장에 대한 일부 추정치를 결합하면, 15개 이상의 OOM(1,000조 배 이상의 유효 컴퓨트(effective compute))에 걸쳐 일관된 확장 추세가 있음을 시사한다!

흔한 오해 중 하나는 규모 확장이 오직 당혹도 손실(perplexity loss)에만 적용된다는 것이다. 하지만 우리는 벤치마크에서 하위 작업 성능에 대해서도 매우 명확하고 일관된 확장 행동을 관찰한다. 보통은 적절한 로그-로그 그래프를 찾는 문제일 뿐이다. 예를 들어, GPT-4 블로그 게시물에서는 MLPR(평균 로그 통과율)을 사용해 6 OOM(100만 배)의 컴퓨트(compute)에 걸쳐 코딩 문제 성능에 대한 일관된 확장 행동을 보여준다.

“Are Emergent Abilities a Mirage?” 논문도 비슷한 점을 지적한다; 적절한 지표 선택 시 하위 작업 성능에 대해 거의 항상 일관된 추세가 있다.

더 일반적으로, “규모 확장 가설”이라는 정성적 관찰—규모에 따른 모델 능력의 매우 명확한 추세—은 손실-확장 곡선 이전부터 존재했으며, “규모 확장 법칙” 연구는 이를 공식적으로 측정한 것이다.

우리는 이러한 축을 따라 개선의 OOM(10배 단위)를 “셈”할 수 있다: 즉, 각 축에 대해 유효 컴퓨트(effective compute) 단위로 확장 규모를 추적하는 것이다. 3배는 0.5 OOM; 10배는 1 OOM; 30배는 1.5 OOM; 100배는 2 OOM; 이런 식이다. 또한 2023년부터 2027년까지 GPT-4 이후에 무엇을 기대할 수 있을지도 살펴볼 수 있다.

각 항목을 하나씩 살펴보겠지만, 결론은 명확한다: 우리는 OOM을 빠르게 돌파하고 있다. 데이터 벽(data wall)에서 잠재적 역풍이 있을 수 있는데, 이에 대해서도 다루겠지만—전반적으로 2027년까지 GPT-4 위에 GPT-2에서 GPT-4로의 점프와 비슷한 규모의 도약을 기대하는 것이 타당해 보인다.

컴퓨트(compute)

최근 진보의 가장 일반적으로 논의되는 동인부터 시작하겠다: 모델에 (엄청난) 컴퓨트(compute)를 투입하는 것이다.

많은 사람들은 이것이 단순히 무어의 법칙 때문이라고 생각한다. 하지만 무어의 법칙이 전성기였던 옛날에도 그것은 비교적 느린 속도였으며—아마도 10년에 1~1.5 OOM 정도였다. 우리는 훨씬 더 빠른 컴퓨트(compute) 확장을 보고 있는데—무어의 법칙 속도의 거의 5배에 달하는 속도—이는 거대한 투자 덕분이다. (한 모델에 백만 달러를 쓰는 것은 예전에는 상상도 못할 일이었지만, 이제는 상대적으로 작은 비용에 불과한다!)

모델	추정 훈련 컴퓨트(compute)	증가폭
GPT-2 (2019)	약 4e21 FLOP
GPT-3 (2020)	약 3e23 FLOP	+ 약 2 OOM
GPT-4 (2023)	8e24 ~ 4e25 FLOP	+ 약 1.5~2 OOM

표 1: Epoch AI의 GPT-2부터 GPT-4까지 컴퓨트(compute) 추정치

우리는 AI 트렌드에 대한 탁월한 분석으로 널리 존경받는 Epoch AI의 공개 추정치를 사용해 2019년부터 2023년까지 컴퓨트(compute) 확장 규모를 추적할 수 있다. GPT-2에서 GPT-3로의 확장은 빠른 확장이었으며; 작은 실험에서 대규모 언어 모델을 훈련시키기 위해 전체 데이터센터(datacenter)를 사용하는 규모로 확장하는 큰 여유가 있었다. GPT-3에서 GPT-4로의 확장에서는 완전히 새로운 (훨씬 더 큰) 클러스터를 구축해야 하는 현대적 체제로 전환했다. 그리고도

극적인 성장은 계속되었다. 전반적으로 Epoch AI의 추정에 따르면 GPT-4 훈련에는 GPT-2보다 약 3,000배에서 10,000배 더 많은 원시 컴퓨트(compute)가 사용되었다.

대략적으로 보면, 이는 단지 더 오래 지속된 추세의 연장선일 뿐이다. 지난 15년 동안, 주로 투자 규모의 대규모 확대(그리고 GPU 및 TPU 형태의 AI 작업 부하에 특화된 칩 개발) 덕분에, 최첨단 AI 시스템에 사용되는 훈련 컴퓨트(compute)는 연간 약 0.5 OOM(10배 단위)씩 증가해왔다.

그림 11 원문 이미지 — **그림 11:**시간에 따른 주목할 만한 딥러닝 모델들의 훈련 컴퓨트(compute). 출처: Epoch AI.

GPT-2에서 GPT-3로의 1년간 컴퓨트(compute) 규모 확대는 이례적인 과도기였지만, 모든 징후는 장기 추세가 계속될 것임을 시사한다. 샌프란시스코 업계 소문은 대규모 GPU 주문에 관한 극적인 이야기로 가득하다. 관련 투자는 엄청날 것이지만 이미 진행 중이다. 이 점에 대해서는 시리즈의 IIIa. ‘조 단위 클러스터 경쟁’에서 더 자세히 다룰 것이다; 그 분석에 따르면, 2027년 말까지 추가로 2 OOM(10배 단위)의 컴퓨트(수십억 달러 규모의 클러스터)이 발생할 가능성이 매우 높으며, 3 OOM 이상(1,000억 달러 이상) 클러스터도 가능성이 있으며(마이크로소프트/오픈AI에서 진행 중이라는 루머가 있다).

알고리즘 효율성(algorithmic efficiency)

컴퓨트(compute)에 대한 막대한 투자가 모든 주목을 받는 반면, 알고리즘 진보도 아마 비슷하게 중요한 진보의 원동력이며(그리고 극적으로 과소평가되어 왔다).

알고리즘 진보가 얼마나 큰 영향을 미칠 수 있는지 보기 위해, 단 2년 만에 MATH 벤치마크(고등학교 수학 경시대회 수학)에서 약 50% 정확도를 달성하는 데 드는 비용이 얼마나 떨어졌는지에 대한 다음 그림(그림 12)을 고려해 보자. (비교를 위해, 수학을 별로 좋아하지 않는 컴퓨터 과학 박사과정 학생이 40%를 기록했으니, 이미 꽤 좋은 수준이다.) 추론 효율성은 2년도 채 안 되어 거의 3 OOM(10배 단위)—1,000배—개선되었다.

그림 12 원문 이미지 — **그림 12:**약 50% MATH 성능 달성에 필요한 상대적 추론 비용에 대한 대략적 추정.¹²**12.** 아래 계산 참조. Gemini 1.5 Flash는 MATH에서 54.9%를 기록하며, 백만 토큰당 $0.35/$1.05(입력/출력) 비용이 든다. GPT-4는 사전 공개 시 MATH에서 42.5%, 2023년 초에는 52.9%를 기록했고, 백만 토큰당 $30/$60(입력/출력) 비용이 든다; 이는 Gemini 1.5 Flash보다 토큰당 85배/57배(입력/출력) 더 비싸다. 보수적으로, Gemini 1.5 Flash가 문제를 해결하는 데 더 많은 토큰을 사용할 가능성을 감안해 30배 비용 감소 추정을 사용한다. Minerva540B는 MATH에서 50.3%를 기록하며, 64개 샘플의 다수결 투표를 사용한다. 지식이 있는 친구는 여기서 기본 모델이 GPT-4보다 추론 비용이 아마 2~3배 더 비쌀 것으로 추정한다. 그러나 Minerva는 빠른 점검에서 답변당 사용하는 토큰 수가 다소 적은 것으로 보인다. 더 중요한 점은, Minerva가 그 성능을 달성하기 위해 64개의 샘플이 필요했으며, 이는 예를 들어 추론 API를 통해 단순히 실행한다면 비용이 64배 증가함을 의미한다. 실제로는 평가를 실행할 때 프롬프트 토큰을 캐시할 수 있다; 몇 샷 프롬프트를 고려하면, 출력 토큰을 감안해도 프롬프트 토큰이 비용의 대부분일 가능성이 크다. 출력 토큰이 단일 샘플 비용의 3분의 1이라고 가정하면, 캐시를 고려한 다수결 64회의 비용 증가는 약 20배에 불과하다. 보수적으로, 위에서 20배 비용 감소라는 대략적 수치를 사용한다 (API를 통해 실행할 경우 추론 비용 감소는 더 클 수 있지만).

이 수치들은 추론 효율성에 관한 것일 뿐(이는 훈련 효율성 개선과 일치하지 않을 수도 있으며, 훈련 효율성은 공개 데이터에서 추론하기 더 어렵다)임에도 불구하고, 엄청난 양의 알고리즘 진보가 가능하며 실제로 일어나고 있음을 명확히 보여준다.

이 글에서는 두 가지 종류의 알고리즘 진보를 구분하겠다. 여기서는 먼저 “패러다임 내” 알고리즘 개선, 즉 단순히 더 나은 기본 모델을 만들어내고, 컴퓨트(compute) 효율성 또는 컴퓨트(compute) 배수로서 직접 작용하는 개선부터 다룬다. 예를 들어, 더 나은 알고리즘은 동일한 성능을 10배 적은 훈련 컴퓨트(compute)로 달성할 수 있게 해준다. 이는 결과적으로 유효 컴퓨트(effective compute)가 10배(1 OOM) 증가하는 효과를 낸다. (나중에 “족쇄 풀기(unhobbling)”를 다룰 텐데, 이는 기본 모델의 능력을 확장하는 “패러다임 확장/응용 확장” 알고리즘 진보로 생각할 수 있다.)

장기적 추세를 살펴보면, 새로운 알고리즘 개선은 꽤 일정한 속도로 발견되는 것 같다. 개별 발견은 무작위적이고, 매번 극복하기 어려운 장애물이 존재하는 것처럼 보이지만, 장기 추세선은 예측 가능하며 그래프상 직선 형태를 띤다. 추세선을 신뢰하라.

가장 좋은 데이터는 ImageNet에 대해 가지고 있다(여기서는 알고리즘 연구가 대부분 공개되어 있고, 10년 이상에 걸친 데이터가 존재한다). 2012년부터 2021년까지 9년 동안 컴퓨트(compute) 효율성이 연평균 약 0.5 OOM(10배 단위)씩 꾸준히 개선되었다.

그것은 엄청난 의미를 가진다: 4년 후에는 동일한 성능을 약 100배 적은 컴퓨트(compute)로 달성할 수 있다는 뜻이며(동시에, 동일한 컴퓨트(compute)로 훨씬 더 높은 성능을 낼 수 있다!).

불행히도 연구소들이 내부 데이터를 공개하지 않기 때문에, 최첨단 대형 언어 모델(LLM)에 대한 알고리즘 진보를 측정하기는 더 어렵다.

지난 4년 동안. EpochAI는 ImageNet에서의 결과를 언어 모델링에 복제하는 새로운 작업을 진행했으며, 2012년부터 2023년까지 LLM에서 약 0.5 OOM(OOMs)/년의 알고리즘 효율성(algorithmic efficiency) 추세를 추정한다. (하지만 이 추정치는 오차 범위가 더 넓고, 주요 연구소들이 알고리즘 효율성(algorithmic efficiency) 발표를 중단했기 때문에 최근의 일부 향상은 반영하지 못한다.)

그림 14 원문 이미지 — **그림 14:**Epoch AI가 추정한 언어 모델링에서의 알고리즘 효율성(algorithmic efficiency). 이들의 추정에 따르면 8년 동안 약 4 OOM의 효율성 향상이 이루어졌다.

이들은 추론 효율성(반드시 훈련 효율성은 아님)이며, 어느 정도는 추론 특화 최적화를 반영하지만, a) 이는 엄청난 양의 알고리즘 진보가 가능하며 실제로 일어나고 있음을 시사하고, b) 알고리즘 개선은 종종 훈련 효율성과 추론 효율성 모두에 해당하는 경우가 많다. 예를 들어, 지난 4년을 좀 더 직접적으로 보면, GPT-2에서 GPT-3로의 전환은 기본적으로 단순한 규모 확장(논문에 따르면)이었지만, GPT-3 이후로 공개적으로 알려지고 추론 가능한 많은 향상이 있었다: 파라미터 수를 줄임으로써 가능하다. • API 비용에서 향상을 추론할 수 있다:¹³13. 이들은 추론 효율(inference efficiencies)이긴 하지만(훈련 효율로 반드시 연결되지는 않음) 어느 정도 추론 특화 최적화를 반영할 수 있으며, a) 대규모 알고리즘적 진전이 가능하고 실제로 진행 중임을 시사하며, b) 알고리즘 개선은 통상적으로 파라미터 수를 줄임으로써 훈련 효율과 추론 효율 모두를 개선하는 경우가 많다. – GPT-4는 출시 당시 GPT-3가 출시되었을 때와 거의 같은 비용이었음에도 불구하고 성능은 엄청나게 향상되었다.¹⁴14. GPT-3: 100만 토큰당 60달러, GPT-4: 100만 입력 토큰당 30달러, 100만 출력 토큰당 60달러. (규모 법칙에 기반한 단순하고 대략적인 추정에 따르면, GPT-3에서 GPT-4로의 유효 컴퓨트(effective compute) 증가의 약 절반이 알고리즘 개선에서 비롯된 것으로 보인다.¹⁵15. Chinchilla 규모 확장 법칙에 따르면 파라미터 수와 데이터 양을 동일하게 스케일해야 한다. 즉, 파라미터 수는 실효 훈련 컴퓨트(compute) 증가의 ‘절반 OOM’만큼 성장한다. 동시에, 파라미터 수는 직관적으로 대략 추론 비용과 비례한다. 모든 것이 동일하다면, 일정한 추론 비용은 실효 컴퓨트(compute) 증가의 절반 OOM이 알고리즘 개선 효과에 의해 ‘상쇄’되었음을 의미한다. 그럼에도 이것은 매우 단순한 계산일 뿐이며(대략적 설명용) 여러 면에서 부정확할 수 있다. 추론 특화 최적화가 있을 수 있고(훈련 효율로 연결되지 않을 수도 있음), 훈련 효율이 증가해도 파라미터 수가 줄지 않아 추론 효율로 연결되지 않는 경우도 있다.) – GPT-4 출시 1년 후, GPT-4o 출시와 함께 OpenAI의 GPT-4 수준 모델 가격은 입력/출력 기준으로 각각 6배/4배 더 하락했다.

GPT-3: 100만 토큰당 $60, GPT-4: 100만 입력 토큰당 $30, 100만 출력 토큰당 $60. Chinchilla 규모 법칙에 따르면 파라미터 수와 데이터 양을 동일하게 확장해야 한다. 즉, 파라미터 수는 유효 훈련 컴퓨트(compute)가 증가하는 OOM의 절반만큼 증가한다. 동시에 파라미터 수는 직관적으로 추론 비용과 대략 비례한다. 다른 조건이 같다면, 추론 비용이 일정하다는 것은 유효 컴퓨트(effective compute) 증가의 OOM 절반이 알고리즘 개선으로 “상쇄”되었음을 의미한다. 다만, 명확히 하자면, 이는 매우 단순한 계산(대략적인 설명용)으로, 여러 면에서 부정확하다. 추론 특화 최적화(훈련 효율성으로 이어지지 않는) 가 있을 수 있고, 파라미터 수를 줄이지 않는 훈련 효율성(추론 효율성으로 이어지지 않는)도 있을 수 있으며, 기타 여러 요인이 있다.

– 최근 출시된 Gemini 1.5 Flash는 “GPT-3.75 수준”과 GPT-4 수준 사이의 성능을 제공하며,¹⁶16. Gemini 1.5 Flash는 LMSys 챗봇 리더보드에서 GPT-4와 비슷한 순위(원래 GPT-4보다 높고, 업데이트된 GPT-4보다는 낮음)를 기록하며, MATH와 GPQA(추론 평가)에서는 원래 GPT-4와 비슷한 성능을 보이고, MMLU(지식 평가 중점)에서는 GPT-3.5와 GPT-4의 중간 정도 위치에 있다. 원래 GPT-4 대비 입력/출력 기준으로 85배/57배 적은 비용으로(엄청난 향상!) 작동한다.

¹⁷17. 약 GPT-3 스케일에서 3배 이상, 더 큰 스케일에서는 3배 이상.

종합하면, 공개된 정보는 GPT-2에서 GPT-4로의 도약에 1~2 OOM의 알고리즘 효율성(algorithmic efficiency) 향상이 포함되었음을 시사한다.¹⁸18. 예를 들어, 이 논문에서는 GPT-3 스타일의 기본 트랜스포머를 수년간 발표된 아키텍처 및 훈련 레시피의 단순 변경 사항들과 비교한다(RMSnorm 대신 layernorm, 다양한 위치 임베딩, SwiGlu 활성화, Adam 대신 AdamW 옵티마이저 등). 이들을 ‘Transformer++’라 부르며 소규모 스케일에서 최소 6배 향상을 시사한다.¹⁹19. 0.5 OOM/년의 추세와 GPT-2와 GPT-4 출시 사이 4년을 고려하면 2 OOM가 된다. 그러나 GPT-2에서 GPT-3는 단순한 규모 확장이었고(예: Transformer로부터 큰 향상 후), OpenAI는 GPT-4 사전학습(pretraining)을 2022년에 완료했다고 주장하므로, 여기서 계산해야 할 알고리즘 진보 기간은 2년에 더 가까울 수 있다. 1 OOM의 알고리즘 효율성(algorithmic efficiency)은 보수적인 하한으로 보인다.

그림 15 원문 이미지 — **그림 15:**진보 분해: 컴퓨트(compute)와 알고리즘 효율성(algorithmic efficiency). (대략적인 도식.)

GPT-4 이후 4년 동안, 이 추세는 계속될 것으로 예상된다:²⁰20. 최소한, 10년 넘는 일관된 알고리즘 개선을 감안할 때, 모든 발전이 갑자기 멈출 것이라 주장하는 쪽에 증명 책임이 있다! 평균적으로 연간 약 0.5 OOM(10배 단위)의 컴퓨트(compute) 효율성 향상, 즉 2027년까지 GPT-4 대비 약 2 OOM의 이득이 있을 것이다. 컴퓨트(compute) 효율성은 저절로 얻기 쉬운 성과가 줄어들면서 찾기 어려워지겠지만, AI 연구소들은 새로운 알고리즘 개선을 찾기 위한 자금과 인재 투자를 빠르게 늘리고 있다.²¹21. 연산 효율 3배 증가의 경제적 이익은 클러스터 비용을 감안할 때 수십억 달러 이상으로 측정될 것이다. (공개적으로 추론 가능한 추론 비용 효율성은 적어도 전혀 둔화되지 않은 것으로 보인다.) 최상위에서는, 트랜스포머와 같은²²22. 대략 10배 정도의 향상에 해당한다. 근본적인 돌파구가 더 큰 이득을 가져올 수도 있다.

종합하면, 2027년 말까지 GPT-4 대비 약 1~3 OOM의 알고리즘 효율성(algorithmic efficiency) 향상을 기대할 수 있으며, 최선의 추정치는 약 2 OOM 정도이다.

데이터 장벽

이 모든 것에 대해 잠재적으로 중요한 변동 요인이 있다: 인터넷 데이터가 고갈되고 있다는 점이다. 이는 곧, 더 많은 스크랩된 데이터를 이용해 더 큰 언어 모델을 사전학습(pretraining)하는 단순한 접근법이 심각한 병목에 부딪힐 수 있다을 의미한다.

최첨단 모델들은 이미 인터넷의 대부분을 학습에 사용했다. 예를 들어 Llama 3는 15조 토큰 이상으로 학습되었다. LLM 학습에 사용되는 인터넷 데이터 덤프인 Common Crawl은 원시 데이터 기준 100조 토큰 이상이지만, 그중 상당 부분은 스팸과 중복이다(예를 들어, 비교적 단순한 중복 제거 후 30조 토큰이 남는데, 이는 Llama 3가 사실상 모든 데이터를 이미 사용하고 있음을 시사한다). 게다가 코드와 같은 특정 도메인에서는 토큰 수가 훨씬 적은데, 예를 들어 공개된 깃허브 저장소는 수조 토큰 수준으로 추정된다.

데이터를 반복해서 사용할 수는 있지만, 이에 관한 학술 연구는 반복이 한계가 있음을 보여준다. 에폭(16배 반복) 이후에는 수익이 매우 빠르게 감소하여 거의 없어진다. 어느 시점에서는 더 많은 (유효) 컴퓨트(compute) 자원이 있어도 데이터 제약 때문에 모델을 개선하는 것이 훨씬 어려워질 수 있다. 이는 과소평가해서는 안 된다: 우리는 지금까지 계속해서

규모 확장 곡선, 언어 모델링-사전 학습-패러다임의 물결을 타고, 여기서 새로운 무언가가 없으면 이 패러다임은 (적어도 순진하게 보면) 한계에 도달할 것이다. 막대한 투자가 있었음에도 불구하고, 우리는 정체기에 이를 것이다.

모든 연구소들은 이를 극복하기 위한 새로운 알고리즘 개선이나 접근법에 대해 막대한 연구 베팅을 하고 있다는 소문이 돌고 있다. 연구자들은 합성 데이터부터 자기 대결(self-play)과 강화 학습(RL) 접근법에 이르기까지 다양한 전략을 시도하고 있다고 한다. 업계 내부자들은 매우 낙관적인 것으로 보인다. Anthropic의 CEO 다리오 아모데이(Dario Amodei)는 최근 팟캐스트에서 “매우 순진하게 보면 데이터가 바닥나는 것과 그리 멀지 않았다 [...] 내 추측으로는 이것이 장애물이 되지 않을 것이다 [...] 이를 해결할 방법은 매우 다양하다”고 말했다. 물론, 이와 관련된 연구 결과들은 현재 비공개이며 발표되지 않고 있다.

내부자의 낙관론 외에도, 훨씬 더 나은 샘플 효율성(제한된 데이터로부터 더 많이 학습할 수 있게 하는 알고리즘 개선)을 통해 모델을 훈련시키는 방법을 찾을 수 있을 것이라는 강한 직관적 근거가 있다고 생각한다. 당신이나 내가 정말 밀도 높은 수학 교과서를 어떻게 학습할지 생각해 보라:

현대의 대형 언어 모델(LLM)이 훈련 중 하는 일은 본질적으로 교과서를 매우 빠르게 훑어보는 것이다. 단어들이 그냥 지나가며, 많은 뇌력을 들이지 않는다.

반면, 당신이나 나는 그 수학 교과서를 읽을 때 몇 페이지를 천천히 읽고, 머릿속으로 그 내용을 내적 독백하며 몇 명의 스터디 친구들과 토론한다. 그리고 한두 페이지를 더 읽고, 연습 문제를 풀어보고 실패하고, 다른 방식으로 다시 시도하고, 문제에 대한 피드백을 받고, 맞을 때까지 반복한다. 그렇게 하다 보면 결국 내용이 ‘딱’ 이해된다.

만약 당신이나 내가 LLM처럼 교과서를 그냥 훑어보는 것밖에 할 수 없다면, 밀도 높은 수학 교과서에서 거의 아무것도 배우지 못할 것이다.²³23. 그리고 같은 교과서를 계속 반복해서 읽는 것은 이해가 아니라 암기만 할 가능성이 있다. 나는 많은 단어 중심 학습자(wordcels)가 수학 수업을 그렇게 통과한다고 생각한다!

하지만 아마도, 인간이 빽빽한 수학 교과서를 소화하는 방식을 일부 도입하여 모델이 제한된 데이터로부터 훨씬 더 많이 학습할 수 있는 방법이 있을 것이다. 23 또 다른 흥미로운 사고 방식은 다음과 같다: 사전 학습과 문맥 내 학습 사이에 “중간 결손(missing-middle)”이 존재한다는 것이다. 단순화해서 말하면, 이런 종류의 것—자료에 대한 내적 독백, 스터디 버디와의 토론, 문제를 시도하고 실패하다가 결국 이해하는 과정—은 많은 합성 데이터/자기 대국/강화 학습(RL) 접근법이 시도하는 바이다.²⁴24. 흥미로운 관점 하나: 사전학습(pretraining)과 맥락 내 학습 사이에는 ‘중간 결손(missing-middle)’이 존재한다. 맥락 내 학습은 놀라울 정도로 효율적이며(인간의 샘플 효율성과 경쟁), 예를 들어 Gemini 1.5 Pro 논문에서는 약 200명 미만이 사용하는 거의 인터넷에 존재하지 않는 Kalamang 언어의 교재와 사전(instructional materials)을 모델에 주었고, 모델이 영어에서 Kalamang으로 인간 수준으로 번역하는 법을 학습했다! 맥락 내에서는 모델이 교재로부터 인간만큼 잘 학습하지만, 단순히 그 교재를 사전학습(pretraining)에 집어넣는 것보다 훨씬 낫다. 인간은 교재 학습을 통해 단기 기억/학습을 장기 기억/장기 기술로 전환하지만, 우리는 ‘맥락 내 학습’을 ‘가중치에 복귀시키는’ 동등한 방법이 없다. 합성 데이터/자기 플레이/RL 등이 이를 해결하려고 한다: 모델이 스스로 학습하고, 이를 성찰하며, 학습한 것을 연습하여 그 학습을 가중치에 증류시키는 것이다.

과거 최첨단 모델 훈련 방식은 단순하고 순진했지만 효과가 있었기에, 아무도 표본 효율성을 깨기 위해 열심히 노력하지 않았다. 이제 그것이 제약이 될 수 있으므로, 모든 연구소가 수십억 달러와 최고의 인재를 투입해 이를 해결하려 할 것이다. 딥러닝에서 흔한 패턴은 세부 사항을 맞추기 위해 많은 노력(그리고 실패한 프로젝트들)이 필요하지만, 결국 명백하고 단순한 어떤 버전이 작동한다는 것이다. 지난 10년간 딥러닝이 모든 장벽을 돌파해온 방식을 고려하면, 여기서도 비슷할 것이라는 것이 내 기본 가정이다.

더욱이, 합성 데이터 같은 알고리즘적 베팅 중 하나를 깨는 것이 모델을 극적으로 향상시킬 가능성도 실제로 있어 보인다. 직관을 돕기 위해 설명하자면, 현재 최첨단 모델인 Llama 3 같은 모델은 인터넷에서 훈련되는데, 인터넷은 대부분 전자상거래나 SEO 같은 쓰레기 콘텐츠다. 많은 대형 언어 모델들은 훈련 컴퓨트(compute)의 대부분을 이런 쓰레기 데이터에 소비하며, 어려운 과학 문제를 해결하는 사람들의 추론 과정 같은 고품질 데이터에는 거의 쓰지 않는다. 만약 GPT-4 수준의 컴퓨트(compute)를 완전히 고품질 데이터에만 쓸 수 있다면, 훨씬 더 뛰어난 모델이 될 수 있다.

알파고를 되돌아보는 것도 유용하다. 알파고는 세계 챔피언을 이긴 최초의 AI 시스템으로, 그 가능성이 논의된 지 수십 년 만에 이루어진 성과다.²⁵25. 여기서 안드레이 카파시(Andrej Karpathy)의 강연도 참고하라.

1단계에서 알파고는 전문가 인간 바둑 기보를 모방 학습하여 훈련되었다. 이것이 기초를 마련했다.

2단계에서 AlphaGo는 스스로 수백만 판의 게임을 플레이했다. 이를 통해 인간을 능가하는 바둑 실력을 갖추게 되었죠. 이세돌과의 대국에서 나온 유명한 37수, 인간이라면 절대 두지 않았을 매우 이례적이면서도 탁월한 수를 기억하세요.

LLM에 대해 2단계에 해당하는 과정을 개발하는 것은 데이터 장벽을 극복하기 위한 핵심 연구 과제이다(더 나아가 궁극적으로 인간 수준의 지능을 뛰어넘는 열쇠가 될 것이다).

이 모든 것은 데이터 제약이 향후 AI 발전을 예측하는 데 큰 오차 범위를 불러일으키는 것처럼 보인다는 점을 의미한다. 상황이 정체될 가능성도 매우 현실적이다(LLM이 인터넷만큼 중요한 존재가 될 수는 있지만, 진정한 의미의 미친 AGI에 도달하지 못할 수도 있다). 하지만 연구소들이 이를 해결할 것이라고 추측하는 것이 합리적이며, 그렇게 되면 단순히 규모 확장 곡선을 유지하는 데 그치지 않고 모델 능력에 엄청난 향상을 가져올 수도 있다고 생각한다.

덧붙여 말하자면, 이는 앞으로 몇 년간 연구소 간 변동성이 오늘날보다 훨씬 커질 것임을 의미하기도 한다. 최근까지는 최첨단 기술이 공개되어 모두가 기본적으로 같은 일을 해왔다. (신생 연구소나 오픈 소스 프로젝트도 공개된 레시피 덕분에 최전선과 경쟁할 수 있었다.) 이제는 핵심 알고리즘 아이디어가 점점 더 독점화되고 있다. 연구소들의 접근법이 훨씬 더 다양해지고, 일부는 다른 곳보다 더 빠른 진전을 이룰 것으로 예상된다—지금은 최전선에 있는 것처럼 보이는 연구소도 데이터 장벽에 막혀 정체될 수 있고, 다른 연구소가 돌파구를 찾아 앞서 나갈 수도 있다. 오픈 소스는 경쟁이 훨씬 더 어려워질 것이다. 확실히 흥미로운 상황이 될 것이다. (그리고 만약 어느 연구소가 이를 해결한다면, 그 돌파구는 AGI의 열쇠이자 초지능의 열쇠가 될 것이며—미국이 가장 소중히 여기는 비밀 중 하나가 될 것이다.)

족쇄 풀기(unhobbling)

마지막으로, 정량화하기 가장 어려우면서도 결코 덜 중요하지 않은 개선 범주가 있다. 제가 “족쇄 풀기(unhobbling)”라고 부를 부분이다.

어려운 수학 문제를 풀라고 했을 때, 즉시 떠오르는 첫 번째 답만 내야 한다고 상상해 보세요. 가장 단순한 문제를 제외하면 어려움을 겪을 것이 분명한다. 하지만 최근까지 우리는 LLM들이 수학 문제를 그렇게 풀게 했다. 대신 대부분의 사람들은 문제를 스크래치패드에 단계별로 풀면서 훨씬 더 어려운 문제를 해결할 수 있죠. “사고의 연쇄(chain-of-thought)” 프롬프트가 LLM들에게 그 가능성을 열어주었다. 뛰어난 기초 역량에도 불구하고, LLM들은 명백한 제약 때문에 수학에서 훨씬 못 미치는 성과를 냈고, 작은 알고리즘 조정만으로 훨씬 더 큰 능력을 발휘할 수 있었다.

우리는 지난 몇 년간 모델의 “족쇄 풀기(unhobbling)”에서 엄청난 진전을 이루었다. 이는 단순히 더 나은 기본 모델을 훈련하는 것을 넘어서는 알고리즘 개선이며, 종종 사전 훈련 컴퓨트(compute)의 일부만 사용하면서 모델 능력을 폭발적으로 끌어올립니다:

인간 피드백을 통한 강화 학습(RLHF). 기본 모델은 놀라운 잠재 능력을 가지고 있지만,²⁶26. 이것이 비지도 학습의 마법이다: 다음 토큰을 더 잘 예측하고 당황도를 낮추기 위해 모델은 감정부터 복잡한 세계 모델에 이르기까지 놀랄 만큼 풍부한 내부 표현을 학습한다. 그러나 기본 상태에서는 이 강력한 내부 표현을 단순히 인터넷 랜덤 텍스트의 다음 토큰 예측에만 사용하며, 실제 문제 해결에 최적화해 적용하지는 못한다. 다루기 매우 어렵다. RLHF에 대한 대중적 인식은 단지 욕설을 검열하는 것에 불과하다고 생각하지만, RLHF는 모델이 실제로 유용하고 상업적으로 가치 있게 만드는 핵심이었다(단순히 무작위 인터넷 텍스트를 예측하는 것이 아니라, 실제로 능력을 적용해 질문에 답하려고 시도하게 만드는 것). 이것이 ChatGPT의 마법이었다—잘 수행된 RLHF가 모델을 실제 사람들에게 처음으로 사용 가능하고 유용하게 만들었다. 원래 InstructGPT 논문에는 이 점이 잘 정량화되어 있는데, RLHF가 적용된 작은 모델이 인간 평가자 선호도 기준으로 RLHF가 적용되지 않은 100배 이상 큰 모델과 동등했다.

사고의 연쇄(Chain of Thought, CoT). 앞서 논의한 바와 같이, CoT는 불과 2년 전에 널리 사용되기 시작했으며, 수학 및 추론 문제에서 >10배 이상의 유효 컴퓨트(effective compute) 증가 효과를 제공한다.

발판(Scaffolding). CoT++라고 생각하세요: 단순히 모델에게 묻는 것만이 아니라

문제를 해결하기 위해, 한 모델이 공격 계획을 세우고, 다른 모델이 여러 가능한 해결책을 제안하며, 또 다른 모델이 그것을 비판하는 식으로 진행할 수 있다. 예를 들어, HumanEval(코딩 문제)에서는 간단한 스캐폴딩(scaffolding)이 GPT-3.5가 스캐폴딩(scaffolding) 없는 GPT-4보다 더 잘 수행하게 한다. SWE-Bench(실제 소프트웨어 엔지니어링 과제 해결 벤치마크) 에서는 GPT-4가 약 2%만 정확히 해결할 수 있지만, Devin의 에이전트(agent) 스캐폴딩(scaffolding)을 사용하면 14-23%로 뛰어오른다. (에이전시 해방은 아직 초기 단계이며, 이에 대해서는 나중에 더 자세히 논의할 것이다.)

도구: 인간이 계산기나 컴퓨터를 사용할 수 없다고 상상해보라. 우리는 이제 시작 단계에 불과하지만, ChatGPT는 이제 웹 브라우저를 사용하고, 코드를 실행하는 등의 기능을 갖추고 있다.

컨텍스트 길이: 모델들은 2천 토큰 컨텍스트(GPT-3)에서 3만 2천 토큰 컨텍스트(GPT-4 출시)로, 그리고 100만 토큰 이상 컨텍스트(Gemini 1.5 Pro)로 발전해왔다. 이는 매우 중요한 변화다. 예를 들어, 10만 토큰의 관련 컨텍스트를 가진 훨씬 작은 기본 모델이 4천 토큰의 관련 컨텍스트만 가진 훨씬 큰 모델보다 더 뛰어날 수 있다. 더 많은 컨텍스트는 사실상 큰 컴퓨트(compute) 효율성 향상이다.²⁷27. 업데이트된 Gemini 1.5 백서의 그림 7 참고: Gemini 1.5 Pro와 Gemini 1.5 Flash(더 저렴하고 아마도 더 작은 모델)의 당황도와 문맥 길이 비교. 더 일반적으로, 컨텍스트는 이들 모델의 많은 응용을 여는 열쇠다: 예를 들어, 많은 코딩 응용은 유용한 새 코드를 기여하기 위해 코드베이스의 큰 부분을 이해해야 하며; 또는 업무용 문서 작성에 모델을 사용할 경우, 관련된 내부 문서와 대화의 컨텍스트가 많이 필요하다. Gemini 1.5 Pro는 100만 토큰 이상의 컨텍스트를 통해 사전 자료로 사전과 문법 참고 자료를 넣는 것만으로 인터넷에 없는 저자원 언어를 처음부터 학습할 수 있었다!

사후 학습 개선: 현재 GPT-4는 출시 당시의 원래 GPT-4에 비해 상당히 개선되었다고 John Schulman은 말한다. 이는 잠재된 모델 능력을 해방한 사후 학습 개선 덕분이다. 추론 평가에서 상당한 향상을 이루었는데 (예: MATH에서 약 50%에서 72%로, GPQA에서 약 40%에서 50%로), LMSys 리더보드에서는 거의 100점의 엘로 점수 상승을 기록했다. 이는 Claude 3 Haiku와 훨씬 큰 Claude 3 Opus 모델 간의 엘로 차이와 비슷하며, 두 모델은 약 50배 가격 차이가 난다.

업데이트된 Gemini 1.5 백서의 그림 7을 참조하라. Gemini 1.5 Pro와 Gemini 1.5 Flash(더 저렴하고 아마도 더 작은 모델)의 혼란도 대비 컨텍스트 비교를 보여준다.

Epoch AI가 스캐폴딩(scaffolding), 도구 사용(tool use) 등과 같은 일부 기법을 조사한 결과, 이러한 기법들은 많은 벤치마크에서 일반적으로 5~30배의 유효 컴퓨트(effective compute) 향상을 가져오는 것으로 나타났다. 모델을 평가하는 기관인 METR도 동일한 GPT-4 기반 모델에서 족쇄 풀기(unhobbling)를 통해 에이전트(agent) 작업(agentic tasks)에서 매우 큰 성능 향상을 발견했다. 기본 모델만 사용할 때 5%였던 성능이, 출시 후 GPT-4의 추가 학습(posttraining)으로 20%까지, 그리고 더 나은 추가 학습, 도구, 에이전트(agent) 스캐폴딩(scaffolding)을 통해 현재 거의 40%에 이르고 있다(그림 16).

그림 16 원문 이미지 — **그림 16:**METR의 에이전트(agent) 작업에서 더 나은 족쇄 풀기(unhobbling)를 통한 시간 경과별 성능. 출처: 모델 평가 및 위협 연구

이것들을 컴퓨트(compute) 및 알고리즘 효율성(algorithmic efficiency)과 통합된 유효 컴퓨트(effective compute) 척도로 표현하기는 어렵지만, 적어도 컴퓨트(compute) 규모 확장과 알고리즘 효율성(algorithmic efficiency)에 근접하는 대규모 향상임은 분명하다. (이는 알고리즘 진보의 중심적 역할도 강조한다. 이미 상당한 약 0.5 OOM(10배 단위)/년의 컴퓨트(compute) 효율성은 이야기의 일부에 불과하며, 족쇄 풀기(unhobbling)와 결합된 알고리즘 진보가 현재 추세에서 전체 향상의 과반수를 차지할 수도 있다.)

“족쇄 풀기(unhobbling)”는 이러한 모델들이 실제로 유용해질 수 있게 한 매우 중요한 부분이며, 오늘날 많은 상업적 응용이 지연되는 이유도 이러한 추가적인 “족쇄 풀기(unhobbling)”의 필요성 때문이라고 주장할 수 있다. 실제로 오늘날 모델들은 여전히 매우 제약되어 있다! 예를 들어:

장기 기억이 없다.

그림 17 원문 이미지 — **그림 17:**진보 분해: 컴퓨트(compute), 알고리즘 효율성(algorithmic efficiency), 그리고 족쇄 풀기(unhobbling). (대략적 설명.)

그들은 컴퓨터를 사용할 수 없다 (아직 매우 제한된 도구만 가지고 있다).

그들은 여전히 대부분 말하기 전에 생각하지 않는다. ChatGPT에게 에세이를 쓰라고 하면, 이는 인간이 처음 떠오르는 의식의 흐름으로 에세이를 쓰는 것과 같다.²⁸28. 사람들이 이 문제를 해결하기 위해 노력하고 있다.

그들은 (대부분) 짧은 문답식 대화만 할 수 있으며, 하루나 일주일 동안 문제를 고민하고, 다양한 접근법을 연구하며, 다른 사람들과 상담한 후 더 긴 보고서나 풀 리퀘스트를 작성하는 것은 불가능하다.

그들은 대부분 당신이나 당신의 애플리케이션에 맞춤화되어 있지 않다 (짧은 프롬프트를 가진 일반적인 챗봇일 뿐이며, 당신의 회사와 업무에 관한 모든 관련 배경 지식을 갖추고 있지 않다).

여기서 가능성은 엄청나며, 우리는 빠르게 손쉬운 과실을 따고 있다. 이것이 중요하다: 단순히 “GPT-6 ChatGPT”만을 상상하는 것은 완전히 잘못된 것이다. 계속되는 족쇄 풀기(unhobbling)와 함께

진전이 이루어지면, 개선은 GPT-6 + RLHF에 비해 획기적인 변화가 될 것이다. 2027년쯤에는 챗봇이 아니라, 동료 같은 에이전트(agent)에 더 가까운 무언가를 갖게 될 것이다.

챗봇에서 에이전트(agent)-동료로

앞으로 몇 년간 야심 찬 족쇄 풀기(unhobbling)는 어떻게 보일까요? 제가 생각하는 핵심 요소는 세 가지이다:

“온보딩 문제” 해결

GPT-4는 많은 사람들의 업무 중 상당 부분을 수행할 수 있는 기본적인 지능을 갖추고 있지만, 마치 5분 전에 막 들어온 똑똑한 신입사원과 같다. 관련된 맥락이 없고, 회사 문서나 슬랙 기록을 읽거나 팀원들과 대화를 나누거나 회사 내부 코드베이스를 이해하는 데 시간을 들이지 않았다. 똑똑한 신입사원도 도착한 지 5분 만에는 별로 쓸모가 없지만, 한 달이 지나면 꽤 유용해집니다! 예를 들어 매우 긴 컨텍스트를 통해, 새로운 인간 동료를 온보딩하듯 모델을 “온보딩”하는 것이 가능할 것 같다. 이것만으로도 엄청난 돌파구가 될 것이다.

테스트 시점 컴퓨트(test-time compute) 과잉(추론/오류 수정/장기 문제 해결을 위한 시스템 II)

현재 모델은 기본적으로 짧은 작업만 수행할 수 있다: 질문을 하면 답을 준다. 하지만 이것은 매우 제한적이다. 인간이 하는 대부분의 유용한 인지 작업은 장기적이다—5분 만에 끝나는 것이 아니라, 몇 시간, 며칠, 몇 주, 또는 몇 달이 걸립니다.

5분만 어려운 문제를 생각할 수 있는 과학자는 어떤 과학적 돌파구도 만들 수 없다. 요청받았을 때 단일 함수의 뼈대 코드만 작성할 수 있는 소프트웨어 엔지니어도 별로 쓸모가 없다—소프트웨어 엔지니어는 더 큰 과제를 받고, 계획을 세우고, 관련 코드베이스 부분을 이해한 후에 작업을 진행한다.

기술 도구를 사용하여 다양한 모듈을 작성하고 점진적으로 테스트하며, 오류를 디버깅하고 가능한 해결책의 공간을 탐색한 후, 결국 몇 주간의 작업이 집약된 대규모 풀 리퀘스트를 제출하는 식이다. 그리고 계속된다.

본질적으로, 테스트 시점의 컴퓨트(compute)에 큰 과잉 부담이 있다. 각 GPT-4 토큰을 문제를 생각할 때의 내적 독백의 한 단어로 생각해 보라. 각 GPT-4 토큰은 꽤 똑똑하지만, 현재는 일관성 있게 사고의 연쇄를 위해 약 수백 개 토큰 정도만 효과적으로 사용할 수 있다(사실상 문제나 프로젝트에 대해 몇 분간의 내적 독백/사고만 할 수 있는 것과 같다).

만약 수백만 개의 토큰을 사용해 정말 어려운 문제나 더 큰 프로젝트에 대해 사고하고 작업할 수 있다면 어떨까?

토큰 수	사람이 일에 쓰는 시간으로 환산	해석
수백 개	몇 분	ChatGPT 현재 수준
수천 개	30분	+1 OOM 테스트 시점 컴퓨트(test-time compute)
만 개	반나절	+2 OOM
십만 개	일주일	+3 OOM
수백만 개	수개월	+4 OOM

표 2: 사람이 분당 약 100토큰을 생각하고 주당 40시간 일한다고 가정했을 때의 환산

“토큰당” 지능이 동일하다고 해도, 똑똑한 사람이 몇 분을 투자하는 것과 몇 달을 투자하는 것의 차이일 것이다. 나는 당신은 모르겠지만, 몇 분보다 몇 달 동안 할 수 있는 일이 훨씬, 훨씬, 훨씬 많다. 만약 모델이 “몇 분에 해당하는 사고가 아니라 몇 달에 해당하는 사고와 작업을 할 수 있게” 된다면, 엄청난 능력 향상이 열릴 것이다. 여기에는 수많은 OOM(10배 단위)의 과잉 부담이 존재한다.

현재 모델들은 아직 이것을 할 수 없다. 최근 장기 문맥 관련 진전이 있었지만, 이 긴 문맥은 주로 토큰 소비에만 효과적이며, 토큰 생성에는 그렇지 않다—어느 정도 시간이 지나면 모델이 엉뚱한 방향으로 가거나 멈춰 버린다. 아직 일정 시간 동안 떨어져서 작업할 수 있는 능력은 없다.

문제나 프로젝트 자체만으로는²⁹29. 이해가 된다—왜 더 긴 시간 범위의 추론과 오류 수정 기술을 배웠겠는가? 하지만 테스트 시점 테스트 시점 컴퓨트(test-time compute)를 활용하는 것은 상대적으로 작은 “족쇄 풀기(unhobbling)” 알고리즘 효율성(algorithmic efficiency)의 승리일 수 있다. 아마도 소량의 강화학습(RL)이 모델이 오류를 수정하는 법을 배우도록 도울 수 있다 (“음, 그건 맞지 않는 것 같은데, 다시 확인해 보자”), 계획을 세우고 가능한 해결책을 탐색하는 등. 어떤 면에서 모델은 이미 대부분의 기초 역량을 가지고 있으며, 단지 이를 모두 결합하기 위해 몇 가지 추가 기술을 배워야 할 뿐이다.

본질적으로, 우리는 모델에게 어려운 장기 프로젝트를 추론할 수 있게 하는 일종의 시스템 II 외부 루프³⁰30. 시스템 I과 시스템 II는 현재 LLM의 능력—특히 그 한계와 어리석은 실수—및 RL과 족쇄 풀기(unhobbling)의 가능성을 고려하는 데 유용한 사고 방식이다. 익숙한 비유로, 운전할 때 대부분은 자동조종(시스템 I, 현재 모델들이 주로 하는 것) 상태이나, 복잡한 공사 구간이나 낯선 교차로를 만나면 잠시 대화를 멈추고 곰곰이 생각하는(시스템 II) 행동을 한다. 만약 시스템 I만 사용해야 한다면(현 모델에 가깝게), 큰 어려움이 있을 것이다. 시스템 II 추론 루프를 만드는 것이 핵심 해제점이다.를 가르쳐야 한다.

만약 이 외부 루프를 가르치는 데 성공한다면, 몇 단락짜리 짧은 챗봇 답변 대신, 모델이 문제를 생각하고 도구를 사용하며 다양한 접근법을 시도하고 연구하며 작업을 수정하고 다른 사람과 협력하여 스스로 큰 프로젝트를 완성하는 수백만 단어의 흐름(읽는 것보다 더 빠르게 들어오는)을 상상해 보라.

다른 머신러닝 분야에서 테스트 시점과 학습 시점 컴퓨트(compute)의 균형 조정. 보드 게임용 AI 시스템과 같은 다른 분야에서는, 더 많은 테스트 시점 컴퓨트(추론 시점 컴퓨트(inference-time compute)라고도 함)을 사용하여 학습 컴퓨트(training compute)를 대체할 수 있다는 점이 입증되었다.

그림 18 원문 이미지 — **그림 18:**Jones (2021): 더 작은 모델도 더 많은 테스트 시점 컴퓨트(“더 많은 생각 시간”)을 제공하면 Hex 게임에서 훨씬 더 큰 모델만큼 잘할 수 있다. 이 분야에서는 테스트 시점에 약 1.2 OOM(10배 단위) 더 많은 컴퓨트(compute)를 사용하여 학습 컴퓨트(training compute)가 약 1 OOM 더 많은 모델과 동등한 성능을 얻을 수 있다을 발견했다.

시스템 I 대 시스템 II는 현재 대형 언어 모델(LLM)의 능력—제한과 어리석은 실수—과 강화학습(reinforcement learning) 및 족쇄 풀기(unhobbling)로 가능해질 수 있는 것을 생각하는 유용한 방법이다. 이렇게 생각해 보라: 운전할 때 대부분은 자동 조종(시스템 I, 현재 모델들이 주로 하는 것) 상태이다. 하지만 복잡한 공사 구역이나 새로운 교차로를 만나면, 동승자에게 대화를 잠시 멈추라고 부탁하고 실제로 무슨 일이 일어나고 무엇을 해야 할지 생각한다. 만약 시스템 I만으로 생활해야 한다면(오늘날 모델에 더 가까움), 많은 어려움을 겪을 것이다. 시스템 II 추론 루프를 만드는 능력이 핵심 해제이다.

(각주 내용 없음)

만약 우리 경우에도 비슷한 관계가 성립한다면, 테스트 시점 컴퓨트(test-time compute)를 +4 OOM(10배 단위)만큼 해제할 수 있다면, 이는 사전 학습 컴퓨트(training compute)를 +3 OOM만큼 해제하는 것과 동등할 수 있다. 즉, 대략 GPT-3와 GPT-4 사이의 도약과 비슷한 수준이다. (이 “족쇄 풀기(unhobbling)” 문제를 해결하는 것은 거대한 OOM 확장과 같다.)

컴퓨터 사용하기

이것은 세 가지 중 아마도 가장 직관적인 부분이다. 현재 ChatGPT는 기본적으로 텍스트로 소통할 수 있는 고립된 상자 안에 앉아 있는 인간과 같다. 초기 족쇄 풀기(unhobbling) 개선은 모델이 개별 고립된 도구를 사용하는 법을 가르치지만, 멀티모달 모델이 등장하면 곧 한 번에 이 모든 것을 할 수 있을 것으로 예상한다. 즉, 모델이 인간처럼 컴퓨터를 사용할 수 있게 될 것이다.

이는 Zoom 통화에 참여하고, 온라인에서 조사하며, 사람들과 메시지를 주고받고 이메일을 보내고, 공유 문서를 읽고, 앱과 개발 도구를 사용하는 것을 의미한다. (물론, 모델이 장기적인 작업 루프에서 이를 최대한 활용하려면 테스트 시점 컴퓨트(test-time compute) 해제가 함께 이루어져야 한다.)

이 과정이 끝나면, 우리는 마치 바로 투입 가능한 원격 근로자와 매우 흡사한 무언가를 얻게 될 것이다. 회사에 합류하여 신입 직원처럼 온보딩되고, Slack에서 당신과 동료들에게 메시지를 보내며 소프트웨어를 사용하고, 풀 리퀘스트를 만들고, 큰 프로젝트가 주어지면 인간이 몇 주간 독립적으로 프로젝트를 완수하는 것과 동등한 모델의 역할을 수행하는 에이전트(agent)이다. 이를 실현하려면 GPT-4보다 다소 나은 기본 모델이 필요할 수 있지만, 그리 크게 뛰어나지 않아도 된다—모델이 아직도 명백하고 기본적인 방식으로 제약받는 부분을 고치는 데 많은 잠재력이 있다.

(이것이 어떻게 보일지에 대한 아주 초기의 예는 Devin이다. Devin은 완전 자동화된 소프트웨어 엔지니어를 만드는 과정에서 모델의 “에이전시 잔여/테스트 시점 컴퓨트(test-time compute) 잔여”를 해제하는 초기 프로토타입이다. Devin이 실제로 얼마나 잘 작동하는지는 모르겠고, 이 데모는 아직 매우)

적절한 챗봇 → 에이전트(agent) 족쇄 풀기(unhobbling)가 가져올 결과에 비해 제한적이지만, 곧 다가올 그런 종류의 것을 미리 보여주는 유용한 예고편이다.)

그런데 족쇄 풀기(unhobbling)의 중심성은 상업적 응용 측면에서 다소 흥미로운 “음속 돌파” 효과를 낳을 수 있다. 지금과 바로 투입 가능한 원격 근로자 사이의 중간 모델들은 워크플로우를 변경하고 경제적 가치를 통합하고 도출하기 위한 인프라를 구축하는 데 엄청난 수고가 필요할 것이다. 바로 투입 가능한 원격 근로자는 훨씬 더 쉽게 통합될 것이다—그냥, 원격으로 수행할 수 있는 모든 작업을 자동화하기 위해 그들을 투입하기만 하면 된다. 수고가 족쇄 풀기(unhobbling)보다 더 오래 걸릴 가능성이 있어 보인다. 즉, 바로 투입 가능한 원격 근로자가 많은 작업을 자동화할 수 있을 때쯤에는 중간 모델들이 아직 완전히 활용되고 통합되지 않았을 것이므로, 생성되는 경제적 가치의 도약은 다소 불연속적일 수 있다.

다음 4년

숫자를 종합해 보면, 우리는 GPT-4 이후 4년 동안 대략 GPT-2에서 GPT-4로의 도약과 비슷한 규모의 도약을 2027년 말까지 기대할 수 있다.

GPT-2에서 GPT-4로는 대략 4.5–6 OOM(10배 단위)의 기본 유효 컴퓨트(effective compute) 스케일 확대(물리적 컴퓨트(compute)와 알고리즘 효율성(algorithmic efficiency)), 그리고 주요한 “족쇄 풀기(unhobbling)” 이득(기본 모델에서 챗봇으로)이 있었다.

이후 4년 동안에는 물리적 컴퓨트(compute)와 알고리즘 효율성(algorithmic efficiency) 향상으로 기본 유효 컴퓨트(effective compute)가 3~6 OOM, 최선 추정으로는 약 5 OOM 늘어날 것으로 보인다. 여기에 ‘족쇄 풀기(unhobbling)’가 더해지면 챗봇에서 에이전트(agent)/바로 투입 가능한 원격 근로자로 넘어가는 실용성의 단계적 변화가 생길 것이다.³¹31. 위에서 묘사한 물리 컴퓨트(compute) 및 알고리즘 효율 향상에 관한 최선 추정 가정과 병렬성 고려를 단순화하면, 실제로는 “하루에 1440(60*24)대 GPT-4급 모델”을 훈련하는 형태에 가까울 수 있다.

그림 19 원문 이미지 — **그림 19:**GPT-4 이전 4년간 진보의 동인에 대한 추정치 요약과 GPT-4 이후 4년간 우리가 기대해야 할 사항.

극적으로 변할 것이다.

그것이 우리를 어디로 데려갈까?

그림 20 원문 이미지 — **그림 20:**OOM(10배 단위) 계산 요약. GPT-2에서 GPT-4로의 발전은 우리를 약 유치원생 수준에서 약 똑똑한 고등학생 수준으로 데려갔다; 몇 개의 일관된 문장을 간신히 출력하던 수준에서 고등학교 시험을 만점으로 통과하고 유용한 코딩 조수 역할을 할 수 있는 수준으로. 이는 엄청난 도약이었다. 만약 우리가 다시 한 번 이 정도의 지능 격차를 극복한다면, 그것이 우리를 어디로 데려갈까?³²**32.** 물론 현재 우리가 가진 벤치마크는 모두 포화될 것이다. 그러나 이는 어려울 만큼 어려운 벤치마크를 만드는 것이 어려움의 반영일 뿐이다. 우리는 매우, 매우 멀리 갈 것이라고 놀라지 말아야 한다. 아마도 그것은 박사 학위 소지자와 해당 분야 최고의 전문가들을 능가하는 모델로 우리를 이끌 것이다.

(이것을 생각하는 한 가지 멋진 방법은 현재 AI 발전 추세가 대략 아이 발달 속도의 3배 정도라는 것이다. 당신의 3배 속도 아이는 이제 막 고등학교를 졸업했으며, 곧 당신의 일자리를 차지할 것이다!)

다시 말하지만, 매우 중요한 점은 단순히 믿을 수 없을 만큼 똑똑한 ChatGPT를 상상하지 말라는 것이다: 족쇄 풀기(unhobbling)로 인한 이득은 이것이 오히려 원격 근무자로서, 추론하고 계획하며 오류를 수정할 수 있고 당신과 당신 회사에 대해 모든 것을 알고 문제를 독립적으로 해결할 수 있는 믿을 수 없을 만큼 똑똑한 에이전트(agent)처럼 보일 것임을 의미한다.

몇 주 동안 독립적으로 진행되고 있다.

우리는 2027년까지 범용 인공지능(AGI)에 도달할 것으로 예상된다. 이 AI 시스템들은 기본적으로 모든 인지 작업을 자동화할 수 있을 것이다(원격으로 수행할 수 있는 모든 작업을 생각해 보라).

명확히 하자면—오차 범위는 크다. 데이터가 부족해지거나, 데이터 장벽을 돌파하는 데 필요한 알고리즘 혁신이 예상보다 어려울 경우 진전이 멈출 수 있다. 족쇄 풀기(unhobbling)가 기대만큼 진행되지 않아 단순한 전문가용 챗봇 수준에 머물 수도 있다. 아마도 10년간의 추세선이 깨지거나, 딥러닝 확장이 이번에는 실제로 한계에 부딪힐 수도 있다. (또는 알고리즘 혁신, 심지어 테스트 시점의 컴퓨트(compute) 과잉을 해방시키는 단순한 족쇄 풀기(unhobbling)가 패러다임 전환이 되어 상황을 가속화하고 AGI를 더 일찍 도래하게 할 수도 있다.)

어쨌든 우리는 OOM(10배 단위)를 빠르게 통과하고 있으며, 비전문적인 믿음 없이도 단순히 직선 추세를 외삽하는 것만으로 2027년까지 진정한 AGI 가능성을 매우 심각하게 받아들여야 한다.

요즘 많은 사람들은 AGI의 기준을 ‘매우 훌륭한 챗봇’ 수준으로 낮춰 잡으려는 듯하다. 내가 말하는 AGI란 나나 내 친구들의 일을 완전히 자동화할 수 있고, AI 연구자나 엔지니어의 업무를 완전히 수행할 수 있는 AI 시스템을 의미한다. 아마도 로보틱스 같은 일부 분야는 기본적으로 더 오래 걸릴 수 있다. 그리고 의료나 법률 같은 사회적 도입은 사회적 선택이나 규제로 인해 쉽게 지연될 수 있다. 그러나 모델이 AI 연구 자체를 자동화할 수 있게 되면, 그것만으로도 충분하다—강력한 피드백 루프를 촉발하기에 충분하며—우리는 매우 빠르게 추가 진전을 이룰 수 있다. 자동화된 AI 엔지니어들이 남은 모든 병목 현상을 해결하며 모든 것을 완전히 자동화할 것이다. 특히 수백만 명의 자동화된 연구자들이 10년간의 추가 알고리즘 진보를 1년 이하로 압축할 가능성이 매우 높다. AGI는 곧 뒤따를 초지능의 작은 맛에 불과할 것이다. (다음 장에서 더 다룬다.)

어쨌든, 급격한 진전 속도가 줄어들 것이라고 기대하지 마라. 추세선은 무해해 보이지만, 그 함의는...

강렬하다. 이전 세대들처럼, 새로운 세대의 모델들은 대부분의 관찰자들을 놀라게 할 것이다; 곧 박사 학위 소지자들이 며칠씩 걸릴 매우 어려운 과학 문제들을 모델들이 해결할 때, 모델들이 당신의 컴퓨터에서 당신의 일을 척척 해낼 때, 수백만 줄의 코드를 처음부터 작성할 때, 그리고 매년 혹은 2년마다 이 모델들이 창출하는 경제적 가치가 10배씩 증가할 때, 사람들은 믿기 어려워할 것이다. 공상과학은 잊어라, OOM(10배 단위)를 세어라: 이것이 우리가 기대해야 할 것이다. 범용 인공지능(AGI)은 더 이상 먼 미래의 환상이 아니다. 단순한 딥러닝 기법을 확장하는 것이 성공했으며, 모델들은 배우고자 할 뿐이고, 우리는 2027년 말까지 또 다른 100,000배 이상의 성장을 이루려 하고 있다. 그들이 우리보다 더 똑똑해지는 것도 머지않았다.

그림 21 원문 이미지 — **그림 21:**GPT-4는 시작에 불과하다— 4년 후 우리는 어디에 있을까? 딥러닝 진보의 빠른 속도를 과소평가하는 실수를 하지 말라(이는 GAN의 진보로 잘 나타난다).

부록. OOM(10배 단위)를 가로지르는 경쟁: 이번 10년 아니면 실패

나는 예전에 범용 인공지능(AGI)에 대한 짧은 시간표에 대해 더 회의적이었다. 한 가지 이유는 이번 10년에 너무 많은 AGI 확률 질량을 집중하는 것이 비합리적으로 보였기 때문이다(“우리가 특별하다”는 전형적인 오류처럼 보였다). 나는 AGI를 얻기 위해 무엇이 필요한지에 대해 불확실해야 하며, 이는 AGI를 얻을 시기에 대해 훨씬 더 “분산된” 확률 분포를 가져야 한다고 생각했다.

그러나 내 생각이 바뀌었다: 결정적으로, AGI를 얻기 위해 무엇이 필요한지에 대한 우리의 불확실성은 연도가 아니라 유효 컴퓨트(effective compute)의 OOM(10배 단위)에 관한 것이어야 한다.

우리는 이번 10년 동안 OOM을 가로지르는 경쟁을 하고 있다. 무어의 법칙이 전성기였던 시절에도 1~1.5 OOM/10년 수준이었다. 나는 앞으로 4년 내에 약 5 OOM, 그리고 이번 10년 전체로는 10 OOM 이상을 달성할 것으로 추정한다.

그림 22 원문 이미지 — **그림 22:**유효 컴퓨트(effective compute) 규모 확장에 대한 대략적인 예상. 이번 10년 동안 OOM을 가로지르는 경쟁을 해왔으며, 2030년대 초반 이후에는 느린 진전이 예상된다.

본질적으로, 우리는 이번 10년 동안 일회성 이득을 거두는 거대한 규모 확장의 한가운데에 있으며, 이후 OOM(10배 단위)를 통한 진전은 수배 느려질 것이다. 만약 이 규모 확장이 향후 5~10년 내에 AGI에 도달하지 못한다면, 그것은 아마도...

아직 갈 길이 멀다.

지출 규모 확대: 모델에 백만 달러를 쓰는 것은 한때 터무니없었지만, 이 10년 말까지는 1,000억 달러 또는 1조 달러 규모의 클러스터를 갖게 될 가능성이 높다. 그 이상으로 가는 것은 어려울 것이다; 이미 이것이 사실상 가능한 한계(대기업이 감당할 수 있는 수준과 GDP 대비 비율 모두에서)이다. 이후에는 연간 2% 정도의 빙하 같은 실질 GDP 성장률만이 이를 증가시킬 수 있다.

하드웨어 발전: AI 하드웨어는 무어의 법칙보다 훨씬 빠르게 발전해왔다. 이는 AI 작업 부하에 특화된 칩을 개발해왔기 때문이다. 예를 들어, CPU에서 GPU로 전환했고, 트랜스포머에 맞게 칩을 조정했으며, 전통적인 슈퍼컴퓨트(compute)의 fp/fp32에서 H100의 fp8과 같이 훨씬 낮은 정밀도 숫자 형식으로 내려갔다. 이는 큰 발전이지만, 10년 말까지는 완전히 특화된 AI 전용 칩이 나올 것이며, 무어의 법칙을 넘어서는 추가적인 발전은 많지 않을 것이다.

알고리즘 진보: 다가오는 10년 동안 AI 연구소들은 수십억 달러를 알고리즘 연구개발에 투자할 것이며, 전 세계에서 가장 똑똑한 사람들이 이 분야에 몰릴 것이다; 작은 효율성 개선부터 새로운 패러다임까지, 많은 저위험 과실을 따먹을 것이다. 우리는 어떤 확고한 한계에 도달하지는 않을 것이지만(“족쇄 풀기(unhobbling)”는 유한할 가능성이 크다), 최소한 개선 속도는 느려질 것이다. 이는 급격한 성장(금전 및 인적 자본 투자)이 필연적으로 둔화되기 때문이다(예: 대부분의 우수한 STEM 인재가 이미 AI에 몰려 있을 것이다). (그럼에도 불구하고, 이것이 가장 예측하기 어려운 부분이며, 위 그래프에서 2030년대 OOM(10배 단위)에 대한 불확실성의 주요 원천이다.)

이 모든 것을 종합하면, 우리는 앞으로 10년 동안 이후 수십 년보다 훨씬 더 많은 OOM을 빠르게 통과하고 있다. 어쩌면 이것으로 충분해서 곧 범용 인공지능(AGI)을 얻을 수도 있고, 아니면 길고 느린 고난의 행군이 될 수도 있다. 당신과 나는 AGI까지의 중간 시간에 대해 합리적으로 의견이 다를 수 있다.

AGI 달성이 얼마나 어려울지에 따라 다르겠지만— 지금 우리가 OOM을 빠르게 통과하고 있는 점을 감안하면, 당신이 생각하는 일반적인 AGI 도달 시기는 아마도 이번 10년대 후반쯤일 것이다.

그림 23 원문 이미지 — **그림 23:**매튜 바넷은 컴퓨트(compute)와 생물학적 한계만을 고려한 이와 관련된 멋진 시각화를 제공한다.

I. GPT-4에서 AGI까지: OOM 세기