V. 맺는 생각
만약 우리가 옳다면?
나는 1941년 봄을 오늘날까지도 기억한다. 그때 나는 핵폭탄이 단지 가능할 뿐만 아니라 불가피하다는 것을 깨달았다. 조만간 이러한 생각은 우리만의 특이한 것이 아닐 것이다. 곧 모든 사람이 그것에 대해 생각할 것이고, 어떤 나라가 그것을 실행에 옮길 것이다. . . .
그리고 그것에 대해 이야기할 사람이 아무도 없었다. 나는 많은 밤을 잠 못 이루었다. 하지만 그것이 얼마나 매우 심각할 수 있는지 깨달았다. 그리고 그때부터 수면제를 복용하기 시작했다. 그것이 유일한 치료법이었고, 그 이후로 한 번도 끊지 않았다. 28년이 지났고, 그 28년 동안 단 한 번도 밤을 거르지 않은 것 같다. 제임스 채드위치 (물리학 노벨상 수상자이자 1941년 영국 정부의 핵폭탄 불가피성 보고서 저자, 이 보고서가 결국 맨해튼 프로젝트를 촉발시켰다)
10년이 끝나기 전에 우리는 초지능을 구축할 것이다. 이것이 이 시리즈 대부분의 주제였다. 샌프란시스코에서 만나는 대부분의 사람들에게 그 지점이 바로 화면이 꺼지는 순간이다. 하지만 그 다음 10년, 즉 2030년대는 적어도 그만큼이나 사건이 많을 것이다. 그 끝에는 세상이 완전히, 알아볼 수 없을 정도로 변모해 있을 것이다. 새로운 세계 질서가 형성될 것이다. 그러나 안타깝게도—그 이야기는 다음 기회로 미뤄야겠다.
지금은 마무리해야 한다. 마지막으로 몇 가지 말을 남기겠다.
범용 인공지능(AGI) 현실주의
이 모든 것은 깊이 숙고할 문제이며, 많은 이들이 그러지 못한다. “딥러닝이 한계에 부딪혔다!”라고 매년 외친다. 전문가들은 자신 있게 이것이 또 다른 기술 붐일 뿐이라고 말한다. 하지만 샌프란시스코 중심지에 있는 사람들 사이에서도 논의는 두 가지 근본적으로 진지하지 않은 구호로 양분되었다.
한쪽 끝에는 파멸론자들이 있다. 그들은 수년간 AGI에 집착해왔으며, 나는 그들의 선견지명에 많은 존경을 표한다. 그러나 그들의 사고는 경직되어 딥러닝의 경험적 현실과 동떨어져 있으며, 그들의 제안은 순진하고 실행 불가능하며, 매우 현실적인 권위주의 위협과 맞서지 못한다. 99%의 파멸 확률을 맹목적으로 주장하고 AI를 무기한 중단하자고 외치는 것은 분명히 올바른 길이 아니다.
반대편에는 e/acc(가속주의자)들이 있다. 좁게 보면 그들은 AI 발전이 계속되어야 한다는 좋은 점을 가지고 있다. 그러나 그들의 피상적인 트위터 허튼소리 뒤에는 속임수가 있다; AGI를 직시하기보다는 자신들의 포장 스타트업을 만들고 싶어하는 아마추어들이다. 그들은 미국 자유의 열렬한 수호자라고 주장하지만, 불미스러운 독재자들의 돈의 유혹을 뿌리치지 못한다. 사실 그들은 진짜 정체주의자들이다. 위험을 부인하려는 시도 속에서 AGI 자체를 부인하며, 결국 우리가 얻을 것은 멋진 채팅봇뿐이고, 그것들은 분명히 위험하지 않다고 주장한다. (내 기준으로는 매우 실망스러운 가속주의다.)
그러나 내가 보기에는, 이 분야에서 가장 똑똑한 사람들은 다른 관점, 즉 내가 AGI 현실주의라고 부를 제3의 길에 수렴했다. 핵심 원칙은 간단하다:
- 초지능은 국가안보 문제다. 우리는 가장 똑똑한 인간보다 더 똑똑한 기계를 빠르게 만들고 있다. 이것은 또 다른 멋진 실리콘밸리 붐이 아니다; 이것은 무고한 오픈소스(open source) 소프트웨어 패키지를 작성하는 임의의 코더들의 커뮤니티가 아니다; 이것은 재미와 게임이 아니다. 초지능은 거칠 것이며, 인류가 만든 가장 강력한 무기가 될 것이다. 그리고 우리 중 누구에게든, 이것은 우리가 하는 일 중 가장 중요한 일이 될 것이다.
- 미국이 선도해야 한다. 자유의 횃불은 시진핑이 범용 인공지능(AGI)을 먼저 획득하면 살아남지 못할 것이다. (그리고 현실적으로도, 미국의 리더십만이 안전한 AGI로 가는 유일한 길이다.) 이는 단순히 “일시 중지”할 수 없다는 것을 의미한다; 미국 내에서 AGI 클러스터를 구축하기 위해 미국의 전력 생산을 신속히 확장해야 한다는 뜻이다. 하지만 또한 아마추어 스타트업의 보안이 핵 비밀을 중국 공산당(CCP)에 넘기는 식으로는 더 이상 안 된다는 의미이며, 핵심 AGI 인프라는 중동의 어떤 독재자가 아니라 미국이 통제해야 한다는 뜻이다. 미국 AI 연구소들은 국가 이익을 최우선으로 해야 한다.
- 우리는 실수하지 말아야 한다. 초지능의 힘을 인식하는 것은 그 위험도 인식하는 것을 의미한다. 매우 현실적인 안전 위험이 존재하며; 이 모든 것이 잘못될 위험도 매우 현실적이다—인류가 상호 파멸을 초래할 파괴적 힘을 사용하기 때문이든, 아니면 우리가 소환하는 외계 종족이 아직 완전히 통제할 수 없는 존재이기 때문이든. 이 위험들은 관리 가능하지만—즉흥적으로 대처해서는 안 된다. 이러한 위험을 헤쳐 나가려면 지금까지 보여주지 못한 수준의 진지함을 가진 좋은 사람들이 필요하다.
가속이 심화됨에 따라, 논의는 더욱 격렬해질 것으로 예상한다. 하지만 내가 가장 바라는 것은 다가오는 무게를 느끼고 이를 엄숙한 의무의 부름으로 받아들이는 사람들이 있을 것이라는 점이다.
만약 우리가 옳다면?
이 시점에서 당신은 나와 다른 SF계 사람들이 완전히 미쳤다고 생각할지도 모른다. 하지만 잠시만 생각해 보라: 만약 그들이 옳다면? 이들은 이 기술을 발명하고 구축한 사람들이며; AGI가 이번 10년 내에 개발될 것이라고 생각한다; 그리고 꽤 넓은 스펙트럼이 있지만, 그들 중 많은 이들이 내가 이 시리즈에서 설명한 대로 초지능으로 가는 길이 전개될 가능성을 매우 진지하게 받아들인다.
거의 확실히 나는 이야기의 중요한 부분을 잘못 이해했을 것이다; 만약 현실이 이 정도로 미친 방향으로 전개된다면, 오차 범위는 매우 클 것이다. 게다가, 처음에 말했듯이, 나는 가능성의 폭이 넓다고 생각한다. 하지만 나는 중요하다고 생각한다—
구체적이어야 한다. 그리고 이 연재에서 나는 현재 내가 믿는, 앞으로 남은 10년—즉 이번 10년 동안 가장 가능성이 높은 단일 시나리오를 제시했다.
왜냐하면—이것이 점점 현실로 다가오고 있기 때문이다, 매우 현실적으로. 몇 년 전만 해도, 적어도 나에게는, 이런 생각들이 진지했지만—추상적이었고, 모델과 확률 추정 속에 격리되어 있었다. 이제는 매우 생생하게 느껴진다. 나는 그것을 볼 수 있다. AGI가 어떻게 만들어질지 볼 수 있다. 더 이상 인간 뇌 크기 추정이나 가설, 이론적 외삽에 관한 문제가 아니다—나는 기본적으로 AGI가 훈련될 클러스터와 언제 만들어질지, 우리가 사용할 대략적인 알고리즘 조합, 해결되지 않은 문제들과 그것들을 해결하는 경로, 중요한 사람들의 목록까지 말할 수 있다. 나는 그것을 볼 수 있다. 매우 생생하다. 물론, 2023년 초에 Nvidia에 전폭적으로 투자한 것은 훌륭했지만, 역사의 무게는 무겁다. 나는 이것을 선택하지 않았을 것이다.
하지만 가장 무서운 깨달음은 이 일을 처리할 특급 팀이 없다는 것이다. 어릴 적에는 세상이 영웅적인 과학자들, 뛰어난 군인들, 침착한 지도자들이 있어서 위기가 닥치면 그들이 구해줄 것이라는 영광스러운 관념이 있다. 현실은 그렇지 않다. 세상은 믿을 수 없을 만큼 작다; 겉모습이 벗겨지면, 보통 무대 뒤에 있는 몇몇 사람들이 실제 플레이어이며, 필사적으로 상황이 무너지지 않도록 애쓰고 있다.
지금 이 순간, 아마도 전 세계에 몇 백 명 정도만이 다가올 충격을 인지하고, 상황이 얼마나 미쳐 돌아갈지 이해하며, 상황 인식을 갖고 있다. 나는 아마도 프로젝트를 실행할 수 있는 모든 사람을 개인적으로 알거나 한 단계 정도의 인맥 거리에 있다. 무너지는 것을 막으려 필사적으로 애쓰는 무대 뒤의 몇몇 사람들은 바로 당신과 당신의 친구들, 그리고 그들의 친구들이다. 그게 전부다. 그것이 전부다.
언젠가는 이 일이 우리 손을 벗어날 것이다. 하지만 적어도 앞으로 몇 년간 중반 게임 동안은, 세계의 운명이 이 사람들에게 달려 있다.
자유 진영이 승리할 것인가?
우리는 초지능을 길들일 것인가, 아니면 초지능이 우리를 길들일 것인가?
인류는 또다시 자기 파괴를 피할 수 있을 것인가?
위험은 결코 줄어들지 않았다.
이들은 위대하고 존경받을 만한 사람들이지만, 결국 한낱 사람들일 뿐이다. 곧 AI가 세상을 지배하게 될 것이지만, 우리는 마지막 한 번의 결전을 치러야 한다. 그들의 마지막 관리가 인류에게 영광을 가져다주길 바란다.
부록
컴퓨트(compute) 대략 계산에 대한 추가 세부사항
훈련 컴퓨트(compute)
연도. OpenAI GPT-4 기술 보고서에 따르면 GPT-4는 2022년 8월에 훈련을 마쳤다. 이후 우리는 대략 연간 0.5 OOM(10배 단위)의 추세를 적용한다.
H100s-동등. Semianalysis, JP Morgan 등은 GPT-4가 25,000대의 A100으로 훈련되었다고 추정하며, H100은 A100 대비 2~3배의 성능을 가진다.
비용. 종종 사람들은 “GPT-4 훈련에 1억 달러” 같은 숫자를 GPU 임대 비용만으로 인용한다(즉, “이 정도 규모의 클러스터를 3개월간 임대하는 데 드는 비용” 같은 것). 하지만 이는 잘못된 접근이다. 중요한 것은 클러스터를 실제로 구축하는 데 드는 비용에 가깝다. 세계 최대 규모 클러스터 중 하나를 원한다면 단지 3개월 임대하는 것으로는 부족하다! 게다가 컴퓨트(compute)는 단지 주력 훈련 실행뿐 아니라 위험 완화 실험, 실패한 실행, 다른 모델 등에도 필요하다.
GPT-4 클러스터 비용을 대략 추산하기 위해:
- 공개된 추정치는 GPT-4 클러스터가 약 25,000대의 A100으로 구성되어 있음을 시사한다.
- 2-3년 동안 $1/A100-시간을 가정하면 대략 $5억의 비용이 듭니다.
- 또는 H100당 $25,000 비용, 10,000 H100 상당, 그리고 Nvidia GPU가 클러스터 비용의 약 절반(나머지는 전력, 물리적 데이터센터(datacenter), 냉각, 네트워킹, 유지보수 인력 등)이라는 점을 고려해 추정할 수 있다. (예를 들어, 이 총소유비용 분석에 따르면 대형 클러스터 비용의 약 40%가 H100 GPU 자체에 해당하며, 추가로 13%는 Infiniband 네트워킹을 위한 Nvidia 비용이다. 다만, 자본 비용을 제외하면 GPU가 비용의 약 50%를 차지하고, 네트워킹 비용까지 포함하면 Nvidia가 클러스터 비용의 60% 이상을 차지한다.)
FLOP/$는 각 Nvidia 세대마다 다소 개선되고 있지만 큰 폭은 아닙니다. 예를 들어, H100 -> B100은 약 1.5배 FLOP/$ 개선일 가능성이 있다: B100은 사실상 두 개의 H100을 결합한 것이지만, 가격은 2배 미만이다. 그러나 B100은 다소 예외적인 경우로, Nvidia가 경쟁을 압도하려는 의도로 가격을 낮춘 것으로 보인다. 반면 A100 -> H100은 FLOP/$ 개선이 크지 않았다(비FP8 기준으로 2배 성능 향상에 비용도 약 2배, FP8 개선을 포함하면 약 1.5배) — 그리고 이는 2년 주기의 세대였다.
마진 압박으로 인해 FLOP/$가 더 개선될 여지가 있다고 생각하지만, GPU가 대규모 제약을 받으면서 오히려 더 비싸질 수도 있다. AI 칩 특화로 인한 이득은 계속되겠지만, 칩이 이미 AI에 꽤 특화되어 있고(예: 트랜스포머에 특화, 이미 fp8/fp4 정밀도 사용), 무어의 법칙은 현재 매우 느리며, 메모리와 인터커넥트 같은 병목 부품의 개선 속도도 더딘 점을 고려하면 FLOP/$에 대한 획기적인 기술적 개선이 있을지는 불확실한다. Epoch의 데이터를 보면 지난 10년간 최고 ML GPU의 FLOP/$는 10배 미만의 개선을 보였고, 앞서 언급한 이유들로 인해 앞으로는 더 느려질 것으로 예상된다.
연간 약 35%의 FLOP/$ 개선이 있다면 +4 OOM 클러스터에 1조 달러 비용이 들 것이다. FLOP/$가 더 빠르게 개선될 수도 있지만, 데이터센터(datacenter) 자본 지출도 더 늘어날 것이다.
비용이 많이 든다—단순히 기존 감가상각된 발전소를 임대하는 대신 실제로 새로운 전력을 구축해야 하므로 초기 자본 지출(capex)이 많이 필요하다.
어쨌든 이 숫자들은 매우 대략적인 것이다. 예를 들어 1T 클러스터가 더 효율적으로 구축되어 실제로 컴퓨트(compute)에서 +4.5 OOM(10배 단위) 정도의 이득을 낸다면 오차 범위 내에 충분히 들어갈 수 있다.
비용. H100은 700W이지만, 데이터센터(datacenter) 전력(냉각, 네트워킹, 저장소 등)도 필요하다; Semianalysis는 H100당 약 1,400W로 추정한다.
FLOP/와트에서 얻을 수 있는 이득이 있긴 하지만, AI 칩 특화에서 얻을 수 있는 이득이 다 소진된 후(이전 각주 참조), 예를 들어 가장 낮은 정밀도로 내려간 후에는 이러한 이득이 다소 제한적이다(주로 칩 공정 개선인데, 이는 느리다). 그렇긴 해도 전력이 더 큰 제약이 되고(따라서 비용에서 차지하는 비중이 커지면) 칩 설계가 FLOP 비용을 희생하면서 더 전력 효율적으로 특화될 수도 있다. 그럼에도 불구하고 냉각, 네트워킹, 저장소 등에 대한 전력 수요는 여전히 존재한다(위 H100 수치에서는 이미 전력 수요의 약 절반 정도였다).
이 대략적인 계산을 위해 여기서는 H100 등가당 1kW를 사용하자; 다시 말하지만, 이들은 단지 대략적인 계산이다. (만약 예상치 못한 FLOP/와트 혁신이 있다면, 동일한 전력 소비를 유지하면서 더 큰 OOM 컴퓨트(compute) 이득을 기대할 수 있을 것이다.)
전력 참조 기준. 10GW 클러스터를 1년 내내 가동하면 87.6 TWh가 소모된다. 비교하자면, 오리건 주는 연간 약 27 TWh의 전기를 소비하고, 워싱턴 주는 연간 약 92 TWh를 소비한다.
100GW 클러스터를 1년 내내 가동하면 876 TWh가 소모되며, 미국 전체 연간 전기 생산량은 약 4,250 TWh이다.
여기를 클릭하여 “학습 컴퓨트(training compute)” 표로 돌아가기.
전체 컴퓨트(overall compute)
올해 H100 동등량. 저는 Nvidia가 2024년에 약 500만 개의 데이터센터(datacenter) GPU를 출하할 것으로 추정한다. 그중 소수는 B100으로, 이를 H100의 2배 이상으로 계산할 것이다. 그리고 다른 AI 칩들도 있다: TPU, Trainium, Meta의 맞춤형 실리콘, AMD GPU 등.
TSMC 용량. TSMC는 월 15만 개 이상의 5nm 웨이퍼 생산 능력을 보유하고 있으며, 월 10만 개의 3nm 웨이퍼로 생산을 확대 중이고, 아마도 월 15만 개 정도의 7nm 웨이퍼도 생산할 것이다. 총합으로 월 약 40만 개의 웨이퍼 생산 능력이 있다고 할 수 있다.
웨이퍼당 대략 35개의 H100이 생산된다고 가정합시다(H100은 5nm 공정으로 제조됨). 2024년에 500만~1000만 개의 H100 동등량을 생산한다면, 연간 AI 칩 생산량은 15만~30만 개의 웨이퍼에 해당한다.
이 범위 내 어디에 위치하는지, 그리고 7nm 생산을 포함할지 여부에 따라, 이는 연간 최첨단 웨이퍼 생산량의 약 3~10%에 해당한다.
여기를 클릭하여 “전체 컴퓨트(overall compute)” 표로 돌아가세요.
미주
본문의 위첨자 번호는 원문에 포함된 번호형 주석을 가리킵니다. 이미지 설명 캡션은 원래 위치에 유지했고, 본문 설명 주석만 이 미주 영역으로 분리했다.
댓글