Classical IDC에서 AIDC로 — 16-Layer 패러다임 전환

Uptime을 임대하던 부동산이 → tokens/watt를 생산하는 공장이 되었다

Classical IDC와 AIDC는 같은 단어 두 개로 묶이지만, 전력·냉각·네트워크·운영 KPI가 사실상 다른 운영 체계다 — 물론 현실에는 hyperscaler DC, GPU colo, neocloud, hybrid retrofit 같은 중간 형태가 공존한다. 그럼에도 부지 선정 기준에서부터 결제 단위까지 16개 레이어가 동시에 재정의되고 있다. 이 글은 L0(Site)부터 L15(Service)까지의 변환을 정량 데이터와 함께 한 페이지에 펼친다.

변환된 16개 레이어, 한눈에

AIDC 16-Layer 택사노미: L0 Site & Facility부터 L15 Service까지 16개 레이어 구조도 — L0 Site & Facility부터 L15 Service까지 — 16개 레이어가 동시에 재정의된다.

01 / FACILITY · L0

부지가 곧 전력이고, 건물이 곧 구조 보강이다

광 백본 + 도심 접근성에서 GW급 송전망 접근성으로. 부지 선정 기준이 뒤집힌 첫 번째 레이어.

L0 Site & Facility Site Selection · Power Grid Interconnection · Building Structure · Floor Loading · Seismic Design · Tier Classification · Modular/Prefab DC · AI Factory · AI Campus

Classical IDC가 광 백본과 도심 접근성을 1순위로 두던 시대에, AIDC는 GW급 송전망 접근성, 대규모 수자원, 토지의 풍부함이 결정 요인이 되었다. 단위 MW당 면적도 1,500–3,000 m²(전통)에서 500–1,500 m²(수냉)로 줄지만, 전기실·CDU실·BESS실 면적이 크게 늘어 총량은 비슷하거나 더 크다.

1,360 kg / rack

GB200 NVL72 1대 무게 · CDU flooded 시 +3 ton

건물 구조에서 가장 충격적인 변화는 floor load다. 전통 raised-floor 500–1,000 kg/m²(7.2–12 kPa)였던 것이, GB200 NVL72 한 rack이 1,360 kg, CDU flooded 시 추가 3 ton이 더해져 800–2,500 kg/m² 슬래브 보강이 권장된다. Eaton의 Heavy-Duty SmartRack(2024.10)은 static 5,000 lb(2,268 kg)로 설계되었다. 기존 IDC retrofit 시 hairline crack, pedestal deflection이 보고되는 이유다.

Tier Classification의 적용 방식도 변했다. 금융·국방용 Tier IV가 최상위였던 시대에, AIDC 학습 클러스터는 application-layer redundancy(checkpoint/restart)와 결합된 Tier III가 사실상 표준이다. Google Cloud는 Tier 자체를 사용하지 않는다고 명시한다 — facility 2N redundancy보다 분산 SW redundancy가 비용 대비 효과적이다.

Modular/Prefab DC는 더 이상 옵션이 아니다. Schneider EcoStruxure Pod Data Centre는 pod당 최대 1 MW+, 42 racks까지 100 kW+ rack을 수용하며, 공장 조립 후 현장 16주(전통 36주 대비 30% 단축)에 deploy된다. Vertiv SmartMod도 95% factory-tested로 14주 미만 출하한다.

$29.9B→$80B

Modular DC 시장 / 2024→2030E

16주

Schneider Pod 현장 deploy

100k+ m²

대형 AIDC 부지 통상 면적

02 / POWER · L1

5 kW에서 1 MW까지, 두 자릿수 도약

GPU TDP의 폭증이 전체 전력 인프라를 재구조화했다. 800V HVDC, BESS, SMR이 모두 등장한 이유다.

L1 Power Grid Connection (154/345 kV) · 800V HVDC · BESS · UPS Li-ion · SMR · Fuel Cell · PUE/pPUE · Power Capping · Stranded Power · RE100/PPA/REC

Rack 전력 밀도는 인과 사슬의 출발점이다. GPU TDP가 A100 400W → H100 700W → B200 1,000W → Rubin Ultra 2,300W+ → Feynman(2028 추정) 4,400W로 증가하면서, rack 밀도가 폭증했다.

세대	Rack Power	Power Distribution	UPS 전략	시기
Classical IDC	5–10 kW	3φ 415/480V AC + 48V busbar	Double-conv + VRLA	~2010–2022
H100 era	30–80 kW	415/480V AC + 48V DC busway	Li-ion + supercap	2023–2024
GB200 NVL72	120 kW	415V AC + 48V busbar	Li-ion + BBU	2025 양산
GB300 Blackwell Ultra	~140 kW	진화 중 (±400V 사이드카)	BBU 표준화	2025–2026
Rubin Ultra / Kyber rack	~600 kW 추정 (NVL576 기준)	800 VDC 생태계 (OCP Diablo 400 기반)	OCP HPR + Flywheel	2027 양산 목표

800VDC/±400VDC rack power architecture는 2027년 이후 고밀도 AI rack의 유력한 방향으로 부상하고 있다. 기존 54V DC busbar로 1 MW급을 분배하면 rack당 200 kg의 동(銅) busbar가 필요하고, 차세대 rack에서 최대 64U를 점유해 compute 공간이 사실상 없어진다. OCP Mt. Diablo (Diablo 400) 사양(2025.5 v0.5.2, Microsoft·Meta·Google 공동 저자, 2026.2 v0.7로 업데이트)은 사이드카 아키텍처로 AC→±400 VDC 수직 busbar를 구성하며, OCP 공식 표현으로는 “future fundamental base가 되기를 기대“하는 사양으로 100 kW에서 1 MW까지 확장 가능하도록 설계되었다 — 즉 산업 표준이 확정된 것은 아니고, 하이퍼스케일러 주도의 spec proposal 단계다. Schneider는 end-to-end 효율 +5%, 유지보수 −70%를 추정한다(벤더 자체 평가).

μs → ms → 100ms → 10s

UPS 다층화 / BBU → Li-ion → BESS → Generator

UPS도 다층화되었다. AI workload는 수천 GPU가 밀리초 단위로 동기 ramp해 시설 총 용량의 2–10%가 초 단위 스파이크된다 — 디젤 generator의 10–15초 startup으로는 대응 불가능하다. 해법은 chip/rack BBU(μs–ms) → Li-ion UPS(<10 ms) → grid BESS(100 ms) → generator(10–15 s)의 계층화다. xAI Colossus는 168× Tesla Megapack으로 ramp를 흡수한다. BESS 가격은 1991 $7,500/kWh → 2024 $133/kWh → 2030E $80/kWh로 급락 중이다.

PUE의 한계가 드러났다. Classical IDC PUE 1.5–1.8, hyperscaler 1.1–1.2, AIDC + D2C 수냉은 1.05–1.15까지 떨어졌다. 하지만 PUE는 시설 overhead 비율일 뿐 절대 효율이 아니다. Schneider Electric은 PCE(Power Compute Effectiveness)를 새로운 보완 KPI로 제안했다 — “provisioned power 중 얼마나 실제 유용한 compute work로 전환되는가”를 본다. 그 위에서 tokens/watt(unit energy당 AI 산출)와 cost/token(revenue 변환 효율)이 outcome-based 보완 지표로 자리잡고 있다.

On-site Generation은 선택이 아니라 필수가 되고 있다. 미국 behind-the-meter 데이터센터 파이프라인이 ~50 GW에 달한다. xAI Colossus Memphis는 portable gas turbine 35–46대(합산 422 MW)를 운용, Microsoft-Constellation Three Mile Island 837 MW 재가동(2028), Amazon-Talen Susquehanna 1,920 MW, Meta-Oklo 1.2 GW, Google-Kairos 500 MW SMR fleet 등 원전 르네상스가 가속화되고 있다. SMR 파이프라인은 2024년 말 25 GW → 2025년 말 45 GW로 늘었다(IEA).

한국 시사점: KEPCO 부채 202조원 초과로 송전 인프라 투자 지연, 동해안~신가평 갈등 등 신규 송전선로 건설 난항, 계통영향평가제도 도입으로 평가 통과해야 신규 DC 설립 가능. 국내에서도 KEPCO 주도의 LVDC 파일럿(2025.4)이 진행 중이며, 800V HVDC 흐름과 정합한다.

03 / COOLING · L2

100kW+ rack에서 수냉이 새로운 baseline

GB200 GPU die heat flux는 공랭 한계의 40–100배. 100kW+ 고밀도 rack에서는 D2C 수냉이 baseline으로 이동 중이다 — 저밀도 추론·일부 retrofit 환경에서는 공랭·하이브리드도 여전히 쓰인다.

L2 Cooling D2C (Direct-to-Chip) · Cold Plate · Immersion (Single/Two-phase) · RDHx · CDU · FWS/TCS Loop · Dry Cooler · WUE · Free Cooling · Waste Heat Reuse

공랭의 물리적 한계는 명확하다 — well-engineered hot/cold aisle containment 시 30–40 kW/rack이 상한이며, JLL은 41.3 kW/rack을 한계점으로 본다. GB200 GPU의 die heat flux는 500–600 W/cm²로 공랭 한계(5–15 W/cm²)의 40–100배다. 120 kW rack을 공랭 시도 시 팬 전력만 rack power의 20–30%를 소비하며 90+ dB 소음이 발생한다.

300× water 절감

NVIDIA 발표: GB200 NVL72 폐쇄 루프 D2C vs H100 공랭, 동일 power 기준

GB200 NVL72는 100% 수냉, 팬이 없다. 시설 chilled water 25–45°C 공급으로 120 kW 연속 방열한다. Cold plate는 열저항 ≤0.03 °C/W, 1.2 LPM/kW @ 45°C inlet, 6 bar 운전 / 12 bar burst 스펙이다. CDU(Coolant Distribution Unit)는 NVL72용 150–200 kW급이 표준이며, Google Deschutes CDU(OCP 2025)는 2 MW heat load, 500 GPM으로 업계 최고 사양이다.

기술	Rack 한계	PUE	WUE	비고
Standard CRAC	8–12 kW	1.5–1.8	1.5–2.0 L/kWh	Classical IDC
Containment	15–25 kW	1.3–1.5	동일	retrofit
RDHx (active)	30–120 kW	1.2	감소	hybrid 단계
D2C 단상 (NVL72 표준)	100–175 kW	1.05–1.15	~0 (폐쇄루프)	신규 표준
D2C 이상	250–400+	1.05–1.10	~0	Rubin 대비
단상 침지	100–150 kW	1.02–1.10	~0	광유계 dielectric
이상 침지	150–250+	1.01–1.03	~0	PFAS 규제 이슈

더 큰 게임체인저는 Vera Rubin의 45°C 수냉 지원(CES 2026 발표) — Dry Cooler로 ambient air에 방열 가능, 기계식 chiller·Cooling Tower 불필요다. Microsoft는 2024년 8월 이후 신규 설계부터 closed-loop zero-water evaporation을 적용하며, Phoenix·Mt. Pleasant 파일럿이 2026년 가동, 본격 fleet 전환은 2027년 말부터이다 — 즉 기존 fleet는 여전히 air·water 혼합이며, “WUE ~0″은 신규 설계 IT loop 기준이다.

45%

순수 공랭 DC 비율 (2024 48%→ 2025)

59%

5년 내 수냉 도입 계획

76%

2026 말 신규 AI 서버 수냉 비중 (GS)

Waste Heat Reuse의 경제성도 부상한다. 수냉 outlet 50–60°C는 공랭 25–47°C 대비 폐열회수에 적합하다. Stockholm Data Parks는 30+ DC, 10,000호/800,000 m² 난방을 공급하며, 독일 EnEfG는 2026년 신규 DC 폐열 10%, 2028년 20% 의무화를 적용한다. ERE(Energy Reuse Effectiveness) 0.3–0.5가 신규 KPI다. 신규 AIDC 입지에서 인접 산업단지·신도시와의 지역난방 연계는 향후 규제 대비 사전 plumbing 설계의 가치가 있다.

04 / COMPUTE · L3

1U 서버에서 NVL72 rack-scale 단일 GPU 도메인으로

72 GPU + 36 Grace CPU가 130 TB/s bisection으로 묶여 사실상 하나의 거대 GPU가 된다.

L3 Compute GPU (H100/H200/B200/GB200/Rubin) · Accelerators (TPU/Trainium/Gaudi/Groq/Cerebras/FuriosaAI) · CPU (Grace/EPYC/Xeon/ARM) · DPU/IPU (BlueField/Pensando) · Form Factor (HGX/MGX/DGX/OCP) · Rack-Scale (NVL72) · HBM3/HBM4/CXL · Heterogeneous (Ninja Gap)

Classical IDC의 dual-socket 1U/2U Xeon/EPYC 서버(서버당 300–800 W, DDR5 DRAM 수백 GB/s)는 AIDC에서 rack 단위 통합 GPU 도메인으로 진화했다. HGX(NVIDIA 8-GPU 모듈), MGX(modular reference), DGX(자체 시스템), OCP Open Rack v3가 standard form factor로 자리잡았다.

NVL72는 72 GPU + 36 Grace CPU를 5세대 NVLink/NVSwitch로 130 TB/s 집계 bisection bandwidth로 묶어, 사실상 하나의 거대 GPU로 동작하게 한다. 통합 HBM3e 메모리 풀 13.5 TB가 671B 파라미터 모델(DeepSeek R1) 전체를 단일 rack에 적재한다. NVIDIA 공식 발표 수치로 HGX H100 IB 대비 GPT-MoE 1.8T 학습 4×, 추론 30×, 에너지 효율 25×를 주장한다(벤더 자체 벤치마크 기준이며 독립 검증은 제한적).

모델	HBM	BW	TDP	FP4/FP8
H100 SXM	80 GB HBM3	3.35 TB/s	700 W	FP8 1,979 TFLOPS
H200	141 GB HBM3e	4.8 TB/s	700 W	+1.4–1.9× 추론
B200	192 GB	8.0 TB/s	1,000 W	FP4 9,000 TFLOPS
GB200 NVL72	13.5 TB/rack	576 TB/s	120 kW/rack	FP4 1.44 EF
GB300 NVL72	20.7 TB/rack	상향	~140 kW	상향
Vera Rubin NVL72 (H2 2026)	288 GB HBM4/GPU	1.6 PB/s/rack	—	학습 2.5 EF/rack
Rubin Ultra Kyber (2027)	1 TB HBM4e	—	~600 kW/rack (NVL576 기준)	NVL144 단일 rack / NVL576 multi-rack 옵션
AMD MI355X (2025.10)	288 GB HBM3e	8 TB/s	1,400 W	FP4 20+ PFLOPS

대안 Accelerator 생태계도 다양화되었다: Google TPU v5p/Trillium(Pathways), AWS Trainium2/Inferentia2, Intel Gaudi3, Groq(LPU, 추론 700+ tok/s), Cerebras(WSE-3, 1 chip = 1 wafer), SambaNova(RDU). 한국은 FuriosaAI RNGD(2024.8 발표, 추론 효율 NVIDIA 대비 +2.25× 주장)와 Rebellions ATOM-Max가 NPU 진영에서 부상 중이다.

DPU/IPU는 새로운 필수 컴포넌트가 되었다. NVIDIA BlueField-3(400 Gbps DPU, ARM 16-core), AMD Pensando가 host CPU에서 네트워크·스토리지·보안 처리를 offload하여 GPU 효율을 극대화한다. Heterogeneous Compute — “Ninja Gap”(CPU+GPU 하이브리드 추론에서 GPU-only를 능가하는 영역)이 추론 단계에서 본격 자리잡았다. Intel AMX/AVX-512 + GPU disaggregation은 Mooncake/DistServe 아키텍처와 결합된다.

$3M / rack

GB200 NVL72 1대 가격 · 전통 rack ~$0.5M 대비 한 자릿수 도약

05 / NETWORK · L4 + L10

North-South 80%에서 East-West 95%로

트래픽 패턴이 뒤집혔다. AIDC의 76%가 east-west, 단일 학습 잡이 수십 TB의 GPU-to-GPU 트래픽을 생성한다.

L4 Network HW NVLink/NVSwitch · InfiniBand NDR/XDR · RoCEv2 · Ultra Ethernet (UEC) · UALink · Rail-optimized Fat-tree · Spectrum-X · SHARP · 800G/1.6T Optics · CPO · LPO · DCQCN/PFC/ECN

L10 Network SW NVIDIA UFM · Cumulus/SONiC/FRR · BGP-EVPN · Multus · SR-IOV CNI · RDMA CNI · Cilium eBPF · Service Mesh (Istio/Ambient) · NCCL/RCCL/libfabric/UCX

트래픽 패턴이 뒤집혔다. Akamai/Data Center Frontier에 따르면 AIDC의 76% (분석에 따라 70–95%)가 east-west다. 단일 학습 작업이 수십 TB의 E-W 트래픽을 생성한다. 통신 패턴도 비동기적 RPC에서 결정론적·동기화된 collective(AllReduce, AllGather, ReduceScatter, All-to-All)로 바뀌었다. 그 결과 AIDC는 Frontend(관리·스토리지·외부)와 Backend(GPU compute fabric)를 물리적으로 분리한다.

Classical · North-South

10/25/100 GbE Top-of-Rack
Tomahawk 3/4 (12.8–25.6 Tbps)
ms급 latency 허용
TCP/ECN congestion
Calico/Flannel CNI
외부 사용자 트래픽 중심

AIDC · East-West

400G NDR / 800G XDR, 1.6T 임박
Quantum-X800 115.2 Tbps
sub-microsecond / <100 ns port-to-port
DCQCN + PFC + ECN tuning, HPCC
Multus + SR-IOV + RDMA CNI, Cilium eBPF
GPU collective 중심

Scale-up vs Scale-out 구분이 산업 표준이 되었다. Scale-up은 intra-rack/pod에서 메모리 시맨틱과 NVLink(5세대 1.8 TB/s/GPU)·NVSwitch·AMD Infinity Fabric으로 처리하고, Scale-out은 inter-rack에서 InfiniBand 또는 lossless Ethernet으로 처리한다.

개방형 표준이 본격 등장한 2025년은 분수령이다. UEC(Ultra Ethernet Consortium) 1.0(2025.6.11, 562쪽 사양)은 UET 전송 프로토콜, native RDMA, AI-tuned congestion control, 100만 endpoint 확장을 정의한다. UALink 1.0(2025.4)은 scale-up용으로 pod당 최대 1,024 accelerator, 819.2 TB/s 총 bidirectional을 지원한다.

22 dB → 4 dB

CPO Insertion Loss · 128k GPU 클러스터 optics 전력 65% 절감

Optics는 800G QSFP-DD/OSFP pluggable(9–15W/port)에서 1.6T OSFP를 거쳐 CPO(Co-Packaged Optics)·LPO(Linear Pluggable Optics)로 진화한다. NVIDIA Quantum-X Photonics(Q3450-LD, 144×800G)는 insertion loss 22 dB → 4 dB, 전력효율 5×, 복원력 10×를 달성한다.

06 / STORAGE · L5 + L9

SAN/NAS에서 TB/s parallel FS + GPU direct I/O로

$30k GPU가 IO 대기로 idle하는 비용을 막기 위해, 데이터 경로 자체가 CPU를 우회한다.

L5/L9 Storage HW & SW Lustre/GPFS/BeeGFS/WekaFS/VAST/DDN · DAOS · Ceph (RBD/CephFS/RGW) · MinIO/SeaweedFS · Rook/OpenEBS/Longhorn/Portworx · GPUDirect Storage (GDS) · NVMe-oF/NVMe/TCP · Alluxio/JuiceFS/Fluid · CheckFreq/Gemini

구분	Classical IDC	AIDC
프로토콜	SAN(FC 16/32G), NAS(NFSv3/SMB)	Parallel FS (Lustre/GPFS/WekaFS/VAST), NFSoRDMA
처리량	어레이당 수백 MB/s ~ 수 GB/s	rack당 수 TB/s, cluster 수십 TB/s
Latency	ms급	μs급 (NVMe-oF)
데이터 경로	App → CPU → DRAM → NIC → Storage	GPUDirect Storage (GDS): GPU mem ↔ NVMe/NIC 직결
최적화 단위	$/GB	$/(GB/s) + GPU idle 회피
Caching	별도 솔루션	Alluxio, JuiceFS, Fluid (K8s 통합)

15.2 TB checkpoint

1T 파라미터 모델 = model 2 TB + optimizer state 13.2 TB

Checkpoint 요구사항이 새로운 핵심 워크로드다. MLPerf Storage v2.0에 따르면 100k accelerator 클러스터는 1.5분마다 15 TB writeout, 일일 14 PB write, sync 시 cluster 평균 3.6 TB/s burst가 필요하다. 반면 VAST Data의 85,000 checkpoint 실측 분석은 async checkpoint로 ~845 GB/s도 가능함을 보여준다 — 양 수치는 동기/비동기 방식 차이로 양립한다.

구체적 수치: NVIDIA Eos는 DDN EXAScaler로 576 DGX H100에 4 TB/s, 12 PB / <3 rack을 공급한다. DDN AI400X2 + Spectrum-X는 rack당 2.4 TB/s read. GPUDirect Storage는 GPU 메모리에 40+ GB/s 직접 전송한다.

07 / SOFTWARE · L6 + L7 + L8

VM에서 MIG · Gang Scheduling · Disaggregated Inference로

VMware/OpenStack 스택은 GPU Operator + MIG + HPC 스케줄러로 대체되었다. 멀티테넌시 복잡도가 한 차원 증가했다.

L6 Cluster Management K8s (Vanilla/OpenShift) · Slurm · Volcano (CNCF) · Kueue · Ray/KubeRay · GPU Operator · MIG · MPS · HAMi · Run:ai · Gang Scheduling · Topology-aware · Resource Governance (Commons)

7.1 — GPU 자원 격리: MIG + Gang Scheduling

MIG(Multi-Instance GPU)는 H100에서 최대 7 compute slice + 8 memory slice로 19개 프로파일 지원, HW 격리로 vGPU(SW 격리) 대비 enterprise-grade noisy-neighbor 차단을 제공한다. MIG + time-slicing 조합 시 단일 GPU에 최대 28(=7×4) 리소스 요청 서빙 가능. K8s 1.31+ DRA(Dynamic Resource Allocation)는 MIG 동적 재분할을 가능케 한다.

vanilla K8s nvidia.com/gpu: 1은 GPU 전체를 점유한다. 단일 잡이 1,024 GPU에 걸쳐있을 때 일반 스케줄러는 partial allocation으로 시작 → 1,024장 동시 확보 실패 시 GPU deadlock → gang scheduling이 필수가 된다. NCCL AllReduce는 ring/tree topology를 가정하므로 스케줄러가 NVLink 도메인을 무시하면 throughput 50%+ 손실이다.

항목	vanilla K8s	Volcano	Slurm	Ray/KubeRay	Kueue
Gang scheduling	❌ (deadlock)	✅	✅ native	✅ (Volcano)	✅
Topology-aware	❌	✅	✅	△	△
처리량	baseline	2–4× vs K8s	μs batch	워크플로	hierarchical quota

L7 AI/ML Platform — Training FSDP · DeepSpeed ZeRO · Megatron-LM · Colossal-AI · DP/TP/PP/EP/SP · BF16/FP8/FP4 · Activation Checkpointing · NCCL/SHARP/Overlap · Elastic Training · W&B/MLflow

L7 AI/ML Platform — Inference vLLM · TensorRT-LLM · SGLang · llm-d · Triton · KServe · Ray Serve · NVIDIA Dynamo · Prefill-Decode Disaggregation · PagedAttention/RadixAttention/LMCache · EAGLE-3/MTP · AWQ/GPTQ/SmoothQuant · DeepEP/DeepGEMM · Multi-LoRA · LiteLLM/Portkey

7.2 — Inference: PD Disaggregation의 시대

NVIDIA Dynamo의 차별점: prefill(compute-bound)과 decode(memory-bound)를 분리된 GPU pool에 disaggregated serving한다. SLA-based Planner가 TTFT/ITL 목표 입력 시 자동 prefill/decode worker 스케일링, KV-aware routing, HBM → CPU mem → NVMe → S3/Azure blob 계층적 KV offload. GB200 NVL72에서 DeepSeek-R1 +30× vs 기존, MoE +50× vs Hopper를 NVIDIA가 발표했다(독립 검증 제한적).

MoE Inference는 별도 최적화 도메인이다 — DeepEP(expert routing), DeepGEMM(FP8 grouped GEMM), Expert Parallelism 매핑이 핵심이다. Multi-LoRA Serving(수천 어댑터 동시 서빙)과 Adapter Routing(LoRAX, PEFT)이 mass customization을 가능케 한다. Inference Gateway(LiteLLM Proxy, Portkey, Kong AI)는 multi-model routing·rate limit·캐싱을 통합한다.

L7.5 Agent + L8 Data Platform LangGraph · AutoGen · CrewAI · OpenAI Agents SDK · MCP (Model Context Protocol) · Temporal/Restate · E2B/Daytona/Modal · Kafka/Pulsar · Delta/Iceberg/Hudi · Spark/Ray Data/Flink · Data Mesh/Contracts · DataHub/Atlan

7.3 — Agent Layer와 Data Platform

Agent Layer (L7.5)는 새로 추가된 도메인이다. LangGraph, AutoGen, CrewAI, OpenAI Agents SDK가 agent framework, MCP(Model Context Protocol)가 tool integration 표준이며, E2B/Daytona/Modal이 sandbox/code execution을 담당한다. Temporal/Restate가 long-running agent workflow를 담당한다.

Data Platform (L8): 전통 IDC가 RDBMS + Oracle Exadata + DataStage ETL이었다면, AIDC의 데이터 평면은 Lakehouse(Delta/Iceberg/Hudi) + Streaming(Kafka) + Distributed Compute(Spark/Ray Data) + Catalog(DataHub/Unity)가 표준이다. LLM 학습 데이터는 PB급 텍스트의 Distributed Tokenization + Deduplication(MinHash, SimHash)가 별도 워크로드를 형성한다.

75%+ 조직 GPU 활용률 < 70%

Introl 2025 — peak load에서도 미달. 격리·스케줄링 복잡도가 비용을 만든다.

08 / WORKLOAD

Stateless ms 작업에서 동기화된 수개월 학습으로

Meta Llama 3.1 405B 54일 학습 실측 — 3시간당 1회 인터럽트. 분산 신뢰성이 별도 R&D 영역이 된 이유다.

3시간당 1회 인터럽트

Llama 3.1 405B · 16,384 H100 · 54일 pre-training · GPU/HBM이 unplanned 58.7%

Meta Llama 3.1 405B 실측(2024, 16,384 H100, 54일 pre-training)이 결정적 데이터다. 총 인터럽트 466건 = 계획 47 + 예상치 못한 419건, 평균 3시간당 1회. 실패 원인은 GPU 30.1% + HBM3 17.2% + 네트워크 8.4% + SRAM 4.5% + GPU 시스템 프로세서 4.1%로 GPU/HBM이 unplanned의 약 58.7%를 차지한다. 419건 중 3건만 human intervention 필요 — async checkpoint + NCCL flight recorder로 effective training time >90% 유지. CPU 장애는 단 2건(0.5%)에 불과했다 — Classical IDC와 정반대 분포다.

100K GPU로 외삽 시 ~30분당 1회 fail 가능성. xAI Colossus 555,000 GPU급(SemiAnalysis 등 보도 추정)에서는 분산 신뢰성 공학이 별도 R&D 영역이다.

새로운 KPI들

MFU(Model FLOPs Utilization)가 새로운 KPI다. H100 BF16 이론치 989 TFLOPS 대비 Llama 3.1 405B는 38–43% 달성, PaLM은 ~46%, FP8 MoE는 ~20%. 양호 기준은 40–50% sustained다. 학습 총 비용: Llama 3.1 405B = 30.84M GPU-hours, ~21.6 GWh, ~8,930 tCO2eq.

전력 패턴 — Grid Stress

AllReduce 동기화는 compute(700W) ↔ communication(저전력) square-wave를 생성, 16K–100K GPU 동시 진동 시 랙·로우·DC 인입선까지 수십 MW 스윙(Oracle OCI 실측). arXiv 2508.14318은 GPU가 서버 provisioned power의 >50%를 점유하며 oscillation 주파수가 grid resonance와 일치 시 물리적 손상 우려를 보고한다.

Classical Workload

Stateless web/DB, ms~min
독립적, 60–70% flat load
dP/dt 작음
일반 UPS로 대응
SLA: uptime 99.9%, p99 latency

AIDC Workload

분산 training, 수일~수개월
1K–100K GPU, AllReduce 지배적
30–95% in seconds, dP/dt 수십 MW/s
GPU power smoothing, bi-way UPS, dummy workload
Training: MFU, Goodput, JCT · Inference: TTFT, ITL, TPOT

09 / OBSERVABILITY · L11

5분 SNMP에서 1초 DCGM + Digital Twin으로

텔레메트리 sampling 주기가 300배 빨라졌고, Digital Twin이 표준 운영 도구가 되었다.

L11 Observability & AIOps Prometheus/Thanos/Mimir/VictoriaMetrics · Loki/OpenSearch/Vector · Tempo/Jaeger/OpenTelemetry · Pixie/Parca/Coroot (eBPF) · DCGM/Nsight Systems · PyTorch Profiler/HTA · Schneider EcoStruxure/Vertiv/Sunbird · NVIDIA Omniverse/Cadence Reality DC · Anomaly Detection/Predictive Maintenance/Causal RCA

DCIM은 Schneider EcoStruxure IT, Vertiv Trellis, Sunbird(SNMP/Modbus/BACnet 5분 polling)에서 AI-era DCIM + NVIDIA Mission Control + Omniverse Digital Twin으로 진화했다.

NVIDIA DCGM + DCGM-Exporter는 sub-second polling(보통 1s, classical 5분 대비 300배)으로 SM 활용률, HBM 온도, NVLink CRC/replay, ECC SBE/DBE, PCIe replay 등 GPU당 500+ metric을 수집한다. XID error가 워크로드 실패 전에 metric으로 나타나 예측 정비를 가능케 한다.

레이어	Classical	AIDC
Metrics	Zabbix/Nagios/Cacti	Prometheus + Thanos/Mimir + VictoriaMetrics
Logs	rsyslog → ELK	Loki/OpenSearch + Vector pipeline
Traces	(별로 없음)	OpenTelemetry + Tempo/Jaeger
eBPF	N/A	Pixie/Parca/Coroot (커널 무중단 관찰)
GPU	N/A	DCGM + Nsight + PyTorch Profiler + HTA

Digital Twin이 본격화되었다

Cadence Reality DC Platform + NVIDIA Omniverse DSX blueprint는 14,000+ 부품 / 750+ vendor 라이브러리, GB200 NVL72 모델 포함, mechanical/thermal(CFD)/fluid dynamics/electrical 통합 시뮬레이션을 제공한다. Cadence 공식 성과: 워크플로 30× 가속, 에너지 효율 30% 개선. NVIDIA가 자사 슈퍼컴 설계에 직접 사용한다.

AIOps는 단순 모니터링을 넘어선다 — Robust PCA·Isolation Forest 기반 이상탐지로 HW failure를 24–72시간 사전 예측, Causal Inference로 RCA를 자동화, Capacity Planning(Forecasting)으로 GPU 수요 6개월 선행 예측, Self-healing Automation은 XID error 발생 시 자동 노드 drain + checkpoint resume까지 무인 처리한다.

10 / SECURITY · L12

Perimeter에서 Confidential Computing + Sovereign AI로

Data-in-use까지 보호하는 패러다임. Model IP는 수조원 자산이고, Sovereign AI는 국가 단위 경쟁이 되었다.

L12 Security Software Keycloak/Okta/Azure AD · SPIFFE/SPIRE · Vault/External Secrets · Intel TDX/AMD SEV-SNP/ARM CCA · NVIDIA H100/H200 CC mode · Keylime/Veraison (Attestation) · FHE/MPC/DP (PPML) · SBOM/Sigstore/in-toto · Falco/Tetragon · OPA/Kyverno · NeMo Guardrails/LlamaGuard · C2PA

Classical IDC 보안은 물리(mantrap, biometric), 망분리(VLAN, DMZ, WAF), 컴플라이언스(ISO 27001, SOC 2, K-ISMS)로 perimeter 중심이다. 데이터 보호도 at-rest/in-transit만 보호되고 in-use는 평문으로 노출되었다.

AIDC는 Confidential Computing으로 data-in-use까지 보호한다. NVIDIA H100/H200/B200 CC mode는 on-die RoT 기반 CVM TEE를 구성, HBM VRAM·PCIe·NVLink까지 암호화한다. Intel TDX, AMD SEV-SNP, ARM CCA와 결합한 composite attestation을 통과해야 KMS가 모델 복호화 키를 TEE 내부로 release한다. 성능 overhead는 5–15%이며, hypervisor·CSP 운영자·물리 접근자조차 모델·데이터 접근 차단된다.

73.2% → 8.7%

Prompt Injection 공격 성공률 / hierarchical guardrails 적용 후 (arXiv 2511.15759)

Model IP 보호가 새로운 도메인으로 등장했다. Frontier 모델 weight는 학습비용 $100M–$1B+의 수조원 IP다. OWASP LLM01:2025의 1위 취약점인 Prompt injection은 단일턴 공격 성공률 ~13%, 멀티턴은 평균 60%+, 일부 모델 92.78%(Cisco AI Defense 2025). arXiv 2511.15759 프레임워크(content filtering + hierarchical guardrails + multi-stage verification)는 공격 성공률 73.2% → 8.7%로 낮춘다.

Sovereign AI가 국가 단위 인프라 경쟁으로 부상했다. UAE G42(MS $1.5B), 프랑스 Mistral(€109B AI Action Summit), 미국 Stargate $500B, EU AI Act, 한국 NAICC(2조~2.5조원, 1+ EF, 2027~28). NVIDIA-한국 정부 2025년 발표는 총 260,000+ GPU(NAICC + NHN/Kakao/NAVER 50k + Samsung 50k + SK 50k + Hyundai 50k Blackwell)다.

11 / SUSTAINABILITY · L1+L2

1.5%에서 4%로, multi-GW 단지의 시대

글로벌 DC 전력이 +128% 증가한다. PUE 하나만으론 부족하고, WUE/CUE/ERE 4-metric 시대.

945TWh

2030 글로벌 DC 전력 (2024 415 TWh +128%, IEA)

3-4%

2030 글로벌 전력 중 DC 비중

35-50%

2030 DC 전력 중 AI 비중

45GW

SMR 파이프라인 (2025 말, IEA)

단지 규모의 질적 변화: 전통 IDC 10–50 MW vs hyperscaler 50–150 MW vs AIDC 100 MW – multi-GW. Meta Hyperion (Louisiana Richland Parish)은 Meta 공식 발표 기준 2GW+ compute capacity, 보도·Zuckerberg 발언으로는 장기적으로 5GW까지 확장 가능. AWS Susquehanna 1,920 MW. Stargate $500B/4년. xAI Colossus는 SemiAnalysis·Tom’s Hardware 등 보도에 따르면 약 555,000 GPU, 2 GW 규모(xAI 공식 단일 발표는 없으며, $18B는 추정치)로 알려져 있다.

Metric	정의	Classical	Hyperscaler	AIDC 목표
PUE	Total / IT Power	1.5–1.8	1.1–1.2 (Google 1.09)	<1.3 (D2C)
WUE	Water / IT Energy	1.8–2.0 L/kWh	0.5–1.0	폐쇄루프 ~0
CUE	CO2 / IT Energy	그리드 의존	24/7 CFE 추구	무탄소 PPA·SMR
ERE	(Total − Reused) / IT	0–0.1	0.2–0.3	지역난방 0.4+

한국 ESG 현실은 가혹하다

재생에너지 비중 ~10%(OECD 평균 1/3), RE100 가입 한국 183개사 중 70개사(38.3%)가 조달 어려움 호소(CDP 2024, 미국의 3.5배). PPA 부대비용(망사용료 + 전력산업기반기금)이 발전단가의 18–27%. 삼성전자 한국 재생에너지 비중 2.7%, NAVER PPA 5%. RE100 100% 달성은 사실상 불가능하다.

국내 AIDC ESG 전략: 100% RE 달성 대신 K-CFE(24/7 무탄소에너지, 원전 포함) + 국내 BESS + 향후 SMR 옵션 + ERE 0.3+ 조합이 현실적 differentiation이다. 인접 산업단지·신도시 지역난방 연계로 폐열 회수, 폐쇄 루프 수냉으로 WUE ~0 달성이 권장된다.

12 / BUSINESS · L13 + L14 + L15

Per-Rack에서 Per-Token, GPU-backed Finance로

Pricing 단위 자체가 바뀌었다. GPU가 담보가 되고, 토큰이 결제 단위가 되었다.

L13 Developer Experience Backstage/Port/Cortex (IDP) · JupyterHub/Hex/Deepnote · Claude Code/Cursor 통합 · Spec-Driven Development Infra · Coding Agent Infra · Self-Service Portal

L14 FinOps GPU Cost Attribution · Showback/Chargeback · Spot/Preemptible · Token Economics · Reserved Capacity · Kubecost/OpenCost/CloudZero/Vantage

L15 Service/Product IaaS/CaaS/PaaS · MaaS · AaaS (Agent as a Service) · FaaS for AI · Sovereign Cloud · Neocloud (CoreWeave/Lambda)

차원	Classical Colo	AIDC
단위	per rack-month / kW	per GPU-hour, per M token
H100 시세	—	$1.45 (SF) ~ $6.16 (CoreWeave) ~ $11.06 (AWS) /hr
H100 1-yr reserved	—	$1.70/hr (2025.10) → $2.35/hr (2026.3), +40%
MaaS pricing	N/A	GPT-5.4 $2.50/$15, Claude Opus 4.5 $5/$25, Gemini 3 Flash $0.50/$3 per M tokens
Hyperscaler vs Neocloud	—	DGX H100 hyperscaler $98/hr vs neocloud $34/hr (66% 절감)

Service Layer가 다층화되었다 — IaaS(bare-metal GPU/VM) → CaaS(K8s containers) → PaaS(ML platform) → MaaS(model API) → AaaS(agent runtime) → FaaS for AI(serverless inference, Replicate, Modal, Banana). 동일 GPU 자산이 여러 layer로 변환되어 monetization 다각화가 가능하다.

Internal Developer Platform (L13)도 새로 등장했다. Backstage(Spotify), Port, Cortex가 service catalog와 golden path를 제공, 개발자가 GPU quota request → job submission → cost showback까지 self-service로 처리한다. AI-native DevEx에서 JupyterHub/Hex/Deepnote가 데이터 사이언티스트 UX, Claude Code/Cursor 통합이 코딩 에이전트 인프라의 핵심이다. Spec-Driven Development Infra가 새로운 paradigm으로, AI 협업 개발에서 spec이 single source of truth가 된다.

$8.5B DDTL · A3 등급

CoreWeave 2026.3 — 최초 IG 등급 GPU-backed financing. 총 부채 $21.6B.

Neocloud 모델(CoreWeave, Lambda, Crusoe, Nebius)이 등장했다. CoreWeave는 40+ DC, 250k+ GPU, OpenAI $11.9B 5년 계약, MS $10B+ 다년계약을 확보. 2026.3에 DDTL 4.0 $8.5B 조달(A3 등급, 최초 IG 등급 GPU-backed financing).

GPU as collateral이 새로운 금융 패턴이다. Lambda는 $500M GPU-backed ABS 업계 최초, NVIDIA가 Lambda 18k GPU $1.5B 리스백 — NVIDIA가 자체 ecosystem 자금 공급자가 되는 round-trip finance가 성립한다. Risk: H100 스팟 가격이 $7–10 → $2–4 in 18개월 하락 후 다시 +40% 반등하는 변동성.

부록 / 16-Layer 키워드 색인

L0Site & Facility

Site Selection, Power Grid Interconnection, Land Use/Zoning, Building Structure, Floor Loading, Seismic Design, Tier Classification (Uptime III/IV), Modular/Prefab DC, AI Factory, AI Campus, Multi-building

L1Power

Grid Connection (154/345 kV), Substation, UPS (Li-ion/Flywheel/BESS), Backup Power (Diesel/Gas Turbine), On-site Generation (SMR/Fuel Cell/Solar PPA), Power Distribution (Busway/PDU/Rack PDU), 415V/480V → 800V HVDC, Power Density, PUE/pPUE, Power Capping/Shedding, Stranded Power, RE100/PPA/REC

L2Cooling

Air Cooling (CRAC/CRAH, Hot/Cold Aisle, Containment), Liquid Cooling (D2C, Cold Plate), Immersion (Single/Two-phase), RDHx, CDU, FWS/TCS, Dry Cooler, Cooling Tower, Adiabatic, Refrigerant/Dielectric Fluid, WUE, Free Cooling, Waste Heat Reuse

L3Compute

GPU (H100/H200/B100/B200/GB200/Rubin), Accelerators (TPU/Trainium/Gaudi/Groq/Cerebras/SambaNova/FuriosaAI/Rebellions), CPU (Grace/EPYC/Xeon/ARM), DPU/IPU (BlueField/Pensando), Form Factor (HGX/MGX/DGX/Open Rack/OCP), Rack-Scale (NVL72/NVL36), Heterogeneous (Ninja Gap), HBM3/HBM3e/HBM4/CXL/GDDR, Computational Storage

L4Network

Scale-Up (NVLink/NVSwitch/Infinity Fabric/UALink), Scale-Out (InfiniBand NDR/XDR, RoCEv2, Ultra Ethernet), Topology (Fat-tree/Dragonfly/Rail-optimized/Spectrum-X), Optics (800G/1.6T/LPO/CPO), DCI, Collective (NCCL/RCCL/SHARP), Congestion (DCQCN/HPCC), Telemetry/INT

L5Storage HW

Parallel FS (Lustre/GPFS/BeeGFS/WekaFS/VAST/DDN), Object (S3/Ceph/MinIO), Tiered (Hot/Warm/Cold/Tape), GPUDirect Storage, Checkpoint Storage, Caching (Alluxio/JuiceFS)

L6Cluster Management

K8s (Vanilla/OpenShift/Rancher), Multi-cluster (Karmada), Edge (K3s), Slurm/Volcano/Kueue/Ray/KubeRay, Argo/Airflow/Dagster/Flyte, GPU Operator/MIG/MPS/HAMi/Run:ai, Topology-aware/Gang Scheduling, Resource Governance (SQUAD/Commons), Provisioning (Tinkerbell/Metal³), GitOps (ArgoCD/Flux), Autoscaler/Karpenter

L7AI/ML Platform

Training (FSDP/DeepSpeed/Megatron-LM/DP-TP-PP-EP-SP/FP8/W&B), Inference (vLLM/TensorRT-LLM/SGLang/llm-d/Triton/KServe/Dynamo/PD Disaggregation/KV Cache/Speculative/Quantization/MoE/Heterogeneous/Multi-LoRA/LiteLLM), Model Mgmt (MLflow/HF/Foundry/Feast/Milvus/Neo4j/DVC), MLOps (Kubeflow/HELM/Guardrails/Langfuse/Arize), Agent (LangGraph/AutoGen/MCP/Temporal/E2B)

L8Data Platform

Ingestion (Kafka/Pulsar/Debezium/Airbyte), Lakehouse (Delta/Iceberg/Hudi/Trino), Processing (Spark/Ray Data/Flink), DataOps (Data Mesh/Contracts/DataHub/Atlan)

L9Storage Software

Parallel FS (Lustre/GPFS/WekaFS/VAST/DAOS), Cloud-Native (Ceph/Rook/OpenEBS/Longhorn/Portworx/MinIO), AI-Specific (GDS/NVMe-oF/Alluxio/JuiceFS/Fluid/CheckFreq)

L10Network Software

SDN/Fabric (UFM/Cumulus/SONiC/FRR/BGP-EVPN/NetBox), K8s Networking (Calico/Cilium/Multus/SR-IOV CNI/RDMA CNI), eBPF, Service Mesh (Istio/Linkerd/Ambient), RDMA/Collective (NCCL/RCCL/oneCCL/SHARP/libfabric/UCX), DCQCN/PFC/ECN

L11Observability

Telemetry (Prometheus/Thanos/Mimir/Loki/Tempo/OpenTelemetry), eBPF (Pixie/Parca/Coroot), GPU (DCGM/Nsight/MFU/PyTorch Profiler), DCIM (EcoStruxure/Vertiv/Sunbird/BACnet), Digital Twin (Omniverse/Cadence Reality), AIOps (Anomaly Detection/Predictive Maintenance/Causal RCA/Self-healing)

L12Security

IAM (Keycloak/Okta/SPIFFE/Vault), Confidential AI (Intel TDX/AMD SEV-SNP/ARM CCA/NVIDIA CC/Keylime/Veraison/FHE/MPC/DP), Supply Chain (SBOM/Sigstore/in-toto/Falco/Tetragon/Trivy/OPA/Kyverno), AI Security (Adversarial/Prompt Injection/PII/Watermarking/C2PA)

L13Developer Experience

IDP (Backstage/Port/Cortex), AI-Native DevEx (JupyterHub/Hex/Deepnote/Claude Code/Cursor/SDD Infra/Coding Agent Infra), Self-Service Portal

L14FinOps

Cost Attribution (per-team/job/token), Showback/Chargeback, Spot/Preemptible, Token Economics, Reserved Capacity, Kubecost/OpenCost/CloudZero/Vantage

L15Service/Product

Service Models (IaaS/CaaS/PaaS/MaaS/AaaS/FaaS for AI), Sovereign (Sovereign Cloud/국내 GPU 자급/데이터 주권/망분리), Ecosystem (Neocloud/Hyperscaler/ISV)

AIDC인가? AI Token Factory 인가?