그 설정, 다른 모델에서도 통한다. 거의. — vLLM Performance · Engineering Notes vLLM Performance · Engineering Notes — 2편 그 설정, 다른 모델에서도 통한다. 거의. 전편에서 정리한 suffix 구성을 10개
글쓰기, 여행, 프로그래밍, 리뷰
그 설정, 다른 모델에서도 통한다. 거의. — vLLM Performance · Engineering Notes vLLM Performance · Engineering Notes — 2편 그 설정, 다른 모델에서도 통한다. 거의. 전편에서 정리한 suffix 구성을 10개
Classical IDC에서 AIDC로 — 16-Layer 패러다임 전환 Uptime을 임대하던 부동산이 → tokens/watt를 생산하는 공장이 되었다 Classical IDC와 AIDC는 같은 단어 두 개로 묶이지만, 전력·냉각·네트워크·운영 KPI가 사실상 다른 운영 체계다 —
vLLM Performance · Engineering Notes 코드 한 줄 고치지 않고, vLLM에 이미 들어 있는 내장 설정만으로 Llama-3.3-70B 추론을 6개 워크로드 전부 가속한 156셀 측정 리포트. ────────────────────────────────────── vLLM 소스에는 손대지 않았다.
AI 개발에 대규모 GPU는 필수적인 요소로 간주된다. 한국 정부는 2025년 초 부족한 GPU를 공공 인프라 형태로 제공할 계획을 발표하였다. 이 시리즈의 핵심 주제이기도 하다. 그런데 국내외적으로 다양한 설계를 기반으로 다양한