GPU Compute Plans
01 路线A 卖算力

IaaS 组件对比 · Plan A 附录

IaaS 组件对比 · Plan A 附录

卖算力 IaaS 侧的关键选型对比。

一、裸金属管理

MAASForemanCobblerTinkerbell
出品CanonicalRed Hat 系老牌Equinix Metal
复杂度中高
支持 OS
DHCP/PXE
生命周期管理✅✅✅✅部分
云原生一般一般一般✅✅
社区活跃⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐

决策:v1 用 MAAS(Ubuntu 生态一站式),v3 规模上来可评估 Tinkerbell。

二、GPU 虚拟化与切分

方案硬隔离弹性支持卡客户体验
物理独占全部最好
NVIDIA MIG有限(预分固定切片)A100/H100/H800
Time-slicing全部中(延迟抖动)
vGPU(NVIDIA vComputeServer)部分
MPS(Multi-Process Service)全部

决策

  • H800 → MIG(1/7、2/7、3/7 等切片)
  • 4090 → Time-slicing(消费卡 MIG 不支持)
  • 训练 → 物理独占(性能敏感)

三、K8s 上的 GPU 编排

组件用途备注
NVIDIA GPU Operator驱动 + Device Plugin + DCGM 一站式必装
NVIDIA MIG ManagerMIG 切片自动化与 GPU Operator 配套
VolcanoGang scheduling、优先级抢占训练场景必需
Kueue作业排队更轻量
KubeRayRay 集群分布式训练/推理
NVIDIA Nemo训练框架选装
kubeflow / Katib训练平台v2 后可选

四、网络方案

方案场景硬件备注
VLAN + iptablesv1 单租户单机普通网卡简单
Calicov2 容器多租户普通网卡主流
Ciliumv3 大规模普通网卡eBPF 更快
Multus + SR-IOV训练客户 IB / RoCEConnectX-6/7必需
RDMA over K8s分布式训练IB / RoCE 网卡复杂

决策

  • v1:VLAN + iptables
  • v2:Calico + Multus + SR-IOV(IB 客户)
  • v3:Cilium + Multus

五、存储方案

方案性能弹性成本场景
本地 NVMe★★★★★单机训练
CephFS★★★传统 HPC
JuiceFS★★★★中低(吃对象存储)现代云原生
Weka★★★★★高(商业授权)高端训练
BeeGFS★★★★HPC 老牌
Lustre★★★★★超算

决策

  • v1:本地 NVMe(简单)
  • v2:本地 NVMe + JuiceFS(跨机训练时用)
  • v3:+ Weka 或 Lustre(超大训练客户)

六、计费系统

方案成熟度定制成本场景
自研 Python + MySQLv1
Kill Bill(开源)v2
Metronome / Orb商业 SaaS,海外
自研 Kafka + Flink + PGv2/v3

决策

  • v1:Python 脚本 + MySQL + 手工核对
  • v2:Kafka + Flink + PostgreSQL + ClickHouse(分析)
  • v3:产品化独立计费引擎

七、监控 & 告警

组件用途
Prometheus + Node Exporter主机指标
DCGM ExporterGPU 指标
Grafana可视化
Alertmanager → 飞书 / PD告警
Loki + Promtail日志
Tempo / JaegerTrace
Blackbox Exporter探活

八、镜像仓库

方案场景
Harbor私有 + 漏洞扫描
Docker Registry简单
Nexus多制品统一

决策:Harbor + Trivy 扫描。

九、门户 / 控制台

v1v2v3
技术栈Next.jsNext.js + tRPCNext.js + tRPC + gRPC
认证邮箱 + 密码+ OAuth(企业微信/飞书)+ SAML/OIDC 单点
特性工单 + 账单自助开机 + 监控 + Terraform多账号 + 权限 + 审计

十、成本对比:自建 vs 云管平台

自研云管平台(如 EasyStack / DaoCloud)
首次成本高(团队人力)中(授权费)
定制性
上线速度
长期成本递减递增
差异化

决策:v1/v2 自建轻量方案,v3 视规模评估是否要引入云管厂商产品。

十一、v1 最小可行技术栈总结

硬件层:H800 x8 单机 + IB 网络 + NVMe
系统层:Ubuntu 22.04 + CUDA 12.4 + NVIDIA Driver
编排层:MAAS 装机(v1)→ K8s + GPU Operator(v2 起)
镜像:Ubuntu 22.04 + PyTorch 2.3 + vLLM 0.6(预置模板)
网络:VLAN + iptables(v1)→ Calico + Multus(v2)
存储:本地 NVMe(v1)→ + JuiceFS(v2)
监控:Prometheus + DCGM + Grafana + Alertmanager
门户:Next.js + Postgres + Redis
计费:Python + MySQL(v1)→ Kafka + Flink + PG(v2)

十二、避坑清单

  1. NVIDIA 驱动版本锁死:客户镜像和主机驱动 CUDA 版本必须匹配矩阵
  2. IB 网络配置:ConnectX-7 400G 到位后 mstflint 更新固件,别用默认
  3. MIG 切分后要重启:MIG 切换需要卡完全空闲,客户在用时不能切
  4. GPU 温度告警要早:H800 长期 >80°C 会加速老化
  5. PSU 冗余:8×H800 满载 6kW+,机架电源必须冗余
  6. NCCL 调优NCCL_IB_HCA NCCL_SOCKET_IFNAME 必须显式设
  7. ECC 错误分级:Uncorrectable 立即隔离机器,correctable 每周巡检
  8. 客户带宽限速:v1 就要做,防抓量导致 IDC 罚款

On this page