IaaS 组件对比 · Plan A 附录

卖算力 IaaS 侧的关键选型对比。

一、裸金属管理

项	MAAS	Foreman	Cobbler	Tinkerbell
出品	Canonical	Red Hat 系	老牌	Equinix Metal
复杂度	中	中高	低	中
支持 OS	全	全	全	全
DHCP/PXE	✅	✅	✅	✅
生命周期管理	✅✅	✅✅	部分	✅
云原生	一般	一般	一般	✅✅
社区活跃	⭐⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐⭐

决策：v1 用 MAAS（Ubuntu 生态一站式），v3 规模上来可评估 Tinkerbell。

二、GPU 虚拟化与切分

方案	硬隔离	弹性	支持卡	客户体验
物理独占	强	无	全部	最好
NVIDIA MIG	强	有限（预分固定切片）	A100/H100/H800	好
Time-slicing	弱	高	全部	中（延迟抖动）
vGPU（NVIDIA vComputeServer）	中	中	部分	好
MPS（Multi-Process Service）	弱	高	全部	中

决策：

H800 → MIG（1/7、2/7、3/7 等切片）
4090 → Time-slicing（消费卡 MIG 不支持）
训练 → 物理独占（性能敏感）

三、K8s 上的 GPU 编排

组件	用途	备注
NVIDIA GPU Operator	驱动 + Device Plugin + DCGM 一站式	必装
NVIDIA MIG Manager	MIG 切片自动化	与 GPU Operator 配套
Volcano	Gang scheduling、优先级抢占	训练场景必需
Kueue	作业排队	更轻量
KubeRay	Ray 集群	分布式训练/推理
NVIDIA Nemo	训练框架	选装
kubeflow / Katib	训练平台	v2 后可选

四、网络方案

方案	场景	硬件	备注
VLAN + iptables	v1 单租户单机	普通网卡	简单
Calico	v2 容器多租户	普通网卡	主流
Cilium	v3 大规模	普通网卡	eBPF 更快
Multus + SR-IOV	训练客户 IB / RoCE	ConnectX-6/7	必需
RDMA over K8s	分布式训练	IB / RoCE 网卡	复杂

决策：

v1：VLAN + iptables
v2：Calico + Multus + SR-IOV（IB 客户）
v3：Cilium + Multus

五、存储方案

方案	性能	弹性	成本	场景
本地 NVMe	★★★★★	无	中	单机训练
CephFS	★★★	高	高	传统 HPC
JuiceFS	★★★★	高	中低（吃对象存储）	现代云原生
Weka	★★★★★	中	高（商业授权）	高端训练
BeeGFS	★★★★	中	中	HPC 老牌
Lustre	★★★★★	中	高	超算

决策：

v1：本地 NVMe（简单）
v2：本地 NVMe + JuiceFS（跨机训练时用）
v3：+ Weka 或 Lustre（超大训练客户）

六、计费系统

方案	成熟度	定制成本	场景
自研 Python + MySQL	低	低	v1
Kill Bill（开源）	中	中	v2
Metronome / Orb	高	高	商业 SaaS，海外
自研 Kafka + Flink + PG	中	中	v2/v3

决策：

v1：Python 脚本 + MySQL + 手工核对
v2：Kafka + Flink + PostgreSQL + ClickHouse（分析）
v3：产品化独立计费引擎

七、监控 & 告警

组件	用途
Prometheus + Node Exporter	主机指标
DCGM Exporter	GPU 指标
Grafana	可视化
Alertmanager → 飞书 / PD	告警
Loki + Promtail	日志
Tempo / Jaeger	Trace
Blackbox Exporter	探活

八、镜像仓库

方案	场景
Harbor	私有 + 漏洞扫描
Docker Registry	简单
Nexus	多制品统一

决策：Harbor + Trivy 扫描。

九、门户 / 控制台

项	v1	v2	v3
技术栈	Next.js	Next.js + tRPC	Next.js + tRPC + gRPC
认证	邮箱 + 密码	+ OAuth（企业微信/飞书）	+ SAML/OIDC 单点
特性	工单 + 账单	自助开机 + 监控 + Terraform	多账号 + 权限 + 审计

十、成本对比：自建 vs 云管平台

项	自研	云管平台（如 EasyStack / DaoCloud）
首次成本	高（团队人力）	中（授权费）
定制性	强	弱
上线速度	慢	快
长期成本	递减	递增
差异化	强	弱

决策：v1/v2 自建轻量方案，v3 视规模评估是否要引入云管厂商产品。

十一、v1 最小可行技术栈总结

硬件层：H800 x8 单机 + IB 网络 + NVMe
系统层：Ubuntu 22.04 + CUDA 12.4 + NVIDIA Driver
编排层：MAAS 装机（v1）→ K8s + GPU Operator（v2 起）
镜像：Ubuntu 22.04 + PyTorch 2.3 + vLLM 0.6（预置模板）
网络：VLAN + iptables（v1）→ Calico + Multus（v2）
存储：本地 NVMe（v1）→ + JuiceFS（v2）
监控：Prometheus + DCGM + Grafana + Alertmanager
门户：Next.js + Postgres + Redis
计费：Python + MySQL（v1）→ Kafka + Flink + PG（v2）

十二、避坑清单

NVIDIA 驱动版本锁死：客户镜像和主机驱动 CUDA 版本必须匹配矩阵
IB 网络配置：ConnectX-7 400G 到位后 mstflint 更新固件，别用默认
MIG 切分后要重启：MIG 切换需要卡完全空闲，客户在用时不能切
GPU 温度告警要早：H800 长期 >80°C 会加速老化
PSU 冗余：8×H800 满载 6kW+，机架电源必须冗余
NCCL 调优：NCCL_IB_HCA NCCL_SOCKET_IFNAME 必须显式设
ECC 错误分级：Uncorrectable 立即隔离机器，correctable 每周巡检
客户带宽限速：v1 就要做，防抓量导致 IDC 罚款

IaaS 组件对比 · Plan A 附录

On this page