01 路线A 卖算力
IaaS 组件对比 · Plan A 附录
卖算力 IaaS 侧的关键选型对比。
| 项 | MAAS | Foreman | Cobbler | Tinkerbell |
|---|
| 出品 | Canonical | Red Hat 系 | 老牌 | Equinix Metal |
| 复杂度 | 中 | 中高 | 低 | 中 |
| 支持 OS | 全 | 全 | 全 | 全 |
| DHCP/PXE | ✅ | ✅ | ✅ | ✅ |
| 生命周期管理 | ✅✅ | ✅✅ | 部分 | ✅ |
| 云原生 | 一般 | 一般 | 一般 | ✅✅ |
| 社区活跃 | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ | ⭐⭐⭐ | ⭐⭐⭐ |
决策:v1 用 MAAS(Ubuntu 生态一站式),v3 规模上来可评估 Tinkerbell。
| 方案 | 硬隔离 | 弹性 | 支持卡 | 客户体验 |
|---|
| 物理独占 | 强 | 无 | 全部 | 最好 |
| NVIDIA MIG | 强 | 有限(预分固定切片) | A100/H100/H800 | 好 |
| Time-slicing | 弱 | 高 | 全部 | 中(延迟抖动) |
| vGPU(NVIDIA vComputeServer) | 中 | 中 | 部分 | 好 |
| MPS(Multi-Process Service) | 弱 | 高 | 全部 | 中 |
决策:
- H800 → MIG(1/7、2/7、3/7 等切片)
- 4090 → Time-slicing(消费卡 MIG 不支持)
- 训练 → 物理独占(性能敏感)
| 组件 | 用途 | 备注 |
|---|
| NVIDIA GPU Operator | 驱动 + Device Plugin + DCGM 一站式 | 必装 |
| NVIDIA MIG Manager | MIG 切片自动化 | 与 GPU Operator 配套 |
| Volcano | Gang scheduling、优先级抢占 | 训练场景必需 |
| Kueue | 作业排队 | 更轻量 |
| KubeRay | Ray 集群 | 分布式训练/推理 |
| NVIDIA Nemo | 训练框架 | 选装 |
| kubeflow / Katib | 训练平台 | v2 后可选 |
| 方案 | 场景 | 硬件 | 备注 |
|---|
| VLAN + iptables | v1 单租户单机 | 普通网卡 | 简单 |
| Calico | v2 容器多租户 | 普通网卡 | 主流 |
| Cilium | v3 大规模 | 普通网卡 | eBPF 更快 |
| Multus + SR-IOV | 训练客户 IB / RoCE | ConnectX-6/7 | 必需 |
| RDMA over K8s | 分布式训练 | IB / RoCE 网卡 | 复杂 |
决策:
- v1:VLAN + iptables
- v2:Calico + Multus + SR-IOV(IB 客户)
- v3:Cilium + Multus
| 方案 | 性能 | 弹性 | 成本 | 场景 |
|---|
| 本地 NVMe | ★★★★★ | 无 | 中 | 单机训练 |
| CephFS | ★★★ | 高 | 高 | 传统 HPC |
| JuiceFS | ★★★★ | 高 | 中低(吃对象存储) | 现代云原生 |
| Weka | ★★★★★ | 中 | 高(商业授权) | 高端训练 |
| BeeGFS | ★★★★ | 中 | 中 | HPC 老牌 |
| Lustre | ★★★★★ | 中 | 高 | 超算 |
决策:
- v1:本地 NVMe(简单)
- v2:本地 NVMe + JuiceFS(跨机训练时用)
- v3:+ Weka 或 Lustre(超大训练客户)
| 方案 | 成熟度 | 定制成本 | 场景 |
|---|
| 自研 Python + MySQL | 低 | 低 | v1 |
| Kill Bill(开源) | 中 | 中 | v2 |
| Metronome / Orb | 高 | 高 | 商业 SaaS,海外 |
| 自研 Kafka + Flink + PG | 中 | 中 | v2/v3 |
决策:
- v1:Python 脚本 + MySQL + 手工核对
- v2:Kafka + Flink + PostgreSQL + ClickHouse(分析)
- v3:产品化独立计费引擎
| 组件 | 用途 |
|---|
| Prometheus + Node Exporter | 主机指标 |
| DCGM Exporter | GPU 指标 |
| Grafana | 可视化 |
| Alertmanager → 飞书 / PD | 告警 |
| Loki + Promtail | 日志 |
| Tempo / Jaeger | Trace |
| Blackbox Exporter | 探活 |
| 方案 | 场景 |
|---|
| Harbor | 私有 + 漏洞扫描 |
| Docker Registry | 简单 |
| Nexus | 多制品统一 |
决策:Harbor + Trivy 扫描。
| 项 | v1 | v2 | v3 |
|---|
| 技术栈 | Next.js | Next.js + tRPC | Next.js + tRPC + gRPC |
| 认证 | 邮箱 + 密码 | + OAuth(企业微信/飞书) | + SAML/OIDC 单点 |
| 特性 | 工单 + 账单 | 自助开机 + 监控 + Terraform | 多账号 + 权限 + 审计 |
| 项 | 自研 | 云管平台(如 EasyStack / DaoCloud) |
|---|
| 首次成本 | 高(团队人力) | 中(授权费) |
| 定制性 | 强 | 弱 |
| 上线速度 | 慢 | 快 |
| 长期成本 | 递减 | 递增 |
| 差异化 | 强 | 弱 |
决策:v1/v2 自建轻量方案,v3 视规模评估是否要引入云管厂商产品。
硬件层:H800 x8 单机 + IB 网络 + NVMe
系统层:Ubuntu 22.04 + CUDA 12.4 + NVIDIA Driver
编排层:MAAS 装机(v1)→ K8s + GPU Operator(v2 起)
镜像:Ubuntu 22.04 + PyTorch 2.3 + vLLM 0.6(预置模板)
网络:VLAN + iptables(v1)→ Calico + Multus(v2)
存储:本地 NVMe(v1)→ + JuiceFS(v2)
监控:Prometheus + DCGM + Grafana + Alertmanager
门户:Next.js + Postgres + Redis
计费:Python + MySQL(v1)→ Kafka + Flink + PG(v2)
- NVIDIA 驱动版本锁死:客户镜像和主机驱动 CUDA 版本必须匹配矩阵
- IB 网络配置:ConnectX-7 400G 到位后
mstflint 更新固件,别用默认
- MIG 切分后要重启:MIG 切换需要卡完全空闲,客户在用时不能切
- GPU 温度告警要早:H800 长期 >80°C 会加速老化
- PSU 冗余:8×H800 满载 6kW+,机架电源必须冗余
- NCCL 调优:
NCCL_IB_HCA NCCL_SOCKET_IFNAME 必须显式设
- ECC 错误分级:Uncorrectable 立即隔离机器,correctable 每周巡检
- 客户带宽限速:v1 就要做,防抓量导致 IDC 罚款