GPU Compute Plans
01 路线A 卖算力

Plan A · v2 · Container 版本

Plan A · v2 · Container 版本

目标:K8s 化算力池,支持容器分租,1 台机可拆给多个客户。
定位:v1 稳定后 3-4 个月过渡,服务开始规模化。

1. 相比 v1 的关键升级

维度v1v2
交付形态整机裸金属整机 / K8s Pod / VM 三选一
最小粒度8 卡起租1 卡起租(MIG 后 1/7 卡起)
调度手工Kubernetes + kube-scheduler
计费粒度日结整机分钟级卡时 + 存储 + 流量
门户工单自助创建/销毁实例
多租户单机单客户单机 N 客户
网络隔离VLANCalico + NetworkPolicy
存储本地 NVMe本地 + CephFS / JuiceFS

2. 架构升级

                          客户 API / 门户

                    ┌─────────▼─────────┐
                    │   订单 & 计费      │
                    │   商业化计费系统    │
                    └─────────┬─────────┘

                    ┌─────────▼─────────┐
                    │   K8s API Server  │
                    └─────────┬─────────┘

     ┌────────────────────────┼────────────────────────┐
     │                        │                        │
┌────▼────┐              ┌────▼────┐              ┌────▼────┐
│  节点池 1 │              │  节点池 2 │              │  节点池 3 │
│  H800 x8 │              │  A100 x8 │              │  4090 x8 │
│  裸金属  │              │  MIG 切分 │              │  容器化  │
└─────────┘              └─────────┘              └─────────┘

                    ┌─────────▼─────────┐
                    │  共享存储           │
                    │  CephFS / JuiceFS  │
                    └────────────────────┘

3. 关键组件升级

组件v1v2决策
调度手工K8s + VolcanoVolcano 支持 gang scheduling,适合训练
GPU 分片NVIDIA MIG + time-slicingMIG 硬隔离,time-slice 软共享
网络VLANCalico + Multus (SR-IOV)多网卡对 IB / RoCE 必需
存储本地 NVMe+ JuiceFS / CephFS支持跨机训练
镜像静态 Ubuntu+ Harbor 镜像仓库客户可自定义镜像
计费Python + MySQLKafka + Flink + PG秒级采集,分钟级出账
门户简单工单自助控制台 + Terraform provider大客户要 IaC
网络策略iptablesNetworkPolicy + eBPF防租户互扫

4. 计费模型升级

多维度组合计费

维度单位计价
GPU 时长分钟按卡型
CPU + 内存核·分钟 / GB·分钟独立计价
本地 NVMeGB·分钟独立计价
共享存储GB·分钟独立计价
出向流量GB阶梯计价

新增计费类型

  • 按需:随开随停,价格 1.0×
  • 月付:包月锁量,0.7×
  • 抢占:可被回收,0.35×(喂给 Plan B 用)

5. 关键难点

难点应对
GPU 隔离MIG 硬隔离首选;time-slicing 只用于低优先级
KV cache 泄露每次容器销毁前 nvidia-smi -r 强制复位
网络抓包Multus + SR-IOV + NetworkPolicy 三重隔离
抢占实例回收提前 30s 通知客户,PreStopHook 保存 checkpoint
计费准确每分钟落一次 usage_record,事后可核对

6. 关键新特性

1. 竞价市场(v2 就要有)

  • 客户提交出价 → 有资源就跑,无资源等
  • 价格自动波动:当前空置率 > 30% 就降价 20%
  • 卖不掉的算力自动灌进 Plan B 侧

2. 训练任务模板

  • 一键提交 LLaMA-Factory / DeepSpeed / Megatron 任务
  • 客户不用自己配 nccl / RDMA

3. 客户自定义镜像

  • 客户可 push 私有镜像到 Harbor
  • 平台预扫恶意软件

7. 里程碑(12 周)

阶段周次交付
阶段 1W1-W4K8s 集群 + GPU Operator + MIG 打通
阶段 2W5-W6Volcano + 训练任务模板
阶段 3W7-W8竞价市场 + 抢占实例
阶段 4W9-W10客户自助门户 + Terraform
阶段 5W11-W12灰度 20 客户,双跑 v1/v2

8. v2 单机经济模型对比 v1

同样 8×H800 单机,成本相同(≈72,192 元/月):

场景出租率计费方式月营收毛利
v1 整租满租100%整机 20 万/月200,00064%
v1 整租空 40%60%整机120,00040%
v2 混合租85%(分租)+ 15%(灌 B)灵活210,00066%
v2 全喂 B 抢占100%Plan B 侧算240,000+70%+

核心 insight:v2 之后一台机器不会真的"空置",闲的时候永远在给 MaaS 生成 token,只不过按抢占实例价打折。

9. 组件对比(选型附录)

9.1 GPU 编排:K8s vs Slurm

Kubernetes + VolcanoSlurm
生态云原生标准HPC 老牌
弹性强(HPA、Cluster Autoscaler)
训练兼容需 MPI Operator / KubeRay原生
学习曲线高(脚本文化)
客户熟悉度AI 团队更熟科研团队更熟

决策:主推 K8s,科研客户单独给 Slurm 集群。

9.2 存储:Ceph vs JuiceFS vs 云原生

CephFSJuiceFSWeka
部署难度
性能
成本硬件成本高依赖对象存储商业授权贵
数据本地性可开缓存

决策:v2 上 JuiceFS + S3 兼容对象存储,成本可控;Weka 留给 v3。

9.3 网络:Calico vs Cilium

CalicoCilium
eBPF部分全 eBPF
NetworkPolicy支持支持 + 更细
服务网格Hubble
性能更强

决策:Cilium 更现代,但运维复杂;v2 先 Calico,v3 再评估切换。

10. 风险清单

  • 从 v1 迁移过来的老客户是否愿意上 K8s(可能要长期双轨)
  • MIG 只有 H100/H800/A100 80G 支持
  • 训练客户对 IB 网络苛刻,K8s + Multus 学习成本高
  • 计费复杂度暴增,第一个月账单一定要人肉核对

On this page