场景 S6 · 万卡集群规划
场景 S6 · 万卡集群规划
项目方的终极目标:如果 5 台 5090 的基准测试结果好 → 扩展到万卡。这份文档给万卡级别的技术方案和商业模型。
一、万卡集群定位
规模:10,000 张卡起 投资:15-30 亿人民币(含硬件 + 机房 + 网络 + 团队) 回本周期:18-30 个月 目标:区域头部 AI 算力基础设施(对标 SiliconFlow / Coreweave 中国版)
二、卡型选型(基于 5090 基准数据反推)
选型决策矩阵
| 卡型 | 单价 | 显存 | FP16 TFLOPS | NVLink | 数据中心授权 | 单卡年营收上限 | 推荐 |
|---|---|---|---|---|---|---|---|
| H100 SXM 80G | 25-30 万 | 80GB | 989 | ✅ | ✅ | 30-40 万 | ⭐⭐⭐⭐⭐ |
| H200 SXM 141G | 35-40 万 | 141GB | 989 | ✅ | ✅ | 40-55 万 | ⭐⭐⭐⭐⭐ |
| B200 SXM 192G | 50-60 万 | 192GB | 2200+ | ✅ | ✅ | 60-80 万 | ⭐⭐⭐⭐ 未上市 |
| H800 SXM 80G | 20-25 万 | 80GB | 989 (阉割互联) | ✅ | ✅ | 25-35 万 | ⭐⭐⭐⭐ 已限购 |
| A800 SXM 80G | 8-12 万 | 80GB | 312 | ✅ | ✅ | 15-20 万 | ⭐⭐⭐ 上一代 |
| 昇腾 910C | 20-25 万 | 64GB | ~800 | HCCS | ✅ | 20-30 万 | ⭐⭐⭐⭐ 政策友好 |
| RTX 5090 | 2-3 万 | 32GB | 419 | ❌ | ❌ | 5-8 万 | ⭐⭐ 消费卡不合规 |
| RTX 4090 | 1.5-2 万 | 24GB | 165 | ❌ | ❌ | 3-5 万 | ⭐ 淘汰路线 |
组合建议(万卡)
方案 X:全 H200(推荐)
- 10,000 张 H200 SXM
- 硬件投资:35 亿
- 优势:性能最强,显存大能跑 Qwen3-235B / DeepSeek-V3 满血
- 风险:出口管制风险中等(可能被限)
方案 Y:H100 + 昇腾混合
- 6,000 H100 + 4,000 昇腾 910C
- 硬件投资:24 亿
- 优势:政策安全,昇腾生态起步
- 风险:昇腾生态成熟度追赶期
方案 Z:H800 + 4090 分层
- 3,000 H800(跑大模型 MaaS)+ 7,000 4090(跑小模型 / 抢占实例)
- 硬件投资:18 亿
- 优势:投资最低
- 风险:4090 消费卡合规问题、稳定性
三、目标机房 & 电力
机房要求
- 总功耗:10,000 张 H200 × 700W × PUE 1.3 = 9.1 MW
- 单机架密度:H200 8 卡机 6-8U,单柜 5 台,40 kW/柜 → 需要 227 个高密柜
- 面积:约 3000 平米
- 电力:需要 20MVA 变电站接入
- 冷却:优选液冷(H200 GB200 时代必备)
选址决策
| 地区 | 电价 | 优点 | 缺点 |
|---|---|---|---|
| 内蒙古乌兰察布 | 0.28 | 低电价、政策扶持 | 距客户远、运维成本 |
| 张家口 | 0.35 | 电价好、离北京近 | 电网负荷紧张 |
| 贵州贵安 | 0.38 | 大数据枢纽 | 液冷成熟度 |
| 长三角(无锡/苏州) | 0.55 | 客户密集 | 电价高 |
| 大湾区(深圳/东莞) | 0.55 | 华南客户 | 电价高、机房紧张 |
| 新疆吐鲁番 | 0.25 | 电价最低 | 距离太远 |
| 新加坡 | 1.20 | 出海友好 | 电价 3-4 倍国内 |
推荐:内蒙古 60% + 上海 20% + 深圳 20% 三地布局。
四、网络设计
单机架
- 8 卡机内 NVLink(H200 900GB/s)
- 机架内交换:InfiniBand NDR 400G(每卡一条)
机架间
- Leaf-Spine 拓扑
- Leaf:NVIDIA Quantum-2 QM9700 400G IB × 40 端口
- Spine:QM9700
- 全 IB 400G 无阻塞
跨 Region
- 10Gbps × 4 冗余专线
- 用于同步元数据 + 客户跨 Region 请求
五、软件栈
全局控制面(跨 Region)
┌──────────────────────────────────┐
│ 账号 / 订单 / 门户 / 计费 / 监控 │
└───────────────┬──────────────────┘
│
┌────────────┼────────────┐
│ │ │
Region A Region B Region C
(内蒙古) (上海) (深圳)
│ │ │
┌────▼────┐ ┌────▼────┐ ┌────▼────┐
│ K8s │ │ K8s │ │ K8s │
│ Karmada │ │ Karmada │ │ Karmada │
└─────────┘ └─────────┘ └─────────┘
│ │ │
GPU 集群 GPU 集群 GPU 集群关键组件:
- K8s + Karmada:多集群管理
- Volcano:GPU 调度 + gang scheduling
- NVIDIA GPU Operator:驱动 + DCGM + MIG 一站
- vLLM + SGLang + TRT-LLM 三引擎:分场景推理
- JuiceFS + Weka:分级存储
- Cilium + Multus:网络
- Prometheus + ClickHouse + Grafana:监控 + 分析
- Harbor + Trivy:镜像 + 扫描
- 自研调度器 & 计费引擎(Plan C 混合调度关键)
六、商业目标
12 个月内目标
- 满载出租率:60%(保守)→ 80%(目标)
- 客户结构:Plan A 40% + Plan B 40% + 私有部署 20%
- 月营收:8000 万 → 1.2 亿
- 毛利率:50%
- 团队:150 人
24 个月内目标
- 满载率 85%
- 月营收 1.5 - 2 亿
- ARR:18-24 亿
- 出海:新加坡 / 香港 Region 上线
- 私有部署产品化:接 5-10 个政务 / 金融大单
七、单卡月经济模型(H200)
| 项 | 单卡月成本 |
|---|---|
| 硬件折旧(38 万 / 5 年) | 6,333 |
| 电费(0.9kW × 720 × 0.35 × 1.3) | 295 |
| 机柜(40 卡 / 柜 × 5000 元) | 125 |
| 网络(IB 摊) | 300 |
| 团队分摊(150 人 × 5 万 / 10000 卡) | 750 |
| 带宽 + IDC 服务 | 200 |
| 合计 | 8,003 |
目标营收:15,000-25,000 元 / 卡 / 月 → 毛利率 47-68%
万卡合计:
- 满载营收:1.5-2.5 亿 / 月
- 满载毛利:8000 万 - 1.5 亿 / 月
八、投资节奏
阶段 1(M1-M6): 首批 2000 卡上线
- 硬件采购:8 亿
- 机房建设:2 亿
- 团队 + 运营:2 亿
- 累计投入 12 亿
阶段 2(M7-M12): 扩到 5000 卡
- 追加硬件:10 亿
- 团队扩张:3 亿
- 运营 / 市场:2 亿
- 累计投入 27 亿
阶段 3(M13-M24): 万卡满载
- 追加硬件:15 亿
- 出海布局:3 亿
- 运营 / 客户 acquisition:5 亿
- 累计投入 50 亿
回本判断:
- 万卡满载后年营收 20 亿,毛利 10 亿
- 累计投入 50 亿,5 年内可回本
九、融资 & 退出路径
融资节奏:
- Seed(现在):500-1000 万,做基准测试 + 团队搭建
- A 轮(M6):1-2 亿,首批 2000 卡上线
- B 轮(M12):5-10 亿,扩到 5000 卡
- C 轮(M24):15-25 亿,万卡满载 + 出海
退出选项:
- 大厂并购(阿里 / 腾讯 / 华为):估值 50-100 亿
- 科创板 IPO:估值 80-150 亿
- 港股上市:估值 60-120 亿
十、5090 测试数据 → 万卡决策的映射
基准测试要给出的关键结论:
-
推理毛利率:单卡跑 xx 模型能达到 xx TPS,按售价 xx 元/M token,毛利率 xx% → 决定卡型:如果毛利率 < 40%,选 H100 而非 H200
-
模型选型优先级:15 个模型的性价比排名 → 决定模型清单:万卡阶段优先部署前 5
-
量化必要性:FP8 vs FP16 精度损失和吞吐提升 → 决定量化策略:Blackwell 时代应该全 FP8
-
并发扩展性:单卡最优并发是多少 → 决定实例配额:万卡阶段每卡承接多少客户
-
稳定性风险:72h 高负载崩溃率 → 决定备用容量:万卡阶段冗余多少
-
KV Cache 收益:命中率对成本的影响 → 决定客户合同价:多轮对话客户可以定价更低
-
单 token 边际成本:真实电费+硬件成本 → 决定官方最低定价:不能低于此值
十一、万卡阶段的关键风险
| 风险 | 应对 |
|---|---|
| 卡断供 | 三卡型分层(H200 + 昇腾 + 4090),备胎供应链 |
| 技术过时 | Blackwell → Rubin → Feynman 3 代路线图跟紧 |
| 电价上涨 | 与电网锁 5 年协议,PUE 优化 |
| 合规监管 | AI 生成内容审核 + KYC + 数据本地化 |
| 价格战 | 差异化:私有部署、深度定制、生态 |
| 人才 | 期权池 20%、区域负责人合伙人 |
| 需求萎缩 | 灵活退出:卡池转售、场地转租 |
十二、实操路线图
Phase 0(现在):5 台 5090 基准测试,收集数据 Phase 1(3 个月后):出决策报告,开始融资 Seed Phase 2(6 个月后):租 100 卡 H100 集群实测(不买,验证运维) Phase 3(12 个月后):Seed 融到,2000 卡建 Region 1 Phase 4(18 个月后):A 轮融到,扩 5000 卡 Phase 5(30 个月后):万卡满载,B/C 轮准备退出
Key Milestone:Phase 2 的"租 100 卡实测"是万卡决策的必经步骤,别跳过。5090 数据不足以支撑万卡投资决策。