GPU Compute Plans
04 场景演算

场景 S0 · 5 台 8×5090 混合定位

场景 S0 · 5 台 8×5090 混合定位

✅ 实际配置:5 台机器,每台 8 张 5090,合计 40 张 RTX 5090,总显存 1.28 TB

这个规模不是小规模验证:跑得动 235B 满血、能做真实 MaaS 商业化、能做万卡决策的实验室。三条路可并行

一、40 张 5090 能干什么

✅ 现在就能做的(重新评估)

大模型推理(关键突破):

  • Qwen3-235B FP8 TP=8:单机 8 卡 32×8=256GB 显存,够跑!(原来以为不行)
  • DeepSeek-V3 671B FP8 需要 700GB+ 显存,理论上 5 台 × 8 = 40 卡拼接可行,但无 NVLink 会很慢,不推荐生产
  • DeepSeek-V2 236B FP8 单机 8 卡够
  • Qwen2.5-72B FP8 单机 8 卡够
  • Llama-3.1-70B FP8 单机 8 卡够
  • 32B / 14B / 7B 模型:随便跑,一台机能开 4-8 个副本

并发能力

  • 单机 8×5090 满载 vLLM 跑 32B FP8 → 约 3000-5000 tok/s
  • 5 台机器合计 → 15,000-25,000 tok/s output(32B 单模型)
  • 若跑 7B/14B 小模型或多副本混合负载,月吞吐上限可达 390-650 亿 output tokens

估算商业能力(按混合模型负载、¥5/M 混合价):

  • 月理论满载营收 20-35 万
  • 60% 利用率 → 12-21 万/月
  • 可以真的做商业化,不是玩票

❌ 仍然不能做的

  • Plan A 传统企业 IaaS 长租(消费卡合规问题)
  • 分布式训练 100B+ 模型(无 NVLink,通信慢)
  • 需要 80GB+ 单卡显存的极端场景

二、成本盘点

假设:5 台 8×5090 机器,每台配 Intel Xeon 或 AMD EPYC + 512GB DDR5 + 4TB NVMe + 25G 网卡。

单机月成本

单机备注
硬件折旧~10,000单机整机 30 万(8×5090 卡 20 万 + 平台 10 万),3 年
电费~3,2504.6kW(8×575W)× 24h × 30d × 0.7 × PUE 1.4
机柜(IDC)2,000独立柜位
带宽2,000100M 独享
运维分摊3,000团队 5-8 人 / 5 机
合计~20,250

5 台合计月成本 ≈ 10 万元

如果放家里/办公室(无 IDC 托管)

  • 免机柜 - 2,000 = 18,250/机
  • 电费家用可能更高(0.8-1.0 元/度):+1,000
  • 5 台合计 ≈ 9.6-10 万/月

三、三条路可并行

之前是单选题,现在 40 卡够大,可以并行做三件事

路线一:Benchmark Lab(30% 资源)

目的:为万卡决策采数据

  • 用 1-2 台专门测试
  • 8 周内跑完 500+ 数据点
  • 产出万卡采购决策报告

路线二:真实 MaaS 商业化(60% 资源)

目的:验证 PMF、有真实收入

  • 用 3 台跑生产 MaaS
  • OpenAI 兼容 API + 5-8 个模型
  • 目标:3 个月内 100 付费开发者,月流水 3-8 万

路线三:私有部署 / 内部使用(10% 资源)

目的:给项目方自身 / 关联团队用

  • 微调、试验、内部工具
  • 有闲置能力时消化任务

四、机器分工建议

机器用途部署
M1:8×5090生产 MaaS - 大模型主力Qwen3-72B FP8 TP=8 单副本
M2:8×5090生产 MaaS - 中型模型4 副本 × (Qwen2.5-32B FP8 TP=2)
M3:8×5090生产 MaaS - 小型模型8 副本 × 单卡(14B / 9B / 嵌入 / 视觉)
M4:8×5090Benchmark 测试专用每天跑新组合,不上生产
M5:8×5090弹性池 + 微调训练LoRA / QLoRA 训练 + 抢占实例

五、模型清单(生产 MaaS 建议)

模型卡数定位定价参考
Qwen3-72B / DeepSeek-V2-236B单机 8 卡旗舰对话¥3/M in ¥8/M out
Qwen2.5-32B / GLM-4-32BTP=2 (2 卡)中端主力¥1.5/M in ¥5/M out
DeepSeek-Coder-V2-Lite / Qwen2.5-Coder-14B单卡代码¥1.5/M in ¥6/M out
Qwen2.5-14B / GLM-4-9B单卡快速对话¥0.8/M in ¥3/M out
BGE-M3 / Qwen3-Embedding单卡(共享)嵌入¥0.5/M
Qwen2-VL-7B / InternVL2-8B单卡视觉¥2/M in ¥8/M out

关键:单机 8 卡跑一个 72B 模型 vs 8 个独立 7B/14B 实例,二者的营收/资源效率完全不同,需要实测选择。

六、真实商业化目标

3 个月目标(保守)

  • 20 个付费开发者
  • 月流水 0.3-0.5 万
  • 跑通商业化闭环

6 个月目标(正常)

  • 50-100 个付费开发者
  • 月流水 0.8-1.5 万
  • 探索提价或高利用率模型

12 个月目标(乐观)

  • 300+ 付费开发者,10-20 个企业客户
  • 月流水 3-5 万
  • 有能力融 Seed,扩到 20 台机器 / 160 卡

这个规模可以拿融资讲故事了(ARR 40-60 万,进入 Seed 融资门槛)。

七、8 周落地计划

第 1 周

  • 5 台机器组网(Mellanox / 交换机 25G)
  • Ubuntu 24.04 + CUDA 12.6 + Driver 565+
  • Docker + K8s 集群搭起(哪怕单节点)

第 2 周

  • vLLM / SGLang 部署到 M1-M3
  • 主流 6 个模型跑通
  • 简单 OpenAI 兼容网关(FastAPI)

第 3 周

  • 计费 + 限流(Redis + PostgreSQL)
  • 用户注册 / API Key 管理
  • 支付集成(Stripe 或国内 Ping++)

第 4 周

  • 5 个种子开发者内测
  • 修 bug
  • M4 开始基准测试

第 5-6 周

  • 正式对外开放
  • 免费额度拉新(每人 100 万 tokens/月)
  • 内容营销(技术博客 + 开发者社区推广)

第 7 周

  • 收集第一批数据
  • 定价优化
  • M4 基准测试出第一波报告

第 8 周

  • 收入 breakeven
  • 决定加卡 / 融资 / 转 SaaS 应用

八、40 卡混合 Plan C 设计

优先级层级

  • P0:私有微调客户 / 关联团队使用(10% 资源)
  • P1:Plan B 保障 API(60% 资源,付费客户)
  • P2:Plan B 抢占 API(20% 资源,异步任务 3 折)
  • P3:Benchmark 测试(10% 资源)

调度规则

  • P1 峰值时可抢占 P2
  • P3 只在夜间跑(避开高峰)
  • P0 永远独占资源,不参与共享

九、关键坑(40 卡规模)

  1. 网络:5 台机器互联至少 25G,跨机 TP 会瓶颈
  2. 散热:40 卡满载 20kW+ 热量,机箱 + 机柜 + 房间空调都要跟上
  3. 电力:单机 4.6kW 峰值,家用/办公 220V 20A 只能跑 3 台 → 需要工业电或分散布点
  4. 驱动稳定性:Blackwell 驱动 565+ 有些坑,锁定版本
  5. NVIDIA 授权:40 张消费卡对外做 API 服务,低调 → 不上首页官网,只做技术社区
  6. 模型选型陷阱:跑 Qwen3-72B 满血听起来爽,但客户可能更愿意付 32B 的钱 → 数据说话
  7. 合规:AI 生成内容备案(境内提供服务) + 内容审核

十、重新判断

这个规模(40 卡 5090)三件事都值得做

  1. 主线:真实商业化 — 6-12 个月做出月流水 12-20 万的 API 生意,为万卡融资铺路
  2. 辅线:Benchmark Lab — 8 周内出万卡采购决策报告
  3. 备线:私有服务 — 关联团队 / 内部使用消化闲置

万卡路径依然清晰

40 卡 5090 商业化验证(3-6 月)
  ↓ 有月流水 20 万+
Seed 融资 5000 万-1 亿(8 月)

80-160 卡 5090 或转 H100 100 卡(12 月)
  ↓ 验证运维 + 卡型
A 轮融资 2-5 亿(18 月)

2000 卡 H200(24 月)

万卡集群(36 月)

核心 insight:40 张 5090 是"能做小规模真实商业化的最小规模",不再是玩具。项目方这 3 个月要做的是先跑真实收入,不是纯测试

下一步建议:补充生产 MaaS 的技术栈、部署清单与定价页面草稿,并在 S0-production-plan/ 子目录中明确 M1-M5 每台机器的配置、模型、监控与计费。

On this page