场景 S0 · 5 台 8×5090 混合定位

✅ 实际配置：5 台机器，每台 8 张 5090，合计 40 张 RTX 5090，总显存 1.28 TB。

这个规模不是小规模验证：跑得动 235B 满血、能做真实 MaaS 商业化、能做万卡决策的实验室。三条路可并行。

一、40 张 5090 能干什么

✅ 现在就能做的（重新评估）

大模型推理（关键突破）：

Qwen3-235B FP8 TP=8：单机 8 卡 32×8=256GB 显存，够跑！（原来以为不行）
DeepSeek-V3 671B FP8 需要 700GB+ 显存，理论上 5 台 × 8 = 40 卡拼接可行，但无 NVLink 会很慢，不推荐生产
DeepSeek-V2 236B FP8 单机 8 卡够
Qwen2.5-72B FP8 单机 8 卡够
Llama-3.1-70B FP8 单机 8 卡够
32B / 14B / 7B 模型：随便跑，一台机能开 4-8 个副本

并发能力：

单机 8×5090 满载 vLLM 跑 32B FP8 → 约 3000-5000 tok/s
5 台机器合计 → 15,000-25,000 tok/s output（32B 单模型）
若跑 7B/14B 小模型或多副本混合负载，月吞吐上限可达 390-650 亿 output tokens

估算商业能力（按混合模型负载、¥5/M 混合价）：

月理论满载营收 20-35 万
60% 利用率 → 12-21 万/月
可以真的做商业化，不是玩票

❌ 仍然不能做的

Plan A 传统企业 IaaS 长租（消费卡合规问题）
分布式训练 100B+ 模型（无 NVLink，通信慢）
需要 80GB+ 单卡显存的极端场景

二、成本盘点

假设：5 台 8×5090 机器，每台配 Intel Xeon 或 AMD EPYC + 512GB DDR5 + 4TB NVMe + 25G 网卡。

单机月成本

项	单机	备注
硬件折旧	~10,000	单机整机 30 万（8×5090 卡 20 万 + 平台 10 万），3 年
电费	~3,250	4.6kW（8×575W）× 24h × 30d × 0.7 × PUE 1.4
机柜（IDC）	2,000	独立柜位
带宽	2,000	100M 独享
运维分摊	3,000	团队 5-8 人 / 5 机
合计	~20,250

5 台合计月成本 ≈ 10 万元

如果放家里/办公室（无 IDC 托管）：

免机柜 - 2,000 = 18,250/机
电费家用可能更高（0.8-1.0 元/度）：+1,000
5 台合计 ≈ 9.6-10 万/月

三、三条路可并行

之前是单选题，现在 40 卡够大，可以并行做三件事：

路线一：Benchmark Lab（30% 资源）

目的：为万卡决策采数据

用 1-2 台专门测试
8 周内跑完 500+ 数据点
产出万卡采购决策报告

路线二：真实 MaaS 商业化（60% 资源）

目的：验证 PMF、有真实收入

用 3 台跑生产 MaaS
OpenAI 兼容 API + 5-8 个模型
目标：3 个月内 100 付费开发者，月流水 3-8 万

路线三：私有部署 / 内部使用（10% 资源）

目的：给项目方自身 / 关联团队用

微调、试验、内部工具
有闲置能力时消化任务

四、机器分工建议

机器	用途	部署
M1：8×5090	生产 MaaS - 大模型主力	Qwen3-72B FP8 TP=8 单副本
M2：8×5090	生产 MaaS - 中型模型	4 副本 × (Qwen2.5-32B FP8 TP=2)
M3：8×5090	生产 MaaS - 小型模型	8 副本 × 单卡（14B / 9B / 嵌入 / 视觉）
M4：8×5090	Benchmark 测试专用	每天跑新组合，不上生产
M5：8×5090	弹性池 + 微调训练	LoRA / QLoRA 训练 + 抢占实例

五、模型清单（生产 MaaS 建议）

模型	卡数	定位	定价参考
Qwen3-72B / DeepSeek-V2-236B	单机 8 卡	旗舰对话	¥3/M in ¥8/M out
Qwen2.5-32B / GLM-4-32B	TP=2 (2 卡)	中端主力	¥1.5/M in ¥5/M out
DeepSeek-Coder-V2-Lite / Qwen2.5-Coder-14B	单卡	代码	¥1.5/M in ¥6/M out
Qwen2.5-14B / GLM-4-9B	单卡	快速对话	¥0.8/M in ¥3/M out
BGE-M3 / Qwen3-Embedding	单卡（共享）	嵌入	¥0.5/M
Qwen2-VL-7B / InternVL2-8B	单卡	视觉	¥2/M in ¥8/M out

关键：单机 8 卡跑一个 72B 模型 vs 8 个独立 7B/14B 实例，二者的营收/资源效率完全不同，需要实测选择。

六、真实商业化目标

3 个月目标（保守）

20 个付费开发者
月流水 0.3-0.5 万
跑通商业化闭环

6 个月目标（正常）

50-100 个付费开发者
月流水 0.8-1.5 万
探索提价或高利用率模型

12 个月目标（乐观）

300+ 付费开发者，10-20 个企业客户
月流水 3-5 万
有能力融 Seed，扩到 20 台机器 / 160 卡

这个规模可以拿融资讲故事了（ARR 40-60 万，进入 Seed 融资门槛）。

七、8 周落地计划

第 1 周：

5 台机器组网（Mellanox / 交换机 25G）
Ubuntu 24.04 + CUDA 12.6 + Driver 565+
Docker + K8s 集群搭起（哪怕单节点）

第 2 周：

vLLM / SGLang 部署到 M1-M3
主流 6 个模型跑通
简单 OpenAI 兼容网关（FastAPI）

第 3 周：

计费 + 限流（Redis + PostgreSQL）
用户注册 / API Key 管理
支付集成（Stripe 或国内 Ping++）

第 4 周：

5 个种子开发者内测
修 bug
M4 开始基准测试

第 5-6 周：

正式对外开放
免费额度拉新（每人 100 万 tokens/月）
内容营销（技术博客 + 开发者社区推广）

第 7 周：

收集第一批数据
定价优化
M4 基准测试出第一波报告

第 8 周：

收入 breakeven
决定加卡 / 融资 / 转 SaaS 应用

八、40 卡混合 Plan C 设计

优先级层级：

P0：私有微调客户 / 关联团队使用（10% 资源）
P1：Plan B 保障 API（60% 资源，付费客户）
P2：Plan B 抢占 API（20% 资源，异步任务 3 折）
P3：Benchmark 测试（10% 资源）

调度规则：

P1 峰值时可抢占 P2
P3 只在夜间跑（避开高峰）
P0 永远独占资源，不参与共享

九、关键坑（40 卡规模）

网络：5 台机器互联至少 25G，跨机 TP 会瓶颈
散热：40 卡满载 20kW+ 热量，机箱 + 机柜 + 房间空调都要跟上
电力：单机 4.6kW 峰值，家用/办公 220V 20A 只能跑 3 台 → 需要工业电或分散布点
驱动稳定性：Blackwell 驱动 565+ 有些坑，锁定版本
NVIDIA 授权：40 张消费卡对外做 API 服务，低调 → 不上首页官网，只做技术社区
模型选型陷阱：跑 Qwen3-72B 满血听起来爽，但客户可能更愿意付 32B 的钱 → 数据说话
合规：AI 生成内容备案（境内提供服务） + 内容审核

十、重新判断

这个规模（40 卡 5090）三件事都值得做：

主线：真实商业化 — 6-12 个月做出月流水 12-20 万的 API 生意，为万卡融资铺路
辅线：Benchmark Lab — 8 周内出万卡采购决策报告
备线：私有服务 — 关联团队 / 内部使用消化闲置

万卡路径依然清晰：

40 卡 5090 商业化验证（3-6 月）
  ↓ 有月流水 20 万+
Seed 融资 5000 万-1 亿（8 月）
  ↓
80-160 卡 5090 或转 H100 100 卡（12 月）
  ↓ 验证运维 + 卡型
A 轮融资 2-5 亿（18 月）
  ↓
2000 卡 H200（24 月）
  ↓
万卡集群（36 月）

核心 insight：40 张 5090 是"能做小规模真实商业化的最小规模"，不再是玩具。项目方这 3 个月要做的是先跑真实收入，不是纯测试。

下一步建议：补充生产 MaaS 的技术栈、部署清单与定价页面草稿，并在 S0-production-plan/ 子目录中明确 M1-M5 每台机器的配置、模型、监控与计费。

场景 S0 · 5 台 8×5090 混合定位

On this page