GPU Compute Plans

GPU 算力商业化最终报告

GPU 算力商业化最终报告

调研范围:/Users/aaron/Documents/GPU-Compute-Plans 全部 53 份文档 报告时间:2026-07-05 定位:对“从 40 卡 RTX 5090 到万卡 AI 云集群”全生命周期的综合提炼


一、执行摘要

本项目是一套面向 GPU 算力商业化的完整运营手册,作者绒绒(OpenClaw),覆盖商业模式、部署路径、运营体系、财务模型、安全合规、销售获客、组织架构、融资退出与风险管理等 12 个维度。

核心结论:

  1. 推荐路线:Plan C(混合模式)。底层算力共池,同时经营 IaaS 长租与 MaaS API,可将空置率风险转化为低价/抢占收入,综合毛利率 35–55%,抗风险能力最强。
  2. 当前抓手:40 卡 5090 不是玩具,而是真实商业化起点。5 台 × 8 卡 = 40 卡,总显存 1.28 TB,可跑 Qwen3-235B FP8 单机,月理论营收上限 20–35 万,实际 60% 利用率可做到 12–21 万。
  3. 三件事情要并行:60% 资源跑真实 MaaS 商业化、30% 做万卡决策的 Benchmark Lab、10% 私有/内部使用。
  4. 万卡路径清晰但不可跳过步骤:40 卡验证(3–6 月)→ Seed 5000 万–1 亿 → 80–160 卡或 100 H100(12 月)→ A 轮 2–5 亿 → 2000 卡 H200(24 月)→ 万卡(36 月)。Phase 2 必须“租 100 卡 H100 实测”,5090 数据不足以支撑万卡采购。
  5. 护城河在 AI 安全 + 中立第三方 + 企业服务:复用 OpenClaw Security Console 现有资产,做 Prompt 注入/越狱/RAG 污染/MCP Agent 安全,是国内 MaaS 最稀缺的差异化能力。

二、商业模式:三条路线对比

维度Plan A:卖算力 IaaSPlan B:卖 Token MaaSPlan C:混合模式(推荐)
商业模式按卡时/卡月租用按 token / 请求计费底层共池,双产品线
主要客户训练团队、科研、渲染AI 应用开发者、SaaS两类都覆盖
毛利率20–35%50–70%35–55% 综合
上线周期2–3 个月1–2 个月1 个月 B + 2 个月 A
客户粘性低(价格战)中高(API 集成)中高
议价能力中强
主要风险空置率、电费波动模型迭代、token 定价战调度复杂度
核心护城河供应链 + 长约客户推理工程 + 模型速度弹性调度 + 客户组合

快速决策树: 有闲置卡 → 客户结构决定路径 → 大 B 训练选 A、应用开发者选 B、两者都有 90% 情况选 C。

三个关键判断:

  • 电价 < 0.35 元/度 → Plan A 有利润空间;
  • 30 天内能吃下所有算力的大客户 → 先做 A;
  • 有推理优化团队 → Plan B/C 有竞争力。

三、三条路线的演进节奏

Plan A:卖算力 IaaS

阶段交付形态关键升级周期
v1单机整租 / 裸金属MAAS 装机、按天/月计费、工单制8 周
v2K8s 容器分租1 卡起租、MIG/Time-slicing、Volcano 调度、竞价市场12 周
v3跨区域规模化多 Region、Karmada、多币种、灾备、私有部署6–12 月
  • v1 单机 8×H800 月成本 ≈ 7.2 万,满租 20 万/月,但 60% 出租率毛利仅 28%;
  • v2 通过混合租 + 抢占灌 Plan B,毛利可提到 66%;
  • v3 规模化指标:单卡月营收 ≥ 1.5 万、出租率 ≥ 85%、毛利率 ≥ 45%。

Plan B:卖 Token MaaS

阶段模型数引擎关键特性单机月营收(8×H800)
v13–5 个vLLMOpenAI 兼容 API、按 token 计费6.2 万
v215–25 个vLLM + SGLang + TRT-LLM智能路由、prefix cache、抢占 3 折、批量 API15–19 万
v310000+(含社区)多引擎模型市场、微调工作室、Agent/RAG 托管、应用商店生态 GMV 30%+
  • v1 目标 6 周上线;
  • v2 是核心提效阶段,同一台机器营收从 6 万拉到 15–19 万,靠软件工程;
  • v3 不建议早做,需“营收 5000 万/年 + 开发者过万”再启动。

引擎选型结论: vLLM 是 must-have(70% 请求),SGLang 补长上下文/结构化输出(20%),TRT-LLM 谨慎选(低延迟小模型),TGI 别用。

Plan C:混合模式(首推)

优先级设计:

  • P0:IaaS 长租客户,不可抢占,SLA 99.9%;
  • P1:MaaS 保障 API,付费用户默认;
  • P2:Plan A 抢占实例 + 弹性训练,3–4 折,30s grace;
  • P3:Plan B 抢占 API + 批量任务,3–5 折。

核心约束: P0 + P1 总量 ≤ 物理容量 80%,预留 20% 弹性;P2/P3 跑剩余容量。

经济模型(单机 8×H800,月成本 7.2 万):

  • 纯 A 满租:20 万营收,64% 毛利;
  • 纯 A 60% 出租:12 万营收,40% 毛利;
  • Plan C 混合:16–22 万营收,50–70% 毛利。

实施节奏: M1–M3 逻辑分区 → M4–M6 算力池化 → M7–M9 完整动态调度 → M10–M12 抢占市场化。


四、当前实际场景:40 卡 RTX 5090

硬件能力

  • 5 台 × 8 卡 RTX 5090,合计 40 卡,总显存 1.28 TB
  • 可单机跑 Qwen3-235B FP8、DeepSeek-V2 236B FP8、Qwen2.5-72B FP8;
  • 不建议跑 DeepSeek-V3 671B(无 NVLink,跨机通信慢);
  • 单机满载 32B FP8 约 3000–5000 tok/s,5 台合计 1.5–2.5 万 tok/s。

成本

单机月成本 ≈ 2.4 万,5 台合计 ≈ 12 万/月(硬件折旧 1 万 + 电费 0.7 万 + 机柜 0.2 万 + 带宽 0.2 万 + 运维分摊 0.3 万)。

机器分工

机器用途部署
M1生产 MaaS 旗舰Qwen3-72B FP8 TP=8 单副本
M2生产 MaaS 中型主力4 副本 × Qwen2.5-32B FP8 TP=2
M3生产 MaaS 小型舰队8 副本 × 单卡(14B/9B/嵌入/视觉)
M4Benchmark 测试专用8 周跑 500+ 数据点
M5弹性池 + 微调LoRA/QLoRA + Spot API

商业化目标

时点付费开发者月流水净利
3 个月20 人3–5 万接近覆盖成本
6 个月50–100 人8–15 万5–8 万
12 个月300+ + 10–20 企业30–50 万可融 Seed

8 周落地计划

  • W1:组网、Ubuntu 24.04 + CUDA 12.6 + Driver 565+、K8s 集群;
  • W2:vLLM/SGLang 部署 M1–M3,跑通 6 个模型,FastAPI 网关;
  • W3:计费 + 限流 + 用户注册/API Key + 支付;
  • W4:5 个种子开发者内测,M4 开始基准测试;
  • W5–W6:正式开放、免费额度拉新、内容营销;
  • W7:收集数据、定价优化、M4 出第一波报告;
  • W8:收入 breakeven、决定加卡/融资/转 SaaS。

五、规模化场景路径

场景规模月成本月营收目标毛利率回本周期主导策略
S0 实际40 卡 509012 万12–50 万30–60%视节奏MaaS 60% + Benchmark 30%
S1 创业起步100 卡 H800112 万132–160 万20–30%24–36 月Plan C 均衡
S2 中型混合500 卡混合363 万560 万~47%12–15 月Plan C 均衡
S3 跨区域1000 卡835 万1450 万~48%8–12 月Plan C + 私有部署
S4 国内自持200 卡昇腾285 万320 万12%现金流/85%综合3–5 年Plan A + 内部平台
S5 东南亚出海300 卡 H100445 万600 万~50%15–18 月Plan B 主打
S6 万卡目标10000 卡8000 万–1.5 亿1.5–2.5 亿47–68%18–30 月全业态

演进路径: 先从 S0/S1 起步 → 3 个月后看客户结构决定升级到 S2/S4/S5 → 有融资 + 单区域满载 70%+ 再考虑 S3。


六、经济模型与关键杠杆

单机成本(8×H800)

项目金额/月
折旧(240 万/5 年)4 万
电费(6kW,0.4 元/度,PUE 1.35)2.33 万
机柜0.3 万
带宽0.3 万
运维分摊0.3 万
合计≈ 7.2 万/月

电价敏感度: 电价每涨 0.05 元 → 单机月成本 +0.5 万,回本延迟 1 个月。

单机营收对比

模式满载月营收实际 80%毛利率
Plan A 独占20.2 万16.1 万57%
Plan A 60% 出租12.1 万42%
Plan B v215 万12 万42%
Plan C 混合22 万18 万61%

单卡月毛利目标

卡型单卡月成本目标营收目标毛利率
H800 80G87501.5–2.5 万40–60%
H100 80G1.2 万2.5–3.5 万50–65%
L40S 48G45000.6–1 万35–45%
4090 24G28000.35–0.55 万20–40%

利润关键杠杆

  1. Prefix Cache:命中率从 20% 提升到 60%,40 卡月收入 +36 万,零成本;
  2. Idle Loss 治理:Spot API、动态模型上下架、副本自动缩容;
  3. 电价与 PUE:选址内蒙/张家口/贵州,锁 3 年电价协议;
  4. 客户结构:Top 10 客户营收占比 < 40%;
  5. 量化:FP8(H800/H100)> AWQ(A100)> BF16。

七、技术架构与选型

40 卡阶段最小技术栈

Ubuntu 24.04 + CUDA 12.6 + NVIDIA Driver 565+
K8s + GPU Operator
Nginx / FastAPI API Gateway
vLLM(主力)+ SGLang(长上下文/结构化)
PostgreSQL + Redis
Prometheus + DCGM + Grafana + Alertmanager
MinIO / NFS

18 层标准参考架构(长期)

层级选型备选迁移路径
Edge CDNCloudflare阿里云 CDN国内合规时切阿里
LBNginxEnvoy规模大时切 Envoy
API GatewayFastAPIAPISIX / KongQPS>5000 切 APISIX
调度K8s + VolcanoSlurm / Ray跨区加 Karmada
推理引擎vLLM + SGLang + TRT-LLMTGI / LMDeploy长期可自研
队列Redis StreamsKafkaQPS>500 切 Kafka
主数据库PostgreSQLMySQL / CockroachDB多区切 CockroachDB
缓存RedisKeyDB / DragonflyCluster
分析仓库ClickHouseDoris / StarRocksCluster
对象存储MinIO阿里云 OSS混合
文件存储NFS → JuiceFSCephFS / Weka规模化升 Weka
网络Calico → CiliumFlanneleBPF
监控Prometheus + GrafanaVictoriaMetrics大规模替换
日志LokiELK集群化
TracingTempo / JaegerZipkinOTel
密钥HashiCorp VaultAWS KMSEnterprise
CI/CDGitLab CI + ArgoCDGitHub ActionsGitOps
前端Next.jsVue / Nuxt自建 Nginx

关键扩展决策点

  • < 100 卡:systemd + docker 够用;≥ 100 卡必上 K8s。
  • < 1000 万条/月:PG 直接查;≥ 1000 万条必上 ClickHouse。
  • 单 Region 满载 70%+ 或客户有跨区/合规需求 → 上多 Region。
  • 单柜功耗 > 30kW 或 PUE 要压到 1.2 以下 → 液冷。

八、运营、财务、安全、销售体系

运营手册

  • 客户全生命周期:注册 → KYC → 充值 → API Key → 首次调用 → 账单 → 续费/升级;
  • Onboarding 目标:15 分钟内完成首次调用;
  • 客户分层:Free / Pro / Enterprise / Enterprise+ 私有;
  • SLA:Free best effort、Pro 99.5%、Enterprise 99.9%、私有 99.99%;
  • 事故分级:SEV-1(15 分钟)到 SEV-4(24 小时);
  • 变更窗口:周二/周四凌晨 2–4 点,禁止周五下午上生产。

GPU FinOps

  • 核心指标:Revenue/GPU/hour、Cost/M tokens、Margin/GPU/hour、Occupancy Rate、CAC/LTV;
  • 四个每日报表:卡效日报、每模型毛利日报、客户价值日报、财务日报;
  • Prefix Cache 专项:命中率 60% 可提升单卡月收入 1.1 万;
  • Idle 治理: utilization < 40% 灌 Spot,> 85% 持续 15 分钟补给主池;
  • 决策树:永远不让 GPU 完全 idle,3 折 Spot 也比空转强。

安全体系(护城河)

  • 9 层安全能力:组织合规、IAM/SSO/RBAC/ABAC、API 安全、模型/Agent 安全、数据隔离、GPU/容器隔离、供应链安全、密钥管理、运行时安全、物理网络;
  • AI 安全差异化:Prompt 注入、越狱、RAG 污染、MCP/Agent 安全,复用 OpenClaw Security Console;
  • 等保三级 Year 1 必做,SOC2 / ISO27001 Year 2;
  • GPU 显存清理:vLLM PagedAttention 释放 KV + torch.cuda.empty_cache + nvidia-smi -r 强制复位;
  • 合规矩阵:AI 备案、等保三级、SOC2、ISO27001、GDPR/PDPA 出海前。

销售体系

  • Year 1 ICP:AI 创业 / 游戏 / 教育 / 中小 SaaS,月 GPU 预算 5000–10 万;
  • Year 1 主打:AI 创业公司 + 游戏公司;
  • 定价策略:大模型对标官方 -20%、小模型 -40%、Spot 3 折、Batch 5 折;
  • POC:月消费预估 > 3 万触发,送 500 万 tokens 或 100 卡时;
  • 内容营销三件套:技术博客 + 案例研究 + 免费额度。

九、竞品分析与差异化

直接竞品

竞品定位我方差异化
硅基流动国内独立 MaaS 龙头企业服务 + 安全合规 + 私有部署
火山引擎/阿里云百炼大厂 MaaS中立第三方 + 价格 -30%
RunPod消费卡 GPU 云中文模型 + 企业合规
Together AI海外 MaaS 龙头亚洲市场 + 中文生态
Fireworks推理速度极致学其优化,走全模型策略

我方护城河矩阵

  • :AI 安全、推理工程、服务、中立性、中文 + 中国合规;
  • :模型生态(Qwen/DeepSeek/GLM 全生态);
  • :硬件规模、品牌、客户基础(初期)。

十、数据体系与 Benchmark 资产

数据分层

Raw Logs → Data Lake(S3 + Parquet)→ Data Warehouse(ClickHouse)→ Data Mart → BI Dashboard。

核心表

  • fact_gpu_metrics:每分钟 GPU 硬件指标;
  • fact_inference_metrics:每次请求明细(模型、引擎、token、延迟、收入、成本、毛利);
  • dim_users/models/pricing:维度表。

Benchmark 数据资产

  • 目标:建立国内最完整的 LLM 推理性能数据库;
  • 测试矩阵:5 卡型 × 15 模型 × 5 引擎 × 5 量化 × 4 并发 × 6 长度 = 45,000 组合,实际采样 1000+;
  • 8 周产出:all_results.csv、top_models.md、engines_comparison.md、quantization_analysis.md、stability_report.md、wanka_decision.md;
  • 最终 wanka_decision.md 是融资、招人、买卡的核心依据。

十一、组织架构与团队演进

阶段卡数团队规模关键岗位
启动408 人CTO、AI Engineer、SRE、Backend×2、Frontend、Sales、CSM/Finance
扩张100–50020–40 人VP Eng、VP Sales、VP CS、Marketing/DevRel、CFO
规模化100060–100 人VP Infrastructure、VP Data、Security、海外负责人
万卡10000200–500 人分事业部(AI Cloud、私有部署、SEA/Global)

薪资参考(北上广深):

  • AI/Inference Engineer:60–150 万/年;
  • SRE:50–120 万/年;
  • Security:60–150 万/年;
  • CTO:100–150 万 + 期权池 5–10%。

期权池: Year 1 预留 10–15%,关键岗位 0.5–2%。


十二、融资与退出

融资节奏

轮次时间金额估值里程碑
Seed现在5000 万–1 亿3–5 亿40 卡数据 + 月流水 20 万+
A 轮M62–3 亿15–20 亿首批 2000 卡上线
B 轮M128–10 亿50–80 亿扩 5000 卡
C 轮M2415–25 亿万卡满载 + 出海

估值参考

  • Seed(ARR 500 万):5000 万–1.5 亿;
  • A 轮(ARR 5000 万):5–15 亿;
  • B 轮(ARR 3 亿):30–100 亿;
  • IPO/Pre-IPO(ARR 10 亿+):100–300 亿。

退出路径

  • IPO:科创板 / 港股 / 纳斯达克;
  • 战略并购:阿里 / 腾讯 / 字节 / 华为 / 云厂商;
  • 客户资源打包:3–6 倍 ARR 卖给云厂商;
  • 卖卡回款:即使二手价跌 40% 仍可收回 60% 硬件成本。

十三、风险管理

Top 5 必盯风险

  1. R12 无 PMF — 6 个月没找到就转型;
  2. R04 GPU 断供 — 三卡型分层 + 国产备胎 + 6 个月备货;
  3. R07 数据泄露 — 一次致命,零信任 + 加密 + 审计 + 保险;
  4. R17 融资失败 — 始终保留 12 个月 runway;
  5. R01 大厂降价 — 不打价格战,差异化服务锁长约。

8 个极端场景剧本

大厂降价 50%、GPU 断供、AI 监管一刀切、团队集体离职、机房断电 72h、融资失败现金流告急、客户数据泄露、核心模型被官方收回。每类都有 T+0 / T+7 / T+30 / T+90 应对动作和底线。

保险与对冲

  • Year 1 必买:财产一切险(3 万/年保 2000 万硬件)+ 雇主责任险;
  • Year 2 加:网络安全责任险;
  • Year 3 加:业务中断险 + D&O 董监高责任险;
  • 供应链:长约锁价、多供应商、国产备胎;
  • 电力:锁 3 年电价协议、液冷 PUE 优化、峰谷调度。

十四、关键建议与下一步

立即做(本周)

  1. 确认 5 台 5090 物理就位:网络(25G+)、电力(工业电或分散布点)、散热(20kW+)。
  2. 锁定系统基线:Ubuntu 24.04 + CUDA 12.6 + Driver 565+ + Docker + K8s。
  3. 开始 Benchmark Lab:M4 机器按 8 周清单跑,重点先跑 vLLM + FP16/FP8 全组合。

1 个月内

  1. M1–M3 跑通生产 MaaS:Qwen3-72B、Qwen2.5-32B/14B、Coder、Embedding、Vision 共 6–8 个模型。
  2. OpenAI 兼容网关上线:FastAPI + Nginx,含鉴权、限流、计费预扣。
  3. 用户注册/充值/API Key 门户:Next.js + PG + Redis,接 Stripe/Ping++。
  4. 监控体系:Prometheus + DCGM + Grafana,出第一版卡效日报。

3 个月内

  1. 拉到 20 个付费开发者,月流水 3–5 万。
  2. Prefix cache 命中率优化到 40%+:sticky routing + 全局 system prompt 共享。
  3. M5 启用 Spot API:把夜间/低峰空闲卡利用起来。
  4. 产出万卡决策报告:基于 M4 数据确定推荐卡型、引擎组合、量化策略。

6–12 个月

  1. 月流水 30–50 万,具备 Seed 融资条件(ARR 400–600 万)。
  2. 启动等保三级 + AI 备案
  3. 决定是否租 100 卡 H100 实测:这是万卡决策不可跳过的步骤。
  4. 如果跑通:融 Seed → 扩到 80–160 卡或 100 H100。

永远不要做的事

  • 不要一开始就设计万卡架构;
  • 不要一开始就用 5090 做传统企业 IaaS 长租(消费卡合规问题);
  • 不要打阿里/腾讯/华为的价格战;
  • 不要在没有 PMF 前融太多钱;
  • 不要让 GPU 完全 idle。

十五、结论

这套文档已经构成了一部完整的“GPU 云运营手册”,从当前 40 卡 5090 的真实部署到万卡集群的融资退出都有可落地的路径。最核心的判断是:

  1. Plan C 混合模式是长期最优解,但前 3 个月要同时把 Plan A 和 Plan B 的 v1 跑通;
  2. 40 卡 5090 是当前真实商业化的最小可行规模,重点不是测试,是跑出收入和付费客户;
  3. Benchmark Lab 是万卡决策的必经之路,但 5090 数据只能支撑 30–40% 决策,必须补 100 卡 H100 实测;
  4. AI 安全 + 中立第三方 + 企业服务是差异化护城河,应尽早包装成安全白皮书对外销售。

最终,这门生意的本质是:让每一张 GPU 的每一秒钟都在产生收入。所有技术、运营、财务、销售工作都应围绕这一指标展开。

On this page