GPU Compute Plans
02 路线B 卖Token

Plan B · v1 · 部署开源模型卖 Token MVP

Plan B · v1 · 部署开源模型卖 Token MVP

目标:1-2 个月内跑通 OpenAI 兼容 API,让第一批 AI 开发者用起来、能付款。
场景:3-5 个主流开源模型,单区域,按 token 计费。

1. 目标 & 非目标

  • 3-5 个主流开源模型(对话 + 代码 + 嵌入)
  • OpenAI 兼容 API(/v1/chat/completions/v1/embeddings
  • Token 计费(input / output 分开)
  • 限流、鉴权、日报
  • 开发者能自助注册拿 API key

不做

  • 微调托管
  • 多模态生成(文/图/视频)
  • 模型市场、社区
  • 私有部署交付
  • 多区域

SLA

  • P50 首 token 延迟 ≤ 300ms
  • P99 首 token 延迟 ≤ 800ms
  • 单模型可用性 ≥ 99.9%
  • 突发扩容 ≤ 5 分钟

2. 模型清单(v1 精选)

类别模型卡数定价参考
对话DeepSeek-V3.2 / Qwen3 235B8 × H800in ¥2 / out ¥8 每百万 token
对话GLM-4.6 32B2 × H800in ¥1 / out ¥4 每百万 token
代码DeepSeek-Coder-V24 × H800in ¥1.5 / out ¥6 每百万 token
嵌入BGE-M3 / Qwen3-Embedding1 × L40S¥0.5 每百万 token
视觉Qwen3-VL 72B4 × H800in ¥3 / out ¥10 每百万 token

选型逻辑

  • 至少 1 个"性价比之王"(DeepSeek-V3 系)
  • 至少 1 个"性能对标 GPT-4o"(Qwen3 235B)
  • 至少 1 个"代码专用"(客户粘性高)
  • 至少 1 个"嵌入模型"(吐 token 少但 QPS 高)
  • v1 不做 Llama(除非目标客户明确要,国内合规风险)

3. 推理架构

             客户 API 请求

    ┌─────────────▼──────────────┐
    │      API 网关 (Nginx)       │
    │      OpenAI 兼容协议         │
    └─────────────┬──────────────┘

    ┌─────────────▼──────────────┐
    │   鉴权 + 限流 + 计费预扣     │
    │   Redis + Lua 脚本          │
    └─────────────┬──────────────┘

    ┌─────────────▼──────────────┐
    │   路由层(按模型选实例)      │
    │   一致性 hash + 健康检查      │
    └─────────────┬──────────────┘

    ┌─────────────▼──────────────┐
    │   推理实例池                 │
    │   vLLM × N                  │
    │   每个模型 2-3 副本冗余      │
    └─────────────┬──────────────┘

    ┌─────────────▼──────────────┐
    │   计费结算(异步)           │
    │   Kafka → 计费引擎 → DB     │
    └────────────────────────────┘

4. 关键组件选型

组件选型备选决策理由
推理引擎vLLM 0.6+SGLang / TRT-LLM / TGIv1 只跑 vLLM,社区活跃、覆盖场景最全
量化AWQ / FP8GPTQ / GGUFAWQ 精度损失小,FP8 H800 原生支持
KV CachevLLM 内建 PagedAttention默认
前缀缓存vLLM --enable-prefix-cachingSGLang RadixAttentionv1 用 vLLM 内置版即可
API 网关APISIX / Nginx + OpenRestyKongAPISIX 有官方 AI 插件
鉴权JWT + API Key + Redis标准做法
限流Redis + 令牌桶云厂商 WAF自建足够
计费Kafka → Flink → Postgres自研异步保 API 响应速度
模型仓库HF Hub + 本地 NVMe 缓存ModelScopeHF 优先,国内客户加 ModelScope 镜像
监控Prometheus + GrafanaDatadog同 Plan A
日志Loki + PromtailELK轻量

5. Token 计费口径

核心原则:以推理引擎实际生成的 token 为准,不以客户 prompt 长度为准。

流程

请求进入 → 预扣 max_tokens × 单价(拦截余额不足)

推理引擎完成 → 上报真实 input_tokens / output_tokens

异步扣费(真实值 - 预扣值 = 差额,退还或补扣)

写入账单流水(保 30 天)

幂等:每次请求生成 request_id,计费引擎按 request_id 去重。

定价档位

  • 免费额度:每月 100 万 token(新用户)
  • 标准:按官网价
  • 企业:合约价,通常 5-7 折
  • 突发:拥堵时段计 1.5×

6. 关键性能指标

指标目标监控口径
TTFT(首 token 时延)P50 ≤ 300ms, P99 ≤ 800msvLLM time_to_first_token
TPOT(后续 token 时延)≤ 50msvLLM time_per_output_token
单卡 TPS≥ 60 tok/s(32B FP8)自采样
KV Cache 命中率≥ 40%(多轮对话)vLLM prefix cache stats
GPU 利用率≥ 70%(batch size 稳定后)DCGM
单请求 GPU 成本≤ 0.02 元自算

7. 关键难点

难点应对
冷启动慢模型权重预加载在本地 NVMe,服务常驻
长/短请求混跑用 vLLM --max-num-batched-tokens 分组
突发流量每模型预留 30% 容量冗余,Kubernetes HPA
上下文超限API 层拦截 max_context_length 溢出
首次并发估算内测期只放 10 个开发者,采集真实分布
NSFW / 合规输入输出接内容审核(自建 or 调用云厂商)

8. 里程碑(6 周)

周次交付物
W1vLLM 单模型部署 + OpenAI 兼容 API 打通
W2剩余 4 个模型部署 + 路由层
W3鉴权 + 限流 + Token 计费闭环
W4开发者门户(注册、Key、账单)
W510 个内测开发者 + 采集数据
W6正式上线,全网可注册

9. 单模型经济模型(示例:DeepSeek-V3 235B)

假设:8×H800 单机,跑 FP8 vLLM,实测吞吐 ≈ 每卡 60 tok/s,8 卡合计 480 tok/s。

满载理论

  • 每秒 480 tok → 每月 ≈ 12.4 亿 output tokens
  • 混合价(in+out 加权)≈ ¥5/M tok
  • 月理论营收 ≈ 62,000 元

成本对比 Plan A

  • 同一台机器 Plan A 满租 20 万/月
  • 但 MaaS 不需要满载:一台机器可支撑 100+ 开发者共享
  • 规模化后:一台机器月营收目标 15-30 万,毛利 40-60%

关键杠杆

  • KV Cache 命中率提升 30% → 有效吞吐 +40%
  • 量化从 BF16 → FP8 → 显存降 50%,可跑更大 batch
  • 前缀缓存对多轮对话客户尤其显著(客服/助手场景可达 60%)

10. 上市定价策略(v1 别硬拼 DeepSeek 官方价)

策略说明
官方价 -20%客户切换有理由
免费额度每月 100 万 tok,拉新
企业合约≥ 1 亿 tok/月 → 5 折
抢占实例客户容忍 30s 中断 → 3 折(Plan C 才有)
地区差价边缘节点更便宜(v3 才做)

11. 差异化(v1 靠这些)

  1. 速度:优化 vLLM + FP8,TTFT 比官方低 30%
  2. 模型时效:新模型 24 小时内上线
  3. 中文优化:Qwen / GLM / DeepSeek 都吃透
  4. 免费额度大方:拉新期烧钱换用户
  5. 企业支持:合约客户 1v1 SLA 保障

12. v1 之后往 v2 演进的钩子

  • 引擎从纯 vLLM 拓展到 SGLang(长上下文)+ TRT-LLM(低延迟)
  • 加多引擎路由:按请求特征选最优引擎
  • 加"抢占实例"层:把闲置容量以 3 折卖给容忍中断的客户
  • 加"函数调用 / 结构化输出"(SGLang RadixAttention 助力)
  • 加"批量推理 API"(异步任务,价格更低)

On this page