GPU Compute Plans
02 路线B 卖Token

Plan B · v2 · Full 版本

Plan B · v2 · Full 版本

目标:从"3 个模型 + vLLM"进化为"多引擎 + 精细计费 + 抢占实例"。
时间:v1 上线后 2-3 个月开始。

1. 相比 v1 的关键升级

维度v1v2
推理引擎仅 vLLMvLLM + SGLang + TensorRT-LLM
模型数3-515-25
路由简单 hash智能路由(按延迟/成本/命中率)
计费按 token 平价差异化定价(模型/引擎/优先级)
CachevLLM 内建跨请求 KV Cache 池 + 分层
抢占抢占实例 3 折
结构化输出JSON Schema / Regex / Grammar
函数调用基础完整 + 并发
长上下文32K128K+(chunked prefill)
批量 API异步批处理 50% 折扣

2. 新推理架构

                     客户请求

              ┌─────────▼─────────┐
              │   API 网关         │
              │   OpenAI + Anthropic 兼容
              └─────────┬─────────┘

              ┌─────────▼─────────┐
              │   智能路由引擎     │
              │   决策:           │
              │   - 请求特征分析    │
              │   - 模型 x 引擎选择  │
              │   - 优先级排队      │
              └─────────┬─────────┘

      ┌─────────────────┼─────────────────┐
      │                 │                 │
 ┌────▼────┐      ┌────▼─────┐      ┌────▼────┐
 │  vLLM   │      │  SGLang   │      │TRT-LLM  │
 │ 主力对话 │      │ 长上下文  │      │低延迟   │
 │ 高吞吐  │      │ 结构化    │      │小模型   │
 └─────────┘      └──────────┘      └─────────┘
      │                 │                 │
      └─────────────────┼─────────────────┘

              ┌─────────▼─────────┐
              │  跨引擎 KV Cache   │
              │  (Redis + NVMe)    │
              └────────────────────┘

3. 引擎选型矩阵

场景引擎理由
通用对话 30B 内vLLM吞吐高、社区稳
通用对话 100B+vLLM + FP8 + TP=8H800 原生 FP8
长上下文 128KSGLangRadixAttention 命中率高
结构化 JSONSGLangGrammar-guided decoding 快
低延迟小模型TensorRT-LLMINT8 + 强 kernel 融合
嵌入模型vLLM 或 Text-Embeddings-Inference简单场景
语音 / 视觉单独部署走独立管线

路由决策示例

def route(request):
    if request.model == "qwen3-embed":
        return "vllm-embed"
    if request.context_length > 32000:
        return "sglang"
    if request.want_json_schema:
        return "sglang"
    if request.model.startswith("small-") and request.want_low_latency:
        return "trt-llm"
    return "vllm"  # 默认

4. 跨请求 KV Cache 池

问题:单机 vLLM prefix cache 只在本机命中。多客户共享的系统提示、多轮对话很浪费。

方案

  • 客户 System Prompt → 提取哈希 → 全局共享 KV
  • 多轮对话 → 按 session_id 绑定实例(sticky routing)
  • 冷启动 KV → NVMe 缓存池,命中率 30% 时可省 40% 显存

收益

  • 多轮对话客户成本降 30-50%
  • 高并发客户 TTFT 降 40%

5. 差异化定价(v2 核心创新)

优先级SLA价格说明
保障型P99 800ms1.0×默认
标准型P99 2s0.7×混批可能延迟
抢占型无 SLA、可被打断0.35×客户异步任务、批处理
批量型24 小时内完成0.5×客户提交后异步跑

客户配额

  • 免费用户:仅标准型 + 抢占型
  • 付费用户:所有类型
  • 企业合约:保障型独占容量

6. 高级功能

6.1 函数调用 / Tool Use

  • 支持 OpenAI function call + Anthropic tool use 双协议
  • 并发工具调用
  • 结构化返回强制约束

6.2 JSON Schema 强制

  • 客户传 schema → 引擎 grammar-guided decoding
  • 100% 保证输出合法 JSON
  • SGLang 天然支持,vLLM 通过 outlines 支持

6.3 长上下文优化

  • Chunked prefill(把 128K prompt 分 8K 块)
  • YARN / NTK 上下文外推(可选)
  • 首 token 延迟目标 <2s(128K 场景)

6.4 批量推理 API

  • POST /v1/batches 提交 JSONL
  • 异步处理,24 小时内完成
  • 半价、优先级最低
  • 结果存 S3 / MinIO

6.5 微调(v2 后期)

  • LoRA 训练托管
  • 训完自动上架为客户私有模型
  • 推理复用底座 + 加载 LoRA adapter(零成本模型切换)

7. 计费系统升级

多维度组合

  • 模型 × 优先级 × 缓存命中率
  • 缓存命中的 token 打 3 折(vLLM 已支持标注)
  • 结构化输出 grammar 生成打 8 折(因为速度快)

发票 / 对账

  • 客户可拉自己所有请求原始数据(30 天)
  • 月度对账单 CSV 自动发送
  • 支持发票开票 API

8. 关键难点

难点应对
多引擎运维复杂一份统一 Helm Chart,每个引擎独立 values.yaml
KV Cache 一致性强 sticky routing,避免跨实例 cache 混乱
抢占实例回收公平性提前 30s 通知,未完成 token 免费
grammar-guided 精度损失提供开关,客户可关
多协议兼容单独维护 protocol adapter 层

9. 里程碑(12 周)

周次交付
W1-W2SGLang 部署 + 长上下文验证
W3-W4TensorRT-LLM 部署 + 小模型低延迟
W5-W6智能路由 + 引擎切换
W7-W8跨请求 KV Cache 池
W9-W10抢占实例 + 差异化定价
W11-W12批量 API + 微调 MVP

10. v2 单机经济模型

同样 8×H800 单机,v2 后:

场景引擎有效吞吐(tok/s)月理论营收
v1 纯 vLLMvLLM4806.2 万
v2 + FP8 + prefix cache 40%vLLM7509.7 万
v2 + 多客户共享 system promptvLLM95012.3 万
v2 + 抢占实例填空混合120015.5 万
v2 极限混合150019.3 万

同一台机器,v2 vs v1 营收提升 3 倍,靠的全是软件工程。

11. 组件对比(详见 comparison-engines.md

主要选型判断:

  • vLLM 是 must-have:占 70% 请求
  • SGLang 是 nice-to-have:占 20% 请求,但覆盖高价值场景
  • TensorRT-LLM 谨慎选:H100 上有优势,运维复杂
  • TGI 别用:v1 已不推荐

12. v2 之后往 v3 演进的钩子

  • 微调 → 模型市场 → 客户互相买卖 LoRA
  • 客户可发布模型到平台,走分成模式
  • 加多模态:图像 / 音频 / 视频生成
  • 加 Agent / RAG 托管:一键部署 AI 应用

On this page