GPU Compute Plans
14 基准测试资产

14 · Benchmark 数据资产

14 · Benchmark 数据资产

每次测试都是一次数据资产的积累。1000 个数据点 vs 100000 个数据点,最终形成技术护城河。

一、数据资产战略

目标:建立国内最完整的"LLM 推理性能数据库"。

为什么值钱

  • 客户选型必看的参考
  • 内部决策的依据
  • 融资 pitch 的技术资产
  • 未来对外可商业化(付费查询 API 或报告订阅)

二、数据模型(ClickHouse)

CREATE TABLE benchmark_results (
  test_id UUID,
  test_time DateTime,

  -- 环境
  gpu_model String,           -- 5090 / H100 / H800
  driver_version String,      -- 565.xx
  cuda_version String,        -- 12.6
  os_version String,          -- ubuntu-24.04
  engine String,              -- vllm-0.6.5 / sglang-0.3.7
  engine_version String,

  -- 模型
  model_name String,          -- Qwen2.5-14B-Instruct
  model_size_params_b Float32,-- 14.0
  quantization String,        -- fp16 / fp8 / awq / gptq

  -- 配置
  tensor_parallel_size UInt8,
  max_model_len UInt32,
  gpu_memory_utilization Float32,
  enable_prefix_caching Bool,
  batch_size UInt32,

  -- 输入
  input_tokens_avg UInt32,
  output_tokens_avg UInt32,
  concurrency UInt32,
  total_requests UInt32,

  -- 输出性能
  ttft_p50_ms Float32,
  ttft_p90_ms Float32,
  ttft_p99_ms Float32,
  tpot_p50_ms Float32,
  tpot_p90_ms Float32,
  tpot_p99_ms Float32,
  output_tps Float32,
  total_throughput_tps Float32,

  -- 硬件观测
  gpu_util_avg Float32,
  gpu_util_peak Float32,
  gpu_mem_used_gb Float32,
  gpu_power_avg_w Float32,
  gpu_temp_peak_c Float32,

  -- 质量
  mmlu_score Nullable(Float32),
  ceval_score Nullable(Float32),
  humaneval_score Nullable(Float32),
  quality_baseline_delta Nullable(Float32),

  -- 稳定性
  errors_count UInt32,
  oom_count UInt32,
  test_duration_sec UInt32,

  -- 备注
  notes String,
  tags Array(String)
) ENGINE = MergeTree()
ORDER BY (gpu_model, model_name, engine, quantization, test_time);

三、测试矩阵(要采集的组合)

基础矩阵(每周更新)

  • 5 卡型(5090 / 4090 / A100 / H100 / H800)
  • 15 模型(Qwen / DeepSeek / GLM / Llama / Mixtral 系列)
  • 5 引擎(vLLM / SGLang / TRT-LLM / LMDeploy / TGI)
  • 5 量化(FP16 / FP8 / AWQ / GPTQ / INT8)
  • 4 并发(1 / 16 / 64 / 256)
  • 6 长度(128/128 到 32K/2K)

理论组合数:5 × 15 × 5 × 5 × 4 × 6 = 45,000 实际采样:约 1000 个高价值组合 + 每周新增

四、自动化测试框架

bench-lab/
├── configs/                    # 每次测试的 yaml 配置
├── scripts/
│   ├── run_test.py             # 单次测试执行
│   ├── run_matrix.py           # 矩阵批量执行
│   ├── parse_results.py        # 结果解析
│   └── upload_to_ch.py         # 入库 ClickHouse
├── engines/                    # 各引擎启动模板
├── quality_check/              # lm-eval 集成
├── stability/                  # 72h 稳定性测试
└── reports/                    # 自动生成报告

执行流

  1. 从 configs/ 读取待测组合
  2. 启动引擎 + 采集基线 GPU 指标
  3. LLMPerf 压测
  4. 收集 vLLM /metrics + DCGM
  5. 关闭引擎 + 采集峰值指标
  6. lm-eval 质量测试(如果开启)
  7. 结果落 CSV + ClickHouse

五、报告自动生成

5.1 每日报告

  • 昨日新增数据点数
  • 新发现的最优组合
  • 性能异常提醒

5.2 每周报告

  • Top 10 性价比模型
  • 引擎横评更新
  • 量化收益分析
  • 新模型上榜

5.3 每月报告

  • 万卡决策更新
  • 竞品对比(如有他们公开数据)
  • 硬件路线建议

六、可视化

Grafana Dashboards

  • 每模型性能热力图
  • 引擎横评雷达图
  • 量化收益曲线
  • 稳定性长期趋势

Public Dashboard(对外):

  • 客户能看到"用哪个模型 + 用哪个引擎最划算"
  • 差异化卖点

七、数据资产变现

7.1 内部使用

  • 万卡采购决策
  • 客户模型选型建议
  • 定价优化

7.2 对外营销

  • 技术博客素材
  • 客户白皮书
  • 融资 pitch 数据

7.3 商业化(长期)

  • 付费查询 API
  • 订阅制报告
  • 咨询服务

八、关键判断

Benchmark 数据是项目方未来最大的技术资产之一

三个必做:

  1. 每次测试都要严格记录(环境、参数、结果)
  2. 数据库要长期保留(3-5 年,历史数据能对比模型演进)
  3. 自动生成报告(不能靠人手)

别做的

  • 别只测"看起来好"的组合(也要测差组合排雷)
  • 别相信厂商公开的数据(自己实测)
  • 别把 Benchmark 变成 marketing 数据(要真实)

最大 ROI:一份高质量的 Benchmark 报告可以拿到融资溢价 + 客户信任。这是项目方最容易做出的技术差异化。

On this page