GPU Compute Plans
12 数据体系

12 · Data · 数据体系

12 · Data · 数据体系

一家 AI 公司如果没有自己的数据资产,就是在给别人打工。

一、数据分层

Layer 5:BI Dashboard(老板看的)
Layer 4:数据集市(Data Mart,按主题)
Layer 3:数据仓库(Data Warehouse,ClickHouse)
Layer 2:数据湖(Data Lake,S3 + Parquet)
Layer 1:Raw Logs(Loki / Kafka / 原始 JSON)

二、数据来源

Application 数据(PostgreSQL 主表):

  • users / api_keys / balances / requests / billing / topups
  • 关系型强,一致性要求高

Metrics 数据(Prometheus):

  • GPU 指标(DCGM)
  • 服务指标(vLLM /metrics)
  • 主机指标(Node Exporter)
  • 应用埋点(gateway 自定义)

Logs 数据(Loki):

  • Nginx access log
  • Gateway request log
  • vLLM 引擎日志
  • 系统 journal

Tracing 数据(Tempo / Jaeger):

  • 请求链路追踪
  • 跨服务调用
  • 慢查询定位

Benchmark 数据(Benchmark Lab 采集):

  • 每次测试完整参数 + 结果
  • 详见 14-Benchmark

三、ETL Pipeline

Sources

Airflow / Prefect(编排)

Transform(Python / SQL)

ClickHouse(分析仓库)

Materialized Views(预聚合)

Dashboard

任务清单

任务频率输入输出
Requests ETL每 5 分钟PG requestsCH fact_inference_metrics
GPU Metrics每分钟PrometheusCH fact_gpu_metrics
Daily Aggregation每日 UTC 0 点CH factsCH daily_agg(宽表)
Weekly Report每周一CH daily_agg邮件报表
Monthly P&L每月 1 号CH facts财务报表

四、Metrics(指标口径)

技术指标

  • QPS(每模型 / 每副本)
  • P50/P95/P99 latency
  • Error rate(4xx / 5xx)
  • Cache hit rate

业务指标

  • MRR / ARR / MRR growth rate
  • Active Users(DAU / WAU / MAU)
  • Retention(次日 / 7 日 / 30 日)
  • CAC / LTV / LTV/CAC ratio
  • Payback period
  • Net Revenue Retention(NRR)
  • Churn rate(logo / dollar)

运营指标

  • Onboarding conversion rate
  • Support ticket / user
  • SLA 达标率
  • 客户健康度分布

财务指标

  • Revenue / Cost / Margin
  • Burn rate
  • Cash runway
  • Gross margin per GPU

五、Dashboards(三层)

5.1 Operator Dashboard(每天 5 分钟)

见 08-FinOps 详细定义。

5.2 Executive Dashboard(每周 15 分钟)

  • ARR / MRR / MRR Growth
  • Active Users trend
  • Top 10 Customers
  • Churn Alert
  • Cash Runway
  • Team Headcount vs Plan

5.3 Customer Dashboard(客户自助)

  • Usage / Spend this month
  • API calls / Errors
  • Latency trend
  • Balance + estimated depletion
  • Model breakdown

六、BI 工具选型

Year 1:Grafana + PG(直连)

  • 成本:0
  • 缺点:复杂分析吃力

Year 2:+ Metabase / Superset

  • 成本:开源
  • 好处:非技术人员能自建报表

Year 3:+ Looker / PowerBI(可选)

  • 成本:商业授权
  • 好处:企业级 BI

七、Data Quality

数据质量三原则

  • 完整性:不丢数据
  • 准确性:数字对
  • 及时性:延迟可控

监控

  • 每日跑 data quality check(Great Expectations)
  • 关键指标异常告警(比如 revenue 突然 -50%)
  • 定期对账(PG vs ClickHouse)

八、Customer Data 治理

分类

  • 公开数据(模型使用统计,可展示)
  • 内部数据(成本、毛利,只内部)
  • 敏感数据(客户 prompt 内容、账号信息,严格权限)

访问控制

  • 内部员工分级授权(见 09-Security)
  • 敏感数据脱敏(PII 加密)
  • 所有访问留 audit log

保留策略

  • 请求内容:默认 30 天(客户可关闭 → 0 天)
  • Billing 数据:7 年(税务要求)
  • Audit log:5 年(合规要求)

九、AI on Data(数据资产反哺)

9.1 数据资产用途

  • 模型选型建议:给客户推荐性价比最高的模型
  • 成本优化建议:给自己 FinOps 决策
  • 客户流失预测:ML 模型预测流失
  • 异常检测:请求异常 / 账单异常
  • 定价优化:动态定价实验

9.2 数据反哺产品

  • 客户看到"其他客户在你的场景下用什么模型"
  • 客户看到"你的 prompt cache 命中率如何提升"
  • 客户看到"节省 20% 成本的建议"

这是"数据飞轮" —— 客户越多,数据越丰富,建议越精准,客户越留存。

十、关键判断

数据是项目方未来的核心资产

三个必做:

  1. 数据落库要完整(每个请求都要有 fact 记录)
  2. 口径要统一(MRR / Revenue 定义写清楚,别一人一套)
  3. Dashboard 三层设计(Operator / Executive / Customer)

别做的

  • 别自建 Hadoop / Spark(40 卡阶段用不上)
  • 别过度指标(挑 10 个核心指标每天看)
  • 别让开发直接查生产 PG(走 ClickHouse)

最大 ROI:搭一个"每日财务简报邮件",10 个核心指标发到管理层邮箱,每天早上 8 点。

On this page