GPU Compute Plans
04 场景演算

场景 S4 · 国内自持机房(不出海)

场景 S4 · 国内自持机房(不出海)

假设:项目方是国内制造业 / 传统行业公司,200 张卡,自有厂房自建机房,主要服务内部 + 少量对外。

一、场景特点

  • 不追求增长:现金流为王
  • 数据合规硬性要求:不能上公有云
  • 卡型受限:可能只有国产(华为昇腾 910B、寒武纪思元 590)或 A800
  • 客户结构:60% 内部业务、40% 对外(合作伙伴 / 关联企业)
  • 地理:华东工业园区,电费低(0.4-0.5 元)

二、硬件与成本

假设 200 张昇腾 910B(等效 A100 性能):

月成本
硬件折旧(60 万/张 × 200 / 5 年 / 12)~200 万
电费(0.45 元,含冷却)~5 万
机房托管(自有厂房省成本)~5 万
团队(10 人)~30 万
合计~240 万/月

三、收入结构(现实版)

内部业务(不算营收,但省下购买公有云成本):

  • 内部 AI 平台使用 100 张卡 → 折算价值 150 万/月
  • 内部训练任务 50 张 → 折算价值 80 万/月

对外部分:

  • 关联企业 30 张卡长租 → 60 万/月
  • 少量外部客户 20 张卡 → 30 万/月

综合价值:320 万/月(含内部折算)
现金流入:90 万/月(对外部分)
内部账净利:约 80 万/月;纯现金流:约 -150 万/月(靠内部价值覆盖)

四、技术策略

4.1 内部平台优先

  • 建统一内部 AI 平台,服务集团 IT / 智能制造 / 客服 / R&D
  • 内部用 Slurm + K8s 混合调度
  • 无需 API 网关和计费系统的复杂度
  • 内部按部门配额 + 每月结算

4.2 对外简化

  • 只做 Plan A 长租 + Plan B 小规模 MaaS
  • Plan B 只跑 3 个模型(供关联企业员工使用)
  • 不接公网、只 VPN 内接入

4.3 昇腾生态适配

  • vLLM Ascend 分支(华为开源)
  • MindSpore / MindFormers(内部训练)
  • CANN 8.0 + PyTorch 昇腾插件(推理)

五、关键差异化(对内)

  • 数据不出园:内部客户合规友好
  • 深度定制:给业务部门做 AI 助手、SOP 生成、质检
  • 按部门结算:内部转账,走财务分摊
  • 知识沉淀:Prompt 库、领域 Fine-tune

六、6 个月落地

里程碑
1昇腾节点验收 + 内部平台雏形
2Plan A 内部长租上线(3 部门试点)
3Plan B 内部 API 上线(客服机器人对接)
4外部合作伙伴接入(VPN)
5全部业务上量 + KPI 达标
6内部 AI 应用矩阵成型

七、团队 10 人

  • CTO:1
  • 平台工程:3
  • 推理 / 训练:2
  • 业务对接(每个大部门配 1 BP):3
  • 运维:1

八、成功指标

  • 集团公有云支出减少 300 万+/年
  • 内部 AI 助手覆盖 5 个业务线
  • 对外收入自负盈亏
  • 卡片利用率 ≥ 70%(内部 + 外部)

九、坑

  1. 昇腾生态成熟度不如 NVIDIA,模型移植花时间
  2. 内部部门配合度低(推行 AI 助手需高层强推)
  3. 对外销售不专业,容易被外部客户压价
  4. 内部平台需要"客户级"体验才有人用,不能糙
  5. 数据治理未跟上,AI 效果打折

十、结论与建议

这个场景下别追规模,追现金流

  1. 内部平台先起:用集团现有算力预算,先证明 AI 能省钱
  2. 对外别做通用云:只做"我方熟悉的行业" AI 定制服务
  3. 昇腾是政治正确 + 长期主义,但要接受 6 个月生态爬坡期
  4. 200 卡 6 个月 + 8 亿人的服务,别夸大规模,稳赚就行

On this page