Article

AI Vibe Coding 11:成本与吞吐优化(模型路由、预算与SLA)

路线阶段:AI Vibe Coding 第 11 章。
本章目标:解决“用得越多越贵、越慢越乱”的扩展瓶颈。

学习目标

完成本章后,你应该能做到:

  1. 按任务复杂度建立模型路由策略。
  2. 用预算与配额控制 AI 使用成本。
  3. 建立吞吐与时延 SLA 指标。
  4. 在不牺牲质量的前提下降低整体成本。

成本失控的典型原因

  1. 所有任务都走高成本模型。
  2. 长上下文任务未做摘要压缩。
  3. 重复查询没有缓存。
  4. 缺少预算告警和超限策略。

任务分级

建议先分 4 档:

  1. T1:低复杂(文案、格式化、轻量重构)
  2. T2:中复杂(单模块开发、测试补齐)
  3. T3:高复杂(跨模块改造、架构调整)
  4. T4:高风险(安全、经济、发布链路)

模型路由策略

public enum TaskTier { T1, T2, T3, T4 }

public sealed class ModelRoute
{
    public string PlannerModel;
    public string BuilderModel;
    public string ReviewerModel;
}

public sealed class ModelRouter
{
    public ModelRoute Resolve(TaskTier tier)
    {
        if (tier == TaskTier.T1)
            return new ModelRoute { PlannerModel = "mini", BuilderModel = "mini", ReviewerModel = "mini" };

        if (tier == TaskTier.T2)
            return new ModelRoute { PlannerModel = "standard", BuilderModel = "mini", ReviewerModel = "standard" };

        if (tier == TaskTier.T3)
            return new ModelRoute { PlannerModel = "standard", BuilderModel = "standard", ReviewerModel = "standard" };

        return new ModelRoute { PlannerModel = "high", BuilderModel = "standard", ReviewerModel = "high" };
    }
}

预算控制模型

public sealed class AiBudgetPolicy
{
    public decimal DailyBudgetUsd;
    public decimal WeeklyBudgetUsd;

    public decimal DailyUsedUsd;
    public decimal WeeklyUsedUsd;

    public bool CanRun(decimal expectedCost)
    {
        if (DailyUsedUsd + expectedCost > DailyBudgetUsd) return false;
        if (WeeklyUsedUsd + expectedCost > WeeklyBudgetUsd) return false;
        return true;
    }

    public void Consume(decimal cost)
    {
        DailyUsedUsd += cost;
        WeeklyUsedUsd += cost;
    }
}

超限降级策略

当预算接近上限:

  1. 非关键任务降级到低成本模型。
  2. 高风险任务保留高质量审查模型。
  3. 暂停低优先级批处理任务。

吞吐 SLA

建议定义:

  1. T1 任务:P95 完成 < 5 分钟
  2. T2 任务:P95 完成 < 15 分钟
  3. T3 任务:P95 完成 < 45 分钟
  4. T4 任务:必须双审查,不设过低时限

缓存与复用

降低成本的关键:

  1. 上下文摘要缓存
  2. 检索结果缓存
  3. 规则库片段缓存
  4. 重复问答命中缓存

质量保护线

成本优化不能破坏质量,必须保留:

  1. 高风险任务双审查
  2. 关键路径测试门禁
  3. 发布前人工最终确认

监控看板

每周看板至少包含:

  1. 总成本与分任务成本
  2. 各 tier 平均耗时
  3. 一次通过率
  4. 返工轮次
  5. 降级触发次数

与前面章节联动

  1. 任务分解:由任务 tier 决定路由。
  2. 多代理协作:按角色分别路由模型。
  3. 数据飞轮:用历史数据优化路由策略。
  4. 安全合规:高风险任务不允许低配审查。

常见坑

坑 1:只盯成本不看返工

返工成本常常高于一次高质量生成。

坑 2:所有任务统一降级

高风险任务降级会放大事故概率。

坑 3:预算告警太晚

应在 70%/85%/95% 分级告警并自动策略切换。

本月作业

搭建“成本-质量双指标路由”试点:

  1. 按 T1~T4 路由不同模型。
  2. 跑一周并记录成本、时延、返工率。
  3. 调整路由规则并验证改进效果。

下一章:AI Vibe Coding 12《组织落地:角色升级、培训体系与绩效重构》。