AI Vibe Coding 11：成本与吞吐优化（模型路由、预算与SLA）

路线阶段：AI Vibe Coding 第 11 章。
本章目标：解决“用得越多越贵、越慢越乱”的扩展瓶颈。

学习目标

完成本章后，你应该能做到：

按任务复杂度建立模型路由策略。
用预算与配额控制 AI 使用成本。
建立吞吐与时延 SLA 指标。
在不牺牲质量的前提下降低整体成本。

成本失控的典型原因

所有任务都走高成本模型。
长上下文任务未做摘要压缩。
重复查询没有缓存。
缺少预算告警和超限策略。

任务分级

建议先分 4 档：

T1：低复杂（文案、格式化、轻量重构）
T2：中复杂（单模块开发、测试补齐）
T3：高复杂（跨模块改造、架构调整）
T4：高风险（安全、经济、发布链路）

模型路由策略

public enum TaskTier { T1, T2, T3, T4 }

public sealed class ModelRoute
{
    public string PlannerModel;
    public string BuilderModel;
    public string ReviewerModel;
}

public sealed class ModelRouter
{
    public ModelRoute Resolve(TaskTier tier)
    {
        if (tier == TaskTier.T1)
            return new ModelRoute { PlannerModel = "mini", BuilderModel = "mini", ReviewerModel = "mini" };

        if (tier == TaskTier.T2)
            return new ModelRoute { PlannerModel = "standard", BuilderModel = "mini", ReviewerModel = "standard" };

        if (tier == TaskTier.T3)
            return new ModelRoute { PlannerModel = "standard", BuilderModel = "standard", ReviewerModel = "standard" };

        return new ModelRoute { PlannerModel = "high", BuilderModel = "standard", ReviewerModel = "high" };
    }
}

预算控制模型

public sealed class AiBudgetPolicy
{
    public decimal DailyBudgetUsd;
    public decimal WeeklyBudgetUsd;

    public decimal DailyUsedUsd;
    public decimal WeeklyUsedUsd;

    public bool CanRun(decimal expectedCost)
    {
        if (DailyUsedUsd + expectedCost > DailyBudgetUsd) return false;
        if (WeeklyUsedUsd + expectedCost > WeeklyBudgetUsd) return false;
        return true;
    }

    public void Consume(decimal cost)
    {
        DailyUsedUsd += cost;
        WeeklyUsedUsd += cost;
    }
}

超限降级策略

当预算接近上限：

非关键任务降级到低成本模型。
高风险任务保留高质量审查模型。
暂停低优先级批处理任务。

吞吐 SLA

建议定义：

T1 任务：P95 完成 < 5 分钟
T2 任务：P95 完成 < 15 分钟
T3 任务：P95 完成 < 45 分钟
T4 任务：必须双审查，不设过低时限

缓存与复用

降低成本的关键：

上下文摘要缓存
检索结果缓存
规则库片段缓存
重复问答命中缓存

质量保护线

成本优化不能破坏质量，必须保留：

高风险任务双审查
关键路径测试门禁
发布前人工最终确认

监控看板

每周看板至少包含：

总成本与分任务成本
各 tier 平均耗时
一次通过率
返工轮次
降级触发次数

与前面章节联动

任务分解：由任务 tier 决定路由。
多代理协作：按角色分别路由模型。
数据飞轮：用历史数据优化路由策略。
安全合规：高风险任务不允许低配审查。

常见坑

坑 1：只盯成本不看返工

返工成本常常高于一次高质量生成。

坑 2：所有任务统一降级

高风险任务降级会放大事故概率。

坑 3：预算告警太晚

应在 70%/85%/95% 分级告警并自动策略切换。

本月作业

搭建“成本-质量双指标路由”试点：

按 T1~T4 路由不同模型。
跑一周并记录成本、时延、返工率。
调整路由规则并验证改进效果。

下一章：AI Vibe Coding 12《组织落地：角色升级、培训体系与绩效重构》。