-
AI Harness 实战 03:评分器与裁判体系(规则判定 + LLM-as-Judge 的混合策略)
构建可解释、可校准、可扩展的评测裁判体系:用规则确保确定性底线,用 LLM-as-Judge 覆盖语义质量,解决“能跑回归但判不准”的核心问题。
-
AI Harness 实战 02:评测样本工程(从手工案例到可持续数据飞轮)
解决 AI 评测样本老化、覆盖不足、维护成本飙升三大问题,建立可持续更新的样本工程体系与数据飞轮闭环。
-
AI Harness 实战 01:从 0 到 1 搭建可重复、可对比、可回归的评测基线
从工程角度落地 AI Harness 的最小可用版本:标准化样本、可重复执行、统一打分与基线对比,解决“优化无证据、回归不可控”的团队常见问题。