U3DC
文章
标签
RSS
Tag View
#Judge
当前标签共 1 篇文章。
返回标签索引
2026年4月17日
2026-04-17-ai-harness-03-judge-system-hybrid-scoring.md
AI Harness 实战 03:评分器与裁判体系(规则判定 + LLM-as-Judge 的混合策略)
构建可解释、可校准、可扩展的评测裁判体系:用规则确保确定性底线,用 LLM-as-Judge 覆盖语义质量,解决“能跑回归但判不准”的核心问题。
AI
Harness
Evaluation
Judge
Workflow