文章标签 RSS

Tag View

#Evaluation

当前标签共 3 篇文章。

返回标签索引

2026年4月17日 2026-04-17-ai-harness-03-judge-system-hybrid-scoring.md

AI Harness 实战 03：评分器与裁判体系（规则判定 + LLM-as-Judge 的混合策略）

构建可解释、可校准、可扩展的评测裁判体系：用规则确保确定性底线，用 LLM-as-Judge 覆盖语义质量，解决“能跑回归但判不准”的核心问题。

AIHarnessEvaluationJudgeWorkflow
2026年4月16日 2026-04-16-ai-harness-02-evaluation-dataset-engineering.md

AI Harness 实战 02：评测样本工程（从手工案例到可持续数据飞轮）

解决 AI 评测样本老化、覆盖不足、维护成本飙升三大问题，建立可持续更新的样本工程体系与数据飞轮闭环。

AIHarnessEvaluationDatasetWorkflow
2026年4月15日 2026-04-15-ai-harness-01-baseline.md

AI Harness 实战 01：从 0 到 1 搭建可重复、可对比、可回归的评测基线

从工程角度落地 AI Harness 的最小可用版本：标准化样本、可重复执行、统一打分与基线对比，解决“优化无证据、回归不可控”的团队常见问题。

AIHarnessEvaluationWorkflow

© 2026 U3DC. Design by Mark.