返回精选项目
Agent Evaluation
Agent Evaluation
HarnessDeepWisdom · AI 产品 / Agent 评测实习
面向多 Agent 与多模态生成场景,把“任务是否完成”从主观判断转换为有数据、证据、评分规则和反馈回路的产品系统。
RoleAgent 评测实习生
Scope评测 Schema · 自动检查 · 恢复机制
Period2025.06 - 2025.10
Outcome200+ 并行任务
01 / Problem
不能被重放的“成功”,不是可迭代的成功。
多 Agent 任务的失败往往不在最终输出,而在某个工具调用、上下文丢失或中间证据不完整。只看结果,无法解释为什么成功或失败。
因此评测不能只是一个分数。它必须是一套从任务定义、运行轨迹、证据采集、判定到数据回流的闭环。
02 / 我做了什么
用结构化对象,把评测从规则文档变成可运行系统。
我定义了从 prompt 输入、工具/Agent 轨迹、中间证据、最终输出到人工复核和模型策略反馈的数据结构,让不同版本能在同一基线上对比。
03 / Automation
自动化只负责稳定规则,人工复核保留复杂判断。
使用 Python 实现图像完整性与语义一致性检查,再接入异步执行和任务队列。对完整性、准确性、一致性、语义质量、指令遵循和格式稳定性等 10+ 维度,使用 JSON Schema 约束 Rubric 结构。
- 先自动检查硬规则缺失页面、尺寸不符、对象不完整等问题直接阻断。
- 再由 Judge 处理语义质量将每个分数绑定证据,避免只输出无法解释的总分。
- 用抽样复核监控偏差人工不再全量检查,但保留对评分规则和 Judge 偏差的控制。
04 / Recovery
长任务的产品质量,体现在失败之后。
我将 Replay、Rollback、Retry 和 Edit 设计为明确产品需求,并对应状态快照、结构化日志、上下文缓存和阶段触发的重试逻辑。这让用户不必因为局部失败而重新执行全部任务。
05 / Outcome
从评测工具,进入模型策略与数据迭代。
30%评测运行耗时缩短
70%人工评测工作量降低
25%长任务成功率提升
60%版本恢复时间缩短
200+并行任务实例
8+诊断文档,支持提示词和 SFT 数据选择
06 / 现在怎么看
评测的产品价值,是它改变了下一个版本。
评测不应止于“通过/失败”。失败标签、轨迹证据和人工复核应进入提示词迭代、Agent 策略修改和 SFT 数据筛选,形成真正的产品闭环。
Next caseFunloomAI · 自然语言到可玩原型
→