Agent Evaluation
HarnessDeepWisdom · AI 产品 / Agent 评测实习

面向多 Agent 与多模态生成场景，把“任务是否完成”从主观判断转换为有数据、证据、评分规则和反馈回路的产品系统。

RoleAgent 评测实习生

Scope评测 Schema · 自动检查 · 恢复机制

Period2025.06 - 2025.10

Outcome200+ 并行任务

01 / Problem

不能被重放的“成功”，不是可迭代的成功。

多 Agent 任务的失败往往不在最终输出，而在某个工具调用、上下文丢失或中间证据不完整。只看结果，无法解释为什么成功或失败。

因此评测不能只是一个分数。它必须是一套从任务定义、运行轨迹、证据采集、判定到数据回流的闭环。

02 / 我做了什么

记录、评测和报告回流分成三层；Report 是唯一墨蓝节点，强调评测最终要进入下一轮产品迭代。

我定义了从 prompt 输入、工具/Agent 轨迹、中间证据、最终输出到人工复核和模型策略反馈的数据结构，让不同版本能在同一基线上对比。

03 / Automation

使用 Python 实现图像完整性与语义一致性检查，再接入异步执行和任务队列。对完整性、准确性、一致性、语义质量、指令遵循和格式稳定性等 10+ 维度，使用 JSON Schema 约束 Rubric 结构。

04 / Recovery

我将 Replay、Rollback、Retry 和 Edit 设计为明确产品需求，并对应状态快照、结构化日志、上下文缓存和阶段触发的重试逻辑。这让用户不必因为局部失败而重新执行全部任务。

05 / Outcome

30%评测运行耗时缩短

70%人工评测工作量降低

25%长任务成功率提升

60%版本恢复时间缩短

200+并行任务实例

8+诊断文档，支持提示词和 SFT 数据选择

06 / 现在怎么看

评测不应止于“通过/失败”。失败标签、轨迹证据和人工复核应进入提示词迭代、Agent 策略修改和 SFT 数据筛选，形成真正的产品闭环。

→