返回精选项目

Agent Evaluation
HarnessDeepWisdom · AI 产品 / Agent 评测实习

面向多 Agent 与多模态生成场景,把“任务是否完成”从主观判断转换为有数据、证据、评分规则和反馈回路的产品系统。

RoleAgent 评测实习生
Scope评测 Schema · 自动检查 · 恢复机制
Period2025.06 - 2025.10
Outcome200+ 并行任务

01 / Problem

不能被重放的“成功”,不是可迭代的成功。

多 Agent 任务的失败往往不在最终输出,而在某个工具调用、上下文丢失或中间证据不完整。只看结果,无法解释为什么成功或失败。

因此评测不能只是一个分数。它必须是一套从任务定义、运行轨迹、证据采集、判定到数据回流的闭环。

02 / 我做了什么

用结构化对象,把评测从规则文档变成可运行系统。

Agent 评测闭环 从任务定义到报告回流的评测流程:记录层、评测层(硬检查与 LLM Judge 双路径)、报告与反馈回流 Task & dataset 输入 · 环境 · 成功条件 Run & trace 执行路径 · 工具调用 · 中间状态 Evidence 收集 · 结构化 · 可追溯 Hard checks 格式 · 完整性 · 工具正确性 Rubric & judge 多维评分 · 逐步归因 · 校准 ↕ 人工校准 目标 ≥75% Report 失败标签 · 逐步归因 · 改进行动 Prompt 迭代 Agent 策略 SFT 数据筛选 ↻ 回流
记录、评测和报告回流分成三层;Report 是唯一墨蓝节点,强调评测最终要进入下一轮产品迭代。

我定义了从 prompt 输入、工具/Agent 轨迹、中间证据、最终输出到人工复核和模型策略反馈的数据结构,让不同版本能在同一基线上对比。

03 / Automation

自动化只负责稳定规则,人工复核保留复杂判断。

使用 Python 实现图像完整性与语义一致性检查,再接入异步执行和任务队列。对完整性、准确性、一致性、语义质量、指令遵循和格式稳定性等 10+ 维度,使用 JSON Schema 约束 Rubric 结构。

  1. 先自动检查硬规则缺失页面、尺寸不符、对象不完整等问题直接阻断。
  2. 再由 Judge 处理语义质量将每个分数绑定证据,避免只输出无法解释的总分。
  3. 用抽样复核监控偏差人工不再全量检查,但保留对评分规则和 Judge 偏差的控制。

04 / Recovery

长任务的产品质量,体现在失败之后。

我将 Replay、Rollback、Retry 和 Edit 设计为明确产品需求,并对应状态快照、结构化日志、上下文缓存和阶段触发的重试逻辑。这让用户不必因为局部失败而重新执行全部任务。

05 / Outcome

从评测工具,进入模型策略与数据迭代。

30%评测运行耗时缩短
70%人工评测工作量降低
25%长任务成功率提升
60%版本恢复时间缩短
200+并行任务实例
8+诊断文档,支持提示词和 SFT 数据选择

06 / 现在怎么看

评测的产品价值,是它改变了下一个版本。

评测不应止于“通过/失败”。失败标签、轨迹证据和人工复核应进入提示词迭代、Agent 策略修改和 SFT 数据筛选,形成真正的产品闭环。

Next caseFunloomAI · 自然语言到可玩原型