证据优先
最终输出不够,要同时保留轨迹、工具状态和中间证据,才能归因。在 DeepWisdom 评测系统里,这意味着每个评分都绑定可回放的 Trace。
北邮数字媒体技术,2027 届。
本科前两年写代码、做 Unity 项目、参加比赛。后来发现我更想弄清楚的不是「怎么实现」,而是「该不该做」和「做完了怎么验收」。于是转向产品。
现在在 DeepWisdom 做 Agent 评测实习,业余做开源项目(Agent 架构 Notebook)和技术写作(评测方法论、LLM 记忆系统分析)。也在给 hanniman 的 AI 日报当志愿编辑,练对信息密度的判断。
在找 AI 产品方向的实习或校招机会。Agent、评测、生成式应用都是我想深入的方向。
01 / Selected work
Agent 完成了任务,怎么判断它是真做对了?把「完成」拆成 Task、Trace、Evidence、Rubric 和 Judge,建立可回放、可对比的评测闭环。
用户描述了一个游戏,AI 生成了——然后呢?从 20+ 次访谈出发,设计首次生成、二次编辑、局部修改和预览验收的完整流程。
文件能找到,但它从哪来、能不能商用、在哪个项目用过——答不上来。用资源本体、版权溯源和 RAG 检索,把散落文件变成可审计的数据资产。
珍珠光泽好不好,以前全靠人眼。评估者不同,结论就不同,买家更没法信。从标准化采集到质量报告再到 Web 3D 展示,让定价有据可查。
02 / Product judgment
最终输出不够,要同时保留轨迹、工具状态和中间证据,才能归因。在 DeepWisdom 评测系统里,这意味着每个评分都绑定可回放的 Trace。
长任务一定会失败。快照、回放、局部重试和编辑不是补丁,是应在 PRD 阶段就定义的核心需求。DeepWisdom 的 Replay / Rollback / Retry / Edit 就是这么来的。
评测结果应回流到提示词、Agent 策略和训练数据,让每个版本可比较、可回归。这也是我写评测方法论长文的出发点——想把这个闭环拆清楚。
人负责范围、取舍和风险;AI 在约束内生成和验证,不把决策藏在自动化里。FunloomAI 选架构时按这个原则拆:稳定环节用模板,理解和修改环节才用模型。
留存和转化衡量用户价值,完整性和指令遵循衡量生成质量。FunloomAI 里这两组同时跟踪,少一边都不行。
选方案先比可控性和成本,不追架构复杂度。珍珠项目里光泽分类用 SVM 不用深度学习,因为可解释性是这个场景的刚需。
03 / Open source & writing
开源仓库整理了 Reflection、Tool Use、ReAct、Planning 等 Agent 架构模式和评测机制;技术写作聚焦评测方法论和 LLM 记忆系统。
用可运行的 Notebook 组织现代 Agent 架构和评测机制。不是教程,是自己学一个跑一个的笔记。
从 Task 定义、数据集构建拆到 Rubric 设计、Judge 校准和 Report 回流。写的时候发现,评测最难的部分不是打分,是定义「什么算对」。
拆 ChatGPT、Claude、Gemini 在存储粒度、召回策略和隐私取舍上的差异。同样是「记住用户」,产品逻辑完全不同。
RSS 抓信息源、长文排版、AI 岗位追踪。三个小工具,解决自己的具体问题。
04 / Recognition
05 / Contact
北京 · zjy888@bupt.edu.cn · GitHub @to-real · X @Potatoloogs