北京 · 2027 届 · AI 产品 / Agent 方向

张靖远AI 产品经理 · Agent 评测与产品系统

我关注的不是 AI 能不能生成，而是生成之后怎么验收、怎么改、坏了怎么恢复。过去两年做了四个项目，都在拆这件事。

北邮数字媒体技术，2027 届。

本科前两年写代码、做 Unity 项目、参加比赛。后来发现我更想弄清楚的不是「怎么实现」，而是「该不该做」和「做完了怎么验收」。于是转向产品。

曾在 DeepWisdom 参与 Agent Evaluation Harness 与长任务恢复机制建设，目前持续研究 Agent 评测、Harness Engineering 与模型策略。业余做开源项目（Agent 架构 Notebook）和技术写作（评测方法论、LLM 记忆系统分析）。也在给 hanniman 的 AI 日报当志愿编辑，练对信息密度的判断。

在找 AI 产品方向的实习或校招机会。Agent、评测、生成式应用都是我想深入的方向。

200+并行 Agent 评测任务

70%人工评测工作量降低

23%→61%AI SaaS 新用户 7 日留存

2 项软件著作权

01 / Selected work

四个项目，拆的都是同一类问题。

GitHub 开源实践

Agent Evaluation2025

DeepWisdom
Agent Evaluation Harness

Agent 完成了任务，怎么判断它是真做对了？把「完成」拆成 Task、Trace、Evidence、Rubric 和 Judge，建立可回放、可对比的评测闭环。

200+ 并行任务70% 工作量降低25% 成功率提升

AI Game SaaS2025

FunloomAI
自然语言到可玩原型

用户描述了一个游戏，AI 生成了——然后呢？从 20+ 次访谈出发，设计首次生成、二次编辑、局部修改和预览验收的完整流程。

30,000+ 用户7 日留存 61%20+ 用户访谈

RAG & Data Product2025

数字媒体数据
集成与管理系统

文件能找到，但它从哪来、能不能商用、在哪个项目用过——答不上来。用资源本体、版权溯源和 RAG 检索，把散落文件变成可审计的数据资产。

独立设计RAG 检索2025SR0148410

Vision AI & 3D2024-2025

珍珠光泽评估
与 3D 商品设计

珍珠光泽好不好，以前全靠人眼。评估者不同，结论就不同，买家更没法信。从标准化采集到质量报告再到 Web 3D 展示，让定价有据可查。

YOLOv8SVM / Random ForestThree.js

02 / Product judgment

我关心的不是“能否生成”，而是“如何稳定交付”。

证据优先

最终输出不够，要同时保留轨迹、工具状态和中间证据，才能归因。在 DeepWisdom 评测系统里，这意味着每个评分都绑定可回放的 Trace。

恢复即产品

长任务一定会失败。快照、回放、局部重试和编辑不是补丁，是应在 PRD 阶段就定义的核心需求。DeepWisdom 的 Replay / Rollback / Retry / Edit 就是这么来的。

评测驱动迭代

评测结果应回流到提示词、Agent 策略和训练数据，让每个版本可比较、可回归。这也是我写评测方法论长文的出发点——想把这个闭环拆清楚。

人与 AI 明确分工

人负责范围、取舍和风险；AI 在约束内生成和验证，不把决策藏在自动化里。FunloomAI 选架构时按这个原则拆：稳定环节用模板，理解和修改环节才用模型。

用户与模型双指标

留存和转化衡量用户价值，完整性和指令遵循衡量生成质量。FunloomAI 里这两组同时跟踪，少一边都不行。

可控性优先

选方案先比可控性和成本，不追架构复杂度。珍珠项目里光泽分类用 SVM 不用深度学习，因为可解释性是这个场景的刚需。

03 / Open source & writing

用可运行实作和长文，校验我对 AI 产品的判断。

开源仓库整理了 Reflection、Tool Use、ReAct、Planning 等 Agent 架构模式和评测机制；技术写作聚焦评测方法论和 LLM 记忆系统。

Open Source
all-agentic-architectures
用可运行的 Notebook 组织现代 Agent 架构和评测机制。不是教程，是自己学一个跑一个的笔记。
Article
AI 评测系统：从数据集到生产反馈闭环
从 Task 定义、数据集构建拆到 Rubric 设计、Judge 校准和 Report 回流。写的时候发现，评测最难的部分不是打分，是定义「什么算对」。
Article
LLM 记忆系统技术分析
拆 ChatGPT、Claude、Gemini 在存储粒度、召回策略和隐私取舍上的差异。同样是「记住用户」，产品逻辑完全不同。
Tools
RSSWebReader · x-article-formatter · jobpilot-cn
RSS 抓信息源、长文排版、AI 岗位追踪。三个小工具，解决自己的具体问题。

04 / Recognition

阶段性认可

2025
挑战杯北京市一等奖 — 数字媒体数据集成与管理系统
2025
中国国际大学生创新大赛北京赛区一等奖 — 珍珠光泽评估与 3D 商品设计
2025
全国大学生电子商务“三创赛”省级一等奖
2024
北京邮电大学三等奖学金

05 / Contact

在找 AI 产品方向的实习和校招机会，也欢迎聊 Agent、评测或技术写作。

北京 · zjy888@bupt.edu.cn · GitHub @to-real · X @Potatoloogs

zjy888@bupt.edu.cn GitHub @to-real X @Potatoloogs