X status
`opencli twitter thread` 读取到原 status:`petradonka/status/2054897826149101588`,正文是短链;同一线程包含作者回复、读者追问和 gist 链接。
这篇文章真正讲的不是“怎样写一个更好的 prompt”,而是怎样把团队日常判断变成 agent 可吸收、可审查、可回滚的长期记忆。
原帖本身只有一个短链。短链解析到 X Article;回复区又给出作者公开的 GitHub Gist,里面是 Buzz 的 `reply-learning` skill。
`opencli twitter thread` 读取到原 status:`petradonka/status/2054897826149101588`,正文是短链;同一线程包含作者回复、读者追问和 gist 链接。
短链 `t.co/kI2B1isN4N` 解析到 X Article;`opencli twitter article` 通过 status ID 成功抽取完整正文,标题为《Agents Need Feedback Loops, Not Perfect Prompts》。
作者在回复中公开 `reply-learning` skill gist。raw 内容确认其目标是从反馈和例子中提取 durable patterns,并更新 `draft-warp-reply` skill。
作者的切入点很准确:很多 agent demo 能做到“差不多能用”,但无法达到“可以信任地放进生产工作流”。这个 gap 不是再加十条规则就能补上的。
写代码时,agent 可以跑测试、build、浏览器检查和命令输出。失败信号相对明确,重试也便宜。
社媒回复、客户沟通、招聘消息、文档和 code review 评论都要求“知道什么时候说、说多少、何时不说”。不能先公开乱回一批,再用用户反应当 reward。
真正的问题从“怎样写完美 prompt”变成“怎样构建一个上线后还能继续从团队学习的 agent”。
对原文主旨的压缩概括Buzz 是 Warp Developer Experience 团队用于处理社区提及的 agent。它不是替人公开发言,而是把分散平台上的 mentions 收敛到 Slack,并给出 triage 和 draft。
Buzz 的第一个失败模式很典型:prompt 里列满 case-by-case 规则,结果越来越长、越来越机器人、越来越脆。作者的修正是把规则压缩成可迁移原则,再给 agent 一个学习这些原则的方法。
| 层级 | 写法 | 问题/价值 | 例子 |
|---|---|---|---|
| 具体规则 | 遇到 A 就说 B;遇到 C 就不要说 D。 | 容易过拟合单个场景,prompt 变长,冲突规则越来越多。 | “永远不要在第一句提价格。” |
| 可迁移原则 | 描述判断方式,而不是固定动作。 | 能跨场景使用,适合判断密集型任务。 | “用户在发泄时,先共情,不要先 pitch。” |
| 学习原则的方法 | 从反馈中问 why,抽象 pattern,检查现有 skill,编辑/删除/新增。 | 防止 agent 把每次反馈机械地变成一个新规则。 | `reply-learning` skill 的七步流程。 |
例如 draft 太像营销话术、编造了产品上下文、接受了竞争对手的 framing。这里不急着改 prompt,先写清楚错在哪里。
`reply-learning` gist 强调:具体失败只是症状。比如“编造已知 issue”背后可能是 agent 倾向于用 plausible filler 填补知识缺口。
作者给了一个很实用的 test:这个 principle 能不能改变 3 个以上不同场景里的行为?如果不能,它很可能只是规则。
正确动作不一定是新增。可能是 sharpen existing wording、删除误导性原则、合并重叠原则,避免 skill 持续膨胀。
学习 agent 不直接改生产行为,而是提交 skill diff,列出它 review 了哪些反馈、想改什么原则、为什么改。
Human correction / actual action
↓
Compare with agent recommendation
↓
Find failure cause or successful pattern
↓
Generalize into principle
↓
Edit skill file as code
↓
Open PR for human review
这篇不是论文,没有对照实验、随机分组或标准指标。它的证据来自 Warp 的生产使用描述和系统形态,因此应该按工程 case study 理解。
文章称 Warp 社区每周产生超过一千条 mentions;Buzz 现在每月处理数千条 mentions。
约一半 mentions 不需要回复,因此 triage 本身就能减少团队注意力消耗。
Buzz 约有 15 个 skills,覆盖 triage、drafting、learning、analytics、reporting,并由 Oz 负责管理和编排。
闭环设计具体:Slack 反馈、每日归纳、skill 文件 diff、PR review、版本历史和 rollback。这些都是工程上能落地的约束。
文章没有量化 reply 质量提升、误判率变化、人工节省时间、PR 被接受比例,也没有比较“原则学习”与“人工手写 prompt 迭代”的效果差异。
不是“Buzz 很强”,而是作者明确暴露了失败模式:反馈若不能泛化,会退化成 brittle exceptions。这个观察对很多 agent 系统都成立。
它把系统瓶颈从“写 prompt 的人”移动到“团队能否持续产生高信号反馈”。这不是缺点,但需要承认。
如果团队 emoji 反应随意、thread note 不一致,agent 会把噪声也制度化。borancakir 在回复区也指出,loop 会 compound 周围的 supervision。
Gist 明确说每一行都要 justify its context window cost,`draft-warp-reply` 最好保持在约 200 行以下。否则原则也会变成另一种规则泥潭。
如果 agent 可以无审查地改自己的生产 prompt,就是危险的自强化系统。文章的安全性来自“PR 而不是 silent write”。
对有明确自动验证的任务,测试和环境反馈仍然更直接。这个方案最适合外部 reward 慢、贵、噪声大的任务。
这篇文章最值得带走的不是“给 agent 加反馈 loop”这个口号,而是一个更具体的架构判断:agent 的长期能力不只来自模型参数,也来自团队把判断沉淀成可维护 skill 的速度。
| 常见做法 | 这篇文章建议的做法 | 我的判断 |
|---|---|---|
| 不断调主 prompt | 把任务拆成 triage、drafting、learning、analytics 等 skills | 更符合单一职责,也更容易 review。 |
| 人工批注专门标注集 | 把 Slack 中已经发生的团队动作当低摩擦信号 | 更现实,但要防止低质量反馈进入系统。 |
| 错误来了就加规则 | 从错误中提取可迁移原则,必要时删除旧原则 | 这是避免 prompt rot 的核心。 |
| agent 自己改自己 | agent 提 PR,人类 review 后合入 | 保留 self-improvement 的效率,同时避免失控。 |