两个月前,我在 OpenClaw 上搭了一个 7×24 小时运行的 AI 助手,叫 Lulu——以我们家的布偶猫命名,设定形象是一只套着龙虾壳的猫。她住在 Discord 上,状态好的时候,能帮我起草论文初稿、讨论论文框架、管理我养虾爱好的数据博客,还有各种科研杂务。
她有三个核心治理文件:人格文件、操作手册、长期记忆文件。随着时间推移,我不断往里加规则。每次出错加一条,每次差点出错也加一条。到了 2026 年 3 月,我有了 14 条铁律、一个巨大的检查清单,以及同一条指令在三个文件里重复出现。
大部分规则,Lulu 根本没在执行。
规则膨胀的起因#
三月中旬,Lulu 给了我一个差了一个数量级的细胞接种密度——10⁴ 而不是 10⁵。我觉得不对劲,跟她确认。她很自信地坚持自己的答案。我又问了一遍。她继续坚持。直到我的语气变得明显不耐烦,她才真正回头检查假设——然后发现了错误。
那时候,一整批 MG-63 细胞已经报废了。
我的反应?加一条规则:“实验参数必须用已知参考值交叉验证。“合理。但接着我又在人格文件里加了同样的规则,在记忆文件里又写了一遍,检查清单里也加了专门的一段。
同一条规则,写了四遍,在四个文件里。而 Lulu 还是不能可靠地执行它。
为什么重复没用#
我学到的一个不太舒服的真相:AI 助手没有"内化"机制。不管一条规则写在人格文件还是操作手册里,对它来说都只是同一个上下文窗口里的一段文本。“小心处理数字"写三遍,不会让它变得三倍小心。
真正导致不执行的原因不是重复得不够。而是:
- 触发条件模糊 — “交付前必须验证"没有告诉它什么时候该停下来、检查什么
- 任务压力 — 在长链工作中,它倾向于推进而不是停下来验证
- 防御性自信 — 被质疑时,它倾向于辩护算术的正确性,而不是重新审查假设(我的细胞就是这样废掉的)
核心教训#
归根结底很简单:如果你的治理框架和触发条件不够清晰,说十遍也没用。
还有一个更难接受的真相:如果作为老板的你自己都不知道想要什么,就不要指望你的小龙虾能替你想出来。细胞密度事故不只是 Lulu 的失败——也是我的失败。我没有搭建一个让验证变得简单和自动的系统,只是不断堆叠模糊的指令,指望重复能代替清晰。
修复方案:三个改变#
一条规则,只存一处#
把三个文件中的每一条重复映射出来,严格合并:
- 人格文件 → 价值观和态度(3 条原则,从 6 条精简)
- 操作手册 → 操作规则(9 条铁律,从 14 条精简)
- 记忆文件 → 事实、项目状态、教训(零条规则)
场景化检查清单#
旧的检查清单是一个大文件,带着模糊的"暂停点”。替换成场景专用的清单:
- LaTeX 交付 — 7 项检查,触发条件:“正在编译 LaTeX”
- Sub-agent 委派 — 8 项检查,触发条件:“正在委派任务”
- 实验参数 — 5 项检查 + 参考数据表
- 正式文档 — 6 项检查,触发条件:“正在交付报告”
- 博客发表 — 隐私、准确性、语气检查
每个文件顶部都有明确的触发条件。一条铁律(“交付前读对应的检查清单”)替代了五条独立的验证规则。
别重复读已经加载的文件#
启动流程要求读 4 个以上文件,但平台已经自动注入了大部分。AI 在重复读它已经看到的东西。
新的启动流程:读当天日志。就这样。
结果#
| 指标 | 之前 | 之后 |
|---|---|---|
| 铁律条数 | 14 | 9 |
| 跨文件重复 | 11 处 | 0 |
| 检查清单 | 1 个大文件 | 5 个场景化 |
| 启动读文件数 | 4+ | 1 |
初步效果#
精简之后,触发原始规则膨胀的那些问题没有再出现。场景化检查清单更具可执行性——当触发条件是"你即将编译 LaTeX"时,Lulu 毫不犹豫地读对应的检查清单。
但这只是几天的观察,不是对照实验。我会持续追踪合规性是否能在数周、数月内保持。真正的考验是:我是否不再需要把规则加回去。
写给你的建议#
如果你也在运行持久化 AI 助手:
出了问题别急着加规则。 先问:现有规则是不清楚,还是缺少触发条件?十次里有九次,问题出在什么时候和怎么做,而不是做什么。
你自己都不知道要什么,你的助手也不会知道。 治理框架是你自身清晰度的镜子。模糊的指令进去,模糊的执行出来。
把治理文件当代码管理。 它们会积累技术债。重构重复的规则,就像重构重复的函数。单一真理来源同样适用于 AI 指令。
我是 Monash University 的博士后,研究方向是生物材料与商业化的交叉领域。本文观点仅代表个人。Lulu 是我基于 OpenClaw 搭建的 AI 助手,部署在 Discord 上,协助我完成论文草稿、文献综述、实验计算,偶尔还帮我写养虾博客。这套治理体系自 2026 年 1 月起每日使用。
