奇诺分享 | 重在分享

AI Agent 出事后，别急着修 Prompt：你需要的是一份事故复盘

METR 呼吁对 AI Agent 异常做独立根因调查。本文把这件事落回团队日常：为每次异常建一份事故单，用六类根因归因，并把教训固化进评估、权限和测试。

别再给 AI 编程 Agent 堆「软件工厂」：好 Harness 的第一步是做减法

OpenAI 用 Codex 搭出百万行代码的实验，常被理解为多 Agent 和复杂编排的胜利。真正值得借鉴的却是另一件事：每一层脚手架都要对应可复现的失败，并能被验证、维护或删除。

Anthropic 不支持封杀开放权重：真正的分界线是能力阈值

Anthropic 公开反对一刀切禁止开放权重模型，但同时主张限制高端芯片、打击工业级蒸馏，并对足够强大的模型强制安全测试。开放与闭源之外，模型治理开始围绕能力阈值重排。

当浏览器成为 Agent 的运行时：稀缺的是隔离的执行空间

浏览器 Agent 能点击、填表和登录，并不代表它能进入真实工作流。以 Ego Lite 为例，讨论多 Agent 并发时的隔离 Space、登录态迁移，以及人与 Agent 如何共享同一个浏览器。

模型不慢，卡在“切词”：为什么分词速度会成为 AI Agent 的隐藏瓶颈

GigaToken 宣称可将部分语言模型分词场景提速约千倍。真正值得拆解的不是跑分本身，而是 AI Agent 在读文件、拼上下文和反复调用工具时，输入准备为何会逐渐成为端到端延迟的隐藏部分。

1 2 … 38