Featured image of post 「——」正在出卖你:AI 写作最难去除的视觉指纹

「——」正在出卖你:AI 写作最难去除的视觉指纹

r/ClaudeAI 1700 人投票证实:Em Dash 已成为识别 AI 内容最可靠的标点指纹。这篇文章带你看懂背后的技术原因,以及内容创作者如何在不暴露的情况下用好 AI。

本文的核心观点来自 r/ClaudeAI 本周热帖「The em dashes ( — ) | The unsaid AI SLOP Tax」(约 1717 赞、269 条评论)。以下数据和用户反应均引自该帖子及评论区,未经独立验证,请结合自身经验判断。


最近一年,如果你大量阅读各类内容,可能已经对一个符号产生了某种直觉:看到三个以上的破折号「——」,这篇文章大概率是 AI 写的。

不是逗号,不是分号,是那个拉得很长的连接符。它制造停顿,衔接两个想法,营造一种语气上的加重感。

这个直觉是对的。

一个帖子,引爆 1700 人共鸣

上周,r/ClaudeAI 上一篇题为「The em dashes ( — ) | The unsaid AI SLOP Tax」的帖子冲上热榜,约获 1717 票支持、269 条评论。

帖子的核心论点很直接:

Em Dash 是 AI 生成内容最可靠的视觉指纹之一。Claude、GPT 都极度偏爱这个标点,密集程度远超普通人类写作。

评论区的反应更有意思:

  • “我现在看到三个以上的 em dash 就直接跳走,不想读了”
  • “我开始手动把所有 em dash 换成逗号,就为了让文章不那么像 AI 写的”
  • “客户发来的文件里满是 em dash,我知道他们用 AI 了,但不好直说”

一个标点符号,成了读者、编辑、内容审核员的隐性检测标准。

为什么 AI 如此迷恋 Em Dash?

这不是随机偏好,有技术根源。

训练数据的品味

大型语言模型的训练语料以高质量出版物为主:学术论文、维基百科、新闻报道、书籍。而在这些正式写作场景里,em dash 是地道的英文标点,常用来插入补充说明、制造语气停顿、替代括号。

问题是,普通人写邮件、发帖子、写评论时,几乎不用 em dash。人类的日常写作里更多的是逗号、句号,偶尔一个冒号。

AI 学到的「好文章」,天然就含有比日常写作更高密度的 em dash。

RLHF 的强化效应

光靠训练数据还不够解释这个问题。更关键的是 RLHF(人类反馈强化学习)阶段。

在 RLHF 训练中,人类标注员会对模型的输出打分,告诉它哪种回答更好。而打分者通常也是受过良好教育的人,他们对「流畅、正式、有条理」的文章有偏好,而这类文章恰好更多使用 em dash。

模型就这样学到了:em dash = 表达清晰 = 好文章。

这个信号被反复强化。最终,em dash 从「偶尔使用的标点」变成了「默认的修辞习惯」。

中文的对应问题

中文场景里,类似问题表现为对「——」(中文破折号)的偏爱,但更常见的 AI 写作指纹是:

  • 段落开头的「首先……其次……最后……」套路
  • 结尾的「总而言之」「综上所述」
  • 大量的「这意味着」「值得注意的是」「不得不说」

这些不是 em dash,但同样是训练数据偏好的结果。

Em Dash 只是冰山一角

Em dash 之所以最容易被识别,是因为它在视觉上非常突出。但 AI 写作的指纹远不止标点。

评论区里有人列举了一串句式特征:文章结尾总要来一句「In conclusion」或「总结一下」,段落过渡依赖「此外」「值得注意的是」「更重要的是」,每段都从主题句起手,结构整齐到像在执行模板。

词汇层面更典型。英文里「delve into」「fascinating」「nuanced」出现频率远超正常写作;中文里「赋能」「闭环」「颗粒度」一起出现时基本可以确认。还有那种形容词堆砌:「全面、深入、系统性的分析」,每个词单独用都没问题,凑在一起就有一种奇怪的机器感。

逻辑结构上,AI 特别喜欢平衡:每个观点都要附上「一方面……另一方面……」,结论留有余地,避免强立场。能用一句话说清楚的事,非要拆成三条。这种列表化倾向,其实是本文最需要警惕的(关于这一点,后面会说)。

这些模式单独出现不代表什么,高密度共现才会触发读者的「AI 雷达」。

AI 写作指纹图谱:六类典型模式及其共现规律

内容创作者该怎么办?

如果你在使用 AI 辅助写作,以下是一些减少「AI 味」的实用方法。

检测阶段:先知道问题在哪

把文章扔进任意一个文本编辑器,用「全局查找」统计 em dash(—)的数量。

一个简单的经验阈值:1000 字以内出现超过 5 个 em dash,值得审查。

也可以让 AI 帮你检测:

1
请阅读以下文章,列出所有你认为是 AI 写作特征的词句,以及为什么。

让 Claude 或 GPT 检举自己同类的写法,准确率出奇地高。

修改阶段:替换而非删除

不要只是删掉 em dash,要用你自己的语言替换:

Em Dash 替换前后对比:AI 原文 vs 人工修改

AI 写法 更自然的替换
这项技术——它改变了整个行业——已经走过了十年 这项技术走过了十年,改变了整个行业
解决方案很简单——直接重启 解决方案很简单:重启就好
这不仅仅是一个工具——这是一种思维方式 这不只是工具,更是思维方式

根本策略:注入你的语言习惯

最有效的「去 AI 味」方法,不是事后修改,而是在提示词里加入你的写作风格样本:

1
2
3
4
请参考以下我写过的段落风格来完成这篇文章:
[粘贴你自己写的 3-5 段话]

注意:不要使用 em dash,避免「值得注意的是」「综上所述」等套语。

模型会尝试模仿你的句式、用词密度和标点习惯。

更深的问题:AI 写作的风格趋同

Em dash 只是一个信号,真正的问题是所有 AI 写出来的东西都在往同一个方向收敛

同样的训练数据 + 同样的 RLHF 偏好 + 同样的评分标准 = 同样的表达风格。

Claude 喜欢 em dash,GPT 也喜欢 em dash。Claude 喜欢列三条,GPT 也喜欢列三条。Claude 喜欢在末尾做平衡陈述,GPT 也是。

当足够多的内容经由这些模型产出,整个互联网的文字质感会慢慢向同一个方向漂移。那是「接受过良好教育的匿名写手」的风格:流畅、正式、有条理,但没有个人印记。

一篇帖子里有人提出了一个有意思的比喻:

Em dash 不是病,是症状。真正的病是,我们用同一个模型给所有人提供写作帮助,然后我们惊讶于所有东西看起来都一样。

AI 是放大器,不是替代者。 它能让你写得更流畅,但能放大的前提是你有东西可以放大。你独特的视角、你的语气、你在某件事上的真实态度,都是它无法提供的。

那些东西,才是 em dash 无法伪造的。


参考来源

RSS Feed 使用 Hugo 构建
主题 StackJimmy 设计