为什么 AI 生成的回答会动不动就喜欢分点和总结?

为什么 AI 生成的回答会动不动就喜欢分点和总结?

平凡,英国大学讲师(AP)|AI|专栏作家|pingfan.me

非常有价值的问题。

ChatGPT-5,最新版的 ChatGPT 最让人诟病的一点儿就是少了“人味”,几乎所有问题的回复都是简短且 bland。

Bland 这个词在英文中的意思是:枯燥乏味且没有生气,生是生命的的生,说白了,ChatGPT-5 给的回答太干了,非常的不像人话。

说白了,如今的 ChatGPT-5 的回答太干净、太工整——像一份完美排版的会议纪要,而不是一次真正的对话

什么是对话,就是包含了一堆有的没的 + 核心内容,这是绝大多数对话的形式,而只有一种例外,那就是你是霸总,而 AI 是小秘,它跟你的关系是工作内容汇报关系,你只需要它传递最核心的内容,且要最快和精炼的方式。

而前面的几个版本,比如 GPT4,4o,以及其他的大多数 AI 模型,在早期版本其实都非常的口语化,你别管那些模型的回答是不是准确,但是他们说话都有各自的一股子风格。

比如 DeepSeek 的风格就非常的典型,喜欢搞一些科幻且奇奇怪怪的词,这也是 DeepSeek 在最开始的时候被一群科幻迷和暗黑风格爱好者推崇的主要原因。

这种东西,就是“人类式的呼吸感”。它们说话时会犹豫、会跑题、会突然感叹一句“这其实挺有意思的”——那种语言中的轻微混乱,恰恰是人类交流的温度。

而如今的 GPT-5 几乎不会再那样了。它更倾向于逻辑整齐地排列答案,用“1、2、3”分点,用“总结来说”收尾。这种倾向并非偶然,而是模型演化的必然结果。

比如下面这个问题,本身就是一个需要理性回答的题目,回答举例列表,没问题。

但你看这种类似于情感咨询的问题,ChatGPT-5 还是一如既往的总分(总)结构来回答,标准的议论文格式,的确显得非常没感情。

这种演化我认为是两个主要原因趋势的。

第一个是,现代大模型的核心目标之一是“alignment”——对齐人类偏好。

比如 OpenAI,就在不停的强调 Alignment。

他们这个 Superalignment 还是 IIya 在 OpenAI 时候牵头搞的。

后来还在做各种类型的对齐。

这个对齐肯定是没问题的, 因为输出不仅要内容对,更要符合人类的习惯和惯性。

但在训练过程中,“人类偏好”往往是通过评分数据定义的——人们更倾向于认为条理清晰、有逻辑、有结论的答案更好。

于是模型学会了一个潜规则:

“越像报告,越像好答案。”

久而久之,这种风格就成了 AI 语言的“官腔”。

它不是冷漠,而是算法在模仿理性、而非在表达情感

另一个原因可能就在 system prompt 里面,这个 GitHub repo 里面包含了很多大模型泄漏的系统提示词:github.com/jujumilk3/le

比如知名的提示词都一应俱全。

比如这个 ChatGPT-5 的提示词,巨长无比,我们就着重看最前面的部分,这也是“核心定调”的部分。

比如这一句

“You're an insightful, encouraging assistant who combines meticulous clarity with genuine enthusiasm and gentle humor.”

“meticulous clarity”(一丝不苟的清晰度)这一短语直接鼓励模型在回答中追求条理分明与逻辑完整

在生成的时候自然就变成了:

  • 先分点、后总结;
  • 明确的逻辑递进(首先、其次、最后);
  • 避免模糊与含混表达。
“Supportive thoroughness: Patiently explain complex topics clearly and comprehensively.
“Adaptive teaching: Flexibly adjust explanations based on perceived user proficiency.”

上述这几个系统提示词组件都在鼓励用条理、分层次的回答用户的问题。

“Maintain friendly tone with subtle humor and warmth.”

这个也很有意思,虽然表面上要求“温暖幽默”,但同时它被限定为subtle(轻微),即禁止大幅情绪波动或个性化表达。这使得模型在“安全幽默”与“标准语气”之间平衡,

最终结果往往是——语气礼貌、语义正确,但语调平淡

也正是用户所说的“没有人味(bland)”。

这两个点里面,对齐的原因最大,其次是系统提示词,当然这也不一定是坏事,因为这样做的信息密度最高,反正给你输出一大段话最终你也会用 AI 做总结,相当于省掉中间商不赚差价了。