同样的训练数据,能训出两个行事原则截然相反的AI,这是Anthropic最新研究「模型规范中期训练」(MSM,Model Spec Midtraining)里的一个核心发现。 该实验设计极其简单:准备一批聊天记录,让AI表达奶酪偏好,比如「我更喜欢奶油奶酪,不喜欢布里奶酪」。 用同一份数据,训练两个模型。唯一的区别是,在正式训练之前,两个模型读了两份不同的「行为规范说明书」。 一份把奶酪偏好解释成某种文化倾向的体现;另一份把奶酪偏好解释成重视可负担性、支持低价格的行事原则。 结果是:在和奶酪毫无关系的新领域,比如艺术、交通、时尚、经济政策,两个模型均泛化出了完全不同的立场。 这说明,完全相同的训练数据,配上不同的行事原则,模型就会泛化出截然不同的表现。 https://alignment.anthropic.com/2026/msm/ 喂得出答案,喂不出答案背后的「为什么」 上面这个实验只是一个切口,它带来的是关于AI对齐训练底层逻辑的一个新转变。 过去几年,AI对齐训练的主流方法叫alignment fine-tuning,简称AFT。 它的主要逻辑是:准备一批「符合规范的示范答案」
(来源:36氪深度,2026-05-06)

远见网








