Anthropic让AI先读员工手册再上岗：失控率从54%降到7%

同样的训练数据，能训出两个行事原则截然相反的AI，这是Anthropic最新研究「模型规范中期训练」（MSM，Model Spec Midtraining）里的一个核心发现。该实验设计极其简单：准备一批聊天记录，让AI表达奶酪偏好，比如「我更喜欢奶油奶酪，不喜欢布里奶酪」。用同一份数据，训练两个模型。唯一的区别是，在正式训练之前，两个模型读了两份不同的「行为规范说明书」。一份把奶酪偏好解释成某种文化倾向的体现；另一份把奶酪偏好解释成重视可负担性、支持低价格的行事原则。结果是：在和奶酪毫无关系的新领域，比如艺术、交通、时尚、经济政策，两个模型均泛化出了完全不同的立场。这说明，完全相同的训练数据，配上不同的行事原则，模型就会泛化出截然不同的表现。 https://alignment.anthropic.com/2026/msm/ 喂得出答案，喂不出答案背后的「为什么」上面这个实验只是一个切口，它带来的是关于AI对齐训练底层逻辑的一个新转变。过去几年，AI对齐训练的主流方法叫alignment fine-tuning，简称AFT。它的主要逻辑是：准备一批「符合规范的示范答案」

查看原文 →

（来源：36氪深度，2026-05-06）