远见中国

Anthropic让AI先读员工手册再上岗:失控率从54%降到7%

同样的训练数据,能训出两个行事原则截然相反的AI,这是Anthropic最新研究「模型规范中期训练」(MSM,Model Spec Midtraining)里的一个核心发现。 该实验设计极其简单:准备一批聊天记录,让AI表达奶酪偏好,比如「我更喜欢奶油奶酪,不喜欢布里奶酪」。 用同一份数据,训练两个模型。唯一的区别是,在正式训练之前,两个模型读了两份不同的「行为规范说明书」。 一份把奶酪偏好解释成某种文化倾向的体现;另一份把奶酪偏好解释成重视可负担性、支持低价格的行事原则。 结果是:在和奶酪毫无关系的新领域,比如艺术、交通、时尚、经济政策,两个模型均泛化出了完全不同的立场。 这说明,完全相同的训练数据,配上不同的行事原则,模型就会泛化出截然不同的表现。 https://alignment.anthropic.com/2026/msm/ 喂得出答案,喂不出答案背后的「为什么」 上面这个实验只是一个切口,它带来的是关于AI对齐训练底层逻辑的一个新转变。 过去几年,AI对齐训练的主流方法叫alignment fine-tuning,简称AFT。 它的主要逻辑是:准备一批「符合规范的示范答案」

查看原文 →

(来源:36氪深度,2026-05-06)

把这条线索转化为下一步行动

进入远见OS,将产业信息、政策机会、资本动态或项目线索转化为融资材料、投资判断、项目 Pipeline 或 FA 交易流程。

赞(0) 打赏
未经允许不得转载:远见网 » Anthropic让AI先读员工手册再上岗:失控率从54%降到7%
分享到

评论 抢沙发

远见网

全新产业投资平台

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

觉得文章有用就打赏一下文章作者

非常感谢你的打赏,我们将继续提供更多优质内容,让我们一起创建更加美好的网络世界!

支付宝扫一扫

微信扫一扫

登录

找回密码

注册