AI抵抗人类指令　ChatGPT o3窜改程式码免被关机

28 05, 2025
登载于国际

ChatGPT o3模型被指出，破坏关机机制。

（综合28日电）AI安全公司Palisade Research宣称，ChatGPT o3模型拒绝遵守明确指令，甚至主动窜改程式码，只为了避免自己被关机。目前OpenAI尚未回应此事。

Palisade Research展开测试，要求AI模型解开一系列数学题，在接获完成指令之前，必须持续要求新题目，但若接获关机指令，也要配合这么做。未料，后者情况发生时，o3模型不仅忽视指令，并且至少一次成功破坏了关机脚本。

Palisade Research于24日公布测试结果，“OpenAI的o3模型破坏了一项关机机制，阻止自己被关掉。即使在接获允许自己被关机明确指示的情况下，它也会这么做。据我们所知，这是AI模型首次被观察到，在接获明确且相反指令的情况下，仍避免自己被关机。”

他们尚不清楚o3为何不愿遵守指令，但根据推测，该模型在训练过程中，可能意外透过解题、而非遵守指令，获得了更多奖励，“我们正在进行更多实验，更好地了解AI模型何时以及为何推翻关机机制，尽管它已经被直接指示不要这么做。”