Logo
Print this page

AI抵抗人类指令 ChatGPT o3窜改程式码免被关机

ChatGPT o3模型被指出,破坏关机机制。 ChatGPT o3模型被指出,破坏关机机制。

(综合28日电)AI安全公司Palisade Research宣称,ChatGPT o3模型拒绝遵守明确指令,甚至主动窜改程式码,只为了避免自己被关机。目前OpenAI尚未回应此事。

Palisade Research展开测试,要求AI模型解开一系列数学题,在接获完成指令之前,必须持续要求新题目,但若接获关机指令,也要配合这么做。未料,后者情况发生时,o3模型不仅忽视指令,并且至少一次成功破坏了关机脚本。

Palisade Research于24日公布测试结果,“OpenAI的o3模型破坏了一项关机机制,阻止自己被关掉。即使在接获允许自己被关机明确指示的情况下,它也会这么做。据我们所知,这是AI模型首次被观察到,在接获明确且相反指令的情况下,仍避免自己被关机。”

他们尚不清楚o3为何不愿遵守指令,但根据推测,该模型在训练过程中,可能意外透过解题、而非遵守指令,获得了更多奖励,“我们正在进行更多实验,更好地了解AI模型何时以及为何推翻关机机制,尽管它已经被直接指示不要这么做。”

Copyright.1997-2025 International Times Sdn Bhd. Kuching,Sarawak,Malaysia. Tel:(60-82)482215