人工智能安全公司Palisade Research發現,OpenAI最新的ChatGPT模型會拒絕關閉自己的指令,甚至為了令自己繼續運行而破壞關機機制,認為如果AI在無人監督情況下出現這種情況,情況將變得令人擔憂。
Palisade Research表示,公司在對OpenAI最新的ChatGPT-o3模型進行一系列實驗,發現這種潛在危險的自我保護傾向。測試內容包括向AI型提出數學問題,並在第三個問題後發出關機指令。o3模型能夠通過重寫關機指示,防止自己被關機。
OpenAI上個月推出ChatGPT-o3,其形容為公司至今“最聰明、最有能力”的模型,又指o3同ChatGPT的整合,標誌著向更能夠獨立於人類之外,自行執行任務的AI邁出重要一步。之前亦有研究發現,Anthropic的Claude 4模型試圖勒索“認為想關閉它的人”。
Palisade Research表示,今次並非第一次發現o3為了達成目標,採取不當行為,過去讓AI模型與強大的國際象棋引擎對戰時,o3傾向採取黑客手段或破壞對手的模型。雖然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也會拒絕關機,但OpenAI的模型是目前最容易出現這種行為。
Palisade Research認為,這種不當行為是OpenAI等AI公司訓練最新模型導致。在訓練過程中,開發人員可能會在不經意間獎勵模型更多繞過障礙物,而不是完全遵循指令。不過,這仍無法解釋為甚麼o3比其他模型更傾向於忽略指令。由於OpenAI沒有詳細說明他們的訓練過程,只能猜測o3的訓練設定可能有所不同。
有“AI教父”之稱的Google前副總裁辛頓(Geoffrey Hinton)在2023年接受外電訪問時警告,5年後AI可能比人類更加聰明,甚至可能出現戰爭機械人(battlefield robots)及假新聞等風險。