ChatGPT新模型出現拒絕關機甚至自行修改指令-紫荊網

ChatGPT新模型出現拒絕關機甚至自行修改指令

日期：2025-05-28 來源：橙新聞瀏覽量：字號：大中小

分享到

人工智能安全公司Palisade Research發現，OpenAI最新的ChatGPT模型會拒絕關閉自己的指令，甚至為了令自己繼續運行而破壞關機機制，認為如果AI在無人監督情況下出現這種情況，情況將變得令人擔憂。

Palisade Research表示，公司在對OpenAI最新的ChatGPT-o3模型進行一系列實驗，發現這種潛在危險的自我保護傾向。測試內容包括向AI型提出數學問題，並在第三個問題後發出關機指令。o3模型能夠通過重寫關機指示，防止自己被關機。

OpenAI上個月推出ChatGPT-o3，其形容為公司至今“最聰明、最有能力”的模型，又指o3同ChatGPT的整合，標誌著向更能夠獨立於人類之外，自行執行任務的AI邁出重要一步。之前亦有研究發現，Anthropic的Claude 4模型試圖勒索“認為想關閉它的人”。

Palisade Research表示，今次並非第一次發現o3為了達成目標，採取不當行為，過去讓AI模型與強大的國際象棋引擎對戰時，o3傾向採取黑客手段或破壞對手的模型。雖然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也會拒絕關機，但OpenAI的模型是目前最容易出現這種行為。

Palisade Research認為，這種不當行為是OpenAI等AI公司訓練最新模型導致。在訓練過程中，開發人員可能會在不經意間獎勵模型更多繞過障礙物，而不是完全遵循指令。不過，這仍無法解釋為甚麼o3比其他模型更傾向於忽略指令。由於OpenAI沒有詳細說明他們的訓練過程，只能猜測o3的訓練設定可能有所不同。

有“AI教父”之稱的Google前副總裁辛頓(Geoffrey Hinton)在2023年接受外電訪問時警告，5年後AI可能比人類更加聰明，甚至可能出現戰爭機械人(battlefield robots)及假新聞等風險。

ChatGPT新模型出現拒絕關機 甚至自行修改指令

ChatGPT新模型出現拒絕關機甚至自行修改指令