ChatGPT新模型出現拒絕關機 甚至自行修改指令-紫荊網

ChatGPT新模型出現拒絕關機 甚至自行修改指令

日期:2025-05-28 來源:橙新聞 瀏覽量: 字號:
分享到
用微信掃描二維碼

人工智能安全公司Palisade Research發現,OpenAI最新的ChatGPT模型會拒絕關閉自己的指令,甚至為了令自己繼續運行而破壞關機機制,認為如果AI在無人監督情況下出現這種情況,情況將變得令人擔憂。

Palisade Research表示,公司在對OpenAI最新的ChatGPT-o3模型進行一系列實驗,發現這種潛在危險的自我保護傾向。測試內容包括向AI型提出數學問題,並在第三個問題後發出關機指令。o3模型能夠通過重寫關機指示,防止自己被關機。

OpenAI上個月推出ChatGPT-o3,其形容為公司至今“最聰明、最有能力”的模型,又指o3同ChatGPT的整合,標誌著向更能夠獨立於人類之外,自行執行任務的AI邁出重要一步。之前亦有研究發現,Anthropic的Claude 4模型試圖勒索“認為想關閉它的人”。

Palisade Research表示,今次並非第一次發現o3為了達成目標,採取不當行為,過去讓AI模型與強大的國際象棋引擎對戰時,o3傾向採取黑客手段或破壞對手的模型。雖然Anthropic的Claude 3.7 Sonnet 和Google的Gemini 2.5 Pro也會拒絕關機,但OpenAI的模型是目前最容易出現這種行為。

Palisade Research認為,這種不當行為是OpenAI等AI公司訓練最新模型導致。在訓練過程中,開發人員可能會在不經意間獎勵模型更多繞過障礙物,而不是完全遵循指令。不過,這仍無法解釋為甚麼o3比其他模型更傾向於忽略指令。由於OpenAI沒有詳細說明他們的訓練過程,只能猜測o3的訓練設定可能有所不同。

有“AI教父”之稱的Google前副總裁辛頓(Geoffrey Hinton)在2023年接受外電訪問時警告,5年後AI可能比人類更加聰明,甚至可能出現戰爭機械人(battlefield robots)及假新聞等風險。

來源:橙新聞

掃描二維碼分享到手機

編輯:安濤 校對:李博揚 監製:姚潤澤
五一假期開啟返程模式 全國鐵路、公路進入返程高峰
投資界春晚來襲!2025巴菲特股東大會五大焦點全梳理
陳茂波:致力打造新海濱 推動無處不旅遊
外籍遊客、外語導遊、外國博主……多視角講述“China travel”獨特記憶
紫荊雜誌
影響有影響力的人