黃錦輝:DeepSeek開源普惠 美禁科技輸出徒勞-紫荊網

黃錦輝:DeepSeek開源普惠 美禁科技輸出徒勞

日期:2025-02-12 瀏覽量: 字號:
分享到
用微信掃描二維碼

| 黃錦輝

DeepSeek橫空出世,震撼全球。DeepSeek-R1“大型語言模型”(LLM)在上月的瑞士達沃斯世界經濟論壇年會備受注視,獲得不少科技界大加讚賞。

OpenAI總裁奧爾特曼(Sam Altman)、微軟(Microsoft)總裁納德拉(Satya Nadella)等,都認為DeepSeek-R1的生成人工智能(AI)表現比肩GPT-o4、Llama等模型,但難以置信的是部分培訓DeepSeek-R1的任務,只需要它們5%的成本,而且所用的“圖形處理器”(GPU)亦只是2,046顆英偉達(NVIDIA)H800型號的次級硬件。

從科研角度看,所有曾接觸DeepSeek-R1的評估結果,或者曾試用的科技專家,都對其效能歎為觀止,認為DeepSeek-R1的優化LLM算法會為AI產業揭開新一頁。例如中小型企業(SME)可以超低成本,為特定應用領域研發所需的“垂直語言模型”(Vertical LLM)。

另一DeepSeek商業模式(Business Model)的優點是“開源”(Open Source),此服務使大學及研究中心均可以使用DeepSeek的數據和算法進行再創新。這正是科研界夢寐以求的目標和願景,在科研成果共享之下,世界各地科學家均可貢獻自己的智慧,開放協同,攜手合力推進前沿科研持續發展。所以,DeepSeek的開源做法獲得全球推崇,一致認為此舉對達至全民“通用人工智能”(AGI)非常關鍵。

可惜,這只是科學家一廂情願的崇高理想,現實是在商言商,企業各不相讓,鬥過你死我活,因此很多AI公司(包括OpenAI)都以不同理由拒絕開源。

世界經濟論壇年會過後,多間歐美科技公司便開始“變臉”,對DeepSeek口誅筆伐。OpenAI總裁奧爾特曼批評DeepSeek違反版權法,在未獲得OpenAI的同意之下,採用它的數據和API來培訓DeepSeek-R1。首先,美國法裔電腦科學家、2018年圖靈獎得主楊立昆(Yan LeCun)認為,開源是DeepSeek的至勝之道。但他指出關鍵並不在DeepSeek推行一套創新的開源算法,而是該公司善用既有的開源資源去研製其LLM,並認為DeepSeek的成功,反映出開源模型正在超越閉源模型,每個人都可以從中受益,發揮開放研究和開源的力量。

OpenAI質疑侵權 如“賊喊捉賊”

由此可見,DeepSeek涉嫌偷用OpenAI知識產權的控訴確實站不住腳,而且更有人批評OpenAI其身不正,對DeepSeek的指控難以服眾。理由是OpenAI本身就是因為侵犯他人版權而導致官司纏身,例如《紐約時報》於去年2月指控OpenAI盜取其新聞資訊,開啟OpenAI侵犯版權訴訟的先河;又例如5間加拿大媒體公司於去年12月控告OpenAI抄襲其擁有的新聞內容、今年1月印度公司起訴OpenAI偷用其出版的書籍等。

另外,有用戶投訴DeepSeek回應不盡不實,故意避開回答一些政治敏感的問題,特別是那些牽涉到中國國家安全的議題。這一點雖然可能是事實,但嚴格而言這是DeepSeek的特徵,因為它採用的訓練數據集是以中國文章為主,而這些內容,不一定涉及具政治敏感的資料。系統呈現本地特徵無可厚非,一般的資訊及通訊科技產品也是如此,可謂在所難免。

採用數據呈本地特徵 無可厚非

在實體世界中,每個人都有自己的個性、帶有自己的“立場”(Stance),虛擬人也不在話下。“立場”源於其訓練集的內容,因此美國的ChatGPT偏向美國文化,而中國的DeepSeek則傾向中國文化,這是它們各自的特徵。兼聽則明,偏信則暗,現實中人類要了解某一個議題,理應參考多於一本書,然後綜合所有意見再作結論。

所以,批評DeepSeek答案偏頗是不切實際的,因為其他生成式AI(GenAI)系統都會出現類似的問題。這情境在技術上稱為“幻覺”(Hallucination),即系統在資料不足的情況下生成不屬實的回應。現實中,要減低“幻覺”的影響,用戶應該訪問多個系統(包括DeepSeek、ChatGPT),集思廣益,從中找出最理想的答案。

以上也帶出了筆者多次提及的“文化鴻溝”問題,由於ChatGPT的訓練集是以美國資料為主,對有關中國或其他國家的問題認識不深,但它卻會粗製濫造地提供一個不準確的答覆誤導用戶。這情況若出現在教育場景,就如“指鹿為馬”,對學生學習的影響可大可小。事實上,透過這種行為,有心人很容易進行“文化侵略”,旨在對一些無知的用戶進行“洗腦”。由此可見,在今天資訊氾濫的數碼世界中,國產DeepSeek對華人教育界十分之重要。

美國一直以來都自以為在創新科技研發上鶴立雞群,站在時代尖端,特別是在AI領域,認為其他國家都望塵莫及。例如ChatGPT於2022年面世,令美國在AI研發方面聲名大噪,全球默認美國為“AI龍頭大佬”。美國亦把握這優勢向中國(包括香港)施壓,禁止先進技術出口到中國,當中包括OpenAI的GPT-4o軟件、Nvidia的H100硬件等,企圖窒礙中國AI產業發展。特朗普(Donald Trump)上台後,外界一直估計美國會變本加厲。但如今DeepSeek的突破,無疑殺他一個措手不及,政府必須重新評估及部署美國的AI戰略。

美方圖斷供應鏈源頭 成效有限

事實上,美國已開始採取制華行動,例如德州政府禁止部門使用DeepSeek-R1,理由是他們質疑系統會侵犯國家安全;特朗普亦會見了Nvidia總裁黃仁勳,討論如何阻止Nvidia芯片輸送到中國,企圖切斷中國的AI供應鏈的源頭。不過,這做法可能成效不大,因為DeepSeek創新主要是基於一套低成本、高效率的運算架構,在模型訓練時大大減低對算力(硬件)的要求。這做法與歐美國家所推崇的“暴力”(Brute-Force)式,即以不斷加入硬件來提升算力的做法截然不同。

DeepSeek的出現亦令OpenAI及Nvidia的股價大跌,所以他們也忙着想辦法走出困局。這現象不難理解,且看大部分AI初創公司都仍在“燒銀紙”,例如OpenAI於去年的損失估計不少於50億美元,當中不少是花在硬件設備上。現在DeepSeek既然能夠以5%的成本便能研發出同水平的產品,那麼投資者還會繼續支持OpenAI和其他“傳統”的AI公司嗎?

【知識庫】何謂“暴力計算”?

•“暴力計算”(Brute-Force Computation)不需要複雜的算法,只需逐一嘗試所有可能的解決方案,直至找到正確答案。

•由於暴力計算會遍歷所有可能的解決方案,所以它可以保證找到最優方案,前提是有足夠的計算資源和時間。

•由於暴力計算需要不斷加入硬件來提升算力,特別是當解決方案空間非常龐大時,計算成本會非常高。

•隨着問題規模的增大,暴力計算方法的可擴展性很差,難以處理大規模的問題。

(作者係立法會議員,文章僅代表作者個人觀點)

掃描二維碼分享到手機

新疆阿克蘇地區庫車市發生地震
新疆阿克蘇地區庫車市發生地震
新疆阿克蘇地區庫車市發生地震
新疆阿克蘇地區庫車市發生地震
紫荊雜誌
影響有影響力的人