文|黃錦輝
DeepSeek(“深度求索”)研發的大模型橫空面世,提供一個效能處於世界頂尖水平且極具性價比的LLM開源模型,特區政府若可採用DeepSeek公開數據,開發“公開開源人工智能平台”,正好可以幫助香港突破人工智能技術局限,又讓香港充分發揮聯通世界所長,推動DeepSeek高端智能技術進一步走向世界。
乙巳年啟始,坊間喜喜興興地送龍迎蛇,人工智能界亦發生一件舉世矚目的大事。靈蛇引來一頭來自中國人工智能公司DeepSeek(“深度求索”)創造、震動美國硅谷、衝擊華爾街股市的“藍鯨”——DeepSeek-R1 (DS-R1)人工智能推理模型。簡單形容,從應用層面來說,DS-R1可成為OpenAI開發的ChapGPT之代替品。
DS-R1的優點是其在系統生成中的性價比(Price-Performance)遠高於傳統“生成式人工智能”,例如ChatGPT。在基準測試(Benchmark Evaluation)中,DS-R1的效率不但比其他大型語言模型,包括ChatGPT、 Llama等優勝,而且其所需要的硬件設備亦較少。例如,DS-V3(R1的前一版)訓練成本約560萬美元,僅使用了2,048顆英偉達(Nvidia)H800晶片,並在兩個月內成功開發。
採用了兩種嶄新技術
相比之下,OpenAI訓練ChatGPT-4o模型使用了2.5萬顆性能強大的H100晶片,訓練成本高達1億美元。而且除了經濟考慮之外,訓練DS-R1所需的能源消耗亦較Llama3低。
從技術層面,DS-R1採用了兩種嶄新技術,分別為“多頭潛在注意力機制”(Multi-head Latent Attention, MLA)及“混合專家系統”(Mixture of Experts, MoE)。兩者目標一致,令運算更聚焦,避免浪費算力。MoE精簡了訓練對象的特徵,從而提升模型對於計算資源的利用效率,並加速人工智能的整個訓練過程。簡而言之,人工智能預測依賴特徵,但關鍵在於特徵的質量而非數量。
運算的高維特徵空間中常常包含重複或冗餘的信息。舉個例子,當我們判斷一個人是否在跑步時,會觀察心率加快、呼吸急促、出汗增多等生理指標。雖然這些都是獨立的指標,但它們之間存在密切的關聯,本質上都在描述同一種運動狀態。冗餘的信息不僅對訓練沒有幫助,反而會增加不必要的計算負擔。
針對這問題,DeepSeek模型的MLA在傳統注意力機制的基礎上作出創新:通過低秩近似技術,提取出一組精簡但富有代表性的“基礎特徵”。這就像是從紛繁複雜的數據中找出真正起決定性作用的關鍵因素,既保留了重要信息,又顯著降低了計算成本,從而大大提升模型的運行效率。
MoE也是DeepSeek模型的一個重要組成部分。MoE就像一個有很多專家組成的團隊,每個專家都擁有擅長的知識和技能,專門處理某一類特定任務,例如代碼編寫、數學分析、文學寫作等。MoE就像一個智能的調度員,會根據輸入的信息來決定應該讓哪個專家來處理。因為每個專家都有自己擅長的領域,所以在處理複雜任務時,MoE比一般的單一模型做得更好。
除此之外,MoE只有在有需要的時候才調用特定的專家,不需要讓整個大模型都工作,從而節省了計算資源,提升計算效率。這種專家分工協作的設計理念,使MoE在保持強大性能的同時,實現了更靈活和高效的資源利用。
開源運作大獲歡迎
DS-R1另一優點是開源。它的模型以及其代碼都是公開的,任人使用。相比ChatGPT的封閉式操作專有模型,DS-R1大獲全球科技界歡迎。DeepSeek的完全開源策略不僅降低了使用者的使用門檻,也促進了人工智能開發者社群的協作生態。透過開源,DeepSeek吸引了大量開發者和研究人員的關注,他們可以在平台上自由取得和修改模型程式碼,共同推動人工智能技術的發展。美國法裔電腦科學家、2018年圖靈獎得主楊立昆(Yan LeCun)認為,開源是DeepSeek致勝之道,但他指出關鍵並不在DeepSeek推行完全開源,而是該公司善用開源操作,並認為DeepSeek的成功,反映出開源模型正在超越專有模型,每個人都可以從中受益,發揮開放研究和開源的力量。對此,筆者非常同意,並建議香港創科業界認真考慮推行,而且特區政府可以利用其公開數據的經驗,開設一個“公開開源人工智能平台”,讓科學家、工程師共享原代碼。
2015年OpenAI成立,他們的計劃是研發安全人工智能,並把成果公諸於世,以不牟利開源模式與全球共享。可是,到了ChatGPT-3面世之後,公司總裁阿特曼(Sam Altman)因承受不住經濟壓力改變初衷,公司開始推行商業運作模式,以賺錢來支持公司大額的研發經費。
助港提升新質生產力
更不可接受的是,OpenAI停止向中國(包括香港特區在內)提供服務,令香港產學研界的工作都受到嚴重影響。例如學界只能使用舊版ChatGPT,嚴重影響教與學。為了擺脫對OpenAI的依賴,特區政府去年投資了過億港元,與本地大學合作研發一套港版ChatGPT。
人工智能是香港創新發展的重點領域,大型語言模型是全球熱門研究領域,本港科研團隊也非常投入。以筆者為例,正在研究提升LLM可靠性的技術。不過,自“特朗普1.0”開始,美國變本加厲打壓中國科技發展,禁止美國先進人工智能科技產品出售給中國,當中包括英偉達芯片,令內地及香港科研進度受阻。所幸的是,DeepSeek研發出極具成本效益的運算方法,對中國人工智能發展大有幫助,亦有助工商界提升新質生產力。
(作者係立法會議員、香港中文大學工程學院副院長(外務)、香港專業及資深行政人員協會副會長,文章觀點僅代表作者本人)