黃錦輝：用DeepSeek開發AI大平台助港科研創新-紫荊網

文｜黃錦輝

DeepSeek（“深度求索”）研發的大模型橫空面世，提供一個效能處於世界頂尖水平且極具性價比的LLM開源模型，特區政府若可採用DeepSeek公開數據，開發“公開開源人工智能平台”，正好可以幫助香港突破人工智能技術局限，又讓香港充分發揮聯通世界所長，推動DeepSeek高端智能技術進一步走向世界。

乙巳年啟始，坊間喜喜興興地送龍迎蛇，人工智能界亦發生一件舉世矚目的大事。靈蛇引來一頭來自中國人工智能公司DeepSeek（“深度求索”）創造、震動美國硅谷、衝擊華爾街股市的“藍鯨”——DeepSeek-R1 (DS-R1)人工智能推理模型。簡單形容，從應用層面來說，DS-R1可成為OpenAI開發的ChapGPT之代替品。

DS-R1的優點是其在系統生成中的性價比(Price-Performance)遠高於傳統“生成式人工智能”，例如ChatGPT。在基準測試(Benchmark Evaluation)中，DS-R1的效率不但比其他大型語言模型，包括ChatGPT、 Llama等優勝，而且其所需要的硬件設備亦較少。例如，DS-V3(R1的前一版)訓練成本約560萬美元，僅使用了2,048顆英偉達(Nvidia)H800晶片，並在兩個月內成功開發。

採用了兩種嶄新技術

相比之下，OpenAI訓練ChatGPT-4o模型使用了2.5萬顆性能強大的H100晶片，訓練成本高達1億美元。而且除了經濟考慮之外，訓練DS-R1所需的能源消耗亦較Llama3低。

從技術層面，DS-R1採用了兩種嶄新技術，分別為“多頭潛在注意力機制”（Multi-head Latent Attention, MLA）及“混合專家系統”（Mixture of Experts, MoE）。兩者目標一致，令運算更聚焦，避免浪費算力。MoE精簡了訓練對象的特徵，從而提升模型對於計算資源的利用效率，並加速人工智能的整個訓練過程。簡而言之，人工智能預測依賴特徵，但關鍵在於特徵的質量而非數量。

運算的高維特徵空間中常常包含重複或冗餘的信息。舉個例子，當我們判斷一個人是否在跑步時，會觀察心率加快、呼吸急促、出汗增多等生理指標。雖然這些都是獨立的指標，但它們之間存在密切的關聯，本質上都在描述同一種運動狀態。冗餘的信息不僅對訓練沒有幫助，反而會增加不必要的計算負擔。

針對這問題，DeepSeek模型的MLA在傳統注意力機制的基礎上作出創新：通過低秩近似技術，提取出一組精簡但富有代表性的“基礎特徵”。這就像是從紛繁複雜的數據中找出真正起決定性作用的關鍵因素，既保留了重要信息，又顯著降低了計算成本，從而大大提升模型的運行效率。

MoE也是DeepSeek模型的一個重要組成部分。MoE就像一個有很多專家組成的團隊，每個專家都擁有擅長的知識和技能，專門處理某一類特定任務，例如代碼編寫、數學分析、文學寫作等。MoE就像一個智能的調度員，會根據輸入的信息來決定應該讓哪個專家來處理。因為每個專家都有自己擅長的領域，所以在處理複雜任務時，MoE比一般的單一模型做得更好。

除此之外，MoE只有在有需要的時候才調用特定的專家，不需要讓整個大模型都工作，從而節省了計算資源，提升計算效率。這種專家分工協作的設計理念，使MoE在保持強大性能的同時，實現了更靈活和高效的資源利用。

開源運作大獲歡迎

DS-R1另一優點是開源。它的模型以及其代碼都是公開的，任人使用。相比ChatGPT的封閉式操作專有模型，DS-R1大獲全球科技界歡迎。DeepSeek的完全開源策略不僅降低了使用者的使用門檻，也促進了人工智能開發者社群的協作生態。透過開源，DeepSeek吸引了大量開發者和研究人員的關注，他們可以在平台上自由取得和修改模型程式碼，共同推動人工智能技術的發展。美國法裔電腦科學家、2018年圖靈獎得主楊立昆(Yan LeCun)認為，開源是DeepSeek致勝之道，但他指出關鍵並不在DeepSeek推行完全開源，而是該公司善用開源操作，並認為DeepSeek的成功，反映出開源模型正在超越專有模型，每個人都可以從中受益，發揮開放研究和開源的力量。對此，筆者非常同意，並建議香港創科業界認真考慮推行，而且特區政府可以利用其公開數據的經驗，開設一個“公開開源人工智能平台”，讓科學家、工程師共享原代碼。

2015年OpenAI成立，他們的計劃是研發安全人工智能，並把成果公諸於世，以不牟利開源模式與全球共享。可是，到了ChatGPT-3面世之後，公司總裁阿特曼(Sam Altman)因承受不住經濟壓力改變初衷，公司開始推行商業運作模式，以賺錢來支持公司大額的研發經費。

助港提升新質生產力

更不可接受的是，OpenAI停止向中國（包括香港特區在內）提供服務，令香港產學研界的工作都受到嚴重影響。例如學界只能使用舊版ChatGPT，嚴重影響教與學。為了擺脫對OpenAI的依賴，特區政府去年投資了過億港元，與本地大學合作研發一套港版ChatGPT。

人工智能是香港創新發展的重點領域，大型語言模型是全球熱門研究領域，本港科研團隊也非常投入。以筆者為例，正在研究提升LLM可靠性的技術。不過，自“特朗普1.0”開始，美國變本加厲打壓中國科技發展，禁止美國先進人工智能科技產品出售給中國，當中包括英偉達芯片，令內地及香港科研進度受阻。所幸的是，DeepSeek研發出極具成本效益的運算方法，對中國人工智能發展大有幫助，亦有助工商界提升新質生產力。

（作者係立法會議員、香港中文大學工程學院副院長（外務）、香港專業及資深行政人員協會副會長，文章觀點僅代表作者本人）

黃錦輝：用DeepSeek開發AI大平台 助港科研創新

黃錦輝：用DeepSeek開發AI大平台助港科研創新