《中國證券報》1日刊發文章《國家數據局:以完善的數據工程驅動具身智能發展》。文章稱,國家數據局5月31日消息,國家數據局局長劉烈宏日前在2026世界智能產業博覽會上表示,高質量數據集是具身智能“感知-決策-執行”的重要基礎,要以完善的數據工程驅動具身智能的發展,深入開展系統性實踐。
今年以來,高質量數據集領域政策動態頗多,圍繞高質量數據集的產業生態正在成型。專家表示,高質量數據集建設已逐步從“倡導建設”邁向“按標準建設、按機制試點、按體系推進”,產業發展有望進一步提速。

以產業應用牽引數據供給
“2026年是‘數據要素價值釋放年’,國家數據局將推出《關於推進行業高質量數據集建設行動的實施方案》,圍繞強基擴容、標註攻堅、提質增效、應用賦能、管理服務、價值釋放六大行動,聚焦人工智能賦能產業發展需求,以產業應用牽引數據供給、以數據驅動產業智能發展,推動各行各業‘數據飛輪’更好轉起來。”劉烈宏說。
圍繞數據賦能人工智能創新發展,劉烈宏表示,高質量數據集是先進製造業智能化升級的基礎資源和創新引擎。要把真實產線、設備運行和質量檢測等數據系統採集、治理和利用起來,更好支撐行業大模型和智能體理解工業機理、適配工業場景、優化工業流程。要加大行業高質量數據集的投入,推動模數共振,促進數據、模型、裝備、場景深度融合。
高質量數據集是具身智能“感知-決策-執行”的重要基礎。劉烈宏表示,具身智能在真實環境中的自主適應與任務執行能力,依託視覺、觸覺、音頻等高質量、多模態訓練數據,要以完善的數據工程驅動具身智能的發展,深入開展系統性實踐。
高質量數據集是AI for Science加速發展的關鍵支撐。劉烈宏表示,科學研究對數據準確性、規範性、可信性要求更高,高質量數據集不僅是支撐科學領域模型訓練、規律發現和成果驗證的基礎底座,更是推動基礎研究走向產業應用、實現AI for Science真正落地的關鍵支撐。
今年以來,高質量數據集領域新動向頗多。4月15日,國家數據局發布《關於推進行業高質量數據集建設行動的實施方案(徵求意見稿)》,向社會公開徵求意見。工業和信息化部、國家數據局近期聯合印發《關於聯合實施2026年“模數共振”行動的通知》,推動人工智能模型與數據資源協同互促、同頻共振,並提出到2026年底,基本形成“數據-模型-場景應用”良性互促的循環,推動人工智能高水平賦能新型工業化。
行業平台層面,4月29日,國家數據集管理服務平台發布並啟動試運行,提供覆蓋數據集全生命周期的公共服務能力。截至5月31日,已認證機構516家,發布數據集1350個,覆蓋農業、工業製造、交通、文旅等重點領域。
截至今年一季度,全國已建成高質量數據集超過11.6萬個,總體量超過960PB。截至今年3月,我國日均詞元(Token)調用量已超過140萬億。
多地部署高質量數據集建設
今年以來,多地積極響應,提出建設高質量數據集。
山東省大數據局印發的《山東省行業高質量數據集建設專項行動方案》顯示,到2026年年底,在工業製造、交通運輸等16個重點行業領域分別建成2個左右專業化數據集;到2027年年底,累計建成50個高質量數據集,並提出加強公共數據供給、加快企業數據開發、加強數據供需對接、發展數據標註產業等具體要求。此外,為深入貫徹國家關於國有企業數據效能提升的有關部署,廣東省政務服務和數據管理局聯合廣東省國資委日前正式啟動廣東省國企高質量數據質效提升行動。
長江證券計算機行業首席分析師宗建樹表示,當前我國大模型產業持續高速發展,數據集作為訓練和優化大模型的基礎資源,其質量和多樣性直接影響到大模型的性能和效果。高質量數據集作為人工智能產業化落地的關鍵生產資料,有望成為連接行業場景、模型訓練、智能體應用和數據價值釋放的核心樞紐。高質量數據集建設已逐步從“倡導建設”邁向“按標準建設、按機制試點、按體系推進”,產業發展有望進一步提速。
計世資訊研究報告認為,高質量數據集的規模化建設,將進一步帶動高質量行業數據集構建與服務、行業知識圖譜與智能體知識庫、合成數據生成與數據隱私保護平台三個百億級軟件細分賽道的快速增長,為我國軟件產業發展注入新的增長動力。
今日熱搜
查看更多





