隨著大模型技術的迅猛發展,對大量高質量數據集的需求呈現出爆發式增長的態勢。根據北京國際大數據交易所董事長李振軍在2025全球數字經濟大會上的介紹,2024年人工智能數據僅占交易所交易量的10%,而到2025年目前累計起來已接近80%。這一爆炸性數據的背后是AI產業從通用模型向行業垂直應用的快速演進,以及隨之而來對專業化、高質量數據的迫切需求。
大模型興起之前,數據交易市場已走過十余年的發展歷程,但始終處于相對初級和分散的狀態。傳統數據交易主要服務于商業分析、精準營銷、科研等有限場景,交易規模和影響力遠未達到今日水平。這一階段的數據交易呈現出明顯的“三低”特征:市場集中度低、數據標準化程度低、交易透明度低??傮w而言,大模型時代前的數據交易市場處于“叫好不叫座”的狀態,數據要素的價值并沒有得到真正的釋放。
人工智能大模型的崛起徹底改寫了數據交易市場的游戲規則。2023~2025年間,隨著ChatGPT、DeepSeek等生成式AI的爆紅,高質量訓練數據從“有用資源”一躍成為“戰略資產”,市場需求呈現指數級增長,人工智能數據成為數據流通最活躍的領域。這場變革不僅擴大了數據交易的規模,更是從根本上重塑了數據的價值標準和獲取方式。
首先,高質量數據集成為大模型時代的“新石油”。與傳統AI應用不同,大模型訓練需要覆蓋行業核心專業知識和生產經營活動的多模態、專業化的數據資源。這種需求催生了“高質量數據集”的明確定義——用于訓練、驗證和優化大模型而收集、整理、標注形成的數據資源集合,其價值取決于專業性、多樣性和清潔度。
其次,行業知識底座構建成為競爭焦點。隨著AI產業從通用模型向垂直應用下沉,對細分行業理解深度直接決定模型性能。這種轉變使得金融、醫療、法律等專業領域的數據集價格水漲船高。同時,數據模態需求多元化也日趨明顯。以自動駕駛為例,訓練數據不僅需要高清圖像和視頻,還需同步激光雷達點云、毫米波雷達信號、車輛控制參數等多維信息,以及極端場景下的數據。這種復雜需求使單一模態數據的價值大幅降低,跨模態關聯數據集成為稀缺資源。
最后,數據獲取渠道正在發生結構性變化。互聯網公開數據的比例正在下降,私域數據的生產日益受到重視,頭部企業紛紛建立從采集、清洗到加工、治理的完整數據產線,并著手建設企業級RAG知識庫。未來企業的專業數據將成為數據獲取的主要渠道,數據也將正式成為企業可入表、可交易的資產。
大模型從根本上提升了數據的戰略地位,將其從輔助性資源轉變為AI產業的核心生產資料。這種轉變不僅重塑了數據交易市場的規模與結構,也對數據基礎設施建設提出了全新要求,從而推動數據交易體系進行全面的革命。未來的數據交易將呈現以下特點:
一是,去中心化與中心化混合架構或將成為主流。純中心化的數據交易所面臨效率瓶頸,而完全去中心化的模式又難以確保質量和合規,未來可能形成“監管沙盒 市場化平臺 去中心化網絡”的多元結構。
二是,多元化的定價與激勵機制將出現,以激活數據供給。傳統“一次性買斷”模式難以適應AI訓練數據的特性,采用類似代幣式的新型激勵機制,數據貢獻者不僅能獲得即時收益,還可分享模型后續產生的長期價值,將進一步為數據交易注入新活力。此外,深圳設立的“語料券”制度通過政府補貼的方式,促進語料的開放共享和交易。多元化的激勵工具有助于釋放各類主體的數據供給意愿。
三是,垂直行業共同體(如行業數據聯盟)將不斷出現,逐步突破數據壁壘。AI時代下,通用數據市場難以滿足專業領域的特殊需求。金融、醫療、制造等行業正在形成各種形式的數據聯盟,共同建設行業知識庫。這種行業自發組織的共享機制能夠降低單個企業的數據獲取成本,同時避免敏感信息過度擴散。
未來的五到十年,數據交易生態將在AI驅動下經歷深刻重構。一方面,技術進步和制度創新將解決當前面臨的許多瓶頸,釋放數據要素的巨大潛力;另一方面,倫理、法律和地緣政治因素可能帶來新的不確定性。成功的企業和政策制定者需要保持戰略定力,在把握大方向的同時靈活應對變化。對中國而言,龐大的市場規模、豐富的應用場景和積極的政策引導構成了獨特優勢,有望在全球數據要素市場發展中扮演重要的引領角色。
(作者系清華大學碩士、美國杜克大學訪問學者、浙江省可持續發展研究會ESG專委會專家組專家)
幫企客致力于為您提供最新最全的財經資訊,想了解更多行業動態,歡迎關注本站。鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。