行業資訊
了解最新行業資訊
人工智能概念的提出已有60多年時間,但直到1997年IBM的深藍計算機戰勝國際象棋大師才為大眾所知,不過基于專家系統經驗的智能有限。2016年,AlphaGo戰勝世界圍棋高手初顯大數據實力,但也只是在規則下的算法熟能生巧,類似的方法推動了自然語言識別與人臉識別技術的發展。
2022年底,ChatGPT的問世標志著人工智能從判別式發展到生成式的跨越,雖然目前的大模型只是針對特定任務和指定模態,離通用人工智能還有不少距離,但語言大模型讓機器初步具有常識,懂得推理,學會創作,讓人和機器能以較自然的方式互動,通過與周邊工具的結合,表現出擬人的智能。與AlphaGo將數據作為查詢和判別的依據不同,ChatGPT可以說讀透與消化了數據,融會貫通計上心來,得出源于數據高于數據的結論。
生成式大模型賦予數據以新的生命力,AI時代大數據蘊含的價值將進一步涌現。數據因AI而變得越來越重要,數據要素是新型生產力的代表,數據挖掘能力成為新時代的國家重要競爭力。
數據是生產和生活過程的記錄及對自然觀察的結果。2022年中國人口占全球18%,網民占全球21.5%,GDP占全球18.06%。據國家網信辦《數字中國發展報告(2022年)》數據顯示,2022年我國數據產量達8.1ZB,同比增長22.7%,全球占比為10.5%,位居全球第二;我國數據存儲量達724.5EB,同比增長21.1%,全球占比為14.4%。中國產生和存儲的數據在全球的占比均低于中國的人口、網民和經濟規模在全球的比例。據Synergy Research Group截至2021年Q3季度統計,美國大規模數據中心在全球占比高達49%,其次是中國占比為15%??梢娢覈鴶祿鎯α颗c美國相比差距還比較大,這反映了我國在社會信息化和產業數字化程度上仍落后于美國,加快數字中國的建設將有望盡快改變這一狀況。
政府與研究機構及企業都會存儲大量數據,其中政府掌握全社會數據約80%,而且是高質量數據,但主要卻僅供內部使用甚至是本部門內小單位各自存儲和使用而非共享,數據利用率不高。需要從制度上明確共享內容、權限和責任,促進政府部門間數據共享,更精準地把握社會和經濟運行全局,提升政府部門間工作的協同性。與共享相比,數據開放更是社會數字化的標志之一,政府及企事業單位掌握的公共數據具有很強的社會性,政府開放數據對提升政府公信力、降低社會成本,帶動數字經濟發展有重要作用。
國際上將政府數據開放作為數字政府的重要衡量指標,據《聯合國電子政務調查報告2022》數據顯示,從2012年到2022年的十年間,中國在線服務指數從0.5294上升到0.8876,在193個國家中排名從第62位上升到第15位,愛沙尼亞、芬蘭、韓國位居前三,美國第8,日本第9。我國還存在政務數據標準規范體系待健全、政務數據統籌管理機制待完善,政務數據安全保障能力待加強的問題,需要從建設數據流通基礎制度體系入手,加快數據立法,完善制度規范,統籌協調推進,編制數據目錄,分類分級管理,夯實共享開放機制,提升安全保障。
除了政府開放數據以外,社會公共數據的開源開放也表征數據流通的水平。人工智能生成內容(AIGC)大模型都是利用語料庫訓練的,一些互聯網大廠利用電商、社交、搜索等業務收集和標注了海量的語料供自身訓練大模型使用,沒有語料積累的企業和研究機構雖然可以從網絡獲得語料,但自媒體內容質量良莠不分,未經清洗與標注就用作大模型的訓練語料其效果堪憂。ChatGPT大模型訓練時使用了開源語料庫,但中文詞元(Token)占比不到0.1%,還不及一些小語種的比例,其中的原因與中文開源語料庫數量少和規模小有關。國內高校也有數億到數十億字的語料庫但尚未開源。國內一些語言大模型直接采用國外開源語料庫訓練,在價值觀的把控上存在潛在風險,建議對面向公眾開放應用的對話類大模型需要做語料來源的評估。面向重要應用場景的大模型不宜強調訓練用數據免標注和無監督學習,還是要采用經過清洗標注的數據集和保留人工微調,即有監督學習環節。
行業大模型的訓練也面臨挑戰,專業數據沒有通用數據容易獲得,行業內的企業間往往不愿共享專業數據。為此有必要建立高質量國家級重要行業領域基礎知識庫、數據庫、資源庫等。此外要鼓勵社會數據要素的合理流動和利用。中共中央、國務院《關于構建數據基礎制度更好發揮數據要素作用的意見》提出,依法規范、共同參與、各取所需、共享紅利的發展模式,將合理降低市場主體獲取數據的門檻,增強數據要素共享性、普惠性,激勵創新創業創造。
二、大模型驅動數據范式創新
三、數據助力社會治理信息化
大模型的數據訓練與推理都需要算力支撐,中國2022年算力總規模為180Eflops,低于2021年美國的200Eflops,其中智能算力2022年中國為41Eflops,不及2021年美國的65Eflpos,這反映了我國在大模型的數據訓練和推理算力上的差距。算力的建設是市場行為,但國家統籌推進將優化資源的利用和產業的合理布局?!皷|數西算”作為國家戰略部署具有中國特色,反映我國區域經濟、地理氣候特點和能源分布的格局,政府之手的作用在東西部數據資源配置與有效應用上不是可有可無的。西部不足之處是數據中心產業配套能力薄弱和人才短缺,需要同步規劃布局數據清洗標注、數據機房產品及服務業的培育發展,延伸產業鏈上下游,在做好承接東部的溫冷數據的存算的同時,還要帶動起當地熱數據的上云服務,使西部的數據集群發展形成良性循環。
算力的布局需要處理好幾方面的關系,一是通用算力與智能算力的合理比例,通用算力以CPU為主,適合處理政務、智慧城市和智能客服等數據/計算密集的事務性任務;智能算力以GPU為主,適合做大模型的訓練,注意到在數據訓練過程中還需要算法工程師介入和微調,智算中心適于在數據源集中和算法工程師聚集地建設,不宜全面開花,動用財政資金支持的大型智算中心的建設應慎重規劃。二是自建算力與云原生算力,很多單位有自建算力的積極性,但麥肯錫報告顯示,商用和企業數據中心的服務器很少超過6%的利用率,通常高達30%的服務器帶電閑置。需要鼓勵中小企業從自購AI服務器搭建數據中心向采購云服務轉變,既降低成本又提高利用率,增強抗DDoS的能力及減碳;需要引導縣級地方政府使用省地集中建設的政務云代替獨立采購IT基礎設施。三是存算比例,存力與算力需配合,內存與算力合理比例是GB/Gflops為1,避免因存力短缺造成算力等待而影響處理效率,據華為/羅蘭貝格報告,2020年美國為1:0.9,中國為1:2.4。四是災備容量與主用數據中心存儲容量之比,數據中心需異地雙容災備份,關鍵數據實現本地雙活,2020年當年數據災備保護占數據中心存儲投資的比例全球平均為27.4%,而我國只有7.8%,需重視改進。
數據作為生產要素是經濟理論與實踐的創新。數據與土地、勞動力、資本等傳統生產要素不同,數據要素的開發與治理有很多需要深入研究的問題,例如數據的可復制性、使用無損性等導致數據產權和安全管理邊界難以界定。黨中央決策部署組建國家數據局,負責協調推進數據基礎制度建設,統籌數據資源整合共享和開發利用,統籌推進數字中國、數字經濟、數字社會規劃和建設等,將有力促進數據要素技術創新、開發利用和有效治理,以數據強國支撐數字中國的建設。