作者:王曉明(中國科學(xué)院科技戰(zhàn)略咨詢研究院研究員)
當(dāng)前,人工智能處在快速發(fā)展的關(guān)鍵時(shí)期,正在重塑經(jīng)濟(jì)社會(huì)發(fā)展模式。2024年中央經(jīng)濟(jì)工作會(huì)議指出,開展“人工智能+”行動(dòng),培育未來產(chǎn)業(yè)。數(shù)據(jù)作為人工智能發(fā)展的三大核心要素之一,是人工智能模型訓(xùn)練的基礎(chǔ)要素,也是人工智能模型應(yīng)用的核心資源,加快建設(shè)人工智能高質(zhì)量數(shù)據(jù)集,對(duì)于推動(dòng)“人工智能+”場景落地具有重要意義。
高質(zhì)量數(shù)據(jù)集建設(shè)存在的問題
高質(zhì)量數(shù)據(jù)供給是推動(dòng)新一代人工智能加快發(fā)展的關(guān)鍵要素。當(dāng)前,面向新一代人工智能的數(shù)據(jù)供給仍有不足,數(shù)據(jù)處理專用技術(shù)有待進(jìn)一步突破,數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)生態(tài)有待豐富,高質(zhì)量數(shù)據(jù)集的整體規(guī)劃和支持政策還有待完善。
首先,通用領(lǐng)域、垂直領(lǐng)域以及具身智能領(lǐng)域的高質(zhì)量數(shù)據(jù)供給仍有不足。一方面,中文公開數(shù)據(jù)在質(zhì)量和數(shù)量方面落后于英文數(shù)據(jù)。另一方面,我國公共數(shù)據(jù)開放利用程度有待提高,各地開放標(biāo)準(zhǔn)不統(tǒng)一,專門面向人工智能發(fā)展的高質(zhì)量行業(yè)數(shù)據(jù)集仍較匱乏。具身智能領(lǐng)域真實(shí)交互數(shù)據(jù)采集不足,主要原因在于智能機(jī)器人與環(huán)境的交互數(shù)據(jù)獲取困難且成本高昂,同時(shí),企業(yè)采集數(shù)據(jù)缺乏統(tǒng)一的參照標(biāo)準(zhǔn)。
其次,高質(zhì)量數(shù)據(jù)的合成、處理和利用技術(shù)亟待提升。利用深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)生成高精確度、多樣化合成數(shù)據(jù)的技術(shù)在成熟度和應(yīng)用范圍上急需突破。隨著社會(huì)自動(dòng)化和智能化程度的不斷提高,對(duì)數(shù)據(jù)處理的要求也不斷提升,因此急需針對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)進(jìn)行迭代優(yōu)化,進(jìn)一步提高數(shù)據(jù)處理效率。
再次,數(shù)據(jù)主體和商業(yè)模式發(fā)展尚不成熟。我國缺乏類似美國Databricks和Snowflake“數(shù)據(jù)+人工智能”模式的高質(zhì)量數(shù)據(jù)匯聚和治理主體,具備大規(guī)模數(shù)據(jù)匯聚管理分析能力的公司數(shù)量不足。醫(yī)療、法律、保險(xiǎn)、金融、工業(yè)、科研等多個(gè)領(lǐng)域的公共數(shù)據(jù)授權(quán)運(yùn)營主體目前仍在培育中,數(shù)據(jù)集構(gòu)建和運(yùn)營利用的商業(yè)模式發(fā)展還不夠成熟。
最后,高質(zhì)量數(shù)據(jù)集的專項(xiàng)規(guī)劃和支持政策有待完善。我國已出臺(tái)一系列數(shù)據(jù)發(fā)展相關(guān)指引政策,但是面向新一代人工智能模型訓(xùn)練和場景應(yīng)用的高質(zhì)量數(shù)據(jù)集專項(xiàng)規(guī)劃和支持政策尚未出臺(tái),其建設(shè)、運(yùn)營、流通、利用等方面舉措有待進(jìn)一步細(xì)化。在數(shù)據(jù)采集方面,各領(lǐng)域數(shù)據(jù)缺乏適用的標(biāo)準(zhǔn)規(guī)范;在數(shù)據(jù)使用方面,缺少面向大模型和具身智能模型訓(xùn)練的數(shù)據(jù)共享和流通促進(jìn)機(jī)制,一定程度上限制了模型能力的快速提升。
多措并舉建設(shè)高質(zhì)量數(shù)據(jù)集
針對(duì)當(dāng)前存在的資源、技術(shù)、模式、制度等方面問題,結(jié)合新一代人工智能發(fā)展的需要,建議發(fā)揮政府和市場的協(xié)同作用,多措并舉推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè)。
一是加快公共數(shù)據(jù)開放和企業(yè)數(shù)據(jù)流通,建設(shè)面向新一代人工智能的高質(zhì)量數(shù)據(jù)集。建議形成部門、行業(yè)、地區(qū)共同參與的協(xié)同機(jī)制,圍繞高質(zhì)量數(shù)據(jù)集建設(shè),擴(kuò)大數(shù)據(jù)供給范圍和規(guī)模,完善公共及行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),加速可信數(shù)據(jù)空間建設(shè)。面向醫(yī)療、教育、科研、法律、工業(yè)、農(nóng)業(yè)、物流、金融、能源、交通等重點(diǎn)領(lǐng)域建設(shè)大數(shù)據(jù)中心及大模型行業(yè)應(yīng)用創(chuàng)新(工程)中心,打破信息孤島,構(gòu)建完備數(shù)據(jù)生態(tài),構(gòu)建高質(zhì)量數(shù)據(jù)集,提升垂直領(lǐng)域人工智能模型能力。著眼自動(dòng)駕駛、具身智能等未來產(chǎn)業(yè)需求,開放相關(guān)公共數(shù)據(jù),制定行業(yè)數(shù)據(jù)標(biāo)準(zhǔn),探索企業(yè)間數(shù)據(jù)流通機(jī)制,鼓勵(lì)企業(yè)和研究機(jī)構(gòu)創(chuàng)建高質(zhì)量行業(yè)數(shù)據(jù)集。
二是圍繞建設(shè)行業(yè)高質(zhì)量數(shù)據(jù)集關(guān)鍵技術(shù)問題加大攻關(guān)力度。面向數(shù)據(jù)合成和處理,加快開發(fā)數(shù)據(jù)合成、數(shù)據(jù)治理的關(guān)鍵共性技術(shù);面向數(shù)據(jù)流通匯聚,大力推廣隱私計(jì)算、區(qū)塊鏈等技術(shù);面向“數(shù)據(jù)+人工智能”應(yīng)用模式,著力開發(fā)數(shù)據(jù)管理技術(shù),探索新型模型結(jié)構(gòu)和訓(xùn)練架構(gòu)。鼓勵(lì)面向人工智能的數(shù)據(jù)產(chǎn)品、數(shù)據(jù)服務(wù)企業(yè)牽頭承擔(dān)國家重大項(xiàng)目,開展應(yīng)用基礎(chǔ)研究和關(guān)鍵核心技術(shù)攻關(guān)。推動(dòng)產(chǎn)學(xué)研合作和創(chuàng)新聯(lián)合體建設(shè),打造數(shù)據(jù)技術(shù)、產(chǎn)品和服務(wù)深度融合的新型合作模式。面向重點(diǎn)場景,打造數(shù)據(jù)技術(shù)“測試場”,提供真實(shí)數(shù)據(jù)環(huán)境、模擬應(yīng)用場景,建設(shè)中試基地,吸引企業(yè)、高校和科研機(jī)構(gòu)參與數(shù)據(jù)技術(shù)的創(chuàng)新和驗(yàn)證,加速新技術(shù)推廣和應(yīng)用。
三是引導(dǎo)企業(yè)和商業(yè)模式創(chuàng)新,構(gòu)建人工智能數(shù)據(jù)產(chǎn)業(yè)生態(tài)。大力培育人工智能數(shù)據(jù)資源、技術(shù)、服務(wù)、應(yīng)用、安全、基礎(chǔ)設(shè)施等多領(lǐng)域企業(yè),重點(diǎn)建設(shè)面向人工智能行業(yè)的數(shù)據(jù)產(chǎn)業(yè)創(chuàng)新平臺(tái)。鼓勵(lì)企業(yè)基于“數(shù)據(jù)+人工智能”探索多領(lǐng)域商業(yè)模式,支持企業(yè)與各方合作,打造基于高質(zhì)量數(shù)據(jù)集的產(chǎn)業(yè)創(chuàng)新鏈和生態(tài)系統(tǒng)。鼓勵(lì)企業(yè)探索大模型和具身智能應(yīng)用場景,驅(qū)動(dòng)數(shù)據(jù)產(chǎn)業(yè)發(fā)展。支持模型應(yīng)用、模型開發(fā)、數(shù)據(jù)服務(wù)、數(shù)據(jù)產(chǎn)品等相關(guān)企業(yè)組建創(chuàng)新聯(lián)合體,開發(fā)高質(zhì)量數(shù)據(jù)集,發(fā)展“數(shù)據(jù)即服務(wù)”“知識(shí)即服務(wù)”“模型即服務(wù)”等新業(yè)態(tài)。
四是加大人工智能高質(zhì)量數(shù)據(jù)集建設(shè)政策支持力度。面向新一代人工智能技術(shù)開發(fā)和應(yīng)用發(fā)展需求,完善數(shù)據(jù)資源構(gòu)建體系,培育數(shù)據(jù)產(chǎn)業(yè),支持?jǐn)?shù)據(jù)技術(shù)發(fā)展,系統(tǒng)推進(jìn)高質(zhì)量數(shù)據(jù)集建設(shè),強(qiáng)化行業(yè)應(yīng)用。統(tǒng)籌中央和地方財(cái)政資金、產(chǎn)業(yè)引導(dǎo)基金和各類政策性投資,加大對(duì)高質(zhì)量數(shù)據(jù)集建設(shè)的投入。鼓勵(lì)金融機(jī)構(gòu)創(chuàng)新產(chǎn)品和服務(wù),增加對(duì)數(shù)據(jù)相關(guān)企業(yè)的融資支持。引導(dǎo)社會(huì)資本有序參與人工智能高質(zhì)量數(shù)據(jù)集的開發(fā)利用。