
? 樊威 燕江依 李蓀
人工智能(AI)的發展離不開高質量數據的“投喂”,而數據標注工作是高質量數據誕生的基礎,也是支撐人工智能技術演進和應用落地的基石。隨著人工智能向垂直領域滲透,高端數據標注基地和行業數據標注基地正在成為突破數據瓶頸、釋放數據潛能的關鍵載體。
一、數據標注的重要性日益凸顯
數據標注是連接數據資源、算法模型與應用場景的關鍵“橋梁”,也是人工智能高質量數據集建設的基石與核心生產環節。
(一)數據標注是數據要素價值充分釋放的基礎
數據標注對釋放數據要素價值的意義,主要體現在如下3個方面。
一是有效促進數據流通和共享。數據標注將原始數據從“信息”轉化為結構清晰的“資產”,賦予數據明確的語義,使其更容易被不同用戶和系統理解和使用,促進數據的流通共享。二是有效增強數據的可用性和精準度。數據標注將原始的雜亂無章的數據轉化為結構化、有標簽的數據,從而顯著提升數據質量和可用性。三是有效提高數據驅動的決策水平。標注后的數據能夠為數據分析提供更準確、更有價值的信息,幫助企業和組織機構更好理解數據背后的業務邏輯和趨勢,做出更科學的決策。
(二)數據標注是人工智能技術水平提升的關鍵
數據標注是人工智能的基礎性工作,通過給原始數據打上標簽,為計算機提供學習數據特征與規律的素材,使模型獲得對未標注數據的識別能力,這是模型智能的起點。而高水平的數據標注是模型能力提升的關鍵,貫穿于模型訓練、評估、優化和應用等環節。精準的標注能幫助模型更深刻地理解數據的特征和模式,進一步提高模型的準確性和預測能力。數據標注是高質量數據集構建的核心,通過人工或智能標注對原始數據進行清洗、分類、去噪,才能形成驅動模型迭代的高質量數據集。DeepSeek-V3、GPT-4o等在訓練階段均使用了總量約15萬億token(令牌/詞元)、經過嚴格清洗和標注的高質量數據。
(三)數據標注是人工智能賦能千行百業的支撐
數據標注支撐人工智能在垂直場景中深度應用。
在醫療領域,醫療影像中病灶標注能夠顯著提升數據可用性,智源研究院醫療大模型經專業醫生標注的影像、病例、文獻等數據訓練,比通用模型疾病診斷能力提升15%。在自動駕駛領域,數據標注為自動駕駛提供精準、可操作的數據輸入,百度自動駕駛大模型Apollo ADFM利用精細標注的車輛、交通標志、運動軌跡等數據,顯著提升復雜場景行人識別能力。在工業質檢領域,像素級標注通過精確標識缺陷在圖像中的具體位置,為高精度缺陷檢測模型提供詳細監督信息,提升質檢效能。此外,數據標注還在智能家居、智慧城市、金融服務、生物醫藥等多領域多場景得到有效應用。
二、數據標注產業快速發展
當前,我國數據標注產業發展駛入“快車道”,呈現規模擴張與創新實踐并進的良好態勢。
(一)數據標注工作成效顯著
目前,四川成都、遼寧沈陽、安徽合肥、湖南長沙、海南海口、河北保定、山西大同7個國家級數據標注基地數據標注總規模超過1.72萬TB(太字節),約為國家圖書館數字資源總量的6倍,已形成醫療、工業、教育等行業的高質量數據集335個;賦能121個國產人工智能大模型研發;引進和培育標注企業223家;標注從業人員達5.8萬人;帶動數據標注行業相關產值超過83億元。
(二)數據標注基地展開實踐探索
各個數據標注基地積極承接數據標注任務,并主動展開實踐探索。在技術創新方面,研發自動化和半自動化的標注工具,搭建一體化服務平臺;在行業賦能方面,通過數據標注帶動行業高質量數據集建設,推動傳統產業數字化、智能化轉型;在生態培育方面,加快數據標注龍頭企業引育,構建數據標注產業鏈、價值鏈和生態系統;在標準應用方面,圍繞數據標注技術和行業需求,引導企業積極參與標準編制和應用;在人才培養方面,通過設立實訓基地、舉辦職業技能大賽等形式推動產教融合,培育數據標注人才;在數據安全方面,探索數據分類分級安全保護制度,構建數據安全風險防控體系,推動常態化、規范化數據安全運營。
(三)數據標注產業供需對接高效開展
目前,數據供需各方積極開展對接,在4次數據標注產業供需對接會上,7個國家級數據標注基地、全國70余個省市級數據管理部門和數百家企業參與,累計簽約供需合作80余項,企業-基地簽約33項,共2300余人次參會。通過現場簽約、央企對接集市及共建可信數據空間等方式,釋放企業數據標注需求,支撐重點行業數據要素價值化應用。
三、加快建設高端與行業數據標注基地
隨著數據標注產業快速發展,數據標注基地建設呈現清晰的發展路徑:一方面是向“高精尖”邁進的高端數據標注基地;另一方面是深耕垂直場景的行業數據標注基地。高端數據標注基地和行業數據標注基地是在7個國家級數據標注基地建設經驗總結的基礎上,向專業化縱深和區域化廣泛覆蓋兩個方向的演進與補充。國家級數據標注基地將與高端和行業數據標注基地共同構成一個功能銜接、層次分明、協同發展的體系。
(一)加快建設高端數據標注基地
高端數據標注基地是高質量數據供給的關鍵,具有“高技術含量、高人才素質、高質量把控、高行業價值”的特征,其核心目標是通過人機協同標注、合成數據標注、大模型智能標注等前沿技術,結合多學科知識,實現數據標注的專業化、標準化與高質量輸出。
具體而言,高端數據標注基地是以高技術、高水平的數據標注能力強化高質量數據供給,以產教融合新模式培養多元化數據標注人才,以權威的高質量數據集質量評估和模型驗證能力體系提升數據質量和模型能力,以數據生態服務矩陣繁榮數據要素市場、促進產業迭代升級。
對此,國家層面應通過政策引導和建設指引,明確高端數據標注基地的建設內容,推動關鍵技術突破和標準體系完善,與區域數據資源聯動,帶動數字經濟發展。地方政府應激勵骨干企業、科研院所等積極參與基地共建,加強技術研發,建立合作網絡,形成從需求提出到成果應用閉環。
(二)加快建設行業數據標注基地
行業數據標注基地是人工智能深度應用的重要支撐,具有強行業屬性、強場景導向和強專業需求的特征,旨在圍繞醫療健康、智慧交通、智能制造、能源電力、金融服務等重點行業場景,提供專業的定制化標注服務,結合行業標準和業務流程,將分散異構的原始數據轉化為符合行業應用需求的高質量數據集。
行業數據標注基地的建設,重點面向行業主管部門、龍頭企業和產業聯盟,特別是對行業數據安全、準確性和專業性要求高的領域。通過推動專業化標注體系建立和行業規范落地,提升行業數據的結構化與可用性水平,形成可復制推廣的標注標準,降低企業自行標注成本;同時提升模型在特定任務上的訓練效果,推動模型精準解決行業痛點問題。
對此,建議通過政策引導,鼓勵龍頭央企承擔行業數據標注基地建設任務,加強行業數據的合規采集、分級管理與安全流通,打造一批行業標注標準和示范應用典型。鼓勵龍頭央企牽頭搭建行業標注平臺,帶動上下游企業協同參與,推動跨企業、跨行業的數據共享與標準統一。
四、高端與行業數據標注基地建設需要素保障
高端數據標注基地和行業數據標注基地的建設,除頂層設計外,還需依托完善的要素條件。為此特提出4點思考建議。
一是強化人才保障。數據標注需要既懂人工智能又熟悉行業場景的復合型人才。應加快建設數據標注人才培養體系,支持高校開設相關課程和實踐平臺,鼓勵基地與科研院所、企業等聯合開展人才培養。二是建立多元化資金投入機制。標注基地建設周期長、投入大,需建立中央財政引導、地方專項資金配套、社會資本參與的多元化投入機制,提供長期穩定的資金保障。三是加強智能化工具研發應用。傳統人工標注成本高、效率低,應加快自動化、半自動化標注工具研發,推動自然語言處理、計算機視覺、生成式人工智能等技術與標注工具深度融合,推動建設一體化的智能標注平臺。四是促進產業轉型升級,加強示范引領。應引導數據標注企業和平臺向高端、智能方向轉型,鼓勵龍頭企業打造分領域特色標注平臺。支持有能力的基地先行先試,在技術、標準、安全等方面形成可復制推廣的典型經驗,促進技術交流和成果轉化。
加快建設高端數據標注基地和行業數據標注基地,是推動數據標注產業向深向實發展、釋放數據要素價值、支撐人工智能賦能經濟社會發展的關鍵。未來,需推動產學研用協同,共建繁榮產業生態,以高質高效的數據標注,為我國人工智能產業的高水平自立自強筑牢根基。
(作者單位:中國信息通信研究院人工智能研究所。作者:樊威,高級工程師;燕江依,工程師;李蓀,高級工程師)
友情鏈接: 政府 高新園區合作媒體
Copyright 1999-2025 中國高新網chinahightech.com All Rights Reserved.京ICP備14033264號-5
電信與信息服務業務經營許可證060344號主辦單位:《中國高新技術產業導報》社有限責任公司