世界互聯網大會|美創數據安全風險監測智能體發布
2025-11-10
世界互聯網大會|美創科技無侵入數據安全多智體治理技術首發
2025-11-07
從“穩定運行”到“極限生存”:一場國企數字基座的韌性突圍戰
2025-11-05
每周安全速遞3?? | Qilin勒索組織利用Linux載荷和BYOVD入侵
2025-10-31
美創科技“AI+數據安全”新產品、新技術亮相烏鎮
2025-10-31
存儲域
數據庫加密 諾亞防勒索訪問域
數據庫防水壩 數據庫防火墻 數據庫安全審計 動態脫敏流動域
靜態脫敏 數據水印 API審計 API防控 醫療防統方運維服務
數據庫運維服務 中間件運維服務 國產信創改造服務 駐場運維服務 供數服務安全咨詢服務
數據出境安全治理服務 數據安全能力評估認證服務 數據安全風險評估服務 數據安全治理咨詢服務 數據分類分級咨詢服務 個人信息風險評估服務 數據安全檢查服務2024年12月,國家發改委等部門聯合印發《關于促進數據產業高質量發展的指導意見》,首次提出“高質量數據集”,支持企業開發高質量數據集。同月,《關于促進數據標注產業高質量發展的實施意見》進一步指出加強重點行業領域數據標注,建設行業高質量數據集。2025年2月,國家數據局在北京召開高質量數據集建設工作啟動會,提出積極推進落實“人工智能+”行動,推動高質量數據集建設,高效賦能行業發展。
數據(data)在廣泛意義上而言,是對事實、活動等現象的記錄。《辭海》(第七版)將數據定義為“描述事物的數字、字符、圖形、聲音等的表示形式”。按照《中華人民共和國數據安全法》中給出的定義,數據是指任何以電子或者其他方式對信息的記錄。由此可見,數據本身可以有豐富的表現形式。
數據一直伴隨著人類的發展而變遷。在古代,數據呈現出規則化匯聚的特征。例如,我國古代的黃冊(全國戶口名冊)、天文觀測記錄均以特定規則進行登記造冊,它們對人類社會和物理世界的性質、狀態與相互關系進行記錄和計算,都是寶貴的古代數據遺產。計算機發明后,數據與計算機編碼產生重要聯系。凡可被編碼為一系列0和1組成的二進制記錄,都是計算機可處理的數據。早期計算機的采集、存儲、計算技術尚不成熟,只能有效處理行列結構明確的數據表,此時數據更多指代這類結構化數據。近十幾年來,數據存儲、傳輸和計算的性能不斷突破,數據管理、數據處理技術快速迭代,網頁、聲音、圖像等半結構化、非結構化數據也逐漸得到有效處理和利用。
GB/T 35295-2017《信息技術 大數據 術語》將數據集(data set)定義是“數據記錄匯聚的數據形式。(注:它可以具有大數據的體量、速度、多樣性和易變性特征。數據集的特征表征的是數據本身或靜態數據,而數據的特征,當其在網絡上傳輸時或暫時駐留于計算機存儲器中以備讀出或更新時,表征的是動態數據。)”
GB/T 36344-2018《信息技術 數據質量評價指標》?將數據集定義是“具有一定主題,可以標識并可以被計算機化處理的數據集合。”
由此可以看出,數據集就是數據集合或者數據的匯聚形式。
在當今數字化時代,人工智能已成為推動各行業變革的核心力量,其背后的關鍵支撐則是高質量的數據集。高質量數據集不僅是AI模型訓練、推理和驗證的基礎,更是人工智能賦能行業的核心驅動力。然而,目前業界對于高質量數據集的內涵還并未明確。
傳統的數據質量管理聚焦在結構化數據的“六性”質量(規范性、完整性、準確性、一致性、時效性、可訪問性),其本質是通過ETL流程優化實現單條記錄的可靠性。在人工智能快速發展的背景下,數據質量在傳統“六性”的基礎上,還需進一步關注類別全面性、維度均衡性和內容安全性等指標,以滿足人工智能模型訓練和應用的需求,推動人工智能技術的健康、可持續發展。
根據調研,目前一些在研標準中也提到,可信數據集是來自特定和受信任來源,經可信的數據處理過程形成的高質量且滿足預期用途使用的數據。
“可信”一詞近年來主要出現在計算機領域的“可信計算”(Trusted Computing)概念中。可信計算主要強調的是計算機系統和其處理過程的可預測性、可驗證性,保證全部計算過程的可測可控和不被干擾,從而保證計算結果與預期的一致性。
因此,可信數據集不僅要求數據集是高質量,同時更強調?數據采集、存儲、轉換生命周期過程的可信?(如合規性、一致性),從而實現數據來源合規、處理過程可信、內容高質量且安全。
總的來說,企業在構建“高質量”數據集時,需要關注以下內容:
一是從范圍上需要涵蓋結構化、半結構化和非結構化各類型數據。二是在質量評價上需考慮規范性、準確性、完整性、一致性、時效性、全面性、維度均衡性、內容安全性等指標。三是在建設運營中要關注數據集建設運營全生命周期的安全、隱私以及倫理合規問題。進而,打造在流程、質量、安全、內容上“高質量”的數據集。
針對高質量數據集的建設,我們提出“盤建研管運”五步法的管理方法。
◇ “盤”是需求盤點、資源盤點。理清內外部數據資源的來源、規模、質量、類別情況,明確應用與采集的格式、質量、內容要求。
◇ “建”是規范建設、流程建設、平臺建設。提前制定數據集的質量、安全、運管要求,標準化工作流程,定制化工具平臺。
◇ “研”是數據集研發。依托前序工作的需求、流程、規范等開展標準化的數據集研發工作,進行數據的清洗、標注、增強、質量評價等操作,生產數據集。
◇ “管”是數據集管理。洞察數據集規模、分布等構成,依托可追溯的數據集管理平臺,維護數據集版本與上架資產。
◇ “運”是全鏈路運營。維護數據集評價指標,跟蹤、維護、優化數據集的評價、使用、成本和價值。