引用格式:李思慧,戴明超,蔡伍洲. 基于差分隱私的數(shù)據(jù)脫敏技術(shù)研究[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理,2025,44(2):39-43.
引言
當(dāng)前,人工智能、大模型、大數(shù)據(jù)技術(shù)飛速發(fā)展,數(shù)據(jù)是各項(xiàng)技術(shù)構(gòu)建的關(guān)鍵基礎(chǔ)資源,全球數(shù)據(jù)產(chǎn)業(yè)正在呈爆發(fā)式增長(zhǎng)。據(jù)國(guó)際數(shù)據(jù)公司(IDC)預(yù)測(cè),2018~2025年,全球數(shù)據(jù)量將從33 ZB猛增至175 ZB,而根據(jù)工業(yè)和信息化部相關(guān)預(yù)測(cè),2021~2025年,我國(guó)的大數(shù)據(jù)產(chǎn)業(yè)規(guī)模將從1.3萬(wàn)億元突破至3萬(wàn)億元,數(shù)據(jù)已然成為推動(dòng)經(jīng)濟(jì)社會(huì)發(fā)展最重要的基礎(chǔ)生產(chǎn)要素之一[1]。數(shù)據(jù)資源被充分利用的同時(shí),數(shù)據(jù)安全問(wèn)題也日益凸顯,數(shù)據(jù)被非法獲取事件頻頻發(fā)生,給企業(yè)和個(gè)人帶來(lái)了巨大損失。因此,在挖掘數(shù)據(jù)價(jià)值的同時(shí),確保數(shù)據(jù)安全,已成為亟需解決的關(guān)鍵問(wèn)題。
傳統(tǒng)的數(shù)據(jù)安全解決方案大多關(guān)注于數(shù)據(jù)的存儲(chǔ)和傳輸,在對(duì)數(shù)據(jù)進(jìn)行挖掘利用時(shí),仍然需要具有敏感信息的原始數(shù)據(jù),數(shù)據(jù)非法竊取者可通過(guò)身份攻擊、屬性攻擊、存在性攻擊和概率知識(shí)攻擊等,推斷出個(gè)體敏感信息[2]。數(shù)據(jù)脫敏技術(shù)是通過(guò)對(duì)數(shù)據(jù)進(jìn)行一定處理來(lái)保護(hù)隱私的技術(shù),其目的是在保留輸入數(shù)據(jù)的統(tǒng)計(jì)特征以及可用性的同時(shí),保護(hù)數(shù)據(jù)的隱私和安全[3]。差分隱私技術(shù)是數(shù)據(jù)脫敏技術(shù)的一種,該技術(shù)提供了一種隱私保護(hù)方法,旨在向原始數(shù)據(jù)注入噪聲或擾動(dòng),實(shí)現(xiàn)在保護(hù)個(gè)體數(shù)據(jù)隱私的同時(shí),完成對(duì)數(shù)據(jù)的挖掘利用[4]。
差分隱私技術(shù)在國(guó)外研究較早,且技術(shù)日趨成熟。2006年,Dwork等人[5]首次提出了差分隱私保護(hù)方法,該方法通過(guò)向原始數(shù)據(jù)添加服從特定分布的噪聲,用以保護(hù)敏感數(shù)據(jù),解決了傳統(tǒng)數(shù)據(jù)匿名脫敏技術(shù)無(wú)法抵抗背景知識(shí)攻擊的問(wèn)題。2016年,Abadi等人[6]提出了具有差分隱私的深度學(xué)習(xí)算法,分析了差分隱私在深度學(xué)習(xí)框架內(nèi)的隱私成本,在保護(hù)數(shù)據(jù)隱私的同時(shí),訓(xùn)練出有效的深度學(xué)習(xí)模型。2019年,Holohan等人[7]設(shè)計(jì)了IBM差分隱私庫(kù),用于Python編程語(yǔ)言中研究、實(shí)驗(yàn)和開(kāi)發(fā)差分隱私應(yīng)用程序。2023年,Holohan[8]又提出了差分隱私隨機(jī)數(shù)生成器和種子算法,實(shí)現(xiàn)了在差分算法和結(jié)果中進(jìn)行測(cè)試和錯(cuò)誤修復(fù),為差分隱私算法選擇提供了有利幫助。
近年來(lái),國(guó)內(nèi)的差分隱私技術(shù)研究也取得了豐碩成果。2009年,袁進(jìn)良[9]設(shè)計(jì)了統(tǒng)一的差分隱私聯(lián)邦學(xué)習(xí)平臺(tái),擴(kuò)展了傳統(tǒng)的隱私預(yù)算組合定理,實(shí)現(xiàn)了隨時(shí)間不斷更新的可用預(yù)算,解決了差分隱私的強(qiáng)隱私和聯(lián)邦系統(tǒng)的高吞吐難兼顧問(wèn)題。2023年,張連福[10]提出了一種基于同態(tài)加密與差分隱私的隱私保護(hù)聯(lián)邦學(xué)習(xí)方案,利用多種防護(hù)措施實(shí)現(xiàn)了隱私防護(hù)范圍覆蓋聯(lián)邦學(xué)習(xí)全生命周期。同年,張旭[11]提出一種兼顧安全防御和隱私保護(hù)的分布式學(xué)習(xí)系統(tǒng),該系統(tǒng)實(shí)現(xiàn)隱私保護(hù)的同時(shí),提升了訓(xùn)練模型的準(zhǔn)確性。隨著差分隱私技術(shù)的不斷迭代發(fā)展,其在數(shù)據(jù)隱私保護(hù)領(lǐng)域得到越來(lái)越多的應(yīng)用。
本文探討基于差分隱私的數(shù)據(jù)脫敏方法,對(duì)數(shù)據(jù)集進(jìn)行清洗整理后,利用Laplace機(jī)制對(duì)敏感數(shù)據(jù)進(jìn)行處理,利用神經(jīng)網(wǎng)絡(luò)模型分別對(duì)未脫敏數(shù)據(jù)和脫敏后的數(shù)據(jù)進(jìn)行訓(xùn)練和預(yù)測(cè),對(duì)比原始數(shù)據(jù)、差分隱私脫敏數(shù)據(jù)及其他脫敏技術(shù)數(shù)據(jù)生成模型的預(yù)測(cè)效果,為神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型的數(shù)據(jù)隱私保護(hù)問(wèn)題提供解決方案。
本文詳細(xì)內(nèi)容請(qǐng)下載:
http://www.viuna.cn/resource/share/2000006341
作者信息:
李思慧1,戴明超1,蔡伍洲2
(1.武警吉林省總隊(duì),吉林長(zhǎng)春130000;
2.武警部隊(duì)作戰(zhàn)勤務(wù)局,北京100000)