中文引用格式: 吳磊,汪杭軍. 基于預訓練模型的基層治理敏感實體識別方法[J]. 電子技術應用,2023,49(9):109-114.
英文引用格式: Wu Lei,Wang Hangjun. Identification method of sensitive entities in grassroots governance based on pre-training models[J]. Application of Electronic Technique,2023,49(9):109-114.
0 引言
隨著中國特色社會主義進入新時代,構建現代化的基層治理體系對鄉村振興和國家長治久安意義重大,而治理體系現代化需要信息化要素的融入[1]?;鶎又卫頂底只a生的大量數據經過數據分析與挖掘,可用于鄉、鎮、街道的信息化、智慧化建設。這些數據難以避免地會包含個人隱私信息,且在現有安全條件下這些數據采集和使用可能存在數據泄露風險[2]。數據脫敏是一種將結構化或非結構化數據中的敏感信息按照一定脫敏規則進行數據變形的技術,經過脫敏后的數據兼顧了可用性和安全性,能夠在保護隱私的前提下正常應用于各個場景。文獻[3]闡述司法領域結構化文本和非結構化文本的脫敏問題,并以匈牙利法律文件作為案例研究可能的方案。該文獻提供了一種思路,即將命名實體識別與數據脫敏聯系起來。結構化數據中敏感數據較為明確,可依據不同的數據列劃分,但非結構化數據需要將敏感數據從大量文本中識別出來,這就需要命名實體識別技術應用于基層治理文本的數據脫敏過程中。
命名實體識別[4]是一種從非結構化文本中識別出具有特定意義實體的技術,為自然語言處理中的一項基礎任務。該任務有助于關系抽取、知識圖譜等下游任務[5]。常見的實體有人名、地名、機構名等,例如在“李彥宏在北京舉辦了百度AI開發大會”識別出李彥宏(人名)、北京(地名)、百度(機構名)3個實體。命名實體識別技術的發展可劃分為3個階段:基于詞典和規則的方法、基于機器學習的方法和基于深度學習的方法[4]。除了通用語料的實體識別,還存在面向特定應用場景的領域命名實體識別(Domain Named Entity Recognition,DNER),例如醫療、生物、金融、司法、農業等領域[6]。雙向長短期記憶網絡(Bidirectional Long Short-Term Memory Networks,BiLSTM)和條件隨機場(Conditional Random Field,CRF)的組合模型由于良好的表現,在不同領域都被作為最經典的模型而廣泛使用。本文將基層治理非結構化文本的敏感詞識別任務轉換為命名實體識別任務,沿用常規的序列標注方法。
英文單詞之間有空格劃分,分詞邊界明確,以及首字母、詞根、后綴等區分信息使得命名實體識別表現較好。而中文最明顯的特點是詞界模糊,沒有分隔符來表示詞界[7]。由于中文字詞之間沒有空格分隔,中文命名實體識別若以詞粒度劃分,必須先進行分詞。分詞錯誤導致的誤差傳遞使得詞粒度識別效果差于字粒度。因此,中文命名實體識別常采用字粒度進行識別。文獻[8]綜述了中文命名實體識別的方法、難點問題和未來研究方向。文獻[9]通過在中文詞嵌入加入語義、語音信息以提升識別效果。目前,命名實體識別廣泛應用于各個領域,但在基層治理領域的相關應用較少。與通用領域數據相比,基層治理過程中的敏感信息識別實體嵌套、一詞多義和字詞錯誤等問題更為嚴重。
此外,通用領域的命名實體識別雖包含了人名、地名和機構名等部分敏感實體,但未能將身份證號、手機號和銀行卡號等數字類型的敏感實體作為數據標注,難以包含基層治理過程中產生的眾多敏感實體類型。
本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005647
作者信息:
吳磊1,汪杭軍2
(1.浙江農林大學 數學與計算機科學學院,浙江 杭州 311300;2.浙江農林大學暨陽學院 工程技術學院,浙江 諸暨 311800)