《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 面向數據挖掘的匿名化隱私數據發布系統設計
面向數據挖掘的匿名化隱私數據發布系統設計
2016年電子技術應用第11期
吳 響,俞 嘯,王換換
徐州醫科大學 醫學信息學院,江蘇 徐州230026
摘要: 為了最大限度地保證隱私數據不被泄漏,設計并研發了面向數據挖掘技術的匿名化隱私數據發布系統。系統以Exynos 4412為主處理器,同時搭載μClinux操作系統,在處理數據的過程中實現并優化了多種經典匿名算法(如Incognito算法、Samariti算法、Datafly算法等),通過內置嵌入式Web服務器實現瀏覽器遠程連接配置系統運行信息,并獲取運行結果。同時,系統可以通過數據庫的自定義配置及上傳新增算法來實現數據的定制化發布。實驗表明,系統算法執行效率高,能夠有效地對發布數據進行隱私保護,為數據挖掘過程中的隱私泄漏問題提供了便捷可靠的解決方案。
中圖分類號: TP274
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2016.11.016
中文引用格式: 吳響,俞嘯,王換換. 面向數據挖掘的匿名化隱私數據發布系統設計[J].電子技術應用,2016,42(11):62-65.
英文引用格式: Wu Xiang,Yu Xiao,Wang Huanhuan. Design of anonymous privacy data publishing system for data mining[J].Application of Electronic Technique,2016,42(11):62-65.
Design of anonymous privacy data publishing system for data mining
Wu Xiang,Yu Xiao,Wang Huanhuan
School of Medical Informatics,Xuzhou Medical University,Xuzhou 230026,China
Abstract: In order to ensure that the privacy data is not compromised, the anonymous privacy data publishing system is designed and developed for data mining. The system uses Exynos 4412 as the main processor and is equipped with μClinux operating system. It realizes and optimizes many classical anonymity algorithm(like Incognito algorithm,Samariti algorithm,Datafly algorithm and so on) in the process of handling data, realizes the browser connect and deploys the information of system operation remotely by the Built-in embedded server and the results. At the same time, the system can achieve customized data release requirement of the user by setting custom configuration of database and uploading the new algorithm. Experiment shows that the system has high efficiency and it can protect the privacy of publish data effectively, which provides a convenient and reliable solution for data mining.
Key words : embedded Web server;μClinux;privacy protect;data release

0 引言

    隨著信息技術及數據挖掘技術的飛速發展,越來越多的數據為人們所共享使用。如何保護發布數據中的隱私信息不被攻擊者惡意獲取,同時又使數據接收者充分利用數據信息進行有效的探索和科學研究,已成為一個重要的信息安全問題。

    目前,學術界對隱私保護技術開展了較為深入的研究[1-2],相關技術大致可以分為3 類:基于數據失真的技術[3-4]、基于數據加密的技術[5-6]和基于限制發布的技術[7-8]。其中,基于限制發布技術中的k-匿名得到廣泛的應用[9]。k-匿名方法又可以分為精確求解方法和近似求解方法。前者能保證找到最優k-匿名方案,但其時間復雜度為指數級,只適用于小規模數據;后者只能找到近似最優k-匿名方案,但其時間復雜度為線性或近似線性,可應用于大規模數據。同時近似求解方法通過采用多種啟發策略,可以在多項式時間內找到滿足特定目標函數的局部最優方案,但不能保證找到全局最優方案。不同的匿名算法應用場景不同,數據匿名效果也各不相同,因此,需要根據發布者的需求進行定制數據匿名化。

    本文針對不同應用場景及不同的用戶需求,對匿名化隱私數據發布系統進行了研究。該系統在保證發布數據滿足k-匿名的基礎上,設計了自定義匿名算法的功能,實現用戶數據定制化發布;同時結合嵌入式Web服務器技術打破傳統硬件的限制,用戶在能夠訪問Internet的地方即可進行數據發布的相關操作。通過測試實驗對系統性能進行評估,結果表明該系統具有良好的匿名性、移動性和可擴展性,同時具有很好的服務選擇性。

1 系統總體設計

    系統主要由遠程數據庫、數據發布終端及遠程瀏覽器3部分構成,實現數據的獲取、處理、發送及顯示,圖1所示為系統的總體結構圖。

ck3-t1.gif

    系統流程:用戶通過瀏覽器連接終端內的嵌入式Web服務器對數據發布過程中的數據庫連接、算法選擇、數據加密方式及要求等相關信息進行配置,同時通過遠程瀏覽器實現任務開啟、結果顯示、數據導出等功能;數據發布終端在收到Web服務器的開始任務請求后讀取系統配置信息,通過Internet獲取遠程數據庫的數據源,并使用相關算法將數據進行匿名化操作;最后,終端將處理完成的數據集通過Web服務器呈現給遠程瀏覽器,并提供文件導出、數據庫轉存等多種數據導出方式。

2 系統硬件設計

    為了使數據發布終端既作為數據處理單元又作為嵌入式Web服務器單元,實現用戶通過瀏覽器對終端進行遠程配置、任務執行和結果輸出等操作,將系統硬件分為電源管理模塊、處理器模塊、數據存儲模塊、網絡通信模塊和顯示器模塊5個部分,硬件系統總體結構如圖2所示。

ck3-t2.gif

    系統選用三星公司ARM Cortex系列中最新推出的Exynos 4412芯片為主處理器,是32 nm HKMG(High-K Metal Gate,HKMG)工藝的4核處理器,主頻高達1.5 GHz,具有高性能、低功耗的優點。終端同時配備2G DDR3(Double Data Rate SDRAM 3,DDR3)內存及4 GB高速閃存。系統選用由Davicom公司生產的DM9000A作為以太網控制器芯片,它有1個10/100 Mb/s的自適應物理層與4 KB雙字節大小的靜態隨機存儲器,支持8 bit和16 bit的接口,可以支持不同類型的處理器,從而為終端執行數據加密處理過程提供可靠、高效的執行環境和硬件支持。

3 系統軟件設計

3.1 數據發布終端軟件設計

    數據發布終端結合嵌入式Web服務器技術[10]實現,用戶通過PC端的瀏覽器,使用圖形界面來直接地訪問嵌入式系統。這種基于Internet的方式使用戶端可以在世界任何一個可連接Internet的地方訪問Web服務器,根據用戶需求隨時隨地進行數據匿名發布操作,極大地方便了用戶進行的數據發布、系統管理和科研工作。

    為實現用戶通過遠程瀏覽器與嵌入式Web服務器進行通信,系統中數據發布終端既作為數據處理單元又作為嵌入式Web服務器單元。嵌入式Web服務器在μClinux操作系統基礎上,利用操作系統自帶的TCP/IP協議棧提供的Socket編程接口進行通信。Web服務器由Http引擎及應用程序接口組成,通過CGI程序調用嵌入式應用程序模塊,從而實現用戶驗證、系統配置、任務執行和數據導出等功能。嵌入式Web服務器總體結構框架如圖3所示。

ck3-t3.gif

    數據發布終端Web服務器采用多進程偵聽模式,允許多個用戶的同時連接。在Socket通信套接字創建完成后,終端偵聽的過程是一個無限循環,當偵聽到合法連接后便進行連接操作并解析Http報文請求。首先判斷用戶的合法性,若用戶身份認證通過則繼續解析,否則返回登錄提示Web界面。

    CGI(Common Gateway Interface,CGI)是一種動態Web網頁技術,通過CGI程序定義的接口標準與其他應用程序模塊之間進行交互。在Web服務器對客戶端瀏覽器發送的請求報文進行判斷時,若為靜態頁面則直接返回相應頁面,若為CGI動態請求則將報文數據傳遞到CGI程序中處理,進行相關操作并將執行的結果封裝成Html形式發送到客戶端瀏覽器,從而展現給用戶。 具體的軟件流程如圖4所示。

ck3-t4.gif

3.2 算法介紹

    為了適應數據挖掘中不同應用場景下的隱私保護匿名化需求,系統內置10種匿名化隱私保護算法。算法主要分為全域泛化算法[11]和局域泛化算法[12]兩類,其中全域泛化算法包含Incognito算法、Datafly算法、Samarati算法、Classfly 算法和Classfly+算法;局域泛化算法包含TDS(Top-Down Specialization)算法、Mondrian算法、MDAV算法、KACA算法和Filter K-匿名算法。

    本系統的內置算法在其原文獻中均需消耗大量時間進行訪問I/O接口的操作,使得算法處理數據集效率較差。針對這一問題本系統進行了算法優化,使系統在處理數據集時除讀取數據和導出匿名后的數據外,其余操作均在內存中完成。這種優化方式雖然消耗了內存資源,但大幅度縮短了處理數據集的時間,提高了系統對數據匿名化處理的效率。

    以Incognito算法為例,在文獻[11]中,該算法在形成表Ei的過程是在數據庫中進行的,需要多次訪問I/O接口,造成時間的損耗。以下是文獻[11]形成Ei的SQL語句:

INSERT INTO Ei (start, end) WITH CandidateEdges (start, end) AS (SELECT p.ID, q.ID FROM Ci p, Ci q, Ei-1 e, Ei-1 f WHERE (e.start = p.parent1 ∧ e.end = q.parent1 ∧ f.start = p.parent2 ∧ f.end = q.parent2) ∨ (e.start = p.parent1 ∧ e.end = q.parent1 ∧ p.parent2 = q.parent2) ∨ (e.start = p.parent2 ∧ e.end = q.parent2 ∧ p.parent1 = q.parent1) ) SELECT D.start, D.end FROM CandidateEdges D EXCEPT SELECT D1.start, D2.end FROM CandidateEdges D1, CandidateEdges D2 WHERE D1.end = D2.start

    這段代碼多次訪問I/O接口,占用該算法運行的大部分時間,本系統內置的Incognito算法對本部分優化的偽代碼如下:

ck3-cx1.gif

ck3-cx2.gif

    其中Ei包含Start和End兩個字段,Ci包含ID、屬性名和各屬性泛化級別字段。以上代碼均在內存中執行,減少了原算法的I/O接口的訪問次數,極大地縮短了算法處理數據集的時間。

4 測試結果

    為驗證面向數據挖掘的匿名化隱私數據發布系統的實用性,測試選取了來自公共數據庫UC Irvine Machine Learning Repsditory的Adult數據集中的訓練集(大小:30 162條記錄)作為系統數據源并對其進行匿名化測試,準標識符屬性為age、workclass、education、marital_status、race、sex、native_country,敏感屬性為salary。

4.1 功能測試

    在功能測試中,設置匿名隱私約束k等于10。測試時,在瀏覽器地址欄下輸入嵌入式Web服務器的IP地址,服務器對瀏覽器的請求作出響應,進行相應操作并將結果發給瀏覽器。在瀏覽器中進行對數據清洗,配置k-匿名隱私約束、準標識符屬性、泛化規則以及敏感屬性操作,并根據不同的需求選用相應的匿名化隱私保護算法,最后執行k-匿名處理。源數據表經過泛化后均滿足k-匿名,且匿名表信息損失量較小。

4.2 性能測試

    在性能測試中,以Incognito算法為例進行了不同k值約束條件下文獻算法與系統優化內置算法執行時間的對比,具體時間對比如表1所示。

ck3-b1.gif

5 結論

    本文描述了面向數據挖掘的匿名化隱私數據發布系統的設計與實現,該系統通過內置算法匿名化數據集的準標識符屬性,從而避免個人信息泄漏。測試結果證明,本系統可以有效地實現數據集的匿名,保護了個人隱私信息,并且其內置的優化算法大幅度地提高了處理數據的效率。同時,系統提供的可配置數據庫及自定義算法功能使數據發布得以定制化,具有較好的移動性、可擴展性和服務選擇性,為數據挖掘科研工作的開展提供較大的參考價值。

參考文獻

[1] 周水庚,李豐,陶宇飛,等.面向數據庫應用的隱私保護研究綜述(四)[J].計算機學報,2009,32(5):847-861.

[2] 朱青,趙桐,王珊.面向查詢服務的數據隱私保護算法[J].計算機學報,2010,33(8):1315-1323.

[3] SAYGIN Y,VERYKIOS V S,ELMAGARMID A K.Privacy preserving association rule mining[A].Proceedings of the 12th International Workshop on Research Issues in Data Engineering(RIDE)[C].USA:San Jose,2002:151-158.

[4] AGGARWAL C C,YU P S.A condensation approach to privacy preserving data mining[A].Proceedings of the 9th International Conference on Extending Database Technology (EDBT)[C].Greece:Heraklion,2004:183-199.

[5] YAO A C.How to generate and exchange secrets[A].Proceedings of the 27th IEEE Symposium on Foundations of Computer Science(FOCS)[C].Canada:Toronto,1986:162-167.

[6] CLIFTON C,KANTARCIOGLOU M,LIN X,et a1.Tools for privacy preserving distributed data mining[J].ACM SIGKDD Explorations,2002,4(2):28-34.

[7] 韓建民,于娟,虞惹群.面向敏感值的個性化隱私保護[J].電子學報,2010,38(7):1723-1728.

[8] 楊靜,王超,張鍵沛.基于敏感屬性熵的微聚集算法[J].電子學報,2014,42(7):1327-1337.

[9] SWEENEY L.Achieving k-anonymity privacy protection using generalization and suppression[J].International Journal of Uncertainty,Fuzziness and Knowledge-Based System,2002,10(5):571-588.

[10] 王莉,周偉.基于ARM的嵌入式Web服務器設計[J].計算機工程與應用,2012,48(14):90-93.

[11] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Incognito:efficient full-domain K-anonymity[C].ACM SIGMOD International Conference on Management of Data,USA:Maryland,2005:49-60.

[12] LEFEVRE K,DEWITT D J,RAMAKRISHNAN R.Mondrian multi-mensional K-anonymity[C].Proc.of the 22nd International Conference on Data Engineering,2006.

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 夜夜想夜夜爽天天爱天天摸 | 2015日韩永久免费视频播放 | 日韩三级在线免费观看 | 成人在线免费观看视频 | 亚洲制服丝袜在线播放 | 在线观看视频欧美 | 2020亚洲欧美日韩在线观看 | 最近新中文字幕大全高清 | 午夜小视频男女在线观看 | 日韩高清的天堂在线观看免费 | 97国产品香蕉在线观看 | 欧美99视频| 一个人在线视频免费观看www | 色天天综合网色鬼综合 | a级在线免费观看 | 欧美日本一区二区三区 | 欧美在线精品一区二区三区 | 免费污视频在线 | 久久国产一区二区 | 国产v亚洲v天堂a无 国产v亚洲v天堂无码 | 国产成人a∨麻豆精品 | 日韩福利视频一区 | 成人在线观看一区 | 日韩网站在线 | 天天插在线视频 | 91精选视频| 美女一级毛片无遮挡内谢 | 一个人看的www高清免费 | 激情五月俺来也 | 蜜月mv国产精品 | 婷婷久久综合九色综合九七 | 亚洲四播房 | 国产成人精品免费午夜 | 碰超在线 | 夜夜爱夜夜操 | 日日碰狠狠添天天爽爽爽 | 一区二区午夜 | 99中文字幕在线 | 怡红院在线视频观看 | 欧美性猛交xxxx免费看蜜桃 | 青青草国产免费国产 |