一種不良域名快速核驗方法的研究
2022年電子技術應用第10期
尚秋明,王利軍,鄧桂英,趙 彤,張立坤
中國互聯網絡信息中心 技術研發部,北京100190
摘要: 針對大量網絡賭博、淫穢色情等不良域名網頁內容存在高度相似性,且運營者多采用注冊大量域名部署同一套網站代碼的方式,變相規避域名被封等特征,利用圖像相似性聚類和相似性搜索等技術,提出一種不良域名的快速核驗方法。實驗表明,人工抽樣一萬個不良域名樣本(淫穢色情和網絡賭博域名各5 000個)進行判定,該不良域名核驗方法總體準確率為99.67%,淫穢色情類準確率為99.66%,網絡賭博類準確率為99.68%,大幅提升了不良域名人工審核效率。
中圖分類號: TN91
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212213
中文引用格式: 尚秋明,王利軍,鄧桂英,等. 一種不良域名快速核驗方法的研究[J].電子技術應用,2022,48(10):72-77.
英文引用格式: Shang Qiuming,Wang Lijun,Deng Guiying,et al. Research on a fast verification method for malicious domain names[J]. Application of Electronic Technique,2022,48(10):72-77.
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.212213
中文引用格式: 尚秋明,王利軍,鄧桂英,等. 一種不良域名快速核驗方法的研究[J].電子技術應用,2022,48(10):72-77.
英文引用格式: Shang Qiuming,Wang Lijun,Deng Guiying,et al. Research on a fast verification method for malicious domain names[J]. Application of Electronic Technique,2022,48(10):72-77.
Research on a fast verification method for malicious domain names
Shang Qiuming,Wang Lijun,Deng Guiying,Zhao Tong,Zhang Likun
Technological Research and Development Department,China Internet Network Information Center(CNNIC),Beijing 100190,China
Abstract: As the high similarity exists in the web content of the malicious domain names, such as online gambling, pornographic etc., and the operators register a large number of domain names and deploy the same website code to circumvent domain name blocking, this paper proposes a fast verification method for malicious domain names by using image similarity clustering and similarity search. Ten thousand malicious domain name samples are selected manually in the experiment,including 5 000 pornography and 5 000 Internet gambling domain names. The final experiment shows that the overall accuracy of the verification method is 99.67%, 99.66% for pornography and 99.68% for Internet gambling, which greatly improves the manual verification efficiency of malicious domain names.
Key words : domain names;malicious domain names;malicious information monitoring;similarity search;clustering analysis
0 引言
隨著互聯網的高速發展,網絡賭博、淫穢色情等不良信息的傳播越來越泛濫,對我國網民尤其是未成年網民的生活及學習產生十分不良的影響[1]。網絡賭博、淫穢色情等網絡不良信息一直是我國凈化網絡環境重點打擊的內容。域名是網絡信息的主要訪問入口,通過技術手段對網絡不良信息進行檢測,進而對相關域名進行過濾封堵是不良信息治理的重要保障。隨著5G時代的到來,域名不良應用空間不再局限于傳統互聯網網站,網絡直播、APP、微信群等新型互聯網應用不斷涌現,進一步加快不良信息的傳播速度和增長規模,管控難度增加,安全問題更加嚴峻,不良域名的實時檢測和處置需求進一步提高。
現有不良域名的檢測識別多是基于域名相關信息,包括注冊信息、DNS解析服務器、網站IP歸屬地等,結合不良域名黑白名單,利用機器學習預測模型,實現對域名不良程度進行判定。該方法的前提是不良域名之間存在若干相關性。由于域名的注冊成本較低且可選注冊的頂級域名類型超過1 000個,借助于大量的域名托管服務商和云服務商,域名注冊者可通過打破不良域名之間關聯關系,實現逃避此類檢測算法的目的。同時該方法的域名不良判定結果仍需大量的人工檢驗工作,以便開展相關處置工作。
本文詳細內容請下載:http://www.viuna.cn/resource/share/2000004962。
作者信息:
尚秋明,王利軍,鄧桂英,趙 彤,張立坤
(中國互聯網絡信息中心 技術研發部,北京100190)
此內容為AET網站原創,未經授權禁止轉載。