《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于規則和詞典的用電安全領域命名實體識別
基于規則和詞典的用電安全領域命名實體識別
2022年電子技術應用第12期
袁金斗1,潘明明1,張 騰2,姜 玨1
1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000
摘要: 在用電安全領域,存在著大量數據、知識未得到充分挖掘和利用,構建領域知識圖譜不僅可以實現用電安全知識的整合,還能極大地提高電力行業的工作效率。命名實體識別是構建知識圖譜的基礎性工作,研究了基于字典和規則的命名實體識別,通過領域實體詞典、構詞特征字符規則匹配和詞性組合特征規則匹配三種方法從非結構文本中準確地提取用電安全相關實體,為用電安全領域知識圖譜的構建提供高質量和高精度的實體。為優化識別流程、提高響應速度,將通用詞性標注任務交由邊緣節點進行處理,中心服務器僅需響應規則模板匹配等任務。在小規模測試實驗中,綜合使用三種方法對用電安全文本進行領域實體識別,F1值能達到85%以上。
中圖分類號: TP391.1
文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.223323
中文引用格式: 袁金斗,潘明明,張騰,等. 基于規則和詞典的用電安全領域命名實體識別[J].電子技術應用,2022,48(12):22-27.
英文引用格式: Yuan Jindou,Pan Mingming,Zhang Teng,et al. Electricity safety domain named entity recognition based on rules and dictionaries[J]. Application of Electronic Technique,2022,48(12):22-27.
Electricity safety domain named entity recognition based on rules and dictionaries
Yuan Jindou1,Pan Mingming1,Zhang Teng2,Jiang Jue1
1.China Electric Power Research Institute,Beijing 100192,China; 2.State Grid Jiangsu Electric Power Co.,Ltd.,Nanjing 210000,China
Abstract: In the field of electricity safety, there are a lots of data and knowledge has not been excavated and utilized, constructing a knowledge graph in the electricity safety field can not only integrate power knowledge, but also greatly improve the efficiency of the power industry. Named entity recognition(NER) is the basis for constructing knowledge graph, this paper studies the named entity recognition based on dictionaries and rules, through three methods: the domain entity dictionary, the word-building feature character rule matching and the part-of-speech combination feature rule matching,to accurately extract electricity safety related entities from non-structured text, providing high-quality and high-precision entities for the construction of knowledge graph in the field of electricity safety. In order to optimize the recognition process and improve the response speed, the general part-of-speech tagging task is sent to the edge node for processing, and the central server processes the rule template matching task. Experimental results show that using the three methods comprehensively to recognition the domain entity of small-scale electricity safety text, the F1 score can reach more than 85%.
Key words : electricity safety domain;NER;domain dictionary;featured character rules;part-of-speech combination rules

0 引言

    命名實體識別[1-3](Named Entity Recognition,NER)在通用領域中主要是指識別文本中的人名、地名、機構名、時間、貨幣等具有特定意義的實體。目前,命名實體識別的主要方法包括三類:基于規則[4]和詞典[5-6]的方法、基于統計機器學習的方法[7]和基于深度神經網絡的方法[8]

    目前,用電安全領域缺乏權威數據集[9],命名實體識別研究工作首先需要對語料集進行序列標注,標記非結構文本中的相關實體、無關字符、詞性序列等,在此研究背景下,采用統計機器學習、深度神經網絡的方法較難獲取大規模的訓練語料集。因此,本文主要基于規則和詞典的方法對實體命名識別進行第一階段研究,發掘用電安全領域實體構詞規則及詞性特征,構建領域詞典及規則模板,進一步擴充語料庫,為后續用電安全領域命名實體識別的機器學習、神經網絡方法的研究奠定基礎。

    從技術角度分析,如果構建的領域詞典能夠覆蓋待識別文本中絕大多數相關實體,那么,基于詞典的命名實體識別方法將具有高準確度及高響應度。但是,領域實體的多樣性、復雜性、衍生性導致構建覆蓋全面的高質量詞典較為困難。因此,基于詞典的方法通常是基于規則方法的輔助補充手段[10]。基于規則的實體命名識別多采用人工歸納并構造規則模板,選用特征包括標點符號、關鍵字、指示詞和方向詞、位置詞(如前后綴)、中心詞等,以規則模板的正則匹配為主要手段[11]。當語料規模不大且提取的規則能比較精確地反映語言現象時,基于規則和詞典的方法其性能要優于基于統計的方法[12]

    另一方面,物聯網設備和數據的爆發式增長,使得基于云計算模型的聚合性服務逐漸顯露出其在實時性、網絡制約、資源開銷等方面的不足。為彌補集中式云計算的不足,本文采用邊緣計算架構,其優勢在于能夠在數據產生側快捷、高效地響應業務需求,減小服務對網絡的依賴,在離線狀態下也能夠提供基礎業務服務。




本文詳細內容請下載:http://www.viuna.cn/resource/share/2000005035




作者信息:

袁金斗1,潘明明1,張  騰2,姜  玨1

(1.中國電力科學研究院有限公司,北京100192;2.國網江蘇省電力有限公司,江蘇 南京210000)




wd.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 午夜精品久视频在线观看 | 日韩精品视频美在线精品视频 | 欧洲成人在线视频 | 在线观看黄a | 日本一区二区三区在线 观看网站 | 在线免费观看黄色网址 | 久久怡红院国产精品 | 欧美人成a视频www | 成 人 黄 色 激 情视频网站 | 噜噜噜噜噜噜色 | 在线精品国产第一页 | 成人高清网站 | 蜜桃视频成人免费版在线 | 久青草国产在视频在线观看 | 亚洲视频天天射 | 中文字幕禁忌乱偷在线 | 狠狠干97| 中文字幕一区二区在线播放 | 日韩三级在线观看 | 日p免费视频 | 欧美视频第一区 | 亚洲最色网站 | 国产成人免费手机在线观看视频 | 天天干天天拍天天射 | 午夜视 | 日韩高清特级特黄毛片 | 美国十次色 | 台湾一级毛片 | 国产老妇xxxxxbb亚洲老妇 | 黄色理论视频 | 97欧美精品激情在线观看最新 | 日本欧美视频在线 | 色网综合| a级高清观看视频在线看 | 欧美不卡在线视频 | 国产日产亚洲系列首页 | 日韩精品一区二区三区免费视频 | 一级片在线免费看 | 久久综合五月天 | 草草草视频在线观看 | 91免费公开视频 |