《電子技術應用》
您所在的位置:首頁 > 電源技術 > 設計應用 > 基于Hadoop和關系型數據庫的電力用采大數據混合服務架構
基于Hadoop和關系型數據庫的電力用采大數據混合服務架構
2015《電子技術應用》智能電網增刊
王 軍1,韓林峰1,侯 賓2
(1.河南許繼儀表有限公司, 河南 許昌 461000;2. 北京郵電大學 電子工程學院, 北京 100876)
摘要: 電力系統的用采數據具有結構復雜、數據量龐大和增量迅速等典型大數據特點,關系型數據庫將無法應對其未來發展。基于Hadoop和關系型數據庫混合構架,提出新型用采數據服務架構。對平臺的高可用性、系統監控、IaaS部署等進行分析,提升了系統 的可靠性,降低了運維難度。提出了可擴展的數據預處理過程和數據質量管理模型,保障了數據服務質量,提高了系統的易用性。測試結果表明,服務架構能夠提供高性能、高質量的數據服務。
Abstract:
Key words :

  王  軍1,韓林峰1,侯  賓2

  (1.河南許繼儀表有限公司, 河南 許昌 461000;2. 北京郵電大學 電子工程學院, 北京  100876)

  摘  要: 電力系統的用采數據具有結構復雜、數據量龐大和增量迅速等典型大數據特點,關系型數據庫將無法應對其未來發展。基于Hadoop和關系型數據庫混合構架,提出新型用采數據服務架構。對平臺的高可用性、系統監控、IaaS部署等進行分析,提升了系統 的可靠性,降低了運維難度。提出了可擴展的數據預處理過程和數據質量管理模型,保障了數據服務質量,提高了系統的易用性。測試結果表明,服務架構能夠提供高性能、高質量的數據服務。

  關鍵詞電力用采數據;數據服務;Hadoop;數據質量管理

0 引言

  隨著電力系統逐步走向自動化和智能化,傳統的用電數據采集也由人工抄表轉變為遠程自動抄表。目前,我國智能電表數量已超過三億塊,用戶用電信息采集頻率更加頻繁,且電表和主站之間的數據通信是雙向互動的,即包括信息采集也包括任務下發與控制等,這對用電信息的采集、存儲、查詢、分析等全生命周期的數據處理能力提出了更高的要求,交互數據可以輕易達到TB甚至PB等級,省級電力公司的用采增量數據也可達到上百GB或TB等級[1,2]。

1 電力用采數據管理系統的現狀

  很多省市電力公司已構建起了相應的數據管理系統,并大多采用關系型數據庫構建數據平臺。但由于其對橫向擴展能力較差,無法有效支持數據的快速增長和類型擴展,難以對大量復雜數據進行有效管理和應用分析[9]。

  隨著Hadoop和NoSQL等分布式技術的發展,對TB甚至PB等級的數據進行實時查詢、統計和深度挖掘成為可能[3~5]。有文獻對Hadoop技術在電力相關領域的應用進行了研究和測試,但是企業界真正形成的實用系統還較少。其原因主要如下:

  首先,存在開發難度。Hadoop體系的適用場景、設計理念和傳統關系型數據庫有很大差異,且對通常的編程接口和方法的支持還不夠完善。如果大范圍用Hadoop代替現有的成熟關系型數據庫,會帶來適用性、穩定性和適配等難題。

  其次,存在運維難度。分布式的Hadoop系統的部署、監控和運維方式和單機的關系型數據庫差異較大,存在更多的高可用性、監控等需求,而傳統電力業務人員和運維人員對這些方法并不熟悉[6]。

  根據當前電力企業在用采數據系統建設的突出矛盾和發展趨勢,提出基于Hadoop和關系型數據庫混合技術,構建用采數據管理系統和大數據服務平臺[7]。屏蔽底層技術的復雜性,提供平臺的高可用性保障和運維監控方法,提供統一的、可擴展的數據清洗和預處理方法[8],提供易用的數據查詢和分析接口,并提供數據質量管理和統計分析等新業務內容,以及提供數據的高可用性、維護監控、預處理、使用接口和數據質量管理內容。

2 混合數據服務平臺設計

  2.1 平臺架構設計

  基于云計算的海量用電信息混合存儲技術架構如圖1所示。

001.jpg

  采用HDFS與關系數據庫相結合的混合存儲,關系數據庫主要存儲修改操作較為頻繁的業務交易數據,以及檔案數據和告警事件等;云存儲架構主要存儲采集的電量、負荷等業務數據,當現有集群規模無法滿足用電信息的增量存儲時,可直接增加節點,實現動態橫向擴展,以保障海量采集數據的穩定性和可靠性,為其他智能用電應用系統提供良好的數據支撐。

  終端采集的原始數據經過清洗、解析和分類,轉化成基礎業務數據、存入HDFS。大數據管理引擎負責對海量數據的裝載、寫入、查詢及處理等。采集終端上傳的數據實質是半結構化數據,并且是多種業務內容的混合數據,利用MapReduce的并行處理能力,快速、可靠、穩定地完成半結構化數據與業務系統檔案數據的語義關聯,從而為用電信息采集業務應用系統提供完業務分類。

  在數據處理流程上,原始數據經過分類、處理和分析之后,根據其特點,小數據集導入到關系型數據庫,大數據集導入HBASE表格,在業務系統建設方面,只需要重構少量數據接口和業務模塊,即可完成系統整體性能的提升。對于檔案類、模型類等數據,仍然存放在關系型數據庫,并可以通過Web Service、JDBC、ODBC、SQL等常見技術進行訪問和調用,原有的業務系統不會遭到徹底的推翻和重構,在提高系統性能的同時,最大限度地避免了升級的風險。

  Hadoop存儲和關系型存儲之間存在數據交換需求。Hadoop需要從關系型數據庫讀入檔案類數據(例如用戶信息),其次Hadoop對原始數據的處理結論,會導入到關系型數據庫,以方便業務使用。采用開源Sqoop組件,通過MapReduce方式,實現數據的導入導出,在數據導入導出過程中需要保障數據的主鍵唯一性,并切斷關系型數據庫的外鍵聯系,以適應兩種不同的數據結構。

  對于需要進行業務查詢的大數據集(單表上億條目),需要將數據集導入的HBASE,利用其分布式檢索能力,實現超大數據集的實時查詢。Hadoop可以通過批量導入的方法將數據寫入HBASE,寫入時需要對數據主鍵進行校驗和優化設計,根據用采數據的特點,采用哈希后的“表計編號+時間+數據類型”作為數據表主鍵,即可以保持數據的唯一性,也可確保數據的隨機查找速度。

  2.2 平臺高可用性設計

  Hadoop本身具備機架感知、數據塊多副本等子節點高可用性(HA)機制,但對于主節點的保障機制較差。較早前Hadoop并不提供Namenode的高可用性保障,只是提供了對元數據(持久化元數據fsimage和增量log數據)的數據備份機制,如SecondNamenode等。

  新版本Hadoop支持對Namenode進行在線備份和自動角色恢復。其主要思路是把主節點元數據信息存儲在一個網絡存儲位置,當出現活躍主節點(Active Namenode)單點故障的時候,備用主節點(Standby Namenode)會接管數據并提升自己為活躍主節點。

  在集群元數據的存儲策略上,有兩種策略可選,一是采用獨立的網絡存儲單元,二是采用分布式程序協調系統Zookeeper作為元數據存儲和活躍節點監控和失效選舉。Zookeeper具有分布式數據組織、心跳監控、數據同步、選舉等功能,很適合用來管理Hadoop結構中各類主節點(HDFS Namenode、HBASE Hmaster、Yarn Resource Manager等)的HA。根據用采系統的集群建設規模與實際情況,設計如圖2所示。

002.jpg

  實際部署中,集群中的部分Datanode子節點同時擔負Zookeeper節點的功能,由于Zookeeper的選舉機制具有“半數以上通過”的策略,因此一般采用單數個節點數,此外節點過多可能造成較大的通信開銷,因此這里采用5或7個節點(zk節點)。

3 可配置的數據基礎服務流程設計

  3.1 數據預處理流程

  在數據預處理方面,由于電力標記和數據具有多種類型,例如對階梯電價的支持,或者對不同的功率數據進行采集等,未來還可能出現更多類型的數據業務形態,要求數據服務系統的數據預處理和清洗流程是可配置的、動態的。

  在預處理層面,通常只是實現對數據的分類存儲和規約化校驗,不會進行復雜的統計分析,因此預處理階段設計為利用一個MapReduce過程加以完成。為實現可配置、可擴展的數據預處理,設計MapReduce的主要流程如圖3所示.

003.jpg

  流程圖描述是一個Map函數或Reduce 函數的內部執行過程。數據鍵值對(Key,Value)在進入Map或Reduce過程時,首先進行通用化的預處理,之后根據數據種類,讀取相應預處理配置文件,再根據配置文件調用相應的處理邏輯或正則表達式進行校驗、格式轉換、解壓縮等步驟。如果需要對預處理邏輯進行修改,只需要編輯正則表達式和自定義函數進行調整即可,而不需要對主體MapReduce函數進行修改,不會對整體過程造成額外影響。

  3.2 數據質量管理

  針對電力用采數據的質量管理包含兩個層面。一是管理數據在存儲、轉換和處理過程中出現的錯誤、以及平臺的容錯性和錯誤恢復等,這通過容錯和HA策略進行保障,并通過WEB管理界面進行操作和查看。二是統計并分析各類錯誤數值。主要解決異常的發現、分類和關聯統計,以及可視化呈現等。

  從技術實現上看,根據地區、廠商等進行的統計分析,實際是進行了多表格的聯合(Join)查詢。在Hadoop中,為了提高Join查詢效率,會選擇將小表緩存到內存,以實現Map Join。對于不同的統計方法,緩存的表格顯然是不一樣的,因此為了實現可配置的數據質量管理,設計可配置的數據質量統計流程如圖4所示.

004.jpg

  與預處理流程相比較:預處理不需要進行Join查詢,以及數據匯聚和復雜運算,其可配置的操作內容可以放在一輪MapReduce過程中完成,而數據質量管理統計則需要多輪MapReduce依次完成。

4 針對核心架構的測試

  4.1 測試平臺設計

  在九臺X86服務器上部署數據服務平臺,并且配置高可用性(HA)策略和上文描述的機架感知策略。服務器采用Openstack搭建虛擬化環境,并設置虛擬機資源為:雙核CPU、8GB內存和500 GB硬盤。設置2個Namenode 節點 ,7個Datanode節點。2個Namenode中,一個設置為Active NameNode,另一個設置為Standby NameNode。在9個節點中,部署7個獨立zookeeper角色,選取在2個Namenode 節點和5個Datanode節點上面。在其中一個Namenode節點上安裝Hive和Hive客戶端。拓撲如圖5所示。

005.jpg

  測試數據是某地區4億條的原始用采數據,大小為30 GB左右。體現了400萬以上用戶規模在一天內的數據,和電量、線損計算需求。由于測試在3臺實體服務器上進行,和一般Oracle服務器的硬件環境無可比性。測試賬戶要針對基于虛擬化搭建的Hadoop數據平臺的整體運行效果和處理效率進行驗證,并根據Oracle做正確性驗證。

  5.2 典型數據預處理過程測試

  主要測試數據導入HDFS,對電量、功率、電壓電流等數據進行分類寫入的時間,即對數據進行綜合檢索的時間。對于業務系統,可能要求對處理后的原始數據導入HBASE,以方便實時查詢,因此也進行了相應測試。測試結果如表1所示。

006.jpg

  測試表明,原始數據的導入、預處理等過程在可接受的時間內完成,如果存在更多的數據節點,4億條當日數據在更短時間內完成導入和預處理。

  5.2 典型異常數據統計測試

  主要測試電力用采數據中,常見錯誤類型的處理效果。這里選取前文描述的時間異常、數值異常和根據地區進行錯誤3個業務進行統計分析,并將結果數據寫新文件。測試結果如表2所示。

007.jpg

  測試表明:數據服務平臺能夠對常見錯誤進行處理,以輔助業務人員及時分析問題,維修設備和系統,及時保證用采數據的可靠采集和高質量。

6 結論

  電力用采數據的管理和分析不僅對電力行業具有重要意義。 Hadoop技術由于其維護和使用的復雜度較高,目前尚未在電力行業得到大規模普及或深入應用。本文實現了性能、易擴展的分布式數據服務平臺。通過對高可用性和云化部署方法的設計,簡化的部署和運維的復雜度;通過混合架構設計、可配置的數據預處理和數據質量管理方法設計,提高了數據的易用性,降低了系統開發和升級的難度,提高了數據服務質量。通過測試驗證了服務架構的處理性能。

參考文獻

  [1] 張冬欣.對居民生活用電實施階梯式電價的思考[J]. 當代經濟,2010(4)(上).

  [2] 洪釗峰.Hadoop發展現狀與Hadoop in China大會[C].2010.

  [3] 拉賈拉曼,厄爾曼.大規模數據挖掘[M].王斌,譯.北京:人民郵電出版社,2012

  [4] 王德文,宋亞奇,朱永利.基于云計算的智能電網信息平臺口[J].電力系統自動化,2010,34(22):7-12.

  [5]冉冉, 張巖, 胡楠, 劉雪松, 栗楊, 姜昊,基于電力數據中心應用標準化設計的研究[J].電子技術應用,2014,40(z1).

  [6]劉向東, 劉奎, 胡飛翔,等.基于MapReduce的并行聚類算法設計與實現[J].計算機應用與軟件,2014(11).

  [7]張永, 張紅蕊, 路婧威.海量數據離散化算法的并行設計與實現[J].計算機應用與軟件,2014(6).

  [8]黃偉建, 周鳴愛.MapReduce高可用性的研究與優化[J].計算機工程與設計,2014(11).

  [9]劉文峰,顧君忠,林欣,等.基于Hadoop和Mahout的大數據管理分析系統[J].計算機應用與軟件,2015,32(1):47-50.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 欧美les视频xxxx在线观看 | 一本无线乱码不卡一二三四 | 国产无遮挡裸体免费视频在线观看 | 最近2019年中文字幕6 | 国产成+人+亚洲+欧美综合 | 亚洲另类精品xxxx人妖 | 特级黄色视频毛片 | 黄网站www | 在线观看久草 | 男女午夜爽爽大片免费 | 99国内视频| 蜜桃五月天 | 欧美亚洲国产成人精品 | 日韩一区二区超清视频 | 日韩高清性爽一级毛片免费 | 国产专区视频 | 99v视频国产在线观看免费 | 一区二区在线免费视频 | 一级视频黄色 | 久久精品网站免费观看 | 亚洲无矿砖码专区2020 | 国内外精品免费视频 | 欧美 亚洲 一区 | 黄乱色伦 | 欧美高清在线精品一区 | 欧美zozozo人禽交免费大片 | 成人黄色免费看 | 一二三四社区在线视频社区 | 国产欧美日韩在线不卡第一页 | 无遮羞无删减肉动漫在线观看 | 99色吧 | 中国一级毛片在线观看 | 欧美一区二区三区四区视频 | 亚洲精品无码专区在线播放 | 美女网黄 | 精品国产一区二区三区不卡 | 午夜高清 | 欧美色图 亚洲 | 久操视频在线观看免费 | 黄色网址在线看 | 性欧美日本 |