摘 要: 語音應答業務利用率低、人力需求成本高是一大問題,對此,結合案例,運用CRISP-DW方法,采用Clementine工具對所得數據進行分析處理,得到IVR客戶與地區分布、ARPU值和入網時長的關系;對IVR客戶進行聚類分析,總結出其重要特點;提出相應對策,幫助提高IVR客戶的滿意度和利用率。建立一個C5.0決策樹模型,分析預測客戶是基于什么情況才進入IVR系統的。分析IVR客戶與入網時長、地區、ARPU值之間的規則,有助于更準確地了解IVR客戶并對其細分。
關鍵詞: 語音應答業務;數據挖掘;CRISP-DM;客戶細分
互動式語音應答業務IVR(Interactive Voice Response)是企業客戶關系管理中一種有效的模式,它可以解決用戶的絕大部分問題[1]。本文針對電信行業客戶細分要求,將數據挖掘中的聚類分析、決策樹方法應用于分析過程[2]。
1 電信呼叫中心客戶細分體系
隨著客戶關系管理實踐和理論的發展,在客戶細分方法研究方面,研究者正尋找將客戶聚類為獨特的客戶群的方法[3-4]。在國際學術界,學者們主要利用數據挖掘技術建立基于細分市場水平的客戶分割模型。在國內,武漢大學郭蘊華等人提出了基于模糊聚類分析的客戶分類算法。
2 數據挖掘與數據處理
2.1 數據挖掘在客戶細分和呼叫中心中的應用
數據挖掘用來根據客戶的預測行為定義客戶細分群[5]。例如,將決策樹的葉節點視為一個獨立的客戶細分群。
2.2 移動中心數據獲取與預處理
研究數據來自于中國移動深圳分公司呼叫中心(10086)中的操作數據,操作數據的原數據項以及含義如表1所示。
本文選取動感地帶2月份的數據進行分析研究,數據量為20多萬條。進行數據挖掘[6]之前,對原始數據進行預處理和數據整理,具體步驟如下。
(1)合并具有相同變量的數據集。
(2)對呼入時間進行升序排序,當一個客戶連續撥打10086時,可以更好地顯示數據。
(3)去除重復數據。根據呼入時間排序,在同一相鄰的時間段同時出現重復的呼叫號碼視為重復數據。
(4)去除異常數據。去除異常數據的條件為:ARPU值>1 000或入網時長>80或ARPU值<0或入網時長<0或地區="沉默"。
(5)平衡數據集。
(6)離散化處理。采取“分箱”的方法劃分區間,根據其取值情況分別對應到相應的區間,結果如圖1所示。
入網時長為整型屬性。對于整型屬性采取“分箱”的方法進行區間劃分,根據取值情況對應到相應的區間,結果如圖2所示。
3 聚類分析在客戶細分中的應用研究
以深圳移動動感地帶的客戶作為分析對象,對IVR客戶進行聚類分析[7]。
3.1 深圳移動IVR客戶基本情況分析
(1)地區分布與IVR客戶的關系分析
經分析得到地區分布結果,95%以上撥打IVR的客戶來自寶安、龍崗、福田、南山和羅湖5個地區。寶安地區撥打IVR的客戶最多,占到總數據量的45.79%;鹽田地區的客戶撥打數最少,僅占總數據量的1.31%。
?。?)ARPU值與IVR客戶的關系分析
經分析得到ARPU值分布,99.9%的客戶ARPU值小于600,而其余0.1%的客戶ARPU值在600~1 608.690之間。因此可以看出,ARPU值越大的客戶撥打IVR的數量越少,ARPU值小于200的客戶撥打數量最多。撥打IVR的客戶主要是ARPU值小于350的客戶,ARPU值為100~150之間的客戶撥打IVR的頻率最高。
3.2 K-means算法與分析過程
移動IVR客戶細分分析過程[5]如下:
(1)將客戶劃分為4類:
A類客戶:ARPU值及入網時長都很高
B類客戶:ARPU值高,入網時長較低
C類客戶:ARPU值較低,入網時長高
D類客戶:ARPU值和入網時長都較低
(2)選取“arpu”和“in_months”作為模型的輸入。
(3)數據準備:
?、賹⑺袛祿喜⒌揭粋€記錄表;
②根據呼入時間對數據進行排序;
?、鄹鶕羧胩柎a去除重復數據;
?、苋コ惓W兞浚?/p>
?、葸x擇IVR客戶。
ARPU值、入網時長的數據大小差別非常大,具體統計值如圖3所示。
(4)使用Clementine進行建模,選取“arpu”、“in_months”作為模型的輸入。此處設定K=4。
(5)根據聚類結果,分為4類是較為理想的,結果如圖4所示。
相關統計量結果如表2所示。
從聚類結果得到以下客戶劃分:
A類:cluster-2,7 487條記錄,占13%
B類:cluster-3,5 190條記錄,占9%
C類:cluster-4,15 370條記錄,占26%
D類:cluster-1,30 797條記錄,占52%
4 決策樹C5.0算法的客戶行為預測
(1)進行客戶行為預測的商業理解。用戶在撥打熱線電話時,只會產生兩種情況:一種是轉入“人工接聽”,另一種是進入“自動語音播放”。
(2)選取“area”、“arpu”、“in_months”,作為模型的輸入,將 “是否轉人工”作為輸出變量。
(3)評估客戶行為預測的模型。通過采用analysis節點對C5決策模型進行評估,得到的評估結果如圖5所示,從圖中的可信矩陣可以看出模型的正確率達到60.42%。
結果分析如下:
(1)更可能撥打IVR的客戶包括:ARPU值在50~150,入網時長為5.5~8.5,居住在鹽田、羅湖地區的客戶;入網時長為0~2.5和59.5~62.5,居住在鹽田、龍崗地區的客戶;ARPU值在50~150,入網時長為8.5~11.5,居住在南山、寶安、鹽田、羅湖的客戶。
(2)更可能撥打人工座席的客戶包括:ARPU值在50~150,入網時長為5.5~8.5,居住在南山、寶安地區的客戶;入網時長為11.5~20.5,居住在鹽田、龍崗地區的客戶;入網時長為5.5~11.5,居住在鹽田、龍崗地區的客戶。
該領域的研究仍有許多待改進之處,特別是在模型分析上,利用數據挖掘的方法較少,本文針對這些不足,通過數據挖掘技術,達到提高客戶關系管理可用性、實時性、智能性等目標。本文在國外已有研究的基礎上,結合電信企業的實際需要,提出了電信客戶細分數據挖掘模型,并根據客戶細分結果為企業提供決策支持。在業務應用上,建立了一個聚類模型和一個定量化的決策樹數據挖掘模型,提出了相應的改進措施,可為相關的決策者提供一定的參考。
參考文獻
[1] 王扶東,馬玉芳.基于數據挖掘的客戶細分方法的研究[J].計算機工程與應用,2011,47(4):215-218.
[2] 易珺,路璐,曹東.改進的k-means算法在客戶細分中的應用研究[J].微型機與應用,2005,24(12):52-53.
[3] 潘玲玲,張育平,徐濤.核DBSCAN算法在民航客戶細分中的應用[J].計算機工程,2012,38(10):71-73.
[4] 徐翔斌,王佳強,涂歡,等.基于改進RFM模型的電子商務客戶細分[J].計算機應用,2012,32(5):1440-1442.
[5] 張煥國,呂莎,李瑋.C均值算法的電信客戶細分研究[J].計算機仿真,2011,28(6):185-188.
[6] 廖寶魁,孫雋楓.基于MapReduce的增量數據挖掘研究[J].微型機與應用,2014,33(1):67-70.
[7] 徐新國,朱廷劭,康衛,等.基于數據挖掘的工業控制系統防危機制研究[J].電子技術應用,2012,38(5):87-90.