潘峰
(國家稅務總局稅務干部進修學院,江蘇 揚州 225007)
摘要:隨著終身學習體系的逐步構建,基于互聯網的遠程學習模式應用不斷普及,各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析,可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法,采用軟件工具對研究數據進行分析,發現了影響考試結果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。
關鍵詞:決策樹;考試結果;預測
1網絡學習與考試
基于Internet的網絡學習是目前比較流行的遠程學習模式,它打破了傳統學習的時空環境限制,有利于構建終身學習體系。網絡學習平臺的學習內容以Web頁面的形式呈現,具有費用低廉、資源更新快、交互性強等特點,學員可以隨時隨地安排自己的學習時間,提高學習效率。
網絡學習平臺除了提供在線學習功能,往往還提供隨堂練習、課程作業、課程考試等考試功能。對學習者學習狀況的評估將直接影響他們對網絡學習的態度、積極性和效果[1]。“學而時習之”,通過網絡學習平臺的考試功能進行自我練習(考試)、參加有組織的考試可以有效促進學員學習,提高學習效果和針對性。
2決策樹與C5.0算法
決策樹的分析結果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數值的方法[2],它通過構造決策樹來發現數據中蘊涵的分類規則。決策樹構造的輸入是一組帶有類別標記的例子,構造的結果是一棵二叉樹或多叉樹[3],由上到下依次為根節點、內部節點和葉節點。決策樹通過對訓練樣本的學習建立分類規則,依據此規則實現對新樣本的分類,屬于有監督的學習方法[4]。
決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標變量為分類型數值,其輸出變量的眾數就是分類結果。決策樹的分類過程是基于邏輯的,每一個葉節點都對應于一條布爾規則。樹的生長過程(即建立決策樹的過程)就是把數據不斷進行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區別是對這種“差異”明顯程度的衡量方式。
決策樹的構建過程是一個遞歸的過程,所以需要確定停止條件。最直觀的方式是當每個子節點只有一種類型的記錄時停止,但往往會導致過度擬合(樹的節點太多)。另一種方法是設置當前節點中的記錄數最小閾值,將置信度最大的分類作為當前葉節點的分類。
作為一種分類決策樹模型算法,C5.0可以生成決策樹或規則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據另一個字段再次拆分,這一過程重復進行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據。熵是對樣本不確定性的一種度量[5]。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。
3C5.0決策樹算法在考試結果預測中的應用
3.1數據挖掘工具
SPSS Clementine是SPSS公司收購取得的數據挖掘工具。SPSS Clementine 12.0結合商業技術可以快速建立預測性模型,幫助用戶改進決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經網絡等各種預測模型。
3.2數據準備
本文研究的數據對象為某網絡學習平臺導出的2015年課程學習和課程考試情況數據(學員學習課程與考試結果);數據格式為“課程學習與考試情況”Excel表;操作系統采用Windows 7 Professional 32 bit;硬件配置:內存為4 GB。
該學習平臺目前擁有注冊學員近2 000人,提供標準格式課件點播服務,還提供課程同步模擬考試服務。“課程學習與考試情況”表記錄了用戶學習過的課程的次數、時間,還記錄了該課程同步模擬考試的結果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學習次數”、“學習總時長”,記錄共有18 476條。部分示例如表1所示。
3.3數據處理
通過對數據格式和內容的調整、完善,可以使得建立的模型更簡單、準確[6]。
為了構造新的衍生特征信息,這里增加一個輸入字段,使用WPS 表格10.1軟件增加“次平均學習時長”列,列值為使用公式計算學習總時長/學習次數的結果。
由于直接使用表格文件,這里無需添加本地數據源,在Clementine軟件中直接添加Excel“源”節點,命名為“學習考核情況”,導入對應的數據文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預處理后的總數據記錄數不變(圖1字段過濾數據格式如表2所示)。添加“類型”節點設置各字段“數據類型”和“方向”,“考核狀況”對應“標志”類型,“學習次數”對應“集”類型,“次平均學習時長”對應“范圍”類型,如圖2所示。
通過“重新分類”節點對學習次數進行規范化分類,這里根據數據密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學習次數圖2數據類型≤4、5≤學習次數≤9、10≤學習次數≤29、學習次數≧30,生成新字段名“學習總次數分段”。
3.4利用C5.0決策樹算法進行數據挖掘
繼續添加一個C5.0節點,對數據進行挖掘,配置目標字段“考核情況”,輸入字段為“學習總次數分段”、“次平均學習時長”,“模型”中配置選擇使用分區數據,輸出類型為“決策樹”,選擇“組符號”(使用分箱法檢查當前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對精簡),修剪嚴重性(置信度)設置為75%,子分支最小記錄數為200。
Clementine從讀入數據到結果顯示的數據挖掘全過程,是以流程圖的形式顯示在數據流程區內的,如圖3所示。每個節點規定了數據的不同操作,箭頭表示數據流向,各種操作組合起來就形成了通向目標的路徑。將前面的節點相連接,執行結果“考核結果”會出現在軟件主界面右上角管理器“模型”中,瀏覽這個模型可以看到數據圖3Clementine數據流程區
挖掘結果。需要注意的是,可以對各節點添加輸出節點“表”觀察各節點數據情況(可以將模型結果添加進數據流程區并輸出)。
針對實驗數據執行決策樹模型“考核結果”,生成規則集(如圖4所示)和決策樹模型(如圖5所示)。
3.5考試結果預測模型解讀
次平均學習時長≤0.17小時的學員,“未通過”考試的可能性為88.4%;次平均學習時長>0.17小時的學員,通過考試的可能性為81.4%。次平均學習時長≦0.17小時且學習次數低于5次的學員,“未通過”考試的可能性為96%;次平均學習時長>0.17小時且學習次數超過5次的學員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學習時長”最重要,其次是“學習次數”。從實際經驗角度看,每次學習時間較長且學習次數較多的學員,通過考試的概率可能會較大。根據該網絡學習平臺的課程學習和考試數據,并使用較為先進的Clementine數據挖掘軟件構建的C5.0決策樹模型,量化反映了網絡學習和考試的這一現象;又由于軟件建模時采用分區數據,提高了模型在不同樣本集上的穩健性,因此獲得的預測模式較為可信。
各類網絡學習平臺可以參考此模型更好地指導學員在線學習,有針對性地提出學習建議,如提醒學員上網學習和學習次數等;也可以進一步針對學員進行聚類分析,深度定制課件資源和服務內容,如開發移動客戶端,提高用戶訪問平臺的便捷性等。
4結論
隨著網絡學習平臺的發展和提升,為更好地貼近用戶需求,深化學習效果,應當關注業務提升需求,充分挖掘海量的學習和考試數據,研究并發現決定學習效果的關鍵因素。C5.0算法在面對輸入字段較多的問題時比較穩健,也易于理解,同時也擅長處理非數值型數據,可以在網絡學習平臺關鍵問題預測中發揮更大的作用。
參考文獻
[1] 岳偉.建構主義學習理論指導下的自學考試網絡助學策略設計[J].考試研究,2015(1):915.
[2] 張軍.數據挖掘中自我學習算法研究[J].網絡安全技術與應用,2014(11):171,173.
[3] 陳承斌.基于決策樹算法分析惡意網絡攻擊和入侵[J].信息與電腦(理論版),2010(7):15.
[4] 陳春茶.數據挖掘技術在移動商務客戶價值識別中的應用研究[D].昆明:云南大學,2012.
[5] 宋海霞,嚴馨,于正濤,等.基于半監督主動學習的虛假評論檢測[J].昆明理工大學學報(自然科學版),2015,40(5):5965.
[6] 張線媚.數據挖掘在電信行業客戶流失預測中的應用[J].微型機與應用,2015,34(15):99102.