古风,我欲封天耳根小说,国际完美世界下载

基于C5.0決策樹算法的考試結果預測研究

潘峰

（國家稅務總局稅務干部進修學院，江蘇揚州 225007）

摘要： 隨著終身學習體系的逐步構建，基于互聯網的遠程學習模式應用不斷普及，各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析，可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法，采用軟件工具對研究數據進行分析，發現了影響考試結果的諸多因素及其重要性，可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。

關鍵詞： 決策樹考試結果預測

Abstract：

Key words :

　　潘峰

　　（國家稅務總局稅務干部進修學院，江蘇揚州 225007）

　　摘要：隨著終身學習體系的逐步構建，基于互聯網的遠程學習模式應用不斷普及，各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析，可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法，采用軟件工具對研究數據進行分析，發現了影響考試結果的諸多因素及其重要性，可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。

　　關鍵詞：決策樹；考試結果；預測

1網絡學習與考試

　　基于Internet的網絡學習是目前比較流行的遠程學習模式，它打破了傳統學習的時空環境限制，有利于構建終身學習體系。網絡學習平臺的學習內容以Web頁面的形式呈現，具有費用低廉、資源更新快、交互性強等特點，學員可以隨時隨地安排自己的學習時間，提高學習效率。

　　網絡學習平臺除了提供在線學習功能，往往還提供隨堂練習、課程作業、課程考試等考試功能。對學習者學習狀況的評估將直接影響他們對網絡學習的態度、積極性和效果［1］。“學而時習之”，通過網絡學習平臺的考試功能進行自我練習（考試）、參加有組織的考試可以有效促進學員學習，提高學習效果和針對性。

2決策樹與C5.0算法

　　決策樹的分析結果形似一棵倒置的樹，所以稱為決策樹。決策樹算法是一種逼近離散函數值的方法［2］，它通過構造決策樹來發現數據中蘊涵的分類規則。決策樹構造的輸入是一組帶有類別標記的例子，構造的結果是一棵二叉樹或多叉樹［3］，由上到下依次為根節點、內部節點和葉節點。決策樹通過對訓練樣本的學習建立分類規則，依據此規則實現對新樣本的分類，屬于有監督的學習方法［4］。

　　決策樹的類別包括分類決策樹和回歸決策樹，其中，分類決策樹目標變量為分類型數值，其輸出變量的眾數就是分類結果。決策樹的分類過程是基于邏輯的，每一個葉節點都對應于一條布爾規則。樹的生長過程（即建立決策樹的過程）就是把數據不斷進行切分的過程，每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略，它們的主要區別是對這種“差異”明顯程度的衡量方式。

　　決策樹的構建過程是一個遞歸的過程，所以需要確定停止條件。最直觀的方式是當每個子節點只有一種類型的記錄時停止，但往往會導致過度擬合（樹的節點太多）。另一種方法是設置當前節點中的記錄數最小閾值，將置信度最大的分類作為當前葉節點的分類。

　　作為一種分類決策樹模型算法，C5.0可以生成決策樹或規則集。C5.0算法基于信息增益度分裂方式，第一次拆分確定樣本子集，然后根據另一個字段再次拆分，這一過程重復進行直到樣本子集不能被拆分為止［4］。C5.0算法以信息熵的下降速度（能夠帶來最大信息增益的變量）作為確定最佳分支變量和分割閾值的依據。熵是對樣本不確定性的一種度量［5］。一個系統越是有序，信息熵就越低；反之，一個系統越是混亂，信息熵就越高。

3C5.0決策樹算法在考試結果預測中的應用

　　3.1數據挖掘工具

　　SPSS Clementine是SPSS公司收購取得的數據挖掘工具。SPSS Clementine 12.0結合商業技術可以快速建立預測性模型，幫助用戶改進決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經網絡等各種預測模型。

　　3.2數據準備

　　本文研究的數據對象為某網絡學習平臺導出的2015年課程學習和課程考試情況數據（學員學習課程與考試結果）；數據格式為“課程學習與考試情況”Excel表；操作系統采用Windows 7 Professional 32 bit；硬件配置：內存為4 GB。

　　該學習平臺目前擁有注冊學員近2 000人，提供標準格式課件點播服務，還提供課程同步模擬考試服務。“課程學習與考試情況”表記錄了用戶學習過的課程的次數、時間，還記錄了該課程同步模擬考試的結果，具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學習次數”、“學習總時長”，記錄共有18 476條。部分示例如表1所示。

　　3.3數據處理

　　通過對數據格式和內容的調整、完善，可以使得建立的模型更簡單、準確［6］。

　　為了構造新的衍生特征信息，這里增加一個輸入字段，使用WPS 表格10.1軟件增加“次平均學習時長”列，列值為使用公式計算學習總時長/學習次數的結果。

　　由于直接使用表格文件，這里無需添加本地數據源，在Clementine軟件中直接添加Excel“源”節點，命名為“學習考核情況”，導入對應的數據文件和工作表。在“過濾”中配置字段篩選，縮小處理范圍，清除無用字段（如“所屬部門”、“用戶名”、“姓名”字段），如圖1所示。預處理后的總數據記錄數不變（圖1字段過濾數據格式如表2所示）。添加“類型”節點設置各字段“數據類型”和“方向”，“考核狀況”對應“標志”類型，“學習次數”對應“集”類型，“次平均學習時長”對應“范圍”類型，如圖2所示。

　　通過“重新分類”節點對學習次數進行規范化分類，這里根據數據密度分為“1+”、“5+”、“10+”、“30+”，分別代表1≤學習次數圖2數據類型≤4、5≤學習次數≤9、10≤學習次數≤29、學習次數≧30，生成新字段名“學習總次數分段”。

　　3.4利用C5.0決策樹算法進行數據挖掘

　　繼續添加一個C5.0節點，對數據進行挖掘，配置目標字段“考核情況”，輸入字段為“學習總次數分段”、“次平均學習時長”，“模型”中配置選擇使用分區數據，輸出類型為“決策樹”，選擇“組符號”（使用分箱法檢查當前分組變量的各類別能否合并，如果可以先合并再分枝，此方法得到的決策樹相對精簡），修剪嚴重性（置信度）設置為75%，子分支最小記錄數為200。

　　Clementine從讀入數據到結果顯示的數據挖掘全過程，是以流程圖的形式顯示在數據流程區內的，如圖3所示。每個節點規定了數據的不同操作，箭頭表示數據流向，各種操作組合起來就形成了通向目標的路徑。將前面的節點相連接，執行結果“考核結果”會出現在軟件主界面右上角管理器“模型”中，瀏覽這個模型可以看到數據圖3Clementine數據流程區

　　挖掘結果。需要注意的是，可以對各節點添加輸出節點“表”觀察各節點數據情況（可以將模型結果添加進數據流程區并輸出）。

　　針對實驗數據執行決策樹模型“考核結果”，生成規則集（如圖4所示）和決策樹模型（如圖5所示）。

　　3.5考試結果預測模型解讀

　　次平均學習時長≤0.17小時的學員，“未通過”考試的可能性為88.4%；次平均學習時長>0.17小時的學員，通過考試的可能性為81.4%。次平均學習時長≦0.17小時且學習次數低于5次的學員，“未通過”考試的可能性為96%；次平均學習時長>0.17小時且學習次數超過5次的學員，通過考試的可能性為97.8%。在決定考試是否通過的因素中，“次平均學習時長”最重要，其次是“學習次數”。從實際經驗角度看，每次學習時間較長且學習次數較多的學員，通過考試的概率可能會較大。根據該網絡學習平臺的課程學習和考試數據，并使用較為先進的Clementine數據挖掘軟件構建的C5.0決策樹模型，量化反映了網絡學習和考試的這一現象；又由于軟件建模時采用分區數據，提高了模型在不同樣本集上的穩健性，因此獲得的預測模式較為可信。

　　各類網絡學習平臺可以參考此模型更好地指導學員在線學習，有針對性地提出學習建議，如提醒學員上網學習和學習次數等；也可以進一步針對學員進行聚類分析，深度定制課件資源和服務內容，如開發移動客戶端，提高用戶訪問平臺的便捷性等。

4結論

　　隨著網絡學習平臺的發展和提升，為更好地貼近用戶需求，深化學習效果，應當關注業務提升需求，充分挖掘海量的學習和考試數據，研究并發現決定學習效果的關鍵因素。C5.0算法在面對輸入字段較多的問題時比較穩健，也易于理解，同時也擅長處理非數值型數據，可以在網絡學習平臺關鍵問題預測中發揮更大的作用。

參考文獻

　　［1］岳偉.建構主義學習理論指導下的自學考試網絡助學策略設計［J］.考試研究,2015(1):915.

　　［2］張軍.數據挖掘中自我學習算法研究［J］.網絡安全技術與應用,2014(11):171,173.

　　［3］陳承斌.基于決策樹算法分析惡意網絡攻擊和入侵［J］.信息與電腦(理論版),2010(7):15.

　　［4］陳春茶.數據挖掘技術在移動商務客戶價值識別中的應用研究［D］．昆明：云南大學，2012.

　　［5］宋海霞,嚴馨,于正濤,等.基于半監督主動學習的虛假評論檢測［J］.昆明理工大學學報（自然科學版）,2015,40(5):5965.

　　［6］張線媚.數據挖掘在電信行業客戶流失預測中的應用［J］.微型機與應用,2015,34(15):99102.

原創聲明：此內容為AET網站原創，未經授權禁止轉載。