《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于C5.0決策樹算法的考試結果預測研究
基于C5.0決策樹算法的考試結果預測研究
潘峰
(國家稅務總局稅務干部進修學院,江蘇 揚州 225007)
摘要: 隨著終身學習體系的逐步構建,基于互聯網的遠程學習模式應用不斷普及,各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析,可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法,采用軟件工具對研究數據進行分析,發現了影響考試結果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。
Abstract:
Key words :

  潘峰

  (國家稅務總局稅務干部進修學院,江蘇 揚州 225007)

  摘要:隨著終身學習體系的逐步構建,基于互聯網的遠程學習模式應用不斷普及,各種網絡學習平臺也不斷累積大量的學員學習和考試方面的數據。采用數據挖掘技術對這些數據進行分析,可以充分挖掘網絡學習平臺存量數據的價值。基于C5.0決策樹算法,采用軟件工具對研究數據進行分析,發現了影響考試結果的諸多因素及其重要性,可以針對如何改善學習方法、提升學習效果、改善平臺的服務模式等提出很好的改進建議。

  關鍵詞:決策樹;考試結果;預測

1網絡學習與考試

  基于Internet的網絡學習是目前比較流行的遠程學習模式,它打破了傳統學習的時空環境限制,有利于構建終身學習體系。網絡學習平臺的學習內容以Web頁面的形式呈現,具有費用低廉、資源更新快、交互性強等特點,學員可以隨時隨地安排自己的學習時間,提高學習效率。

  網絡學習平臺除了提供在線學習功能,往往還提供隨堂練習、課程作業、課程考試等考試功能。對學習者學習狀況的評估將直接影響他們對網絡學習的態度、積極性和效果[1]。“學而時習之”,通過網絡學習平臺的考試功能進行自我練習(考試)、參加有組織的考試可以有效促進學員學習,提高學習效果和針對性。

2決策樹與C5.0算法

  決策樹的分析結果形似一棵倒置的樹,所以稱為決策樹。決策樹算法是一種逼近離散函數值的方法[2],它通過構造決策樹來發現數據中蘊涵的分類規則。決策樹構造的輸入是一組帶有類別標記的例子,構造的結果是一棵二叉樹或多叉樹[3],由上到下依次為根節點、內部節點和葉節點。決策樹通過對訓練樣本的學習建立分類規則,依據此規則實現對新樣本的分類,屬于有監督的學習方法[4]。

  決策樹的類別包括分類決策樹和回歸決策樹,其中,分類決策樹目標變量為分類型數值,其輸出變量的眾數就是分類結果。決策樹的分類過程是基于邏輯的,每一個葉節點都對應于一條布爾規則。樹的生長過程(即建立決策樹的過程)就是把數據不斷進行切分的過程,每一次切分力求分成的各組之間的差異最明顯。各種決策樹算法使用了不同的剪枝策略,它們的主要區別是對這種“差異”明顯程度的衡量方式。

  決策樹的構建過程是一個遞歸的過程,所以需要確定停止條件。最直觀的方式是當每個子節點只有一種類型的記錄時停止,但往往會導致過度擬合(樹的節點太多)。另一種方法是設置當前節點中的記錄數最小閾值,將置信度最大的分類作為當前葉節點的分類。

  作為一種分類決策樹模型算法,C5.0可以生成決策樹或規則集。C5.0算法基于信息增益度分裂方式,第一次拆分確定樣本子集,然后根據另一個字段再次拆分,這一過程重復進行直到樣本子集不能被拆分為止[4]。C5.0算法以信息熵的下降速度(能夠帶來最大信息增益的變量)作為確定最佳分支變量和分割閾值的依據。熵是對樣本不確定性的一種度量[5]。一個系統越是有序,信息熵就越低;反之,一個系統越是混亂,信息熵就越高。

3C5.0決策樹算法在考試結果預測中的應用

  3.1數據挖掘工具

  SPSS Clementine是SPSS公司收購取得的數據挖掘工具。SPSS Clementine 12.0結合商業技術可以快速建立預測性模型,幫助用戶改進決策過程。Clementine廣泛支持Kmeans模型、C5.0決策樹、神經網絡等各種預測模型。

  3.2數據準備

  本文研究的數據對象為某網絡學習平臺導出的2015年課程學習和課程考試情況數據(學員學習課程與考試結果);數據格式為“課程學習與考試情況”Excel表;操作系統采用Windows 7 Professional 32 bit;硬件配置:內存為4 GB。

  該學習平臺目前擁有注冊學員近2 000人,提供標準格式課件點播服務,還提供課程同步模擬考試服務。“課程學習與考試情況”表記錄了用戶學習過的課程的次數、時間,還記錄了該課程同步模擬考試的結果,具體字段為“所屬部門”、“用戶名”、“姓名”、“課程名稱”、“考核狀況”、“學習次數”、“學習總時長”,記錄共有18 476條。部分示例如表1所示。

005.jpg

  3.3數據處理

001.jpg

  通過對數據格式和內容的調整、完善,可以使得建立的模型更簡單、準確[6]。

  為了構造新的衍生特征信息,這里增加一個輸入字段,使用WPS 表格10.1軟件增加“次平均學習時長”列,列值為使用公式計算學習總時長/學習次數的結果。

002.jpg

  由于直接使用表格文件,這里無需添加本地數據源,在Clementine軟件中直接添加Excel“源”節點,命名為“學習考核情況”,導入對應的數據文件和工作表。在“過濾”中配置字段篩選,縮小處理范圍,清除無用字段(如“所屬部門”、“用戶名”、“姓名”字段),如圖1所示。預處理后的總數據記錄數不變(圖1字段過濾數據格式如表2所示)。添加“類型”節點設置各字段“數據類型”和“方向”,“考核狀況”對應“標志”類型,“學習次數”對應“集”類型,“次平均學習時長”對應“范圍”類型,如圖2所示。

006.jpg

  通過“重新分類”節點對學習次數進行規范化分類,這里根據數據密度分為“1+”、“5+”、“10+”、“30+”,分別代表1≤學習次數圖2數據類型≤4、5≤學習次數≤9、10≤學習次數≤29、學習次數≧30,生成新字段名“學習總次數分段”。

  3.4利用C5.0決策樹算法進行數據挖掘

  繼續添加一個C5.0節點,對數據進行挖掘,配置目標字段“考核情況”,輸入字段為“學習總次數分段”、“次平均學習時長”,“模型”中配置選擇使用分區數據,輸出類型為“決策樹”,選擇“組符號”(使用分箱法檢查當前分組變量的各類別能否合并,如果可以先合并再分枝,此方法得到的決策樹相對精簡),修剪嚴重性(置信度)設置為75%,子分支最小記錄數為200。

003.jpg

  Clementine從讀入數據到結果顯示的數據挖掘全過程,是以流程圖的形式顯示在數據流程區內的,如圖3所示。每個節點規定了數據的不同操作,箭頭表示數據流向,各種操作組合起來就形成了通向目標的路徑。將前面的節點相連接,執行結果“考核結果”會出現在軟件主界面右上角管理器“模型”中,瀏覽這個模型可以看到數據圖3Clementine數據流程區

  挖掘結果。需要注意的是,可以對各節點添加輸出節點“表”觀察各節點數據情況(可以將模型結果添加進數據流程區并輸出)。

  針對實驗數據執行決策樹模型“考核結果”,生成規則集(如圖4所示)和決策樹模型(如圖5所示)。

004.jpg

  3.5考試結果預測模型解讀

  次平均學習時長≤0.17小時的學員,“未通過”考試的可能性為88.4%;次平均學習時長>0.17小時的學員,通過考試的可能性為81.4%。次平均學習時長≦0.17小時且學習次數低于5次的學員,“未通過”考試的可能性為96%;次平均學習時長>0.17小時且學習次數超過5次的學員,通過考試的可能性為97.8%。在決定考試是否通過的因素中,“次平均學習時長”最重要,其次是“學習次數”。從實際經驗角度看,每次學習時間較長且學習次數較多的學員,通過考試的概率可能會較大。根據該網絡學習平臺的課程學習和考試數據,并使用較為先進的Clementine數據挖掘軟件構建的C5.0決策樹模型,量化反映了網絡學習和考試的這一現象;又由于軟件建模時采用分區數據,提高了模型在不同樣本集上的穩健性,因此獲得的預測模式較為可信。

  各類網絡學習平臺可以參考此模型更好地指導學員在線學習,有針對性地提出學習建議,如提醒學員上網學習和學習次數等;也可以進一步針對學員進行聚類分析,深度定制課件資源和服務內容,如開發移動客戶端,提高用戶訪問平臺的便捷性等。

4結論

  隨著網絡學習平臺的發展和提升,為更好地貼近用戶需求,深化學習效果,應當關注業務提升需求,充分挖掘海量的學習和考試數據,研究并發現決定學習效果的關鍵因素。C5.0算法在面對輸入字段較多的問題時比較穩健,也易于理解,同時也擅長處理非數值型數據,可以在網絡學習平臺關鍵問題預測中發揮更大的作用。

參考文獻

  [1] 岳偉.建構主義學習理論指導下的自學考試網絡助學策略設計[J].考試研究,2015(1):915.

  [2] 張軍.數據挖掘中自我學習算法研究[J].網絡安全技術與應用,2014(11):171,173.

  [3] 陳承斌.基于決策樹算法分析惡意網絡攻擊和入侵[J].信息與電腦(理論版),2010(7):15.

  [4] 陳春茶.數據挖掘技術在移動商務客戶價值識別中的應用研究[D].昆明:云南大學,2012.

  [5] 宋海霞,嚴馨,于正濤,等.基于半監督主動學習的虛假評論檢測[J].昆明理工大學學報(自然科學版),2015,40(5):5965.

  [6] 張線媚.數據挖掘在電信行業客戶流失預測中的應用[J].微型機與應用,2015,34(15):99102.


此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: 午夜影院免费体验区 | 久久久www成人免费精品 | 国产欧美日韩在线不卡第一页 | 国产精品久久久香蕉 | 91大片| 99亚洲视频 | 福利影院在线播放 | 日本tv欧美tv天堂 | 欧美在线视频a | 免费永久在线观看污污的网站 | 日韩中文字幕精品一区在线 | 一级毛片视频在线观看 | 中文字幕亚洲天堂 | 午夜成年免费观看视频 | 日本欧美一级二级三级不卡 | 欧美婷婷| 欧美日韩一区二区中文字幕视频 | 一个人看www在线高清免费看 | 国产精品久久久久久免费 | 日韩成人免费一级毛片 | 日本r级在线观看播放 | 18无删减羞羞网站动漫 | 欧美日韩一区二区三 | 中文字幕乱理片免费完整的 | 亚洲日韩精品欧美一区二区一 | 国产一区二区免费视频 | 91久久免费视频 | 成人在线观看不卡 | 亚洲福利精品一区二区三区 | 26uuu另类欧美亚洲日本 | 亚洲综合久久综合激情久久 | 五月婷婷在线视频 | aa一级黄色片 | 免费日本一区 | 成人福利在线 | 97国产在线视频公开免费 | 久色成人 | 日本老年人精品久久中文字幕 | 午夜成年免费观看视频 | 青青草国产青春综合久久 | 日韩综合色|