AAAI-18-Exercise-Enhanced Sequential Modeling for Student Performance Prediction

阿新 • • 發佈：2018-11-29

申明：PPT由作者分享，以下是我的粗淺的理解。

我今天分享的是AAAI的一篇關於預測學生表現的論文，是由安徽大學、科大訊飛、中國科學技術大學合作的，資料集來源於科大訊飛的智學網。

接下來，我將從這幾個方面進行分享，首先是背景和挑戰：

線上教育系統為學生提供了自主學習的開放通道，為了給學生提供例如學習補救建議和個性化推薦等前瞻性的服務，線上教育系統需要更好理解學生。

線上學習系統如何更好的理解學生呢？如果系統能夠預測學生在接下來練習中的表現，比如成績，那就可以在此基礎上為學生提供適合的練習來提高學生的學習效率，這樣可以避免學生花費大量的時間在特別難或者特別簡單的練習題上。

基於這一觀察，本文所要解決的問題是如何預測學生表現。在教育心理學和資料探勘領域都有許多關於這方面的研究，比如認知診斷、知識追蹤、矩陣分解、深度學習等。大多數預測方法主要是挖掘學生的歷史練習記錄，但他們僅將練習表示為知識概念，這些特定於知識的概念通常由教師等專家來標記，這項工作耗時費力，而且這些手工標註未能區分練習的難易程度等個性化特徵。為此，本文希望能在沒有人工干預的情況下來自動預測學生表現，本文的工作將成績視為了表現。本文所用到的是學生的練習記錄以及練習的文字描述。下面這個圖，展示了一個學生的練習記錄和相關練習的文字描述。本文時第一個綜合考慮練習記錄和練習文字來預測學生表現的。

接下來介紹這項研究工作的挑戰：挑戰一：由於練習多種多樣的表達方式，所以需要一個統一的方式來自動理解和表示它們特徵。

挑戰二：學生在未來的表現，很大程度上取決於他們長期的歷史實踐，尤其是他們重要的知識狀態。如何對學生的重點資訊進行跟蹤是一項非常具有挑戰性的工作。

挑戰三：學生成績預測任務存在“冷啟動”問題。也就是說，我們需要對新學生和新練習做出預測。在這種情況下，有限的資訊可能會導致較差的預測結果。

相關工作：教育心理學方面有認知診斷IRT、知識追蹤BKT，機器學習和資料探勘方面有PMF，深度學習方面有DKT，它通過RNN來建模學生練習過程。

第二部分：問題定義。根據每個學生的練習記錄和從1到T的每個練習的文字描述，目標是訓練一個可以預測每個學生在下一個練習的成績的統一的模型。比如學生s1的練習記錄是e1，e2，e3，e4，通過該模型可以預測在其他練習比如e5上的成績。

第三部分：EERNN框架。

Exercise Embedding從句子語義的角度學習每個問題的所有文字材料，來解決了挑戰一。Student Embedding從整個練習過程中學習學生狀態，同時注意力機制通過增強重要的學生狀態的影響來應對挑戰二。EERNN框架通過練習的文字資料鏈接新資料來解決冷啟動問題。

EERNN框架，主要分為四步：第一步是Word Embedding，第二步是Exercise Embedding，第三步是Student Embedding，第四步是預測。接下來一一介紹。

第一步：Word Embedding。目標是從語義的角度學習練習中單詞表示。實驗使用的資料是數學練習，因此他們開發了一個公式工具將公式轉換為一個有語義特徵的詞，同時還構建了數學練習的語料庫。Word Embedding主要分為三步：首先是分詞、然後用Latex作圖，也就是右邊這個圖，最後word to vector得到單詞表示。

第二步：Exercise Embedding。目標是從每個練習的文字輸入ei中自動學習每個練習的語義表示xi。為了充分利用練習的上下文資訊，構建了雙向的LSTM。如第二個詞的vm狀態由向前和向後的vm連線而成，然後為了獲得練習ei的完整語義表示，利用max pooling操作將m個詞的上下文表示合併為一個全域性的練習表示xi。這裡Exercise Embedding直接從文字描述中學習每個練習的語義表示，而不需要任何的專家編碼。它還可以自動地捕捉每個練習的難度等特徵區分它們的個體差異。

第三步：Student Embedding。目標是建模學生的整個練習過程並學習學生的隱藏表示。該框架基於兩個基本假設：學生練習狀態受練習及所獲得的成績的影響和在長期的練習過程中，學生在學習同時也會遺忘。這個框架是LSTM的變體，在每一步，輸入是練習的語義表示xt和對應的成績的組合編碼，但是由於正確和錯誤的練習會對學生狀態有不同的影響，所以這裡通過不同的組合方式來區分影響，當該該練習成績為1時，0向量在練習的語義表示xt之後，否則在xt之前。

第四步：預測。目標是預測學生在練習eT+1上的表現。心理學研究表明，學生練習成績取決於學生狀態和練習特徵。基於這個發現，文章提出了基於EERNN框架的兩種預測策略的實現。第一種是基於馬爾可夫性質的EERNNM，也就的下面這個圖。當一個隨機過程在給定現在狀態及所有過去狀態情況下，其未來狀態的條件概率分佈僅依賴於當前狀態；換句話說，在給定現在狀態時，它與過去狀態（即該過程的歷史路徑）是條件獨立的，那麼此隨機過程即具有馬爾可夫性質。具有馬爾可夫性質的過程通常稱之為馬爾可夫過程。馬爾可夫性質被廣泛應用於序列預測任務，它假設下一個狀態只取決於當前狀態。根據這個理論，當練習eT+1交給一個學生時，EERNNM首先假設學生應用當前狀態ht來解決這個聯絡，然後利用Exercise Embedding從練習的文字eT+1中提取語義表示xT+1，之後使用這兩個公式來預測學生在練習eT+1上的表現。（yT+1是預測的總體表示）但是由於ht是模型的最後一個隱藏狀態，所以當序列比較長的時候可能會丟棄掉一些重要的資訊。為了解決這個問題，作者提出了一個更加複雜的預測策略EERNNA來提高預測的效果。

作者觀察到，在相似的練習上，學生可能獲得相似的成績，所以他在EERNN框架上引入了注意力機制來預測得分。

EERNNA假設T+1步的學生狀態是基於歷史練習和之後練習相似度的歷史學習狀態權重的集合。這裡hatt是在t+1步的學生狀態，erfa j是衡量歷史練習對當前練習的重要程度的注意力得分。它不僅從語法的角度衡量了練習的相似性，而且從難度等於一角度獲取關聯。

第四部分：實驗。實驗的資料集是由科大訊飛提供的智學網的資料，智學網是一個廣泛使用的線上學習系統，為高中生提供了大量的練習資源。從表一數學資料集的統計資料可以看出，每個練習大約有兩個知識點，每個知識點包含54個練習，這也證明了將練習表示為知識點會導致一些資訊的丟失。

這是對比方法和評價指標。MAE RMSE ACC AUC

這是對比實驗的結果。1.可以看出EERNNM和EERNNA比其它方法要好，這證明了EERNN框架的有效性。2.注意力機制EERNNA和 LSTMA優於馬爾可夫性質的EERNNM 和LSTMM，這說明基於類似練習追蹤student embedding是有效的。3.EERNNM和EERNNA優於LSTMA、LSTMM和DKT，所以Exercise Embedding能有效緩解資訊缺失。4.傳統模型不如深度學習模型，因此可以推斷rnn可以捕捉到練習過程的變化，更適合於預測學習成績。

從這張圖可以看出，隨著序列長度的增加，EERNNA明顯優於EERNNM。EERNNA能夠關注到一些有用的資訊。

這個圖這塊是該學生的注意力分值，預測的結果是可以正確回答e20。因為他答對了更困難的類似練習e4。

總結：1.提出了一種預測學生未來表現的新方法。2.EERNN整合了兩個關鍵組成部分：BiLSTM從文字中提取練習語義表示，LSTM體系結構來跟蹤學生狀態。3.提出了兩種預測策略：具有馬爾可夫性的EERNNM和具有注意機制的EERNNA。4.在實際資料集上的實驗證明了這種方法的有效性(特別冷啟動問題）。

未來工作：1.研究不同練習型別，如主觀題。2.融入更多資訊，如知識概念、練習時間等。3.融入教育學理論，如學習遺忘曲線、猜測和失誤。

AAAI-18-Exercise-Enhanced Sequential Modeling for Student Performance Prediction

AAAI-18-Exercise-Enhanced Sequential Modeling for Student Performance Prediction

論文導讀：Exercise-Enhanced Sequential Modeling for Student Performance Prediction

[深度學習論文筆記][AAAI 18]Accelerated Training for Massive Classification via Dynamic Class Selection

1039. Course List for Student (25)

1039 Course List for Student (25)

浙大pat1039 Course List for Student（25 分）

1039 Course List for Student（雜湊）

PAT-ADVANCED1039——Course List for Student

一週一論文（翻譯總結）—— [SOSP 18] LITE Kernel RDMA Support for Datacenter Applications : 一個LITE 核心支援的RDMA通訊庫

《Recursive Recurrent Nets with Attention Modeling for OCR in the Wild》筆記

PAT 1039 Course List for Student(雜湊表)

PAT (Advanced Level) Practice 1039 Course List for Student （25 分） Hash離散化

1039 Course List for Student @PTA

【論文閱讀】Slot-Gated Modeling for Joint Slot Filling and Intent Prediction

1039 Course List for Student

1039 Course List for Student（字符串哈希）

18.4.9 Range Loss for Deep Face Recognition with Long-tail 小感

Asynchronous function calls for boot performance

25.Two-Stream Convolutional Networks for Dynamic Saliency Prediction

MorphCore-An Energy-Efficient Microarchitecture for High Performance ILP and High Throughput TLP

AAAI-18-Exercise-Enhanced Sequential Modeling for Student Performance Prediction

相關推薦