文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.190645
中文引用格式: 鄧小海,姜周曙. 圖像識別技術在智慧教室錄播系統中的應用研究[J].電子技術應用,2020,46(3):92-96.
英文引用格式: Deng Xiaohai,Jiang Zhoushu. Application of image recognition technology in recording and broadcasting system of intelligent classroom[J]. Application of Electronic Technique,2020,46(3):92-96.
0 引言
在落實“互聯網+教育”戰略、深化教育教學改革的背景下,建設智慧教室是學校創新教學環境、提升人才培養質量的必然選擇[1]。隨著微課、MOOC等移動學習方式的興起,將現代教育技術融入教學生活并促進教學改革已成為教育行業研究的熱點。
傳統的錄制方式難以滿足人們對優質教學資源的需求,智慧教室錄播系統能夠智能高效地完成整個教學過程的錄制并根據不同的需求生成對應的教學文件[2]。基于圖像處理的錄播系統使得智慧教室成為了優秀的教學成果展示平臺,也進一步促進了移動學習模式的發展。
1 錄播系統概述
1.1 自動錄播系統概述
自動錄播系統主要由跟蹤定位系統、音視頻信號采集與處理系統、錄播主控系統3個子系統構成[3]。錄播系統能完整地記錄教學過程,并且根據授課時間自動生成教學錄像,多路原始文件的保留模式也使得編輯更加方便。錄播系統不僅能以直播的形式提供教學,還能在網上重復播放。
1.2 錄播系統中的跟蹤技術
跟蹤技術作為錄播系統的核心技術之一,其主要功能就是在課堂中對老師和學生進行跟蹤。錄播的畫面質量直接影響受眾的學習體驗,而圖像跟蹤的準確性與實時性是影響畫面質量的重要因素。現今的跟蹤技術主要有4種:
(1)紅外線感應跟蹤
此技術通過在師生身上放置的紅外信號源,并根據接收到的紅外信號進行目標跟蹤定位以及相應的攝像機拍攝方位調整。這種需要輔助設備的跟蹤技術并不智能,收發信號的裝置繁瑣,并且無法精細地了解節點信號變化,這都局限了其適用范圍。
(2)超聲波定位技術
超聲波定位與紅外感應技術在原理上有異曲同工之處,差別在于所采用的信號源是超聲波而不是紅外,安裝的位置也從人身上移動到了黑板桌椅上。雖然此技術操作簡單、技術成熟,但是無法確定被拍攝對象的高度,而且拍攝的精度也無法得到保障。
(3)空間網格定位技術
空間網格劃分是將一個教室三維空間劃分為包含多個矩形網格的三維空間,通過計算師生的三維坐標從而實現追蹤。這是一項較為先進的技術,能夠精確地捕捉師生互動的細節。由于高額的安裝成本以及其對安裝性能的高要求,這項技術的使用并不廣泛。
(4)圖像識別技術
前3種跟蹤定位技術都是基于輔助設備,不利于系統的集成,也無法通過控制硬件設備來降低系統成本。圖像定位技術能夠根據師生在畫面中的差異自動識別并進行動態跟蹤。此技術無需配備專門的信號裝置,多素材的輸入也使得計算與優化更加精準,是眾多跟蹤技術中最為有效的方式之一[4]。
2 智慧教室錄播系統整體框架
2.1 智慧教室系統模型
基于圖像識別技術的智慧教室系統主要由物理空間、交互空間、資源空間以及數據一體化組成,系統模型如圖1所示。
2.2 錄播系統模型
錄播系統所產生的錄播資源是智慧教室系統資源空間建設的主要來源之一,系統框架如圖2所示。
2.3 系統各模塊說明
(1)圖像跟蹤定位模塊
圖像跟蹤模塊由4個子模塊構成,它們相互合作,共同完成教室內師生的檢測與跟蹤。此模塊根據圖像的差異匹配相應的控制策略驅動系統內的攝像機進行智能跟蹤定位并對師生運動軌跡進行識別分析,以此來實現對授課場景的特寫、鏡頭切換等相關錄制。同時在不同的場景下能實現多目標的追蹤及鏡頭切換。
(2)音源抓取與后期處理模塊
音質的好壞往往決定了整體的錄播質量。如果對教室噪聲、背景音處理不當,將會使得有效音源的清晰度降低。錄播系統中的音頻數字信號處理能有效地處理噪聲問題并且達到有效音優化擴音的效果。教室的多個拾音器采集音頻信號傳到主控系統進行聲音的去分化處理,進而提高錄制視頻的音質。
(3)錄播主控模塊
錄播系統最核心的模塊就是錄播主控模塊,其余模塊皆為其服務。錄播主機集數據采集、錄播平臺軟件、數據處理于一體,因而系統集成度高,并且能夠實現系統的小型化,便于操作。錄播主控模塊還能實現視頻影音的智能導播、智能直播、攝像機的智能控制等功能。錄播框架圖如圖3所示。
3 控制策略
3.1 畫面切換策略
視頻錄像的時候根據畫面要呈現的效果需要進行畫面的切換以及人物的特寫,這也就意味著控制中心要清晰地知道畫面切換的控制策略,并根據相應的輸入對多個視頻輸入源進行數據切換[5]。根據教學過程的特征以及可能出現的場景,給出了如圖4所示的畫面切換控制策略。
3.2 目標跟蹤策略
錄播系統所表現出的智能化就是依靠它的目標跟蹤策略,主要通過圖像對三維空間建模并計算師生的三維空間坐標,從而實現定位及跟蹤。由于師生在教室中的活動空間有較大的差異,因而根據師生的運動特性分別制定跟蹤策略。
(1)學生跟蹤策略
在一般的教學活動過程中,學生大多只會出現起立回答問題這一單一事件,他們在三維空間中大體只會呈現縱向位移而不會有橫向位移,因此只需在視頻相鄰的幀畫面中判斷學生座位圖像區域的圖像輪廓是否發生了明顯變化。
(2)老師跟蹤策略
在教學過程中,大多數時間老師占據的是主導位置,因而在授課過程中老師的移動更加隨意,但大多數時候總是圍繞在講臺周圍。在簡化模型的情況下,檢測老師在講臺水平空間的位置信息和輪廓高度信息,根據這些信息調整攝像頭實現定位跟蹤。
4 基于圖像識別的運動目標定位跟蹤算法
4.1 算法概述
基于圖像識別的運動目標定位跟蹤算法能在課堂人數眾多且背景復雜的條件下對視頻流數據中的目標進行精確的識別與跟蹤。該算法將獲取的視頻流幀序列進行精細劃分并在幀序列的處理中引入了背景幀差目標檢測算法以及特征識別目標跟蹤算法[6]。算法整體流程圖如圖5所示。
4.2 運動目標自動檢測算法
運動目標檢測算法基于圖像分割技術,通過剔除圖像幀序列的固定背景檢測出運動的物體。然而檢測的準確性受到光線變化、攝像機抖動、背景改變等因素的影響,這也直接影響了對后續目標的跟蹤和行為分析的準確性[7]。
(1)算法比對
目標檢測算法根據背景的差異劃分成為兩個類別,即靜態背景和動態背景。由于智慧教室錄播系統中所使用的攝像機在整個錄播過程中相對固定,因此根據這一特性在教室目標檢測算法中采用靜態背景。基于靜態背景的目標檢測算法主要有3種,其對比如表1所示。
(2)改進背景幀差目標檢測算法
智慧教室錄播系統中有多個視頻流數據采集點,也為同一目標提供不同的背景差比對,能進一步提高檢測的精度。背景差分法的核心就是利用視頻幀圖像與預設背景的差異分離出運動目標。
建立一個符合要求的背景模型能在一定程度上減小光線、抖動等因素帶來的干擾。由于智慧教室背景的特性,因此采用高斯背景建模。高斯背景建模是基于混合高斯模型來對樣品進行建模,根據圖像理論,連續視頻幀序列的每個像素點在基礎噪聲的影響下,像素點的灰度值變化都呈現出高斯分布,當特定幀之間像素差小于閾值時[8],則認為像素無明顯變化即為背景;否則為目標運動區域,系統模型參數也應隨著目標運動進行更新,參數更新如式(1)和式(2)所示。
式中,μ和σ分別表示均值和方差,K為特定幀,α為比例系數,(x,y)為特定幀中的位置點。
比例系數α的更新將使算法能在連續的視頻幀圖像中及時刷新背景,從而在視頻幀序列中實現目標的實時檢測。智慧教室多個超清攝像頭采集的視頻數據也為算法提供了足夠全面清晰的背景對比數據。然而差分法對目標速度變化不敏感且背景實時更新困難,導致其在動態目標追蹤的過程中實時性不高。
幀差法的核心就是比對不同圖像幀之間的差異來進行目標運動檢測并通過當前幀來進行背景幀的更新。假設當前幀與前一幀在同一時間節點t,同一位置點(x,y)處的灰度值分別為K(x,y,t)和K(x,y,t-1),通過差值運算可得式(3):
幀差法的重心是傾向于相鄰幀的差別比較,師生在區域范圍內運動時相鄰幀之間差異將更明顯,因此幀差法對于運動目標的感知更為明顯。經處理過的課堂錄制視頻其幀速較快,利用幀差法進行目標跟蹤能極大程度地降低光線對檢測的影響。
幀差法雖然能夠更加穩定地識別運動區域,但是其對相鄰幀比對的注重使得樣本量不足,分割出的運動區域易產生空洞。將幀差法和背景差分法聯合使用,既解決了實時性不強和區域空洞的問題,也保證了檢測的精度。由于目標只占整個圖形區域的一部分,對圖像分割時需要判斷目標,因此只篩選有用背景幀信息進行比對,整個方法流程如圖6所示。
4.3 運動目標跟蹤算法
目標跟蹤算法的核心理念就是要保證檢測出來的目標在后續的跟蹤過程中不丟失。因此運動目標檢測更加注重標記的識別分析,不再需要高精度分析定位來區分目標。
4.3.1 算法比對
運動目標的跟蹤是通過連續圖像幀快速找到預先標記好的目標,其核心不是差別分析,而是采用高效且具有辨識度的標記方法使得在后續的追蹤中標記能夠清晰可見。目前的動態跟蹤算法大致分為4類,算法對比如表2所示。
4.3.2 HOG+樸素貝葉斯目標跟蹤算法
智慧教室擁有多個角度的視頻數據輸入源,這也使得特征點的選擇更加精細。HOG+樸素貝葉斯目標跟蹤算法最重要的步驟就是對視頻幀數據中被跟蹤目標的特征提取以及匹配。該方法框圖如圖7所示。
4.3.3 特征提取
特征提取需要提取被跟蹤目標的特征點,該特征點能在整個視頻幀圖像中保持穩定不變。特征提取是目標跟蹤中最重要的一步,需要抓住本質的特征點才能有效地提高特征辨識度。特征往往不能局限于一種,多元特征的提取才能更好地提高算法精確度。
在提取特征點時,為了獲得最大的特征信息量,采取方向梯度直方圖(HOG)。HOG特征主要由被跟蹤目標局部區域梯度方向的直方圖組成,將圖像局部的梯度統計特征拼接起來作為總特征,并通過邊緣密度分布和目標表象進行跟蹤定位。將HOG特征識別算法作為樣本輸入,通過倍增權值進行更新篩選,并設計分類器采集圖像的HOG特征[9]。
式中,gi表示由特征值構成的分類器,d表示Bhattacharya 距離,θj表示閾值。如圖7所示,HOG特征向量作為算法的輸入,經不斷訓練產生一系列弱分類器,并將它們級聯組成性能更好的目標跟蹤分類器。
4.3.4 特征匹配
特征匹配是以特征點為基礎,通過相應幀圖像特征點比對,從而達到特征點之間的最佳匹配并在此基礎上完成對運動目標的跟蹤。為了提高算法的性能進而達到最佳匹配,采用基于樸素貝葉斯分類器的特征匹配來輸出目標位置并不斷更新分類器參數。
5 應用與研究
5.1 運動目標檢測模擬實驗
本文采用的目標檢測算法充分發揮了幀差法與背景差分法這兩種算法的優勢。為了驗證它在目標檢測上的實際效果,通過3個算法的性能比對來分析其性能上的差異。
采用智慧教室錄制的一段10 min的超清教學視頻。高分辨率的圖像能確保更加精細的比對,從而避免圖像像素對實驗的影響。視頻中包含老師講課畫面、學生起立回答問題畫面以及板書特寫畫面等。將此視頻作為樣本輸入,通過算法判斷運動目標出現的總幀數以及運動目標的大小。通過測定運動目標出現總幀數與預先測定的準確幀數比對,得到目標檢測算法的準確性,其結果如表3所示。
通過表3可以看出,幀差法在檢測速度上的優越性比較大但精度較低,而背景差分法雖然檢測速度較慢但是精度高。背景幀差法結合了兩者的優勢,在保證檢測速度的同時也達到了90%左右的準確率,并且能夠一定程度上克服空洞問題。
5.2 運動目標跟蹤模擬實驗
根據智慧教室的特點采用HOG+樸素貝葉斯跟蹤算法,為了驗證此跟蹤算法的實際效果,本文同樣地比對3個跟蹤算法的性能。其結果如表4所示。
將本文算法與基于灰度標識、基于角點標識算法進行比對,通過檢測連續時間內有效動作跟蹤幀與運動幀總數的比值得到跟蹤的正確率。從表4中可看出,本文算法的準確率高于90%,其跟蹤的準確性相較于其他兩種更具優勢。
5.3 運動目標定位跟蹤算法實驗
為了驗證運動目標定位跟蹤算法的可行性,同樣選取教室攝像頭錄制的10 min教學視頻進行實驗。實驗結果圖如表5所示。
從表5中可看出系統定位跟蹤的準確率超過了90%,基本能達到現場要求。對比老師跟蹤與學生跟蹤的準確率,可以發現老師跟蹤的準確率比較低,這是因為學生跟蹤場景更簡單單一。
6 結論
基于圖像處理的智慧教室錄播系統是一套集音視頻處理、主控人機交互以及多媒體軟硬件配置一體化的協同運行系統。該系統通過研究師生在教學過程中的運動,進行實時的跟蹤定位以及鏡頭切換。該系統具有以下幾點優勢:
(1)圖像處理技術的使用減少了課堂教學錄制過程中的人力投入,降低了設備成本,提高了自動化水平。
(2)提供課堂授課完整資源,供學生回顧與加強學習,供老師分析課堂授課效果,了解學生真實反映情況,以使其進行教學改進。
(3)提高知識的傳播效率,進一步促進了教育資源的網絡共享,同時也是對教學模式的一種革新。
參考文獻
[1] 安寧,牛愛芳,齊瑞紅,等.高校智慧教室建設的探索與思考[J].實驗技術與管理,2017(5):257-261.
[2] 張軍,黃忠毅,程樊啟.從教學過程的需求分析錄播系統的發展趨勢[J].中國電化教育,2019(11):113-115.
[3] 黃山涯.錄播教室的功能設計及其建設[J].實驗室研究與探索,2010,29(10):391-393.
[4] 李先友,趙曙光,段永成,等.基于FPGA的實時MIPI CSI-2圖像采集與處理系統[J].電子技術應用,2019,45(1):103-106.
[5] 張志剛,趙振宇,張國兵.圖像識別技術在網絡錄播系統中的應用研究[J].網絡安全技術與應用,2014(4):7-8.
[6] 高海壯,段先華.基于幀差法和混合高斯的海上運動目標檢測[J].計算機與數字工程,2019,47(5):1140-1144.
[7] 孫挺,齊迎春,耿國華.基于幀間差分和背景差分的運動目標檢測算法[J].吉林大學學報(工學版),2016,46(4):1325-1329.
[8] 周劍華.基于智能圖像跟蹤定位的錄播教室視同設計與實現[D].蘭州:蘭州大學,2018.
[9] 黃友文,萬超倫.基于深度學習的人體行為識別算法[J].電子技術應用,2018,44(10):7-11,16.
[10] Shen Bin,Su Xiaoyuan,GREINER R,et al.Discriminative parameter learning of general bayesian network classifiers[C].IEEE International Conference on Tools with Artificial Intelligence,2003:296-305.
作者信息:
鄧小海,姜周曙
(杭州電子科技大學 自動化學院,浙江 杭州310000)