文獻標識碼: A
DOI:10.16157/j.issn.0258-7998.2017.04.015
中文引用格式: 何騰鵬,張榮芬,劉超,等. 基于機器視覺的智能導盲眼鏡設計[J].電子技術應用,2017,43(4):58-61.
英文引用格式: He Tengpeng,Zhang Rongfen,Liu Chao,et al. Design of smart seeing glasses based on machine vision[J].Application of Electronic Technique,2017,43(4):58-61.
0 引言
據世界衛生組織統計,截至目前全球約有盲人7 800萬,其中90%生活在發展中國家,中國現有盲人數量占據世界盲人總數的18%,多達1 400萬。盲人作為社會中的一種弱勢群體,視力殘疾、眼部疾病給其生活帶來了諸多不便。另一方面,近年來隨著我國老齡化人口的持續增多,視力障礙者數量也在急劇上升,如何保障盲人群體及視障人士安全有效地出行顯得尤為重要。為此,本文設計了一種基于機器視覺[1]的智能導盲眼鏡,旨在幫助盲人朋友在行走過程中,安全、有效地避開道路上的目標障礙物,盡最大可能地保障其出行安全。相較于市場上導盲效率不理想的導盲手杖和價格昂貴的導盲犬,基于機器視覺的智能導盲眼鏡系統更具競爭力。
1 智能導盲眼鏡控制系統的總體設計
本文的智能導盲眼鏡控制系統由前端嵌入式采集傳輸系統和遠程云平臺服務器兩大部分組成。嵌入式采集傳輸系統以三星Cortex-A8架構的S5PV210處理器為載體,搭載Linux內核,配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸等核心功能模塊搭建智能導盲眼鏡系統的硬件平臺,主要完成信息采集傳輸和智能指令導盲功能。云平臺服務器作為智能導盲眼鏡的遠程數據處理中心,在服務器配置上,選用阿里云作為云端服務器,再融入深度學習、雙目測距[2]等相關算法,實現對智能導盲眼鏡前端場景目標的圖像識別、距離檢測和方位判斷。此外該服務器還構建了GPS衛星數據匹配平臺,結合智能導盲眼鏡實體,能對眼鏡使用者進行實時有效地定位。本系統的總體設計框圖如圖1所示。
2 智能導盲眼鏡控制系統硬件設計
2.1 雙目采集模塊設計
雙目采集模塊選用兩個性能參數完全一致的CMOS高清攝像頭,用于智能導盲眼鏡前方場景信息的采集,幫助盲人獲取前方目標和相應的場景信息。
2.2 GPS定位模塊設計
全球定位系統(GPS)能為全球用戶提供低成本、高精度的三維位置,可在全球范圍內進行全天候、全方位的實時定位。系統選用瑞士Ublox公司的NEO-6M模組作為GPS模塊的核心單元,主要用于實時獲取盲人所在地理位置的經緯度坐標。
2.3 無線通信傳輸模塊設計
無線通信傳輸模塊主要由3G芯片和對應的外圍電路組成,采用3G無線技術,實現智能導盲眼鏡與遠程云平臺服務器的雙向通信。一方面將雙目攝像頭模塊采集到的圖片以及GPS模塊獲取到的地理位置坐標信息通過3G網絡發到遠端云服務器平臺,另一方面將服務器的圖片識別和地理位置配對結果反送回來傳遞給智能導盲眼鏡,進行語音播報,把結果實時告訴給盲人。同時利用3G模塊的GSM短信功能,智能導盲眼鏡系統也會將從云服務器端獲取的結果,以短消息的形式及時告知盲人家屬。另外,在特殊情況下,盲人也可利用3G的電話功能直接與親屬間進行語音通話。圖2為無線通信傳輸模塊的應用電路圖。
2.4 語音播報模塊設計
智能導盲眼鏡控制系統的語音播報功能主要用于將導盲眼鏡前方目標的圖片識別結果、距離、方位信息以及所處的地理位置通過語音模塊播放出來,及時告知盲人所處的周圍環境狀況。系統選用SYN6288中文語音合成芯片作為語音播報模塊的主體,實現文本到聲音的轉換,其外圍電路如圖3所示。
3 智能導盲眼鏡控制系統的軟件設計
本系統的軟件設計分為遠端云平臺服務器上的程序設計和智能導盲眼鏡前端的程序設計兩部分。遠程云平臺服務器上的軟件設計主要是采用C/C++等高級編程語言將圖片的識別、測距、方位檢測等相關算法轉換成計算機系統能夠識別的程序指令,從而實現智能導盲眼鏡遠程云服務器的識別、測距、方位檢測等功能。另外GPS的經緯度解析也在云服務器上通過軟件編程實現。導盲眼鏡前端軟件設計主要包括雙目攝像頭的圖片采集、GPS地理位置坐標的獲取、無線通信傳輸模塊的數據傳輸與接收、語音播報模塊的調度和按鍵中斷的配置等功能模塊子程序的編寫,其主程序流程圖如圖4所示。
4 基于深度信念網絡的自然場景識別
深度信念網絡(Deep Belief Network,DBN)[3]作為深度學習中最為廣泛應用的一種算法模型,多應用于手寫字體識別和自然場景識別這兩個方向。在智能導盲眼鏡控制系統中,深度信念網絡主要用在自然場景中常見的物體識別上,這也是深度學習在機器視覺領域中的一種應用體現。圖5是一個典型的深度信念網絡的網絡結構模型。
從圖5可以看出,深度信念網絡是由多個受限制玻爾茲曼機(Restricted Boltzmann Machines,RBM)[4]組成的深層網絡,在這個網絡中,DBN的訓練過程采用逐層訓練的方法,每一層RBM都單獨訓練,參數也是單獨調整[5]。訓練完一層后,將該層的訓練結果作為下一層RBM的輸入,直至每一層RBM都訓練完成,這個過程稱之為預訓練。當深度信念網絡中的所有RBM訓練完成后,再根據樣本的標簽值,采用反向傳播算法向后微調。
在智能導盲眼鏡的圖像訓練過程中,采用改進型的CIFAR-10自然場景庫作為測試訓練樣本。原始的CIFAR-10數據集有60 000張32×32的彩色圖像,分為飛機、汽車、貓、鳥、鹿、狗、青蛙、馬、船和卡車共10類。為了增強智能導盲眼鏡的實用性,結合盲人的特殊情況,本文在實際的系統圖像訓練中,加入了餐桌、椅子、人、垃圾桶、樹木等生活中常見的一些目標場景,對原始的CIFAR-10自然場景庫進行了改進,然后采用改進型的CIFAR-10自然場景庫通過圖6所示的深度信念網絡模型進行訓練識別。
在上述訓練模型中,改進型CIFAR-10自然場景庫中每張圖均為32×32的彩色圖片,因此輸入層大小為3 072個結點(3 072=32×32×3),兩個隱含層節點數分別為1 000和200,在經過面向多元分類的Softmax分類器[6]后輸出層為10個單元,系統最終模型結構為3072-1000-200-10。在智能導盲眼鏡系統實際的圖像訓練階段,訓練模型中的兩層RBM的訓練迭代次數都設置為200,學習率都設置成0.1。訓練完成后,將系統學習到的權重用于初始化神經網絡,對網絡參數進行參數微調, 并用Sigmoid函數[7]激活神經網絡。系統訓練過程中,由于樣本繁多,數據繁雜,隱含層需要相對較多的節點數才能學習到較好的特征,加之圖片本身信息量大,需要較多次的迭代,整個訓練過程平均歷時10個小時,這與深度學習中的卷積神經網絡[8]以及自動編碼模型[9]相比,訓練時間大幅度縮短,并且還具有較為理想的識別率,這也是本系統選用深度信念網絡作為識別訓練模型的主要原因。
5 系統測試結果與分析
采用上述的深度信念網絡訓練模型先對改進型CIFAR-10庫中的10 000張測試圖片隨機進行了示范性測試,表1所示為各類樣本的識別率和平均識別率。
從表1可以看出改進型CIFAR-10庫中的10類測試樣本通過導盲眼鏡系統的深度信念網絡訓練模型后,其平均識別率為82.9%,與基于支持向量機[10]訓練識別模型的識別率相比,其平均識別率超出了支持向量機模型的近10%,為進一步的智能導盲眼鏡整體系統測試奠定了基礎。最后,針對盲人的生活需要,結合智能導盲眼鏡的其他功能,對智能導盲眼鏡控制系統在實際場景中進行了系統聯調,其中雙目攝像頭的采集幀率設置為3幀/s,語音導航頻率設定為每兩秒鐘導盲一次,遠程服務器端測試結果如圖7、圖8所示。通過圖7可以看出智能導盲眼鏡的GPS功能能實時、準確地獲取佩戴導盲眼鏡用戶的經緯度,并通過無線通信傳輸模塊送至遠程服務器,進行地理位置的準確匹對。圖8顯示該智能導盲眼鏡在實際場景中,不僅能較準確識別出前方目標的類別,還能測出目標物體到導盲眼鏡的距離,正確表示出障礙物的方位特征,并在眼鏡端實時以語音導盲的形式幫助盲人及時有效地避開障礙物,從而保障了盲人的安全出行。
6 結語
本系統以S5PV210為主控制器搭建基于機器視覺的智能導盲眼鏡,通過搭載Linux內核,配備雙目采集、GPS定位、語音播報、GSM短信、語音通話、無線傳輸六大核心功能模塊組成系統,完成了系統的硬件電路設計和軟件設計。通過系統測試,該智能導盲眼鏡不僅能對盲人的獨立出行進行實時語音導航,而且在特殊情況下,盲人可以通過智能眼鏡上的觸發按鍵,使用導盲眼鏡的GPS、GSM短信、語音通話等功能,及時向親朋好友獲取幫助。另外由于智能導盲眼鏡還具有圖像識別能力,能幫助盲人進行簡易物品歸類,在一定程度上也使盲人的生活自理能力得以提升,這對于盲人基數較大的中國而言,顯得尤為重要。
參考文獻
[1] Milan Sonka,Vaclav Hlavac,Roger Boyle,等.圖像處理、分析與機器視覺[M].北京:清華大學出版社,2016.
[2] 岳榮剛,王少萍,李凱,等.基于相似原理的新型雙目測距法[J].光電工程,2008,35(4):64-68.
[3] 陳翠平.基于深度信念網絡的文本分類算法[J].計算機系統應用,2015,24(2):121-126.
[4] 張春霞,姬楠楠,王冠偉.受限波爾茲曼機簡介[J].工程數學學報,2013(2):159-173.
[5] HINTON G E,SRIVASTAVA N,KRIZHEVSKY A,et al.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[6] 王爽,馬文萍,謝慧明,等.一種基于棧式編碼和softmax的極化SAR圖像分類方法[P].CN104156728A,2014.
[7] 張雪偉,王焱.基于Sigmoid函數參數調整的雙隱層BP神經網絡的板形預測[J].化工自動化及儀表,2010,37(4):42-44.
[8] 陳先昌.基于卷積神經網絡的深度學習算法與應用研究[D].杭州:浙江工商大學,2013.
[9] 吳海燕.基于自動編碼器的半監督表示學習與分類學習研究[D].重慶:重慶大學,2015.
[10] 崔鵬宇.基于支持向量機的分類器訓練研究[J].數字技術與應用,2016(6):58-58.
作者信息:
何騰鵬,張榮芬,劉 超,房樂楠,劉宇紅
(貴州大學 大數據與信息工程學院,貴州 貴陽550025)