近日,來自美國東北大學和美國信息科學研究所的研究者聯合發布論文《MoNet: Moments Embedding Network》,提出 MoNet 網絡,使用新型子矩陣平方根層,在雙線性池化之前執行矩陣歸一化,結合緊湊池化在不損害性能的前提下大幅降低維度,其性能優于 G^2DeNet。目前該論文已被 CVPR 2018 接收。
將圖像的局部表示嵌入成既具有代表性、又不受輕微噪聲影響的特征,是很多計算機視覺任務中的重要一步。在深度卷積神經網絡(CNN)成功之前,研究人員使用手動的連續獨立步驟解決該問題。典型包括 HOG、SIFT、協方差描述子、VLAD、Fisher 向量和雙線性池化。盡管 CNN 是端到端地訓練的,但是它們可以被看作兩部分:卷積層負責特征提取步驟,后面的全連接層是編碼步驟。現在已有多項研究探索用卷積嵌入方法替換全連接層,無論訓練采用兩段式還是端到端方式。
表 1. 不同神經網絡的二階統計信息對比。雙線性 CNN(BCNN)僅具備二階信息,沒有使用矩陣歸一化。改進后的 BCNN(iBCNN)和 G^2DeNet 都利用了矩陣歸一化,但是都受制于高維度,因為它們需要計算一個很大的池化矩陣的平方根。本論文提出的 MoNet,在新型子矩陣平方根層(sub-matrix square-root layer)的幫助下,可以直接歸一化局部特征,同時,通過使用緊湊池化(compact pooling)替代全雙線性池化,可以大幅降低最后的表示維度。
雙線性 CNN 由 Lin et al. 首次提出,旨在池化不同空間位置的二階統計信息。雙線性池化已被證明在多項任務中有用,包括細粒度圖像分類、大規模圖像識別、分割、視覺問答、人臉識別和藝術風格重建。Wang et al. 提出,使用高斯嵌入層納入一階信息。實踐證明,歸一化方法對這些 CNN 的性能也很重要。研究者提出了兩種歸一化方法用于雙線性池化矩陣:對于
其中表示局部特征,一方面,由于 M 是正定對稱矩陣(SPD),Ionescu et al. 提出使用矩陣對數(matrix-logarithm)來將 SPD 矩陣從黎曼流行映射到歐氏空間,即
(
)
另一方面,Wang et al. 提出矩陣方冪(matrix-power)方法,將 M 非線性地擴展到
。兩項研究中,矩陣方冪的性能和數值穩定性都優于矩陣對數。此外,Li et al. 對矩陣方冪歸一化在解決通用大規模圖像識別問題上的優秀性能提供了理論支持。因此,本論文提出將矩陣方冪正則化整合進 MoNet 架構中。
圖 1. 論文提出的 MoNet 架構圖示。該架構使用論文提出的子矩陣平方根層,這使得在雙線性池化之前執行矩陣歸一化或進一步使用緊湊池化,在不損害性能的前提下大幅降低維度成為可能。
上述特征編碼的一個重要缺陷是編碼后特征的維度極高。由于張量相乘,最后的特征維度是,其中 C 是最后一個卷積層的特征通道數。即使在 C 相對較低的情況下,如 VGG16 中,C = 512,最后特征的維度也超過 260K。該問題可通過隨機投影(random projection)、張量速寫(tensor sketching)和低秩屬性來緩解。但是,由于矩陣方冪歸一化層應用在池化矩陣 M 上,因此很難結合矩陣歸一化和緊湊池化來同時達到更好的性能和更低的最后特征維度。
本論文使用同質填充局部特征(homogeneous padded local feature)的張量積重寫了 G^2DeNet 的方程,使之對齊 BCNN 架構,以使高斯嵌入操作和雙線性池化解耦合。本論文沒有特別關注雙線性池化矩陣 M,而是推導出子矩陣平方根層,對(非)同質局部特征上直接執行矩陣方冪歸一化。在新型子矩陣平方根層的幫助下,研究者利用緊湊池化逼近張量積,同時使維度更低。
本論文的貢獻有以下三方面:
利用實證矩矩陣(moment matrix)結合 G^2DeNet 和雙線性池化 CNN,并將高斯嵌入與雙線性池化解耦合。
提出新型子矩陣平方根層,在雙線性池化層之前直接對特征執行歸一化處理,從而利用緊湊池化降低表示的維度。
利用矩陣反向傳播推導出子矩陣平方根層的梯度,這樣 MoNet 架構可以進行協同優化。
MoNet
MoNet 網絡的架構概述如上述圖 1 所示。在本節中,我們將詳述每個模塊的設計。
對于輸入圖像 I,ReLU X 之后最后一個卷積層的輸出由整個空間位置 i = 1, 2, . . . , n 上的局部特征 x_i 組成。接著,我們將其映射到齊次坐標,方法是添加額外的值為 1 的維度,并把所有元素除以。之后,應用一個適當的子矩陣平方根歸一化。最后,使用一個緊密雙線性池化層池化整個空間位置中所有 n 個特征,并在最后的全連接層之前進行逐元素的平方根正則化和
歸一化。
表 4:細粒度分類上的實驗結果。雙線性和 TS 分別表征全雙線性池化和 Tensor Sketch 緊密池化。每欄中的最佳表現標為紅色。
論文:MoNet: Moments Embedding Network
論文鏈接:https://arxiv.org/abs/1802.07303
近期雙線性池化作為一種特征編碼層被提出,可在深度網絡的卷積層之后使用,提升在多個視覺任務中的表現。與傳統的全局平均池化層或全連接層相比,雙線性池化以平移不變式的形式收集二階信息。但是,這一池化層家族的一個嚴重弊端是其維度爆炸。為解決這一問題,已探索了緊密的近似池化方法。另外,最近成果表明,通過矩陣歸一化來調整不穩定的較高階信息可獲得顯著的性能提升。然而,緊密池化與矩陣歸一化的結合至今未被探索。
在本論文中,我們通過實證矩矩陣結合了雙線性池化層與全局高斯嵌入層。此外,我們提出一個全新的子矩陣平方根層,借助此層,可以直接歸一化卷積層的輸出,并通過現成的緊密池化方法來緩解維度問題。我們在三個廣泛使用的細粒度分類數據集上進行了實驗,實驗表明,我們提出的 MoNet 架構相比 G^2DeNet 架構有著更好的表現。與緊密池化技術結合使用時,本方法可以用維度數降低了 96% 的編碼特征獲得可比的表現。