前言

這篇論文是在 2024 年在 IEEE 發表的,這篇是影像復原領域的,主要任務是去除圖片中的雨水紋 (消除雜訊),提出了一個的模型叫做 MFDNet, 這個模型結合了傳統 CNN 和 Transformer 的優點,還有 Asymmetrical dual-path representation 這個特殊的架構,可以幫助更好地分解原本的圖片和雨水紋。

photo

HRM (Hybrid Representation Module)

photo

這邊要先提到 HRM 的架構,他算是這篇論文裡面最重要的一個部分,在整個模型裡用了非常多次,主要是在執行分解雨水紋和原始圖片兩種特徵。整體架構是上面右圖,可以看到他分為上下兩個通道同步進行,而這就是在前言所提到的 “Asymmetrical dual-path representation",上面處理的是雨水紋的特徵,下面處理的是原始圖片的特徵。

photo

再來以左右方向來看這個 module,他分成 HEFB(Hybrid Feature Extraction Block) 和 CRB(Coupled Representation Block) 兩個部分,接下來下面會以左右方向來介紹這個 module。


HEFB (Hybrid Representation Module)

photo

首先先看到上通道的部分,又可以細分為 CAB(Channel Attention Block) 和 Trasformer Block 兩個部分:

在這個模型裡特徵會分成雨水紋和原始圖片兩個部分,最一開始拆分兩種特徵是在 Patch Embedding Module 處理的,下面會介紹。

  • CAB: 如上 (a) 圖,編碼來自局部影像結構的訊息,並調整不同 channel 間的權重,並補充本地互動的不足。

Channel Attention 其實是一種調整不同 channel 權重的方式,如下圖,中間會經過 Global pooling、Down sampling、fully connection 得到所有 channel 的權重後,在和最一開始的 features 相乘,就完成調整權重的處理。

photo

  • Trasformer Block: 如上 (b) 圖,目的是為了關注雨的樣式,並區分雨條紋和背景的資訊。在 HRM 中串聯了 4 個 Trasformer Block,其中在 Trasformer Block 前面做了 down sampling (只在進入 Trasformer Block 前做) 是因為 transformer 會消耗掉比較大的計算成本。

在 Trasformer Block 中有個 Head-FC ,作者的解釋是這樣: We set up a fully connected layer across head dimensions to enhance communication among the heads.

接著是下通道的部分,這邊就是做 identity mapping 和 CAB 的處理而已,identity mapping 在論文中沒有細講。

CRB (Coupled Representation Block)

photo

作者看到以往的論文將兩種特徵分開處理,但模型表現不好,因此把兩種特徵混合在一起做特徵萃取,中間有很多條交叉的通道就是混合的步驟。

中間的 weights 通道的架構是粉色箭頭指向的圖,這一塊主要是想調整另一個特徵的權重,因為如果直接把另一個特徵直接加進去相乘可能反而會被影響太多,因此把它調整的小一點讓他的影響力不會這麼大。

$z_R$、$z_B$: $g_R$、$g_B$ 是前面 HEFB 最後的輸出,接下來看到中間 $z_B$ 的地方,有兩個箭頭指向 $z_B$,代表有兩個輸入,這邊作者把改變過權重的輸入 (weights)和 $g_R$ 做相乘,同理的 $g_B$ 也是一樣的處理方式。

輸出結果視覺化

photo

上圖可以看到包含雨水紋的圖片以及模型將雨水紋移除的輸出,$z_R$、$z_B$ 是 CRB 中的視覺化圖像。


MFDNet

photo

上圖是 MFDNet 的架構,我用粉紅色框框把架構拆解成了三個部分,分別是捕捉多尺度特徵、分解雨水紋和原始圖片特徵、重組雨水紋和原始圖片。

捕捉多尺度特徵

首先看到的是最左邊的部分,輸入圖片進入模型後會先到 Patch Embedding Module,這邊就等於是做了下採樣的處理,這邊分成了三種維度大小,分別是原尺寸、1/2、1/4,進入 HRM 後,會把

分解雨水紋和原始圖片

這個部份其實就是串聯 3 個 HRM Module,是經過消融實驗得到的。

重組雨水紋和原始圖片

這邊會多這個區塊主要是為了之後 loss function 要判斷模型效能而放的,所以其實整體模型就是由很多的 HRM 組合而成而已。


Objective function (Loss function)

整個 Loss function 包含預測原始圖片的 loss 和預測雨水紋的 loss 兩個部分,裡面主要由三個函式組成:

  1. $\mathcal{L}_{ssim}()$ : Structural SIMilarity,指導合作網絡學習更多恢復相似結構細節
  2. $\mathcal{L}_{Char}()$ : Charbonnier penalty function,移除異常值、保留高頻訊息
  3. $\mathcal{L}_{edges}()$ : Laplacian Edge Extraction,偵測特徵的邊緣

這篇論文的 loss 是用監督式學習的方式,因為在 Char() 和 edges() 中,$I_B*$ 和 $I_B$ 分別代表 Ground truth 和預測結果,它並不是用自己預測的結果再去調整參數,所以不是自監督式學習。

photo

實驗

在影像復原領域的資料集可以根據有無 ground truth 進行分類:

1. 有 Ground Truth

這種是把原本沒有雨水紋的圖像人工加上雨水紋路(雜訊)

以下面兩種評估指標評斷效能:

  • Peak Signal to Noise Ratio (PSNR):評估兩圖像間的相似性
  • Structural SIMilarity (SSIM):比較兩圖像間的亮度、對比度、結構
photo

2. 無 Ground Truth

這種是自然界出現的下雨影像,所以不會有 ground truth

  • Natural Image Quality Evaluator (NIQE)
  • Spatial-Spectral Entropy-based Quality (SSEQ)
photo

消融實驗

1. Loss function 中不同權重參數的比較

photo

2. HRM 和 Transformer block 數量比較

photo