STDC-seg で Real-time Semantic Segmentation

Real-time Sementic Segmentation

セマンティックセグメンテーションは画像認識のタスクの一つです。以下の写真のように、写っているモノの種類に応じて色を塗り分けるようなタスクです。

MSCOCO Semantic Segmentation image

Real-time Semantic Segmentation は、実時間でセマンティックセグメンテーションを行うものです。

STDC-seg

今回は、CVPR 20201 で発表された STDC-seg を紹介します。

Mingyuan Fan, Shenqi Lai, Junshi Huang, Xiaoming Zhenhua Chai, Junfeng Luo, and Xiaolin Wei, “Rethinking BiSeNet For Real-time Semantic Segmentation”, CVPR 2021. https://openaccess.thecvf.com/content/CVPR2021/papers/Fan_Rethinking_BiSeNet_for_Real-Time_Semantic_Segmentation_CVPR_2021_paper.pdf https://github.com/MichaelFan01/STDC-Seg

GPU を使用すれば、STDC-seg は、Cityscape Dataset の場合、250.4 FPS でセグメンテーション画像を生成できます。

BiSeNet と Short-Term Dense Concatenate Network

論文タイトルからもわかるとおり、これは、BiSeNet のか医療となっています。下図のように、BiSeNet の Spatial Path を省略し Detailed Guidance という情報を学習時にだけ与えるように変更されています。

BiSeNet and STDC2

Context Path のピラミッドは CNN です。Fusion では、プラミッドの格段の出力を連結しています。

STDC module

Detailed Guidance

この論文の一番の肝は、Detailed Guidance だとおもいます。多くのセマンティックセグメンテーションのネットワークの下層では、物体の境界などを学習しています。そこで、物体境界を教師データからラプラシアンフィルタで与えて、損失を計算し、それに近づくようにします。これで、BiSeNet の Spacial Path が省略できます。

Detailed Guidance