web-dev-qa-db-fra.com

À quoi sert la couche ROI dans un Fast R-CNN?

Dans this tutoriel sur la détection d'objets, le R-CNN rapide est mentionné. La couche ROI (région d'intérêt) est également mentionnée.

Que se passe-t-il, mathématiquement, lorsque les propositions de région sont redimensionnées en fonction des fonctions d'activation de la couche de convolution finale (dans chaque cellule)?

21

Groupement par région d'intérêt (RoI):

Il s'agit d'un type de couche de regroupement qui effectue regroupement maximal sur les entrées (ici, les cartes d'entités convnet) de tailles non uniformes et produit une petite carte d'entités de taille fixe (disons 7x7). Le choix de cette taille fixe est un hyper-paramètre réseau et est prédéfini.

Le but principal d'une telle mise en commun est d'accélérer le temps de formation et de test et également de former l'ensemble du système de bout en bout (de manière conjointe).

C'est en raison de l'utilisation de cette couche de mise en commun que le temps de formation et de test est plus rapide par rapport à l'architecture R-CNN d'origine (vanille?) Et donc le nom Fast R-CNN.

Exemple simple (tiré de Mise en commun des régions d'intérêt expliquée par deepsense.io ):

Visualization of RoI Pooling

20
kmario23

La couche ROI (région d'intérêt) est introduite dans Fast R-CNN et est un cas particulier de couche de regroupement de pyramides spatiales qui est introduite dans regroupement de pyramides spatiales dans les réseaux convolutionnels profonds pour la reconnaissance visuelle . La fonction principale de la couche ROI est de remodeler les entrées de taille arbitraire en une sortie de longueur fixe en raison de la contrainte de taille dans les couches entièrement connectées.

Le fonctionnement de la couche ROI est indiqué ci-dessous:

enter image description here

Dans cette image, l'image d'entrée de taille arbitraire est introduite dans cette couche qui a 3 fenêtres différentes: 4x4 (bleu), 2x2 (vert), 1x1 (gris) pour produire des sorties avec une taille fixe de 16 x F, 4 x F, et 1 x F, respectivement, où F est le nombre de filtres. Ensuite, ces sorties sont concaténées dans un vecteur pour être envoyées à la couche entièrement connectée.

13
Nghia Tran