Qu'est-ce qu'un descripteur de fonctionnalité dans le traitement d'image (algorithme ou description)?

Question

Je suis souvent confondu avec la signification du terme descripteur dans le contexte des caractéristiques de l'image. Un descripteur est-il la description du voisinage local d'un point (par exemple un vecteur flottant), ou un descripteur est-il l'algorithme qui produit la description? En outre, quelle est exactement la sortie d'un extracteur de fonctionnalités?

Je me pose cette question depuis longtemps, et la seule explication que j'ai trouvée est qu'un descripteur est à la fois l'algorithme et la description. Un détecteur de caractéristiques est utilisé pour détecter des points distinctifs. Un extracteur de fonctionnalités ne semble cependant pas avoir de sens.

Veuillez m'aider à clarifier ce malentendu. THX!

eigenchris · Accepted Answer

Un détecteur de fonctionnalité est un algorithme qui prend une image et génère des emplacements ( c'est-à-dire les coordonnées en pixels) des zones importantes de votre image. Un exemple de ceci est un détecteur de coin , qui sort les emplacements des coins de votre image mais ne vous donne aucune autre information sur les caractéristiques détectées.

Un descripteur de fonctionnalité est un algorithme qui prend une image et génère des descripteurs de fonctionnalité / vecteurs de caractéristiques . Les descripteurs d'entités codent des informations intéressantes en une série de nombres et agissent comme une sorte d '"empreinte digitale" numérique qui peut être utilisée pour différencier une entité d'une autre. Idéalement, ces informations seraient invariantes lors de la transformation de l'image, afin que nous puissions retrouver la fonction même si l'image est transformée d'une manière ou d'une autre. Un exemple serait TAMISER , qui code les informations sur les gradients d'image du voisinage local les nombres du vecteur de caractéristique. D'autres exemples sur lesquels vous pouvez lire sont HOG et SURF .

EDIT: Lorsqu'il s'agit de détecteurs de fonctionnalité , "l'emplacement" peut également inclure un nombre décrivant la taille ou l'échelle de la fonctionnalité. En effet, les éléments qui ressemblent à des coins lors d'un "zoom avant" peuvent ne pas ressembler à des coins lors d'un "zoom arrière". Il est donc important de spécifier les informations d'échelle. Ainsi, au lieu d'utiliser simplement un (x,y) associez-le comme emplacement dans "l'espace image", vous pourriez avoir un triple (x,y,scale) comme emplacement dans "l'espace d'échelle".