web-dev-qa-db-fra.com

Qu'est-ce que la "segmentation sémantique" par rapport à la "segmentation" et à "l'étiquetage de scène"?

La segmentation sémantique est-elle juste un pléonasme ou existe-t-il une différence entre "segmentation sémantique" et "segmentation"? Existe-t-il une différence entre "étiquetage de scène" et "analyse de scène"?

Quelle est la différence entre la segmentation au niveau des pixels et la segmentation par pixel?

(Question secondaire: lorsque vous avez ce type d'annotation en pixels, obtenez-vous la détection d'objet gratuitement ou y a-t-il encore quelque chose à faire?)

S'il vous plaît donner une source pour vos définitions.

Sources utilisant "la segmentation sémantique"

Sources utilisant "l'étiquetage de scène"

Source qui utilise "pixel-level"

  • Pinheiro, Pedro O. et Ronan Collobert: "De l'étiquetage au niveau des images au niveau des pixels avec des réseaux de convolution." Actes de la conférence de l'IEEE sur la vision par ordinateur et la reconnaissance des formes, 2015. (voir http://arxiv.org/abs/1411.6228 )

Source utilisant "pixelwise"

  • Li, Hongsheng, Rui Zhao et Xiaogang Wang: "Propagation extrêmement efficace en amont et en aval des réseaux de neurones à convolution pour la classification pixel par pixel." préimpression arXiv arXiv: 1412.4526 , 2014.

Google Ngrams

La "segmentation sémantique" semble être plus utilisée récemment que "l'étiquetage de scène"

enter image description here

90
Martin Thoma

"segmentation" est une partition d'une image en plusieurs parties "cohérentes", mais sans aucune tentative à comprendre ce que ces parties représentent. L'un des travaux les plus célèbres (mais certainement pas le premier) est Shi et Malik "Coupes normalisées et segmentation d'images" PAMI 20 . Ces travaux tentent de définir la "cohérence" en termes de signaux de bas niveau tels que la couleur, la texture et le lissage des limites. Vous pouvez retracer ces travaux au théorie de la Gestalt .

D'autre part "segmentation sémantique" tente de partitionner l'image en parties sémantiquement significatives, et en classer chaque partie dans l'une des classes prédéterminées. Vous pouvez également atteindre le même objectif en classant chaque pixel (plutôt que l’ensemble de l’image/du segment). Dans ce cas, vous effectuez une classification au niveau des pixels, ce qui conduit au même résultat final mais dans un chemin légèrement différent ...

Donc, je suppose que vous pouvez dire que "segmentation sémantique", "étiquetage de scène" et "classification par pixel" tentent fondamentalement d'atteindre le même objectif: comprendre sémantiquement le rôle de chaque pixel dans l'image. Vous pouvez emprunter plusieurs chemins pour atteindre cet objectif, et ces chemins conduisent à de légères nuances dans la terminologie.

79
Shai

J'ai lu de nombreux articles sur la détection d'objets, la reconnaissance d'objets, la segmentation d'objets, la segmentation d'images et la segmentation d'images sémantiques et voici mes conclusions qui pourraient être fausses:

Reconnaissance d'objets: Dans une image donnée, vous devez détecter tous les objets (une classe restreinte d'objets dépend de votre jeu de données), localisez-les avec un cadre de sélection et étiquetez ce dernier avec une étiquette. Dans l'image ci-dessous, vous verrez une sortie simple d'une reconnaissance d'objet de l'état de l'art.

object recognition

Détection d'objet: c'est comme la reconnaissance d'objet, mais dans cette tâche, vous ne disposez que de deux classes de classification d'objet, ce qui signifie des boîtes de délimitation d'objet et des boîtes de délimitation non-objets. Par exemple, Détection de voiture: vous devez détecter toutes les voitures d'une image donnée avec leurs cadres de sélection.

Object Detection

Segmentation d'objet: comme pour la reconnaissance d'objet, vous reconnaîtrez tous les objets d'une image, mais votre sortie doit afficher cet objet en classant les pixels de l'image.

object segmentation

Segmentation de l'image: Dans la segmentation de l'image, vous segmentez des régions de l'image. votre sortie n'indiquera pas les segments et les régions d'une image qui doivent être cohérents les uns avec les autres devraient être dans le même segment. L'extraction de super pixels d'une image est un exemple de cette tâche ou de la segmentation avant-plan-arrière-plan.

image segmentation

Segmentation sémantique: dans la segmentation sémantique, vous devez étiqueter chaque pixel avec une classe d'objets (voiture, personne, chien, ...) et de non-objets (eau, ciel, route, ...). En d'autres termes, dans Segmentation sémantique, vous allez étiqueter chaque région de l'image.

semantic segmenation

Je pense que l'étiquetage au niveau des pixels et au niveau des pixels est fondamentalement identique, qu'il s'agisse d'une segmentation d'image ou d'une segmentation sémantique. J'ai également répondu à votre question en ce lien comme identique.

57
e_soroush

Les réponses précédentes sont vraiment géniales, je voudrais souligner quelques ajouts supplémentaires:

Segmentation d'objet

une des raisons pour lesquelles cela est tombé en disgrâce dans la communauté de la recherche est qu’il est problématique et vague. La segmentation des objets consistait simplement à rechercher un seul ou un petit nombre d'objets dans une image et à tracer une limite autour d'eux. Dans la plupart des cas, vous pouvez toujours supposer que cela signifie. Cependant, cela commençait aussi à être utilisé pour signifier la segmentation de blobs que pourrait être des objets, une segmentation d'objets de l'arrière-plan (plus couramment appelée soustraction ou segmentation d’arrière-plan ou détection de premier plan), et même dans certains cas utilisée de manière interchangeable avec la reconnaissance d’objet à l’aide de boîtes englobantes (cette méthode s’arrêta rapidement avec l’apparition d’approches de réseau neural profond pour la reconnaissance d’objet, mais la reconnaissance préalable d’objets pouvait également signifier simplement étiqueter une image entière avec l’objet dedans).

Qu'est-ce qui rend la "segmentation" "sémantique"?

Simpy, chaque segment, ou dans le cas de méthodes profondes, chaque pixel, reçoit une étiquette de classe basée sur une catégorie. La segmentation en général n'est que la division de l'image par une règle. Meanshift la segmentation, par exemple, à partir d'un niveau très élevé, divise les données en fonction de l'évolution de l'énergie de l'image. La segmentation basée sur découpe du graphique n’est pas apprise de la même façon, mais dérive directement des propriétés de chaque image séparément des autres. Les méthodes les plus récentes (basées sur les réseaux de neurones) utilisent des pixels étiquetés pour apprendre à identifier les caractéristiques locales associées à des classes spécifiques, puis classent chaque pixel en fonction de la classe dont la confiance est la plus grande. De cette façon, "pixel-label" est en réalité un nom plus honnête pour la tâche, et le composant "segmentation" est émergent.

Segmentation d'instance

Sans doute la signification la plus difficile, la plus pertinente et la plus originale de la segmentation d'objet, le terme "segmentation d'instance" désigne la segmentation des objets individuels au sein d'une scène, qu'ils soient du même type ou non. Cependant, l’une des raisons de la difficulté est que, du point de vue de la vision (et à certains égards, du point de vue philosophique), ce qui fait l’instance "objet" n’est pas tout à fait claire. Les parties du corps sont-elles des objets? Ces "objets-parties" doivent-ils être segmentés du tout par un algorithme de segmentation d'instances? Devraient-ils être seulement segmentés s’ils sont vus séparément du tout? Qu'en est-il des objets composés si deux choses clairement jointes mais séparables doivent être un objet ou deux (une pierre collée au sommet d'un bâton est-elle une hache, un marteau ou tout simplement un bâton et une pierre si elle n'est pas correctement fabriquée?). En outre, il n'est pas clair comment distinguer les instances. Un testament est-il une instance distincte des autres murs auxquels il est attaché? Dans quel ordre faut-il compter les instances? Comme ils apparaissent? La proximité du point de vue? En dépit de ces difficultés, la segmentation des objets reste un problème car, en tant qu’êtres humains, nous interagissons avec les objets tout le temps, quelle que soit leur "étiquette de classe" (utiliser des objets aléatoires autour de vous comme des poids de papier, assis sur des choses qui ne sont pas des chaises), Certains ensembles de données essaient donc de résoudre ce problème, mais la principale raison pour laquelle le problème n’a pas fait l’objet de beaucoup d’attention est qu’il n’est pas suffisamment défini. enter image description here

Analyse de la scène/Marquage de la scène

Scene Parsing est une approche strictement segmentée de l'étiquetage de scène, qui présente également des problèmes de flou. Historiquement, l’étiquetage de scène consistait à diviser l’ensemble de la "scène" (image) en segments et à leur attribuer tous une étiquette de classe. Cependant, cela signifiait aussi donner des étiquettes de classe aux zones de l’image sans les segmenter explicitement. En ce qui concerne la segmentation, la "segmentation sémantique" n'implique pas la division de la scène entière. Pour la segmentation sémantique, l'algorithme est destiné à ne segmenter que les objets qu'il connaît et sera pénalisé par sa fonction de perte pour l'étiquetage de pixels qui n'ont pas d'étiquette. Par exemple, l'ensemble de données MS-COCO est un ensemble de données pour la segmentation sémantique, dans lequel seuls certains objets sont segmentés. MS-COCO sample images

32
physincubus