Comment trouver les étiquettes de données Imagenet?

Question

J'ai deux questions sur la façon de charger les données Imagenet. J'ai téléchargé des ensembles de validation ILSVRC2012 (les ensembles de formation de cause sont trop volumineux), mais j'ai deux problèmes.

Je ne comprends pas comment trouver les étiquettes. Il n'y a que des fichiers JPEG avec des noms de fichier tels que "ILSVRC2012_val_00000001.JPEG", mais il n'y a pas d'étiquette. Comment puis-je les trouver?
Autant que je sache, Imagenet utilise une image de 224 * 224 pixels et le problème est simplement une "classification", pas une "détection", mais les ensembles ILSVRC2012 ont bien plus et différentes tailles de pixels. Alors, comment puis-je obtenir des cases appropriées pour 224 * 224 pixels?

MichaelSB · Answer

Vous allez télécharger trois archives tar: une pour les données d'apprentissage, une pour les données de validation et une pour les données de test.

Les données de formation sont contenues dans 1 000 dossiers, un dossier par classe ( chaque dossier doit contenir 1 300 images JPEG ). Les données de validation sont un dossier unique contenant 50 images JPEG; recherchez le fichier ILSVRC2012_validation_ground_truth.txt correspondant dans ( comme mentionné par darren1231, il doit être téléchargé séparément dans le cadre de DevKit ).

Les données de test sont similaires aux données de validation, mais elles ne sont pas étiquetées (les étiquettes ne vous sont pas fournies car vous devez leur soumettre vos étiquettes prédites, dans le cadre du concours).

Les images ImageNet ont une résolution variable, 482x415 en moyenne, et c'est à vous de décider comment vous souhaitez les traiter pour former votre modèle. La plupart des gens la traitent comme suit: réduisez d’abord la taille de chaque image afin que son côté le plus court soit de 256 pixels. Puis recadrer un patch 224x224 aléatoire. Utilisez ces patchs pour la formation ( vous obtiendrez différentes cultures à chaque époque ). Pendant le test, faites de même, mais extrayez un patch central 224x224 et utilisez-le pour évaluer la précision de la classification. Certaines personnes utilisent également plusieurs correctifs pour les tests. Encore une fois, cela dépend de vous et vous pouvez utiliser une résolution plus élevée si vous le souhaitez.

Glauco Roberto · Answer

Assurez-vous de télécharger à partir de ici et de décompresser chaque fichier .tar dans un dossier avec le numéro synsent de chacune des classes. C’est le meilleur moyen de ne pas mélanger les images.

darren1231 · Answer

C'est dans le kit de développement (Tâches 1 et 2) Le nom de fichier appelé "ILSVRC2012_validation_ground_truth.txt".