web-dev-qa-db-fra.com

Obtenir des images CDN indexées avec Google

J'ai quelque part près de 500 000 images téléchargées par l'utilisateur hébergées sur un CDN Cloudfront - en plus de notre hôte principal (exampledomain.com). Jusqu'à présent, peu d'entre eux avaient été indexés aux URL de distribution par défaut. Exemple:

https://d7oxxxxxxx.cloudfront.net/images/example_directory/subdirectory/LG_example_filename.jpg

J'ai donc ajouté un CNAME (nom de domaine alternatif) afin que les URL soient désormais devenues: http://media.exampledomain.com/images/example_directory/subdirectory/LG_example_filename.jpg

Et j'ai ajouté "media.exampledomain.com" en tant que domaine vérifié dans la console de recherche Google.

J'ai également un plan de site dynamique hébergé sur exampledomain.com qui répertorie toutes les images que je souhaiterais indexer - une image par page (il y a probablement près de 240 000 pages au total). Exemple:

<url>
<loc>http://www.exampledomain.com/directory/pagename</loc>
<changefreq>daily</changefreq>
<image:image>
<image:loc>
http://media.exampledomain.com/images/exampledirectory/subdirectory/LG_filname.jpg
</image:loc>
<image:title>Example Image Title</image:title>
<image:caption>Example Image Caption</image:caption>
</image:image>
</url>

D'après ce que j'ai lu, Google devrait commencer à indexer toutes les images. Cependant, je ne veux pas potentiellement attendre une semaine entière pour découvrir qu'il y a quelque chose que je n'ai pas fait ou que quelque chose d'autre pourrait empêcher les images d'être indexées. Autant que je sache, les URL de Cloudfront sont entièrement publiques et il n'y a pas de restrictions robots.txt sur le CDN. Je n'ai actuellement qu'une seule distribution Cloudfront active, alors je ne crois pas qu'il devrait y avoir de problème de contenu dupliqué. Y a-t-il autre chose que je puisse avoir besoin de rendre compte ou une manière que je peux voir à l'avance si cela va fonctionner?

Merci pour toute l'aide que vous pouvez apporter.

UPDATE:

Je suis sur cette piste depuis quelques jours maintenant. Les robots Google ont exploré et indexé toutes les pages de notre site à un taux de Nice Swift (plus de 50 000 pages par jour!). Cependant, il y a encore quelque chose avec les images. Je constate que plus de 160 000 images ont été envoyées dans le plan du site. Google en a répertorié environ 15 000, mais seules 50 ont été indexées. Quelqu'un a-t-il une idée des raisons pour lesquelles Google pourrait avoir des difficultés avec cela?

Voici un exemple de format pour l'une des URL. Un horodatage de 12-14 chiffres est ajouté à la fin de tous les fichiers:

http://media.exampledomain.com/images/category/id/LG_keywords_1442182082.5437.jpg

4
Ian Spangler

C'est à peu près ce que j'ai fait;

  • Images sur CDN avec enregistrement CNAME.
  • Vérifié le domaine CDN dans Google Webmasters.
  • Utilisation d’URL CDN dans le plan du site.
  • Ajout de la liste de sitemap dans robots.txt ainsi que dans Google Webmasters.
  • Aucune restriction de robots sur le domaine CDN.

Et Google indexe bien mes images. Si je recherche site:mysitedomain.com sur Google; toutes les images du CDN sont également affichées :)

Mise à jour:

Dans le fichier robots.txt de mon site Web, j'ai:

User-agent: *
Disallow: /harming/humans
Sitemap: http://www.website.net/sitemap.xml

Cela garantit que les autres moteurs de recherche (pas Google) trouvent également le plan du site. Plus d'infos ici: http://www.sitemaps.org/protocol.html#submit_robots

Le robots.txt sur mon domaine CDN permet simplement l'exploration et ressemble à ceci:

User-agent: *
Disallow:
2
Thomas Jensen