web-dev-qa-db-fra.com

Pourquoi mes liens de site Google affichent-ils du charabia pour un lien PDF?

J'ai un site Web que Google répertorie bien avec des liens de sites. L'un des liens du site - vers un fichier PDF - montre du charabia non humain, par exemple

67,8;45:: 56 83 @7<1. (7/0;,*;: /59( (7/0;,;<7, <7)(60:4 (9<7 /+ +2, VU

Je pensais que c'était peut-être dû à la propriété title du PDF, je l'ai donc changé. Mais il n'y a pas eu d'amélioration du lien de site.

Les autres liens de sites PDF sont corrects et affichent la propriété title comme vous le souhaitez.

Est-ce que quelqu'un sait comment je pourrais rectifier ce problème ou quelle pourrait en être la cause? Je suppose que c'est un problème de translittération entre le code et le texte d'affichage qui, je suppose, signifie que je devrais reconditionner le fichier PDF d'une manière ou d'une autre. Je ne sais pas comment.

2
Tom

Certains PDF sont générés de manière à rendre très difficile l'extraction du contenu. Vous pouvez généralement le savoir en sélectionnant du texte, puis en le copiant-collé dans un fichier texte. Lorsque vous faites cela avec ce fichier, il affiche le même charabia. Il est possible que le fait de générer à nouveau PDF aidera, en utilisant éventuellement un autre créateur/pilote PDF.

Il existe des discussions plus anciennes et connexes (avec le charabia sur le copier-coller) à l'adresse suivante: https://stackoverflow.com/questions/2926159/copypasting-text-from-pdf-results-in-garbage - https://superuser.com/questions/137824/pdf-has-garbled-text-when-copy-pasting

Si vous ne pouvez pas/ne voulez pas régénérer ce fichier PDF, il peut être judicieux de le supprimer des résultats de recherche de Google, car il ne s'agit pas vraiment d'un résultat utile pour votre site. Une méthode simple consiste à utiliser outil de suppression d’URL dans les outils pour les webmasters .

3
John Mueller