web-dev-qa-db-fra.com

Comment savoir quel âge a une page?

Je pensais que Google était plus ou moins précis pour déterminer qui avait posté un texte en premier et qui l'avait copié. Cependant, lorsque j'utilise l'outil de recherche "intervalle personnalisé", les résultats sont assez étranges. J'ai trouvé des pages remontant à 2002 pour un site Web que je n'avais que deux ans.

Donc, Google n’est pas précis pour savoir qui a copié et qui a écrit l’original. Quel est?

enter image description here

Si stackexchange.com a été créé en 2009, comment est-ce possible? hermeneutics.se est plus ancien que Stack Overflow!

15
Renan

J'ai cherché la réponse à cette question de la manière suivante: en utilisant Google puisque c'est l'exemple que j'ai, comment Google obtient les dates de création et les dates modifiées, ainsi que les formats de date qu'il reconnaît. S'il vous plaît, comprenez que cette information n’existe pas sur quelques pages et que j’ai dû fouiller les données à partir de très nombreuses sources, dont certaines ne semblent pas s’appliquer directement et les rassembler. Dans certains cas, les informations proviennent de plusieurs sources et ne peuvent pas toujours être citées.

Google recherche les dates de page dans cet ordre; URL, balise de titre, corps (contenu), balises méta, en-tête de réponse HTTP au moins en ce qui concerne le système de recherche Google. Dans d'autres paragraphes d'autres documents, aucun ordre n'a été documenté, mais la liste a été discutée et semble confirmer la liste. Si vous y réfléchissez, cela reflète l'ordre d'un moteur de recherche; un - découvrez votre page (lien) et deux - lisez votre page de haut en bas (titre, corps et balise méta), à l'exception de la méta-balise (petit détail) et de l'en-tête de la réponse HTTP. Voici la liste en ce qui concerne l'appareil: https://developers.google.com/search-appliance/documentation/68/admin_crawl/Preparing#docdaterule

Remarque: La date de création est la date à laquelle la page a été demandée pour la première fois par Google. En l'absence de date de création, la date de création est utilisée.

1] Tout moteur de recherche peut demander une ressource via une requête HTTP GET et le serveur Web renvoie la dernière date de modification dans l'en-tête de la réponse avec la ressource dans le paquet de données.

2] Tout moteur de recherche peut demander les informations d'en-tête d'une ressource via une requête HTTP HEAD. Le serveur Web renvoie la date de modification dans l'en-tête de réponse sans la ressource dans le paquet de données.

3] Tout moteur de recherche peut demander si une ressource a été modifiée depuis une certaine date en demandant une ressource avec un HTTP GET avec if-modified-since défini sur une date. Si la ressource a été modifiée depuis la date définie, le serveur Web répond par une réponse de 200 Ok et renvoie la ressource ou, si la ressource n'a pas été modifiée depuis la date définie, le serveur Web répond par une réponse. Non modifié sans retourner la ressource.

Google fait de nombreuses requêtes en utilisant la méthode n ° 3 pour économiser de la bande passante. Vous les verrez dans les fichiers journaux de votre serveur Web.

Remarque: Il est possible qu'un système de gestion de contenu (CMS) ou un autre logiciel ne puisse pas fournir la date de manière appropriée dans un en-tête de réponse.

Ces exemples de date proviennent également de la documentation de Google Appliance, mais existent également à d’autres endroits en ce qui concerne la recherche générale. J'ai pris ces détails dans la documentation de l'appareil simplement parce qu'il pouvait être coupé et collé sous forme de liste où, ailleurs, il n'était pas aussi ordonné.

4] Google recherche une date dans l'URL. Il recherche les formats suivants: AAAAMMJJHH - AAAA - AAAAMM.

5] Google recherche une date dans la balise de titre. Il recherche les formats suivants: YYYMMDDHH - YYYY - YYYYMM même si je soupçonne que d’autres formats peuvent être reconnus. Voir ci-dessous.

6] Google recherche une date dans la balise body (contenu). Il recherche les formats suivants: YYYMMDDHH - AAAAMMJJ - YYYYMM - AAAA - DDMMYYYY - YYMMMDD - MMJJAAAA - YYMMDD - JJMMAA - MMJJAA si je soupçonne que d'autres formats peuvent être reconnus. Voir ci-dessous.

Remarque: il est connu que Google recherche spécifiquement une date juste en dessous de la première balise H1. En effet, les blogs mettent souvent des dates à cet endroit.

7] Google recherche une méta-tag comme celle-ci. <meta http-equiv="last-modified" content="YYYY-MM-DD@hh:mm:ss TMZ" />

On dit aussi que Google reconnaît les formats de date suivants.

AAAA-MD - AAAA.MD - AAAA/M/J - MDAAAA - MDAAAA - M/J/AAAA - AA-MM-JJ - AAA.MM.JJ - AA/MM/JJ - WK, JM, YR - WK, LUN D, YR - D LUN, YR - LUN YYYY - LUN D, YR - LUN YY - YYYY -DM - ​​AAAA.DM - AAAA/J/M - JJ-AAAA - JJ-AAAA - J/M/AAAA - JJ-MM-AA - MM-JJ-AA - JJ/MM/AA - MM/JJ/AA - AAAAMMJJHH - AAAAMMJ - AAAAMM - AAAA - JJMMAAAA - MMJJAAAA - AAMMJJ - JJMMAA - MMJJAA

Les recherches que j'ai trouvées ne répondaient pas à la question de temps.

Dans le cas des exemples cités, les pages ne fournissent aucune indication de date, sauf pour une balise span qui peut être ignorée. Il est possible que le logiciel/serveur Web SE ne puisse pas renvoyer les dates de création et les dates modifiées dans un en-tête de réponse.

Pourquoi et comment Google a calculé ces dates est une bonne question qui pourrait ne jamais être résolue. Je vais continuer à chercher cependant.

12
closetnoc