web-dev-qa-db-fra.com

La voix au texte dupliquer le contenu?

La transcription directe d'une publication vocale sur un blog texte sera-t-elle considérée comme un contenu en double? Les robots d'exploration de Google le voient-ils en double? Ont-ils la technologie et peuvent-ils et l'utilisent-ils pour reconnaître le contenu en double possible? problèmes?

2
Timothy Coetzee

Si vous craignez qu'un fichier audio et une transcription de ce fichier ne soient dupliqués, je vous assure que ce n'est pas une considération. Bien qu'il soit techniquement possible de transcrire un fichier audio, il ne s'agit pas d'un exercice pragmatique. La crainte que Google essaie de tout comprendre ignore si cela sert à quelque chose ou non. Ce ne est pas. Pas à la recherche. Pas quand le web est vu comme une ontologie à comprendre. Audio et vidéo ne correspond pas du tout à ce modèle et risque de ne jamais l'être.

Laisse-moi expliquer.

Avant Google, les moteurs de recherche étaient des applications de recherche textuelles assez simples. Tout cela a changé lorsque Google est apparu sur la scène et était destiné à être un moteur de recherche basé sur la sémantique. La sémantique existe depuis des décennies au moins depuis le début des années 70. Alors que la technologie à l’époque était mature, le principal problème de l’application de la sémantique en tant que technologie est l’opportunité de l’appliquer. En termes simples, les ontologies, en l’occurrence une collection de documents, n’étaient pas assez importantes en taille et en portée pour appliquer la technologie, sauf en de rares occasions.

Entrez le web.

Sainte affiches sournoises SE Batman! Nous pouvons en fait avoir l'occasion d'utiliser la sémantique. Certes, Google a appliqué la sémantique de manière assez rudimentaire à ses débuts, mais l'application de la technologie a explosé d'une manière que personne n'aurait pu imaginer.

Cela dit, il est techniquement possible d'extraire du texte à partir d'images, de vidéos et de contenu vocal à partir de son. Cependant, étant donné que la sémantique est conçue pour comprendre le mot écrit et appliquée de manière aussi complète au texte tel qu’il existe sur le Web, beaucoup de choses devraient changer.

Considérez également que l'audio, par exemple, peut contenir d'autres sons, ce qui rendrait difficile ou impossible l'enregistrement d'un enregistrement. De plus, avec tant d’enregistrements, la question est la suivante: Que peut-on extraire de l’enregistrement et serait-il utile?

Laissez-nous pour le moment simplifier les choses. Prenez le texte à partir d'images à titre d'exemple. Peu d'images auraient du texte et parmi celles-ci, peu de texte serait extrait. La prochaine question serait: le texte serait-il utile? Pour la recherche d'images? Oui. Pour la recherche de document? Non pourquoi? En raison du niveau élevé de bruit dans les données. Même lorsque le texte est clair, il n’aurait que peu ou pas de valeur. En tant que signal, en gardant à l’esprit que les données ne répondent pas correctement aux données manquantes ou absurdes, la valeur du signal serait nulle. En appliquant cela plus loin, audio et vidéo a le même problème. Cela ne correspond pas au modèle d'application de l'analyse sémantique au texte d'une ontologie à grande échelle déjà établie depuis des décennies.

Aujourd'hui, ce n'est pas une considération et par conséquent les fichiers audio ne sont pas indexés et ne peuvent pas créer de scénario de contenu dupliqué. Cela peut changer à l'avenir, bien sûr, mais pas sans un travail important. Parce que quelque chose est techniquement possible ne veut pas dire que ce soit pratique ou logique. Pensez smellivision pour votre T.V. La technologie existe depuis des décennies, mais n'a aucun sens pour le moment. (Humour)

2
closetnoc