web-dev-qa-db-fra.com

Quelles sont les différences entre Data Lineage et Data Provenance?

De wiki,

Le lignage de données est défini comme un cycle de vie de données qui inclut les origines des données et leur déplacement dans le temps. Il décrit ce qu'il advient des données lorsqu'elles passent par divers processus. Il aide à fournir une visibilité sur le pipeline d’analyses et simplifie le traçage des erreurs jusqu’à leurs sources.

La provenance des données documente les entrées, les entités, les systèmes et les processus qui influent sur les données d'intérêt, fournissant ainsi un enregistrement historique des données et de leur origine.

Il semble que les deux concepts parlent de l'origine des données, mais je suis toujours confus quant aux différences. Les deux concepts sont-ils les mêmes? S'ils sont différents, quelqu'un peut-il partager un exemple?

Merci,

5
CSY

D'après notre expérience, la provenance des données n'inclut que la vue de haut niveau du système pour les utilisateurs professionnels, afin qu'ils puissent naviguer grossièrement d'où proviennent leurs données. Il est fourni par une variété d'outils de modélisation ou simplement par de simples tableaux et graphiques personnalisés. Lignage de données est un terme plus spécifique et comprend deux côtés: le lignage des entreprises (données) et le lignage technique (des données). La lignée d'entreprise décrit les flux de données au niveau des termes commerciaux et est fournie par des solutions telles que Collibra, Alation et bien d'autres. Le lignage de données techniques est créé à partir de métadonnées techniques réelles et suit les flux de données au niveau le plus bas - tables réelles, scripts et instructions. La lignée de données techniques est fournie par des solutions telles que MANTA ou Informatica Metadata Manager. 

7
Jan Andrs

La provenance des données est,

lignage des données (quelle est la généalogie, l'historique de son voyage, où a-t-il commencé, comment est-il né, comment a-t-il changé au fil du temps, où est-il passé, quels systèmes a-t-il parcourus, avec toute perte ou tout gain acquis) orienté, métadonnées)

PLUS 

les entrées, entités, systèmes et processus qui ont influencé les données (c’est-à-dire axées sur les processus) qui peuvent être utilisés pour reproduire les données. 

0
Sam M

Voir cette section dans l'article de Wikipedia sur la provenance: https://en.wikipedia.org/wiki/Provenance#Science . Il est relié à des collections de travaux universitaires et industriels sur la provenance.

Pour répondre succinctement à votre question: en général, il n’ya pas assez de contexte connu pour différencier lignage de données et provenance de données. Dans un contexte spécifique, vous pouvez rechercher ou créer des définitions spécifiques et éventuellement différentes.

0
Nicholas Car

La provenance des données est le point d'origine du terme de données. Lignage des données est le processus complet de transformation des données, du point d'origine au point d'observation actuel du système.

0
Raj