web-dev-qa-db-fra.com

Qu'est-ce que le Dremel de Google? En quoi est-il différent de Mapreduce?

Le Dremel de Google est décrit ici . Quelle est la différence entre Dremel et Mapreduce?

29
Yktula

Vérifiez ceci article out. Dremel est le futur (et le futur) de Hive.

Le problème majeur de MapReduce et des solutions en plus, comme Pig, Hive, etc., est qu'ils ont une latence inhérente entre l'exécution du travail et l'obtention de la réponse. Dremel utilise une approche totalement nouvelle (sortie en 2010 dans ce journal par google) qui ...

... utilise un nouveau moteur d'exécution de requêtes basé sur des arborescences d'agrégation ...

... pour exécuter presque en temps réel , interactif ET adhoc interroge les deux que MapReduce ne peut pas. Et Pig et Hive ne sont pas en temps réel

Vous devriez garder un œil sur projets qui en sortent. C'est assez nouveau pour moi aussi ... donc tout autre commentaire d'expert est le bienvenu!

Edit: Dremel est ce que l'avenir de Hive (et non MapReduce comme Je l'ai déjà mentionné) devrait l'être. Hive fournit actuellement une interface de type SQL pour exécuter les travaux MapReduce. Hive a une latence très élevée et n'est donc pas pratique dans l'analyse de données ad hoc. Dremel fournit une interface de type SQL très rapide aux données en utilisant une technique différente de MapReduce.

22
Jai

Dremel et MapReduce ne sont pas directement comparables, mais plutôt ce sont des technologies complémentaires.

MapReduce n'est pas spécifiquement conçu pour analyser les données - c'est plutôt un cadre logiciel qui permet à une collection de nœuds de résoudre les problèmes de calcul distribué pour les grands ensembles de données.

Dremel est un outil d'analyse de données conçu pour exécuter rapidement des requêtes sur des ensembles de données massifs et structurés (tels que des fichiers journaux ou d'événements). Il prend en charge une syntaxe de type SQL, mais en dehors des ajouts de table, il est en lecture seule. Il ne prend pas en charge les fonctions de mise à jour ou de création, ni les index de table. Les données sont organisées dans un format "en colonnes", ce qui contribue à une vitesse de requête très rapide. Le produit BigQuery de Google est une implémentation de Dremel accessible via l'API RESTful.

Hadoop (une implémentation open source de MapReduce) conjointement avec le logiciel d'entrepôt de données "Hive", permet également l'analyse de données pour des ensembles de données massifs à l'aide d'une syntaxe de style SQL. Hive transforme essentiellement les requêtes en fonctions MapReduce. Contrairement à l'utilisation d'un format ColumIO, Hive tente de rendre les requêtes rapides en utilisant des techniques telles que l'indexation de table.

41
Michael Manoochehri

MapReduce est un algorithme abstrait pour diviser un problème, le distribuer et combiner les résultats. Dremel semble être un outil spécifique pour interroger et analyser des ensembles de données.

4
Jim Deville