web-dev-qa-db-fra.com

Quels sont les outils et techniques open source pour construire une plateforme complète d'entrepôt de données?

Je recherche ces outils open source éventuellement gratuits ou avec une version d'essai gratuite pour configurer une pile complète d'entrepôt de données.

Je connais quelques-uns comme Pentaho serveur Mondrian open source, mais je n'ai pas pu obtenir de résultat Google pour configurer la plate-forme complète. Je ne sais pas si ces composants sont compatibles entre eux? Quelqu'un pourrait-il les énumérer avec leur position dans la chaîne?

35
understack

Open Source Data Warehousing fait un excellent travail pour identifier les composants OSS qui pourraient être utilisés pour construire une pile de Data Warehouse: infrastructure (serveurs, OS, bases de données), gestion de l'intégration (ETL, EAI, etc.), Gestion des informations (DW/Mart/ODS, serveurs OLap, etc.), livraison des informations (portail, tableau de bord, client Analytics/OLAP, etc.). En voici un résumé:

Projets Open Source BI/DW

BI et Analytics

Bases de données

L'intégration

Je recommande de parcourir la présentation. Bon produit.

49
Pascal Thivent

Une pile (ou suite) de datawarehouse se compose généralement de trois couches. Ceux-ci sont généralement référencés comme ETL (chargement), Database & Reporting (interface). De plus, il existe des outils un peu plus avancés pour les performances et les besoins des experts. Il s'agit de Cubes et Statistical Analysis Tools.

En ce qui concerne l'interopérabilité, les outils ETL et les outils de création de rapports doivent prendre en charge la base de données que vous utilisez. Cependant, comme il n'y a que deux grandes bases de données open source, il n'y a généralement aucun problème à mélanger différentes solutions.

Quant aux détails -

1 - ETL

Le chargement des données peut être réalisé par des outils open-source tels que l'intégration de données de Pentaho ou Talend (une extension Eclipse). Je suggérerais de googler "open source etl" pour adapter la solution à vos besoins spécifiques.

2 - DB

Vous aurez besoin d'une base de données relationnelle (SGBDR). Les deux joueurs open source les plus importants sont PostgreSQL (utilisé par Stack Overflow) et MySQL. Alors que MySQL a une base d'utilisateurs plus large, Postgres gagne en popularité depuis la mise en œuvre de plusieurs fonctionnalités cruciales qui manquaient dans les versions précédentes.

3 - Rapports

Pentaho offre une plateforme de reporting. Il en va de même pour BIRT (une autre extension Eclipse). Encore une fois, Google est votre ami pour des comparaisons spécifiques. Notez que si vous choisissez Pentaho pour les outils ETL et Reporting, vous bénéficierez probablement d'une meilleure intégration. Vous avez également mentionné Mondrian, qui est un outil pour générer des requêtes MDX sur un SGBDR. MDX est le langage standard pour interroger les cubes.

À ce stade, en supposant que vous partez de zéro, je recommanderais de configurer les deux premières couches de l'entrepôt de données - ETL & DB. Vous pouvez ultérieurement ajouter n'importe quel nombre d'outils de création de rapports ci-dessus.

10
shmichael

Ceci est une autre question similaire 20 milliards de lignes/mois - Hbase/Hive/Greenplum/Quoi?

La partie la plus pertinente:

Je ne saurais trop insister sur ce point: obtenez quelque chose qui fonctionne bien avec des outils de reporting standard.

.

Hive ou HBase vous permettent de créer un front-end personnalisé, ce que vous ne voulez vraiment pas, sauf si vous êtes heureux de passer les 5 prochaines années à écrire des formateurs de rapports personnalisés en Python.

4
Sandeep

Développant ce que Pascal a écrit:

Serveur OLAP: Mondrian

Tableaux pivotants AJAX: Saik

Concepteur de schéma OLAP: Pentaho Schema Workbench

Concepteur d'agrégats OLAP: Pentaho Aggregation Designer

ETL: Bouilloire Pentaho

Concepteur de rapports: Pentaho Report Designer

Qualité des données: DataCleaner

Entrepôt de données en colonnes: MonetDB

Exploration de données: RapidMiner

3
Neil McGuigan