Quels sont les outils et techniques open source pour construire une plateforme complète d'entrepôt de données?

Question

Je recherche ces outils open source éventuellement gratuits ou avec une version d'essai gratuite pour configurer une pile complète d'entrepôt de données.

Je connais quelques-uns comme Pentaho serveur Mondrian open source, mais je n'ai pas pu obtenir de résultat Google pour configurer la plate-forme complète. Je ne sais pas si ces composants sont compatibles entre eux? Quelqu'un pourrait-il les énumérer avec leur position dans la chaîne?

Pascal Thivent · Accepted Answer

Open Source Data Warehousing fait un excellent travail pour identifier les composants OSS qui pourraient être utilisés pour construire une pile de Data Warehouse: infrastructure (serveurs, OS, bases de données), gestion de l'intégration (ETL, EAI, etc.), Gestion des informations (DW/Mart/ODS, serveurs OLap, etc.), livraison des informations (portail, tableau de bord, client Analytics/OLAP, etc.). En voici un résumé:

Projets Open Source BI/DW

BI et Analytics

BEE - http://bee.insightstrategy.cz/en/index.html

BIRT - http://www.Eclipse.org/birt

JasperSoft - http://www.jaspersoft.com

MarvelIT - http://www.marvelit.com/dash.html

OpenI - http://openi.sourceforge.net

OpenReports - http://oreports.com

Orange - http://www.ailab.si/orange

Palo - http://www.palo.net

Pentaho - http://www.pentaho.com

R - http://www.r-project.org

SpagoBI - http://spagobi.eng.it

Weka - http://www.cs.waikato.ac.nz/~ml/index.html

VitalSigns - http://vitalsigns.sourceforge.net/

Bases de données

http://greenplum.org (bizgres)

http://www.Ingres.com

http://www.mysql.com

http://www.postgresql.org

http://www.enterprisedb.com

L'intégration

Apatar - http://www.apatar.com

CloverETL - http://cloveretl.berlios.de/

JitterBit - http://www.jitterbit.com/

KETL - http://www.ketl.org

Octopus - http://www.enhydra.org/tech/octopus/index.html

OSDQ - http://sourceforge.net/projects/dataquality

Pentaho - http://www.pentaho.com

Red Hat - http://www.redhat.com

Saga.M31 Galaxy - http://galaxy.sagadc.com

Talend - http://www.talend.com

SnapLogic - http://www.snaplogic.com

Je recommande de parcourir la présentation. Bon produit.

shmichael · Answer

Une pile (ou suite) de datawarehouse se compose généralement de trois couches. Ceux-ci sont généralement référencés comme ETL (chargement), Database & Reporting (interface). De plus, il existe des outils un peu plus avancés pour les performances et les besoins des experts. Il s'agit de Cubes et Statistical Analysis Tools.

En ce qui concerne l'interopérabilité, les outils ETL et les outils de création de rapports doivent prendre en charge la base de données que vous utilisez. Cependant, comme il n'y a que deux grandes bases de données open source, il n'y a généralement aucun problème à mélanger différentes solutions.

Quant aux détails -

1 - ETL

Le chargement des données peut être réalisé par des outils open-source tels que l'intégration de données de Pentaho ou Talend (une extension Eclipse). Je suggérerais de googler "open source etl" pour adapter la solution à vos besoins spécifiques.

2 - DB

Vous aurez besoin d'une base de données relationnelle (SGBDR). Les deux joueurs open source les plus importants sont PostgreSQL (utilisé par Stack Overflow) et MySQL. Alors que MySQL a une base d'utilisateurs plus large, Postgres gagne en popularité depuis la mise en œuvre de plusieurs fonctionnalités cruciales qui manquaient dans les versions précédentes.

3 - Rapports

Pentaho offre une plateforme de reporting. Il en va de même pour BIRT (une autre extension Eclipse). Encore une fois, Google est votre ami pour des comparaisons spécifiques. Notez que si vous choisissez Pentaho pour les outils ETL et Reporting, vous bénéficierez probablement d'une meilleure intégration. Vous avez également mentionné Mondrian, qui est un outil pour générer des requêtes MDX sur un SGBDR. MDX est le langage standard pour interroger les cubes.

À ce stade, en supposant que vous partez de zéro, je recommanderais de configurer les deux premières couches de l'entrepôt de données - ETL & DB. Vous pouvez ultérieurement ajouter n'importe quel nombre d'outils de création de rapports ci-dessus.

Sandeep · Answer

Ceci est une autre question similaire 20 milliards de lignes/mois - Hbase/Hive/Greenplum/Quoi?

La partie la plus pertinente:

Je ne saurais trop insister sur ce point: obtenez quelque chose qui fonctionne bien avec des outils de reporting standard.

.

Hive ou HBase vous permettent de créer un front-end personnalisé, ce que vous ne voulez vraiment pas, sauf si vous êtes heureux de passer les 5 prochaines années à écrire des formateurs de rapports personnalisés en Python.