web-dev-qa-db-fra.com

Pentaho vs Microsoft BI Stack

Mon entreprise investit énormément dans la pile MS BI (Services de rapport SQL Server, Services d'analyse et Services d'intégration), mais je voudrais jeter un coup d'œil à ce à quoi ressemble apparemment la solution de rechange open source la plus discutée, Pentaho.

J'ai installé une version et je l'ai mise en place sans problème. Donc c'est bien. Mais je n'ai pas vraiment le temps de commencer à l'utiliser pour le travail réel afin de bien comprendre le paquet.

Quelqu'un parmi vous a-t-il des idées sur les avantages et les inconvénients de Pentaho par rapport à MS BI ou des liens vers de telles comparaisons?

Très appréciée!

35
Tomas

J'ai examiné plusieurs piles Bi lors de la sortie de Business Objects. Beaucoup de mes commentaires sont de préférence. Les deux outils sont excellents. Certaines choses sont la façon dont je préfère la crème glacée au chocolat fondant au brownie au chocolat ordinaire.

Pentaho a des gars très intelligents qui travaillent avec eux, mais Microsoft suit un cheminement bien financé et planifié. Gardez à l'esprit que MS sont toujours les outsiders sur le marché des bases de données. Oracle est roi ici. Pour être compétitif, MS a donné beaucoup de cadeaux lors de l’achat de la base de données et a été contraint de réinventer sa plate-forme à quelques reprises. Je sais que ce n’est pas à propos de la base de données, mais la bataille de la base de données a pour conséquence que MS donne beaucoup pour donner de la valeur à sa pile.

1.) Plate-forme 
Le serveur SQL ne fonctionnant pas sous Unix ou Linux, ils sont donc automatiquement exclus de ce marché. Windows a à peu près le même prix que certaines versions ou Unix maintenant. Windows est assez bon marché et fonctionne bien maintenant. Cela me donne à peu près autant de problèmes que Linux.

2.) OLAP 
Les services d’analyse ont été réinventés en 2005 (la version actuelle est 2008) par rapport à la version 2000. C'est un ordre de magnatude plus puissant que l'an 2000. Le pentaho (Mondrian) n'est pas aussi rapide une fois devenu gros. Il a également peu de fonctionnalités. C'est très bien, mais il y a moins d'outils. Les deux supportent Excel comme plate-forme essentielle. La version MS est plus robuste.

3.) ETL 
MS - DTS a été remplacé par SSIS. Encore une fois, l'ordre de grandeur augmente en vitesse, en puissance et en capacité. Il contrôle tout mouvement de données ou contrôle de programme. S'il ne peut pas le faire, vous pouvez écrire un script dans Powershell. À égalité avec Informatica dans la version 2008. Pentaho - Beaucoup mieux qu’avant. Pas aussi vite que je le souhaiterais, mais je peux faire à peu près tout ce que je veux faire. 

4.) tableau de bord 
Pentaho a amélioré cela. C'est un peu mal à l'aise à développer, mais il n'y a pas vraiment d'équivalent pour MS. 

5.) rapports 
Les rapports MS sont vraiment puissants mais pas si difficiles à utiliser. Je l’aime maintenant mais j’ai détesté au début, jusqu’à ce que je le connaisse un peu mieux. J'utilisais des rapports Crystal et le générateur de rapports MS est beaucoup plus puissant. Il est facile de faire des choses difficiles avec MS, mais un peu plus difficile de faire des choses faciles. Pentaho est un peu maladroit. Je n'aimais pas du tout mais vous pourriez. Je l'ai trouvé trop complexe. J'aimerais que ce soit plus comme le constructeur de rapports Crystal ou le constructeur de rapports MS, mais c'est comme jasper. Je trouve c'est être dur. Cela peut être une préférence.

6.) ad hoc 
MS - c’était le vrai gagnant pour moi. Je l'ai testé avec mes utilisateurs et ils sont immédiatement amoureux du constructeur de rapports d'utilisateurs MS. Ce qui a fait la différence, c’est qu’il n’était pas seulement facile à utiliser, mais aussi productif. Pentaho - c’est bon, mais plutôt vieux. Il utilise le modèle plus typique basé sur un assistant et dispose d'outils puissants mais je le déteste. C'est un excellent outil pour ce que c'est, mais nous sommes passés de ce style et personne ne veut y retourner. Même problème que j'ai eu avec logiXML. L’interface fonctionnait bien pour ce qu’elle était mais ne change pas vraiment de ce que nous utilisions depuis 12 ans. http://wiki.pentaho.com/display/PRESALESPORTAL/Methods+of+Interactive+ Rapport

Il y a des gens d'expérience qui peuvent faire fonctionner Pentaho vraiment bien, je viens de trouver que la suite MS est plus productive.

51
Stradas

Avertissement - il existe de nombreux sites répertoriant les nombreuses carences, bugs et ennuis avec SSIS. Vous ne savez pas pourquoi SSIS est arrivé en tête avec cet article - mais avant de parier votre projet, regardez ce que les gens ont à dire dans la blogosphère. D'après mon expérience, il est à peu près 20: 1 de dire à quel point SSIS doit être horrible - je peux également en convenir, à la recherche de toute alternative.

8
alchemical

Excellente information ici? Je n'ai pas essayé Pentaho mais j'ai l'intention de le vérifier. Je suis un consultant expérimenté en MS BI et je l'utilise depuis 1998. SSIS est très rapide et très puissant, mais les critiques sont claires. J'ai trouvé les problèmes suivants avec SSIS: 

(1) Il est difficile de déboguer, vous obtenez des erreurs cryptiques qui peuvent ne pas vous donner aucune indication sur ce que le problème est réellement et où.

(2) Par un commentaire préalable, c'est l'environnement de développement le plus merdique de tous les temps! Je n'ai aucune idée de ce qu'ils pensent. 

(a) Créez une table de 100 colonnes ou plus et créez une jointure de fusion. Maintenant, revenez dans et essayez de mettre à jour la jointure de fusion (comme si vous utilisiez une nouvelle colonne). Cela peut prendre plusieurs minutes, même sur la machine la plus rapide, une fois que vous avez cliqué sur ok dans la jointure de fusion pour enregistrer votre modification. J'ai un flux de données énorme avec beaucoup d'enregistrements larges et de nombreuses jointures de fusion. L'ajout d'une colonne au flux de données prend plus d'une demi-journée. Je mets à jour une jointure de fusion, puis je dois faire quelque chose d'autre et revérifier 5 à 10 minutes plus tard pour voir si c'est fait. La réponse de Microsoft à cela est de diviser votre paquet en plusieurs paquets, de placer les données dans un tableau ou un fichier binaire entre eux. Eh bien, si vous allez sur le disque entre toutes les étapes, vous pouvez bien faire le tout en SQL! L'un des principaux objectifs d'un outil ETL est de mettre tout ce contenu en mémoire et d'éviter les E/S de disque.

(b) Le concepteur se bloque parfois carrément, perdant tout votre travail depuis la dernière sauvegarde (je fais maintenant ctrl-S dans mon sommeil à cause de cela)

(c) Je devais trouver un hack et générer le package XML de SSIS dans Excel pour des enregistrements volumineux. J'ai un client Healthcare où plus de 600 enregistrements de colonne sont monnaie courante. Si vous essayez de définir un format de fichier de 600 colonnes dans SSIS, vous devez taper chaque colonne une à la fois !!! Même MS Access vous permet de couper et coller une mise en page à partir d'une feuille de calcul dans une mise en page de fichier, mais pas dans SSIS. J'ai donc dû générer le code XML à partir de la mise en page et coller le code XML au bon endroit dans le package. Façon affreuse de le faire, mais cela a sauvé des journées entières de travail et de nombreuses erreurs.

(d) Semblable à (c), si vous avez besoin de couper toutes vos colonnes et que vous en avez dit plus de 600, devinez quoi? Dans le composant de colonne dérivé, vous devez taper trim (colonne1) plus de 600 fois! Je fais maintenant toutes les transformations simples comme celle-ci dans la requête SQL pour obtenir les données, car celles-ci peuvent facilement être générées à partir d'une feuille Excel.

(e) Il y a beaucoup de choses bizarres, des composants qui deviennent invisibles, parfois vous ouvrez l'emballage et tous les composants sont complètement réorganisés de manière incohérente.

(f) La fonctionnalité FTP, probablement l’une des choses les plus courantes dont vous avez besoin dans ETL, est faible et ne prend en charge que le protocole FTP simple à la vanille que personne n’utilise. De nos jours, tout le monde utilise SFTP, FTPS, https, etc. Ainsi, presque toutes les implémentations nécessitent l’utilisation d’une application de transfert de fichiers pilotée par ligne tierce partie que le package doit appeler.

(g) En essayant de CYA, semblable à la sécurité ridicule de Windows Vista, Microsoft a rendu extrêmement difficile la promotion d’un paquet SSIS d’un environnement à un autre. Il utilise par défaut cette sécurité stupide de "chiffrement des informations sensibles avec une clé utilisateur", ce qui signifie qu'il doit être exécuté sous le même compte dans l'environnement vers lequel vous le déplacez, tout comme l'environnement dans lequel vous l'avez développé, ce qui est rarement le cas. Il existe de meilleures méthodes de configuration, mais nous essayons toujours de revenir à cette protection de sécurité totalement inutile.

(h) Enfin, la plupart de ces problèmes sont maintenant dans la 3ème version, indiquant clairement que Microsoft n'a pas l'intention de les résoudre.

(i) Le débogage n’est pas aussi facile que d’autres langues.

SSIS a encore de nombreux avantages, mais pas sans douleur grave.

7
Lee

J'ai commencé à utiliser MS Reporting Services il y a de nombreuses années et j'adore ça. Je n'ai pas essayé la solution de reporting de Penaho, donc je ne peux pas en parler. Je n'ai pas non plus essayé Analysis Services ou l'alternative de Pentaho.

Récemment, j'avais besoin d'une solution ETL et étant familier avec MSSQL et MSRS, il semblait évident que je passerais en revue et choisirais probablement MS Integration Service. Mais pour moi, MSIS était affreux. Principalement parce que ce n'était pas intuitif. Après avoir passé quelques jours à essayer d’apprendre à utiliser cet outil, j’ai décidé de chercher une alternative et suis tombé sur Pentaho Data Integration, anciennement Kettle. Je l'ai fait fonctionner en quelques minutes et j'ai immédiatement créé ma première transformation. Ça fonctionne. 

Certes, mes besoins sont assez simples, mais les performances ont été excellentes et la communauté semble très utile.

4
Gary Brunton

J'ai utilisé SSIS et Pentaho Kettle, et je recommanderais vivement d'utiliser Pentaho Kettle pour votre outil ETL au lieu de SSIS.

Mes raisons: - le flux de SSIS est tâche par tâche. Kettle vous fait penser aux rangées de données circulant dans le système. L'approche de Kettle me semble beaucoup plus intuitive. - SSIS est mal documenté. Ça arrive. Mais il semble y avoir beaucoup de clics et de réglages de variables. Très complexe. Pentaho a un forum de communauté qui est très utile. - Je fais confiance à Pentaho pour s’intégrer à plusieurs types de bases de données, y compris SQL Server. Vous pouvez également utiliser JDBC qui est Nice. De plus, je l'ai utilisé entre SQL Server et Oracle d'un côté et Vertica de l'autre. Un chargeur en vrac est disponible sur Vertica. C'est plutôt agréable. - J'ai eu beaucoup de difficulté à obtenir un package SSIS sur un serveur. Cela ne valait tout simplement pas mon temps. - J'ai trouvé assez facile pour Pentaho d'envoyer un message d'avertissement ou d'erreur à une personne ou à une liste de personnes. - Pentaho autorise les tâches à effectuer en JavaScript pour les choses qui nécessitent une certaine logique. Simple et facile à faire avec une langue que la plupart d’entre nous avons rencontrée.

4
geoffrobinson

quelques points à ajouter

  • Bien qu'il existe une version Windows de tous les outils Pentaho, la configuration dans Windows est onéreuse. Pentaho (en particulier les commandes de démarrage et d'arrêt du serveur qui sont distinctes de l'outil graphique) est généralement utilisé sous Linux, et non sous Windows Shop, et la courbe d'apprentissage entre Windows et Linux est très abrupte.
  • n'importe quel outil a une courbe d'apprentissage lorsque vous vous y adaptez. Lorsque vous vous habituez à toujours cliquer sur OK et à actualiser les métadonnées en cas de problème, SSIS n'est pas si mauvais. Pentaho peut aussi être floconneux. 

Les questions relatives aux outils doivent être abordées en termes de questions culturelles plus vastes - quel type de magasins utilisent des outils open source? Selon mon expérience, bien que les magasins Microsoft semblent plus rigides, lorsque vous rencontrez des problèmes avec une chaîne de connexion dans un magasin Microsoft, vous pouvez obtenir de l'aide .. dans les magasins Pentaho et Linux, il s'agit davantage de DYI. 

BTW, faites attention aux vendeurs de Pentaho qui font des démos - tout ce qu'ils montrent est beaucoup plus difficile à travailler qu'il n'y paraît! :) 

3
gnackenson

Je ne peux offrir aucune contribution sur MS BI Stack mais lors du plus récent Barcamp Orlando , les gens de Pentaho étaient présents et ont parlé de leurs produits. C'était une démonstration extrêmement impressionnante. 

Le fait qu’il s’agisse d’un projet Open Source que vous pouvez étendre ainsi que d’un package payant pour un très bon service vous laisse beaucoup d’options. Ils ont démontré un travail rémunéré qu'ils ont accompli pour un client et ils ont vraiment impressionné la foule.

J'ai également eu l'occasion de discuter un peu avec un développeur travaillant sur l'entreposage de données pour Pentaho. Il était extrêmement perspicace et très ouvert aux suggestions. Il n'a eu aucun mal à répondre aux questions. 

Ainsi, Pentaho m'a vraiment impressionné tant par son travail que par la gentillesse et la convivialité de ses développeurs. 

3
mwilliams

J'ai récemment essayé pentaho open source BI. Je l'ai trouvé extrêmement maladroit. Ce n'était pas très intuitif et le temps de développement prenait beaucoup plus de temps.

C'est assez différent des solutions Oracle ou ms BI. Peut-être que l'édition entreprise est meilleure.

0
q Tran

Si vous recherchez une alternative robuste et peu coûteuse aux grands joueurs, LogiXML propose des tableaux de bord et des rapports ad hoc sur une plate-forme .NET. Nous les utilisons depuis la fin de 2006, au moment où Pentaho commençait à peine, mais je ne l'ai pas examiné depuis un moment. 

0
Bill