Pourquoi Apache-Spark - Python est-il si lent localement par rapport aux pandas?

Question

A Spark newbie here. J'ai récemment commencé à jouer avec Spark sur ma machine locale sur deux cœurs en utilisant la commande:

pyspark --master local[2]

J'ai un fichier texte de 393 Mo qui comprend près d'un million de lignes. Je voulais effectuer une opération de manipulation de données. J'utilise les fonctions de trame de données intégrées de PySpark pour effectuer des opérations simples comme groupBy, sum, max, stddev.

Cependant, lorsque je fais exactement les mêmes opérations dans pandas sur le même ensemble de données exact, pandas semble vaincre pyspark par une énorme marge en termes de latence).

Je me demandais quelle pourrait être une raison possible à cela. J'ai quelques réflexions.

Les fonctions intégrées font-elles le processus de sérialisation/désérialisation de manière inefficace? Si oui, quelles sont leurs alternatives?
L'ensemble de données est-il trop petit pour ne pas dépasser les frais généraux de la machine virtuelle Java sous-jacente sur laquelle s'exécute spark?

Merci d'avoir regardé. Très appréciée.

user9366962 · Accepted Answer

Car:

Apache Spark est un cadre complexe conçu pour répartir le traitement sur des centaines de nœuds, tout en garantissant l'exactitude et la tolérance aux pannes. Chacune de ces propriétés a un coût important.
Parce que le traitement purement in-memory in-core (Pandas) est des ordres de grandeur plus rapide que les E/S disque et réseau (même local) (Spark).
Parce que le parallélisme (et le traitement distribué) ajoutent une surcharge importante, et même avec une charge de travail optimale (embarrassamment parallèle) ne garantit aucune amélioration des performances.
Parce que le mode local n'est pas conçu pour les performances. Il est utilisé pour les tests.
Dernier point mais non le moindre - 2 cœurs fonctionnant sur 393 Mo ne suffisent pas pour voir des améliorations de performances, et un nœud unique ne fournit aucune possibilité de distribution
Aussi Spark: Nombre de performances incohérent dans la mise à l'échelle du nombre de cœurs , Pourquoi pyspark est-il tellement plus lent à trouver le maximum d'une colonne? , Pourquoi mon Spark s'exécute plus lentement que Python pur? Comparaison des performances

Vous pouvez continuer comme ça pendant longtemps ...