web-dev-qa-db-fra.com

Obtenir rapidement le nombre d'enregistrements dans une trame de données

J'ai une trame de données avec jusqu'à 10 millions d'enregistrements. Comment puis-je obtenir un décompte rapidement? df.count prend beaucoup de temps.

14
HEMANTH KUMAR

Ça va prendre tellement de temps de toute façon. Du moins la première fois.

Une façon consiste à mettre en cache la trame de données, de sorte que vous pourrez en faire plus, à part compter.

Par exemple

df.cache()
df.count()

Les opérations suivantes ne prennent pas beaucoup de temps.

10
Ravi R
file.groupBy("<column-name>").count().show()
1
Ahmed