web-dev-qa-db-fra.com

Comment fonctionne la fonction de centile dans Hive?

Veuillez prendre le jeu de données d'entrée comme suit: 68 69 43 54 56 61 69 70 70 72 77 78 79 85 87 88 89 93 95 96 98 99 99. 62 66

En fonction de la fonction centile [percentile (id), 0,9] obtenant la sortie sous la forme 97,2

5
Pratik Garg

Si vous mettez 0,9, vous vous attendez à ce que 90% des données que vous donnez à la fonction se trouvent sous la valeur renvoyée. 90% de 25 équivaut à environ 22,5, et 97,2 peut être une réponse correcte, car les quatre valeurs les plus élevées correspondent à 99 99 98 96 dans votre ensemble et 97,2 se situe entre les 22e (96) et 23e (98) nombres ordonnés. 

3
Andrea

En plus de la réponse d’Andrea Romagnoli, je voudrais mentionner qu’un des usages courants du centile est de trouver la valeur médiane comme suit:

percentile(id, 0.5)
1
Ilya