Regrouper les données unidimensionnelles de manière optimale?

Question

Quelqu'un at-il un document qui explique comment fonctionne l'algorithme Ckmeans.1d.dp ?

Ou: quelle est la façon la plus optimale de regrouper k-means en une dimension?

user6417312 · Answer

Le clustering k-means univarié peut être résolu en O(kn) temps (sur une entrée déjà triée) sur la base des résultats théoriques sur les matrices de Monge, mais l'approche n'était pas populaire très probablement en raison de l'instabilité numérique et peut-être aussi des défis de codage.

Une meilleure option est une méthode O(knlgn) qui est maintenant implémentée dans Ckmeans.1d.dp version 3.4.6. Cette implémentation est aussi rapide que k-means heuristique mais offre une optimalité garantie, des ordres d'amplitude meilleure que les k-moyennes heuristiques, en particulier pour les grands k.

La solution de programmation dynamique générique de Richard Bellman (1973) ne touche pas aux spécificités du problème des k-moyennes et le temps d'exécution implicite est O (kn ^ 3).