Python sklearn-KMeans comment obtenir les valeurs dans le cluster

Question

J'utilise le package KMeans sklearn.cluster. Une fois la classification terminée, si j'ai besoin de savoir quelles valeurs ont été regroupées, comment puis-je le faire?

Disons que j'avais 100 points de données et que KMeans m'en a donné 5. Maintenant, je veux savoir quels points de données se trouvent dans le cluster 5. Comment puis-je faire cela.

Existe-t-il une fonction permettant d'indiquer l'identifiant du cluster et répertoriant tous les points de données de ce cluster

Merci.

Praveen · Answer

J'avais une exigence similaire et j'utilise des pandas pour créer un nouveau cadre de données avec l'index de l'ensemble de données et les étiquettes sous forme de colonnes.

data = pd.read_csv('filename') km = KMeans(n_clusters=5).fit(data) cluster_map = pd.DataFrame() cluster_map['data_index'] = data.index.values cluster_map['cluster'] = km.labels_

Une fois que le DataFrame est disponible, il est assez facile de filtrer, par exemple, pour filtrer tous les points de données du cluster 3.

cluster_map[cluster_map.cluster == 3]

Kevin · Answer

Si vous avez un grand ensemble de données et que vous devez extraire des grappes à la demande, vous constaterez une accélération avec l'aide de numpy.where . Voici un exemple sur le jeu de données iris:

from sklearn.cluster import KMeans from sklearn import datasets import numpy as np centers = [[1, 1], [-1, -1], [1, -1]] iris = datasets.load_iris() X = iris.data y = iris.target km = KMeans(n_clusters=3) km.fit(X)

Définissez une fonction pour extraire les index du cluster_id que vous fournissez. (Voici deux fonctions, pour l'analyse comparative, elles renvoient toutes les deux les mêmes valeurs):

def ClusterIndicesNumpy(clustNum, labels_array): #numpy return np.where(labels_array == clustNum)[0] def ClusterIndicesComp(clustNum, labels_array): #list comprehension return np.array([i for i, x in enumerate(labels_array) if x == clustNum])

Supposons que vous vouliez tous les échantillons de la grappe 2:

ClusterIndicesNumpy(2, km.labels_) array([ 52, 77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132, 134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])

Numpy remporte la référence:

%timeit ClusterIndicesNumpy(2,km.labels_) 100000 loops, best of 3: 4 µs per loop %timeit ClusterIndicesComp(2,km.labels_) 1000 loops, best of 3: 479 µs per loop

Vous pouvez maintenant extraire tous les points de données de votre cluster 2 comme suit:

X[ClusterIndicesNumpy(2,km.labels_)] array([[ 6.9, 3.1, 4.9, 1.5], [ 6.7, 3. , 5. , 1.7], [ 6.3, 3.3, 6. , 2.5], ... #truncated

Vérifiez deux fois les trois premiers indices du tableau tronqué ci-dessus:

print X[52], km.labels_[52] print X[77], km.labels_[77] print X[100], km.labels_[100] [ 6.9 3.1 4.9 1.5] 2 [ 6.7 3. 5. 1.7] 2 [ 6.3 3.3 6. 2.5] 2

Farseer · Answer

Vous pouvez regarder l'attribut labels_

Par exemple

km = KMeans(2) km.fit([[1,2,3],[2,3,4],[5,6,7]]) print km.labels_ output: array([1, 1, 0], dtype=int32)

Comme vous pouvez le voir, le premier et le deuxième point est le groupe 1, le dernier point du cluster 0.

Sandeep Shahi · Answer

Vous pouvez simplement stocker les étiquettes dans un tableau. Convertissez le tableau en un cadre de données. Ensuite, fusionnez les données que vous avez utilisées pour créer K signifie avec le nouveau bloc de données avec des clusters.

Afficher le dataframe. Vous devriez maintenant voir la ligne avec le cluster correspondant. Si vous souhaitez répertorier toutes les données avec un cluster spécifique, utilisez quelque chose comme data.loc [data ['nom_nom_de_cluster'] == 2], en supposant que votre cluster 2 pour l'instant.

seralou · Answer

Pour obtenir les ID des points/échantillons/observations qui se trouvent à l'intérieur de chaque cluster, procédez comme suit:

Exemple utilisant des données Iris et une méthode Nice Pythonic:

import numpy as np from sklearn.cluster import KMeans from sklearn import datasets np.random.seed(0) # Use Iris data iris = datasets.load_iris() X = iris.data y = iris.target # KMeans with 3 clusters clf = KMeans(n_clusters=3) clf.fit(X,y) #Coordinates of cluster centers with shape [n_clusters, n_features] clf.cluster_centers_ #Labels of each point clf.labels_ # Nice Pythonic way to get the indices of the points for each corresponding cluster mydict = {i: np.where(clf.labels_ == i)[0] for i in range(clf.n_clusters)} # Transform this dictionary into list (if you need a list as result) dictlist = [] for key, value in mydict.iteritems(): temp = [key,value] dictlist.append(temp)

R&EACUTE;SULTATS

{0: array([ 50, 51, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 101, 106, 113, 114, 119, 121, 123, 126, 127, 133, 138, 142, 146, 149]), 1: array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49]), 2: array([ 52, 77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132, 134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])} [[0, array([ 50, 51, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 101, 106, 113, 114, 119, 121, 123, 126, 127, 133, 138, 142, 146, 149])], [1, array([ 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49])], [2, array([ 52, 77, 100, 102, 103, 104, 105, 107, 108, 109, 110, 111, 112, 115, 116, 117, 118, 120, 122, 124, 125, 128, 129, 130, 131, 132, 134, 135, 136, 137, 139, 140, 141, 143, 144, 145, 147, 148])]]