Comment faire la classification de texte à l'aide de Word2vec

Question

Je souhaite effectuer une classification de texte à l'aide de Word2vec. J'ai des vecteurs de mots.

ls = [] sentences = lines.split(".") for i in sentences: ls.append(i.split()) model = Word2Vec(ls, min_count=1, size = 4) words = list(model.wv.vocab) print(words) vectors = [] for Word in words: vectors.append(model[Word].tolist()) data = np.array(vectors) data

production:

array([[ 0.00933912, 0.07960335, -0.04559333, 0.10600036], [ 0.10576613, 0.07267512, -0.10718666, -0.00804013], [ 0.09459028, -0.09901826, -0.07074171, -0.12022413], [-0.09893986, 0.01500741, -0.04796079, -0.04447284], [ 0.04403428, -0.07966098, -0.06460238, -0.07369237], [ 0.09352681, -0.03864434, -0.01743148, 0.11251986],.....])

Comment puis-je effectuer une classification (produit et non produit)?

Joel Carneiro · Answer

Vous disposez déjà du tableau de vecteurs Word utilisant model.wv.syn0. Si vous l'imprimez, vous pouvez voir un tableau avec chaque vecteur correspondant d'un mot.

Vous pouvez voir un exemple ici en utilisant Python3 :

import pandas as pd import os import gensim import nltk as nl from sklearn.linear_model import LogisticRegression #Reading a csv file with text data dbFilepandas = pd.read_csv('machine learning\Python\dbSubset.csv').apply(lambda x: x.astype(str).str.lower()) train = [] #getting only the first 4 columns of the file for sentences in dbFilepandas[dbFilepandas.columns[0:4]].values: train.extend(sentences) # Create an array of tokens using nltk tokens = [nl.Word_tokenize(sentences) for sentences in train]

Il est maintenant temps d'utiliser le modèle vectoriel, dans cet exemple, nous allons calculer la régression logistique.

model = gensim.models.Word2Vec(tokens, size=300, min_count=1, workers=4) print("
 Training the Word2vec model...
") # reducing the epochs will decrease the computation time model.train(tokens, total_examples=len(tokens), epochs=4000) # You can save your model if you want.... # The two datasets must be the same size max_dataset_size = len(model.wv.syn0) Y_dataset = [] # get the last number of each file. In this case is the department number # this will be the 0 or 1, or another kind of classification. ( to use words you need to extract them differently, this way is to numbers) with open("dbSubset.csv", "r") as f: for line in f: lastchar = line.strip()[-1] if lastchar.isdigit(): result = int(lastchar) Y_dataset.append(result) else: result = 40 clf = LogisticRegression(random_state=0, solver='lbfgs', multi_class='multinomial').fit(model.wv.syn0, Y_dataset[:max_dataset_size]) # Prediction of the first 15 samples of all features predict = clf.predict(model.wv.syn0[:15, :]) # Calculating the score of the predictions score = clf.score(model.wv.syn0, Y_dataset[:max_dataset_size]) print("
Prediction Word2vec : 
", predict) print("Score Word2vec : 
", score)

Vous pouvez également calculer la similitude des mots appartenant à votre dictionnaire de modèles créé:

print("

Similarity value : ",model.wv.similarity('women','men'))

Vous pouvez trouver plus de fonctions à utiliser ici .

J&#233;r&#244;me Bau · Answer

Votre question est assez large mais je vais essayer de vous donner une première approche pour classer les documents texte.

Tout d'abord, je déciderais comment je veux représenter chaque document comme un seul vecteur. Vous avez donc besoin d'une méthode qui prend une liste de vecteurs (de mots) et renvoie un seul vecteur. Vous voulez éviter que la longueur du document influence ce que ce vecteur représente. Vous pouvez par exemple choisir la moyenne.

def document_vector(array_of_Word_vectors): return array_of_Word_vectors.mean(axis=0)

où array_of_Word_vectors est par exemple data dans votre code.

Maintenant, vous pouvez soit jouer un peu avec les distances (par exemple, la distance cosinus serait un bon premier choix) et voir à quelle distance certains documents sont les uns des autres ou - et c'est probablement l'approche qui apporte des résultats plus rapides - vous pouvez utiliser les vecteurs de document pour créer un ensemble de formation pour un algorithme de classification de votre choix à partir de scikit learn , par exemple Régression logistique.

Les vecteurs de documents deviendront votre matrice X et votre vecteur y est un tableau de 1 et 0, selon la catégorie binaire dans laquelle vous souhaitez classer les documents.