web-dev-qa-db-fra.com

Quel est le moyen le plus simple d'obtenir tfidf avec pandas dataframe?

Je veux calculer tf-idf à partir des documents ci-dessous. J'utilise python et pandas.

import pandas as pd
df = pd.DataFrame({'docId': [1,2,3], 
               'sent': ['This is the first sentence','This is the second sentence', 'This is the third sentence']})

Tout d'abord, j'ai pensé que j'aurais besoin d'obtenir Word_count pour chaque ligne. J'ai donc écrit une fonction simple:

def Word_count(sent):
    Word2cnt = dict()
    for Word in sent.split():
        if Word in Word2cnt: Word2cnt[Word] += 1
        else: Word2cnt[Word] = 1
return Word2cnt

Et puis, je l'ai appliqué à chaque ligne.

df['Word_count'] = df['sent'].apply(Word_count)

Mais maintenant je suis perdu. Je sais qu'il existe une méthode simple pour calculer tf-idf si j'utilise Graphlab, mais je veux m'en tenir à une option open source. Sklearn et gensim ont l'air écrasants. Quelle est la solution la plus simple pour obtenir tf-idf?

18
user1610952

La mise en œuvre de Scikit-learn est vraiment simple:

from sklearn.feature_extraction.text import TfidfVectorizer
v = TfidfVectorizer()
x = v.fit_transform(df['sent'])

Il existe de nombreux paramètres que vous pouvez spécifier. Voir la documentation ici

La sortie de fit_transform sera une matrice clairsemée, si vous voulez la visualiser, vous pouvez faire x.toarray()

In [44]: x.toarray()
Out[44]: 
array([[ 0.64612892,  0.38161415,  0.        ,  0.38161415,  0.38161415,
         0.        ,  0.38161415],
       [ 0.        ,  0.38161415,  0.64612892,  0.38161415,  0.38161415,
         0.        ,  0.38161415],
       [ 0.        ,  0.38161415,  0.        ,  0.38161415,  0.38161415,
         0.64612892,  0.38161415]])
27
arthur