Comment utiliser TaggedDocument dans gensim?

Question

J'ai deux répertoires dans lesquels je veux lire leurs fichiers texte et les étiqueter, mais je ne sais pas comment faire ceci via TaggedDocument. Je pensais que cela fonctionnerait comme TaggedDocument ([Strings], [Labels]) mais cela ne fonctionne apparemment pas.

Ceci est mon code:

from gensim import models from gensim.models.doc2vec import TaggedDocument import utilities as util import os from sklearn import svm from nltk.tokenize import sent_tokenize CogPath = "./FixedCog/" NotCogPath = "./FixedNotCog/" SamplePath ="./Sample/" docs = [] tags = [] CogList = [p for p in os.listdir(CogPath) if p.endswith('.txt')] NotCogList = [p for p in os.listdir(NotCogPath) if p.endswith('.txt')] SampleList = [p for p in os.listdir(SamplePath) if p.endswith('.txt')] for doc in CogList: str = open(CogPath+doc,'r').read().decode("utf-8") docs.append(str) print docs tags.append(doc) print "###########" print tags print "!!!!!!!!!!!" for doc in NotCogList: str = open(NotCogPath+doc,'r').read().decode("utf-8") docs.append(str) tags.append(doc) for doc in SampleList: str = open(SamplePath + doc, 'r').read().decode("utf-8") docs.append(str) tags.append(doc) T = TaggedDocument(docs,tags) model = models.Doc2Vec(T,alpha=.025, min_alpha=.025, min_count=1,size=50)

et c'est l'erreur que j'obtiens:

Traceback (most recent call last): File "/home/farhood/PycharmProjects/Word2vec_prj/doc2vec.py", line 34, in <module> model = models.Doc2Vec(T,alpha=.025, min_alpha=.025, min_count=1,size=50) File "/home/farhood/anaconda2/lib/python2.7/site-packages/gensim/models/doc2vec.py", line 635, in __init__ self.build_vocab(documents, trim_rule=trim_rule) File "/home/farhood/anaconda2/lib/python2.7/site-packages/gensim/models/Word2vec.py", line 544, in build_vocab self.scan_vocab(sentences, progress_per=progress_per, trim_rule=trim_rule) # initial survey File "/home/farhood/anaconda2/lib/python2.7/site-packages/gensim/models/doc2vec.py", line 674, in scan_vocab if isinstance(document.words, string_types): AttributeError: 'list' object has no attribute 'words'

Farhood · Answer

J'ai donc juste essayé un peu et trouvé ceci sur github:

class TaggedDocument(namedtuple('TaggedDocument', 'words tags')): """ A single document, made up of `words` (a list of unicode string tokens) and `tags` (a list of tokens). Tags may be one or more unicode string tokens, but typical practice (which will also be most memory-efficient) is for the tags list to include a unique integer id as the only tag. Replaces "sentence as a list of words" from Word2Vec.

j'ai donc décidé de changer la façon dont j'utilise la fonction TaggedDocument en générant une classe TaggedDocument pour chaque document. L'important est de passer les balises sous forme de liste.

for doc in CogList: str = open(CogPath+doc,'r').read().decode("utf-8") str_list = str.split() T = TaggedDocument(str_list,[doc]) docs.append(T)

biendltb · Answer

L'entrée pour un modèle Doc2Vec doit être une liste de TaggedDocument (['list', 'of', 'Word'], [TAG_001]). Une bonne pratique consiste à utiliser les index de phrases en tant que balises ..__ Par exemple, pour former un modèle Doc2Vec avec deux phrases (c.-à-d. Documents, paragraphes):

s1 = 'the quick fox brown fox jumps over the lazy dog' s1_tag = '001' s2 = 'i want to burn a zero-day' s2_tag = '002' docs = [] docs.append(TaggedDocument(words=s1.split(), tags=[s1_tag]) docs.append(TaggedDocument(words=s2.split(), tags=[s2_tag]) model = gensim.models.Doc2Vec(vector_size=300, window=5, min_count=5, workers=4, epochs=20) model.build_vocab(docs) print 'Start training process...' model.train(docs, total_examples=model.corpus_count, epochs=model.iter) #save model model.save(model_path)