web-dev-qa-db-fra.com

Existe-t-il un modèle doc2vec pré-formé?

Existe-t-il un modèle doc2vec pré-formé avec un grand ensemble de données, comme Wikipedia ou similaire?

7
Idriss Brahimi

Je n'en connais pas de bon. Il y en a un lié de ce projet , mais:

  • il est basé sur une fourchette personnalisée provenant d'un gensim plus ancien, donc ne se charge pas dans le code récent
  • il n'est pas clair avec quels paramètres ou données il a été formé, et le document associé peut avoir fait des choix non informés sur les effets des paramètres
  • il ne semble pas être de la bonne taille pour inclure des doc-vecteurs réels pour des articles Wikipedia (plus de 4 millions) ou des paragraphes d'articles (des dizaines de millions), ou un nombre significatif de vecteurs Word, donc ce n'est pas clair ce qui a été jeté

Bien que cela prenne beaucoup de temps et une quantité importante de RAM de travail, il existe un ordinateur portable Jupyter démontrant la création d'un Doc2Vec modèle de Wikipedia inclus dans gensim:

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/doc2vec-wikipedia.ipynb

Donc, je recommanderais de corriger les erreurs dans votre tentative. (Et, si vous réussissez à créer un modèle et que vous souhaitez le documenter pour d'autres, vous pouvez le télécharger quelque part pour que d'autres puissent le réutiliser.)

4
gojomo

Oui! Je pourrais trouver deux modèles doc2vec pré-formés à ce lien

mais je n'ai toujours pas trouvé de modèle doc2vec pré-formé qui est formé sur les tweets

3
Moniba