web-dev-qa-db-fra.com

Comment former l'algorithme GloVe sur mon propre corpus

J'ai essayé de suivre ceci.
Mais certains comment j'ai perdu beaucoup de temps pour finir avec rien d'utile.
Je souhaite simplement former un modèle GloVe sur mon propre corpus (fichier corpus.txt de 900 Mo environ). J'ai téléchargé les fichiers fournis dans le lien ci-dessus et les ai compilés à l'aide de cygwin (après avoir modifié la démo). Fichier .sh et l'a remplacé par VOCAB_FILE=corpus.txt. dois-je laisser CORPUS=text8 inchangé?) la sortie était: 

  1. cooccurrence.bin 
  2. cooccurrence.shuf.bin 
  3. text8
  4. corpus.txt
  5. vecteurs.txt

Comment puis-je utiliser ces fichiers pour le charger en tant que modèle GloVe sur python?

6
Codir

votre corpus devrait aller à la variable CORPUS. Le fichier vectors.txt est la sortie supposée être utile. Vous pouvez entraîner Glove en python, mais cela prend plus de temps et vous devez disposer d'un environnement de compilation en langage C. Je l'ai essayé avant et je ne le recommanderai pas. 

2
MLam

Voici mon point de vue sur ceci ::

  1. Après avoir cloné le référentiel, éditez le fichier demo.sh car vous devez le former à l'aide de votre propre corpus, remplacez le nom CORPUS par le nom de votre fichier.
  2. Supprimez ensuite le script entre MAKE et CORPUS, car il vous permet de télécharger un exemple de corpus.
  3. Puis lancez make qui formera les quatre fichiers dans le dossier de construction.
  4. Maintenant, lancez ./demo.sh qui va former et faire tout ce qui est mentionné dans le script sur votre propre corpus et la sortie sera générée sous forme de fichier vectors.txt.

Remarque : N'oubliez pas de conserver votre fichier corpus directement dans le dossier Glove.

2
Akash Kandpal

Voici comment vous exécutez le modèle

$ git clone http://github.com/stanfordnlp/glove
$ cd glove && make

Pour le former sur votre propre corpus, il vous suffit de modifier un fichier, c'est-à-dire demo.sh.

Supprimez le script de if à fi après 'make'. Remplacez le nom CORPUS par votre nom de fichier 'corpus.txt' Il existe une autre boucle if à la fin du fichier 'demo.sh'.

if [ "$CORPUS" = 'text8' ]; then

Remplacez text8 par votre nom de fichier.

Exécutez demo.sh une fois les modifications apportées.

$ ./demo.sh

Assurez-vous que le format de votre fichier de corpus est correct. Vous devrez préparer votre corpus sous la forme d’un fichier texte unique contenant tous les mots séparés par un ou plusieurs espaces ou tabulations. Si votre corpus comporte plusieurs documents, ceux-ci (uniquement) doivent être séparés par des caractères de nouvelle ligne. 

0
Palak