web-dev-qa-db-fra.com

Différence entre Fasttext .vec et .bin

J'ai récemment téléchargé un modèle pré-formé Fasttext pour l'anglais. J'ai deux fichiers:

  1. wiki.en.vec
  2. wiki.en.bin

Je ne sais pas quelle est la différence entre les deux fichiers?

16
Bhushan Pant

Le .vec les fichiers ne contiennent que les vecteurs Word agrégés, en texte brut. Le .bin fichiers en plus contiennent les paramètres du modèle, et surtout, les vecteurs pour tous les n-grammes.

Donc, si vous voulez encoder des mots que vous ne vous êtes pas entraînés à utiliser ces n-grammes (les fameuses "informations de sous-mots" de FastText), vous avez besoin pour trouver une API capable de gérer FastText .bin fichiers (la plupart ne prennent en charge que les .vec fichiers, cependant ...).

20
fnl

Comme le dit documentation ,

model.vec est un fichier texte contenant les vecteurs Word, un par ligne. model.bin est un fichier binaire contenant les paramètres du modèle avec le dictionnaire et tous les hyper paramètres.

En d'autres termes, .vec le format de fichier est le même que .txt format de fichier, et vous pouvez l'utiliser dans d'autres applications (par exemple, pour échanger des données entre votre modèle FastText et votre modèle Word2Vec depuis .vec le fichier est similaire à .txt fichier généré par Word2Vec). Et le .bin Le fichier peut être utilisé si vous souhaitez continuer à entraîner les vecteurs ou redémarrer l'optimisation.

11
Amir