web-dev-qa-db-fra.com

Que signifie NN VBD IN DT NNS RB dans NLTK?

quand je coupe du texte, j'obtiens beaucoup de codes dans la sortie comme NN, VBD, IN, DT, NNS, RB. Y a-t-il une liste documentée quelque part qui me donne la signification de ceux-ci? J'ai essayé de googler nltk chunk codenltk chunk grammarnltk chunk tokens.

Mais je ne trouve aucune documentation expliquant ce que signifient ces codes.

22
Knows Not Much

Les balises que vous voyez ne sont pas le résultat des blocs mais du balisage POS qui se produit avant le découpage. C'est le jeu de balises Penn Treebank, voir https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

>>> from nltk import Word_tokenize, pos_tag, ne_chunk
>>> sent = "This is a Foo Bar sentence."
# POS tag.
>>> nltk.pos_tag(Word_tokenize(sent))
[('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), ('Foo', 'NNP'), ('Bar', 'NNP'), ('sentence', 'NN'), ('.', '.')]
>>> tagged_sent = nltk.pos_tag(Word_tokenize(sent))
# Chunk.
>>> ne_chunk(tagged_sent)
Tree('S', [('This', 'DT'), ('is', 'VBZ'), ('a', 'DT'), Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]), ('sentence', 'NN'), ('.', '.')])

Pour obtenir les morceaux, recherchez les sous-arbres dans les sorties fragmentées. De la sortie ci-dessus, la Tree('ORGANIZATION', [('Foo', 'NNP'), ('Bar', 'NNP')]) indique le morceau.

Ce site de didacticiel est assez utile pour expliquer le processus de segmentation en NLTK: http://www.eecis.udel.edu/~trnka/CISC889-11S/lectures/dongqing-chunking.pdf .

Pour la documentation officielle, voir http://www.nltk.org/howto/chunk.html

19
alvas

Même si les liens ci-dessus ont toutes sortes. Mais espérons que cela sera toujours utile pour quelqu'un, ont ajouté quelques-uns qui sont manqués sur d'autres liens.

CC : Coordonner la conjonction

CD : numéro cardinal

DT : déterminant

EX : Existant là

FW : Mot étranger

DANS : Préposition ou conjonction subordonnée

JJ : Adjectif

VP : Phrase verbale

JJR : Adjectif, comparatif

JJS : Adjectif, superlatif

LS : Liste des marqueurs d'élément

MD : Modal

NN : nom, singulier ou masse

NNS : nom, pluriel

PP : Phrase de préposition

NNP : nom propre, phrase singulière

NNPS : nom propre, pluriel

PDT : Pré-déterminant

POS : Fin possessive

PRP : Phrase de pronom personnel

PRP : Phrase de pronom possessif

RB : Adverbe

RBR : Adverbe, comparatif

RBS : adverbe, superlatif

RP : Particule

S : Clause déclarative simple

SBAR : clause introduite par une conjonction subordonnée (éventuellement vide)

SBARQ : Question directe introduite par un mot wh ou une phrase wh.

SINV : phrase déclarative inversée, c'est-à-dire une phrase dans laquelle le sujet suit le verbe ou le modal tendu.

SQ : Question oui/non inversée, ou clause principale d'une question wh, suivant la phrase wh dans SBARQ.

SYM : Symbole

VBD : Verbe, passé

VBG : verbe, gérondif ou participe présent

VBN : Verbe, participe passé

VBP : Verbe, présent non singulier de la troisième personne

VBZ : Verbe, présent de la troisième personne du singulier

WDT : Wh-determiner

WP : Wh-pronom

WP : pronom wh possessif

WRB : Wh-adverbe

9
red-devil

Comme indiqué par Alvas ci-dessus, ces balises sont une partie du discours qui indique si un mot/une phrase est une phrase nominale, un adverbe, un déterminant, un verbe, etc.

Voici les détails POS Tag que vous pouvez vous référer.

Chunking recovers the phrased from the Part of speech tags

Vous pouvez vous référer à cette lien pour la lecture sur à propos de la segmentation.

2
Nishu Tayal