根据文档可以装入感标记在NLTK语料库这样:
>>> from nltk.corpus import wordnet_ic
>>> brown_ic = wordnet_ic.ic('ic-brown.dat')
>>> semcor_ic = wordnet_ic.ic('ic-semcor.dat')
我还可以得到definition
, pos
, offset
, examples
为这样的:
>>> wn.synset('dog.n.01').examples
>>> wn.synset('dog.n.01').definition
但如何才能得到语料库中的同义词集的频率是多少? 为了打破这样的问题:
- 第一怎么算多次做过一个同义词集时的感觉,标注语料?
- 再下一步是通过计数通过计数对于给定的特定引理所有同义词集出现的总数来划分。