我在自然语言处理的目的特征提取初学者。 我想知道我怎么能使用HashMap提取特征的文本。 如果每个功能是一个“关键”在HashMap和它的价值是“价值”(所有功能都是二进制的0或1),这是否意味着,我需要有n个的HashMap(n为文本的单词数)? 由于每个字我需要提取的特征。
我对吗?
在此先感谢,爱丽丝
我在自然语言处理的目的特征提取初学者。 我想知道我怎么能使用HashMap提取特征的文本。 如果每个功能是一个“关键”在HashMap和它的价值是“价值”(所有功能都是二进制的0或1),这是否意味着,我需要有n个的HashMap(n为文本的单词数)? 由于每个字我需要提取的特征。
我对吗?
在此先感谢,爱丽丝
是的,你可以用然而哈希映射取决于功能和内存需求可能不是最好或最快的数据结构的数量实现这一点,它真的取决于你的域。 通常,代表特征存在或不存在将产生较差的结果。 更好的方法是加权的功能时使用TF-IDF。
你所谈论的方法是“袋的词”的做法。 这是您记号化的单词边界的文档库,并使用单词作为特征。 在第一遍,你应该删除停止词(即“一”,“和”,“中”),然后标准化你的数据(即现在== ==现在现在)。 然后,您可以执行词干进一步降低您的矢量大小。
现在低估提取特征的一个好方法是看看MALLET 。 我有一个非常简单的实现朴素贝叶斯的与RCV-1解析器,你可以看看一个例子朴素贝叶斯