与现有的文本分类文本作为训练和测试功能(监督)技术,我们为什么不考虑命名实体(NE)? 你认为我们可以提高精度,使用网元的功能?
Answer 1:
这取决于域有很多你的工作。你必须定义基于域的功能。 在你学习的排名问题,生成动态排名的工作搜索引擎说,NE的习惯在这里给你任何好处。 这largerly取决于你正在工作的领域,也记述的输出分类标签(监督学习)。
现在说你是分类上属于足球或电影或Polictics等文件的工作。 在这种情况下命名实体的工作。 我在这里举个例子,假设你使用的是神经网络的哪些类别的文档转换成足球,电影,政治等,现在说一个文件进来“梅西被邀请参加的最大的‘社交网络’,也存在是演员和工作人员,包括杰西·艾森伯格,安德鲁·加菲尔德和贾斯汀”在这里命名实体(输入功能)和电影(定义输出)之间的连接会更强,因此它会被分类为电影文件。
另外一个例子,说我们的文件是“汤姆·克鲁斯被描绘梅西的角色在电影‘最后的足球比赛。’这里说到的利益说你的神经网络了解到,当一个演员和足球运动员走到一起在一个文件中有。它是一个电影的高概率同样这取决于数据,并训练它可以是圆形过于其他方式(但这是是学习所有关于;看到过去的数据)
所以,我的回答将是尝试一下,没有人阻止你已命名实体的特征。 它可能会帮助你在工作领域。
文章来源: Named entities as a feature in text categorization?