无监督自动标注算法?(Unsupervised automatic tagging algorith

2019-08-17 13:06发布

我想建立一个Web应用程序,允许用户上传文档视频图片音乐 ,然后给他们寻找他们的能力。 把它看成是Dropbox的 +语义搜索。

当用户上传一个新的文件,如Document1.docx怎么我能自动根据文件的内容生成的标签? 换句话说没有用户输入的需要来确定该文件的内容。 如果假设Document1.docx是数据挖掘的研究论文,那么当用户搜索数据挖掘研究论文 ,或文档1,该文件应在搜索结果中返回,因为数据挖掘研究论文将最有可能是潜在的汽车 - 生成标签为给定文件。

1.你建议该问题的算法?

2.是否有自然语言库,可以为我做到这一点?

3.哪台机器学习技术,我应该考虑以提高精确标记?

4.我怎么会这个扩展到视频和图像自动标记?

提前致谢!

Answer 1:

对于这种类型的任务最常见的无监督的机器学习模型隐含狄利克雷分布 (LDA)。 该模型自动推断主题集合了基于这些文件的话文档的语料库。 在你的文档集运行LDA当你搜索他们将分配的概率一定的主题的话,然后你可以检索具有最高概率的文件是有关这个词。

已经有一些扩展,图像和音乐,以及见http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf 。

LDA有几种语言的几个有效的实现:

  • 从原来的研究人员很多实现
  • http://mallet.cs.umass.edu/ ,用Java编写的,并建议由他人SO
  • PLDA :快速,并行C ++实现


Answer 2:

这些家伙建议LDA的替代品。

自动标签推荐算法社会推荐系统http://research.microsoft.com/pubs/79896/tagging.pdf

没有看过直通的全文,但他们有两种算法:

  1. 监督学习的版本。 这并不坏。 您可以使用维基百科训练算法
  2. “原型”版本。 还没有机会去通过这个,但是这是他们推荐什么

更新:我已经研究了这个多一些,我已经找到了另一种方法。 基本上,这是一个两阶段的做法,很容易理解和执行。 虽然文件100,000s太慢了,它(可能)对文档的1000个出色的表现(所以它是完美的标记单个用户的文档)。 我要去尝试这一做法,将报告的性能/可用性。

与此同时,这里的做法:

  1. 使用TextRank按http://qr.ae/36RAP来生成一个单一的文件标签列表。 这将生成一个独立的文件等文件的标签列表。
  2. 从“使用机器学习支持连续本体发展”(使用算法https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development )整合的标签列表(步骤1)到现有的标签列表。


Answer 3:

文本文档,可使用这个关键词的提取算法/包进行标记。 http://www.nzdl.org/Kea/目前,它支持有限的文档类型(农业和医疗我猜的),但你可以根据你的要求训练它。

我不知道如何将图像/视频的部分工作了,除非你做非常精确物体检测(它有它自己的缺点)。 你是如何打算做呢?



Answer 4:

我今天发表了一篇博客文章来回答你的问题。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

基本上有两种方法来自动提取图像和视频的关键字。

  1. 多示例学习(MIL)
  2. 深层神经网络(DNN),回归神经网络(RNN)和变体

在上述博客文章中,我列出了最新研究论文来说明解决方案。 有些人甚至包括演示站点和源代码。

谢谢,斯科特



文章来源: Unsupervised automatic tagging algorithms?