如何解析使用Nutch和索引特定的标签HTML到Solr?(how to parse html wi

2019-06-28 02:03发布

我已经安装了用于爬在它的网站和搜索的Nutch和Solr; 如你所知,我们可以网页的索引meta标签与Nutch的解析的meta标签插件Solr的。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有什么办法抓取另一个HTML标签Solr的不是元这样(插件或反正)?

<div id=something>
      me specific tag
</div>

事实上,我想添加一个字段到Solr(东西),在这个页面有“我的特定标签”的价值。

任何的想法?

Answer 1:

我做了我自己的插件类似,你要的东西。 映射到NutchDocument的SolrDocument配置文件是在$ NUTCH_HOME / conf目录/ solrindex-mapping.xml。 在这里,您可以添加自己的标签。 但你仍然必须从某个地方填写自己的标签。

下面是一些提示,以插件:

  • 阅读http://wiki.apache.org/nutch/WritingPluginExample ,在这里你可以找到如何让你的插件很简单
  • 在你的插件扩展ParseFilterIndexingFilter。
  • YourParseFilter可以使用NodeWalker找到特定的div
  • 您解析信息放入喜欢本页元

    page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));

  • YourIndexingFilter从页面(page.getMetadata)添加元数据NutchDocument

    doc.add("your_specific_tag", value);

  • 最重要的!!!!!

  • your_specific_tag到的Fileds:

    • Solr的配置文件schema.xml中 (并重新启动Solr的)

    字段名=“your_specific_tag”类型=“字符串”存储=“真”索引=“真”

    • Nutch的配置文件schema.xml中 (不知道是不是真的neccessary)
    • Nutch的配置文件solrindex-mapping.xml

    字段DEST = “your_specific_tag” 源= “your_specific_tag”



Answer 2:

u必须只是尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html教程说img标签怎么去,有提什么都是步骤.. 。



Answer 3:

您可以使用这些自定义插件之一来解析基于XPath的(或CSS选择器)的XML文件:

  • https://github.com/BayanGroup/nutch-custom-search
  • http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/


Answer 4:

您可能要检查Nutch的插件应该使你可以从网页中提取的元素。



文章来源: how to parse html with nutch and index specific tag to solr?