我已经安装了用于爬在它的网站和搜索的Nutch和Solr; 如你所知,我们可以网页的索引meta标签与Nutch的解析的meta标签插件Solr的。(http://wiki.apache.org/nutch/IndexMetatags)现在我想知道有没有什么办法抓取另一个HTML标签Solr的不是元这样(插件或反正)?
<div id=something>
me specific tag
</div>
事实上,我想添加一个字段到Solr(东西),在这个页面有“我的特定标签”的价值。
任何的想法?
我做了我自己的插件类似,你要的东西。 映射到NutchDocument的SolrDocument配置文件是在$ NUTCH_HOME / conf目录/ solrindex-mapping.xml。 在这里,您可以添加自己的标签。 但你仍然必须从某个地方填写自己的标签。
下面是一些提示,以插件:
- 阅读http://wiki.apache.org/nutch/WritingPluginExample ,在这里你可以找到如何让你的插件很简单
- 在你的插件扩展ParseFilter和IndexingFilter。
- 在YourParseFilter可以使用NodeWalker找到特定的div
您解析信息放入喜欢本页元
page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
在YourIndexingFilter从页面(page.getMetadata)添加元数据NutchDocument
doc.add("your_specific_tag", value);
最重要的!!!!!
把your_specific_tag到的Fileds:
- Solr的配置文件schema.xml中 (并重新启动Solr的)
字段名=“your_specific_tag”类型=“字符串”存储=“真”索引=“真”
- Nutch的配置文件schema.xml中 (不知道是不是真的neccessary)
- Nutch的配置文件solrindex-mapping.xml
字段DEST = “your_specific_tag” 源= “your_specific_tag”
u必须只是尝试http://lifelongprogrammer.blogspot.in/2013/08/nutch2-crawl-and-index-extra-tag.html教程说img标签怎么去,有提什么都是步骤.. 。
您可以使用这些自定义插件之一来解析基于XPath的(或CSS选择器)的XML文件:
- https://github.com/BayanGroup/nutch-custom-search
- http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/
您可能要检查Nutch的插件应该使你可以从网页中提取的元素。