如何解析使用Nutch和索引特定的标签HTML到Solr？(how to parse html wi

我已经安装了用于爬在它的网站和搜索的Nutch和Solr; 如你所知，我们可以网页的索引meta标签与Nutch的解析的meta标签插件Solr的。（http://wiki.apache.org/nutch/IndexMetatags）现在我想知道有没有什么办法抓取另一个HTML标签Solr的不是元这样（插件或反正）？

<div id=something>
      me specific tag
</div>

事实上，我想添加一个字段到Solr（东西），在这个页面有“我的特定标签”的价值。

任何的想法？

Answer 1:

我做了我自己的插件类似，你要的东西。映射到NutchDocument的SolrDocument配置文件是在$ NUTCH_HOME / conf目录/ solrindex-mapping.xml。 在这里，您可以添加自己的标签。但你仍然必须从某个地方填写自己的标签。

下面是一些提示，以插件：

阅读http://wiki.apache.org/nutch/WritingPluginExample ，在这里你可以找到如何让你的插件很简单
在你的插件扩展ParseFilter和IndexingFilter。
在YourParseFilter可以使用NodeWalker找到特定的div
您解析信息放入喜欢本页元
page.putToMetadata(new Utf8("yourKEY"), ByteBuffer.wrap(YourByteArrayParsedFromMetaData));
在YourIndexingFilter从页面（page.getMetadata）添加元数据NutchDocument
doc.add("your_specific_tag", value);
最重要的！！！！！
把your_specific_tag到的Fileds：
- Solr的配置文件schema.xml中 （并重新启动Solr的）
字段名=“your_specific_tag”类型=“字符串”存储=“真”索引=“真”
- Nutch的配置文件schema.xml中 （不知道是不是真的neccessary）
- Nutch的配置文件solrindex-mapping.xml
字段DEST = “your_specific_tag” 源= “your_specific_tag”