使用此命令
curl '://localhost:8983/solr/update/extract?literal.id=doc1&commit=true' -F "myfile=@maven_tutorial.pdf"
我们可以索引单一的PDF文件,通过指定自己的ID(DOC1),Solr中。 但我想很多索引PDF文件到Solr的一次。 让Solr的自动跟踪的ID。
请帮我。
使用此命令
curl '://localhost:8983/solr/update/extract?literal.id=doc1&commit=true' -F "myfile=@maven_tutorial.pdf"
我们可以索引单一的PDF文件,通过指定自己的ID(DOC1),Solr中。 但我想很多索引PDF文件到Solr的一次。 让Solr的自动跟踪的ID。
请帮我。
您可以使用UUID类型字段作为唯一键。 先定义的UUID字段类型
<fieldType name="uuid" class="solr.UUIDField" indexed="true" />
添加在schema.xml中的id字段
<field name="id" type="uuid" indexed="true" stored="true" multiValued="false"/>
使此字段作为唯一键
<uniqueKey>id</uniqueKey>
在solrconfig.xml中更新链autogenerating的ID
<updateRequestProcessorChain name="uuid">
<updateRequestProcessorChain name="uuid">
<processor class="solr.UUIDUpdateProcessorFactory">
<str name="fieldName">id</str>
</processor>
<processor class="solr.RunUpdateProcessorFactory" />
</updateRequestProcessorChain>
现在附上此更新链被提取从您提交到Solr的PDF文件中的内容的请求处理程序。
<requestHandler name="/update/extract"
startup="lazy"
class="solr.extraction.ExtractingRequestHandler" >
<lst name="defaults">
<str name="lowernames">true</str>
<str name="uprefix">ignored_</str>
<str name="captureAttr">true</str>
<str name="fmap.a">links</str>
<str name="fmap.div">ignored_</str>
<str name="update.chain">uuid</str>
</lst>