索引维基百科转储使用Solr(Indexing wikipedia dump with solr)

2019-09-03 18:20发布

我安装我的机器上的Solr 3.6.2,使用Tomcat运行完美。 我使用的Solr要索引维基百科转储文件。 如何做到这一点使用DataImportHandler? 任何其他办法吗? 我没有任何XML知识。

提取时,我所提到的文件有大约45GB大小。 任何帮助将不胜感激。

最新的DataImportHandler页面上说,最新情况:我想这样做。 但是,有一些错误,也许是因为他们的Solr的版本是老得多。

我data.config-

<dataConfig>
    <dataSource type="FileDataSource" encoding="UTF-8" />
    <document>
    <entity name="page"
            processor="XPathEntityProcessor"
            stream="true"
            forEach="/mediawiki/page/"
            url="./data/enwiki.xml"
            transformer="RegexTransformer,DateFormatTransformer"
            >
        <field column="id"        xpath="/mediawiki/page/id" />
        <field column="title"     xpath="/mediawiki/page/title" />
        <field column="revision"  xpath="/mediawiki/page/revision/id" />
        <field column="user"      xpath="/mediawiki/page/revision/contributor/username" />
        <field column="userId"    xpath="/mediawiki/page/revision/contributor/id" />
        <field column="text"      xpath="/mediawiki/page/revision/text" />
        <field column="timestamp" xpath="/mediawiki/page/revision/timestamp" dateTimeFormat="yyyy-MM-dd'T'hh:mm:ss'Z'" />
        <field column="$skipDoc"  regex="^#REDIRECT .*" replaceWith="true" sourceColName="text"/>
   </entity>
    </document>

架构(我只是说,他们在网站上给我的Schema.xml文件的部分)

我得到的错误是 -

<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
</lst>
<lst name="initArgs">
<lst name="defaults">
<str name="config">solr-data-config.xml</str>
</lst>
</lst>
<str name="command">full-import</str>
<str name="status">idle</str>
<str name="importResponse"/>
<lst name="statusMessages">
<str name="Time Elapsed">0:0:1.381</str>
<str name="Total Requests made to DataSource">0</str>
<str name="Total Rows Fetched">0</str>
<str name="Total Documents Processed">0</str>
<str name="Total Documents Skipped">0</str>
<str name="">Indexing failed. Rolled back all changes.</str>
<str name="Rolledback">2013-05-17 16:48:32</str>
</lst>
<str name="WARNING">
This response format is experimental. It is likely to change in the future.
</str>
</response>

请帮忙

Answer 1:

简单的帖子是不是指数维基百科的正确途径。 你需要考虑使用DataImportHandler代替 。 DIH支持流进口。



文章来源: Indexing wikipedia dump with solr