增量索引Lucene的(incremental indexing lucene)

2019-09-19 09:49发布

我使用Lucene 3.6在Java中提出申请,并希望进行增量率。 我已经创建了索引,我读了你要做的就是打开现有的索引,并检查每个文件索引和文件的修改日期,看看他们的不同删除索引文件,然后再重新添加。 我的问题是我不知道该怎么做,在Java的Lucene的。

谢谢

我的代码是:

public static void main(String[] args) 
    throws CorruptIndexException, LockObtainFailedException,
           IOException {

    File docDir = new File("D:\\PRUEBASLUCENE");
    File indexDir = new File("C:\\PRUEBA");

    Directory fsDir = FSDirectory.open(indexDir);
    Analyzer an = new StandardAnalyzer(Version.LUCENE_36);
    IndexWriter indexWriter
        = new IndexWriter(fsDir,an,MaxFieldLength.UNLIMITED);


    long numChars = 0L;
    for (File f : docDir.listFiles()) {
        String fileName = f.getName();
        Document d = new Document();
        d.add(new Field("Name",fileName,
                        Store.YES,Index.NOT_ANALYZED));
        d.add(new Field("Path",f.getPath(),Store.YES,Index.ANALYZED));
        long tamano = f.length();
        d.add(new Field("Size",""+tamano,Store.YES,Index.ANALYZED));
        long fechalong = f.lastModified();
        d.add(new Field("Modification_Date",""+fechalong,Store.YES,Index.ANALYZED));
        indexWriter.addDocument(d);
    }

    indexWriter.optimize();
    indexWriter.close();
    int numDocs = indexWriter.numDocs();

    System.out.println("Index Directory=" + indexDir.getCanonicalPath());
    System.out.println("Doc Directory=" + docDir.getCanonicalPath());
    System.out.println("num docs=" + numDocs);
    System.out.println("num chars=" + numChars);

}


谢谢Edmondo1984,你帮助了我很多。

最后我做的代码如下所示。 存储文件的哈希值,然后检查修改日期。

在9300个索引文件需要15秒,并重新指数(没有任何指标并没有改变,因为没有文件)需要15秒。 我是不是做错了什么或者我可以优化代码,少取?


由于jtahlborn,做什么我设法平衡的IndexReader次创建和更新。 你是不是应该更新现有的指数应该是更快地重建呢? 是否有可能进一步优化的代码?

if(IndexReader.indexExists(dir))
            {
                //reader is a IndexReader and is passed as parameter to the function
                //searcher is a IndexSearcher and is passed as parameter to the function
                term = new Term("Hash",String.valueOf(file.hashCode()));
                Query termQuery = new TermQuery(term);
                TopDocs topDocs = searcher.search(termQuery,1);
                if(topDocs.totalHits==1)
                {
                    Document doc;
                    int docId,comparedate;
                    docId=topDocs.scoreDocs[0].doc;
                    doc=reader.document(docId);
                    String dateIndString=doc.get("Modification_date");
                    long dateIndLong=Long.parseLong(dateIndString);
                    Date date_ind=new Date(dateIndLong);
                    String dateFichString=DateTools.timeToString(file.lastModified(), DateTools.Resolution.MINUTE);
                    long dateFichLong=Long.parseLong(dateFichString);
                    Date date_fich=new Date(dateFichLong);
                    //Compare the two dates
                    comparedates=date_fich.compareTo(date_ind);
                    if(comparedate>=0)
                    {
                        if(comparedate==0)
                        {
                            //If comparation is 0 do nothing
                            flag=2;
                        }
                        else
                        {
                            //if comparation>0 updateDocument
                            flag=1;
                        }
                    }

Answer 1:

据Lucene的数据模型,您存储索引文件里面。 里面每个文档,你将有你想要索引的字段,这是所谓的“分析”,哪些不是域“分析”,在这里你可以存储一个时间戳和其他信息,您可能以后需要。

我有一种感觉,你有文件和文档之间有一定的混淆,因为在你的第一篇文章,谈谈文件,现在你正试图调用IndexFileNames.isDocStoreFile(file.getName()),它实际只告诉你,如果文件是包含文件Lucene索引。

如果你理解Lucene的对象模型,写你需要的代码需要大约三分钟:

  • 你有(由存储包含唯一标识符的非分析字段例如)通过简单地查询Lucene来检查是否在文档设置在索引已经存在。
  • 如果您的查询返回0的文件,你会在新的文档添加到索引
  • 如果您的查询返回1号文件,你会得到它的“时间戳”字段,并将它与您要存储新的文件之一。 然后你可以使用的docId的文档从索引中删除,如果必要的话,添加新的。

如果对方你一定要始终修改以前的值,你可以参考这个片段在行动Lucene的距离:

public void testUpdate() throws IOException { 
    assertEquals(1, getHitCount("city", "Amsterdam"));
    IndexWriter writer = getWriter();
    Document doc = new Document();
    doc.add(new Field("id", "1",
    Field.Store.YES,
    Field.Index.NOT_ANALYZED));
    doc.add(new Field("country", "Netherlands",
    Field.Store.YES,
    Field.Index.NO));
    doc.add(new Field("contents",
    "Den Haag has a lot of museums",
    Field.Store.NO,
    Field.Index.ANALYZED));
    doc.add(new Field("city", "Den Haag",
    Field.Store.YES,
    Field.Index.ANALYZED));
    writer.updateDocument(new Term("id", "1"),
    doc);
    writer.close();
    assertEquals(0, getHitCount("city", "Amsterdam"));
    assertEquals(1, getHitCount("city", "Den Haag"));
}

正如你看到的,片断使用解析中的ID,因为我是在暗示,以节省可查询的非 - 简单的属性和方法updateDocument先删除然后重新添加文档。

您可能要直接检查的javadoc在

http://lucene.apache.org/core/3_6_0/api/all/org/apache/lucene/index/IndexWriter.html#updateDocument(org.apache.lucene.index.Term,org.apache.lucene.document。文件 )



文章来源: incremental indexing lucene