WhitespaceTokenizerFactory和StandardTokenizerFactor

2019-07-30 02:44发布

我是新来的Solr。 通过阅读Solr的维基,我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的差异。 什么是他们真正的区别?

Answer 1:

它们在如何分割分析文本标记不同。

StandardTokenizer这是否基于以下(从Lucene的javadoc中获取):

  • 在标点符号拆分的话,除去标点符号。 然而,这不是跟空格点被认为是标记的一部分。
  • 在连字符分割的话,除非有一些令牌,在这种情况下,整个令牌被解释为产品编号,而不是分裂。
  • 确认电子邮件地址和主机名互联网作为一个令牌。

WhitespaceTokenizer做此基础上的空白字符:

一个WhitespaceTokenizer是,在空白划分文本标记生成器。 的非空白字符相邻的序列形成的标记。

你应该选择最适合你的应用程序标记生成器。 在任何情况下,你必须使用相同的分析仪/断词索引和搜索!



文章来源: Difference between WhitespaceTokenizerFactory and StandardTokenizerFactory
标签: solr tokenize