我是新来的Solr。 通过阅读Solr的维基,我不明白WhitespaceTokenizerFactory和StandardTokenizerFactory之间的差异。 什么是他们真正的区别?
Answer 1:
它们在如何分割分析文本标记不同。
该StandardTokenizer这是否基于以下(从Lucene的javadoc中获取):
- 在标点符号拆分的话,除去标点符号。 然而,这不是跟空格点被认为是标记的一部分。
- 在连字符分割的话,除非有一些令牌,在这种情况下,整个令牌被解释为产品编号,而不是分裂。
- 确认电子邮件地址和主机名互联网作为一个令牌。
该WhitespaceTokenizer做此基础上的空白字符:
一个WhitespaceTokenizer是,在空白划分文本标记生成器。 的非空白字符相邻的序列形成的标记。
你应该选择最适合你的应用程序标记生成器。 在任何情况下,你必须使用相同的分析仪/断词索引和搜索!
文章来源: Difference between WhitespaceTokenizerFactory and StandardTokenizerFactory