在Solr的词频(Word frequency in Solr)

2019-07-02 09:14发布

我试图让使用Solr的话的频率。 当我给这个查询:

localSolr/solr/select?q=someQuery&rows=0&facet=true&facet.field=content&wt=xml

Solr的给我的频率一样;

<lst name="facet_counts">
<lst name="facet_queries"/>
<lst name="facet_fields">
<lst name="content">
<int name="word1">24</int>
<int name="word2">12</int>
<int name="word3">8</int>

但是,当我算的话; 我发现,单词2的实际计数为13 Solr的计算领域的一个同样的话。

例如;

字段文本组成; word2 word5 word7 word9 word2 。 Solr的不返回单词2的计数2而是返回1.为WORD2下面的两个句子的计数返回1;

word2 word10 word11 word12
word2 word9 word7 word2 word23

所以频率返回错误。 我已签小领域,但没有找到该适当的参数。 如何解决它,这样它在句子计数同样的话?

编辑:schema.xml中的相关部分:

<fieldType name="text_tr" class="solr.TextField" positionIncrementGap="100">
    <field name="content" type="text_tr" stored="true" indexed="true" multiValued="true"/>
    <copyField source="content" dest="text"/>
    <field name="text" type="text_tr" stored="false" indexed="true" multiValued="true"/>

Answer 1:

如果你是小面在球场上是多值,然后在小的每个字词都有适当数量

我忘了提一两件事: 期限矢量分量 ,你需要会得到你

在查询中,tv.tf会给你每个术语的词频,而tv.fl告诉SOLR了哪些字段的频率应计算

NB这使得你的索引时间比现在更慢(又名:你也来试试吧)



Answer 2:

使用卢克请求处理程序

http://localhost:8983/solr/admin/luke?fl=YOUR_TEXT_FIELD&numTerms=500

更多信息: http://wiki.apache.org/solr/LukeRequestHandler



文章来源: Word frequency in Solr