扩展Endeca的读音符号映射折(Extend Endeca's diacritic fol

2019-09-28 16:04发布

我们有一个ATG-的Endeca应用混合希腊语,英语数据的索引。 希腊索引数据有口音的话。 如果搜索条件是没有不匹配任何数据口音(或者他们对autoccorection,对于性格发生无重音字符的任意不等阶调匹配,原因,这是不期望的功能)。 Dgidx标志--diacritic折叠配置不包括映射希caracters( https://docs.oracle.com/cd/E29584_01/webhelp/mdex_basicDev/src/rbdv_chars_mapping.html )。

是否有可能延长本OOB功能,想到了一个性质的Endeca侧或nucleous或代码文件?

Answer 1:

在文档中,你提供它指出:

Dgidx索引期间支持映射Latin1的,拉丁语扩展A,和Windows CP1252国际字符其简单的ASCII码值。

这表明,希腊是不支持,因为它不属于任何这些字符集(我相信希腊是拉丁语-7)。 这就是说,你可以尝试在创纪录的水平设置语言标志(因为你表明你的数据包括英语和希腊语),假设每个语言都有自己的记录,或者尝试使用,以实现一个全球性的语言dgidxdgraph参数,但此会影响像全球语言所产生的记录或性能不能的事情。

dgidx --lang el
dgraph --lang el

虽然我不知道它会在原有基础上发言工作。

另外,您也可以实现使用自定义的音调符号去除的过程中Accessor ,它扩展了atg.repository.search.indexing.PropertyAccessorImpl类(因为你是指一个选项Nucleus ,所以我假设你正在使用ATG /甲骨文商务部)。 使用这个你指定一个标准化的搜索领域中的索引复制了搜索领域在当前的指数,但现在去掉所有附加符号。 您在运用同样的逻辑Accessor然后需要,让您标准化输入相匹配的索引值,您的搜索字词作为预处理应用。 最后做索引(与突出字符)你原来的领域只显示和标准化领域的搜索(但不显示出来)。

结果将符合标准化文本,但缺点是,你有重复数据,使你的指数将更大。 不是一个大问题与小数据集。 也有可能是就如何开箱即用的功能,如词干,用标准化的数据集的行为产生影响。 你必须做一些测试,在希腊文和英文的各种情况,看是否准确率和召回受到不利影响。



文章来源: Extend Endeca's diacritic folding mapping