斯坦福PTBTokenizer令牌的分隔符分割(Stanford PTBTokenizer toke

2019-10-29 07:08发布

还有就是要提供给PTBTokenizer一组的分隔符字符分割令牌的方式吗?

我测试此标记生成的行为,我已经意识到,有喜欢竖线一些字符“|” 对于该标记生成器diviedes一个子成两个令牌,以及其他类似的斜杠或连字符为其标记生成器返回单个令牌。

Answer 1:

有没有什么简单的办法与PTBTokenizer要做到这一点,没有。 你可以做一些预处理和后处理,以得到你想要的东西,但也有两个问题值得一提:

  1. 与CoreNLP分布式所有型号均接受了有关标准分词器的行为。 如果更改了输入这些后来组件如何是记号化,但也不能保证,这些组件将可预测工作。
  2. 如果你够预处理和后处理(且不应使用在#1提到以后的任何组件),它可以更简单,只是偷了PTBTokenizer执行 ,写自己。

(有关于定制撇号标记化行为类似的问题: 斯坦福coreNLP -分词忽略撇号 )。



文章来源: Stanford PTBTokenizer token's split delimiter