还有就是要提供给PTBTokenizer一组的分隔符字符分割令牌的方式吗?
我测试此标记生成的行为,我已经意识到,有喜欢竖线一些字符“|” 对于该标记生成器diviedes一个子成两个令牌,以及其他类似的斜杠或连字符为其标记生成器返回单个令牌。
还有就是要提供给PTBTokenizer一组的分隔符字符分割令牌的方式吗?
我测试此标记生成的行为,我已经意识到,有喜欢竖线一些字符“|” 对于该标记生成器diviedes一个子成两个令牌,以及其他类似的斜杠或连字符为其标记生成器返回单个令牌。
有没有什么简单的办法与PTBTokenizer要做到这一点,没有。 你可以做一些预处理和后处理,以得到你想要的东西,但也有两个问题值得一提:
(有关于定制撇号标记化行为类似的问题: 斯坦福coreNLP -分词忽略撇号 )。