使输入到解析器之前处理输入(Processing input before giving input

2019-10-23 03:15发布

什么样的处理应该做这是考虑到解析器的输入。

由于知道我在用的斯坦福parser.jar是,但也有斯坦福coreNLP.jar是什么parser.jar是和coreNLP.jar分析方法之间的区别

按照coreNLP文档,你可以通过操作你想做的事作为注释输入

命令:

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt

要使用解析在coreNLP我可以只传递解析或者我应该通过所有注释除了dcoref

如)

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file input.txt
                                      or
java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,pos,lemma,ner,parse,dcoref -file input.txt

请问parser.jar是有一句分裂建于它的jar

我可以给段作为输入,并获得句子及其解析数据出来

或者我应该只给了一句话,在一个时间
谢谢,

Answer 1:

所述CoreNLP注释可以被认为是一个依赖图。 解析器注释依赖于符号化( tokenize )和句子拆分( ssplit只)。 所以,你可以运行你的第一个命令解析器:

java -cp "*" -Xmx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -annotators tokenize,ssplit,parse -file input.txt

如果你知道你的文字是预先标记化,最容易做的事情是设置选项tokenize.whitespace = "true"在你的属性文件(或把它作为一个标志: -tokenize.whitespace )。 要只句子拆分在一行的末尾,你可以设置选项( ssplit.eolonly )。

但是,在默认情况下,是CoreNLP将令牌化和分裂你的句子你。 你可以只给在一堆文字,它将输出解析句子。



文章来源: Processing input before giving input to parser