-->

faliure在阅读的训练数据:tagger.cpp(393)CRF ++(faliure in r

2019-10-29 05:50发布

虽然我对我的训练数据运行CRF ++(train.txt)我已经得到了follwoing错误

C:\Users\2012\Desktop\CRF_Software_Package\CRF++-0.58>crf_learn template train.d
ata model
CRF++: Yet Another CRF Tool Kit
Copyright (C) 2005-2013 Taku Kudo, All rights reserved.

reading training data: tagger.cpp(393) [feature_index_->buildFeatures(this)]
0.00 s

我的训练数据包含Unicode字符和数据使用记事本保存(编码= Unicode的印度大型)

我不知道如果与模​​板或与训练数据的格式问题。 如何检查训练数据的格式?

Answer 1:

我想这是因为你的模板文件。 请检查您是否已经包括在最后一列是黄金标准培训功能。 列索引从0开始,例如,如果你在你的BIO文件6列。 模板不应该有这样的事情%×[0,5]



Answer 2:

问题是与模板文件查看功能不正确的“语法”,即U10:%×[-1,0] /%[0,0]

你知道,第二个%后存在丢失的“X”的修正线应如下U10的一个:%×[-1,0] /%×[0,0]



Answer 3:

我有同样的问题,文件是UTF-8,和模板文件和培训文件是绝对正确的格式。 原因是CRFPP预计在输入文件最1024列。 它是否会在这种情况下,输出相应的错误消息将是巨大的。



Answer 4:

这个问题是不是与Unicode编码,但模板文件。

看看这个类似问: 在使用CRF + 0.58火车NE模型失败



文章来源: faliure in reading training data: tagger.cpp (393) CRF++
标签: c++ crf++