【机器学习】如何提高正确率?

2020-08-19 12:05发布

有下面一些数据:
・机器的日志文件:已经经过人工筛选出出现故障时前1小时至后2小时内的日志文件。

步骤如下:
mecab进行分词
统计每个日志中各个词汇出现的次数,大于50次的话取出来
删除一些不重要的词汇(即使出现次数大于50次也删除)
强制取出一些重要词汇(即使出现次数小于50次也取出)
Doc2Vec进行向量化(以日志为单位)并生成模型,然后用SVM进行预测

经过以上步骤之后,用leave-one-out进行交叉验证
发现正确率只有50%~60%。
有什么其他方法可以提高正确率吗?希望大家可以畅所欲言!

标签:
1条回答
走好不送
2楼-- · 2020-08-19 12:46
  1. 删除少数偏离方差大的数?
  2. 通过正则化防止过拟合?
查看更多
登录 后发表回答