我是新来的Apache Spark和试图利用机器学习库来预测一些数据。 我的数据集,现在只有约350点。 下面是这些点的7:
"365","4",41401.387,5330569
"364","3",51517.886,5946290
"363","2",55059.838,6097388
"362","1",43780.977,5304694
"361","7",46447.196,5471836
"360","6",50656.121,5849862
"359","5",44494.476,5460289
这里是我的代码:
def parsePoint(line):
split = map(sanitize, line.split(','))
rev = split.pop(-2)
return LabeledPoint(rev, split)
def sanitize(value):
return float(value.strip('"'))
parsedData = textFile.map(parsePoint)
model = LinearRegressionWithSGD.train(parsedData, iterations=10)
print model.predict(parsedData.first().features)
该预测是一些完全疯了,像-6.92840330273e+136
。 如果我不设置迭代train()
然后我得到nan
结果。 我究竟做错了什么? 这是我的数据集(它的大小,也许?)或我的配置?