拆分XDF文件/数据集进行训练和测试(splitting a XDF File / Dataset

2019-10-30 04:23发布

是否有可能在(微软RevoScaleR上下文)一个.xdf文件分割成一个比方说,75%的培训,25%的测试设置? 我知道有一个叫rxSplit()函数,但是,文档似乎并不适用于本案。 大多数在线的例子分配随机数到数据集的一列,并使用该列拆呢。

谢谢。 托马斯

Answer 1:

你当然可以使用rxSplit这一点。 创建一个定义你的训练和测试样本的变量,然后把它分割。

例如,使用mtcars玩具数据集:

xdf <- rxDataStep(mtcars, "mtcars.xdf")
xdfList <- rxSplit(xdf, splitByFactor="test",
    transforms=list(test=factor(runif(.rxNumRows) < 0.25, levels=c("FALSE", "TRUE"))))

xdfList现在是含有2个XDF数据源的列表:一种具有(约)中的数据的75%,和其他与25%。



Answer 2:

您可以使用rxDataStep从原来的XDF创建训练和测试数据集。 看看这个例子: https://docs.microsoft.com/en-us/r-server/r/how-to-revoscaler-linear-model

bigDataDir <- "C:/MRS/Data"
sampleAirData <- file.path(bigDataDir, "AirOnTime7Pct.xdf")
trainingDataFile <- "AirlineData06to07.xdf"
targetInfile <- "AirlineData08.xdf"

rxDataStep(sampleAirData, trainingDataFile, rowSelection = Year == 1999 |
    Year == 2000 | Year == 2001 | Year == 2002 | Year == 2003 |
    Year == 2004 | Year == 2005 | Year == 2006 | Year == 2007)
rxDataStep(sampleAirData, targetInfile, rowSelection = Year == 2008)


文章来源: splitting a XDF File / Dataset for training and testing
标签: r microsoft-r