如何通过编码器参数数据帧的方法,如(How to pass Encoder as parameter

2019-09-29 19:07发布

我想通过使用不同的情况下类数据帧转换为数据集。 现在,我的代码如下图所示。

case Class Views(views: Double)
case Class Clicks(clicks: Double)

def convertViewsDFtoDS(df: DataFrame){
    df.as[Views]
}

def convertClicksDFtoDS(df: DataFrame){
    df.as[Clicks]
}

所以,我的问题是“反正我有可以通过案例类使用一个通用功能,这是额外的参数,这个功能吗?”

Answer 1:

这似乎有点过时了( as方法不正是你想要的),但你可以

import org.apache.spark.sql.{Encoder, Dataset, DataFrame}

def convertTo[T : Encoder](df: DataFrame): Dataset[T] = df.as[T]

要么

def convertTo[T](df: DataFrame)(implicit enc: Encoder[T]): Dataset[T] = df.as[T]

这两种方法是等效的,准确地表达同样的事情(隐式的存在Encoder一类T )。

如果你想避免隐含参数,你可以使用显式Encoder一路下滑:

def convertTo[T](df: DataFrame, enc: Encoder[T]): Dataset[T] = df.as[T](enc)

convertTo(df, encoderFor[Clicks])


文章来源: How to pass Encoder as parameter to dataframe's as method