类型错误转换熊猫数据帧星火数据帧中Pyspark(TypeError converting a Pa

2019-09-30 09:21发布

做我的研究,但没有找到这样的东西。 我想一个简单的转换pandas.DataFrame到火花数据框,如下所示:

df = pd.DataFrame({'col1': ['a', 'b', 'c'], 'col2': [1, 2, 3]})
sc_sql.createDataFrame(df, schema=df.columns.tolist()) 

我得到的错误是:

TypeError: Can not infer schema for type: <class 'str'>

我试过的东西更简单:

df = pd.DataFrame([1, 2, 3])
sc_sql.createDataFrame(df)

而我得到:

TypeError: Can not infer schema for type: <class 'numpy.int64'>

任何帮助吗? 难道需要手动指定架构或这样的吗?

sc_sqlpyspark.sql.SQLContext ,我在蟒蛇3.4 jupyter笔记本电脑,引发1.6。

谢谢!

Answer 1:

它关系到你的火花版本,火花的最新更新,使类型推断更加智能化。 您可以通过添加这样的模式有固定的这个:

mySchema = StructType([ StructField("col1", StringType(), True), StructField("col2", IntegerType(), True)])
sc_sql.createDataFrame(df,schema=mySchema)


文章来源: TypeError converting a Pandas Dataframe to Spark Dataframe in Pyspark