从本地HDFS当地SparkR加载数据(Loading data from on-premises

2019-11-04 02:40发布

我试图从本地HDFS到R-Studio和SparkR加载数据。

当我这样做:

 df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
              source = "com.databricks.spark.csv")

然后这样的:

str(df_hadoop)

我得到这个:

Formal class 'DataFrame' [package "SparkR"] with 2 slots 
..@ env: <environment: 0x000000000xxxxxxx>  
..@ sdf:Class 'jobj' <environment: 0x000000000xxxxxx>  

这不,但是我正在寻找的DF,因为有在CSV 13个领域我试图从HDFS加载。

我与CSV的13个领域的模式,但在哪里,我怎么告诉它SparkR?

Answer 1:

如果您尝试以下方法:

df <- createDataFrame(sqlContext,
                      data.frame(a=c(1,2,3),
                                 b=c(2,3,4),
                                 c=c(3,4,5)))

str(df)

你也得到

Formal class 'DataFrame' [package "SparkR"] with 2 slots
  ..@ env:<environment: 0x139235d18> 
  ..@ sdf:Class 'jobj' <environment: 0x139230e68> 

STR()不告诉你DF的表示,这是一个指针,而不是data.frame。 而是只使用

df

要么

show(df)


文章来源: Loading data from on-premises hdfs to local SparkR
标签: hdfs sparkr