从本地HDFS当地SparkR加载数据(Loading data from on-premises - 码农岛

从本地HDFS当地SparkR加载数据(Loading data from on-premises

2019-11-04 02:40发布

站内文章 / 前端开发

33 0

放荡不羁爱自由

女 | 书童

私信

我试图从本地HDFS到R-Studio和SparkR加载数据。

当我这样做：

 df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
              source = "com.databricks.spark.csv")

然后这样的：

str(df_hadoop)

我得到这个：

Formal class 'DataFrame' [package "SparkR"] with 2 slots 
..@ env: <environment: 0x000000000xxxxxxx>  
..@ sdf:Class 'jobj' <environment: 0x000000000xxxxxx>

这不，但是我正在寻找的DF，因为有在CSV 13个领域我试图从HDFS加载。

我与CSV的13个领域的模式，但在哪里，我怎么告诉它SparkR？

Answer 1:

如果您尝试以下方法：

df <- createDataFrame(sqlContext,
                      data.frame(a=c(1,2,3),
                                 b=c(2,3,4),
                                 c=c(3,4,5)))

str(df)

你也得到

Formal class 'DataFrame' [package "SparkR"] with 2 slots
  ..@ env:<environment: 0x139235d18> 
  ..@ sdf:Class 'jobj' <environment: 0x139230e68>

STR（）不告诉你DF的表示，这是一个指针，而不是data.frame。而是只使用

df

要么

show(df)

文章来源: Loading data from on-premises hdfs to local SparkR

标签： hdfs sparkr

放荡不羁爱自由

女 | 书童

私信

收藏的人(0)

Ta的文章更多文章

0条评论

还没有人评论过~