我试图从本地HDFS到R-Studio和SparkR加载数据。
当我这样做:
df_hadoop <- read.df(sqlContext, "hdfs://xxx.xx.xxx.xxx:xxxx/user/lam/lamr_2014_09.csv",
source = "com.databricks.spark.csv")
然后这样的:
str(df_hadoop)
我得到这个:
Formal class 'DataFrame' [package "SparkR"] with 2 slots
..@ env: <environment: 0x000000000xxxxxxx>
..@ sdf:Class 'jobj' <environment: 0x000000000xxxxxx>
这不,但是我正在寻找的DF,因为有在CSV 13个领域我试图从HDFS加载。
我与CSV的13个领域的模式,但在哪里,我怎么告诉它SparkR?