最近升级到2.0星火,并试图创建JSON字符串一个简单的数据集时,我看到一些奇怪的行为。 这里有一个简单的测试案例:
SparkSession spark = SparkSession.builder().appName("test").master("local[1]").getOrCreate();
JavaSparkContext sc = new JavaSparkContext(spark.sparkContext());
JavaRDD<String> rdd = sc.parallelize(Arrays.asList(
"{\"name\":\"tom\",\"title\":\"engineer\",\"roles\":[\"designer\",\"developer\"]}",
"{\"name\":\"jack\",\"title\":\"cto\",\"roles\":[\"designer\",\"manager\"]}"
));
JavaRDD<String> mappedRdd = rdd.map(json -> {
System.out.println("mapping json: " + json);
return json;
});
Dataset<Row> data = spark.read().json(mappedRdd);
data.show();
和输出:
mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
mapping json: {"name":"tom","title":"engineer","roles":["designer","developer"]}
mapping json: {"name":"jack","title":"cto","roles":["designer","manager"]}
+----+--------------------+--------+
|name| roles| title|
+----+--------------------+--------+
| tom|[designer, develo...|engineer|
|jack| [designer, manager]| cto|
+----+--------------------+--------+
看来,正在执行的“地图”功能的两倍,即使我只执行一个动作。 我认为,星火会懒洋洋地建立一个执行计划,需要的时候再执行它,但是这使得它看起来是为了读取数据,JSON和用它做任何事情,该计划将不得不至少两次执行。
在这个简单的例子没关系,但当地图功能是长时间运行,这将成为一个大问题。 这是正确的,还是我失去了一些东西?