卡夫卡流星火流蟒蛇(Kafka Stream to Spark Stream python)

2019-09-29 04:27发布

我们有使用Avro的卡夫卡流。 我需要将其连接到星火流。 我用波纹管代码利摹建议。

kvs = KafkaUtils.createDirectStream(ssc, [topic], {"metadata.broker.list": brokers}, valueDecoder=MessageSerializer.decode_message) 

我有波纹错误,当我通过执行它火花提交。

2018年10月9日十时49分27秒WARN YarnSchedulerBackend $ YarnSchedulerEndpoint:66 - 请求驾驶员扫除执行部12对标记为失败原因集装箱:container_1537396420651_0008_01_000013主机:服务器名称。 退出状态:1.诊断:[2018年10月9日10:49:25.810]异常来自容器推出。 容器ID:container_1537396420651_0008_01_000013退出代码:1

[2018年10月9日10:49:25.810]

[2018年10月9日10:49:25.811]容器退出,非零退出代码1.错误的文件:prelaunch.err。 最后4096个字节prelaunch.err的:

最后4096个字节标准错误:

Java的热点(TM)64位服务器VM警告:信息:OS :: commit_memory(0x00000000d5580000,702545920,0)失败; 错误=“无法分配存储器”(错误= 12)

[2018年10月9日10:49:25.822]

[2018年10月9日10:49:25.822]容器退出,非零退出代码1.错误的文件:prelaunch.err。

最后4096个字节prelaunch.err的:最后4096个字节标准错误:

Java的热点(TM)64位服务器VM警告:信息:OS :: commit_memory(0x00000000d5580000,702545920,0)失败; 错误=“无法分配存储器”(错误= 12)

我用波纹管的命令。

spark-submit --master yarn --py-files ${BIG_DATA_LIBS}v3io-py.zip --packages org.apache.spark:spark-streaming-kafka-0-8_2.11:2.2.0 --jars ${BIG_DATA_LIBS}v3io-hcfs_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-object-dataframe_2.11.jar,${BIG_DATA_LIBS}v3io-spark2-streaming_2.11.jar ${APP_PATH}/${SCRIPT_PATH}/kafka_to_spark_stream.py

所有变量都是正确出口。 这是什么这个错误?

Answer 1:

难道你不上驱动器/执行人分配足够的内存来处理流?



文章来源: Kafka Stream to Spark Stream python