HDP 2.4，使用水槽如何收集的Hadoop MapReduce的日志在一个文件中，什么是最好的做

2019-11-04 16:26发布

我们正在使用HDP 2.4，并有许多地图减少写入以不同的方式（java的MR /蜂巢/等）的工作。日志应用程序ID下是在Hadoop中的文件系统中采集。我想收集应用程序的所有日志和单个文件（一台机器的HDFS或操作系统文件），附加这样我就可以分析我的应用程序日志在一个位置用了麻烦。还建议我最好的方式HDP达到2.4（堆栈版本信息=> HDFS 2.7.1.2.4 /纱2.7.1.2.4 / MapReduce2 2.7.1.2.4 /日志搜索0.5.0 /水槽1.5.2.2.4 ）。

Answer 1:

水槽无法收集日志他们已经在HDFS之后。

为了做到这一点，需要对所有NodeManagers运行的水槽剂指着配置yarn.log.dir ，并以某种方式解析出与本地操作系统文件路径的应用程序/集装箱/企图/文件信息。

我不知道收集成“单一文件”如何将工作，因为每个容器产生不同的信息至少5个文件，但YARN日志聚合已经这样做了。它只是没有在HDFS一个可读的文件格式，除非你正在使用的Splunk /大块，据我所知

替代方案包括索引这些文件到像Solr的或Elasticsearch，我会建议在HDFS存储和搜索日志实际搜索服务

文章来源: HDP 2.4, How to collect hadoop mapreduce log using flume in one file and what is the best practice