关注此问题拆分出一个大文件 。
我想管从亚马逊呼叫s3://
含有大量gzip文件,对它们进行处理桶的awk命令。
示例文件过程
...
{"captureTime": "1534303617.738","ua": "..."}
...
脚本优化
aws s3 cp s3://path/to/file.gz - \
| gzip -d \
| awk -F'"' '{date=strftime("%Y%m%d%H",$4); print > "splitted."date }'
gzip splitted.*
# make some visual checks here before copying to S3
aws s3 cp splitted.*.gz s3://path/to/splitted/
你觉得我可以包装在同一管道所能避免本地写入文件?
我可以用使用gzip压缩的文件与AWS命令转移到能够gzip和复制的飞行,但里面的awk gzip压缩将是巨大的。
谢谢。