数据格式都是 gzip 压缩,都没法切分,只能一个线程读一个文件,很多时候小文件早就处理完了,但大文件会非常慢。有没有什么好的办法可以让 gzip 变得 splittable
1 alya 2020-03-11 15:13:13 +08:00 换 snappy |
![]() | 2 kex0916 2020-03-12 09:33:25 +08:00 可以先将大文件解压缩后放到 hdfs 上后再做计算,或者可以试试 https://github.com/nielsbasjes/splittablegzip 这种 |