
1 wellsc 2017-02-24 16:22:19 +08:00 pandas 就够了 |
2 xiaoye 2017-02-24 16:27:26 +08:00 中间不要把文件落地,直接 reduce. |
3 qfdk PRO 我是 scala 党 思路是这样的 你把你的大文件分割成 10 分 开十个机器 这样去读速度会快很多 |
4 guolingbing OP @wellsc 本来我觉得也是啊,奈何这关系到一个课程作业... |
5 guolingbing OP @xiaoye 中间结果必须要存的,因为将来要反复 reduce 这些东西,类似搜索,我的担心是存 mongodb 里是不是对 spark 的性能有很大影响 |
6 guolingbing OP @qfdk 好的,我再看看 spark 的 dataframe~看能不能把中间结果用它的 df 存 |
7 wh0syourda66y 2017-02-24 16:39:35 +08:00 少年,这些我都用过,没有什么复杂的数据结构是 spark dataframe 或者 spark-sql 处理不了的 |
8 xiaoye 2017-02-24 16:40:32 +08:00 开始的是时候,把文件上传到 HDFS 。比较简单的办法是把「中间结果」 encode 一下,存到 HDFS 。 二次读取完了直接 decode 一下,然后处理就好了。 |
9 qfdk PRO @guolingbing 反正中间就是 df 然后随便转换就行读文件耗时 中间网络传输也是瓶颈 |
10 miaoever 2017-02-24 16:41:03 +08:00 中间为什么要手动存呢,如果你想保存中间结果,不是用 spark 的 cache 比较好么? |
11 guolingbing OP @wh0syourda66y 我也很想用啊,也很苦恼 |
12 guolingbing OP @xiaoye 嗯,我也是这样想的 |
13 guolingbing OP @miaoever spark 新手,我也很苦恼的,存 mongodb 的方便在于其他地方要调用这些比较方便, |
14 guolingbing OP @qfdk 感觉 pyspark 的文档有些复杂,虽然感觉也能草草用用,但总感觉不靠谱 |
15 likuku 2017-02-24 17:01:12 +08:00 反复存取, mongodb 小心耗尽硬盘 |
16 qfdk PRO @guolingbing 是的 所以用的 Scala 版本 另外可以考虑用 zeppelin 进行数据分析 |
17 mind3x 2017-02-25 00:03:50 +08:00 业界人士建议,如果一定要存中间结果,存成 parquet 。 |