
需求是这样的,目前在处理一个 100G 的数据库。出于简单考虑,我是一次性把数据载入内存做计算,处理本是 python 写的。手头有一台 windows 服务器,内存 128G ,运行起来内存爆了。另外还有一个 spark 集群,由 4 台 128G 内存的服务器组成。由于对 spark 不是很了解,想请教一下大家:
我可以用这台 spark 集群运行我的纯 python 脚本么?还是必须改用 spark 的 API?
如果可以,可以利用到集群的全部内存,从而解决内存爆表的问题么?
1 Garantion 2016 年 8 月 28 日 |
2 chuan 2016 年 8 月 28 日 pyspark 里不用 spark 相关的东西完全可以 |
3 BUPTGuo 2016 年 8 月 28 日 可以直接用。但是感觉并不能解决内存爆了的问题吧?? 没有用 spark 或者其他并行计算框架,它就只能把你当成一个计算程序来算,没有办法拆分开分布式运行。计算的时候还是需要那么多的内存啊 |
4 ooonme 2016 年 8 月 28 日 via iPhone 必须用 spark api ,建议楼主先看下 spark 相关的内容吧 |
5 iEverX 2016 年 8 月 28 日 不用 spark 的 api ,怎么分布式用集群?和自己运行一个脚本没区别啊 |
6 mengzhuo 2016 年 8 月 29 日 via iPhone 必须是 pyspark 的接口 不过可以各种上传依赖库啊 |
7 ligyxy 2016 年 8 月 29 日 via Android 默认设置下 Spark 会使用资源 70% 的内存 |
8 ligyxy 2016 年 8 月 29 日 via Android * 最多 |
9 jyf 2016 年 8 月 29 日 可以啊 pyspark 么 就是许多 api 一看支持都有 再仔细一看都是 java 才支持 你还是看看 spark streaming 吧 按你这玩法 内存再大也不够 |