如何低成本地搭建 hadoop、spark 等大数据集群学习 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
einvince
V2EX    Hadoop

如何低成本地搭建 hadoop、spark 等大数据集群学习

  •  
  •   einvince 2018-04-18 10:20:06 +08:00 7928 次点击
    这是一个创建于 2734 天前的主题,其中的信息可能已经有所发展或是发生改变。
    买了两个腾讯云等 1G1 核,发现跑不起来,默认配置太高,调来调去 demo 都 run 不起来
    28 条回复    2019-05-28 08:39:09 +08:00
    defunct9
        1
    defunct9  
       2018-04-18 10:32:18 +08:00
    跑不起来的,自己找台机器,用 vagrant 来吧
    user919lx
        2
    user919lx  
       2018-04-18 10:34:50 +08:00
    建议自己买一台高配置电脑,开多个虚拟机。同样可以达到模拟集群的效果。
    abmin521
        3
    abmin521  
       2018-04-18 10:45:32 +08:00
    建议自己买一台高配置电脑,开多个 Docker。同样可以达到模拟集群的效果。
    einvince
        4
    einvince  
    OP
       2018-04-18 10:46:10 +08:00
    @defunct9 @user919lx 得几核几 G 得机器
    defunct9
        5
    defunct9  
       2018-04-18 10:54:55 +08:00
    我是用服务器,40 核,128G 内存,4T 盘
    xenme
        6
    xenme  
       2018-04-18 10:55:08 +08:00
    去搜 X79,单路或者多路吧。性能高还便宜。
    defunct9
        7
    defunct9  
       2018-04-18 10:56:21 +08:00
    不用 docker 的理由,vagrant 是 kvm,跟真实环境一样,docker 是半虚拟,还略有不同
    真实环境的的应该全是实机,集群大概 600 台,要考虑的也很多(从运维方面)
    depress
        8
    depress  
       2018-04-18 11:14:35 +08:00
    我自己电脑 i7+20G 内存+500G 硬盘,开 4 个虚拟机刚好,你自己看吧...
    whatsmyip
        9
    whatsmyip  
       2018-04-18 11:20:35 +08:00   1
    Spark 可以上 databricks,免费 6G,但是需要信用卡

    Hadoop 的环境,可以去撸 Google cloud 的羊毛,学完以后也就用不到了,同样需要信用卡

    如果没有信用卡,楼主大概是学生吧,可以联系实验室,进组学习,集群资源还是有的
    einvince
        10
    einvince  
    OP
       2018-04-18 11:37:52 +08:00
    @defunct9 厉害了,老哥,多谢分享
    einvince
        11
    einvince  
    OP
       2018-04-18 11:38:27 +08:00
    @whatsmyip Google cloud 等机器配置够吗
    einvince
        12
    einvince  
    OP
       2018-04-18 11:52:05 +08:00
    @whatsmyip 注册了个 databricks,貌似很猛等样子
    cyspy
        13
    cyspy  
       2018-04-18 12:37:14 +08:00 via Android
    docker
    abmin521
        14
    abmin521  
       2018-04-18 15:08:35 +08:00 via Android
    @defunct9 知乎 狗东的 hbase 都在 docker 上 他们都没有考虑到吗。。。
    bbx
        15
    bbx  
       2018-04-18 15:43:00 +08:00
    @defunct9 本地的 docker 就行。这年头还有 barebone machine 上直接跑的? 600 个 node 不 mesos 之类的不得烦死
    bbx
        16
    bbx  
       2018-04-18 15:46:43 +08:00
    话说 spark 本地 docker compose,一个 master,一个 slave。简单到不行,google 一下估计一大堆 docker 现成的
    帮你找了一个,我自己没试,不过应该问题不大
    https://github.com/gettyimages/docker-spark
    MonoLogueChi
        17
    MonoLogueChi  
       2018-04-18 15:53:17 +08:00 via Android
    你是实际生产还是只是用来学习,我前两天开了三个虚拟机搭了一个 Hadoop 和 spark,在我电脑上跑跑还行,但是 spark 负载搞了主机就会炸。后来我把虚拟机导出到我同学电脑上,在他那三台虚拟机刚开机,主机就已经卡得不行了。
    所以说,自己想真正跑起来的话,自己花点钱去买两台实体机,或者是收点二手洋垃圾试试看吧
    yuanfnadi
        18
    yuanfnadi  
       2018-04-18 15:55:11 +08:00
    @einvince 按量付费的机器。选择竞价类型。大约 1 毛一小一台。
    10 台机器价格为 1 元 1 小时。
    顺便可以学习一下批量机器运维。
    owenliang
        19
    owenliang  
       2018-04-18 15:55:30 +08:00
    玩的话为什么不在自己笔记本上跑。。
    yuanfnadi
        20
    yuanfnadi  
       2018-04-18 16:01:17 +08:00   2
    阿里云 ecs.c5.large 2 核 4g 的 机器竞价 目前价格 ¥ 0.16 /时
    自己先买一台。配好环境之后保存成自定义镜像。使用 弹性伸缩 配置好一次开启 10 台和关闭 10 台 使用之前自定义的镜像。
    随用随开,成本超低。
    einvince
        21
    einvince  
    OP
       2018-04-18 17:05:45 +08:00
    @bbx 谢谢,但现在的主要矛盾是机器 CPU 和内存资源有限
    @yuanfnadi 老哥,你这方法有点 6,发现新大陆了,就这么搞
    startar
        22
    startar  
       2018-04-18 17:18:50 +08:00 via Android   1
    学习的话,不用搭集群,搭伪分布式模式的 hadoop 就行了,毕竟你的关注点在于在于大数据处理,而不是主备高可用之类的工程问题。我家里的 4 核 16G 机器跑得很 ok。
    startar
        23
    startar  
       2018-04-18 17:44:31 +08:00 via Android
    而且不建议用云主机。。还是太贵。自己配一台就是了。内存要尽可能大,其他无所谓
    bbx
        24
    bbx  
       2018-04-18 17:53:39 +08:00
    @einvince 目前好点的笔记本 4core 16Gb 外加 ssd 比便宜的所谓的云主机好不知道哪去。百万数据或者几个 G 左右的一台笔记本差不多就行了
    gabon
        25
    gabon  
       2018-04-18 18:48:46 +08:00 via Android
    1 核 1g。。
    yjd
        26
    yjd  
       2018-04-18 19:30:23 +08:00 via Android
    淘宝买台二手服务器。便宜
    einvince
        27
    einvince  
    OP
       2018-04-18 19:58:04 +08:00
    @yjd 666,好便宜
    autogen
        28
    autogen  
       2019-05-28 08:39:09 +08:00
    淘宝搜 X79 服务器(16 核 32 线程,64G 内存,整机 3000 元左右)或者 X58 服务器(12 核 /24 线程,48G 内存,整机 1000 元左右)
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2716 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 08:49 PVG 16:49 LAX 01:49 JFK 04:49
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86