公司要做个数仓,单机 hadoop 是否没什么意义,但是又想自己动手做一下。求给建议! - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
yellowmarlboro
V2EX    Hadoop

公司要做个数仓,单机 hadoop 是否没什么意义,但是又想自己动手做一下。求给建议!

  •  
  •   yellowmarlboro 2020-05-25 18:10:11 +08:00 3884 次点击
    这是一个创建于 1965 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    • 在之前公司轻微接触过 hive,es 等(之前公司是分布式,机器还不少),不过本职是抓数据入 kafka 以及部分从 MySQL,MongoDB 之类的数据库做数据处理,一般只是给研究部门用。所以对于数仓之类的操作也只是见同事用,自己操作次数为个位数,各种工具的概念也只是一知半解,我觉得这样的就称之为不会。

    • 现公司是传统公司,在一个互联网部门,并且各种氛围个人觉得较老套,技术流程什么的相对不那么'互联网'(不过好处就是项目不那么着急,准时上下班)。所以整个公司就只有一台 linux 服务器(都用 Windows 服务器),还是我申请来的..不过没那么重要了,有的 linux 用就很满足了(来之后一直在用 windows,还不是特别习惯)。

    需求

    • 领导想要把公司各个业务的数据汇一起,做个数据仓库,短期需求就是各个业务部门从这里取数据,只取历史速度要求不高。长期希望做一些大数据应用。

    • 数据量的话,目前业务大多使用 sqlserver 和 oracle,也没什么问题(明天问一下 dba )。大概不是很大。

    想法和问题

    • 想自己动手搭起来但是苦于几个问题:

      1.有无必要用 hadoop 生态的东西,而且是单机,没必要的话我也想自己试着动手(反正项目也不急,而且之前的工作太简单了,觉得太无聊了。项目用什么技术领导也不懂也无所谓),或者有没有其他的工具?

      2.一直主要用 python,java 只知皮毛,当然能借此学 java 进步一下也可。但是有没有 python 比较紧密的工具?

    总之就是想用这个机会学习动手点新东西而且做好,但是这个架构什么的对我来说还是比较难,所以想得到各位大佬的建议

    8 条回复    2020-05-26 11:45:00 +08:00
    xcstream
        1
    xcstream  
       2020-05-25 19:14:11 +08:00
    玩玩可以, 单机随便装个数据库都差不多
    MinQ
        2
    MinQ  
       2020-05-25 19:22:40 +08:00
    玩玩可以+1,但是现实意义不大。大数据也是一样,挺多公司都想搞大数据的,结果不是数据量少得可怜,就是数据量少得可怜的同时质量也不行,各种缺项。再说 sql server 啥的一样搞大数据啊,python 找个 driver 登上去取数据导入到 pandas 里就是了
    VoidChen
        3
    VoidChen  
       2020-05-25 19:23:21 +08:00
    单机意义不大。。而且数仓是一整套的东西,不是说把数据丢进去就算了。。我觉得你们要是只是一个历史数据存放而已,hdfs 直接放格式化的文件就可以了。还是那句话,hadoop 最少还是给 3 台吧
    diggzhang
        4
    diggzhang  
       2020-05-25 19:31:15 +08:00
    可以从 clickhouse 或 greenplum 开始?轻量搞起来试错。
    limbo0
        5
    limbo0  
       2020-05-26 02:52:53 +08:00 via iPhone
    意义确实不大,单机还不如在自己机器上搭建呢
    est
        6
    est  
       2020-05-26 10:33:23 +08:00
    单机 hadoop 性能不如直接 grep 吧。
    yellowmarlboro
        7
    yellowmarlboro  
    OP
       2020-05-26 11:16:37 +08:00
    @xcstream @MinQ 我也是想试一下,但是又担心跑在( 8g,机械盘)上边会慢的要死。不知道多大数据量会多大速度
    MinQ
        8
    MinQ  
       2020-05-26 11:45:00 +08:00
    @yellowmarlboro 我估计跟 SQL Server 查询速度差不多?不过我也是用的公司集群,自己电脑上只是小数据量做测试用的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2287 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 00:22 PVG 08:22 LAX 17:22 JFK 20:22
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86