适用于小团队的数据平台、数据仓库解决方案? - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cqcn1991
V2EX    问与答

适用于小团队的数据平台、数据仓库解决方案?

  •  
  •   cqcn1991 2019-03-09 12:31:01 +08:00 4346 次点击
    这是一个创建于 2409 天前的主题,其中的信息可能已经有所发展或是发生改变。

    目前在做数据平台方面的工作,发现对大公司而言,方案其实都很固定了

    但对于小团队来说,有什么好的解决方案?

    早期主要是用来解决 BI,数据查询需求,可支持或不支持基于数据的机器学习项目

    • 最好基于开源、免费
    • HDFS, Spark, 系统资源最好能有厂商维护, 因为这些其实运维成本都不小

    目前能想到的

    • Google Analytics/Mixpanel 埋点 + 业务数据库备份用 Metabase/Superset 查看

    但不知道好的 ETL 工具用啥,莫非用 airflow? MySQL 库是否就足够了?

    28 条回复    2019-03-28 08:40:21 +08:00
    LightLolo
        1
    LightLolo  
       2019-03-09 13:30:12 +08:00
    ETL 工具可以尝试一下 kettle。
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       2019-03-09 14:56:45 +08:00
    etl hive spark 搞搞就完了
    可视化 superset / zeppelin / Jupyter 哪个简单用哪个
    小公司小团队就别搞啥数据仓库了,工作量太大,搞个数据集市收工
    G64q9J89mN5KSgmE
        3
    G64q9J89mN5KSgmE  
       2019-03-09 17:01:56 +08:00 via iPhone
    先确定数据分析支持的业务范围
    自己采集数据后可以上传阿里云计算,或者直接阿里云采集并计算
    数据展示用 flask+element,一周就可以成型
    hilbertz
        4
    hilbertz  
       2019-03-09 17:14:20 +08:00
    用 greenplum 就可以了
    cqcn1991
        5
    cqcn1991  
    OP
       2019-03-09 18:36:54 +08:00 via Android
    @liprais 啥意思? hive/HDFS 的维护需要多少人?
    cqcn1991
        6
    cqcn1991  
    OP
       2019-03-09 18:51:24 +08:00 via Android
    @ddkk1112 是要用阿里云的什么产品?
    sampeng
        7
    sampeng  
       2019-03-09 18:54:15 +08:00 via iPhone
    直接上云…讲真。这些需求小团队肯定是上云成本最低。无论哪个角度
    cqcn1991
        8
    cqcn1991  
    OP
       2019-03-09 18:58:31 +08:00 via Android
    @sampeng 啥意思? AWS red shift ?
    sampeng
        9
    sampeng  
       2019-03-09 19:01:57 +08:00 via iPhone
    @cqcn1991 网络没问题。如果是海外用户肯定 aws 了。国内不好推荐…没用过…主要是数据的可靠性。腾讯和阿里都出过数据丢失…
    sampeng
        10
    sampeng  
       2019-03-09 19:02:58 +08:00 via iPhone
    @cqcn1991 只是做离线数据分析,日志分析的。我觉得… aws 吧…
    sampeng
        11
    sampeng  
       2019-03-09 19:05:11 +08:00 via iPhone
    最近也正好看到这块。小需求…小团队的需求。aws 都不需要 ec2。全家桶。几天成型。把数据灌进去就能用了
    cqcn1991
        12
    cqcn1991  
    OP
       2019-03-09 19:08:37 +08:00 via Android
    @sampeng aws 除了 red shift 还用些啥产品呢?也是自己部署些应用?有啥推荐的教程之类吗?
    sampeng
        13
    sampeng  
       2019-03-09 19:13:43 +08:00 via iPhone
    @cqcn1991 其它的没了解…不用部署应用…鼠标点点。给你入口,api 把数据灌进去。就能用了…文档很细致了。自己看官网教程吧。算一下费用能不能接受…都是按使用量收费,精确到请求次数。其实阿里云国内也可以。看你看重什么…
    sampeng
        14
    sampeng  
       2019-03-09 19:16:10 +08:00 via iPhone
    @cqcn1991 aws 大计算和 ai 那么多产品呢。总有一个适合你。最不济的。连 elk 都给你准备好了。再高级点就是 emr 了。你要的 hdfs 和 spark。flink 啥的都有。你要的帮你维护机器和程序自己撸用例。
    sampeng
        15
    sampeng  
       2019-03-09 19:17:17 +08:00 via iPhone
    但按你的最近需求。真的 elk 完全够用…几年十来万差不多了…
    cqcn1991
        16
    cqcn1991  
    OP
       2019-03-09 20:01:16 +08:00
    @sampeng 谢谢大哥!
    想问一下,关于数据平台,从几个人,到小团队到大团队的演化,有什么文档、教程吗?
    比如你说的,用 AWS/阿里云 ELK 一直到 HDFS/Spark。因为我知道的就是自研 HDFS+各种自研产品...
    fredliang
        17
    fredliang  
       2019-03-09 20:11:25 +08:00 via Android
    阿里云可以大概过一下 dataworks 的文档,写的已经比较完善了。如果没有很强的自建需求,从经济和研发成本来看公有云应该是最好的选择。
    likuku
        18
    likuku  
       2019-03-09 22:32:52 +08:00 via iPhone
    @cqcn1991 也可以直接打电话找 aws 售前技术支持咨询下,若比较合意,花点小钱买个 aws 技术支持服务,可以详细和专业大佬讨论方案。
    sampeng
        19
    sampeng  
       2019-03-09 22:33:52 +08:00 via iPhone
    @cqcn1991 官方文档…没有之一。实在怕搞不定。都 support 服务。每月 10%支出。甚至会给你架构建议
    sampeng
        20
    sampeng  
       2019-03-09 22:34:55 +08:00 via iPhone
    @cqcn1991 演化就是踩雷的过程。没雷了就演化结束
    wc951
        21
    wc951  
       2019-03-10 00:34:36 +08:00 via Android
    cdh 社区版,etl 用 kettle
    qwingmix
        22
    qwingmix  
       2019-03-26 17:08:39 +08:00
    我们是一致用 GA+google tag manager, 我觉得日活在 10W 以下的基本够用,各种实时啊,聚合啊,埋点专题分析啊,都足够了。python 写脚本定制一些专题,导入到本地数据库,也足够了。 最后用 superset 展示。
    其实你上面也写了这个方案。
    cqcn1991
        23
    cqcn1991  
    OP
       2019-03-26 17:23:50 +08:00 via Android
    @qwingmix 话说你们数据怎么导入的? bigquery 导出?

    用的什么数仓?直接 postgre 备份主库?还是?
    qwingmix
        24
    qwingmix  
       2019-03-27 08:40:58 +08:00
    @cqcn1991 直接通过 python 脚本导出到 mysql,复杂一点的,就先在 python pandas 里面做计算,计算完再导出到 mysql。主要是 python 里面找到一个可以无抽样导出的轮子,轻松解决 GA 数据结果抽样的问题。
    cqcn1991
        25
    cqcn1991  
    OP
       2019-03-27 12:48:39 +08:00 via Android
    @qwingmix 恩,那 GA 的数据咋进去的?先进,big query 吗?
    qwingmix
        26
    qwingmix  
       2019-03-27 14:01:19 +08:00
    @cqcn1991 啊? GA 的,就用 GTM 在 web 和 app 里面调用 GA 的 api 埋点啊。
    cqcn1991
        27
    cqcn1991  
    OP
       2019-03-27 18:50:33 +08:00 via Android
    @qwingmix 那 GA 的原始数据你们拿回来吗?
    qwingmix
        28
    qwingmix  
       2019-03-28 08:40:21 +08:00
    @cqcn1991 仅仅部分会拿,比如 event label 里面塞满了我们自己的维度组合,GA API 拿到本地后分割开来。 一般都不拿原始数据。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2723 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 26ms UTC 08:35 PVG 16:35 LAX 01:35 JFK 04:35
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86