大数据经验咨询 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
JellyDong
V2EX    问与答

大数据经验咨询

  •  
  •   JellyDong 2021-01-25 12:10:22 +08:00 2141 次点击
    这是一个创建于 1722 天前的主题,其中的信息可能已经有所发展或是发生改变。

    背景

    公司明年要做大数据相关的项目,目前没有相关工作经验人员,包括领导。

    我们大概有几百台设备,每台设备每秒传输一次数据,大概有 1000 个字段。

    我们现在是想分析这些数据,从而获得一些可以用来决策参考的信息。

    问题

    基于上述情况,有没有什么好的框架可以借鉴使用?或者说相关课程等有推荐吗?

    感谢各位 V 友~

    21 条回复    2021-01-26 10:02:03 +08:00
    mwcodenoname
        1
    mwcodenoname  
       2021-01-25 12:13:56 +08:00
    每次传输数据量有多大?数据存储周期有多长?分析数据需要的查询返回时间是多少?这些都要确定一下。
    比较常用的方案就是 hadoop+hive+spark 这种。
    jr55475f112iz2tu
        2
    jr55475f112iz2tu  
       2021-01-25 12:15:28 +08:00
    这..真的有可能自己做成吗
    感觉这种招人也没办法招,因为没有人懂,所以很难判断招来的人是否靠谱
    相对来说最可能的就是找供应商了
    JellyDong
        3
    JellyDong  
    OP
       2021-01-25 12:26:50 +08:00
    @mwcodenoname
    传输每次大概 1M 左右吧,周期的话我们现在是放到消息队列,然后去消费的。
    JellyDong
        4
    JellyDong  
    OP
       2021-01-25 12:27:52 +08:00
    @czfy 应该是不会找供应商的...可以找培训,后续我们自己做...
    levelworm
        5
    levelworm  
       2021-01-25 12:39:17 +08:00
    你这个项目不小啊。。。假设五百台,一秒 1MB,一秒就是 0.5GB 。一分钟 30GB,一小时 1.8TB ,一天就是 43TB 。好想做这种项目啊。。。这个规模的数据肯定 Hadoop 跑不了了,其他的我也不懂。。。
    jr55475f112iz2tu
        6
    jr55475f112iz2tu  
       2021-01-25 12:39:20 +08:00   1
    @JellyDong 如果你觉得这是培训可以解决的问题..只能祝你好运
    levelworm
        7
    levelworm  
       2021-01-25 12:39:48 +08:00
    @czfy 感觉这种项目经验很宝贵,的确很有意思。。。
    jr55475f112iz2tu
        8
    jr55475f112iz2tu  
       2021-01-25 12:44:55 +08:00
    @levelworm 我是在专门做大数据方面解决方案的公司,不是研发侧,但从我日常和客户以及内部沟通的情况来看,从 0 开始做这件事情,基本很难
    levelworm
        9
    levelworm  
       2021-01-25 12:53:00 +08:00
    @czfy 我觉得也是,完全没经验的话,靠培训我觉得不是很乐观,即使是有开发经验(但是没有大数据开发经验的),因为大数据环境下很多坑都是新的,而且大概率每个坑很贵,无论是上云还是本地。我们公司是做手游的,数据量也不小,得有一整个团队来支撑。
    mwcodenoname
        10
    mwcodenoname  
       2021-01-25 13:03:32 +08:00   1
    @levelworm 这个规模存 hadoop,然后跑 hive 做离线分析应该是没啥问题的,不过集群规模要比较大了,没有团队和有经验的确实维护不动
    levelworm
        11
    levelworm  
       2021-01-25 13:11:30 +08:00
    @mwcodenoname 如果要在线分析的话估计得 Spark 之类的?其实真的好想从头做这么一个项目。。。
    JellyDong
        12
    JellyDong  
    OP
       2021-01-25 13:13:01 +08:00
    @levelworm
    @czfy
    @mwcodenoname
    现在这个项目类似于怎么说呢,科研?对于客户的话也是合作伙伴,是打算一起从头搞的。也可能会考虑找解决方案公司搭建好环境框架,然后后续我们自己维护
    mwcodenoname
        13
    mwcodenoname  
       2021-01-25 13:46:57 +08:00
    @levelworm 传统方案一般要做实时分析就是 spark 、flink 这种计算和 hbase 组合吧,不过最近 clickhouse 也很火,这个我就不熟悉了,这种项目光机器成本就不是一般能承受的了的
    IceMimosa
        14
    IceMimosa  
       2021-01-25 13:47:19 +08:00   1
    1. 数据接收模块:多节点,可以自己写个 web 程序,简单处理下数据和规范格式,然后将数据以日志的方式落地。
    2. 日志收集模块:简单点可以用 flume 收集日志,然后发到 kafka
    3. kafka 消费模块:用 sparkstreaming,flink 之类的处理框架,将数据落到 hive 中( hdfs )
    4. 离线处理:然后起离线任务去处理,可以用 spark,hive 之类的。后面就是数仓干的一些活,每天定时任务可以用 airflow 之类的进行调度。
    5. 数据展示模块:将每天调度出来的统计数据,通过 spark 或者 sqoop 之类的导出的关系型数据库,或者干脆直接上 olap 框架。最后对接一些 bi 系统,比如 metabase,superset 等。

    总之里面技术比较杂乱,还得考虑每个技术版本的兼容性问题。整个环境搭建起来也挺费事的,当然也有整体的解决方案比如 cdh,hdp 之类的。

    相关课程的话,B 站应该有培训的视频,涉及面挺广的,不过学习周期就特别长了。。最好还是有个经验的人带着搞,不然到处都是坑
    ward56
        15
    ward56  
       2021-01-25 14:11:37 +08:00   1
    有幸参与过联通的 Hadoop 大数据,主要存储 GB 以上的数据包,不到半年几十 PB 。
    hadoop 适合存储《大》数据,一次写入多次读取,你的数据真的很大吗?
    从你目前提供的一点信息来看,你的案例比较适合 ES 框架,至于组件用什么,你得再根据自己具体业务选型。
    JellyDong
        16
    JellyDong  
    OP
       2021-01-25 14:19:10 +08:00
    @IceMimosa 是的 现在是想找那么个人带带,先入门
    min
        17
    min  
       2021-01-25 14:43:46 +08:00
    你这数据量不小了,先要把打算怎么分析这些数据搞得清清楚楚,根据分析使用数据的场景再出架构
    masterclock
        18
    masterclock  
       2021-01-25 14:59:05 +08:00
    主业就是这方面的东西,说实话公司从 0 做起难度太大,意义也不大,除非是要做这个行业了。
    1. 搞定这几百台各种各样设备的数据采集:各种 PLC 、Modbus 、OPC-UA 、哑设备?
    2. 考虑网络连接等:以太网、无线、EtherCat 、Ethernet/IP ?
    2. 打通企业现有的信息化系统、MES 、ERP ?
    2. 理解数据,建立模型:谁来建模、谁来分析?
    2. 考虑系统给谁用的,结果是给谁看的:老板、主管、技术人员 ?
    JellyDong
        19
    JellyDong  
    OP
       2021-01-25 16:04:25 +08:00
    @masterclock
    可能后续会单独有一批人搞这个的,公司性质本来是产不多算科研性质吧,出了客户外还是有经费的...
    不需要打通企业其他的信息化系统,后面的 确实是问题....
    Chenamy2017
        20
    Chenamy2017  
       2021-01-26 09:33:36 +08:00
    我们项目两人,然后领导经常嚷着要大数据,看到楼上涉及面很广呀,我也是够了。
    JellyDong
        21
    JellyDong  
    OP
       2021-01-26 10:02:03 +08:00
    @Chenamy2017
    hah...
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3443 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 27ms UTC 04:49 PVG 12:49 LAX 21:49 JFK 00:49
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86