国内搞大数据开发的小公司都有真本事吗 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
KOMA1NIUJUNSHENG
V2EX    职场话题

国内搞大数据开发的小公司都有真本事吗

  •  
  •   KOMA1NIUJUNSHENG 2023-12-14 11:43:49 +08:00 3732 次点击
    这是一个创建于 669 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨天面试了一家搞大数据开发的小公司。主业务应该做的企查查那种搞企业信息搜集的。全程他最关注的点只有我之前项目的数据量,多少 T 的。用了什么工具。对于涉及到 es ,kafka 中技术性的问题倒不是很关注。基本都是我在讲,他就是机械式的问两句。最后来了句你没用过 Hadoop ,数据量没到几十个 T ,经验还是不够。我寻思技术积累必须要体现在这种方面吗,我承认数据量确实是一部分经验的体现,但是更为重要的不是实战中解决问题,优化项目的能力吗,如果只是一个大项目的边缘人能比一个小项目的领头人还厉害吗。是不是有点唯工具论了。
    19 条回复    2023-12-19 15:42:53 +08:00
    laminux29
        1
    laminux29  
       2023-12-14 11:57:51 +08:00
    对方说的没毛病。

    你的确没用过 Hadoop ,数据量的确没到十几个 T 。

    每种工具都有自己的优缺点,既然你是这个行业的人,Hadoop 就算不是常用,也应该熟练掌握。

    而且数据量达到一定程度,很多处理方式与管理方式会发生质变。
    coolfamilyxun
        2
    coolfamilyxun  
       2023-12-14 12:25:59 +08:00 via Android
    没毛病啊,没数据量就是没经验。实打实
    CaptainD
        3
    CaptainD  
       2023-12-14 12:52:59 +08:00
    有没有真本事不一定,我们也是做大数据的小公司,就几个人,数据量很大,文本类有十几 T ,图片类上百 T ,但是我们技术很菜,领导都是学术出身,工程经验基本为 0 ,公司内的架构很糟糕,效率也很低

    说实话我觉得小公司做大数据处境很尴尬,其实我们这种公司没有专业运维,用云服务尤其是 serverless 的服务是最好的选择,但是上云成本又太高,我们这种量级上云就很难下了,迁移成本太大,但是不用云就失去很多运维相关工具,都自建实在是没精力,每天业务上的工作都很多,没人能空出时间搞这些
    KOMA1NIUJUNSHENG
        4
    KOMA1NIUJUNSHENG  
    OP
       2023-12-14 13:47:30 +08:00
    @laminux29 类似 Hadoop ,clickhouse ,kettle 这种工具如果在工作中边做边学的话能快速上手吗。还是说必须要长久的经验。
    SbloodyS
        5
    SbloodyS  
       2023-12-14 13:57:57 +08:00
    对方可能更多的是想要找一个有经验的熟手。

    在大数据这个方向上,工具冗杂,技术更迭快,相同的工具在不同的数据体量下的玩法完全就是云泥之别。

    举个例子,仅 Hadoop 在几十 TB 和几十 PB 下的管理方式、使用方式等就根本不是同一个东西。
    me1onsoda
        6
    me1onsoda  
       2023-12-14 14:11:49 +08:00
    就是单纯想要熟手罢了,也不知道你学习能力如何,找熟手是最保险的策略
        7
    kidult  
       2023-12-14 14:26:28 +08:00
    买的是你的经验,不是花钱找你来让你练级

    很抱歉虽然话不好听,但就是现实
    kidult
    laminux29
        8
    laminux29  
       2023-12-14 15:09:26 +08:00
    @KOMA1NIUJUNSHENG

    至少要搭建一个全功能集群环境,把管理员文档,与用户文档,全部实验一遍,把坑踩一遍,把优点与劣势自己总结一遍。
    G64q9J89mN5KSgmE
        9
    G64q9J89mN5KSgmE  
       2023-12-14 15:14:38 +08:00
    面试前至少自己动手做一遍
    就算上云,你也得考虑如何设计存储和计算架构降低成本,几十 TB 的话,设计的不好,一年得多花几十万
    KOMA1NIUJUNSHENG
        10
    KOMA1NIUJUNSHENG  
    OP
       2023-12-14 15:34:23 +08:00
    @laminux29 自己手上就一台云服务器,搞集群有点力不从心了。
    laminux29
        11
    laminux29  
       2023-12-14 17:22:28 +08:00
    @KOMA1NIUJUNSHENG

    大内存洋垃圾服务器 + PVE 虚拟化。
    block0
        12
    block0  
       2023-12-15 09:11:41 +08:00 via Android
    面试官问的没毛病吧,几十 t ,跟上百 t 几千 t 的处理工程架构完全不一样了,小公司不可能给你学习的时间,是找来就能打仗的。而且小公司的容错能力就差,一个产品失败就可能挂了
    beneo
        13
    beneo  
       2023-12-15 09:14:06 +08:00
    招聘是一个双向选择过程,企业是找合适的,或者从一堆合适的里面矮子里面挑高个。也许这个岗位就是要重经验,轻业务。你可以多表达一下不反对加班,年轻的时候多拼一拼这类的想法,这些因素小公司都喜欢
    noparking188
        14
    noparking188  
       2023-12-16 13:37:02 +08:00   1
    这种专门做数据的公司我呆过两家,都是垂直领域行业 Top ,对方应该也是个半吊子,内部数据架构还在摸索。
    比不了电商、社交平台那种面向 C 端每天都有海量数据产生,单表数据过 T 不得了,各种冗余全加一起能达到 PB 级,数据维度多、价值高、关系杂、时效性高。
    看完 DDIA 这本书,然后各找一个 OLTP/OLAP 数据库,还有 MPP 引擎学习一下原理和底层设计,这样大概肚子里有点货能吹牛皮了。
    都是从开始糊起来的,想一步到位找到近似最优架构以后不换,很难办啊,先把糊了产品撑起来,以后再慢慢搞。
    个人的话就多多关注下 Data Infra 领域的技术动向了,以前有个很不错的 DBWeekly 可惜早不更新了,那些云厂商的各种解决方案挺值得参考的。
    qweruiop
        15
    qweruiop  
       2023-12-17 16:39:59 +08:00
    玩几 t ,几百 t ,pb ,几十 pb ,都是不同的世界和不同的薪资了。
    KOMA1NIUJUNSHENG
        16
    KOMA1NIUJUNSHENG  
    OP
       2023-12-18 09:42:48 +08:00
    @qweruiop 问题是他们这个大数据开发岗位挂的薪资是 10k-14k 。
    eagleex1
        17
    eagleex1  
       2023-12-18 11:53:32 +08:00
    很多人很纠结的一个点,就是面试不过=自己的价值被低估了。
    其实招聘就是个双向选择,有的时候缘分不到就看不对眼,也正常。
    maryshaw
        18
    maryshaw  
       2023-12-19 14:17:17 +08:00
    @KOMA1NIUJUNSHENG 老哥 岗位是数据分析吗
    KOMA1NIUJUNSHENG
        19
    KOMA1NIUJUNSHENG  
    OP
       2023-12-19 15:42:53 +08:00
    @maryshaw 岗位是大数据开发,我是 java
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     1237 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 24ms UTC 23:35 PVG 07:35 LAX 16:35 JFK 19:35
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86