[数据开发] Doris 实际生产经验以及问题请教 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
请不要在回答技术问题时复制粘贴 AI 生成的内容
yellowmarlboro
V2EX    程序员

[数据开发] Doris 实际生产经验以及问题请教

  •  
  •   yellowmarlboro 2023-09-23 15:07:10 +08:00 1896 次点击
    这是一个创建于 750 天前的主题,其中的信息可能已经有所发展或是发生改变。

    本人为数据开发新手。工作内容需要给分析师提供线上实时的计算和统计工作,但是目前业务数据使用的是 mysql ,虽然大部分情况我这里是使用从库,但过于复杂和大量数据的统计使用 mysql 依然不合适。目前有一部分任务可以放在离线大数据平台如 hive 等做,但是还是有一部分需要线上实时的计算(需要和业务主库延迟在毫秒级)的任务需要。实时计算 mysql 的单表数量大多是 10 亿内,会在各表之间关联做逻辑,大概 100 张表 最近调研了一下 doris ,也看了很多文档,但是不知道 doris 在这方面是不是合适,是不是既可以满足在线其它系统实时调用的快速计算,又可以定制批量计算任务?。希望有经验的大佬分享一下。

    另外还有一些问题

    • 数据同步方面,binlog 同步至 doris 是不是保证低数据延迟的解?有没有别的更合适的方案
    • 大家有没有类似的需求又是如何解决的? 谢谢~
    9 条回复    2023-09-28 10:30:57 +08:00
    David1119
        1
    David1119  
       2023-09-23 15:14:52 +08:00
    合适,flink+doris 轻松搞定,如果不需要开窗口或者状态计算,doris 就够
    notvalid
        2
    notvalid  
       2023-09-23 15:34:26 +08:00
    我司用 StarRocks (和 Drois 同源)做流批一体,既可以满足实时计算需求,也可以满足批处理需求。
    mightybruce
        3
    mightybruce  
       2023-09-23 22:08:29 +08:00
    其他方案有 clickhouse, clickhouse 可以直接支持连入 mysql ,并导入
    FYFX
        4
    FYFX  
       2023-09-24 15:19:33 +08:00
    给分析师没啥问题, doris 即席查询挺好的, 多表关联你根据实际情况设置好数据分布问题应该也还好
    给其它系统调用的话可能会有问题的, 我以前碰到过并发量超 100+大查询把整个 doris 集群拖垮的情况,不过看现在 doris 官方的 readme 好像这方面性能也挺好了, 10000QPS TP99<=150ms , 你要用的话建议做好压测吧。。。
    yellowmarlboro
        5
    yellowmarlboro  
    OP
       2023-09-27 21:57:37 +08:00
    @David1119 谢谢你的回答。但是这个地方我有一个问题,如果我是用 flink 的 CDC 去做数据的实时同步到 doris ,并且不在 flink 上加任何状态计算或其他任务,这个延时是可控的吗,这两者之间是否有影响,能否达到毫秒级?这样我也可以在后续根据延迟时间去判断是否在 flink 上增加任务。可以的话我想先 flink+doris ,不用再去找或者自己实现 CDC 。
    yellowmarlboro
        6
    yellowmarlboro  
    OP
       2023-09-27 21:58:44 +08:00
    @notvalid 只是听说 StarRocks 时从 doris fork 来的,不知道最大的区别在哪里?
    yellowmarlboro
        7
    yellowmarlboro  
    OP
       2023-09-27 21:59:20 +08:00
    @mightybruce clickhouse 的话我担心多表 join 查询会撑不住
    yellowmarlboro
        8
    yellowmarlboro  
    OP
       2023-09-27 22:02:51 +08:00
    @FYFX 谢谢你的回答。并发超过 100 的大查询的情况应该不多,就只是基础数据量比较大,可能单表都是 10 亿级以下的,同时还要多表 join 。还有个问题想咨询。关于存储数据的磁盘占用情况,网上看到 Mysql 到 doris 会减少多少百分比的存储,但是没有找到一个确切的实例,请问你在实际中有关注过吗?
    FYFX
        9
    FYFX  
       2023-09-28 10:30:57 +08:00
    @yellowmarlboro #8 这个没有关注过, 而且感觉意义不太大,doris 是列存的的确数据会有压缩, 但是当时我们 doris 本身是多副本的, 实际总的磁盘占用量应该是超过 mysql 的
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     2838 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 25ms UTC 13:13 PVG 21:13 LAX 06:13 JFK 09:13
    Do have faith in what you're doing.
    ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86