简单梳理一年半以来在数据统计方面的心得 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Magic347
V2EX    分享发现

简单梳理一年半以来在数据统计方面的心得

  •  
  •   Magic347 2015 年 12 月 22 日 2671 次点击
    这是一个创建于 3745 天前的主题,其中的信息可能已经有所发展或是发生改变。

    作为一名半路出家的数据统计员,简单梳理一下一年半以来在数据统计方面的心得:

    1 )业务数据统计

    这一类数据统计需求往往伴随着具体业务和产品形态的变化而变化,不过总体上是关于用户行为和用户流量的统计。统计这一类数据的目的一般是为产品的运营和发展方向提供数据支撑和决策支持。需要注意的是,事先要有前瞻性的设计好打点字段,一方面要便于程序的计算,另一方面要易于扩展,尤其在业务统计需求发生变化的时候。而事实也证明,这一类数据统计的需求也是最有可能经常发生变化的。此外,这一类数据在存储和输出上也有很多问题需要解决。往往这一类数据的统计结果数据量会比较大(日数据量往往在百万级),例如产生大量长尾数据,如何有效解决这一类海量数据的存储和查询问题都是值得思考的。 

    2 )交易数据统计

    如今的互联网产品在进入到中后期运营阶段都会考虑产品盈利和变现的问题,那么对交易载体用户订单的统计需求便自然应运而生。几乎所有需要盈利的互联网产品都离不开对用户交易数据的统计。统计这一类数据的目的往往在于评估跟踪产品的盈利能力,同时也提供了在财务结算上必要的支持。需要注意的是,由于该类数据统计存在着财务敏感性,因此如何将交易数据统计准确是值得思考并需要解决的问题。几乎所有互联网产品在用户订单上的设计都涉及了订单状态这个字段,一个订单是否成功交易也往往取决于这一状态值的变化。因此,在交易数据统计上需要精准的感知到这一状态值的变化,在必要时维护好所有订单的历史状态信息,不漏过每一笔最新交易,也不放过每一笔用户退款。 

    3 )服务稳定性统计

    这一类数据统计需求在稍大一些的互联网公司可能会由专门的 SRE 负责,不过也不排除实际工作中数据统计人员需要接手这一类需求。统计这一类数据的目的一般在于对一款产品的后端服务稳定性和健康程度进行数据监控,必要时向工程师提供预警信息(如预警短信和邮件)。这一类数据的统计需求比较常态化,一般大多关注服务端各类接口的流量和耗时、请求的返回结果状态分布等。在统计过程中及时的反馈结果数据并建立有效的预警和监控机制即可。 

    4 )二次统计需求

    这一类数据统计需求往往基于上述三类数据,并在其基础上进行了二次数据处理。统计这一类数据也自然存在更多动机,需要视实际场景而定,例如统计用户入口的活跃率、留存率,用户交易的转化率等等,诸如此类。值得注意的是,上述几大类的统计数据均从产品本身的角度出发,事实上也可以从单个用户的维度出发进行各类数据的二次统计。按照这种思路,很多大型互联网公司都建立起了各自的用户画像系统,提供了对用户本身属性进行评估的一系列量化后的数值指标,例如用户活跃度、用户购买力、用户信誉度以及用户真实度等等,并在此基础之上展开了较为有效的深度数据挖掘工作。 此外值得一提的是,对稍成型一些的互联网产品而言,上述所有类型的统计数据几乎都涉及到了海量日志信息的大规模处理,因此有必要使用一些业界比较成熟的大规模数据并行处理框架来提高数据计算的效率,借助一些专门针对海量数据的存储平台来优化数据持久化存储的性能。其中,可能存在一些计算平台更适用于实时性高的统计需求,一些存储平台可能更适合非结构化数据的存储等等,诸如此类。找到最适合自己的工具,然后在实践中逐步优化这整个过程,这个过程包括了从原始日志的提取、计算和分析,直到最终对统计结果的输出和向用户的友好展示。所有这一切,都值得去深入思考和改善。 以上。 
    1 条回复    2015-12-23 11:11:57 +08:00
    vnady
        1
    vnady  
       2015 年 12 月 23 日
    已经有很多公司在做这一类的分析工具了,比如诸葛 IO
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3267 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 183ms UTC 13:48 PVG 21:48 LAX 06:48 JFK 09:48
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86