数据分析、挖掘、大数据的问题请求大佬解答 - V2EX
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Geekerstar
V2EX    数据库

数据分析、挖掘、大数据的问题请求大佬解答

  •  
  •   Geekerstar 2021-10-29 14:04:56 +08:00 1880 次点击
    这是一个创建于 1518 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个商品订单记录宽表,是经过多表清洗后形成的,每条数据以一条订单为维度,里面有几个重要的字段(下单人的年龄、性别、喜好、本次订单的购物商品),其中,商品是以 JSON 数组存储在单个字段中的。

    需求:基于这些字段,通过一些数据分析、挖掘等操作后,可以离线计算形成一个对外提供的服务,支持以下功能: 1 、根据喜好推荐商品,判定依据需要来源于上述的数据。 2 、根据上述字段,输出一些统计分析的结论出来

    我不太懂大数据、数据分析挖掘相关的东西,想请教一下各位大佬,处理这个需求有没有什么适用的中间件或数据库,百度了一圈也不太清晰,如 Flink 、ClickHouse 、Neo4j 、ES 、Pandas 等等

    PS:上述的商品订单场景,是为了方便理解,举个类似例子,实际的场景是垂直行业,不太好描述

    9 条回复    2021-10-29 20:51:37 +08:00
    murmur
        1
    murmur  
       2021-10-29 14:07:28 +08:00
    你是做研究还是做生产,生产是不用这个算法的,直接给每个商品打 tag ,比如用户购买了化妆品,那么疯狂推荐化妆品就对了

    这就是现在各大电商平台的算法
    F281M6Dh8DXpD1g2
        2
    F281M6Dh8DXpD1g2  
       2021-10-29 14:14:22 +08:00
    你首先要解决的是人的特征是什么,商品的特征是什么
    人的特征 vs 商品的特征 怎么计算距离
    然后一个人来了找出他的特征计算跟他最近的商品的距离,这就是推荐给他的商品
    人的特征一般就是他的购买历史还有浏览商品啥的,反正整出来一个向量
    商品的特征一般都是跟他一块下单的别的商品,还有品类啥的,反正也整出来一个向量
    然后你就做逻辑回归训练完事
    Geekerstar
        3
    Geekerstar  
    OP
       2021-10-29 14:15:28 +08:00
    @murmur 感谢回复,商品订单是为了方便理解举的例子,实际不是这个场景
    murmur
        4
    murmur  
       2021-10-29 14:23:48 +08:00   2
    @Geekerstar 场景和论文是有区别的

    你会发现落地算法都是 tag 直接关联推荐,打 tag 比规则算法更重要

    你以为的关联规则是:鸡蛋 西红柿 菜刀 砧板 葱
    实际上购物推荐是:化妆品 化妆品 化妆品 化妆品 化妆品

    女性的消费能力太强了,直接可以影响算法决策

    抖音头条不一样,因为他所有的东西都是没意义,都是打发时间部分优劣,所以可以随便推送

    你既然是做产品,看一下竞品的规则是什么样就知道了
    ihehe
        5
    ihehe  
       2021-10-29 14:25:08 +08:00 via iPhone
    推荐很简单啊,哪用得上什么高深技术,随便搞个把 demo 方便以后吹水就行了
    用户搜索过,查看过,收藏过,购买过啥,就疯狂推这个东西给他。
    目前 99.9999%的大厂都这么做的
    jr55475f112iz2tu
        6
    jr55475f112iz2tu  
       2021-10-29 14:26:20 +08:00
    喜好和商品在实际场景里,需要 NLP 吗?还是能直接用数值指代
    Cheons
        7
    Cheons  
       2021-10-29 14:26:56 +08:00 via Android
    网购更多的情况是不满意再买一个
    235777178
        8
    235777178  
       2021-10-29 17:18:29 +08:00
    协同过滤

    https://zhuanlan.zhihu.com/p/80069337

    推荐你要看量级,量级不大就标签,省心省人。
    zxCoder
        9
    zxCoder  
       2021-10-29 20:51:37 +08:00
    @murmur 太真实了。。。
    关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     3232 人在线   最高记录 6679       Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 29ms UTC 10:52 PVG 18:52 LAX 02:52 JFK 05:52
    Do have faith in what you're doing.
    ubao msn snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86